Skip to content

考虑结合使用XML解析出来的可交互元素信息吗? #287

@languse-ai

Description

@languse-ai

感谢分享这么棒的项目和模型。受到这个项目和browser-use的启发,我自己做了一个android-use, 不一样的地方是它不是纯靠视觉的方案,而是通过 XML 解析技术自动高亮可交互元素,并支持通过索引进行点击,显著提升了 Agent 的定位能力和操作准确性。基本支持市面上主流的模型,甚至包括非视觉的模型包括GLM-4.7, kimi-k2, deepseek等

1224.mp4

另外有几个小的tips想分享一下:

  1. 可以考虑是用uiautomator2这个库来做跟android的交互, 它接口封装得挺好得,而且会自动安装adb keyboard, 省去用户安装的麻烦。
  2. 可以考虑用adbutils这个库来做adb得底层交互,也省去用户安装adb。
  3. 可以考虑让agent一步输出多个action,这样可以提升效率,目前android-use已经支持

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions