-
Notifications
You must be signed in to change notification settings - Fork 3.2k
Open
Description
感谢分享这么棒的项目和模型。受到这个项目和browser-use的启发,我自己做了一个android-use, 不一样的地方是它不是纯靠视觉的方案,而是通过 XML 解析技术自动高亮可交互元素,并支持通过索引进行点击,显著提升了 Agent 的定位能力和操作准确性。基本支持市面上主流的模型,甚至包括非视觉的模型包括GLM-4.7, kimi-k2, deepseek等
1224.mp4
另外有几个小的tips想分享一下:
- 可以考虑是用uiautomator2这个库来做跟android的交互, 它接口封装得挺好得,而且会自动安装adb keyboard, 省去用户安装的麻烦。
- 可以考虑用adbutils这个库来做adb得底层交互,也省去用户安装adb。
- 可以考虑让agent一步输出多个action,这样可以提升效率,目前android-use已经支持
vvincent1234, Sosekie and BBCoderx
Metadata
Metadata
Assignees
Labels
No labels