当前位置: 首页 > article >正文

AppAgentx 开源AI手机操控使用分享

项目地址: https://appagentx.github.io/?utm_source=ai-bot.cn

GitHub仓库: https://github.com/Westlake-AGI-Lab/AppAgentX/tree/main

arXiv技术论文:https://arxiv.org/pdf/2503.02268

AppAgentx是什么:

AppAgentX西湖大学推出的一种自我进化式 GUI 代理框架。它通过从执行历史中学习并抽象出高级动作,来提升智能手机交互的效率和智能性。该框架利用记忆与进化机制实现持续优化,性能在测试中显著优于现有方法,为智能代理开辟了新方向。

AppAgentx的主要功能:

自动归纳高效操作模式:检测任务执行中的重复性操作,自动总结为高级别的“一键”操作,简化操作流程。

减少重复计算,提升执行效率:基于记忆和复用执行策略,避免重复推理,让任务执行更高效。

基于视觉的通用操作能力::依赖屏幕视觉信息进行操作,无需后端API支持,在不同软件和设备上通用,实现“即插即用”。

支持复杂任务和跨应用操作: :像人类一样操作各种应用程序,支持复杂的跨应用任务,例如从网页爬取信息后填入Excel,或在多个软件之间联动操作。

AppAgentX的应用场景:

自动化日常操作:自动完成手机设置调整、应用内任务等,减少手动操作。

智能助手增强: 集成到智能助手,帮助用户快速执行复杂任务

企业流程自动化: 用于企业数据录入、报表生成等重复性任务,提高效率。

跨应用任务管理: 支持在不同应用间切换和操作,实现跨平台自动化。

辅助特殊人群: 简化操作流程,帮助老年人或身体不便者更轻松使用手机。

开始使用

  1. LLM 设置和依赖项

本项目使用 LangChain 和 LangGraph 构建代理框架。建议按照其官网建议的安装方法进行安装。其他依赖项请使用pip install -r requirements.txt。LLM 配置请在 文件中调整相关设置config.py

  1. 数据库部署与连接

我们使用 Neo4j 作为代理的内存存储,并利用其 Cypher 查询语言来方便地检索节点。向量存储则使用 Pinecone。请确保在config.py文件中配置了必要的 API 和密钥。更多信息,请访问Neo4j 官网Pinecone 官网

config.py 配置文件

你需要安装Neo4j 到本地,进行部署和运行,同样的Pinecone需要API_KEY

  1. 屏幕识别与特征提取部署

为了简化部署,我们使用 Docker 将屏幕识别和特征提取服务容器化。有关启动容器的说明,请参阅后端文件夹中的 README 文件。请注意,这可能需要 Docker 的 GPU 支持;有关配置,请参阅 Docker 官方文档。这种模块化方法可以轻松替换不同的屏幕解析和特征提取工具,从而显著增强模型的可扩展性。如果您需要部署,请参阅当前项目后端文件夹中的README 文件。

  1. 启动演示

要使用此项目,您首先需要配置ADB(Android Debug Bridge)以将您的 Android 设备连接到您的计算机。

  1. 设置 ADB 并连接您的设备
3.2 在您的电脑上安装 ADB

下载并安装Android Debug Bridge (adb) — 一种命令行工具,可实现您的电脑和 Android 设备之间的通信。

  • 在您的 Android 设备上启用 USB 调试:

  • 转到“设置” > “开发人员选项”并启用“USB 调试”。

  • 使用 USB 数据线将您的设备连接到 PC 。

推荐使用Qtscrcpy工具代替一下

同样的可以使用Android studio的工具进行链接

启动 Gradio

设置好设备或模拟器后,即可启动项目。我们使用Gradio作为前端界面。使用以下命令之一启动演示:

python demo.py 使用前提是你已经安装好了python环境

或者

gradio demo.py

现在,AppAgent就可以使用了!🚀

综上所述的仅适合你是有CUDA显卡的人适合. macos可以直接退出了,因为博主踩坑了. 我还在尝试使用,在macos上测试成功,有待实现.

相关文章:

AppAgentx 开源AI手机操控使用分享

项目地址: https://appagentx.github.io/?utm_sourceai-bot.cn GitHub仓库: https://github.com/Westlake-AGI-Lab/AppAgentX/tree/main arXiv技术论文:https://arxiv.org/pdf/2503.02268 AppAgentx是什么: AppAgentX 是西湖大学推出的一种自我进化式 GUI 代理框架。它通过…...

Axure设计之带分页的穿梭框原型

穿梭框(Transfer)是一种常见且实用的交互组件,广泛应用于需要批量选择或分配数据的场景。 一、应用场景 其典型应用场景包括: 权限管理系统:批量分配用户角色或系统权限数据筛选工具:在大数据集中选择特…...

嵌入式硬件篇---陀螺仪|PID

文章目录 前言1. 硬件准备主控芯片陀螺仪模块电机驱动电源其他2. 硬件连接3. 软件实现步骤(1) MPU6050初始化与数据读取(2) 姿态解算(互补滤波或DMP)(3) PID控制器设计(4) 麦克纳姆轮协同控制4. 主程序逻辑5. 关键优化与调试技巧(1) 传感器校准(2) PID参数整定先调P再调D最后…...

电机控制储备知识学习(五) 三项直流无刷电机(BLDC)学习(四)

目录 电机控制储备知识学习(五)一、三项直流无刷电机(BLDC)学习(四)1)软件方法控制电机转速2)PWM概念和PWM的产生3)转子位置检测和霍尔传感器的工作原理分析4)霍尔传感器安装角度和电…...

Java—— 网络爬虫

案例要求 https://hanyu.baidu.com/shici/detail?pid0b2f26d4c0ddb3ee693fdb1137ee1b0d&fromkg0 http://www.haoming8.cn/baobao/10881.html http://www.haoming8.cn/baobao/7641.html上面三个网址分别表示百家姓,男生名字,女生名字,如…...

Baklib内容中台的主要构成是什么?

Baklib内容中台核心架构 Baklib作为一站式知识管理平台的核心载体,其架构设计围绕智能搜索引擎优化技术与多终端适配响应系统展开。通过模块化内容组件的灵活配置,企业可快速搭建知识库、FAQ页面及帮助中心等标准化场景,同时借助可视化数据看…...

深度解析 Java 中介者模式:重构复杂交互场景的优雅方案

一、中介者模式的核心思想与设计哲学 在软件开发的历史长河中,对象间的交互管理一直是架构设计的核心难题。当多个对象形成复杂的网状交互时,系统会陷入 "牵一发而动全身" 的困境。中介者模式(Mediator Pattern)作为行…...

家用和类似用途电器的安全 第1部分:通用要求 与2005版差异(7)

文未有本标准免费下载链接。 ——增加了“对峰值电压大于15kV的,其放电电能应不超过350mJ”的要求(见8.1.4) 1. GB/T4706.1-2024: 8.1.4 如果易触及部件为下述情况,则不认为其是带电的。 ——该部件由安全特低电压供电,且: 对…...

HTTP Digest 认证:原理剖析与服务端实现详解

HTTP Digest 认证:原理剖析与服务端实现详解 HTTP 协议中的 Digest 认证(摘要认证)是一种比 Basic 认证更安全的身份验证机制,其核心设计是避免密码明文传输,并通过动态随机数(Nonce)防范重放攻…...

untiy实现汽车漫游

实现效果 汽车漫游 1.创建汽车模型 导入汽车模型(FBX格式或其他3D格式),确保模型包含车轮、车身等部件。 为汽车添加碰撞体(如 Box Collider 或 Mesh Collider),避免穿透场景物体。 添加 Rigidbody 组件,启用重力并调整质量(Mass)以模拟物理效果。 2.编写汽车控制脚本…...

PID项目---硬件设计

该项目是立创训练营项目,这些是我个人学习的记录,记得比较潦草 1.硬件-电路原理电赛-TI-基于MSPM0的简易PID项目_哔哩哔哩_bilibili 这个地方接地是静电的考量 这个保护二极管是为了在电源接反的时候保护电脑等设备 大电容的作用:当电机工作…...

Pluto实验报告——基于FM的音频信号传输并解调恢复

目录 一、实验目的 ................................ ................................ ................................ .................. 3 二、实验内容 ................................ ................................ ................................ ......…...

【Redis】AOF日志

目录 1、背景2、工作原理3、核心配置参数4、优缺点5、AOF文件内容 1、背景 AOF(Append Only File)是redis提供的持久化机制之一,它通过记录所有修改数据库状态的写命令来实现数据库持久化。与RDB(快照)方式不同&#…...

Leetcode 2792. 计算足够大的节点数

1.题目基本信息 1.1.题目描述 给定一棵二叉树的根节点 root 和一个整数 k 。如果一个节点满足以下条件,则称其为 足够大 : 它的子树中 至少 有 k 个节点。 它的值 大于 其子树中 至少 k 个节点的值。返回足够大的节点数。 如果 u v 或者 v 是 u 的…...

《关于浔川社团退出DevPress社区及内容撤回的声明》

《关于浔川社团退出DevPress社区及内容撤回的声明》 尊敬的DevPress社区及读者: 经浔川社团内部决议,我社决定自**2025年5月26日**起正式退出DevPress社区,并撤回所有由我社成员在该平台发布的原创文章。相关事项声明如下: …...

Windows逆向工程提升之IMAGE_RESOURCE_DIRECTORY

公开视频 -> 链接点击跳转公开课程博客首页 -> ​​​链接点击跳转博客主页 目录 资源目录概述 什么是资源目录? 资源目录的作用 资源目录的位置 资源目录核心结构 IMAGE_RESOURCE_DIRECTORY IMAGE_RESOURCE_DIRECTORY_ENTRY IMAGE_RESOURCE_DATA_EN…...

使用ps为图片添加水印

打开图片 找到文字工具 输入想要添加的水印 使用移动工具移动到合适的位置 选中文字图层 设置不透明度 快捷键ctrlt可以旋转 另存为png格式图片...

x64_ubuntu22.04.5安装:cuda driver + cuda toolkit

引言 本文操作均已实践验证,安装流程来自nvidia官方文档,验证平台显卡:RTX4070。 验证日期:2025.5.24. 1.安装cuda driver 1.1.安装方式有2种,这里选择方式1: 从apt安装最省事💖&#xff0c…...

开盘啦 APP 抓包 逆向分析

声明: 本文章中所有内容仅供学习交流使用,不用于其他任何目的,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关! 抓包 这是一个记录贴。 这个APP是数…...

vs2022 Qt Visual Studio Tools插件设置

安装之后,需要指定QT中msvc编译器的位置,点击下图Location右边的按钮即可 选择msvc2022_64\bin目录下的 qmake.exe 另一个问题,双击UI文件不能打开设计界面 设置打开方式 选择msvc2022_64\bin目录下的designer.exe 确定即可 然后设置为默认值即可 确定…...

Python包__init__.py标识文件解析

在 Python 中,__init__.py 文件是包(Package)的核心标识文件,它的存在使一个目录被 Python 解释器识别为「包」。这个文件有以下核心作用: 核心作用 标识包的存在 任何包含 __init__.py 的目录都会被 Python 视为一个包…...

【MySQL】第8节|Innodb底层原理与Mysql日志机制深入剖析(一)

MySQL 的 redo log(重做日志) redo log 是 MySQL 中 InnoDB 存储引擎实现事务持久性的关键机制,用于记录数据库数据的变更,确保事务提交后数据不丢失,即使发生宕机也能通过日志恢复数据。 核心作用 1. 实现事务的持…...

电商ERP管理系统,Java+Vue,含源码与文档,统筹订单、库存等,助力电商企业高效运营

前言: 在当今数字化飞速发展的电商时代,电商企业面临着日益激烈的市场竞争和复杂的业务运营环境。为了提升运营效率、降低成本、优化客户体验,一套高效、全面的电商ERP管理系统显得尤为重要。电商ERP管理系统整合了企业内部的各项业务流程&a…...

Spring Boot微服务架构(四):微服务的划分原则

微服务划分原则(CRM系统案例说明) 一、微服务划分的核心原则 单一职责原则(SRP) 每个微服务只负责一个明确的业务功能服务边界清晰,避免功能混杂便于独立开发、测试和部署 业务领域驱动设计(DDD&#xff0…...

【打卡】树状数组的操作

#define MAXN 1000 int n; // 数组实际长度 int array[MAXN]; // 原始数组(下标从0开始) int tree[MAXN]; // 树状数组(下标从1开始) int p[MAXN]; // 前缀和数组(下标从1…...

OpenLayers 加载动画控件

注:当前使用的是 ol 5.3.0 版本,天地图使用的key请到天地图官网申请,并替换为自己的key 地图控件是一些用来与地图进行简单交互的工具,地图库预先封装好,可以供开发者直接使用。OpenLayers具有大部分常用的控件&#x…...

Oracle 基础知识作业的使用

对于DBA来说,数据库Job再熟悉不过了,因为经常要数据库定时的自动执行一些脚本,或做数据库备份,或做数据的提炼,或做数据库的性能优化,包括重建索引等等的工作。 Oracle 视图 User_Jobs 是Oracle数据库中的一…...

HTTP协议初认识、速了解

目录 1. 什么是HTTP协议 2. HTTP协议特点 3. HTTP协议发展和版本 3.1. HTTP1.0 3.2. HTTP1.1 3.3. HTTP2.0 3.4. http1.1和http2.0区别 4. HTTP协议中URI、URL、URN 4.1. URI 4.2. URL 4.3. URN 5. HTTP协议的请求 5.1. HTTP协议中的请求信息 5. 总结 前言 本文讲…...

C#:多线程Task使用

一.Task与Thread Task是架构在Thread之上的,也就是说任务最终还是要抛给线程去执行。Task跟Thread不是一对一的关系,比如开10个任务并不是说会开10个线程,这一点任务有点类似线程池,但是任务相比线程池有很小的开销和精确的控制。…...

模拟电子技术基础----绪论

一、电子技术的发展 1.电子技术的发展,推动计算机技术的发展,使之“无孔不入”,应用广泛! •广播通信:发射机、接收机、扩音、录音、程控交换机、电话、手机 •网络:路由器、ATM交换机、收发器、调制解调…...