当前位置: 首页 > article >正文

零基础玩转Open-AutoGLM:手把手教你用AI自动操控手机,解放双手

零基础玩转Open-AutoGLM手把手教你用AI自动操控手机解放双手你是不是也幻想过只要动动嘴皮子手机就能自己完成所有操作比如早上醒来说一句“帮我点个早餐外卖”手机就自动打开美团找到你常吃的店下单付款一气呵成。或者工作累了说一句“打开抖音给我推荐几个搞笑视频”手机就自动刷起来让你乐呵乐呵。听起来像是科幻电影里的场景但现在这已经变成了现实。今天我就带你一起玩转一个超酷的开源项目——Open-AutoGLM。这是智谱AI推出的一个手机端AI智能助理框架它能像真人一样“看懂”你的手机屏幕然后用自然语言理解你的指令自动帮你完成各种操作。简单来说你只需要告诉它“打开小红书搜美食”它就能自己解锁手机、打开App、搜索、浏览全程无需你动手点击。是不是很神奇接下来我就从零开始手把手教你如何搭建和使用这个“手机管家”让你彻底解放双手。1. 它到底是什么能做什么在开始动手之前我们先搞清楚Open-AutoGLM到底是什么以及它能帮你做什么。你可以把它想象成一个安装在电脑上的“遥控器”但这个遥控器非常智能。它通过一根数据线或者WiFi连接到你的安卓手机然后通过一个强大的AI大脑视觉语言模型来“看”你的手机屏幕理解屏幕上有什么比如按钮、文字、图标最后通过发送指令来“操控”你的手机。它的核心能力可以总结为三点能“看懂”屏幕它不是一个简单的脚本机器人只会机械地点固定位置。它能真正理解屏幕内容比如识别出哪个是“搜索框”哪个是“发送按钮”。能“听懂”人话你不需要学习复杂的编程命令。直接用大白话说出你的需求比如“给张三发微信说晚上一起吃饭”它就能理解并执行。能“动手”操作理解之后它会自动规划一系列操作步骤比如点击、滑动、输入文字像真人一样完成整个任务。那么它能帮你做什么呢场景太多了生活助手自动点外卖、订电影票、查快递、设闹钟。社交达人自动给朋友圈点赞、回复评论、群发消息需谨慎使用。工作利器自动打开办公软件记录会议纪要、整理文件需要结合其他工具。娱乐玩家自动刷短视频、玩游戏做日常任务。它的设计也很贴心遇到支付、修改密码等敏感操作时会停下来让你确认安全性有保障。2. 准备工作让你的电脑和手机“牵手成功”万事开头难但只要跟着步骤走十分钟就能搞定环境。你需要准备两样东西一台电脑Windows或Mac都行和一部安卓手机系统7.0以上。2.1 电脑端安装必备工具首先在你的电脑上需要安装两个核心工具Python和ADB。安装Python这是运行AI控制程序的语言环境。去Python官网下载3.10或以上版本安装即可。安装时记得勾选“Add Python to PATH”这样后面用起来方便。安装ADB工具ADB是“安卓调试桥”是电脑和手机通信的桥梁。Windows用户去官网下载一个叫“Platform-Tools”的压缩包解压到一个你记得住的文件夹比如C:\adb。配置环境变量关键步骤在电脑搜索栏输入“环境变量”打开“编辑系统环境变量”。点击“环境变量”在下面的“系统变量”里找到并选中“Path”点击“编辑”。点击“新建”把刚才解压的adb文件夹的完整路径例如C:\adb粘贴进去然后一路点“确定”。最后打开电脑的“命令提示符”按WinR输入cmd回车输入adb version并回车。如果出现一串版本号恭喜你配置成功了Mac用户就简单多了。下载解压后打开“终端”输入以下命令假设你解压到了“下载”文件夹export PATH${PATH}:~/Downloads/platform-tools同样在终端输入adb version检查是否成功。2.2 手机端开启“开发者模式”要让电脑控制手机需要在手机上打开几个开关。开启开发者选项进入手机的“设置” - “关于手机”找到“版本号”这一项连续快速点击7次直到屏幕提示“您已处于开发者模式”。开启USB调试退回设置现在你应该能看到多了一个“开发者选项”可能在“系统”或“更多设置”里。点进去找到“USB调试”打开它。安装ADB键盘可选但推荐为了让AI能更稳定地在手机上输入文字建议安装一个叫“ADB Keyboard”的输入法。你可以在网上搜索下载它的APK安装包安装到手机。然后在“设置” - “系统管理/更多设置” - “语言与输入法” - “默认键盘”中将它设为默认输入法。2.3 连接手机与电脑用数据线将手机连接到电脑。此时手机会弹出一个“是否允许USB调试”的提示勾选“始终允许”然后点击“确定”。回到电脑的命令行Windows是cmd或PowerShellMac是终端输入命令adb devices你会看到一个设备列表里面有你手机的序列号后面跟着device字样。这就表示连接成功了小技巧想摆脱数据线你可以使用WiFi连接。先用数据线连一次在命令行输入adb tcpip 5555这条命令让手机开启网络调试端口。然后拔掉数据线确保手机和电脑在同一个WiFi下。在手机上查看你的WiFi IP地址一般在设置-WLAN-点击已连接的网络查看。最后在电脑命令行输入adb connect 你的手机IP地址:5555 # 例如adb connect 192.168.1.100:5555再次输入adb devices你会看到设备通过IP地址连接上了。3. 获取AI大脑部署Open-AutoGLM控制端环境搭好了现在我们把“遥控器”和“AI大脑”装到电脑上。下载控制程序打开命令行找一个你喜欢的文件夹执行以下命令来下载Open-AutoGLM的代码git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM如果git命令不熟悉也可以直接去GitHub项目页面下载ZIP包解压。安装依赖包进入项目文件夹后运行以下命令安装运行所需的所有软件包pip install -r requirements.txt pip install -e .这个过程可能会花几分钟耐心等待即可。4. 启动AI助理给你的手机下第一个命令激动人心的时刻到了我们现在要让AI开始工作。但AI需要一个“大脑”来思考也就是模型服务。你有三种选择方案A使用在线API最简单直接使用智谱AI或魔搭社区提供的在线服务无需自己部署模型适合绝大多数用户。方案B本地部署模型最自由在自己的电脑或服务器上运行模型数据完全本地处理适合有显卡GPU且追求隐私和速度的开发者。为了快速体验我强烈推荐方案A。这里以使用智谱AI的在线API为例获取API Key访问智谱AI开放平台注册账号并创建一个API Key。运行你的第一个AI指令在命令行中切换到Open-AutoGLM项目目录运行以下命令请替换你的API_KEYpython main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --apikey 你的API_KEY \ 打开设置然后进入‘关于手机’告诉我手机型号命令解释--base-url: 告诉程序去哪里找AI大脑这里用的是智谱的在线服务地址。--model: 指定使用哪个模型这里用autoglm-phone。--apikey: 你的通行证证明你有权使用这个服务。最后引号里的内容就是你的自然语言指令。运行后你会看到程序开始运行它先通过ADB连接你的手机然后截图将图片和你的指令一起发给AI模型。AI“看”完截图分析出下一步应该点哪里比如“设置”图标然后发送点击指令。手机会自动跳转到设置页面程序再次截图分析点击“关于手机”……直到完成任务并在命令行里输出找到的手机型号信息。恭喜你你的手机已经完成了第一次AI自动化操作5. 更多玩法与实战案例学会了基础操作我们来玩点更实用的。5.1 交互模式和AI对话操控手机除了执行单条命令你还可以进入“聊天模式”。运行命令时不加最后的指令python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --apikey 你的API_KEY程序会启动并等待你输入指令。你可以像和朋友聊天一样一条接一条地下命令你打开微信 AI: 自动操作打开微信 你找到‘文件传输助手’ AI: 自动滑动、点击找到并进入聊天窗口 你输入“测试消息发送成功” AI: 自动点击输入框调用ADB键盘输入文字点击发送这种方式非常适合完成一系列连续任务。5.2 实战案例自动点一杯奶茶假设你想让AI帮你用美团点一杯奶茶。你可以这样命令它python main.py ...你的API参数... “打开美团外卖搜索‘喜茶’选择离我最近的门店点一杯‘烤黑糖波波牛乳’规格选大杯、冰、不另外加糖然后加入购物车”当然实际体验中过于复杂的任务可能需要拆分成几步或者中间遇到商品缺货等情况需要人工干预。但这已经展示了巨大的潜力。5.3 使用Python代码精细控制如果你懂一点Python还可以用更编程的方式来控制灵活性更高。创建一个demo.py文件from phone_agent.adb import ADBConnection, list_devices from phone_agent.agent import PhoneAgent import asyncio async def main(): # 1. 连接你的手机替换为你的设备ID或IP conn ADBConnection() success, msg conn.connect(你的设备ID) # 例如 192.168.1.100:5555 print(f连接状态: {msg}) if success: # 2. 创建AI代理 agent PhoneAgent( base_urlhttps://open.bigmodel.cn/api/paas/v4, modelautoglm-phone, api_key你的API_KEY, device_id你的设备ID ) # 3. 下达一个复杂任务 task 打开时钟应用设置一个20分钟后的闹钟命名为‘午休结束’ print(f执行任务: {task}) # 4. 运行代理执行任务 await agent.run(task) print(任务执行完毕) # 5. 断开连接 conn.disconnect(你的设备ID) if __name__ __main__: asyncio.run(main())这段代码展示了如何以编程方式连接设备、创建代理、执行任务。你可以在此基础上开发更复杂的自动化流程。6. 总结跟着上面的步骤走一遍你应该已经成功让AI接管了你的手机。我们来回顾一下今天的收获Open-AutoGLM是什么一个能看懂屏幕、听懂人话、自动操作手机的AI智能体框架。核心价值将自然语言指令转化为具体的手机操作真正解放双手提升效率。它为自动化测试、无障碍辅助、个人效率工具等领域提供了新的可能性。上手关键核心在于搭建ADB环境并成功连接手机然后选择一个模型服务在线API最方便即可开始体验。注意事项安全第一对于支付、转账、修改核心设置等敏感操作务必谨慎最好启用其内置的确认机制。并非万能面对极其复杂、动态变化快的界面如一些游戏或者需要极高判断力的任务它可能力有不逮。持续进化这是一个开源项目还在快速发展中未来肯定会支持更多应用和更复杂的任务。从“手动点点点”到“动动嘴皮子”Open-AutoGLM为我们推开了一扇新的大门。它不仅仅是一个工具更是一种人机交互新范式的开端。无论是想偷懒的普通用户还是寻找自动化解决方案的开发者都值得尝试一下。想象一下未来你的手机真的成了一个懂你、帮你的智能伙伴这种感觉是不是很棒现在就从给你的手机下第一个AI指令开始吧获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

相关文章:

零基础玩转Open-AutoGLM:手把手教你用AI自动操控手机,解放双手

零基础玩转Open-AutoGLM:手把手教你用AI自动操控手机,解放双手 你是不是也幻想过,只要动动嘴皮子,手机就能自己完成所有操作?比如,早上醒来,说一句“帮我点个早餐外卖”,手机就自动…...

强化学习到底给大模型带来了什么?从 Search Agent 实战到三篇顶会论文的交叉验证

强化学习到底给大模型带来了什么?从 Search Agent 实战到三篇顶会论文的交叉验证之前内部团队用 34 台服务器搭了个 Search Agent,跑完实验后得出一个颠覆性结论:RL 不是在教模型"变聪明",而是在"训练它听话"…...

java快速排序超详细总结:核心实现+简化版+趣味版

java快速排序超详细总结:核心实现简化版趣味版面试高频 | 四种写法 | 含过程演示 | 新手友好概要 详解快速排序三种写法:挖坑法、双指针交换法、单指针法,每种均附分步演示与代码注释。涵盖复杂度分析、稳定性及面试易错点,附Pyth…...

UG NX中快速摆正零件视角的几种常用方法

你可以通过选择平面后按 F8 来实现特定视角的摆正。 特征过滤器通常用于选择特定类型的几何体(如面、边、体),但在“摆正视角”这个操作中,更准确的说法是利用面的法向。 以下是UG NX中快速摆正零件视角的几种常用方法,从基础到进阶: 1. 基础方法:…...

Memos 备忘录的Markdown语法介绍

了解如何使用 Markdown 来格式化你的备忘录,Memos 支持遵循 CommonMark 和 GitHub Flavored Markdown (GFM) 规范的 Markdown 格式。本指南涵盖了最常用的语法。可作为日常速查表文本格式**粗体文本** *斜体文本* ~~删除线~~ 行内代码 结果:粗体文本、斜…...

YOLO26改进96:全网首发--c3k2模块添加ConvAttn模块

论文介绍 论文核心内容翻译 本文致力于解决轻量级图像超分辨率(SR)任务中Transformer模型的高计算开销问题。基于对自注意力机制层间重复性的观察,提出了一种卷积化自注意力模块——卷积注意力(ConvAttn),该模块通过单个共享大核和动态卷积核,模拟自注意力机制的远程建…...

YOLO26改进95:全网首发--c3k2模块添加ESC模块

论文介绍 论文核心内容翻译 本文致力于解决轻量级图像超分辨率(SR)任务中Transformer模型的高计算开销问题。基于对自注意力机制层间重复性的观察,提出了一种卷积化自注意力模块——卷积注意力(ConvAttn),该模块通过单个共享大核和动态卷积核,模拟自注意力机制的远程建…...

Unity CG着色器实战

卡通风格先一个Pass只渲染背面,黑色,沿法线膨胀,做轮廓线效果;正式渲染Pass,漫反射采样一个逐渐变暗的纹理,做出硬边明暗。高光反射和一个阈值比较,大于则直接显示高光颜色。Shader "My/To…...

直接上结论:10个AI论文网站测评!本科生毕业论文写作必备工具推荐

在当前学术写作日益依赖AI工具的背景下,本科生在毕业论文写作过程中常常面临选题困难、文献检索繁琐、内容逻辑不清、格式规范不熟等多重挑战。为了帮助学生高效完成高质量论文,笔者基于2026年的实测数据与真实用户反馈,对市面上主流的10个AI…...

综述不会写?10个AI论文工具测评:本科生毕业论文写作与科研写作必备神器

在当前学术写作日益数字化的背景下,越来越多的学生和研究者开始依赖AI工具提升写作效率与质量。然而,面对市场上种类繁多的论文辅助工具,如何选择真正适合自己的产品成为一大难题。为此,我们基于2026年的实测数据与用户反馈&#…...

认知引力统一场论:从物理定律到认知现象的通用智能基础

认知引力统一场论:从物理定律到认知现象的通用智能基础Cognitive Unified Field Theory: From Physical Laws to Cognitive Phenomena as the Foundation of General Intelligence摘要本文提出认知引力统一场论(CUFT),UCFT与认知三论的认知架构深度融合&…...

全网最全 10个AI论文平台:开源免费测评,开题报告与毕业论文写作必备工具推荐

在当前学术研究日益数字化的背景下,AI写作工具已成为高校师生和科研人员不可或缺的辅助工具。然而,面对市场上种类繁多的平台,如何选择真正高效、实用且符合个人需求的工具,成为一大难题。为此,我们基于2026年的实际测…...

【模板】多重背包【牛客tracker 每日一题】

【模板】多重背包 时间限制:5秒 空间限制:256M 网页链接 牛客tracker 牛客tracker & 每日一题,完成每日打卡,即可获得牛币。获得相应数量的牛币,能在【牛币兑换中心】,换取相应奖品!助力…...

windows常用脚本

安装uv powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.sh | iex"...

AI Agent时代,记忆才是真正的“进化引擎”【科普指南】

最近看到论文来自牛津、南洋理工、北大、复旦、Georgia Tech等顶级机构,40多位研究员联手写了一篇叫《Memory in the Age of AI Agents》的调研报告(arXiv 2512.13564)。核心结论很狠:99%的Agent架构其实从根上就错了,…...

改稿速度拉满 10个降AIGC软件全场景通用测评:哪个能帮你高效降AI率?

在学术写作和论文撰写过程中,AI生成内容的痕迹往往成为查重率居高不下的关键因素。随着AIGC技术的普及,越来越多的作者开始关注如何有效降低AI痕迹、提升论文的原创性与可读性。AI降重工具应运而生,它们不仅能够精准识别并修改AI生成内容&…...

新手也能上手!冠绝行业的AI论文写作软件 —— 千笔·专业论文写作工具

你是否曾在论文写作中感到无从下手?选题纠结、框架混乱、文献检索困难、查重率高得让人焦虑……这些困扰,是否让你夜不能寐?面对繁杂的学术任务,很多同学都感到力不从心。而如今,一款专为学生打造的AI论文写作工具——…...

对比一圈后! 降AIGC软件 千笔·专业降AI率智能体 VS 云笔AI 专科生首选

在AI技术迅速发展的今天,越来越多的学生开始借助AI工具辅助论文写作,以提升效率和内容质量。然而,随着各大查重系统对AI生成内容的识别能力不断提升,"AI率超标"问题逐渐成为学术写作中的一大难题。无论是知网、维普还是…...

(leetcode)力扣100 96.只出现一次的数字(位运算)

题解给你一个 非空 整数数组 nums &#xff0c;除了某个元素只出现一次以外&#xff0c;其余每个元素均出现两次。找出那个只出现了一次的元素。 你必须设计并实现线性时间复杂度的算法来解决此问题&#xff0c;且该算法只使用常量额外空间。 数据范围1 < nums.length < …...

永磁同步电机与无刷直流电机 FOC 过调制算法的探索与实践

永磁同步电机 无刷直流电机FOC过调制算法&#xff0c;共5种&#xff0c;并且含有6种DPWM控制&#xff0c;包含经典FOC电流环&#xff0c;经典SVPWM,简易SVPWM,弱磁&#xff0c;前馈解耦&#xff0c;5种过调制算法各有特点&#xff0c;全部提取工程实践&#xff0c;全部在项目中…...

计算机毕业设计源码:Python旅游大数据智能可视化看板 Flask框架 可视化 旅游 出行 出游 大数据 大模型 数据分析 agent(建议收藏)✅

1、项目介绍 技术栈 Python语言、Flask框架、Echarts可视化工具、HTML前端技术&#xff0c;用于旅游数据的可视化呈现与分析。 功能模块旅游大数据大屏旅游板块分析——游客旅游板块分析——商家旅游舆情分析 项目介绍 旅游大数据分析可视化系统基于Python Flask框架构…...

什么是Spring Boot 应用开发?

一、引言 在当今的软件开发领域&#xff0c;Java 依然占据着重要的地位&#xff0c;而 Spring Boot 作为 Java 生态系统中极具影响力的框架&#xff0c;极大地简化了企业级应用的开发流程&#xff0c;提升了开发效率和应用的可维护性。它基于 Spring 框架构建&#xff0c;通过约…...

核心框架源码常见问题(下)

1、BeanFactory跟FactoryBean的区别&#xff08;常识&#xff09;在Spring框架中&#xff0c;BeanFactory和FactoryBean就不是一个东西&#xff0c;名字看着像一点。首先这哥俩都是接口。其中BeanFactory其实就是咱们一直在说的Spring容器&#xff0c;Spring工厂&#xff0c;IO…...

Java 池化技术

Java中的池化技术&#xff0c;这是一种通过重用对象来提升性能的重要技术。1. 什么是池化技术池化技术的核心思想是&#xff1a;将资源预先创建好&#xff0c;放在一个"池子"里&#xff0c;需要时从池中获取&#xff0c;用完后归还&#xff0c;而不是每次都创建新的。…...

视频批量加封面软件|智能截取指定时间帧生成封面,离线可用一键适配多平台

温馨提示&#xff1a;文末有联系方式【核心功能&#xff1a;智能批量封面生成】 本工具专为内容创作者与运营人员设计&#xff0c;可对多个视频文件进行统一化封面处理。 无需逐个打开编辑&#xff0c;只需设定目标时间点&#xff08;如3秒、5秒或片头黄金帧&#xff09;&#…...

多平台智能邮件群发工具|Python底层开发|支持变量模板、附件批量发送与失败邮箱自动记录

温馨提示&#xff1a;文末有联系方式产品核心功能概览 本工具是一款专为高效邮件分发设计的智能解决方案&#xff0c;突破单一邮箱限制&#xff0c;全面兼容主流邮件平台&#xff08;包括但不限于QQ邮箱、163邮箱、Gmail、Outlook、Yahoo等&#xff09;作为发信源&#xff0c;可…...

Memtest86中文版内存诊断工具|U盘启动DDR2-DDR5全兼容|军工级精准检测蓝屏死机根源

温馨提示&#xff1a;文末有联系方式一、什么是Memtest86中文版内存诊断工具 Memtest86中文版是一款专为硬件工程师、IT运维人员及DIY爱好者打造的高可靠性内存检测解决方案。 它基于国际公认权威内核&#xff0c;完整汉化界面&#xff0c;支持U盘免安装一键启动&#xff0c;无…...

Golang实现企业级AI智能体安全合规自动化检测系统

摘要:随着欧盟AI法案(EU AI Act)2026年3月实施细则正式生效,以及中国《网络安全法》修订版新增AI安全专项条款,企业部署AI智能体面临前所未有的合规压力。本文基于Golang构建企业级AI智能体安全合规自动化检测系统,实现法规条款智能解析、智能体行为实时监控、多维度风险…...

面试官与水货程序员谢飞机的面试奇遇记

面试官与水货程序员谢飞机的面试奇遇记 第一轮&#xff1a;基础入门 面试官&#xff1a;"谢飞机同学你好&#xff0c;请先简单介绍一下自己吧。" 谢飞机&#xff1a;"呃...面试官你好&#xff0c;我叫谢飞机&#xff0c;从事Java开发三年多了&#xff0c;做过一…...

互联网大厂Java面试现场:严肃面试官与搞笑程序员谢飞机的爆笑对决

互联网大厂Java面试现场&#xff1a;面试官与水货程序员谢飞机的爆笑对决人物介绍 面试官&#xff1a;某互联网大厂技术总监&#xff0c;提问风格严谨&#xff0c;喜欢循序渐进引导 谢飞机&#xff1a;三年CRUD经验的水货程序员&#xff0c;简历吹上天&#xff0c;面试全靠编第…...