当前位置: 首页 > article >正文

UI-TARS与Midscene.js自动化探索

结合 Midscene.js 和 UI-TARS 大模型 实现 UI 页面自动化的可实施方案,涵盖环境配置、核心流程、代码示例及优化建议:

一、环境配置与工具集成

  1. 安装 Midscene.js

    • 方式一:通过 Chrome 插件快速安装(适用于浏览器自动化场景)。
    • 方式二:从 GitHub 下载源码集成到现有项目(支持 Node.js 或 Puppeteer 环境)。
  2. 配置 UI-TARS 模型服务

    • 模型部署:在阿里云 PAI、ModelScope 等平台部署 UI-TARS 模型(推荐使用 7B 或 72B 版本)。
    • API 接入:获取模型服务的 endpoint URLAPI Token,并在 Midscene.js 中配置以下参数:
      const mid = new Midscene({OPENAI_API_KEY: "<UI-TARS-API-TOKEN>",OPENAI_BASE_URL: "<UI-TARS-ENDPOINT>/v1",MIDSCENE_MODEL_NAME: "UI-TARS-7B-SFT" // 根据部署版本调整
      });
      

二、核心功能实现方案

1. 行为操作(AI Action)

通过自然语言指令驱动页面交互,UI-TARS 解析指令并生成精准操作(点击、输入、滚动等)。
示例代码

// 电商网站自动化下单流程
await mid.aiAction('打开浏览器并访问电商网站首页', { url: 'https://example.com' });
await mid.aiAction('在搜索框中输入“手机”并点击搜索按钮');
await mid.aiAction('选择搜索结果中的第一个商品并进入详情页');
await mid.aiAction('点击“加入购物车”并跳转到结算页面');

优势

  • UI-TARS 的 增强感知能力 能识别复杂 UI 元素(如动态加载的列表)。
  • 支持多级推理(如先滚动定位再点击)。
2. 数据提取(AI Query)

从页面中提取结构化数据,结合 UI-TARS 的 GUI 增强感知 能力,支持动态元素识别。
示例代码

const productInfo = await mid.aiQuery({name: '商品名称,string',price: '当前价格,number',stock: '库存状态,boolean'
});
// 输出示例:{ name: "某品牌手机", price: 2999, stock: true }

应用场景:价格监控、数据爬取等。

3. 断言验证(AI Assert)

通过自然语言描述预期结果,UI-TARS 结合 System 2 推理 验证页面状态。
示例代码

await mid.aiAssert('购物车中显示的商品总价为 2999 元');
await mid.aiAssert('当前页面包含“订单提交成功”提示');

优化建议:对于关键断言,可结合传统断言库(如 Jest)提升稳定性。


三、调试与优化

  1. 调试配置

    • 启用 MIDSCENE_DEBUG_AI_PROFILE=1 查看每次调用的 Token 消耗和执行时间。
    • 使用 可视化报告 回放操作步骤,定位失败环节。
  2. 性能优化

    • 短期记忆利用:通过 context 参数传递历史操作,减少重复推理。
    • 混合定位策略:对高稳定性要求的元素,结合 CSS 选择器与 AI 指令(如 mid.click('#search-box', { aiFallback: '在搜索框输入关键词' }))。

四、扩展应用场景

  1. 跨平台自动化
    • 结合 UI-TARS-Desktop 客户端实现桌面应用自动化(如调整 PPT 样式、修改系统设置)。
  2. 复杂任务处理
    • 利用 UI-TARS 的 多级思维模式 处理多步骤任务(如“从邮箱下载附件并解析内容”)。

五、代码示例(完整流程)

const { Midscene } = require('@midscene/web');
const puppeteer = require('puppeteer');(async () => {const browser = await puppeteer.launch();const page = await browser.newPage();const mid = new Midscene(page, {OPENAI_API_KEY: "sk-xxx", // 替换为 UI-TARS 的 API KeyOPENAI_BASE_URL: "https://ui-tars-endpoint/v1"});try {// 步骤 1:登录操作await mid.aiAction('打开登录页面并输入用户名和密码', {username: 'test@example.com',password: 'password123'});// 步骤 2:数据提取const userProfile = await mid.aiQuery({name: '用户昵称,string',role: '用户角色,string'});console.log('用户信息:', userProfile);// 步骤 3:断言验证await mid.aiAssert('页面右上角显示“欢迎回来”提示');} finally {await browser.close();}
})();

六、注意事项

  • 指令清晰度:避免模糊描述(如“点击那个按钮”),需明确元素特征(如“点击蓝色‘提交’按钮”)。
  • 模型适配:UI-TARS 在动态环境(如 Android 应用)中表现更优,静态网页可优先使用 GPT-4o。

通过上述方案,可快速构建基于自然语言的 UI 自动化流程,显著降低脚本维护成本。如需进一步优化,建议参考 UI-TARS 官方文档 和 Midscene.js 示例项目。

相关文章:

UI-TARS与Midscene.js自动化探索

结合 Midscene.js 和 UI-TARS 大模型 实现 UI 页面自动化的可实施方案&#xff0c;涵盖环境配置、核心流程、代码示例及优化建议&#xff1a; 一、环境配置与工具集成 安装 Midscene.js 方式一&#xff1a;通过 Chrome 插件快速安装&#xff08;适用于浏览器自动化场景&#x…...

关于 URH(Universal Radio Hacker) 的详细介绍、安装指南、配置方法及使用说明

URH&#xff1a;开源无线电协议分析工具 一、URH简介 URH 是一款开源的 无线电协议分析工具&#xff0c;专注于解码、分析和逆向工程无线通信协议&#xff08;如 Wi-Fi、蓝牙、RFID、LoRa、Zigbee 等&#xff09;。它支持信号捕获、协议树构建、数据可视化及自定义脚本扩展&a…...

工业软件的破局与重构:从技术依赖到自主创新的未来路径

工业软件作为现代工业的“神经与大脑”&#xff0c;不仅是制造业数字化转型的核心工具&#xff0c;更是国家工业竞争力的战略制高点。近年来&#xff0c;中国工业软件市场在政策驱动与技术迭代中迅猛发展&#xff0c;但核心技术受制于人的困境仍待突破。如何实现从“跟跑”到“…...

C++ 介绍STL底层一些数据结构

c 标准模板库中&#xff0c;set和map的底层实现通常基于红黑树&#xff0c;然们都是平衡二叉搜索树(Balanceed Binary Serach Tree&#xff09;的一种,这种结构保证了 插入&#xff0c;删除&#xff0c;查找的时间复杂度为O(log n)比普通二叉搜索树更高效。 set set<T>…...

CAJ转PDF:复杂的转换背后有哪些挑战?

CAJ转PDF&#xff1a;复杂的转换背后有哪些挑战&#xff1f; CAJ文件格式作为中国学术期刊的标准格式&#xff0c;广泛应用于学术文献的存储和分享&#xff0c;尤其是在中国知网&#xff08;CNKI&#xff09;中。然而&#xff0c;这种专有格式也带来了许多使用上的不便&#x…...

LeetCode Hot 100 - 子串 | 560.和为K的子数组、239.滑动窗口最大值、76.最小覆盖子串

560.和为K的子数组 前缀和哈希表 要查找的子数组为连续的&#xff0c;可以由两个前缀和计算得出,满足题目的条件为preSum[i] - preSum[j-1] k&#xff0c;所以我们可以用哈希表记录前缀和出现的次数&#xff0c;在遍历到位置 i 时计算出preSum[i] - k ,查看哈希表中是否有对…...

AI比人脑更强,因为被植入思维模型【18】万物系统思维模型

把事物看成链&#xff0c;看成网&#xff0c;看成生态。 定义 万物系统思维模型是一种将宇宙万物视为一个相互关联、相互作用的整体系统的思维方式。它强调从系统的角度去认识、分析和解决问题&#xff0c;认为系统中的各个要素之间存在着复杂的相互关系&#xff0c;这些关系不…...

常见中间件漏洞攻略-Tomcat篇

一、 CVE-2017-12615-Tomcat put方法任意文件写入漏洞 第一步&#xff1a;开启靶场 第二步&#xff1a;在首页抓取数据包&#xff0c;并发送到重放器 第三步&#xff1a;先上传尝试一个1.txt进行测试 第四步&#xff1a;上传后门程序 第五步&#xff1a;使用哥斯拉连接 二、后…...

小智物联网开发:为小智安装“机械臂“(其实就是加个舵机进行语音控制)

小智物联网开发&#xff1a;打造专属智能助手&#xff0c;开启智能生活新纪元 在物联网蓬勃发展的今天&#xff0c;小智物联网开发正引领着一股创新浪潮&#xff0c;为我们的生活和工作带来前所未有的便利与智能体验。今天&#xff0c;就让我们一起深入探索小智物联网开发的魅…...

【Dive Into Stable Diffusion v3.5】2:Stable Diffusion v3.5原理介绍

【Dive Into Stable Diffusion v3.5】系列博文&#xff1a; 第1篇&#xff1a;开源项目正式发布——深入探索SDv3.5模型全参/LoRA/RLHF训练第2篇&#xff1a;Stable Diffusion v3.5原理介绍 目录 1 前言1.1 扩散模型的原理1.2 损失函数1.3 加噪流程1.4 推理流程1.5 negative pr…...

线段树与扫描线 —— 详解算法思想及其C++实现

目录 一、线段树&#xff08;Segment Tree&#xff09; 基本概念 结构 操作 示例代码 二、扫描线&#xff08;Sweep Line&#xff09; 基本概念 应用场景 示例代码&#xff08;矩形面积并集&#xff09; 三、总结 一、线段树&#xff08;Segment Tree&#xff09; 基本…...

英伟达黄仁勋2025GTC演讲深度解析:液冷GPU、AI工厂、机器人AI…...

目录 一、技术产品与架构升级&#xff1a;从芯片到算力工厂1. 新一代GPU与计算架构2. AI工厂与算力操作系统 二、AI技术演进&#xff1a;从生成式到物理AI1. AI发展的三大阶段2. 推理算力需求爆炸式增长 三、生态合作与行业落地1. CUDA生态与开源工具2. 跨行业合作案例 四、未来…...

雷电模拟器启动94%卡住不动解决方案

安卓模拟器启动失败/启动加载卡0-29%/启动卡50%/启动卡94%的解决方法 首先看官方论坛常见问题来尝试解决&#xff1a; 安卓模拟器启动失败/启动加载卡0-29%/启动卡50%/启动卡94%的解决方法-雷电安卓模拟器-手游模拟器安卓版_android手机模拟器电脑版_雷电模拟器帮助中心 所有…...

02、聊天会话记忆ChatMemory

一、ChatMemory 由于手动维护和管理ChatMessages很麻烦&#xff0c;LangChain4j提供了ChatMemory抽象以及多个开箱即用的实现。 ChatMemory可以作为独立的低级组件来使用&#xff0c;也可以作为高级组件&#xff08;AiService&#xff09;的一部分使用。 ChatMemory作为Chat…...

vue3 ts 封装axios,配置axios前置拦截器,让所有axios请求携带token

vue3 ts 封装axios,配置axios前置拦截器&#xff0c;让所有axios请求携带token http.tsapp.tsvue文件 http.ts import axios from axios // 引入axios import router from /router import Qs from qs import { ElMessage } from element-plusconst { prefixBasePath } requir…...

嵌入式项目:利用心知天气获取天气数据实验方案

【实验目的】 1、利用心知天气服务器获取指定位置天气数据 2、将天气数据解析并可视化显示到OLED屏幕 【实验原理】 【实验步骤】 官网注册...

Ubuntu下用QEMU模拟运行OpenBMC

1、前言 在调试过程中&#xff0c;安装了很多依赖库&#xff0c;具体没有记录。关于kvm&#xff0c;也没理清具体有什么作用。本文仅记录&#xff0c;用QEMU成功的将OpenBMC跑起来的过程&#xff0c;做备忘&#xff0c;也供大家参考。 2、环境信息 VMware Workstation 15 Pro…...

机器学习在自然语言处理中的应用与实践

引言 自然语言处理&#xff08;Natural Language Processing&#xff0c;NLP&#xff09;是人工智能领域的一个重要分支&#xff0c;旨在使计算机能够理解、生成和处理人类语言。随着机器学习技术的不断发展&#xff0c;NLP领域取得了显著的进展。机器学习为自然语言处理提供了…...

文件操作助手

文件操作助手 在我们实现一个大型项目时&#xff0c;往往会有一个公共模块&#xff0c;这个公共模块是公用的&#xff0c;里面可能会包含文件操作助手、字符串操作助手、时间戳操作助手… 而我们今天就来实现一个文件操作助手&#xff0c;里面包含的功能有&#xff1a; 判断…...

专题|Python贝叶斯网络BN动态推理因果建模:MLE/Bayes、有向无环图DAG可视化分析呼吸疾病、汽车效能数据2实例合集

原文链接&#xff1a;https://tecdat.cn/?p41199 作为数据科学家&#xff0c;我们始终在探索能够有效处理复杂系统不确定性的建模工具。本专题合集系统性地解构了贝叶斯网络&#xff08;BN&#xff09;这一概率图模型在当代数据分析中的创新应用&#xff0c;通过开源工具bnlea…...

Java单例模式中的饿汉模式和懒汉模式

Java单例模式中的饿汉模式和懒汉模式 一、单例模式的显著特点单一实例全局访问 二、饿汉模式&#xff1a;急切的实例创建者三、懒汉模式&#xff1a;延迟的实例构建者1. 不考虑线程安全的初始版本2. 引入同步机制解决线程安全问题3. 优化性能&#xff1a;避免重复进入同步块4. …...

理解操作系统(一)冯诺依曼结构和什么是操作系统

认识冯诺依曼系统 操作系统概念与定位 深⼊理解进程概念&#xff0c;了解PCB 学习进程状态&#xff0c;学会创建进程&#xff0c;掌握僵⼫进程和孤⼉进程&#xff0c;及其形成原因和危害 1. 冯诺依曼体系结构 我们常⻅的计算机&#xff0c;如笔记本。我们不常⻅的计算机&am…...

Git的认识安装及创建配置本地仓库

目录 Git的作用安装Git创建Git仓库配置本地仓库git config user.name/email(添加配置)以及git config --unset.name/email(删除配置)git config --global user.name/email以及git config --global --unset user.name/email(name和email适用于当前机器的所有Git仓库中) 感谢各位…...

【el-upload】el-upload组件 - list-type=“picture“ 时,文件预览展示优化

目录 问题图el-upload预览组件 PicturePreview效果展示 问题图 el-upload <el-uploadref"upload"multipledragaction"#":auto-upload"false":file-list"fileList"name"files":accept".png,.jpg,.jpeg,.JGP,.JPEG,.…...

Uthana,AI 3D角色动画生成平台

Uthana是什么 Uthana 是专注于3D角色动画生成的AI平台。平台基于简单的文字描述、参考视频或动作库搜索&#xff0c;快速为用户生成逼真的动画&#xff0c;支持适配任何骨骼结构的模型。Uthana 提供风格迁移、API集成和定制模型训练等功能&#xff0c;满足不同用户需求。平台提…...

面试常问系列(二)-神经网络参数初始化之自注意力机制

目录 &#xff08;一&#xff09;、transformer中的自注意力机制为什么要除以根号d&#xff1f; 1. 点积的方差问题 2. 缩放的作用 3. 类比初始化方法 4. 实验验证 5.总结 &#xff08;一&#xff09;、transformer中的自注意力机制为什么要除以根号d&#xff1f; 在Tra…...

Linux冯诺依曼体系与计算机系统架构认知(8)

文章目录 前言一、冯诺依曼体系冯•诺依曼体系结构推导内存提高冯•诺依曼体系结构效率的方法你用QQ和朋友聊天时数据的流动过程与冯•诺依曼体系结构相关的一些知识 二、计算机层次结构分析操作系统(Operator System)驱动层的作用与意义系统调用接口(system call)用户操作接口…...

解决用户同时登录轮询获取用户信息错乱,使用WebSocket和Server-Sent Events (SSE)

为什么更推荐WebSocket Server-Sent Events (SSE) 是一种服务器向客户端推送数据的单向通信协议&#xff0c;适合某些场景&#xff0c;在解决用户同时登录和实时获取用户信息的问题上&#xff0c;WebSocket 是更好的选择。 1. SSE 的局限性 单向通信 SSE 是单向的&#xff0…...

LLM之RAG理论(十四)| RAG 最佳实践

RAG 的过程很复杂&#xff0c;包含许多组成部分。我们如何确定现有的 RAG 方法及其最佳组合&#xff0c;以确定最佳 RAG 实践&#xff1f; 论文 《Searching for Best Practices in Retrieval-Augmented Generation》给出了回答。 本文将从以下三方面进行介绍&#xff1a; 首先…...

[RoarCTF 2019]Easy Calc-3.23BUUCTF练习day5(2)

[RoarCTF 2019]Easy Calc-3.23BUUCTF练习day5(2) 解题过程 查看源码 发现calc.php页面&#xff0c;访问一下 分析代码 首先获取$_GET[num]的值并赋给变量$str。然后定义了一个黑名单数组$blacklist&#xff0c;包含了一系列被禁止的字符或转义字符&#xff0c;如空格、制表…...