Training for Computer Use
Training for Computer Use

核心事件:多家科技公司推出能操控计算机的智能体,字节跳动和清华大学团队引入UI - TARS模型,展示了训练模型实现计算机操控能力的新成果。
UI - TARS模型
-
基本信息:是视觉 - 语言模型Qwen2 - VL的微调版本,能基于推理决定在桌面和移动应用中的操作,模型权重遵循Apache 2.0许可,可免费下载使用。
-
训练过程
-
添加思维链:在训练集中,通过提示未指明的视觉 - 语言模型,结合先前信息解释当前操作来添加思维链。因解释可能不佳,故对同一截图生成多个思维链与操作,选正确的用于训练。
-
微调训练:让UI - TARS依据指令、已有截图、思维链和操作生成新思维链与操作,进行微调。
-
虚拟运行与筛选:在虚拟机中运行UI - TARS生成大量数据,用规则过滤错误内容,自动打分并人工审核,对剩余数据微调,重复生成、筛选和微调。
-
错误修正与再训练:人工标注修正错误的思维链和操作示例,用于模型再训练,使其避免或修复错误。
-
偏好优化:用直接偏好优化(DPO)让模型倾向生成修正后的正确示例。
-
推理运行:推理时,UI - TARS根据截图、指令和潜在操作生成思维链与操作,执行操作后接收新截图,循环生成新思维链与操作,综合考虑所有信息。
-
新闻背景:2022年初Adept宣扬计算机操控能力,OmniParser Aguvis跟进推出应用。2024年10月Anthropic宣布Claude 3.5 Sonnet具备此能力引发热潮,OpenAI也推出Operator涉足该领域。
实验结果:在11项基准测试中,UI - TARS表现出色,在OSWorld测试中,完成任务的成功率高于Claude 3.5 Sonnet、GPT - 4o(搭配Aguvis框架)以及Aguvis原生模型。
重要意义:训练模型做出正确操作可保证其良好表现,训练其修正错误能让它应对现实中的意外问题。
未来展望:计算机操作可在虚拟机模拟,能自动生成大量训练数据,有望推动大语言模型在计算机操控能力上快速发展。
相关文章:
Training for Computer Use
Training for Computer Use 核心事件:多家科技公司推出能操控计算机的智能体,字节跳动和清华大学团队引入UI - TARS模型,展示了训练模型实现计算机操控能力的新成果。 UI - TARS模型 基本信息:是视觉 - 语言模型Qwen2 - VL的微调版…...
PH热榜 | 2025-02-14
1. Beatoven.ai 标语:能创作完美背景音乐的AI作曲家 介绍:Beatoven.ai 能根据简单的提示生成惊艳的背景音乐,用于你的内容创作。它是由世界各地的真实音乐家倾力打造(并使用了大量数据)。无需任何音乐专业知识&#…...
工业物联网远程监控系统优化方案,基于巨控GRM553Y-CHE
工业物联网远程监控系统优化方案 ——基于巨控GRM553Y-CHE的西门子S7-1500 PLC多站点无线集成方案 1. 项目背景与概述 巨控科技作为工业物联网解决方案提供商,专注于PLC无线通信与远程监控技术研发,其YunPLC安全平台已服务超30,000工业终端,…...
报名丨Computer useVoice Agent :使用 TEN 搭建你的 Mac Assistant
与 TEN 相聚在「LET’S VISION 2025」大会,欢迎来展位上跟我们交流。这次我们还准备了一场聚焦「computer use」的工作坊,功能新鲜上线,线下首波体验! 📅 TEN 展位:2025年3月1日-2日 TEN workshop&#x…...
Flutter 中的生命周期
在 Flutter 中,StatefulWidget 和 StatelessWidget 这两种 Widget 的生命周期不同,主要关注的是 StatefulWidget,因为它涉及到状态的管理和更新。 StatefulWidget 的生命周期: 1. 创建阶段 (Create) createState():…...
深度整理总结MySQL——redoLog日志工作原理
redo log的工作原理 前言概念为什么需要redo log修改undo页面,会记录对应的redo log吗redo log 和undo log 区别在哪什么是WAL技术redo log要写入磁盘,数据也要写入磁盘,为什么多此一举产生的redo log直接写入磁盘吗redo log 什么时候刷盘innodb_flush_log_at_trx_commit 参数参…...
备战蓝桥杯 Day1 回顾语言基础
开启蓝桥杯刷题之路 Day1 回顾语言基础 1.配置dev 工具->编译选项->勾选编译时加入以下命令->设定编译器配置(release和debug)都要-> -stdc11 ->代码生成/优化->代码生成/优化->语言标准(-std)->ISO C11 ->代码警告->显示最多警告信息(-Wall)…...
小记大模型本地部署:vllm, lmdeploy, ollama
记录一下最近折腾的大模型本地部署。由于学校有部署deepseek的竞赛(觉得扯不?)所以首选ollama这种超级简单的来过关,但我最希望的还是用专门的推理工具部署,因为做应用开发推理速度一定最重要。所以先尝试自己想搞的vl…...
MySQL查看存储过程和存储函数
【图书推荐】《MySQL 9从入门到性能优化(视频教学版)》-CSDN博客 《MySQL 9从入门到性能优化(视频教学版)(数据库技术丛书)》(王英英)【摘要 书评 试读】- 京东图书 (jd.com) MySQL9数据库技术_夏天又到了…...
从零到一:开发并上线一款极简记账本小程序的完整流程
从零到一:开发并上线一款极简记账本小程序的完整流程 目录 前言需求分析与功能设计 2.1 目标用户分析2.2 核心功能设计2.3 技术栈选择 开发环境搭建 3.1 微信开发者工具安装与配置3.2 项目初始化3.3 版本控制与协作工具 前端开发 4.1 页面结构与布局4.2 组件化开发…...
卷积神经网络实战人脸检测与识别
文章目录 前言一、人脸识别一般过程二、人脸检测主流算法1. MTCNN2. RetinaFace3. CenterFace4. BlazeFace5. YOLO6. SSD7. CascadeCNN 三、人脸识别主流算法1.deepface2.FaceNet3.ArcFace4.VGGFace5.DeepID 四、人脸识别系统实现0.安装教程与资源说明1. 界面采用PyQt5框架2.人…...
【面试题系列】Java 多线程面试题深度解析
本文涉及Java 多线程面试题,从基础到高级,希望对你有所帮助! 一、基础概念类 1. 请简述 Java 中线程的几种状态及其转换条件 题目分析:这是多线程基础中的基础,考查对线程生命周期的理解,在多线程编程中&…...
【C语言】左旋字符串(三种实现方式)
题目: 实现一个函数,可以左旋字符串中的k个字符。 例如: ABCD左旋一个字符得到BCDA ABCD左旋两个字符得到CDAB 方法一: 我们画个图分析一下: 基本逻辑: 就是我们每一次旋转之前,我们就取出…...
数论补充 之 前后缀分解问题
文章目录 [0,i-1] 和 [i1,n-1] 共同作用3334,数组的最大因子得分 对于前缀分解问题,我愿把它分为几个大问题:[0,i] 或 [i,n-1] 或 [l,r],或 [0,i-1] 和 [i1,n-1] 共同作用的问题 [0,i-1] 和 [i1,n-1] 共同作用 3334,数组的最大因子得分 3334,数组的最大…...
IoTDB 集群节点 IP 改变,如何更新集群
问题 问题1:如果 IoTDB 配置的时候用的 IP,没有用 hostname,后面 IP 修改了,历史数据需要重新导吗? 问题2:如果现场运行 IoTDB 半年,电脑 IP 要改的话,半年的数据要导出来再导入么…...
【AI系列】从零开始学习大模型GPT (2)- Build a Large Language Model (From Scratch)
前序文章 【AI系列】从零开始学习大模型GPT (1)- Build a Large Language Model (From Scratch) Build a Large Language Model 背景第1章:理解大型语言模型第2章:处理文本数据第3章:编码Attention机制什么是Attention机制?Attention机制的基本原理数学表示应用总结为什么要…...
webshell通信流量分析
环境安装 Apatche2 php sudo apt install apache2 -y sudo apt install php libapache2-mod-php php-mysql -y echo "<?php phpinfo(); ?>" | sudo tee /var/www/html/info.php sudo ufw allow Apache Full 如果成功访问info.php,则环境安…...
数据可视化+SpringBoot+协同过滤推荐算法的美食点餐管理平台
感兴趣的可以先收藏起来,还有大家在毕设选题,项目以及论文编写等相关问题都可以给我留言咨询,我会一一回复的,希望帮助到更多的人。 背景分析 在当今数字化浪潮席卷全球的时代,餐饮行业也正经历着深刻的变革…...
DeepSeek 关联 Word 使用教程:解锁办公新效率
在当今数字化办公时代,将强大的人工智能模型与常用办公软件相结合,能显著提升工作效率。DeepSeek 作为一款先进的人工智能工具,若能与广泛使用的办公软件 Word 实现关联,可在文档撰写、编辑、内容优化等诸多方面为用户带来极大便利…...
[极客大挑战 2019]Havefun1
[极客大挑战 2019]Havefun1 代码审计发现 根据代码逻辑,要求传入’cat’参数,值为’dog’时执行if的操作,所以构造参数: ?catdog获得flag...
传统企业XaaS转型实战:从商业模式重构到运营模型落地
1. 云服务转型的十字路口:从“卖盒子”到“卖服务”的本质跨越在过去的十几年里,我亲眼见证了“云”从一个时髦的技术概念,演变为驱动几乎所有行业数字化转型的核心引擎。无论是初创公司还是百年老店,都在谈论上云、用云、管云。但…...
Cursor AI代码助手:重塑IDE开发体验,从智能补全到项目级协作
1. 项目概述:当AI代码助手遇上IDE,Cursor如何重塑开发体验 如果你是一名开发者,最近一定在圈子里频繁听到“Cursor”这个名字。它不是一个全新的编程语言,也不是一个颠覆性的框架,但它却实实在在地在改变着许多人的编码…...
记录红米note手机忘记屏幕密码找回过程
手上一台老红米note10忘记了开机密码,但里面还有一些重要资料,今天得到一个软件MOBILedit Forensic ULTRA 9.8.0.34378可以解出屏幕密码,我就拿来试一下,果然解开了,记录一下过程给大家参考。先查这个手机的处理器是天…...
从图像到十字绣:基于颜色量化与DMC匹配的自动化绣图生成技术
1. 项目概述:从代码仓库到十字绣艺术的数字桥梁最近在GitHub上闲逛,发现了一个挺有意思的项目,叫suads463/xstitch。光看名字,你可能会有点摸不着头脑,suads463显然是作者的用户名,而xstitch这个缩写&#…...
如何用Python 5分钟获取同花顺问财数据?量化分析终极指南
如何用Python 5分钟获取同花顺问财数据?量化分析终极指南 【免费下载链接】pywencai 获取同花顺问财数据 项目地址: https://gitcode.com/gh_mirrors/py/pywencai 还在为获取金融数据而烦恼吗?想快速筛选股票却苦于没有合适工具?今天我…...
AI工具导航站Awesome-AITools:社区驱动的资源聚合与高效使用指南
1. 项目概述:为什么我们需要一个AI工具导航站?如果你最近也在关注AI领域,大概率会和我有同样的感受:新工具、新模型、新应用的出现速度,已经快到了让人眼花缭乱的地步。今天刚听说一个能自动剪辑视频的AI,明…...
怎么挑靠谱降AI率工具?2026高性价比工具盘点,降AI超高效
学生党本来就没多少预算,3万字的硕士论文拿去做降AI处理,市面上收费从36元到240元不等,差价能翻好几倍。怎么用最少的钱把AI率降到学校要求的安全线,是不少毕业生眼下最关心的问题。 本文从价格、免费权益、售后保障三个核心维度…...
本地部署开源大模型聊天界面Serge:零成本私有化AI助手实战指南
1. 项目概述:一个能在本地运行的开源大语言模型聊天界面如果你和我一样,对大型语言模型(LLM)充满好奇,既想体验它们强大的对话和推理能力,又对数据隐私、网络依赖和API调用成本心存顾虑,那么ser…...
基于RAG架构的企业级AI知识库:从原理到部署实战
1. 项目概述:一个AI驱动的企业级知识管理新范式最近在探索企业知识库与AI结合的实际落地方案时,我注意到了GitHub上一个名为akshata29/entaoai的项目。这个项目名称本身就是一个很好的线索:“entao” 很容易让人联想到 “Enterprise AI”&…...
JavaScript 遍历 JSON 所有 Key 的方法
1️⃣ for…in 循环(最常用) const json {name: "张三",age: 25,city: "北京" };for (let key in json) {console.log(key); // name, age, cityconsole.log(json[key]); // 张三, 25, 北京 }2️⃣ Object.keys()&am…...
