当前位置: 首页 > news >正文

Training for Computer Use

Training for Computer Use

核心事件:多家科技公司推出能操控计算机的智能体,字节跳动和清华大学团队引入UI - TARS模型,展示了训练模型实现计算机操控能力的新成果。

UI - TARS模型

  • 基本信息:是视觉 - 语言模型Qwen2 - VL的微调版本,能基于推理决定在桌面和移动应用中的操作,模型权重遵循Apache 2.0许可,可免费下载使用。

  • 训练过程

    • 添加思维链:在训练集中,通过提示未指明的视觉 - 语言模型,结合先前信息解释当前操作来添加思维链。因解释可能不佳,故对同一截图生成多个思维链与操作,选正确的用于训练。

    • 微调训练:让UI - TARS依据指令、已有截图、思维链和操作生成新思维链与操作,进行微调。

    • 虚拟运行与筛选:在虚拟机中运行UI - TARS生成大量数据,用规则过滤错误内容,自动打分并人工审核,对剩余数据微调,重复生成、筛选和微调。

    • 错误修正与再训练:人工标注修正错误的思维链和操作示例,用于模型再训练,使其避免或修复错误。

    • 偏好优化:用直接偏好优化(DPO)让模型倾向生成修正后的正确示例。

    • 推理运行:推理时,UI - TARS根据截图、指令和潜在操作生成思维链与操作,执行操作后接收新截图,循环生成新思维链与操作,综合考虑所有信息。

新闻背景:2022年初Adept宣扬计算机操控能力,OmniParser Aguvis跟进推出应用。2024年10月Anthropic宣布Claude 3.5 Sonnet具备此能力引发热潮,OpenAI也推出Operator涉足该领域。

实验结果:在11项基准测试中,UI - TARS表现出色,在OSWorld测试中,完成任务的成功率高于Claude 3.5 Sonnet、GPT - 4o(搭配Aguvis框架)以及Aguvis原生模型。

重要意义:训练模型做出正确操作可保证其良好表现,训练其修正错误能让它应对现实中的意外问题。

未来展望:计算机操作可在虚拟机模拟,能自动生成大量训练数据,有望推动大语言模型在计算机操控能力上快速发展。

相关文章:

Training for Computer Use

Training for Computer Use 核心事件:多家科技公司推出能操控计算机的智能体,字节跳动和清华大学团队引入UI - TARS模型,展示了训练模型实现计算机操控能力的新成果。 UI - TARS模型 基本信息:是视觉 - 语言模型Qwen2 - VL的微调版…...

PH热榜 | 2025-02-14

1. Beatoven.ai 标语:能创作完美背景音乐的AI作曲家 介绍:Beatoven.ai 能根据简单的提示生成惊艳的背景音乐,用于你的内容创作。它是由世界各地的真实音乐家倾力打造(并使用了大量数据)。无需任何音乐专业知识&#…...

工业物联网远程监控系统优化方案,基于巨控GRM553Y-CHE

工业物联网远程监控系统优化方案 ——基于巨控GRM553Y-CHE的西门子S7-1500 PLC多站点无线集成方案 1. 项目背景与概述 巨控科技作为工业物联网解决方案提供商,专注于PLC无线通信与远程监控技术研发,其YunPLC安全平台已服务超30,000工业终端&#xff0c…...

报名丨Computer useVoice Agent :使用 TEN 搭建你的 Mac Assistant

与 TEN 相聚在「LET’S VISION 2025」大会,欢迎来展位上跟我们交流。这次我们还准备了一场聚焦「computer use」的工作坊,功能新鲜上线,线下首波体验! 📅 TEN 展位:2025年3月1日-2日 TEN workshop&#x…...

Flutter 中的生命周期

在 Flutter 中,StatefulWidget 和 StatelessWidget 这两种 Widget 的生命周期不同,主要关注的是 StatefulWidget,因为它涉及到状态的管理和更新。 StatefulWidget 的生命周期: 1. 创建阶段 (Create) createState():…...

深度整理总结MySQL——redoLog日志工作原理

redo log的工作原理 前言概念为什么需要redo log修改undo页面,会记录对应的redo log吗redo log 和undo log 区别在哪什么是WAL技术redo log要写入磁盘,数据也要写入磁盘,为什么多此一举产生的redo log直接写入磁盘吗redo log 什么时候刷盘innodb_flush_log_at_trx_commit 参数参…...

备战蓝桥杯 Day1 回顾语言基础

开启蓝桥杯刷题之路 Day1 回顾语言基础 1.配置dev 工具->编译选项->勾选编译时加入以下命令->设定编译器配置(release和debug)都要-> -stdc11 ->代码生成/优化->代码生成/优化->语言标准(-std)->ISO C11 ->代码警告->显示最多警告信息(-Wall)…...

小记大模型本地部署:vllm, lmdeploy, ollama

记录一下最近折腾的大模型本地部署。由于学校有部署deepseek的竞赛(觉得扯不?)所以首选ollama这种超级简单的来过关,但我最希望的还是用专门的推理工具部署,因为做应用开发推理速度一定最重要。所以先尝试自己想搞的vl…...

MySQL查看存储过程和存储函数

【图书推荐】《MySQL 9从入门到性能优化(视频教学版)》-CSDN博客 《MySQL 9从入门到性能优化(视频教学版)(数据库技术丛书)》(王英英)【摘要 书评 试读】- 京东图书 (jd.com) MySQL9数据库技术_夏天又到了…...

从零到一:开发并上线一款极简记账本小程序的完整流程

从零到一:开发并上线一款极简记账本小程序的完整流程 目录 前言需求分析与功能设计 2.1 目标用户分析2.2 核心功能设计2.3 技术栈选择 开发环境搭建 3.1 微信开发者工具安装与配置3.2 项目初始化3.3 版本控制与协作工具 前端开发 4.1 页面结构与布局4.2 组件化开发…...

卷积神经网络实战人脸检测与识别

文章目录 前言一、人脸识别一般过程二、人脸检测主流算法1. MTCNN2. RetinaFace3. CenterFace4. BlazeFace5. YOLO6. SSD7. CascadeCNN 三、人脸识别主流算法1.deepface2.FaceNet3.ArcFace4.VGGFace5.DeepID 四、人脸识别系统实现0.安装教程与资源说明1. 界面采用PyQt5框架2.人…...

【面试题系列】Java 多线程面试题深度解析

本文涉及Java 多线程面试题,从基础到高级,希望对你有所帮助! 一、基础概念类 1. 请简述 Java 中线程的几种状态及其转换条件 题目分析:这是多线程基础中的基础,考查对线程生命周期的理解,在多线程编程中&…...

【C语言】左旋字符串(三种实现方式)

题目: 实现一个函数,可以左旋字符串中的k个字符。 例如: ABCD左旋一个字符得到BCDA ABCD左旋两个字符得到CDAB 方法一: 我们画个图分析一下: 基本逻辑: 就是我们每一次旋转之前,我们就取出…...

数论补充 之 前后缀分解问题

文章目录 [0,i-1] 和 [i1,n-1] 共同作用3334,数组的最大因子得分 对于前缀分解问题,我愿把它分为几个大问题:[0,i] 或 [i,n-1] 或 [l,r],或 [0,i-1] 和 [i1,n-1] 共同作用的问题 [0,i-1] 和 [i1,n-1] 共同作用 3334,数组的最大因子得分 3334,数组的最大…...

IoTDB 集群节点 IP 改变,如何更新集群

问题 问题1:如果 IoTDB 配置的时候用的 IP,没有用 hostname,后面 IP 修改了,历史数据需要重新导吗? 问题2:如果现场运行 IoTDB 半年,电脑 IP 要改的话,半年的数据要导出来再导入么…...

【AI系列】从零开始学习大模型GPT (2)- Build a Large Language Model (From Scratch)

前序文章 【AI系列】从零开始学习大模型GPT (1)- Build a Large Language Model (From Scratch) Build a Large Language Model 背景第1章:理解大型语言模型第2章:处理文本数据第3章:编码Attention机制什么是Attention机制?Attention机制的基本原理数学表示应用总结为什么要…...

webshell通信流量分析

环境安装 Apatche2 php sudo apt install apache2 -y sudo apt install php libapache2-mod-php php-mysql -y echo "<?php phpinfo(); ?>" | sudo tee /var/www/html/info.php sudo ufw allow Apache Full 如果成功访问info.php&#xff0c;则环境安…...

数据可视化+SpringBoot+协同过滤推荐算法的美食点餐管理平台

感兴趣的可以先收藏起来&#xff0c;还有大家在毕设选题&#xff0c;项目以及论文编写等相关问题都可以给我留言咨询&#xff0c;我会一一回复的&#xff0c;希望帮助到更多的人。 背景分析 在当今数字化浪潮席卷全球的时代&#xff0c;餐饮行业也正经历着深刻的变革&#xf…...

DeepSeek 关联 Word 使用教程:解锁办公新效率

在当今数字化办公时代&#xff0c;将强大的人工智能模型与常用办公软件相结合&#xff0c;能显著提升工作效率。DeepSeek 作为一款先进的人工智能工具&#xff0c;若能与广泛使用的办公软件 Word 实现关联&#xff0c;可在文档撰写、编辑、内容优化等诸多方面为用户带来极大便利…...

[极客大挑战 2019]Havefun1

[极客大挑战 2019]Havefun1 代码审计发现 根据代码逻辑&#xff0c;要求传入’cat’参数&#xff0c;值为’dog’时执行if的操作&#xff0c;所以构造参数: ?catdog获得flag...

传统企业XaaS转型实战:从商业模式重构到运营模型落地

1. 云服务转型的十字路口&#xff1a;从“卖盒子”到“卖服务”的本质跨越在过去的十几年里&#xff0c;我亲眼见证了“云”从一个时髦的技术概念&#xff0c;演变为驱动几乎所有行业数字化转型的核心引擎。无论是初创公司还是百年老店&#xff0c;都在谈论上云、用云、管云。但…...

Cursor AI代码助手:重塑IDE开发体验,从智能补全到项目级协作

1. 项目概述&#xff1a;当AI代码助手遇上IDE&#xff0c;Cursor如何重塑开发体验 如果你是一名开发者&#xff0c;最近一定在圈子里频繁听到“Cursor”这个名字。它不是一个全新的编程语言&#xff0c;也不是一个颠覆性的框架&#xff0c;但它却实实在在地在改变着许多人的编码…...

记录红米note手机忘记屏幕密码找回过程

手上一台老红米note10忘记了开机密码&#xff0c;但里面还有一些重要资料&#xff0c;今天得到一个软件MOBILedit Forensic ULTRA 9.8.0.34378可以解出屏幕密码&#xff0c;我就拿来试一下&#xff0c;果然解开了&#xff0c;记录一下过程给大家参考。先查这个手机的处理器是天…...

从图像到十字绣:基于颜色量化与DMC匹配的自动化绣图生成技术

1. 项目概述&#xff1a;从代码仓库到十字绣艺术的数字桥梁最近在GitHub上闲逛&#xff0c;发现了一个挺有意思的项目&#xff0c;叫suads463/xstitch。光看名字&#xff0c;你可能会有点摸不着头脑&#xff0c;suads463显然是作者的用户名&#xff0c;而xstitch这个缩写&#…...

如何用Python 5分钟获取同花顺问财数据?量化分析终极指南

如何用Python 5分钟获取同花顺问财数据&#xff1f;量化分析终极指南 【免费下载链接】pywencai 获取同花顺问财数据 项目地址: https://gitcode.com/gh_mirrors/py/pywencai 还在为获取金融数据而烦恼吗&#xff1f;想快速筛选股票却苦于没有合适工具&#xff1f;今天我…...

AI工具导航站Awesome-AITools:社区驱动的资源聚合与高效使用指南

1. 项目概述&#xff1a;为什么我们需要一个AI工具导航站&#xff1f;如果你最近也在关注AI领域&#xff0c;大概率会和我有同样的感受&#xff1a;新工具、新模型、新应用的出现速度&#xff0c;已经快到了让人眼花缭乱的地步。今天刚听说一个能自动剪辑视频的AI&#xff0c;明…...

怎么挑靠谱降AI率工具?2026高性价比工具盘点,降AI超高效

学生党本来就没多少预算&#xff0c;3万字的硕士论文拿去做降AI处理&#xff0c;市面上收费从36元到240元不等&#xff0c;差价能翻好几倍。怎么用最少的钱把AI率降到学校要求的安全线&#xff0c;是不少毕业生眼下最关心的问题。 本文从价格、免费权益、售后保障三个核心维度…...

本地部署开源大模型聊天界面Serge:零成本私有化AI助手实战指南

1. 项目概述&#xff1a;一个能在本地运行的开源大语言模型聊天界面如果你和我一样&#xff0c;对大型语言模型&#xff08;LLM&#xff09;充满好奇&#xff0c;既想体验它们强大的对话和推理能力&#xff0c;又对数据隐私、网络依赖和API调用成本心存顾虑&#xff0c;那么ser…...

基于RAG架构的企业级AI知识库:从原理到部署实战

1. 项目概述&#xff1a;一个AI驱动的企业级知识管理新范式最近在探索企业知识库与AI结合的实际落地方案时&#xff0c;我注意到了GitHub上一个名为akshata29/entaoai的项目。这个项目名称本身就是一个很好的线索&#xff1a;“entao” 很容易让人联想到 “Enterprise AI”&…...

JavaScript 遍历 JSON 所有 Key 的方法

1️⃣ for…in 循环&#xff08;最常用&#xff09; const json {name: "张三",age: 25,city: "北京" };for (let key in json) {console.log(key); // name, age, cityconsole.log(json[key]); // 张三, 25, 北京 }2️⃣ Object.keys()&am…...