【大模型系列】MultiUI(2024.11)

- Paper:https://arxiv.org/pdf/2410.13824
- Github:https://neulab.github.io/MultiUI/
- Author:Junpeng Liu et al., 卡内基梅隆
核心1: 先基于text-based LLMs获取网页的accessibility tree(辅助功能树,https://200t.w3cschool.cn/mdn_web/mdn-auxiliary-function-tree.html),然后再与网页截图一起作为多模态数据,训练多模态模型。
核心2: 公开了MultiUI数据集,从1M网页中收集了7.3M的样本,包含多种UI任务(3类,9种任务)和界面
文章目录
- 1 模型结构
- 1.1 数据集构建
- 1.1.1 原始网页数据抓取
- 1.1.2 网页管理
- 1.1.3 任务提取
- 1.1.4 构建指令模板
- 2 训练细节
- 3 指标
- 3.1 GUI understanding and grounding
- 3.2 GUI agent task
- 3.3 General multimodal task
1 模型结构

- 使用Llama-3-70b-Instruct来管理网页:识别有问题的内容如成人、赌博、暴力、歧视等
- 任务提取:Llama-3-70b-Instruct、GPT-4o mini和基于规则的方法来提取3类任务:视觉理解和推理、文本识别和grounding任务
- 对于每个任务,使用被GPT-4o处理过的不同指令模板来生成任务样本
1.1 数据集构建
利用辅助功能树和现成的LLM来构建数据自动化收集管道,主要分为4个步骤:
- 原始网页数据抓取(raw website data scraping)
- 网页管理(web curation)
- 任务提取(task extraction)
- 指令构建(instruction construction)
1.1.1 原始网页数据抓取
构建原始网页数据集,包含:
- HTML/CSS
- 高分辨率的屏幕截图
- 辅助功能树:与原始HTML相比,侧重于最重要的视觉元素如按钮、链接和标题

网站整体屏幕截图肯定是高大于宽的,文章采用随机宽高比来截图,用来模拟网页在Win10(0.5~1.5)和iPhone12 Pro(1.5~2.5)上渲染。
- URL:来源于FineWeb
- 工具:playwright
1.1.2 网页管理
使用一个额外的模型Llama-3-70B-Instruct来分析网站的辅助功能树,来识别有问题的内容如成人、暴力、赌博、歧视、网络错误(403 forbidden, 503 bad gateway)等,有问题的数据被删除掉。使用的提示词如下:

1.1.3 任务提取


构建了一组对于web交互至关重要的任务:
- 视觉理解和推理:提高模型描述网页整体结构和特定视觉元素识别的能力,同时增强问答和动作预测的能力
- Webpage Captioning:理解和总结网页的整体结构和内容
- Webpage QA:回答有关网页种非图像内容的问题
- Embedding Image Caption:描述web页面种得嵌入图像
- Embedding Image QA:回答嵌入图像的相关问题
- Action Prediction:动作预测,预测点击特定元素的结果
- 文本识别
- Element OCR:识别超过20个单词的元素,然后构造OCR任务,每个任务包含屏幕截图和文本的bounding box信息
- Heading OCR:侧重于识别和提取标题
- grounding
- Action Grounding:预测响应特定指定的点击位置
- Element Grounding:根据元素的文本描述识别元素的位置
构建提示词如下:
- webpage captions
![]() | ![]() |
|---|
- webpage QA paris
![]() | ![]() |
|---|
- Embedded Image QA samples
![]() | ![]() |
|---|
- Action Grounding
![]() | ![]() |
|---|
- Action prediction
![]() |
|---|
1.1.4 构建指令模板
针对每个任务,构建多种指令模板,首先构造详细的任务描述和初始示例模板,使用GPT-4o构建200个不同的提示词模板。
2 训练细节
- 模型结构:
- LLM:Qwen2-7B-Instruct
- Visual encoder:Siglip
- 训练数据
- LLaVA1.6
- MultiUI
- 高分辨率图像处理方式:动态分辨率策略(动态切片+全图输入提供全局信息)
- 训练策略:
- Stage1:GUI Knowledge Learning,在95%的MultiUI数据上进行微调,增强web/UI相关的理解能力
- Stage2:Visual Instruction Tuning,视觉指令微调,使用LLaVA1.6+5%的MultiUI
3 指标
3.1 GUI understanding and grounding

3.2 GUI agent task

3.3 General multimodal task

相关文章:
【大模型系列】MultiUI(2024.11)
Paper:https://arxiv.org/pdf/2410.13824Github:https://neulab.github.io/MultiUI/Author:Junpeng Liu et al., 卡内基梅隆 核心1: 先基于text-based LLMs获取网页的accessibility tree(辅助功能树,https://200t.w3c…...
「Mac畅玩鸿蒙与硬件52」UI互动应用篇29 - 模拟火车票查询系统
本篇教程将实现一个模拟火车票查询系统,通过输入条件筛选车次信息,并展示动态筛选结果,学习事件处理、状态管理和界面展示的综合开发技巧。 关键词 条件筛选动态数据展示状态管理UI交互查询系统 一、功能说明 模拟火车票查询系统包含以下功…...
Dubbo 核心知识全解析:原理、流程与关键机制
1.说说一次 Dubbo 服务请求流程? Dubbo 是一个分布式服务框架,它简化了基于 SOA(面向服务架构)的应用程序的开发。一次典型的 Dubbo 服务请求流程如下: 服务提供者启动: 服务提供者启动后,会向注册中心注册…...
时间序列预测算法---LSTM
目录 一、前言1.1、深度学习时间序列一般是几维数据?每个维度的名字是什么?通常代表什么含义?1.2、为什么机器学习/深度学习算法无法处理时间序列数据?1.3、RNN(循环神经网络)处理时间序列数据的思路?1.4、RNN存在哪些问题? 二、…...
二十三种设计模式-建造者模式
建造者模式(Builder Pattern)是一种创建型设计模式,它提供了一种分步骤构建复杂对象的方法。这种模式允许你通过相同的创建过程构建不同的表示。建造者模式将一个复杂对象的构建与其表示分离,使得同样的构建过程可以创建不同的对象…...
MarkDown 的 mermaid gantt(甘特图)、mermaid sequenceDiagram (流程图) 语法解析和应用
简简单单 Online zuozuo: 简简单单 Online zuozuo 简简单单 Online zuozuo 简简单单 Online zuozuo 简简单单 Online zuozuo :本心、输入输出、结果 简简单单 Online zuozuo : 文章目录 MarkDown 的 mermaid gantt、mermaid sequenceDiagram 语法解析和应用前言mermaid gan…...
git submodule的使用:将别人的git仓库作为自己的子仓库
git的基本操作在该篇中展示:git的基本操作在日常开发中,我们经常会碰到需要将别人的仓库作为自己的子仓库来进行开发。下面将介绍具体将如何操作。 1、添加Submodule至自己的git仓库 1.1、创建自己的Git仓库 (1)在github中创建自…...
Springboot 下载附件
GetMapping("/download") public void download(RequestParam String fileId, HttpServletResponse response) throws IOException {// 查询文件信息SysFileEntity sysFileEntity fileService.queryFileById(fileId);response.setContentType("application/oct…...
MySQL 延迟复制:确保数据安全与系统稳定的秘诀
MySQL 延迟复制:确保数据安全与系统稳定的秘诀 在 MySQL 主从复制架构中,数据的同步通常是实时的。然而,在一些特定场景下,我们可能不希望从库立刻同步主库的所有更新。特别是在高风险操作或者主库出现故障时,实时复制…...
ELK 使用教程采集系统日志 Elasticsearch、Logstash、Kibana
前言 你知道对于一个系统的上线考察,必备的几样东西是什么吗?其实这也是面试中考察求职者,是否真的做过系统开发和上线的必备问题。包括:服务治理(熔断/限流) (opens new window)、监控 (opens new window)和日志,如果…...
python实现自动登录12306抢票 -- selenium
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 python实现自动登录12306抢票 -- selenium 前言其实网上也出现了很多12306的代码,但是都不是最新的,我也是从网上找别人的帖子,看B站视频&…...
使用Diffusion Models进行图像超分辩重建
Diffusion Models专栏文章汇总:入门与实战 前言:图像超分辨率重建是一个经典CV任务,其实LR(低分辨率)和 HR(高分辨率)图像仅在高频细节上存在差异。通过添加适当的噪声,LR 图像将变得与其 HR 对应图像无法区分。这篇博客介绍一种方式巧妙利用这个规律使用Diffusion Mod…...
吾杯网络安全技能大赛——Misc方向WP
吾杯网络安全技能大赛——Misc方向WP Sign 题目介绍: 浅浅签个到吧 解题过程: 57754375707B64663335376434372D333163622D343261382D616130632D3634333036333464646634617D 直接使用赛博橱子秒了 flag为 WuCup{df357d47-31cb-42a8-aa0c-6430634ddf4a} 原神启动…...
Web安全 - “Referrer Policy“ Security 头值不安全
文章目录 概述原因分析风险说明Referrer-Policy 头配置选项1. 不安全的策略no-referrer-when-downgradeunsafe-url 2. 安全的策略no-referreroriginorigin-when-cross-originsame-originstrict-originstrict-origin-when-cross-origin 推荐配置Nginx 配置示例 在 Nginx 中配置 …...
C#OPC(上)
OPC(OLE for Process Control),用于过程控制的OLE,是一个工业标准,管理这个标准的国际组织是OPC基金会,OPC基金会现有会员以超过220家。遍布全球,包括世界上所有主要的自动化控制系统、仪器仪表及过程控制系统的公司。基于微软的O…...
Imgui + Cmake + OpenGL + GLFW 隐藏控制台窗口
网上一般是VS,如何在属性里面把控制台改为窗口 本文,使用Clion Cmake,实现如何隐藏控制台窗口 环境:OpenGL3 GLFW 添加头文件#include <windows.h>把main函数入口改为int WinMain(HINSTANCE hInstance, HINSTANCE hPrevI…...
Spring Boot(七):Swagger 接口文档
1. Swagger 简介 1.1 Swagger 是什么? Swagger 是一款 RESTful 风格的接口文档在线自动生成 功能测试功能软件。Swagger 是一个规范和完整的框架,用于生成、描述、调用和可视化 RESTful 风格的 Web 服务。目标是使客户端和文件系统作为服务器以同样的…...
RabbitMQ - 4 ( 22000 字 RabbitMQ 入门级教程 )
一: RabbitMQ 高级特性 前面主要讲解了 RabbitMQ 的概念和应用。RabbitMQ 实现了 AMQP 0-9-1 规范,并在此基础上进行了多项扩展。在 RabbitMQ 官方网站中详细介绍了其特性,我们将其中一些重要且常用的特性挑选出来进行讲解。 1.1 消息确认 …...
印象笔记07——试一试PDF标注
印象笔记07——试一试PDF标注 [!CAUTION] 根据第六期,我再次查询了资料,印象笔记还是有一些可圈可点的功能的(当然部分有平替),针对会员作用,开发使用场景虽然是逆向的,但我坚信这是一部分人的现…...
Vue3实战教程》24:Vue3自定义指令
如果您有疑问,请观看视频教程《Vue3实战教程》 自定义指令 介绍 除了 Vue 内置的一系列指令 (比如 v-model 或 v-show) 之外,Vue 还允许你注册自定义的指令 (Custom Directives)。 我们已经介绍了两种在 Vue 中重用代码的方式:组件和组…...
如何快速恢复华硕笔记本色彩配置文件:G-Helper智能修复方案
如何快速恢复华硕笔记本色彩配置文件:G-Helper智能修复方案 【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF, Stri…...
2025最权威的AI论文助手推荐
Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 在当下诸多处于主流地位的AI论文工具当中,Grammarly于语法校对以及学术表达优化…...
效率倍增器:利用快马AI自动生成网络设备批量巡检与健康报告脚本
最近在深圳做网络运维的朋友跟我吐槽,每天要手动巡检几十台网络设备,检查CPU、内存、接口状态这些指标,不仅耗时还容易出错。于是我尝试用InsCode(快马)平台帮他解决这个问题,效果出奇的好。今天就把这个自动化巡检脚本的实现过程…...
如何突破语言壁垒?Translumo带来的实时翻译新体验
如何突破语言壁垒?Translumo带来的实时翻译新体验 【免费下载链接】Translumo Advanced real-time screen translator for games, hardcoded subtitles in videos, static text and etc. 项目地址: https://gitcode.com/gh_mirrors/tr/Translumo 在全球化的数…...
5分钟搭建原神私服:KCN-GenshinServer终极指南
5分钟搭建原神私服:KCN-GenshinServer终极指南 【免费下载链接】KCN-GenshinServer 基于GC制作的原神一键GUI多功能服务端。 项目地址: https://gitcode.com/gh_mirrors/kc/KCN-GenshinServer 还在为复杂的命令行配置而头疼吗?想要轻松拥有自己的…...
Phi-3-mini-4k-instruct快速上手:Ollama部署指南,开启你的第一个AI项目
Phi-3-mini-4k-instruct快速上手:Ollama部署指南,开启你的第一个AI项目 1. 认识Phi-3-mini-4k-instruct:轻量级AI助手 Phi-3-mini-4k-instruct是一个仅有38亿参数的轻量级AI模型,由微软团队开发。虽然体积小巧,但它在…...
用STM32CubeMX和TMC260驱动步进电机,这份PWM频率配置指南帮你避开新手常见坑
STM32CubeMX与TMC260步进电机驱动实战:PWM频率配置的黄金法则 第一次用STM32CubeMX配置TMC260驱动步进电机时,我盯着屏幕上那一堆定时器参数发愣——Prescaler、Period、Counter Mode...这些看似简单的数字背后,藏着让电机平稳运转或是疯狂抖…...
【HTTP】HTTP协议核心体系:请求方法与状态码全结构化解析(附《思维导图》)
文章目录HTTP协议核心体系:请求方法与状态码全结构化解析一、核心基础概念1.1 HTTP方法的两大核心属性(规范级定义)1.2 HTTP状态码分类规则二、HTTP请求方法2.1 标准核心方法(RFC 7231 定义)2.1.1 只读类方法ÿ…...
告别直播回放获取难题!用douyin-downloader实现高效内容管理的3个创新方法
告别直播回放获取难题!用douyin-downloader实现高效内容管理的3个创新方法 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and bro…...
Phi-3-mini-4k-instruct-gguf保姆级教程:开箱即用的GGUF文本生成指南
Phi-3-mini-4k-instruct-gguf保姆级教程:开箱即用的GGUF文本生成指南 1. 认识Phi-3-mini-4k-instruct-gguf Phi-3-mini-4k-instruct-gguf是微软Phi-3系列中的轻量级文本生成模型GGUF版本。这个模型特别适合处理问答、文本改写、摘要整理和简短创作等任务。它最大的…...









