使用多Agent进行海报生成的技术方案及评估套件-P2P、paper2poster
最近字节、滑铁卢大学相关团队同时放出了他们使用Agent进行海报生成的技术方案,P2P和Paper2Poster,传统方案如类似ppt生成等思路,基本上采用固定的模版,提取相关的关键元素进行模版填充,因此,海报生成的质量完全依赖于规则模版的丰富程度。下面来看一下这两个团队使用Agent进行海报生成的技术思路,覆盖多种技术链路,如:文档智能解析、LLM、布局生成、Agent等。比如有趣,下面来看看这两个技术方案,供参考。
学术海报在科学交流中起着至关重要的作用,需要在有限的页面上压缩长篇幅的多模态文档。
因此,如何使用Agent生成海报,并且评价生成的海报质量?
P2P框架
由三个Agent组成:
-
Figure Agent: 负责处理输入研究论文中的所有视觉元素。使用DocLayout-YOLO模型进行版式分析,提取图表,同时,图描述器(LLM结合prompt)通过空间关系分析识别相应的图注。并通过空间关系分析识别相应的标题,最终合成语义视觉单元。
-
Section Agent:
(1)Section Generator: 分析输入论文,动态推断目标海报的详细结构模式(如引言、方法、结果等)。
(2)Content Generator: 利用结构模式、原始输入论文和Figure Agent提供的视觉元素描述,生成语义连贯的海报文本。
-
Orchestrate Agent: HTML Generator: 利用Section Agent生成的Markdown格式文本和Figure Agent提取的实际视觉元素,生成HTML和CSS格式的海报。
P2PEVAL
构建了一个数据-P2PEVAL数据集包括从ACL会议系列和SciPostLayout收集的121篇论文-海报对,保留了原始研究论文的PDF格式和相应的学术海报的PDF和PNG格式。
- 通用海报评估
- 𝑈1:作者与标题准确率
- 𝑈2:图像唯一性与质量
- 𝑈3:平衡空白
- 𝑈4:上下文相关性
- 𝑈5:最佳视觉与文本比例
- 𝑈6:维度适宜性
- 𝑈7:视觉一致性
- 𝑈8:内容保真度
- 𝑈9:信息流逻辑
- 𝑈10:自包含解释
训练了一个专门的打分模型 - XGBoost 模型通过 10 折交叉验证得出通用评分。
- 细粒度海报评估
使用上述公式对细分指标进行赋分。专门用于衡量每张生成海报在内容和视觉元素上对官方学术海报的相似性,这一块的ground truth来源于标注规范。
实验性能
PosterAgent框架
如上图,PosterAgent是论文的核心创新,包含三个主要组件:
-
解析器(Parser):
- 功能:将科学论文提炼为结构化资产库。
- 过程:首先摄取论文的PDF文件,使用MARKER和DOCLING等文档解析工具将其转换为Markdown格式。然后,通过大模型处理Markdown,生成JSON-like的大纲。这一资产库包含论文的关键元素,如:文本、图表和表格,为后续步骤提供结构化输入。
- 目的:确保论文内容被组织成易于处理的格式。
所以这一部分的技术点又回到了之前介绍过的《文档智能》相关内容。PDF解析清晰的过程如下:
-
规划器(Planner):
- 功能:将文本和视觉元素(如图表)排列成连贯的布局。形成(section, figure)对
- 过程:从解析器获取结构化资产库,采用二叉树布局策略排列内容。布局设计考虑阅读顺序(例如从左到右、从上到下)和空间平衡,使用逐步放大的策略迭代生成面板。规划器还会估计内容长度(如字数、图表大小)以适应海报的尺寸限制。
- 目的:创建逻辑清晰、视觉平衡的布局,确保海报易于阅读和理解。
技术点:图文匹配、布局生成(这里使用的是二叉树的布局生成策略,确保布局合理,内容分配均匀,阅读顺序清晰。)
-
绘制-评论者循环(Painter–Commenter Loop):
- 功能:优化每个面板的视觉和文本质量。
- 过程:
- 绘制组件(Painter):为海报的每个部分生成要点总结,并使用python-pptx生成渲染代码,创建面板的视觉布局。绘制组件确保文本以子弹点形式呈现,字体大小如标题60、要点48,保持一致性。
- 评论者(Commenter):一个视觉-语言模型(VLM),分析生成的面板,检测文本溢出、空余空间等问题。通过上下文参考提示(例如一个显示溢出的例子和一个理想布局的例子)提供反馈,确保对齐和美观。循环在绘制和评论之间迭代,直到面板达到预期质量。
- 目的:确保每个面板既信息丰富又美观,避免溢出或错位。
技术点:VLM充当Commenter。
评价维度
这篇文章还有一个值得看的点就是它的评价维度,总结如下:
评估维度 | 描述 |
---|---|
视觉质量 | 测量生成的海报与人类设计的海报在语义上的对齐程度,确保视觉元素(如图表、图片)放置适当且相关。 |
文本连贯性 | 评估海报上文本的流畅度和连贯性,确保文本清晰、简洁,无语法错误。 |
整体评估 | 使用六项细化标准评估海报的美学和信息方面,包括布局平衡、可读性和视觉吸引力,由VLM-as-judge评分,确保客观性。 |
PaperQuiz | 测量海报传达论文核心内容的能力,通过VLM生成的测验测试海报是否有效传递关键信息,例如论文的主要发现和结论。 |
实验性能
一些结论:
- 视觉质量和文本连贯性:GPT-4o生成的图像在视觉上最具吸引力,但文本连贯性较差。PosterAgent在图形相关性方面表现最佳,视觉相似性仅次于人类设计的海报。
- VLM-as-Judge:人类设计和GT海报在美学和信息得分上最高。PosterAgent-4o在这些指标上表现接近人类设计海报,综合得分为3.72。
- PaperQuiz:GPT-4o的4o-HTML变体在美学得分上最高,但在信息得分上较低。PosterAgent变体在信息质量上表现最佳,综合考虑Verbatim和Interpretive问题的得分最高。
- 效率:PosterAgent在使用GPT-4o时平均消耗101.1K tokens,在使用Qwen-2.5-7B时消耗47.6K tokens,显著减少了计算成本。
参考文献:
- paper:Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers,https://arxiv.org/pdf/2505.21497v1
- code:https://github.com/Paper2Poster/Paper2Poster
- P2P: Automated Paper-to-Poster Generation and Fine-Grained Benchmark,https://arxiv.org/abs/2505.17104
- code:https://github.com/multimodal-art-projection/P2P
相关文章:

使用多Agent进行海报生成的技术方案及评估套件-P2P、paper2poster
最近字节、滑铁卢大学相关团队同时放出了他们使用Agent进行海报生成的技术方案,P2P和Paper2Poster,传统方案如类似ppt生成等思路,基本上采用固定的模版,提取相关的关键元素进行模版填充,因此,海报生成的质量…...

Redis--缓存工具封装
经过前面的学习,发现缓存中的问题,无论是缓存穿透,缓存雪崩,还是缓存击穿,这些问题的解决方案业务代码逻辑都很复杂,我们也不应该每次都来重写这些逻辑,我们可以将其封装成工具。而在封装的时候…...

python:在 PyMOL 中如何查看和使用内置示例文件?
参阅:开源版PyMol安装保姆级教程 百度网盘下载 提取码:csub pip show pymol 简介: PyMOL是一个Python增强的分子图形工具。它擅长蛋白质、小分子、密度、表面和轨迹的3D可视化。它还包括分子编辑、射线追踪和动画。 可视化示例:打开 PyM…...

SpringCloud——Docker
1.命令解读 docker run -d 解释:创建并运行一个容器,-d则是让容器以后台进程运行 --name mysql 解释: 给容器起个名字叫mysql -p 3306:3306 解释:-p 宿主机端口:容器内端口,设置端口映射 注意: 1、…...

机器学习:欠拟合、过拟合、正则化
本文目录: 一、欠拟合二、过拟合三、拟合问题原因及解决办法四、正则化:尽量减少高次幂特征的影响(一)L1正则化(二)L2正则化(三)L1正则化与L2正则化的对比 五、正好拟合代码…...

运用集合知识做斗地主案例
方法中可变参数 一种特殊形参,定义在方法,构造器的形参列表里,格式:数据类型...参数名称; 可变参数的特点和好处 特点:可以不传数据给它;可以传一个或者同时传多个数据给它;也可以…...

《HelloGitHub》第 110 期
兴趣是最好的老师,HelloGitHub 让你对开源感兴趣! 简介 HelloGitHub 分享 GitHub 上有趣、入门级的开源项目。 github.com/521xueweihan/HelloGitHub 这里有实战项目、入门教程、黑科技、开源书籍、大厂开源项目等,涵盖多种编程语言 Python、…...

使用 Shell 脚本实现 Spring Boot 项目自动化部署到 Docker(Ubuntu 服务器)
使用 Shell 脚本实现 Spring Boot 项目自动化部署到 Docker(Ubuntu 服务器) 在日常项目开发中,我们经常会将 Spring Boot 项目打包并部署到服务器上的 Docker 环境中。为了提升效率、减少重复操作,我们可以通过 Shell 脚本实现自动…...

day023-网络基础与OSI七层模型
文章目录 1. 网络基础知识点1.1 网络中的单位1.2 查看实时网速:iftop1.3 交换机、路由器 2. 路由表2.1 查看路由表的命令2.2 路由追踪命令 3. 通用网站网络架构4. 局域网上网原理-NAT5. 虚拟机上网原理6. 虚拟机的网络模式6.1 NAT模式6.2 桥接模式6.3 仅主机模式 7.…...

SpringAI系列4: Tool Calling 工具调用 【感觉这版本有bug】
前言:在最近发布的 Spring AI 1.0.0.M6 版本中,其中一个重大变化是 Function Calling 被废弃,被 Tool Calling 取代。Tool Calling工具调用(也称为函数调用)是AI应用中的常见模式,允许模型通过一组API或工具…...

机器人--里程计
教程 轮式里程计视频讲解 里程计分类 ros--odometry 什么是里程计 里程计是一种利用从移动传感器获得的数据来估计物体位置随时间的变化而改变的方法。该方法被用在许多机器人系统来估计机器人相对于初始位置移动的距离。 注意:里程计是一套算法,不…...

设计模式——原型设计模式(创建型)
摘要 本文详细介绍了原型设计模式,这是一种创建型设计模式,通过复制现有对象(原型)来创建新对象,避免使用new关键字,可提高性能并简化对象创建逻辑。文章阐述了其优点,如提高性能、动态扩展和简…...
react库:class-variance-authority
文章目录 前言一、cva 的核心作用二、代码逐层解析参数详解基础样式(第一个参数):variant:定义颜色/风格变体(如 default、destructive)。size:定义尺寸变体(如 sm、lg)。…...

通过mqtt 点灯
1 解析mqtt 传过来的json 用cjson 解析。 2 类似mvc的结构,调用具体的动作函数 定义设备处理结构体:使用结构体数组映射设备名称与处理函数,实现可扩展的指令分发分离设备逻辑:为每个设备(如 LED、Motor࿰…...
随笔笔记记录5.28
1.setOptMode -opt_leakage_to_dynamic_ratio 调整漏电与动态功耗的优化权重( 1.0 表示仅优化漏电)。 需指定-opt_power_effort(none | low | high),同时使用 2.set_ccopt_property max_source_to_sink_net_length …...

大数据-273 Spark MLib - 基础介绍 机器学习算法 决策树 分类原则 分类原理 基尼系数 熵
点一下关注吧!!!非常感谢!!持续更新!!! 大模型篇章已经开始! 目前已经更新到了第 22 篇:大语言模型 22 - MCP 自动操作 FigmaCursor 自动设计原型 Java篇开…...

基于 Spring Boot + Vue 的墙绘产品展示交易平台设计与实现【含源码+文档】
项目简介 本系统是一个基于 Spring Boot Vue 技术栈开发的墙绘产品展示交易平台,旨在提供一个高效、便捷的在线商城平台,方便用户浏览、选购墙绘产品,并提供管理员进行商品管理、订单管理等功能。系统采用了前后端分离的架构,前…...

【机器学习】支持向量机
文章目录 一、支持向量机简述1.概念2.基本概念3.算法介绍4.线性可分5.算法流程 二、实验1.代码介绍2.模型流程3.实验结果4.实验小结 一、支持向量机简述 1.概念 支持向量机(SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器,其…...

ONLYOFFICE深度解锁系列.4-OnlyOffice客户端原理-真的不支持多端同步
最近很多客户多要求直接部署onlyoffice服务端,还问能否和onlyoffice的客户端进行文件同步,当时真是一脸懵,还有的是老客户,已经安装了onlyoffice协作空间的,也在问如何配置客户端和协作空间的对接。由于问的人太多了,这里统一回复,先说结论,再说原理: 1.onlyoffice document s…...

LLMTIME: 不用微调!如何用大模型玩转时间序列预测?
今天是端午节,端午安康!值此传统佳节之际,我想和大家分享一篇关于基于大语言模型的时序预测算法——LLMTIME。随着人工智能技术的飞速发展,利用大型预训练语言模型(LLM)进行时间序列预测成为一个新兴且极具…...

2.从0开始搭建vue项目(node.js,vue3,Ts,ES6)
从“0到跑起来一个 Vue 项目”,重点是各个工具之间的关联关系、职责边界和技术演化脉络。 从你写代码 → 到代码能跑起来 → 再到代码可以部署上线,每一步都有不同的工具参与。 😺😺1. 安装 Node.js —— 万事的根基 Node.js 是…...
MySQL 高可用实现方案详解
MySQL 高可用实现方案详解 一、高可用核心概念 高可用性(High Availability)指系统能够持续提供服务的能力,通常用可用性=正常服务时间/(正常服务时间+故障时间)来衡量,99.99%可用性表示年故障时间不超过52.6分钟。 MySQL实现高可用需要解决以下几个关键问题: 故障自动检测…...

【pycharm】如何连接远程仓库进行版本管理(应用版本)
软件:Pycharm OS:Windows 一、Git基础设置 这里略过Git安装,需要可以参考:windows安装git(全网最详细,保姆教程)-CSDN博客 1. 配置Git 打开GitBash。分次输入下列命令。 git config --…...

linux 1.0.7
用户和权限的含义与作用 linux中的用户和文件 用户的权限是非常重要的 而且有些程序需要使用管理员身份去执行 这些都是非常重要的 不可能让所有的人拥有所有的权限 这样的工具可以避免非法的手段来修改计算机中的数据 linux之所以安全还是权限管理做的很棒 每个登录的用户都有…...
【Rust 轻松构建轻量级多端桌面应用】
使用 Tauri 框架构建跨平台应用 Tauri 是一个基于 Rust 的轻量级框架,可替代 Electron,用于构建高性能、低资源占用的桌面应用。其核心优势在于利用系统原生 WebView 而非捆绑 Chromium,显著减小应用体积。 安装 Tauri 需要先配置 Rust 环境…...

IEEE P370:用于高达 50 GHz 互连的夹具设计和数据质量公制标准
大多数高频仪器,如矢量网络分析仪 (VNA) 和时域反射仪 (TDR),都可以在同轴接口的末端进行非常好的测量。然而,复杂系统中使用的互连很少具有同轴接口。用于表征这些设备的夹具的设计和实施会对测…...
青少年编程与数学 02-020 C#程序设计基础 09课题、面向对象编程
青少年编程与数学 02-020 C#程序设计基础 09课题、面向对象编程 一、概述1. 对象(Object)2. 类(Class)3. 封装(Encapsulation)4. 继承(Inheritance)5. 多态(Polymorphism…...

Denoising Autoencoders 视频截图 DAEs简单实现 kaggle 去噪编码器
https://www.bilibili.com/video/BV1syzrYaEtw Denoising Autoencoders (DAEs) 是一种无监督学习模型,属于自动编码器(Autoencoder)的一种扩展形式。它们的目标是通过训练神经网络来学习数据的鲁棒表示(robust representation&a…...

GoogLeNet网络模型
GoogLeNet网络模型 诞生背景 在2014年的ImageNet图像识别挑战赛中,一个GoogLeNet的网络架构大放异彩,与VGG不同的是,VGG用的是3*3的卷积,而GoogLeNet从1*1到7*7的卷积核都用,也就是使用不同大小的卷积核组合。 网络…...
LeetCode Hot100 (贪心)
121. 买卖股票的最佳时机 题意 给定一个数组 prices ,它的第 i 个元素 prices[i] 表示一支给定股票第 i 天的价格。你只能选择 某一天 买入这只股票,并选择在 未来的某一个不同的日子 卖出该股票。设计一个算法来计算你所能获取的最大利润。返回你可以从…...