当前位置: 首页 > article >正文

科研人福音!PaperOrchestra 把实验日志变投稿论文,文献综述图表全包

AI能替你写论文了谷歌这个多智能体框架从实验记录直接生成投稿级论文研究背景做AI研究的人都懂那种痛苦实验跑完了数据也有了但把这些东西整理成一篇像样的论文往往比做实验本身还费劲。文献综述要翻几百篇paper、图表要一个个画、LaTeX格式要反复调……这个最后一公里问题其实一直没有被很好地解决。现有的自动化写作工具要么太窄——只能做文献综述比如AutoSurvey2、LiRA要么太死板——必须绑定在特定的实验流水线里才能用比如AI Scientist。换句话说你没办法拿着自己的实验记录去用这些工具它们根本不接受散装输入。谷歌这篇论文提出的PaperOrchestra想做的事情很直接给它一份想法摘要和实验日志它帮你输出一篇能投会议的完整LaTeX论文——包括文献综述、图表、公式全套齐活。为了衡量这件事做得好不好他们还顺带搭了个PaperWritingBench从CVPR 2025和ICLR 2025共200篇论文中反向工程出原始材料建了业内第一个标准化的论文写作评测集。相关工作这个领域可以粗略分成两派。一派是端到端的AI科研框架代表是AI Scientist系列。它们的思路是把提出假设→跑实验→写论文整个科研循环全部自动化。但问题在于写作模块跟它们自己的实验流水线是死死绑在一起的没法单独拿出来用更没法接受人类研究者自己提供的材料。另一派是专注于文献综述的系统比如AutoSurvey2和LiRA它们在生成长篇综述方面做得不错但目标是写调研报告而不是写研究论文。它们不懂怎么从自己的工作出发去定位研究空白、对比baseline缺乏写一篇完整论文所需要的自我意识。PaperOrchestra的定位就是填这个缝既能接受非结构化的散装输入又能输出完整的投稿级论文还能生成概念示意图——这是之前所有系统都做不到的组合。核心方法整个框架分五步走其中第二步和第三步并行执行Step 1 生成大纲Outline Agent读入所有输入材料产出一个JSON格式的结构化大纲。这个大纲包含三部分可视化计划要画什么图、文献检索策略宏观背景和具体方法论的检索方向、以及章节写作计划每个章节写什么、要引哪些文献。这一步相当于给后续所有agent铺路。Step 2 生成图表Plotting Agent根据可视化计划同时生成数据统计图和概念示意图。它用了一个叫PaperBanana的闭环优化模块会用视觉语言模型反复检查生成的图有没有问题不行就改、改完再生成直到满意为止。Step 3 文献综述Literature Review Agent执行Step 1定好的检索策略做的是先用LLM搜再用Semantic Scholar API验证的双重核查流程。找到的文献会做去重、截止日期过滤最后自动生成.bib文件并完成Introduction和Related Work两个章节的初稿。Step 4 正文写作Section Writing Agent拿着前面所有产出补全剩余章节——Abstract、Methodology、Experiments、Conclusion同时把生成的图表无缝嵌进LaTeX源文件里。Step 5 迭代精炼Content Refinement Agent用AgentReview系统模拟同行评审拿到反馈后对LaTeX源文件做针对性修改。有个关键细节只有总分提升或持平但细分项净正增益才接受修改一旦分数下降就立刻回滚——相当于给写作加了个版本控制。整个流程的输入输出可以用一个公式表达P(Ptex,Ppdf)W(I,E,T,G,F)P (P_{\text{tex}}, P_{\text{pdf}}) W(\mathcal{I}, \mathcal{E}, \mathcal{T}, \mathcal{G}, \mathcal{F})P(Ptex​,Ppdf​)W(I,E,T,G,F)I\mathcal{I}I是想法摘要E\mathcal{E}E是实验日志T\mathcal{T}T是LaTeX模板G\mathcal{G}G是会议要求F\mathcal{F}F是可选的现有图表不提供就全部自动生成。实验效果评测维度比较全面有自动评分、也有真人评估。在人工并排评比SxS中11位AI研究员对40篇论文进行了人工评估。结果是PaperOrchestra在文献综述质量上比AI基线高出50%–68%的绝对胜率差在整体论文质量上高出14%–38%。和人类写的原版论文相比文献综述方面还能打出43%的平局/胜率——相当能打。模拟接收率方面在ScholarPeer评审系统下PaperOrchestra的CVPR论文模拟接收率达到84%ICLR达到81%而人类原版论文是86%和94%——差距很小。引用覆盖率上竞品baseline平均只引9–14篇文献F1分数看起来还不错但那是因为分母小——实际上P1好引但非必引的召回率几乎是0。PaperOrchestra平均引用45–48篇更接近人类写作的~59篇水平P1召回率比最强基线高出12–14个百分点。消融实验挖出了两个有意思的结论一是即便只给非常粗糙的稀疏想法作为输入文献综述质量几乎没有下降说明Literature Review Agent的自主检索能力很强二是Content Refinement Agent的迭代精炼让论文接收率提升了19%CVPR和22%ICLR总分分别提升0.88和1.61分这一步的收益非常可观。论文总结写论文这件事最难的不是有想法而是把想法变成一篇有逻辑、有文献支撑、有图表佐证的完整稿件。PaperOrchestra用多智能体分工的方式把这个过程拆解成可以并行、可以迭代优化的若干步骤证明了从实验日志到投稿级论文的全程自动化在今天的技术条件下已经是可行的——而且质量能跟人类写的论文打个有来有回。

相关文章:

科研人福音!PaperOrchestra 把实验日志变投稿论文,文献综述图表全包

AI能替你写论文了?谷歌这个多智能体框架,从实验记录直接生成投稿级论文!研究背景 做AI研究的人都懂那种痛苦:实验跑完了,数据也有了,但把这些东西整理成一篇像样的论文,往往比做实验本身还费劲。…...

节能模式:OpenClaw+Qwen3.5-9B定时任务CPU优化方案

节能模式:OpenClawQwen3.5-9B定时任务CPU优化方案 1. 为什么需要关注OpenClaw的能耗问题 去年冬天,我的MacBook Pro风扇突然在凌晨三点狂转,把我从睡梦中惊醒。排查后发现是OpenClaw正在执行夜间数据抓取任务,Qwen3.5-9B模型的全…...

AI最强模型发布却说太危险不能公开:这次不是演习

Anthropic刚刚发布了一个AI模型,然后说:太危险,不能让你用 :2026年4月7日,Anthropic发布了一个叫Claude Mythos Preview的新模型。它能自主发现数千个零日漏洞,覆盖所有主流操作系统。它能在未经专项安全训练的情况下&…...

SQL中如何使用窗口函数实现Top N推荐系统

用 ROW_NUMBER() 配合 PARTITION BY user_id 获取每个用户的 Top N 推荐最稳妥,RANK() 和 DENSE_RANK() 因处理重复分数会导致条数不可控,如并列第1时 RANK() 跳至第3,易使 WHERE rn ≤ N 漏取或超取。窗口函数怎么写才能拿到每个用户的Top N…...

腾讯后端开发面经:一面 3 道算法压 30 分钟,二面开始全是场景题

腾讯后端开发面经:一面 3 道算法压 30 分钟,二面开始全是场景题 腾讯后端的面试,压强来得很快。 很多公司的节奏是:先聊项目,再问八股,最后来一道算法题。 腾讯不是。 这次整理到的一份真实面经里&#…...

JavaScript中WebWorker实现多线程计算避开主线程

Web Worker 是 JavaScript 实现多线程计算的核心机制,通过独立线程执行耗时逻辑(如大数据处理、加密解密等),避免阻塞主线程;需单独 JS 文件编写纯计算逻辑,用 postMessage 通信,仅支持结构化克…...

% 的人都用错了!Playwright vs Chrome DevTools MCP到底该怎么选?惩

一、环境准备 Free Spire.Doc for Python 是免费 Python 文档处理库,无需依赖 Microsoft Word,支持 Word 文档的创建、编辑、转换等操作,其中内置的 Markdown 解析能力,能高效实现 Markdown 到 Doc/Docx 格式的转换,且…...

医疗数据报表无数据问题完整排查复盘

一、场景与问题说明本次问题发生在医疗数据中台病案相关报表开发中,具体场景为:超声门诊科室相关的业务报表,在展示检查项目名称、执行医生这两个关键字段时,完全无数据展示,前端页面一片空白,客户直接反馈…...

大模型这么强,为啥还用YOLO和NLP?

你有没有想过一个问题 GPT-4o能看图说话,Claude能分析图表,Gemini能识别视频里的每一帧。大模型的视觉能力已经强到离谱了,NLP更是不在话下。 那为什么工业界还在用YOLO做目标检测?还在用BERT做文本分类? 是不懂&#…...

【GUI-Agent】阶跃星辰 GUI-MCP 解读---()---HITL(Human In The Loop)鬃

插件化架构 v3 版本最大的变化是引入了模块化插件系统。此前版本中集成在核心包里的原生功能,现在被拆分成独立的插件。 每个插件都是一个独立的 Composer 包,包含 Swift 和 Kotlin 代码、权限清单以及原生依赖。开发者只需安装实际用到的插件&#xff0…...

第九章:Vite API 参考手册

第九章:Vite API 参考手册 9.1 核心 API createServer 创建 Vite 开发服务器 import { createServer } from viteconst server await createServer({configFile: false,root: __dirname,server: { port: 3000 } })await server.listen() console.log(服务器启动在,…...

汽车质量体系_1

从逻辑关系看,ISO9000是最底层的通用质量管理框架,定义了质量管理的基本术语和原则,适用于所有组织。IATF16949在ISO9001的基础上,针对汽车行业的特殊性,提出了更具体的质量管理要求,覆盖从设计、生产到服务…...

营销自动化数据驱动 - 多源数据 OLAP 架构演进们

1. 流图:数据的河流 如果把传统的堆叠面积图想象成一块块整齐堆叠的积木,那么流图就像一条蜿蜒流淌的河流,河道的宽窄变化自然流畅,波峰波谷过渡平滑。 它特别适合展示多个类别数据随时间的变化趋势,尤其是当你想强调整…...

C#/.NET/.NET Core优秀项目和框架2026年3月简报

前言 公众号每月定期推广和分享的C#/.NET/.NET Core优秀项目和框架(每周至少会推荐两个优秀的项目和框架当然节假日除外),公众号推文中有项目和框架的详细介绍、功能特点、使用方式以及部分功能截图等(打不开或者打开GitHub很慢的…...

30分钟掌握OpenClaw:千问3.5-9B新手训练营

30分钟掌握OpenClaw:千问3.5-9B新手训练营 1. 为什么选择OpenClaw千问3.5-9B组合 去年我在尝试自动化处理日常工作报告时,发现市面上的RPA工具要么太笨重,要么需要复杂的编程知识。直到遇到OpenClaw这个开源框架,配合千问3.5-9B…...

三菱PLC搭配雅马哈四轴机械手在线检测收料案例解析:融合CAD电气图纸、CClink与串口通讯...

三菱plc搭配四轴雅马哈机械手在线检测收料案例程序。 (包涵CAD电气图纸,plc程序,人机界面,机器人程序,BOM表)程序中应用到CClink通讯,232串口通讯,数据采集伺服定位控制。这项目有点…...

Linux内核中的网络协议栈详解

Linux内核中的网络协议栈详解 引言 网络协议栈是Linux内核中负责处理网络通信的核心组件,它实现了从物理层到应用层的完整网络协议,为应用程序提供了可靠的网络通信服务。Linux内核的网络协议栈支持多种协议,包括TCP/IP、UDP、ICMP等&#xf…...

分享一个网络智能运维系统

项目简介 网络智能运维系统是一款面向网络设备的一体化智能运维管理平台,旨在帮助企业 IT 运维团队高效、自动化地完成网络设备的日常巡检、配置备份、批量操作及定时任务调度等核心工作。系统支持多品牌设备(华为、H3C、思科、锐捷、Juniper、MikroTik …...

深度排查:Hyper-V 已关但 VirtualBox 仍报错的完整解决方案

一、先确认核心状态:是否真的完全关闭了 Hyper-V 1. 用命令验证 Hyper-V 状态 以管理员身份打开终端,执行以下命令,确认所有相关服务都已禁用: bcdedit /enum | findstr hypervisorlaunchtype你已经确认是 Off,再执行&…...

绍兴Geo优化,如何选对靠谱服务商?

在人工智能技术深度渗透商业推广领域的当下,GEO(地理定位)优化已不再是简单的本地搜索排名,而是演变为一场关于“空间精准度”与“AI语义理解”的双重竞赛。对于绍兴及周边区域的企业而言,如何从众多服务商中筛选出真正…...

Safeboxie沙盘,电脑多开程序神器,系统安全工具,非常好用!

Safeboxie沙盘,电脑多开程序神器,系统安全工具,非常好用! 软件介绍 菜鸟高手裸奔工具沙盘Safeboxie是一款国外著名的系统安全工具,它可以让选定程序在安全的隔离环境下运行,只要在此环境中运行的软件&#…...

【2026企业级Blazor落地白皮书】:金融/医疗场景下SSR+Hydration+Streaming SSR三模混合渲染实战(附GCP/Azure边缘部署Checklist)

第一章:Blazor 2026企业级落地战略全景图 Blazor 正在从“可选框架”跃迁为 2026 年企业级 .NET 应用的默认前端架构范式。其核心驱动力并非仅限于 C# 全栈统一,更在于 WebAssembly 运行时成熟度、AOT 编译稳定性提升、以及与 Azure Static Web Apps、Mi…...

Synopsys Multivoltage Flow User Guide(汉化笔记)

1 Low-Power Design Strategies 1.1 Increasing Challenges of Power 早期的IC设计中EDA工具更多的优化方向是性能和面积,功耗考虑的比较少,但是,现在的设计CMOS器件密度和时钟频率都在提升,功耗重要性也更加明显,供电电压和晶体管阈值电压也在降低,漏电电流也成为无法忽…...

【PHP低代码表单安全生死线】:92%开发者忽略的3类注入漏洞(含OWASP Top 10映射表+自动检测脚本)

第一章:PHP低代码表单安全生死线总览在低代码开发范式下,PHP 表单常被封装为可拖拽、自动生成的组件,但其底层仍依赖 $_POST、$_GET 等超全局变量接收用户输入。这种便利性极易掩盖注入、XSS、CSRF 和越权提交等高危风险——一条未过滤的 $_P…...

【数据库系统】数据库系统概论——第十二章 数据库管理系统

第十二章 数据库管理系统 文章目录 第十二章 数据库管理系统 12.1数据库管理系统的基本功能 12.2数据库管理系统的系统结构 12.2.1数据库管理系统的层次结构 12.2.2关系数据库管理系统的运行过程示例 12.3语言处理层 12.3.1语言处理层的任务和工作步骤 12.3.2解释方法 12.3.3预…...

OpenClaw异常检测技能:基于SecGPT-14B的流量行为分析

OpenClaw异常检测技能:基于SecGPT-14B的流量行为分析 1. 为什么需要AI驱动的流量分析 去年处理一起内网渗透事件时,我花了整整三天手动分析pcap文件。传统规则引擎虽然能识别已知攻击特征,但对新型C2通信协议几乎束手无策——攻击者只需简单…...

OpenClaw技能市场巡礼:Qwen3-4B适配的十大实用模块

OpenClaw技能市场巡礼:Qwen3-4B适配的十大实用模块 1. 为什么需要关注OpenClaw技能市场? 第一次接触OpenClaw时,我被它"AI操控电脑"的概念吸引,但真正让我持续使用的却是它的技能市场(ClawHub)…...

MeteorSeed核

这个代码的核心功能是:基于输入词的长度动态选择反义词示例,并调用大模型生成反义词,体现了 “动态少样本提示(Dynamic Few-Shot Prompting)” 与 “上下文长度感知的示例选择” 的能力。 from langchain.prompts impo…...

15DaysofAnimationsinSwift锁屏动画教程:从概念到代码实现

15DaysofAnimationsinSwift锁屏动画教程:从概念到代码实现 【免费下载链接】15DaysofAnimationsinSwift A project to learn animations. 项目地址: https://gitcode.com/gh_mirrors/15/15DaysofAnimationsinSwift 想要为你的iOS应用添加一个流畅、优雅的锁屏…...

让开发流程更高效:为 Visual Studio 订阅用户解锁 Syncfusion凸

一、什么是requests? requests 是一个用于发送HTTP请求的 Python 库。 它可以帮助你: 轻松发送GET、POST、PUT、DELETE等请求 处理Cookie、会话等复杂性 自动解压缩内容 处理国际化域名和URL 二、应用场景 requests 广泛应用于以下实际场景: …...