当前位置: 首页 > article >正文

哈佛医学院做了5679次组学分析:大模型能力没差别,关键在验证

哈佛医学院Zitnik团队的MEDEA 给出了一条明确的技术路线与其追求更强的骨干大模型不如在分析流程的每一步嵌入验证机制。在理解 MEDEA 的设计逻辑之前先看一组来自消融实验的数据。在细胞类型特异性靶点发现任务中研究团队将MEDEA拆解为三种配置进行对比仅使用大模型的参数化知识、仅依赖文献检索、以及完整的四模块协同。结果呈现出清晰的矛盾模式大模型单独使用时仅有1.8%的分析选择放弃回答但跨五种疾病的平均错误率高达69.2%。它对自身参数化记忆中的生物学知识有着极高的置信度无论这些知识是否准确。而仅依赖文献的配置方向相反——77.6%的分析选择放弃回答因为细胞类型特异性的靶点文献确实太过稀缺。论文链接https://www.biorxiv.org/content/10.64898/2026.01.16.696667v1.full.pdf完整的MEDEA通过串联多条证据通路做交叉验证达到了最高准确率和最低失败率。这组数据揭示的不只是一个工程问题而是当前组学智能体面临的结构性挑战大模型的参数化知识覆盖广但不可靠文献证据可靠但覆盖窄任何单一通路都无法同时满足覆盖率和准确率的要求。MEDEA的技术路线全流程验证针对上述矛盾MEDEA采用了四模块协同的架构核心设计原则是在分析流程的每一步都内嵌验证而非仅在最终输出时做判断。研究规划模块负责将自然语言目标转化为可执行的研究计划。转化完成后该模块会进行两轮检查上下文验证每个分析步骤中的细胞类型、疾病等生物学实体是否与所选工具兼容和完整性验证计划的技术可行性和逻辑一致性。论文展示了一个典型场景用户要求分析肝星状细胞的靶点但所选单细胞基础模型的预训练数据中不包含该细胞类型上下文验证检测到不兼容后引导智能体从近似的可用细胞类型中选择替代方案。分析执行模块将研究计划翻译为代码并执行但在执行前后各加一层验证。执行前检查语法和接口兼容性执行后审计数据来源和输出与计划的一致性。这意味着一个分析即使代码运行成功如果输出偏离了研究计划的预期也会被标记并触发修正。文献推理模块在检索完成后不直接使用检索结果而是先对每篇论文在物种、疾病、细胞类型等维度做相关性筛选过滤掉与当前分析上下文不相关的文献再进行证据综合。多轮讨论模块以三个大模型组成的评审团对分析执行、文献推理和骨干模型三条证据通路的输出做加权投票和多轮辩论。当证据收敛时给出结论当证据分裂或不足时选择校准后的弃权——即不回答。MEDEA的工具空间包含20个工具其中4个是机器学习模型PINNACLE、TranscriptFormer、COMPASS 和 OpenScholar。值得注意的是这些基础模型在架构中是被智能体调用的工具而非骨干模型。智能体根据疾病上下文决定调用哪个模型——受限工具实验表明PINNACLE在类风湿关节炎等疾病上表现更优TranscriptFormer 在肝母细胞瘤等场景上更优反映了两类单细胞基础模型在网络拓扑和表达动态两个维度上的信号互补性。三个治疗发现场景的实验结果场景一细胞类型特异性靶点发现。2,400次分析覆盖类风湿关节炎、1型糖尿病、干燥综合征、肝母细胞瘤和滤泡性淋巴瘤五种疾病及29种细胞类型。MEDEA比单独使用大模型的准确率最高提升45.9%该场景的核心挑战在于细胞类型粒度。大模型在多步分析中会逐步模糊细胞类型——例如将用户指定的「初始型 CD4 αβ T 细胞」简化为「CD4 T 细胞」。在类风湿关节炎中初始型与效应记忆型CD4 αβ T细胞的致病机制截然不同模糊后的靶点推荐会指向错误的生物学逻辑。加入上下文验证后MEDEA 在髓样树突细胞上的准确率提升 28.9%在初始型CD4 αβ T细胞上提升 21.7%。场景二合成致死推理2,385次分析覆盖MCF7、MCF10A、MDAMB231、CAL27、CAL33、A549、A427七个癌细胞系。MEDEA 比骨干大模型最高提升21.7%MCF7。该场景下MEDEA表现出三种有价值的行为模式在至少 323 个大模型答错的案例中给出正确判断纠错在 175 个大模型选择弃权的案例中给出正确答案补漏在 141 个大模型犯错的案例中选择弃权而非跟着错止损。系统整合了 DepMap 基因共依赖分数与通路富集分析对基因对联合抑制是否会选择性杀死癌细胞做出可追溯的判断。场景三免疫治疗响应预测894 次患者级别分析基于IMvigor210膀胱癌队列的298名患者。MEDEA比大模型最高提升23.9%。在高肿瘤突变负荷、非炎症型微环境这一最困难的亚组中MEDEA 修正了底层机器学习模型 50.9% 的误分类。论文展示的一个患者案例清晰呈现了多源证据冲突时的决策过程一名肿瘤突变负荷为19.0的男性患者GPT-4o和Claude 3.7 Sonnet均预测「响应」。但 MEDEA调用COMPASS分析肿瘤转录组后发现 T 细胞耗竭严重、B 细胞浸润极低——微环境呈功能失调。与此同时文献检索支持「高突变负荷→好响应」的统计关联。两条证据直接矛盾。经多轮讨论调和后系统判定微环境功能障碍信号的优先级高于突变负荷的统计关联预测「不响应」。患者实际结局为疾病进展。消融实验的关键结论消融实验的核心发现值得反复强调MEDEA的性能提升并非来自更强的骨干大模型。无论使用SOTA LLM作为骨干加入验证模块后性能显著提升去掉后显著下降。这意味着在当前大模型能力水平下组学智能体的性能瓶颈可能不在推理能力而在过程可靠性。这一判断如果成立对整个生物医学智能体领域的资源分配和设计优先级都有重要启示。MEDEA 的输出不是一个标签或分数而是一份结构化的分析报告——包含研究计划、每步工具调用与输出、文献检索与相关性评分、证据调和的推理链路。这种可审计的输出形态对于需要向团队或管理层解释「为什么推荐这个靶点」的实际场景具有直接价值。代码、评测基准均已开源。模块化设计支持选择性集成——可以只使用研究规划模块做计划验证也可以只使用文献推理模块做文献筛选。论文同时指出了若干局限性评测基准依赖已有的单细胞图谱和特定患者队列部分评测依赖大模型评审工具本身编码了细胞类型粒度和批次结构等假设共识模块的多模型评审团存在关联错误的风险。在药物发现场景中一个自信的错误答案往往比一句诚实的「我不确定」代价更高。MEDEA 的校准弃权机制——在证据不足时选择不回答——或许是这项工作中最具实际价值的设计。

相关文章:

哈佛医学院做了5679次组学分析:大模型能力没差别,关键在验证

哈佛医学院Zitnik团队的MEDEA 给出了一条明确的技术路线:与其追求更强的骨干大模型,不如在分析流程的每一步嵌入验证机制。在理解 MEDEA 的设计逻辑之前,先看一组来自消融实验的数据。在细胞类型特异性靶点发现任务中,研究团队将M…...

轻量级抢占式任务调度器:面向Arduino的毫秒级实时调度

1. 项目概述Task Scheduler是一款专为 Atmel AVR(ATmega328P/ATmega2560)与 ARM Cortex-M3(SAM3X8E)架构微控制器设计的轻量级、抢占式实时任务调度器,面向 Arduino 生态系统深度优化。其核心目标并非替代完整 RTOS&am…...

Claude Code开源第一人,竟是华人辍学博士!CC之父回应:纯手误

51万行Claude Code代码全网裸奔,背后泄密第一人竟是他。就在刚刚,CC之父回应来了:是人,不是Bun。爆出Claude Code源码第一人,竟被全网扒出来了!3月31日凌晨4点23分,安全研究员Chaofan Shou在X上…...

遥感影像解译实战:从目视解译八要素到精准分类

1. 遥感影像解译的底层逻辑 第一次接触遥感影像时,我盯着屏幕上的彩色方块发懵——这堆像素点怎么能看出是森林还是农田?后来才发现,解译就像玩"大家来找茬",关键要掌握八要素这把万能钥匙。大小、形状、阴影、颜色、纹…...

Arduino驱动OV7670图像传感器:底层时序与跨平台实现

1. Arduino_OV767X 库深度解析:OV7670 CMOS 图像传感器在 Arduino 平台上的底层驱动与工程实践OV7670 是 OmniVision(现属韦尔半导体)于 2000 年代初推出的超低功耗、单芯片 QVGA(320240)彩色 CMOS 图像传感器。其采用…...

[特殊字符] iONSPlayer 发布,ONScripter游戏的iOS模拟器

🎮 iONSPlayer 发布,ONScripter游戏的iOS模拟器 阿丰在长春 一只特立独行的丰子 什么是 iONSPlayer?继承自ONSPlayer! iONSPlayer 是一款运行在 iOS 设备上的 ONScripter 引擎模拟器。 简单来说,它可以让你在 iPhon…...

Arduino嵌入式轻量日志库SimpleLogger设计与实践

1. 项目概述SimpleLogger 是一款专为 Arduino 平台设计的轻量级日志库,其核心设计哲学是“极简可用、零侵入、低资源占用”。在资源受限的微控制器(如 ATmega328P、ESP32-S2、nRF52840 等)上,传统日志框架(如 ArduinoL…...

数字IC设计的未来:ChatGPT能否颠覆十大核心领域?

1. ChatGPT在数字IC设计中的定位 最近两年AI工具的发展确实让人眼前一亮,特别是ChatGPT这种大语言模型,在代码生成、技术问答方面展现出了惊人的能力。作为一名在数字IC设计领域摸爬滚打多年的工程师,我也第一时间测试了它在芯片设计各个环节…...

DHL集团与中国外运将进一步深化全球业务协同

、美通社消息:近日,DHL集团与中国外运正式签署谅解备忘录。双方宣布,将在过往坚实合作的基础上,进一步深化全球业务协同,共同开启新一轮战略对话与长远布局。此次签约正值双方合资公司——中外运敦豪成立四十周年。作为…...

第 2 章 控制流 知识点精讲

2.1 布尔值核心知识点布尔值是表示真假的两种状态,是控制流的基础。True:表示真、成立、肯定。False:表示假、不成立、否定。关键特性布尔值是 Python 的基本数据类型之一,类型为 bool。它们是关键字,必须大写。在数值…...

第 1 章 Python 基础 知识点精讲

1.1 在交互式环境中输入表达式核心知识点Python 提供两种运行代码的方式:交互式环境(IDLE / 终端) 和 脚本文件(.py)。交互式环境:输入一行代码立即执行,适合快速测试、调试、学习语法启动方式&…...

SEO_网站SEO排名下降的五大原因及应对技巧

SEO:网站SEO排名下降的五大原因及应对技巧 在数字营销的世界里,网站的SEO排名对于吸引流量和提升业务是至关重要的。随着搜索引擎算法的不断更新,很多网站会经历SEO排名下降的困境。本文将详细探讨网站SEO排名下降的五大原因,并提供相应的应…...

低成本自动化:OpenClaw+Gemma-3-12b-it替代Zapier的5个场景

低成本自动化:OpenClawGemma-3-12b-it替代Zapier的5个场景 1. 为什么选择OpenClawGemma替代Zapier 作为一个长期使用Zapier的自动化爱好者,我最近开始尝试用OpenClawGemma-3-12b-it组合来替代部分Zapier工作流。这个转变源于两个痛点:一是Z…...

8 鸿蒙多任务并发场景性能瓶颈排查 | 鸿蒙开发筑基实战

8 鸿蒙多任务并发场景性能瓶颈排查 | 鸿蒙开发筑基实战 作者:杨建宾(华夏之光永存) 摘要 本文面向鸿蒙应用开发工程师,聚焦多任务并发场景下的卡顿、掉帧、响应延迟等核心痛点,提供一套通用工程级排查流程。从任务调度…...

Git從入門到「入坑」:一個新手的環境配置與踩坑實錄

Git從入門到「入坑」:一個新手的環境配置與踩坑實錄 ——AtomGit春季徵稿開源入門實戰分享 導語:為什麼我要寫這篇文章? 三個月前,我連git clone和git pull的區別都說不清楚。每次看到Git報錯,我的第一反應不是讀錯誤信…...

二极管限幅与钳位电路设计全解析

1. 二极管基础特性回顾 在开始分析各种二极管应用电路之前,我们先快速回顾一下二极管的核心特性。二极管最显著的特点就是其单向导电性 - 当正向偏置电压超过导通阈值(硅管约0.7V)时导通,反向偏置或正向电压不足时截止。这个看似简…...

Vue 全屏应用中的层叠上下文与Teleport动态挂载策略

1. 理解层叠上下文与全屏模式的冲突 在开发Vue全屏应用时,很多开发者都遇到过这样的问题:明明在普通模式下运行良好的弹窗组件,一旦进入全屏状态就神秘消失了。这背后其实涉及到浏览器渲染机制中一个关键概念——层叠上下文(Stacking Context…...

JAVA语法,接口和抽象类应该如何抉择

01.面向对象设计特性1.1 抽象和接口特性在面向对象编程中,抽象类和接口是两个经常被用到的语法概念,是面向对象四大特性,以及很多设计模式、设计思想、设计原则编程实现的基础。比如,我们可以使用接口来实现面向对象的抽象特性、多…...

集萃智造全自动咖啡机器人:从研磨萃取到清洁运维,一站式商用解决方案

当下商用咖啡场景(连锁咖啡店、机场 / 高铁站、写字楼、无人零售区)普遍面临三大难题:人工成本持续上涨、高峰出杯效率不足、出品稳定性差、门店 24 小时运营难落地。传统半自动 / 全自动咖啡机依赖熟练咖啡师,单杯制作耗时、口味…...

SEO的黑帽和白帽技术分别是什么_如何查询网站的SEO指标和排名数据

SEO的黑帽和白帽技术分别是什么_如何查询网站的SEO指标和排名数据 在当今的互联网时代,搜索引擎优化(SEO)是提升网站流量和可见度的关键。SEO有许多技术和方法,其中包括白帽技术和黑帽技术。了解这些技术不仅有助于提升网站的搜索…...

javaweb农贸市场摊位商户管理信息系统设计与实现

目录同行可拿货,招校园代理 ,本人源头供货商功能模块设计商户服务功能市场运营功能技术实现要点项目技术支持源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作同行可拿货,招校园代理 ,本人源头供货商 功能模块设计 用户管理模块 角色划分&…...

javaweb企业多模块系统 企业门户网站的设计与实现

目录同行可拿货,招校园代理 ,本人源头供货商功能模块划分技术实现要点扩展性设计安全防护措施项目技术支持源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作同行可拿货,招校园代理 ,本人源头供货商 功能模块划分 用户模块 注册与登录&…...

C语言转译LDPC码:试用比特翻转算法逼近香农极限

作者:绳匠_ZZ0为什么我要学LDPC?前几篇文章中,我已经实现了卷积码(Viterbi译码)和RS卷积级联码,它们在低信噪比下表现不错。但学长和我提到:Turbo码和LDPC码能够逼近香农极限,在相同…...

自动化论文生成方案:7款工具(爱毕业aibiye等)提供格式修正与LaTeX适配功能

工具快速对比排名(前7推荐) 工具名称 核心功能亮点 处理时间 适配平台 aibiye 学生/编辑双模式降AIGC 1分钟 知网、万方等 aicheck AI痕迹精准弱化查重一体 ~20分钟 知网、格子达、维普 askpaper AIGC率个位数优化 ~20分钟 高校检测规则通…...

智能论文生成工具推荐:7款高效平台(含爱毕业aibiye)支持格式优化与LaTeX自动适配

工具快速对比排名(前7推荐) 工具名称 核心功能亮点 处理时间 适配平台 aibiye 学生/编辑双模式降AIGC 1分钟 知网、万方等 aicheck AI痕迹精准弱化查重一体 ~20分钟 知网、格子达、维普 askpaper AIGC率个位数优化 ~20分钟 高校检测规则通…...

嵌入式面试最重要的是项目经历

很多嵌入式应届生面试,我发现大家都挂在同一个地方 项目一开口,就让人听不下去了。 不是项目太少,而是项目太普通。 不是完全没做,而是讲不出自己到底做了什么。 不是技术栈不对,而是没法证明你的能力真的能落到工作里…...

Claude Code 常用命令

先记住一个最重要的动作 在 Claude Code 里,直接输入 /,就能看到当前可用的全部命令。 继续输入 / 加上字母,还可以快速筛选命令。 官方文档也特别说明了一点:并不是所有命令对每个用户都可见。 有些命令会受到平台、套餐、环境或终端能力的影响。一张图先建立命令体系 新…...

logback 只能有 1 个 <root> 标签!

<?xml version"1.0" encoding"UTF-8"?> <configuration> <!-- 路径 --> <property name"PATH" value"./log/open"/> <!-- 控制台输出 --> <appender name"STDOUT" class"ch.qos.lo…...

嵌入式C编程规范与防御性编程实践

1. C语言编程规范概述在嵌入式系统开发中&#xff0c;C语言因其高效性和灵活性成为首选编程语言。然而&#xff0c;编写优质嵌入式C程序绝非易事&#xff0c;它要求程序员不仅熟悉硬件特性&#xff0c;还要深入理解C语言的各种陷阱和编译器特性。本文将从语言特性、编译器行为、…...

OpenClaw长任务优化:Qwen3-32B本地接口降低Token消耗实测

OpenClaw长任务优化&#xff1a;Qwen3-32B本地接口降低Token消耗实测 1. 为什么需要关注长任务Token消耗 去年冬天&#xff0c;当我第一次用OpenClaw整理全年积累的2000多份PDF文档时&#xff0c;账单上的API费用让我倒吸一口凉气——这个简单的文件分类任务竟然消耗了价值30…...