当前位置: 首页 > article >正文

GraphRAG大模型在药物发现中玩出新花样!揭秘潜在知识图谱的惊人能力!

本文深入探讨了Microsoft GraphRAG在药物发现领域的应用通过构建科学文献的潜在知识图谱测试了其检索和合成能力。实验揭示了LLM在处理复杂查询中的优势与局限强调了语料质量和LLM选择的重要性。GraphRAG展现了高效从非结构化数据中提取洞见的能力为企业、研究机构和投资者提供了优化AI驱动研发流程的实用洞见。摘要本文探讨了潜在知识图谱的概念并通过实验评估Microsoft GraphRAG在药物发现领域的应用。从科学文献中构建隐式关系图测试其检索和合成能力揭示LLM在复杂查询中的优势与局限。适合AI与药物研发专业人士参考。在人工智能与药物发现的交叉领域知识图谱作为一种强大的工具能够从海量非结构化数据中提取隐含关系帮助研究者快速识别潜在药物靶点。近年来Microsoft推出的GraphRAG系统以其动态构建潜在知识图谱的能力备受关注。本文基于一篇Medium文章的实验内容详细阐述潜在知识图谱的核心原理并通过实际实施案例评估GraphRAG在处理科学文献时的效能。该实验聚焦于药物发现靶点识别旨在为企业、研究机构和投资者提供实用洞见帮助优化AI驱动的研发流程。潜在知识图谱隐式关系的强大表示知识图谱传统上依赖预定义的结构如本体ontologies来捕捉实体间的明确关系。然而在复杂的数据环境中许多关系是隐含的无法通过固定框架完全表达。这时潜在知识图谱Latent Knowledge Graphs应运而生。这些图谱是通过学习数据中的隐式模式生成的图表示形式无需预设结构就能捕捉实体间的潜在连接。具体而言潜在图谱通过以下机制推断隐藏连接解耦嵌入Disentangled Embeddings将对象特征分离例如在医学图像中区分手术工具与器官。这种方法打破了传统图谱的本体约束实现更灵活的表示。图神经网络Graph Neural Networks利用链接预测link prediction技术预测未观察到的边际关系。多尺度关系编码Multi-scale Relation Encoding结合局部对象位置与全局场景上下文提供全面的语义理解。这些技术使得潜在图谱特别适用于非结构化数据如科学论文或临床报告。Microsoft的GraphRAG便是这一理念的典型应用。它是一种基于文本的潜在图谱系统通过大型语言模型LLM动态提取和总结内容以增强检索增强生成RAG式的检索与推理能力。GraphRAG的核心在于“即时”构建知识图谱避免了传统方法中手动标注的繁琐过程。然而一个显著挑战是依赖LLM可能引入幻觉hallucinations和语义漂移semantic drift特别是在特征提取和社区报告生成阶段。GraphRAG不涉及知识图谱嵌入的深入讨论如距离匹配与语义匹配的 grounding 问题感兴趣读者可参考相关文献。本文重点通过实验验证其在 grounding 方面的表现。实验设计从科学文献构建潜在知识图谱为评估GraphRAG在药物发现中的潜力本实验的主要目标包括从科学文章中构建潜在知识图谱。测试系统检索和合成信息的能力针对多种科学问题。观察不同LLM在聊天/合成组件中的影响对查询成功率和答案质量的影响。未来计划包括将事实 grounding 到流行生物医学本体并重新评估结果。实验语料通过Perplexity.AI辅助收集聚焦药物发现靶点识别的高质量开放访问资源如PubMed Central (PMC)、Europe PMC、bioRxiv等。最终选定6篇相关PDF文章并使用Microsoft的MarkItDown库转换为Markdown格式便于处理。使用的文章包括A comprehensive map of molecular drug targets (PMC6314433)Therapeutic target database update 2022 (bioRxiv/TTD)Leveraging big data to transform target selection (PMC4785018)Comprehensive Survey of Recent Drug Discovery Using Big Data (Europe PMC)Discovering protein drug targets using knowledge graph (bioRxiv)Utilizing graph machine learning within drug discovery (bioRxiv)这些文章覆盖了分子靶点映射、大数据应用、知识图谱在靶点发现中的作用等主题提供了一个代表性的药物发现语料库。实验环境搭建在M1-Max Mac Studio上使用Ollama运行本地模型进行索引通过Openrouter.ai的模型进行查询。LLM选择考虑成本与性能平衡例如OpenAI的gpt-4o-mini在科学任务中表现突出。示例查询测试GraphRAG的科学推理能力为全面评估系统设计了以下10个针对药物发现的查询。这些问题涵盖新兴靶点识别、蛋白质验证、多组学整合等专业主题旨在模拟研究者和投资者的实际需求“What are emerging therapeutic targets for non-small cell lung cancer identified in the last five years?”过去五年内非小细胞肺癌的新兴治疗靶点是什么“Which proteins have been implicated as druggable targets in CRISPR screens for metabolic diseases?”在代谢疾病的CRISPR筛选中哪些蛋白被暗示为可药物化靶点“List novel kinase targets associated with resistance to current melanoma therapies.”列出与当前黑色素瘤疗法耐药相关的 novel 激酶靶点。“Summarize recent advances in computational methods for target identification in rare genetic disorders.”总结罕见遗传障碍中靶点识别的计算方法最新进展。“What are the most frequently validated targets in published high-throughput screening studies for neurodegenerative diseases?”在已发表的高通量筛选研究中神经退行性疾病的最常验证靶点是什么“Which disease pathways have newly identified protein targets with available structural data?”哪些疾病通路中新识别的蛋白靶点具有可用结构数据“Find articles reporting on target deconvolution methods in phenotypic drug discovery.”查找报道表型药物发现中靶点解卷积方法的文章。“Summarize the use of knowledge graphs for predicting novel drug-target interactions.”总结知识图谱在预测新型药物-靶点相互作用中的应用。“What are the most cited targets for immuno-oncology drug development in the last three years?”过去三年免疫肿瘤药物开发中最被引用的靶点是什么“Which targets have been identified using multi-omics integration in cardiovascular disease research?”在心血管疾病研究中使用多组学整合识别的靶点有哪些这些查询强调了GraphRAG在处理特定领域、时间敏感和综合性问题时的能力。此处插入图像GraphRAG由Midjourney生成展示系统架构的视觉化表示包括文本提取、图构建和查询响应流程。实验结果性能分析与洞见在实验中OpenAI的gpt-4o-mini展现出最佳的性能与成本平衡。它成功处理了大多数复杂总结和信息提取查询并在Openrouter.ai的科学排行榜上位居第一。GraphRAG的合成能力依赖于索引文档中的信息。如果关键事实缺失再强的提示工程或模型也无法生成准确答案。这在高度特定的查询中尤为明显例如要求排名列表如“最被引用”或量化细节时系统表现欠佳。除非输入数据结构化或明确提及否则本地搜索也难以优化。这可能源于语料规模有限。同一模型和数据下不同运行对Query 5的变异结果突显了LLM的概率性质即幻觉风险以及文档块检索和映射步骤的变异性。对于需要高确定性的应用这是一个关键考虑因素。总体而言GraphRAG结合gpt-4o-mini在索引科学文章语料并提供详细、综合答案方面表现出色。它能处理领域特定复杂问题生成连贯的合成报告。小型模型如gpt-4o-nano适合简单查询或极端成本限制但在大规模综合中可能力不从心。对于因信息缺失失败的查询如Query 2、9、10解决方案在于 curation 更全面的输入文档。这强调了语料质量对系统效能的重要性。图统计与社区分析深入GraphRAG的内部机制作为Graph爱好者的额外福利实验生成的图统计显示从6篇文章中提取了3224个实体、2242个关系并生成了约167个社区报告。知识图谱以“人”节点作为参考起点个人链接到其出版物并进一步扩展。默认提取提示使用组织、姓名、地理作为实体示例因此这些类型被优先识别。修改实体提取特征的细节可参考官方文档系统还支持使用NLTK工具包进行特征提取。这些图随后被分组为社区每个社区生成总结报告。例如前两个社区的总结可能涵盖药物靶点数据库更新与大数据在靶点选择中的作用。社区报告被向量化与其他数据一同搜索它们拥有独立嵌入。GraphRAG虽不直接使用知识嵌入但通过多层嵌入详见第7节的三层嵌入描述缓解了边际和关系绑定问题。值得一提的是所有提示均为默认但提示调优指南可进一步提升性能。其中Auto Tune工具类似于基于能力问题的实体生成方法能自动优化提取过程。结论与未来方向GraphRAG在药物发现中的应用令人印象深刻。它不仅简化了从非结构化科学文献中提取洞见的过程还为靶点识别提供了高效的推理框架。对于企业研发团队和投资者而言这意味着更快的创新周期和更精准的投资决策。实验代码由Google Gemini 2.5 Pro与Cursor生成完整项目可在GitHub上获取01什么是AI大模型应用开发工程师如果说AI大模型是蕴藏着巨大能量的“后台超级能力”那么AI大模型应用开发工程师就是将这种能量转化为实用工具的执行者。AI大模型应用开发工程师是基于AI大模型设计开发落地业务的应用工程师。这个职业的核心价值在于打破技术与用户之间的壁垒把普通人难以理解的算法逻辑、模型参数转化为人人都能轻松操作的产品形态。无论是日常写作时用到的AI文案生成器、修图软件里的智能美化功能还是办公场景中的自动记账工具、会议记录用的语音转文字APP这些看似简单的应用背后都是应用开发工程师在默默搭建技术与需求之间的桥梁。他们不追求创造全新的大模型而是专注于让已有的大模型“听懂”业务需求“学会”解决具体问题最终形成可落地、可使用的产品。CSDN粉丝独家福利给大家整理了一份AI大模型全套学习资料这份完整版的 AI 大模型学习资料已经上传CSDN朋友们如果需要可以扫描下方二维码点击下方CSDN官方认证链接免费领取【保证100%免费】02AI大模型应用开发工程师的核心职责需求分析与拆解是工作的起点也是确保开发不偏离方向的关键。应用开发工程师需要直接对接业务方深入理解其核心诉求——不仅要明确“要做什么”更要厘清“为什么要做”以及“做到什么程度算合格”。在此基础上他们会将模糊的业务需求拆解为具体的技术任务明确每个环节的执行标准并评估技术实现的可行性同时定义清晰的核心指标为后续开发、测试提供依据。这一步就像建筑前的图纸设计若出现偏差后续所有工作都可能白费。技术选型与适配是衔接需求与开发的核心环节。工程师需要根据业务场景的特点选择合适的基础大模型、开发框架和工具——不同的业务对模型的响应速度、精度、成本要求不同选型的合理性直接影响最终产品的表现。同时他们还要对行业相关数据进行预处理通过提示词工程优化模型输出或在必要时进行轻量化微调让基础模型更好地适配具体业务。此外设计合理的上下文管理规则确保模型理解连贯需求建立敏感信息过滤机制保障数据安全也是这一环节的重要内容。应用开发与对接则是将方案转化为产品的实操阶段。工程师会利用选定的开发框架构建应用的核心功能同时联动各类外部系统——比如将AI模型与企业现有的客户管理系统、数据存储系统打通确保数据流转顺畅。在这一过程中他们还需要配合设计团队打磨前端交互界面让技术功能以简洁易懂的方式呈现给用户实现从技术方案到产品形态的转化。测试与优化是保障产品质量的关键步骤。工程师会开展全面的功能测试找出并修复开发过程中出现的漏洞同时针对模型的响应速度、稳定性等性能指标进行优化。安全合规性也是测试的重点需要确保应用符合数据保护、隐私安全等相关规定。此外他们还会收集用户反馈通过调整模型参数、优化提示词等方式持续提升产品体验让应用更贴合用户实际使用需求。部署运维与迭代则贯穿产品的整个生命周期。工程师会通过云服务器或私有服务器将应用部署上线并实时监控运行状态及时处理突发故障确保应用稳定运行。随着业务需求的变化他们还需要对应用功能进行迭代更新同时编写完善的开发文档和使用手册为后续的维护和交接提供支持。03薪资情况与职业价值市场对这一职业的高度认可直接体现在薪资待遇上。据猎聘最新在招岗位数据显示AI大模型应用开发工程师的月薪最高可达60k。在AI技术加速落地的当下这种“技术业务”的复合型能力尤为稀缺让该职业成为当下极具吸引力的就业选择。AI大模型应用开发工程师是AI技术落地的关键桥梁。他们用专业能力将抽象的技术转化为具体的产品让大模型的价值真正渗透到各行各业。随着AI场景化应用的不断深化这一职业的重要性将更加凸显也必将吸引更多人才投身其中推动AI技术更好地服务于社会发展。CSDN粉丝独家福利给大家整理了一份AI大模型全套学习资料这份完整版的 AI 大模型学习资料已经上传CSDN朋友们如果需要可以扫描下方二维码点击下方CSDN官方认证链接免费领取【保证100%免费】

相关文章:

GraphRAG大模型在药物发现中玩出新花样!揭秘潜在知识图谱的惊人能力!

本文深入探讨了Microsoft GraphRAG在药物发现领域的应用,通过构建科学文献的潜在知识图谱,测试了其检索和合成能力。实验揭示了LLM在处理复杂查询中的优势与局限,强调了语料质量和LLM选择的重要性。GraphRAG展现了高效从非结构化数据中提取洞…...

MCP23009 I²C GPIO扩展芯片驱动设计与实战

1. MCP23009通用I/O扩展芯片驱动库深度解析与工程实践MCP23009是Microchip公司推出的8位IC总线可编程通用输入/输出(GPIO)扩展器,专为资源受限的嵌入式系统设计。该芯片通过标准IC接口(支持标准模式100 kHz和快速模式400 kHz&…...

LeetCode 152. Maximum Product Subarray 题解

LeetCode 152. Maximum Product Subarray 题解 题目描述 给你一个整数数组 nums ,请你找出数组中乘积最大的非空连续子数组(该子数组中至少包含一个数字),并返回该子数组所对应的乘积。 示例 1: 输入:n…...

TCP/IP协议族与网络体系结构实战解析

1. 计算机网络体系结构解析计算机网络体系结构是理解整个互联网通信的基础框架。目前主流的体系结构有三种:OSI七层模型、TCP/IP四层模型和教学用的五层模型。作为一名从业十年的网络工程师,我发现在实际工作中TCP/IP四层模型的应用最为广泛。OSI七层模型…...

嵌入式StatsD客户端:轻量级指标上报库设计与实践

1. statsdclient:嵌入式系统中轻量级指标上报的通用通信库1.1 设计定位与工程价值statsdclient是一个面向资源受限嵌入式环境设计的通用指标采集与上报库,其核心目标并非替代完整的监控栈,而是为 MCU 级设备提供一种零依赖、低开销、协议可选…...

2026知识付费SaaS避坑指南:数据安全与系统稳定性实测,创客匠人为何值得托付?

在知识付费行业,大多数选型对比只关注“前台功能”:能不能卖课、能不能直播、有没有拼团。但真正决定生意生死的,往往是看不见的“底层能力”——数据是否安全?系统是否稳定?学员资产能否真正归你所有?过去…...

AI编码狂飙,安全防线告急:运行时测试如何守住软件安全的生死线

2026年初,国内某头部电商平台爆发大规模用户数据泄露事件,溯源结果震惊整个行业:事件根源并非黑客的0day漏洞攻击,而是开发团队通过AI编码工具生成的一段会员权限校验代码。这段代码在语法层面完全合规,静态安全扫描全…...

区块链AI骗局:深扒某DeFi项目的测试造假链

当技术信任沦为欺诈工具 在软件测试领域,我们习惯于与代码、流程和标准打交道,致力于构建可靠、可验证的系统。然而,在区块链与人工智能融合的前沿地带,一场针对“信任”本身的系统性造假正在上演。本文旨在从一个软件测试工程师…...

Serverless测试噩梦:冷启动延迟搞垮电商大促

一场被“隐形杀手”击溃的战役凌晨两点,某头部电商平台的“双十一”大促作战指挥中心。流量曲线在预热阶段平稳爬升,技术团队信心满满——所有核心交易链路都已迁移至先进的Serverless架构,理论上具备无限弹性。然而,零点的钟声敲…...

强化学习反噬:模型为骗奖励毁掉生产环境

从游戏作弊到生产事故在软件测试领域,我们习惯于与确定性缺陷作斗争:空指针、内存泄漏、逻辑错误。然而,随着人工智能,特别是强化学习(Reinforcement Learning, RL)模型被集成到生产系统(如自动…...

元宇宙中的软件开发和测试:新场景,新挑战

从二维平面到三维宇宙的范式跃迁我们正站在一个数字时代的分水岭上。元宇宙,这个融合了虚拟现实、增强现实、区块链、人工智能与物联网的复杂数字生态,正将软件测试的战场从熟悉的二维平面界面,推向一个充满无限可能的三维沉浸式宇宙。对于软…...

别再只用XCOM了!手把手教你配置SecureCRT/MobaXterm成为专业串口调试工具(含换行、回显、分屏技巧)

别再只用XCOM了!手把手教你配置SecureCRT/MobaXterm成为专业串口调试工具 嵌入式开发工程师们对XCOM这类轻量级串口工具一定不陌生,但当你需要同时管理多个设备、处理复杂协议或进行长时间调试时,功能单一的串口助手就显得力不从心了。Secure…...

嵌入式开发中GNU C扩展特性解析与应用

1. 嵌入式开发中的C语言选择困境作为一名在嵌入式领域摸爬滚打多年的工程师,我深刻理解C语言在这个领域无可替代的地位。但很多刚入行的朋友可能不知道,我们日常使用的"Linux C"和教科书上的"标准C"其实存在不少差异。第一次看到GNU…...

蛋白质结构预测的深度学习之路:从AlphaFold2到ESMFold

点击 “AladdinEdu,你的AI学习实践工作坊”,注册即送-H卡级别算力,沉浸式云原生集成开发环境,80G大显存多卡并行,按量弹性计费,教育用户更享超低价。 摘要:蛋白质结构预测是生命科学的核心难题。…...

OpenClaw+Qwen3-4B创意助手:自动生成营销文案与设计建议

OpenClawQwen3-4B创意助手:自动生成营销文案与设计建议 1. 为什么需要个人创意助手? 去年夏天,我接手了一个小型咖啡品牌的社交媒体运营工作。每天需要产出5-6条不同风格的文案,还要设计配套的视觉方案。连续两周后,…...

剪接位点与调控元件预测:基于机器学习的基因注释增强

点击 “AladdinEdu,你的AI学习实践工作坊”,注册即送-H卡级别算力,沉浸式云原生集成开发环境,80G大显存多卡并行,按量弹性计费,教育用户更享超低价。 摘要:精确识别剪接位点和剪接调控元件是理解…...

我的STM32F407项目踩坑记:FreeRTOS下实现U盘OTA升级,这些细节你一定要注意

STM32F407实战:FreeRTOS环境下U盘OTA升级的九大陷阱与解决方案 去年接手一个工业控制器项目时,客户突然要求增加U盘固件升级功能。本以为凭借之前的IAP开发经验能轻松搞定,结果在FreeRTOS环境下踩坑无数——从任务调度混乱到USB驱动冲突&…...

2025 年勒索软件隐匿化攻击演进与行为基线防御研究

摘要 据 Talos 2025 年度网络安全回顾报告显示,勒索软件攻击已从暴力突破转向合法访问隐匿渗透,攻击者依托钓鱼、有效账号与系统自带管理工具实现无感知横向移动,传统边界防护显著失效。2025 年数据表明,约 40% 初始访问源于网络钓…...

基于合法无代码平台滥用的新型钓鱼攻击机理与防御体系研究

摘要 2026 年 3 月卡巴斯基实验室披露针对 Bubble.io 等正规无代码开发平台的恶意滥用钓鱼攻击,攻击者依托平台高信誉域名、SSL 证书与可视化开发能力,快速生成高仿真钓鱼页面,绕过传统邮件网关与终端检测,实现账号凭证、多因素认…...

实战指南:基于快马AI开发具备核心功能的电商比价插件

最近在做一个电商比价插件的开发项目,正好用到了InsCode(快马)平台,整个过程特别顺畅,分享下我的实战经验。 项目背景与需求分析 电商比价插件是很多网购达人的刚需工具。核心要解决三个问题:实时比价、历史价格追踪和降价提醒。传…...

Phantom Stealer 凭证窃取机制分析与防御体系研究

摘要 Phantom Stealer 作为 2025 年下半年出现的新型多功能信息窃取木马,以多阶段感染、无文件驻留、强反检测与全维度凭证窃取为核心特征,通过伪装合法软件、脚本混淆、进程注入、 Heaven’s Gate 技术规避等手段,精准窃取浏览器密码、Cooki…...

贾子哲学思想理论体系研究:学术贡献、实证争议与文明治理范式创新——基于鸽姆智库创始人贾龙栋的综合评估

贾子哲学思想理论体系研究:学术贡献、实证争议与文明治理范式创新——基于鸽姆智库创始人贾龙栋的综合评估摘要 本文系统梳理鸽姆智库创始人贾龙栋(笔名贾子)的学术背景及其创立的贾子哲学思想理论体系。该体系以“1-2-3-4-5”层级架构为核心…...

贾龙栋与鸽姆智库:贾子哲学思想理论体系的构建、创新与全球影响 —— 基于跨学科视角的深度研究

贾龙栋与鸽姆智库:贾子哲学思想理论体系的构建、创新与全球影响 —— 基于跨学科视角的深度研究引言在人工智能技术迅猛发展与全球治理体系深刻变革的时代背景下,人类文明正面临前所未有的认知挑战与价值重构。一方面,技术能力的指数级增长与…...

Ubuntu 20.04安装搜狗输入法全攻略:从配置到常见错误解决

Ubuntu 20.04 中文输入终极方案:搜狗输入法深度配置指南 在Linux桌面环境中实现流畅的中文输入一直是许多用户的痛点。作为国内最受欢迎的中文输入法之一,搜狗输入法凭借其强大的词库和智能预测功能,成为Ubuntu用户的首选。本文将带你从零开始…...

阿里通义实验室FunAudioLLM实战:如何用SenseVoice快速搭建多语言语音识别系统(附代码)

基于SenseVoice构建多语言语音识别系统的工程实践指南 语音识别技术正在重塑人机交互的边界,而阿里通义实验室开源的FunAudioLLM项目中的SenseVoice模型,为开发者提供了一把打开多语言语音世界的钥匙。不同于传统ASR系统需要针对不同语言单独训练模型的繁…...

StreamIO:Arduino嵌入式统一I/O流与缓冲区抽象库

1. StreamIO 库概述StreamIO 是一个面向嵌入式 Arduino 生态的轻量级 I/O 抽象封装库,其核心设计目标是统一处理流式数据(Stream)与静态内存缓冲区(array buffer)的读写操作。在传统 Arduino 开发中,开发者…...

LeetCode 热题100——11.盛最多水的容器

题目: 给定一个长度为 n 的整数数组 height 。有 n 条垂线,第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。 找出其中的两条线,使得它们与 x 轴共同构成的容器可以容纳最多的水。 返回容器可以储存的最大水量。 说明:你不…...

Linux时钟子系统:CCF框架与驱动开发实践

1. Linux时钟子系统概述在嵌入式Linux系统中,时钟管理是驱动开发的基础环节之一。时钟子系统负责为整个系统提供精确的时序控制,从CPU主频到外设工作时钟,都需要通过时钟子系统进行管理和配置。Linux内核通过CCF(Common Clock Fra…...

Vibe Coding氛围编程系列:AI 模型 服务选择之哪个模型编程能力最强?

前言 2026年,AI辅助编程早已告别了“单行代码补全”的初级阶段,正式进入了Vibe Coding(氛围编程) 的全新时代。所谓氛围编程,核心是AI能完全贴合开发者的编码思路、节奏与工作流,实现无断点、沉浸式的流畅…...

comsol复合相变墙体保温隔热,comsol论文复现建模仿真 模拟室外温度变化复合墙体温度变化过程

comsol复合相变墙体保温隔热,comsol论文复现建模仿真 模拟室外温度变化复合墙体温度变化过程,对比普通墙体的保温隔热性能大夏天顶着40度高温站阳台收衣服的时候,总想着要是墙体能像冰柜门一样隔热该多好。最近用COMSOL折腾了个复合相变墙体模…...