当前位置：首页 > article >正文

【综述型文章】人工智能驱动的生物医学多模态数据融合与分析中的挑战

article 2026/3/26 17:11:26

论文总结1、作者总结了挑战1数据的挑战-meta元学习和transfering learning迁移学习2生物医学模型的可解释性--基于网络结构的可解释性将通路先验信息等加入到网络结构中约束网络学习参数和基于归因的事后可解释性方法SHAP、集成梯度等3跨尺度数据整合2、多模态表示学习方法浅层学习方法如联合非负矩阵分解、偏最小二乘、典型相关分析、多核学习适用于早期多组学整合任务。深度生成模型变分自编码器通过共享或模态专属编码器学习联合潜在表示支持不完整模态学习。生成对抗网络用于跨模态数据生成与图像合成。图神经网络适用于结构化数据如知识图谱、细胞-基因网络能捕捉节点间复杂关系。Transformer架构通过自注意力机制实现跨模态交互广泛应用于视觉-语言、影像-文本等多模态任务。3、未来研究方法1元学习和迁移学习2基础模型借鉴大语言模型思路构建可处理影像、文本、组学数据的通用医学AI模型。现有模型如scGPT、GeneCompass、CHIEF、BiomedGPT等在单细胞、病理影像、多模态诊断中展现出潜力。摘要生物和医学检查方法的快速发展极大地扩展了个人生物医学信息包括分子、细胞、图像和电子健康记录数据集。整合这些丰富的信息使得临床环境中能够精确诊断疾病、识别生物标志物和治疗设计。人工智能AI技术尤其是深度学习模型已被广泛应用于生物医学应用展示了更高的精度、效率和泛化性。大型语言和视觉模型的成功进一步显著扩展了其生物医学应用。然而学习这些多模态生物医学数据集如数据隐私、融合和模型解释仍面临挑战。在本综述中我们将全面概述各种生物医学数据模式、多模态表示学习方法以及人工智能在生物医学数据整合分析中的应用。此外我们还讨论了应用这些深度学习方法的挑战以及如何更好地将它们融入生物医学场景。随后我们提出了未来方向如何适应深度学习方法结合模型预训练和知识整合以推动生物医学研究并促进其临床应用。引言生物和医学检查方法的发展显著扩展了个人生物医学信息的范围涵盖从基因组学、转录组学、蛋白质组学和代谢组学到放射学和电子健康记录EHR[1]。单一或统一的多模态数据集已被用于临床应用用于疾病诊断、个体治疗、风险分层等。此外单细胞剖析方法的出现包括单细胞RNA测序scRNA-seq、带转座酶可及染色质的单细胞测序测定scATAC-seq、通过测序对转录组和表位的细胞索引CITE-seq以及空间转录组学加深了我们对人类发育和肿瘤发生中各种生物过程的理解[2]。除了对患者进行临床和分子测量的全面洞察外如何整合其信息以实现精准疾病诊断、新型生物标志物识别、治疗和药物设计也是该领域面临的关键挑战。人工智能AI技术已被广泛集成到不同的生物医学应用中如医学图像分析、疾病诊断、公共卫生、蛋白质设计等[3]。在医学图像分析中深度学习方法被广泛用于提取图像中的互补组织结构或形态特征以辅助病灶检测、分割和计算机辅助诊断[4]。这些图像诊断方法已被证明更高效、更准确有助于临床环境中快速决策[5]。在生物学应用中深度学习已被用于学习DNA和蛋白质序列的结构[6,7]预测蛋白质结构[8]模拟和预测基因组突变风险[9]并促进药物发现[10]。在单细胞分析中高通量单细胞测量技术已生成数百万个单个细胞数据点非常适合将深度学习方法应用于多项任务如图谱级数据集成[11]、细胞注释[12]和单细胞基因表达学习[13–15]。此外大语言模型LLMs为整合医学领域知识开辟了新机遇开发了自动生成放射报告、建议医疗干预、为患者提供医疗建议以及能够处理生物医学领域更多新任务的基础模型[16]。各种诊断方法的发展促进了涵盖个体患者、组织和细胞的多数据集的生成。尽管单个数据集捕捉了不同的表型变化及相关因素但验证因果调控机制并追求最合适靶点的精确干预仍需引入更多模态并需要多模态数据整合的计算方法。在肿瘤学应用中癌症患者的放射图像和基因组信息已被整合以增强预后预测和患者分类[17]。多组学数据集与药物使用信息的整合已被用来识别与药物相关的个体组学特征量化药物反应效应[18]。在数字病理学应用中整张幻灯片图像已被用于预测基因组特征[19]并与基因组特征集成用于预后预测[20]。在单细胞多组学应用中这些多重谱被用来表征细胞和时空基因组调控[21]。已有多种方法被开发用于整合单细胞与不同组学[22]、揭示单细胞数据集的调控网络[23]或将基因表达谱与空间信息结合[24]。多模态数据收集方法和数据集成算法的开发显著增强了生物医学进展的界定并提供了更稳健的特征归因分析。尽管生物医学领域多模态学习取得了进步但各种挑战仍可能阻碍模型训练及其后续应用[1]。数据挑战在生物医学数据的模型训练中普遍存在。由于隐私限制跨机构共享数据集不可行进一步限制了训练数据集的规模[25]。与此同时不同的数据采集方法和不完整的多模态数据集进一步需要复杂的数据预处理和能够处理不完整模型训练的定制模型架构[26]。此外数据解读在多模态生物医学数据集的深度学习分析中至关重要[27]。理解重要基因特征或跨模态调控网络对于揭示疾病发生机制和识别新的疾病生物标志物和药物靶点至关重要[28]。此外如何将更多生物医学知识整合进多模态深度学习模型并将计算机微扰预测应用于跨模态调控验证仍需进一步讨论[29,30]。多篇综述讨论了多模态生物医学数据融合的方法、应用及挑战。Acosta等人强调了多模态生物医学人工智能在健康监测和个性化医疗中的应用[1]但未全面回顾融合方法。Stahlschmidt等人总结了生物医学分析中的多模融合方法[31]Duan等人则详细回顾了适用于临床场景中不同生物医学数据模态的多模态学习方法[32]。然而现有综述受限于多模态生物医学数据的规模且缺乏关于其在推进人类疾病生物学见解中作用的讨论。此外LLMs的近期兴起也凸显了重新思考和重新定义生物医学多模态分析未来的必要性。在本综述中我们扩展了对多模态生物医学数据规模的讨论总结了现有的多模态生物医学数据学习方法并探讨了将这些方法整合到特定生物医学场景中的前景与挑战。首先我们按类别总结现有多模态生物医学数据并列出可用数据资源。随后回顾了多种数据表示学习方法及其在多模态学习中的作用。接下来我们将探讨深度学习方法在多模态生物医学分析的多个重要方面中的应用包括临床多模态数据集成、多组学分析、单细胞分析以及基因型表型关联分析。随后我们描述了生物医学数据集多模态学习面临的挑战如数据隐私、模型解释和跨尺度数据集成。最后我们提出了生物医学多模态学习的未来方向包括在临床环境中利用元学习和迁移学习处理有限队列数据集适应大型语言模型以整合生物医学知识以及实现自动化知识查询以提升多模态数据集中的表征学习所有这些都旨在推动生物医学研究的发展。多模态生物医学数据集多模态生物医学数据集正在迅速积累为深入的生物医学研究提供了大量资源见表1。这些数据集在不同尺度和类型间差异很大见图1包括数值数据、图像数据、文本数据和序列数据。此外根据其来源这些方法可分为测序数据、临床数据和实验数据。以下按类别总结了各种数据模式并讨论了每种数据的相关处理方法。数值数据测序生成的多组学数据通常以数值矩阵形式出现表示基因组突变状态、转录组表达以及组织或细胞层面的蛋白质表达等特征。然而这些测序数据通常噪声较大且数据稀疏给分析带来挑战。为了解决这些问题开发了多种方法。例如在scRNA-seq分析中引入了零膨胀自编码器通过采用与单细胞数据二项分布对齐的专门损失函数来处理数据稀疏性[33]。在临床环境中患者经常接受实验室检测如血液检测和基因组评估以生成额外的数值数据。其他基线信息包括年龄和性别也对临床决策具有重要意义。对于多模态分析这些临床数据通常直接整合到网络中无需额外的预处理。影像数据影像学是临床检查中的基本工具通常贯穿整个患者管理过程。计算机断层扫描CT、磁共振成像MRI和超声等非侵入性影像技术被广泛用于疾病诊断。对于特定器官还会采用额外的影像学方法进行筛查或诊断包括胃肠疾病的内镜检查[34]和眼部疾病的眼底影像[35]。此外在大多数临床环境中组织病理学影像被视为“黄金标准”因为它能提供组织的高分辨率视图包括详细的细胞形态学[36]。除了临床成像活细胞成像在生物实验中也发挥着关键作用能够洞察细胞活动[37]。这些成像数据处理复杂需要专门算法来处理图像去噪、单元分割和超分辨率增强等任务。文本型数据临床报告是综合性文件记录患者病史、诊断发现、治疗计划和进展记录。由于这些报告具有非结构性或半结构性质系统性分析这些报告存在挑战。为此采用了自然语言处理NLP技术如命名实体识别NER、文本分类和关系提取[38]。这些方法有助于提取宝贵的见解支持改善患者护理并推动研究进展。同样分子数据包括DNA、RNA和蛋白质序列是无结构的展现出它们的语法和语义形式。NLP技术也被应用于这些序列并用于捕捉这些生物模式。如k-mer分裂[39]等方法[40]已被开发出来以更好地解释分子数据中固有的生物语法和语义。信号数据生物医学信号如心电图ECG和脑电图EEG是时间序列数据的形式区别于其他数据类型需要专门的处理方法[41]。传统方法通常通过信号分解来根据频率成分分析这些信号。此外这些时间序列数据在某些应用中可以类似于图像数据的处理方式。多模态表示学习方法鉴于多模态数据的异质性对这些数据进行比对和整合极具挑战性。许多方法已被开发出来巧妙整合高度异质的多模态数据以最大化不同模态信息的利用形成互补的视图见图2;第1箱。浅层学习方法在多模态表示学习的早期阶段开发并使用了许多浅层学习方法。著名方法包括联合非负矩阵分解jNMF方法[42]、偏最小二乘法PLS[43]、典范相关分析CCA[44]和多重核学习MKL[45]。jNMF、PLS和CCA方法侧重于通过各种矩阵计算技术识别不同模态间的共享潜在空间而MKL则试图整合来自不同模态的不同潜在空间。具体来说jNMF对每个模态应用非负矩阵分解将其分解为共同和单独的因子。PLS最大化不同模态分解矩阵之间的协方差以识别不同的投影。CCA最大化矩阵之间的相关性以建立共享的潜在空间。这些方法jNMF、PLS和CCA常用于多组学集成任务有助于基因模块的分析和探索多组学潜伏空间中的潜在生物机制[42,46]。相比之下MKL是一种监督式机器学习方法常用于多组学研究中的疾病诊断和分类任务[47,48]。图1 生物医学多模态数据的类别与尺度从生物学角度看生物医学多模态数据集在个体、器官、组织、细胞和分子层面上有所不同见左侧注释。从计算术语来看这些数据集被分为数字、图像、文本和序列数据类型见右侧注释。脑电图脑电图;心电图心电图;CT计算机断层扫描;磁共振成像MRI;PET正电子发射断层扫描;SNP单核苷酸多态性。变分自编码器与生成对抗网络变分自编码器VAE是一种强大的生成神经网络通过概率方法学习潜在表示。它能够发现数据分布的底层结构并促进数据集的重建[49]。这使得它非常适合从各个生物医学模态推断数据的联合表示见图2A。在多模态数据融合中采用模态特定或共享编码器来获取多模态数据的潜在嵌入。随后使用数据融合模块学习跨模态信息同时应用特定模态解码器以确保模型在信息重建中的效率。根据多模态交互层的位置数据融合架构可分为早期、中间和晚期融合[50]。为了将VAE功能性适应到多模态应用整合了专家混合MoE[51]、专家乘积PoE[52]以及MoE与PoE模型的融合MoPoE[53]以更好地推断VAE模型的联合变分后验。此外不完全模态学习的发展使多模态数据集中的表示学习更加灵活高效[54,55]。除了共享表示外单模态特定表示的组合还表现出多模表示学习的增量[56]。此外解缠学习的发展使生物医学数据集的理解和生成更加可理解和可控[57]。生成对抗网络GAN是另一种深度生成模型用于学习原始数据集的潜在表示并生成人工数据集[58]。GAN的图由两个网络组成生成器学习生成越来越真实的数据而判别器网络学习准确区分真实数据和合成数据见图2B。这种对抗过程的迭代导致原始数据集和高质量合成数据集的精确潜在嵌入。在采用多模态数据学习、交叉或共享生成器来推断多模态数据的潜在嵌入并利用判别器辨别每种生成模态的真实性。例如CycleGAN应用配对GAN学习跨图像域并促进不同模态间的翻译[59]。Huang等人提出了PoE-GAN利用基于PoE的多模发生器融合多模或单模输入实现图像域转换[60]。Zhan等人提出了MGM-GAN利用门极涌现机制学习不同模态中的重要权重从而实现MRI中不完全模态的综合[61]。此外马等人引入了GAN-MVAE模型整合GAN和VAE以对齐多种模态的语义空间实现零样本学习[62]。VAE和GAN模型在多模态表示学习中的特性及其可适应的模型框架促进了在多模态生物医学领域的广泛应用。从复杂多模态数据中提取的潜在嵌入可用于多种生物医学应用的下游任务。图神经网络图神经网络GNNs是一种深度学习模型专门设计并非常适合分析图结构中表示的对象之间的复杂关系[63]见图2C。在生物医学应用的背景下这些图结构可以代表多种关联包括基因功能、药物反应、医学图像斑块和细胞相似性[64]。图卷积网络GCN的引入使GNN能够通过卷积过程学习目标数据集的潜在表示[65]。此外图注意力网络GAT结构利用注意力机制评估图中不同边的重要性同时在节点间传递信息[66]。为了将GNN适应为多模态用途[67]来自不同模态的数据点都被很好地组织成定义的图与单模态融合架构不同GNN可以直接同时学习模态内和间模态之间的相互作用。“一体化”多模态图学习MGL架构[67]引入了一个统一框架涵盖实体识别、拓扑构建、信息传播和表示混合用于图像、语言序列或生物系统等模态的联合学习。通过整合复杂的图结构和整合先前知识和分布来扩展该模型可以实现更全面的数据表示。Zheng 等人提出了 MMGL 框架该框架应用模态感知表征学习提取模态内和模态间的表征随后利用自适应图学习AGL识别患者间疾病预测中的关联[68]。此外将生物医学知识图谱KGs与GNNs整合可以提升KG推断问题的表现和解释有助于产生新假说和新药开发[69]。GNN在理解多模态数据结构和整合现有知识方面的优势有助于生物医学领域中更稳健的多模态表示学习方法。Transformer变换器是一种神经网络架构通过利用注意力机制[70]彻底革新了自然语言处理使其区别于卷积神经网络CNN和循环神经网络RNN等传统模型。与这些模型不同Transformers可以同时关注输入序列的多个部分并行处理数据支持长期记忆和全面的数据表示。这种并行性增强了他们无监督数据预训练的能力实现跨多个领域的有效迁移学习。Transformer模型在自然语言处理中的成功激励了BERT [71]、GPT-3[72]、Llama 2 [73]、Gemini[74]等大型语言模型的发展[75]。它非常适合学习生物学序列数据[76]包括DNA[6]、RNA[77]和蛋白质[7]的序列学习、基因组调控预测[78]、蛋白质功能注释[79]、蛋白质设计[80]以及进一步适应医学图像[81]和基因表达分析[13]。Transformers的统一数据输入格式还使其能够灵活处理多种模态[82]使其在多模态学习中非常有效尤其是在视觉和语言相关任务中[83]。在多模态变换器模型中数据融合或模态交互结构可能灵活且不同具体取决于交互的时间、数据流以及不同模态的注意力学习[82]见图2D。在 ViLBERT 中使用了“共注意”变换器层来学习图像与自然语言的联合表示并实现了跨模态交互的预训练和转移[84]。ViLT引入了一种强大的架构能够通过单一变换器处理视觉和语言信息;它采用简单的线性投影图像补丁来替代强化图像嵌入器并确认了适用于任意模态的统一且可适应的变换器模型[85]。在MulT中多个两两交叉模态变换器被合并用于跨模态学习注意力然后融合不同模态的嵌入[86]。凭借其可适应的架构和预训练框架Transformers在推进多模态生物医学数据分析方面展现出潜力包括在有限临床数据集下的跨域、少量样本或零样本学习[87]。图2 多模态表示学习方法 A–C。变分自编码器A、生成对抗网络B和基于图神经网络C的多模态表示学习模型的示意图。D. 基于变换器的多模态学习模型图示具有不同的注意力策略、交叉注意力左、串接注意力中间和模态特定注意力右。GCN图卷积网络;GAT图关注网络;FFN前馈神经网络。人工智能在多模态生物医学数据分析中的应用在常见的多模态表示学习方法框架内开发了许多专门技术将这些方法应用于多模态生物医学数据。这些方法提升了生物医学图像分析、多组学分析、单细胞分析和成像基因组学为疾病生物学和医学提供了系统且全面的洞见。临床多模态的数据整合深度学习在计算机视觉CV分析中的成功显著推动了其在理解生物医学图像的临床应用包括CT扫描[88]、正电子发射断层扫描PETCT扫描[89]、全片影像WSI[90]和MRI扫描[91]。这一进展已广泛应用于脑部、心脏病、眼科疾病和癌症领域[4]。为了更好地理解在疾病病理学中提出了多模态医学图像融合MMIF分析的概念该方法涉及在频域、空间像素层面或通过合并不同图像模态的决策来整合图像[92]见表2。 WSI是一幅超高分辨率的数字组织学标本图像包含极高像素的详细细胞形态信息常用于临床诊断[93]。深度学习方法的发展扩展了数字病理学在教育、临床诊断、图像分析以及与其他临床诊断方法整合中的应用[94]。为了在大型 WSI 上进行深度学习特征提取需要特定的预处理程序。一种常见方法是将整幅图像划分为带有默认大小的小块提取补丁级特征然后将它们聚合成幻灯片级表示。尽管采用了传统的CNN方法[95]视觉变换器ViT[96]的发展使得WSI中嵌入和位置连接性能够实现自关注方式[97]以及“图-变换器”混合模型。通过这些方法提取的病理信息被进一步用于后续任务如样本分类、预后预测等。此外多模态学习WSI和基因组数据集是临床诊断和治疗分层在临床应用中的挑战和机遇[19]。Chen 等人提出了一个多模态共注意变换器MCAT框架利用基因组引导共注意力GCA层来学习 WSI 实例与基因组通路嵌入之间的注意力[98]从而帮助预测预后和通过推断注意力分数进行交叉模态解释。在PORPOISE框架中Chen等人引入了一种将WSIS与基因组和分子谱整合以预测预后的方法并帮助识别与预后不佳相关的关节生物标志物[20]。Qiu 等人提出了一个弱监督模型 PathIn-NL其中包含一个基于注意力的层级多模融合模块 AHM-Fusion提供了一种更有效的方法来更好地表示 WSI 特征并在多模态学习中实现信息融合[99]。基于注意力的方法在进行基于图像的组织病理多模态分析中展现了其有效性。CT扫描或MRI扫描是临床环境中常用的非侵入性成像技术能够提供人体结构信息并被广泛应用于癌症、心脏病和脑损伤的诊断。深度学习方法已被开发用于自动提取这些图像的形态特征并用于病灶检测与分割、图像增强与重建、样本分类及预后预测等后续任务[100]。放射学与基因组学的结合扩展了这些图像的临床应用使得能够从图像预测分子突变状态[101]并结合放射学与基因组学特征实现临床样本的互补学习。Vanguri等人提出了DyAM框架该框架整合了CT图像、PD-L1免疫组化学IHC和基因组特征用于预测接受癌症免疫疗法治疗的非小细胞肺癌NSCLC患者的临床反应[102]。 Boehm等人对高级别浆液性卵巢癌的多模态数据集进行了全面表征并提出结合组织病理学、放射学和基因组特征可以更好地预测患者的预后并有助于风险分层[103]。应用深度学习方法整合高维多模态数据将进一步改进现有模型并为未来的临床应用带来希望。包括脑电图EEG、电子健康记录EHR和心电图ECG在内的多种临床方式在临床实践中发挥着重要作用。EHR数据已与多组学和影像数据结合以提升多种疾病的诊断和预后如阿尔茨海默病AD[104]。基于Transformer的框架已被用来通过注意力机制将电子健康记录与影像数据结合[105]。此外将脑电图与功能性磁共振成像fMRI数据对比和整合显示出为人脑动力学提供更深入见解的潜力[106]。将心电图与其他生物电数据包括心电图PCG数据整合提高了心血管疾病诊断的表现并为其他生物医学应用带来了希望[107,108]。总体而言多模态深度学习代表了精准医疗的重大进展有望进一步优化临床决策和患者疗效。多组学数据分析分子生物学的中心法则阐述了遗传信息从DNA转移到mRNA再到蛋白质的过程代表了生物信息处理的基本机制[109]。这些组学之间的复杂相互作用以及代谢组学、脂质组学、糖组学等决定了分子和细胞表型并在人类疾病的发展中发挥作用。随着高通量技术和公共组学数据集来源的快速发展从多个组学中学习互补的样本信息识别疾病相关生物标志物和调控机制对该领域至关重要[110]见表2。深度学习已被用于集成多组学数据集并执行不同的下游任务[111]。在肝癌研究中Chaudhary等人利用多组学数据整合预测肝细胞癌HCC的预后并识别存活率差异显著的亚组[112]。Wang 等人提出了一种基于GNN的新方法称为多组学图卷积网络MOGONET用于生物医学样本分类并鉴定了亚群特异性生物标志物[113]。除了深度学习的数据融合外理解其背后的调控机制和识别靶药对于利用多组学数据集至关重要[114]。XOmiVAE引入了可解释的深度学习模型以整合高维组学数据并以监督和非监督方式解释基因的贡献[115]。P-NET应用分层路径信息构建稀疏深度神经网络推断疾病状态特异性分子变化有助于前列腺癌的疾病诊断和药物设计[116]。我们还开发了TMO-Net模型用于癌症数据的不完全多组学数据学习并将其应用于多个下游任务[55]。此外Froguel等人提出了多组学变分自编码器MOVE框架用于识别药物间的关联使用和多组学数据特征有助于描述药物对2型糖尿病的影响[18]。这些方法展示了多组学整合在个性化医疗中的潜力尤其是在癌症和代谢疾病领域通过提升诊断和治疗能力。与此同时可解释的模型增强了我们识别多组学特征重要性并将其与生物功能或临床结局联系的能力。这一解释层对于验证发现、识别疾病机制以及将发现转化为肿瘤学和药理学等领域的可操作见解至关重要最终支持个性化治疗和生物标志物的发现单细胞数据分析随着高通量单细胞捕获和测序技术的发展产生了多种类型的单细胞组学数据包括转录组、染色质、DNA甲基化、组蛋白修饰等[21]。整合这些数据集并在不同层面建立交互关系对于成功应用这些复杂方法至关重要[117]。一项NeurIPS竞赛发现了三项关键任务包括预测不同模态之间的差异、不同模态间的细胞匹配以及共同学习细胞身份的表征旨在将深度学习应用于推动单细胞分析并拓展对细胞生物学的理解[118]见表2。为了整合配对或未配对单细胞的多组学数据集Lin等人引入了scMDC方法利用端到端自编码器模型学习配对单细胞多组学数据集的联合嵌入[119]。Cao等人引入了图联统一嵌入GLUE框架用于整合未配对的单细胞多组学数据集并以组学特征的联结图表示为指导并推断了不同模态之间的调控相互作用[22]。Lakkis等人提出了sciPENN框架该框架整合并推断了多个CITE-seq数据集中的不完全蛋白表达进一步整合了其他scRNA-seq数据集并在不同模态间转移了细胞标记[120]。他等人提出了MIDAS一种深度学习方法能够将单胞多模态数据和知识转移整合到新数据集中[121]。DeepMAPS构建了细胞-基因网络的混合图表示应用异质图变换器HGT模型捕捉细胞与基因之间的重要性并进一步推断特定细胞类型的基因调控网络[23]。这些研究表明基于图的表示方法在捕捉单细胞多组学数据中调控相互作用方面的有效性。空间转录组学的快速发展提供了关于局部组织环境及邻近细胞相互作用的信息[122,123]。此外CITE-seq与空间测序的结合扩展了多组学在局部情境中的实用性[124]。深度学习方法已被应用于提取细胞定位与分子表型之间的相互作用[125]。DestVI提出了一个框架联合学习scRNA-seq数据集和空间斑点表达数据集的潜在表示以解卷单点细胞类型比例及相关转录状态[126]。STAGATE利用图注意力自编码器模型学习了集成的空间和基因表达谱[24]。Long等人提出了GraphST框架该框架结合了GNN和对比学习在空间转录组数据集中整合信息跨组织切片和scRNA-seq数据集[127]。Zhou 等人 [128] 开发了注意力神经网络 STAligner用于整合空间转录组数据和 scRNA-seq 数据并将 scRNA-seq 数据映射到特定空间位置基于空间转录组数据提供的位置信息。Tangram [129] 还集成了多模态数据用于映射并且可以通过监督学习方法从已知的细胞类型或基因表达特征推断细胞类型在空间位置上的分布。此外SpatialGLUE应用了GNN整合空间多组学数据[130]捕捉了更多解剖细节包括未发现的细胞类型并提供了更准确的空间域信息。单细胞多组学方法的发展和单细胞数据集的增长为深度学习方法在单细胞分析中的应用创造了有利的环境有望进一步推动药物发现、治疗靶点和数字健康领域的进步[2,131]。基因型-表型关联分析识别不同数据领域间的关联是多模态数据集成中的一大挑战例如识别成像与基因组数据之间的关联称为放射基因组学。传统方法在提取这些关联方面表现不足限制了基因组学成像在精准医疗中的潜在应用。相比之下人工智能方法通过学习复杂的跨模态关系在基因组学成像中展现出前景。虽然一些深度学习方法专注于检测图像数据中的分子变化[132]但大多数现有研究主要集中在从组织病理图像中推断空间转录组或整体转录组信息[133–136]。尽管这些方法在临床环境中利用成本效益高的成像数据作为分子信息替代品展现出潜力但在全面捕捉分子组学数据和揭示连接成像与组学数据的生物机制方面仍不足。先进的多模态学习方法在揭示复杂图像表型和分子组学数据背后的生物密码方面具有巨大潜力推动疾病理解。同样识别组学数据与临床信息之间的关联对于发现疾病生物标志物和识别风险因素至关重要。然而将临床表型与组学数据尤其是单细胞和空间组学数据联系起来具有挑战性。由于这些数据通常是高维度和细胞层面的传统方法难以将其与个体层面的临床表型如疾病分类和状态联系起来。为此开发了基于注意力的神经网络ScRAT用于连接scRNA测序数据与临床表型[137]促进表型特异性细胞类型识别和高分辨率疾病分类。在空间组学分析方面已开发出基于图的深度学习算法用于预测空间蛋白质组学剖析的患者结局[138]便于识别疾病表型特异性肿瘤微环境模式。未来结合更多表型信息和多组学数据的研究有望推动我们理解疾病机制并实现精确的疾病亚型。基于人工智能的生物医学多模态数据分析中的挑战尽管已有进展基于人工智能的生物医学多模态数据分析仍面临挑战。解决这些挑战将促进广泛的生物医学发现。数据挑战图3 生物医学多模态学习未来方向与应用示意图将多模态数据包括生物医学图像、基因组信息、临床诊断、医患对话、治疗反应和临床检查整合进多模态大型语言模型将成为生物医学多模态学习的未来方向。包括有限的数据可用性和不完整的多模态数据等挑战将通过元/迁移学习和不完全的模态学习/推断来解决。多模态学习已广泛且成功地应用于自然语言和视觉领域但由于数据来源多样从分子剖面到人体图像检查且每种模态中可能存在较高的信息缺失率其在多模态生物医学数据集中的应用面临重大挑战[1]见图3。此外在特定模态中数据采集和预处理程序可能不同这阻碍了研究间数据的标准化和互操作性。已建立多个数据集门户以维护多模态生物医学数据包括癌症基因组图谱TCGA[139]、国际癌症基因组联盟ICGC[140]、乳腺癌分子分类国际联盟METABRIC[141]以及癌症基因组学cBioPortalcBioPortal[142]用于癌症研究的糖尿病缓解临床试验DiRECT[143]。阿尔茨海默病神经影像倡议ADNI[144]数据集用于阿尔茨海默病以及英国生物数据库[145]等通用数字健康记录门户但特定癌症类型或疾病的数据规模仍然有限可能阻碍神经网络训练。为应对数据稀缺和数据缺失等挑战已经开发出多种方法。自我监督学习是充分利用未标记数据来应对这一挑战的重要方法。基于对比学习和数据增强自监督学习方法可以从未标记的数据中学习稳健的数据嵌入训练好的模型可以拟合到许多后续任务[146,147]。典型例子包括Transpath [148]和CS-CO[149]用于组织病理图像分析这些方法降低了组织病理图像注释的成本。此外深度学习模型已被设计用于不完全模态学习的应用。MeLIM方法提出了一个框架通过GAN框架代入缺失模态并学习了联合样本表示[150]。M3Care方法学习了单模态表示构建了患者的相似性图然后在不同患者中推算出缺失模态的潜在空间[151]。Tu 等人引入了交叉链统一嵌入CLUE模型用于利用模态间的交叉编码器学习不完整数据集的全面表示[152]。Hou 等人采用了一种新颖的混合图卷积网络HNCG模型和在线掩蔽自编码器学习多模态生物医学数据集中的模态内和间相互作用并解决了缺失的模态学习[153]。此外跨模态数据综合提供了另一种潜在解决方案。Caroline等人开发了一种跨模态分析方法能够从易获得的心电图中推断难以获得的心脏MRI[154]。Wang等人开发了联合学习框架实现MRI与PET数据的跨模态综合并改进阿尔茨海默症的诊断[155]。基于GAN的网络应用于从CT到PET影像的跨模态合成实现了自动病灶检测的改进[156]。Carrillo-Perez等人开发了级联扩散模型从RNA测序数据合成WSIs准确保留了WSI中细胞类型的分布[157]。然而这些合成数据在模型训练中的应用仍需进一步研究。隐私保护是生物医学数据集深度学习中的另一个重大挑战[25]这需要开发和部署保护隐私的深度学习方法。一种方法是联邦机器学习[158]允许训练单个数据集本地更新核心主模型但不访问私有数据。安全多方计算SMPC是另一种基于密码学框架的隐私保护方法[159]。例如Hie 等人提出了一个基于单个实体私有数据集预测药物-靶点相互作用的框架[160]。此外合成数据生成器也被用于构建原始私有数据集的类似复制品同时保持一致的统计属性[161,162]。生物医学数据可解释性机器学习模型在各种生物医学学习任务中已被证明非常成功。尽管模型设计复杂且任务表现优异理解和揭示其背后的决策解释过程在生物医学学习中至关重要见图3尤其是在机制识别、药物设计和治疗选择方面[27]。一般来说生物学解释主要有两个方向一是基于生物学的神经网络设计另一是事后模型学习。生物模型设计的常见方法是构建一个受生物通路约束的神经网络架构特别是将目标基因节点与通路节点连接包括P-NET [116]、pmVAE [163]、VEGA [164]和LDVAE [165]的模型。例如Lotfollahi等人推出了expiMap利用生物域数据库学习细胞基因程序旨在推断新生基因程序从而实现更高效的细胞注释和新单细胞数据集查询[166]。生物学知情神经网络设计的主要挑战是生物学设计的偏见这限制了知识提取且由于特定模态中策划的生物学网络数量有限无法用于多模态应用。此外解缠学习还应用于生物医学学习用于识别疾病相关的潜在变量并生成合成数据集以辅助机制验证。Yu 等人提出了 MichiGAN结合 VAEs 和 GAN 来学习单细胞数据集的解缠表示并生成具有生物学洞见的单细胞数据集[167]。通过定义一组潜在相关数据调控角色专家可以揭示潜在的因果关系帮助生物医学对数据集的理解。基于梯度和微扰的方法已被广泛用于深度学习模型的事后解释[168]。在基于梯度的方法中输入特征在各个模态中的贡献被估算并有显著分数。Jha等人提出了增强整合梯度EIG方法[169]该方法识别了肝脏中的显著剪接编码特征并被用于识别癌症的共同转录特征[170]。对于基于微扰的方法XOmiVAE计算了输入基因特征的Shapley加法解释SHAP值[171]然后确定了样本分类中最重要的基因[115]。该方法在无监督样本聚类中的进一步应用使得对新颖聚类进行基于激活的解释成为可能。MOVE框架采用基于扰动的方法识别2型糖尿病中重要的药物相关多模态特征为解读生物医学多模态数据集提供了框架[18]。此外理解跨模态相互作用是多模态学习中的一个关键挑战例如基因突变对转录组或蛋白质组调控的下游影响。梁等人提出了多模态学习中图像嵌入与词嵌入相互作用的多视化框架[172]但相关应用在多模态生物医学数据学习中仍然有限。此外还需要更多努力来验证计算机解释学习的结果。Chen 等人提出了解释验证利用合成数据集验证了计算生物学学习中揭示的生物机制的预期逻辑[29]。跨尺度数据整合生物医学数据通常涵盖多个尺度如临床数据、体量组学数据和单细胞组学数据。整合这些跨尺度数据集对于产生有意义的生物医学洞察既关键又充满挑战。为了整合体质和单细胞转录组数据研究人员采用β-VAE方法将体数据解卷成细胞类型特异性表达谱解决了单细胞测序中的“遗漏”问题[173]。在其他案例中如整合多尺度组织病理图像跨尺度注意力机制和多实例学习MIL等方法也有效[174]。MIL方法也展现出整合其他类型跨尺度数据的潜力[175]。对于跨尺度生物医学成像通常可以通过浅层学习方法实现整合尽管准确注册和比对跨尺度图像仍存在挑战[176]。RAPHIA是一种基于几何一致性生成对抗网络GcGAN的端到端算法为MRI和组织病理图像的注册提供了有前景的解决方案实现了医学和组织病理图像的跨尺度分析[177]。还需要进一步研究以增强跨尺度信息整合与对齐从而加深我们对生物系统的理解。人工智能与生物医学多模态数据分析的未来方向鉴于分析生物医学多模态数据的挑战我们概述了人工智能在该领域的关键未来方向见图3。元学习和迁移学习虽然深度学习在数字健康领域的成功激发了各种疾病和任务模型的发展但某些疾病的队列规模有限对这些模型的高效训练和验证构成了重大挑战。为解决这一问题提出了少样本或零样本学习方法如元学习和迁移学习以实现小规模数据集的适应[178]。预训练与微调框架已证明其在计算机视觉学习、神经语言处理和生物医学学习方面的有效性用于预后预测[179]和癌症依赖预测[180]。在单细胞分析中Lin等人提出了scJoint框架[181]该框架对带有细胞类型信息的scRNA-seq数据集进行半监督学习并将细胞注释进一步转移至scATAC-seq数据集和多模态数据集成。Lotfollahi 等人将迁移学习应用于带有去中心化且迭代更新参考模型的单单元格查询图[12]。元学习是一种模型学习高效适应新任务的技术在生物医学应用中也展现出潜力。例如Qiu 等人引入了元学习框架通过整合多个任务中训练的模型并用有限的训练数据进行预后预测来识别样本表示[182]。Cho等人进一步将类似方法应用于多模态生存分析[183]。此外元学习已被应用于研究细胞系表型与药物反应之间的相互作用并将其进一步转化为临床情境从而能够预测有限数量的人类肿瘤样本[184]。生物医学多模态数据集的整体格局包括数据稀缺、大量未标记数据和缺失模态需要更灵活的深度学习方法来提取和传输未标记数据的知识。元学习和迁移学习在生物医学学习领域的前景为解决这些问题提供了途径并扩大深度学习在各种生物医学任务中的适用性。基础模型大型语言模型在神经语言处理领域的成功及其解决复杂任务的卓越能力激发了研究人员对将这些模型应用于生物医学领域的热情[185]。这包括构建基因组学[186]、临床图像[187]和临床文本学习[188]的大型基础模型。Moor 等人提出了一种用于医学人工智能基础模型应用的范式称为通用医学人工智能GMAI[16]。他们提出GMAI模型应能够简单适应新任务灵活结合输入和输出生物医学模式整合医学知识并支持结果推理。在临床应用中该模型应能自动生成疾病报告、总结患者临床对话、建议医疗干预等。在生物学应用中该模型融合了基因组学、表观基因组学、蛋白质组学和临床信息等多模态数据集并与生物学知情的数据库整合揭示特定临床表型的分子调控有助于临床诊断、药物反应预测和药物设计[16]。基础模型在单细胞分析中的应用极大地推动了对复杂生物系统的理解。scGPT [14] 专注于处理这些高维且稀疏的RNA数据捕捉细胞间复杂的关系从而支持跨数据集甚至跨物种的迁移学习。GeneFormer [189] 专注于基因功能和调控网络的推断这在探索特定基因集和基因簇在细胞中的作用方面具有一定优势并为组学引导的个性化治疗奠定了基础但其泛化能力仍需提升。scFoundation [15] 加强了模块化设计旨在结合不同模块以适应多种单细胞任务并且非常灵活且可扩展。Yang等人开发了GeneCompass这是一个基于知识的跨物种基础模型用于理解普遍的基因调控机制[190]。然而大规模单单元数据模型仍需面对诸如大规模多模态数据的有效集成和模型可解释性等问题。此外关于稀有细胞类型的数据稀缺模型常忽视它们因为它们被主流细胞淹没。新兴的基础模型能够操作大尺度图像和文本数据。已开发出多个临床影像数据和临床报告的基础模型。UNI [191]、Prov-GigaPath [192]和Virchow [193]仅基于病理图像数据进行预训练用于癌症分类、诊断和预后。PLIP [194] 和 CONCH [195] 通过对比学习方法对配对病理图像和文本描述进行预训练。CHIEF通过在预训练期间采用一种弱监督方法将组织起源视为标签[196]。BiomedGPT采用统一的标记化方法整合了不同的临床图像和相应的临床报告模式[197]。还开发了一些其他多模态基础模型以实现多重疾病筛查和检测。例如EyeCLIP已在多模态眼科图像上预训练用于检测多种疾病[198]。多模态基础模型的进步提升了当前疾病的诊断和预后预测。然而迄今为止尚无基础模型将图像数据与组学数据结合这限制了图像信息在临床指导精准医疗中的应用。LLM训练中显著高昂的成本和大量数据收集要求在建立生物医学学习基础模型时带来了重大挑战尤其是在收集个体患者配对多模态数据集时[199]。为解决这些问题一种方法是结合提示调优以增强大型语言模型的医学知识学习和生物医学应用的适应[200];另一种方法是将知识图谱注入大型语言模型中[201]。此外推理扩展和推理导向LLMs如DeepSeek-R1 [202]的知识蒸馏通过提供专家级推荐且成本合理展现出推动临床应用发展的前景。此外LLMs的另一个关键特性是能够使用自动化在线搜索、任务设计和实验执行工具[203205]这进一步展示了其在自动收集和预处理生物医学数据集、设计生物信息分析以识别疾病相关分子调控、进行文献综述以解释结果以及提出潜在疾病治疗干预措施等能力。因此将大型语言模型与生物医学多模态学习包括数据集收集、模型融合和因果推断相结合对加速生物医学研究的发展具有巨大潜力。结语生物医学检查方法的发展极大地拓展了我们对人类疾病从分子到人体尺度的理解产生了数千个数据集。这些数据集使人工智能技术能够应用于多种下游任务如样本分类、预后预测、图像病变检测、图像分割等[206]在临床环境中显示出更高的精度和有效性[94]。此外多模态测量方法的发展使得能够整合多种模态数据集、学习联合数据表示以及识别跨模态特征间关联的算法得以发展。传统上多模态数据的融合分析依赖于线性相关近似常导致对底层信息的理解不完整机制。然而人工智能技术的出现已经有效解决了这一局限。此外深度学习技术克服了复杂数据分布中参数估计的挑战这是生物医学数据分析的关键方面。这一进展使得对潜在调控机制的理解更加全面凸显了多模态方法在生物医学数据分析中的潜力[1]。将深度学习方法应用于生物医学多模态学习仍面临诸多挑战。生物医学数据生成的高成本、患者随访困难以及隐私限制限制了训练数据集的规模导致数据模态的缺失[28]。这些问题在生物医学多模态学习中带来了重大数据挑战需要设计能够处理不完整模态学习并适用于小群体样本的模型。解读深度学习模型是生物医学多模态学习中的另一大挑战;理解多模态特征在深度学习模型决策过程中的关键作用有助于识别潜在治疗靶点的生物调控机制并有助于医疗干预和药物设计的决策[29]。此外将生物医学知识融入深度学习模型也面临挑战。虽然已有多种深度学习方法将生物通路信息与神经网络架构整合[116,166]但这些方法仍受限于预定义的通路注释。此外深度学习方法中使用的融合策略影响了多模态学习中的跨模态特征解释这对于理解生物系统的调控过程至关重要。尽管基于微扰的方法在表征最有效的药物响应组学特征方面表现有效[18]但仍需进一步研究和讨论通过完善模型设计来提升跨模态解释能力。LLMs的成功彻底改变了自然语言和图像处理中的人工智能学习[75]并扩展到生物序列数据集的学习[80]。庞大的神经网络规模和庞大的训练数据集使这些模型能够快速适应新任务。Moor 等人提出了 GMAI 框架这是一种基础模型旨在处理大多数临床任务旨在为患者和临床医生提供高质量的医疗支持[16]。同样生物医学多模态学习需要一个基础模型支持多模态数据查询和补值利用生物医学知识促进联合表述学习生成假设并协助临床决策、药物设计和人类疾病理解。实现这一基础模型还需要更多的公共生物医学数据集和社区协作努力。此外由于训练和应用在生物医学多模态模型中样本样本有限模型设计中需要采用少数样本或零样本学习技术。元学习和迁移学习等技术可用于从其他大型数据集中学习通用数据表示[178,181]。尽管在生物医学数据分析中应用了先进的人工智能技术但必须承认人工智能和深度学习在生命科学和临床医学中的局限性。目前成功的应用主要集中在解决这些领域的科学问题深度学习计算方法本身的创新相对较少。受生命科学启发的AI算法进展更是寥寥无几。解决这些空白是未来AI在多模态生物医学数据分析中应用研究的关键方向。总之本综述强调了人工智能在生物医学多模态数据分析中的作用涵盖多模态生物医学数据、多模态表示学习方法及其在多种生物医学多模态数据分析任务中的应用包括数据整合、多组学分析、单细胞分析和基因型-表型关联研究。基于人工智能的生物医学多模态数据分析面临的挑战包括处理多样化数据类型、解读生物医学数据以及实现有效的跨尺度数据整合。未来工作应重点发展基础模型并运用元学习和迁移学习技术进行跨尺度多模态生物医学数据分析。这些都需要在数据收集、模型设计和外部验证方面进行协作以充分利用这些生物医学多模态数据集改善人类健康结果。

【综述型文章】人工智能驱动的生物医学多模态数据融合与分析中的挑战

相关文章：

【综述型文章】人工智能驱动的生物医学多模态数据融合与分析中的挑战

从零到一：在本地CentOS环境完整部署yshop-drink扫码点餐系统的实战指南

家里装了 OpenClaw，在公司也能随时管理——Shield CLI 远程访问方案

# Trae IDE `settings.json` 配置详解与教学文档

Java 核心四大基石：从 Object 源码到包装类陷阱的全维度复盘

如何在3分钟内为Axure RP配置中文界面：终极汉化指南

Proxmox VE虚拟化实战：如何给MikroTik RouterOS配置PCI直通网卡（ROS 6.44.2实测）

3大核心功能让你轻松掌握League-Toolkit英雄联盟辅助工具

SpringBoot WebSocket 客户端断线重连：从心跳检测到优雅恢复

SecGPT-14B实操手册：Gradio界面中temperature=0.3对安全答案确定性的影响

从零开始学流程图：GESP C++二级考试中的三种基本结构详解

ESP32 IDF环境下DHT11温湿度读取避坑指南：从时序图到数据拼接的完整解析

Path of Building完全指南：精准规划角色构筑3步法+高效配置策略

Mermaid CLI：从文本到图表的自动化解决方案

Android10音频系统实战：如何自定义音量曲线（附default_volume_tables.xml修改指南）

企业级Java SMB客户端：jcifs-ng深度架构解析与实战指南

【开题答辩全过程】以基于大数据的智能推送系统设计与实现为例，包含答辩的问题和答案

终极Windows音频路由指南：如何实现多设备音频分离的专业方案

GB28181协议实战：WVP开源项目+ZLM流媒体服务联调配置详解

不止于集成：在RuoYi-Camunda流程设计器中实现自定义属性面板与FEEL表达式校验

Cadence导出Gerber文件保姆级教程：从Database Check到嘉立创预览，一步不落

League-Toolkit故障排除指南：从启动失败到高效修复的完整方案

WPS宏工具实战：5分钟搞定批量图片尺寸调整（JSA/VBA双版本代码）

NCMDump解密工具：3步解锁网易云音乐加密文件，实现跨平台自由播放

告别Mac！在Windows电脑上用HBuilder X和Appuploader搞定iOS测试包（附7天免费证书申请）

SAR成像RD算法仿真：为什么你的点目标旁瓣降不下去？从原理到Matlab代码的深度调优

从希腊字母到优化问题：用Overleaf搞定LaTeX数学公式的20个高阶技巧

别再只盯着标定板了！用ROS camera_calibration搞定海康工业相机，这5个细节决定成败

NaViL-9B图文问答教程：支持中英双语提问的跨语言理解能力实测

League Akari：英雄联盟玩家的智能效率工具集，从自动秒选到战绩分析的全能助手