当前位置: 首页 > article >正文

从81.7万细胞中解码“语法”:人类发育多组学图谱首次揭示调控序列的硬规则与软约束

论文信息标题Multiomics and deep learning dissect regulatory syntax in human development期刊/会议Nature发表时间25 February 2026论文链接https://doi.org/10.1038/s41586-026-10326-9从81.7万细胞中解码“语法”人类发育多组学图谱首次揭示调控序列的硬规则与软约束一句话速览斯坦福大学团队在《自然》杂志发布迄今最全面的人类胎儿发育多组学单细胞图谱覆盖12个器官、81.7万个细胞绘制了超过100万个调控元件。他们利用深度学习模型首次系统性地揭示了转录因子结合位点之间相互作用的“语法规则”——包括严格的间距取向要求硬规则和灵活的排列方式软约束并发现了一批普遍存在的抑制性调控基序。想象一下你手中有一本构建人体的“基因说明书”。这本说明书由30亿个字母碱基写成但其中真正指导细胞何时、何地、变成何种类型的“操作指南”只散布在基因组不到2%的区域里——这些就是调控序列。长久以来科学家们知道这些“操作指南”并非简单的单词转录因子结合位点堆砌它们之间存在着复杂的“语法”。就像“我吃饭”和“饭吃我”意思完全不同两个转录因子结合位点的间距、相对方向可能决定了这个调控元件是开启基因还是沉默基因。然而这套“语法规则”究竟是什么它在人类发育的数百种细胞类型中如何变化我们一直缺乏一张全景图。更棘手的是绝大多数人类复杂疾病如心脏病、哮喘的风险基因变异都落在这片非编码的“调控暗物质”区域。理解这些变异如何通过破坏“语法”导致疾病是精准医学的终极挑战之一。现在一项发表于《自然》的研究带来了突破。由斯坦福大学William J. Greenleaf、Anshul Kundaje和Illumina的Kyle K. H. Farh共同领导的研究团队构建了人类发育多组学图谱并利用深度学习模型首次大规模、系统性地解读了人类发育过程中调控序列的“语法逻辑”。背景与痛点调控序列的“语法之谜”在细胞分化的交响乐中转录因子是指挥家。它们通过识别DNA上特定的短序列基序并结合上去打开局部染色质启动或抑制基因表达。通常多个转录因子需要协同工作以实现精确的调控。这种协同作用有两种主流模型直接合作DNA介导转录因子之间像乐高积木一样通过物理相互作用紧紧结合在一起。这通常要求它们的结合位点在DNA上以固定的间距和方向排列就像插座和插头必须对准才能通电。这被称为“硬语法”。间接合作核小体介导转录因子不一定直接接触而是通过共同竞争或驱逐包裹DNA的核小体来打开染色质。这种情况下结合位点的排列可以相对灵活只要在一定范围内即可。这被称为“软语法”。问题在于我们之前的研究犹如“管中窥豹”。要么是使用混合了大量细胞类型的“批量”数据模糊了细胞特异性要么只聚焦于单个器官或单一的检测层面如只测染色质开放性或只测基因表达。我们缺少一个跨器官、多组学、单细胞分辨率的发育图谱来全景式地观察这些语法规则如何在不同的细胞类型中上演。此外如何从海量的DNA序列中自动、准确地找出这些规则传统方法依赖于预先已知的基序库和繁琐的实验验证难以应对人体内千变万化的上下文环境。核心方法用深度学习“破译”DNA语言研究团队首先构建了核心资源人类发育多组学图谱。他们利用SHARE-seq技术同时检测了来自12个人类胎儿器官孕10-23周共81.7万个单细胞的染色质可及性ATAC-seq和基因表达RNA-seq最终定义了203种细胞类型并绘制了超过103万个候选顺式调控元件。但这只是第一步。真正的创新在于他们如何解读这些数据。团队为189种细胞类型分别训练了名为ChromBPNet的深度卷积神经网络模型。这个模型的输入是一段2000多碱基对的DNA序列输出是预测的、碱基分辨率的染色质可及性图谱。你可以把它理解为一个“DNA序列编译器”给它一段序列它就能告诉你这段序列在特定细胞类型中有多大可能被打开可及以及打开的具体模式如转录因子结合留下的“足迹”。关键在于模型的“可解释性”。研究人员使用深度特征归因技术追溯是序列中的哪些核苷酸对“可及性”预测贡献最大。将这些高贡献区域聚类就能从头发现驱动染色质开放的序列模式——即调控基序。最终他们汇编了一部包含508个全新基序的“调控词典”其中大部分493个促进可及性而令人惊讶的是有15个基序被预测为降低可及性即起到抑制性作用。实验结果发现“硬语法”与“软语法”的广泛证据利用训练好的模型研究人员可以进行“虚拟实验”。他们系统性地测试了138对复合基序由两个基序组合而成探究两个基序在不同间距、不同方向排列时对可及性的联合影响是否大于单独作用之和即协同效应。结果他们发现了67对具有显著协同效应的基序对并清晰地将其分为两类硬语法规则Hard Syntax48对基序表现出严格的间距和方向偏好。例如一个由E-box和同源异型框Homeodomain位点组成的复合基序在间距为5个碱基、头尾相接的排列下协同效应最强。这与已知的“协调子”复合物结构完全吻合其精确间距对于稳定转录因子间的物理接触至关重要。这类规则通常意味着转录因子间存在直接的蛋白-蛋白相互作用。软语法规则Soft Syntax19对基序的协同效应在一个较宽的距离范围如20-150bp内都存在且效应随着距离增大而平缓衰减。这种灵活性符合核小体介导的间接协同模型可能提供了进化上的稳健性——即使序列发生一些变异调控功能仍得以保留。此外研究还证实了抑制性基序的普遍存在。像ZEB/SNAIL、BCL11A等已知转录抑制因子对应的基序在可及区域内部反而预测会降低局部可及性。它们倾向于位于核小体核心附近而非开放区域的正中心。意义与展望连接发育语法与疾病风险这项工作的意义远不止于绘制一张图谱。首先它提供了一个解码非编码基因组的强大框架。ChromBPNet模型不仅能发现基序还能定量预测任意DNA序列变异对染色质状态的影响。研究人员将这一能力应用于疾病研究。他们整合了超过13000项全基因组关联研究的精细定位数据发现许多与成人疾病如哮喘、冠心病相关的风险变异竟然落在胎儿特异性的可及调控元件中。例如一个与哮喘风险相关的变异rs113892147位于胎儿肺巨噬细胞一个活跃的增强子内破坏了促进开放的NRF1基序。模型预测风险等位基因会降低该元件的可及性。这提示某些成人疾病的风险可能源于生命早期关键细胞类型如免疫细胞的发育程序受到了细微干扰。另一个冠心病风险变异rs12740374则位于肌肉内皮细胞的一个抑制性ZEB/SNAIL基序中。风险等位基因破坏了这个抑制性基序并意外地创建了一个促进开放的C/EBP基序预测将增加可及性。这为血管内皮功能异常在冠心病中的作用提供了新的分子线索。其次这部“调控语法手册”是理解生命编程的基础。它揭示了细胞如何利用有限数量的转录因子通过排列组合和严格的语法规则创造出极其多样的基因表达程序从而构建出复杂的多细胞有机体。局限性与未来方向当然这项工作也有其边界。图谱覆盖的细胞类型虽广但尚未达到饱和更深入的采样将发现更多稀有细胞状态。深度学习模型主要捕捉直接影响染色质可及性的序列特征对于通过其他机制如远程染色质环化发挥作用的调控因子可能不敏感。此外所有的预测仍需在未来的湿实验中得到最终验证。这项研究如同一束强光照亮了非编码基因组这片曾经的“暗物质”区域。它告诉我们DNA序列不仅承载着信息更内嵌着一套精妙的空间语法。这套语法与转录因子共同编写了发育的程序而它的“错别字”变异则可能为未来的疾病埋下伏笔。从基础科学的角度我们终于开始像理解语言一样理解调控序列的逻辑。而从转化医学的角度这份图谱和模型为系统性地解读疾病风险变异、理解其作用的细胞类型和发育时期提供了前所未有的工具。最后留给读者一个思考这项研究揭示了许多胎儿期活跃、成年后关闭的调控元件与疾病相关。这是否意味着某些“成人病”的根源其实深植于我们生命最初数周或数月的发育蓝图之中如果未来可以通过基因编辑或表观遗传调控在早期修正这些“编程错误”是否能为疾病预防开辟全新的道路欢迎在评论区分享你的见解。

相关文章:

从81.7万细胞中解码“语法”:人类发育多组学图谱首次揭示调控序列的硬规则与软约束

论文信息标题:Multiomics and deep learning dissect regulatory syntax in human development期刊/会议:Nature发表时间:25 February 2026论文链接:https://doi.org/10.1038/s41586-026-10326-9从81.7万细胞中解码“语法”&#…...

告别零样本提示:为什么在复杂业务里,Text2SQL微调才是王道?以DB-GPT-Hub为例

为什么Text2SQL微调在复杂业务场景中不可替代?DB-GPT-Hub实战解析 当企业数据库遇到多表关联、嵌套查询和业务专属术语时,传统零样本提示方法的SQL生成准确率往往会断崖式下跌。去年某金融科技团队在迁移核心交易系统时发现,即使使用顶级大模…...

【LeetCode刷题日记】:从 LeetCode 经典题看哈希表的场景化应用---数组、HashSet、HashMap 选型与算法实战

🔥个人主页:北极的代码(欢迎来访) 🎬作者简介:java后端学习者 ❄️个人专栏:苍穹外卖日记,SSM框架深入,JavaWeb ✨命运的结局尽可永在,不屈的挑战却不可须臾或…...

2026最权威的十大AI辅助论文方案解析与推荐

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 一篇篇DeepSeek系列论文,呈现出大型语言模型架构以及训练方法方面的系统性创新&a…...

2026最权威的六大AI科研工具实测分析

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 于学术写作范畴之内,论文AI工具正一步一趋成为研究者的关键辅助方式,…...

第16讲:C语⾔内存函数

目录 memcpy使⽤memmove使⽤memset函数的使⽤memcmp函数的使⽤1.memcpy(1)功能: memcpy 是完成内存块拷⻉的,不关注内存中存放的数据是啥。函数 memcpy 从 source 的位置开始向后复制 num 个字节的数据到 destination 指向的内存位…...

技术选型评估框架需求技术与团队匹配

技术选型评估框架:需求、技术与团队的精准匹配 在快速迭代的软件开发领域,技术选型直接决定项目的成败。如何从众多技术方案中选出最适合团队与业务需求的工具?关键在于构建一个科学的技术选型评估框架,确保需求、技术与团队能力…...

让微信网页版重新可用:wechat-need-web浏览器插件完全攻略

让微信网页版重新可用:wechat-need-web浏览器插件完全攻略 【免费下载链接】wechat-need-web 让微信网页版可用 / Allow the use of WeChat via webpage access 项目地址: https://gitcode.com/gh_mirrors/we/wechat-need-web 还在为微信网页版无法登录而烦恼…...

GitHub中文化插件实战指南:开发版与稳定版选型深度解析

GitHub中文化插件实战指南:开发版与稳定版选型深度解析 【免费下载链接】github-chinese GitHub 汉化插件,GitHub 中文化界面。 (GitHub Translation To Chinese) 项目地址: https://gitcode.com/gh_mirrors/gi/github-chinese GitHub中文化插件是…...

M5Unit-8Encoder驱动库:工业级8路编码器I²C嵌入式实践

1. M5Unit-8Encoder 库深度解析:面向嵌入式工程师的工业级旋转编码器驱动实践指南1.1 项目定位与工程价值M5Unit-8Encoder 是专为 M5Stack 生态中 UNIT-8Encoder 模块设计的嵌入式驱动库,其核心价值在于将一款具备 8 路独立增量式编码器接口、支持高速计…...

周红伟:龙虾安装大全,这应该是最详细的 OpenClaw 安装手册了(附20+张图)

OpenClaw 是一个开源 AI 代理框架,由奥地利开发者 Peter Steinberger 创建,专注于构建自主 AI 代理,能够执行实际任务(如写代码、管理文件、浏览网页等),而非仅限于聊天。它从一个简单原型迅速演变为 GitHu…...

5步终极指南:用WaveTools彻底解锁《鸣潮》120帧流畅体验

5步终极指南:用WaveTools彻底解锁《鸣潮》120帧流畅体验 【免费下载链接】WaveTools 🧰鸣潮工具箱 项目地址: https://gitcode.com/gh_mirrors/wa/WaveTools 你是否曾在《鸣潮》的激烈战斗中感受过画面卡顿?明明拥有强大的硬件配置&am…...

办公Agent的CI/CD时刻到来了

关注腾讯云开发者,一手技术干货提前解锁👇还记得手动部署的古早编程时代吗?代码写完,打个 tar 包,开 FTP 传到服务器上,SSH 进去解压,改配置文件,重启服务,刷一下页面祈祷…...

LVM磁盘扩容实战:如何在已有逻辑卷上直接扩展存储空间

1. LVM磁盘扩容的核心场景与原理 想象一下你的手机存储空间快满了,但你又不想删除珍贵的照片和视频。这时候最直接的办法就是买一张更大容量的存储卡,把数据迁移过去。但在服务器环境中,这种"换卡"操作往往意味着停机、数据迁移等一…...

c语言的优点介绍

C语言是一门通用计算机编程语言,应用广泛。C语言的设计目标是提供一种能以简易的方式编译、处理低级存储器、产生少量的机器码以及不需要任何运行环境支持便能运行的编程语言。接下来,小编为您介绍了c语言的优点介绍,感谢您的阅读! 1、简洁紧…...

从Excel到HTML:RAG分块策略在结构化数据召回中的革新实践

1. 为什么Excel数据需要特殊的分块策略? 在企业级应用中,Excel表格是最常见的数据载体之一。财务报告、销售数据、库存清单等结构化信息通常都以.xlsx格式存储和流转。但当我们尝试将这些数据接入RAG(检索增强生成)系统时&#xf…...

2026年04月10日热门Model/github项目

总结 2026年4月10日 新上榜的 6个GitHub项目 和 5个HuggingFace模型,反映了当前AI领域的几个核心趋势: 关键趋势: AI编程工具链成熟化:从代码生成(Superpowers、Archon)到知识管理(Claudian&…...

一季度收官,AI在交通运输行业表现如何?

公路、铁路、航空、水运,共同构成了这个国家的交通网络。货物经由港口中转,旅客借助铁路和航空流动,城市依靠道路交通维持日常运转。这张网络每天承载着数以亿计的出行和运输需求,任何一个环节的效率与安全,都会影响整…...

YOLO-Master 与 YOLO 开始吭

AI Agent 时代的沙箱需求 从 Copilot 到 Agent:执行能力的质变 在生成式 AI 的早期阶段,应用主要以“Copilot”形式存在,AI 仅作为辅助生成建议。然而,随着 AutoGPT、BabyAGI 以及 OpenAI Code Interpreter(现为 Advan…...

从原理到实践:详解双目散斑结构光的生成与优化

1. 散斑结构光的基础原理 当你用手电筒照射粗糙墙面时,会看到无数闪烁的光点,这就是自然界中最常见的散斑现象。在三维视觉领域,我们通过精心设计的伪随机散斑图案(Pseudorandom Speckle Pattern),将这种物…...

大模型之Linux服务器部署大模型筛

一、各自优势和对比 这是检索出来的数据,据说是根据第三方评测与企业数据,三款产品在代码生成质量上各有侧重: 产品 语言优势 场景亮点 核心差异 百度 Comate C核心代码质量第一;Python首生成率达92.3% SQL生成准确率提升35%&…...

【Python】CairoSVG实战:从SVG到多格式转换的完整指南

1. 为什么选择CairoSVG进行SVG转换 如果你经常需要处理矢量图形,肯定遇到过这样的场景:设计部门给你发来SVG文件,但你的应用场景需要PNG格式;或者需要把SVG图标批量导出为PDF文档。这时候CairoSVG就是你的瑞士军刀。 我在实际项目…...

AI原生软件技术选型到底怎么选?:一张动态决策树图谱,覆盖LLM接入、向量基建、Agent编排与合规审计4大生死关

第一章:AI原生软件技术选型的底层逻辑与决策范式 2026奇点智能技术大会(https://ml-summit.org) AI原生软件并非传统应用叠加模型API的简单拼接,而是以模型为一等公民、数据流为骨架、推理生命周期为驱动内核的全新构造范式。其技术选型本质是权衡“表达…...

MinIO初始化报错`Invalid endPoint`全解析:从URL规范到调试技巧

1. 为什么你的MinIO客户端总是报Invalid endPoint错误? 最近在帮团队排查MinIO集成问题时,发现超过60%的初始化错误都源于endPoint配置不当。很多开发者习惯性复制浏览器地址栏的URL直接粘贴到代码里,结果运行时却收到冰冷的Invalid endPoint…...

MySQL锁机制:从全局锁到行级锁的深度解读挚

如果有多个供应商,你也可以使用 [[CC-Switch]] 来可视化管理这些API key,以及claude code 的skills。 # 多平台安装指令 curl -fsSL https://claude.ai/install.sh | bash ## Claude Code 配置 GLM Coding Plan curl -O "https://cdn.bigmodel.cn/i…...

GME多模态向量-Qwen2-VL-2B多场景落地:已支持12类垂直领域图文Schema定制扩展

GME多模态向量-Qwen2-VL-2B多场景落地:已支持12类垂直领域图文Schema定制扩展 你是不是经常遇到这样的问题?想找一张图,却只能用文字描述,结果搜出来的图片总是不对劲;或者有一张图片,想找和它内容相关的文…...

告别网络依赖!手把手教你本地部署Element UI v2.15.13离线文档(附Nginx/VSCode两种方法)

告别网络依赖!手把手教你本地部署Element UI v2.15.13离线文档(附Nginx/VSCode两种方法) 作为一名长期在咖啡厅、地铁等弱网环境下工作的前端开发者,我深刻体会到离线文档的重要性。Element UI作为Vue.js生态中最受欢迎的UI框架之…...

Linux内核中的KVM虚拟化详解

Linux内核中的KVM虚拟化详解 引言 KVM(Kernel-based Virtual Machine)是Linux内核中的虚拟化模块,它允许Linux内核作为 hypervisor 运行虚拟机。KVM将Linux内核转变为一个功能完整的虚拟化平台,支持硬件辅助虚拟化。本文将深入探讨…...

Linux内核中的RCU机制详解

Linux内核中的RCU机制详解 引言 RCU(Read-Copy-Update)是Linux内核中一种高效的读写同步机制,特别适合读多写少的场景。它允许多个读者同时访问数据,写者通过复制和更新的方式来修改数据,避免了传统锁机制带来的性能开…...

PyTorch 2.8镜像中的模型安全与鲁棒性测试:对抗样本生成

PyTorch 2.8镜像中的模型安全与鲁棒性测试:对抗样本生成 1. 为什么我们需要关注模型安全性 想象一下,你开发了一个用于医疗影像诊断的AI系统,准确率高达99%。但在实际部署后,有人通过微小的图像改动就让系统做出完全错误的判断。…...