文章系列2:Unraveling the functional dark matter through global metagenomics
这篇文章发布于2023年10月nature。通讯作者是来自于 DOE Joint Genome Institute, Lawrence Berkeley National Laboratory, Berkeley, CA, USA.
背景介绍&目标
作者首先背景介绍了两种主流宏基因组分析方法,包括reads-based reference mapping(eg. MG-RAST)和assembled-based de novo(Integrated Microbial Genomes & Microbiomes (IMG/M) and MGnify)两种.
又提到目前无论哪种方法下游分析中对基因组的功能注释都依赖于现有的库,这种分析方法会去除掉一些未知的基因。所以一个全面的基因组比对以解释未知功能的分析是非常需要的。那这个未知功能作者援引为functional dark matters。
原文:‘
Same major limitation with respect to gene functional annotation, which relies on predicting function by homology searching against reference protein databases, such as COG, Pfam and KEGG Orthology. As a result, any genes predicted in assembled metagenomic data that do not map to reference protein families are typically ignored and dropped from subsequent comparative analysis.
To estimate the breadth of unexplored functional diversity, referred to as the functional dark matter an all-versus-all metagenomic comparison is required.’
这些reference database都是做功能注释非常常用的库。
-
COG-Database: The Clusters of Orthologous Genes (COGs) database
-
Pfam: a complete and accurate classification of protein families and domains.
-
KEGG Orthology: molecular functions represented in terms of functional orthologs.
为了揭示这个位置的dark matters(功能),总结来说这篇文章主要做了以下工作
-
They present a scalable computational approach 他们提出了一种可扩展的计算方法,用于识别和表征宏基因组中发现的功能性暗物质。
-
They identified the novel protein space (after removing all reference matched genes) and clustered them into families首先,在删除与超过 100,000 个参考基因组或 Pfam 的 IMG 数据库匹配的所有基因后,我们确定了 IMG/M 的 26,931 个宏基因组数据集中存在的新蛋白质空间。接下来,我们将剩余的序列聚集到蛋白质家族中。
-
They explored their taxonomic and biome distributions 他们探索了这些未知cluster的分类学和生物群落分布
-
They predicted their three-dimensional (3D) structures他们预测了它们的三维结构
数据来源和数据处理Data source and preprocess of the data
Environmental dataset 来源于:数据来源:来自IMG/M平台托管的所有公共参考基因组和组装的宏基因组和元转录组的所有蛋白质序列(超过35个氨基酸残基)

这个来自于supplementary的图片说明整个流程更加的清晰。可以看到首先去除一些低复杂度的序列,拿到>35bp的序列,作者用hmm比对pfam数据库去除map上的hits,后面又使用LAST比对工具再次过滤reference genomes。最后仅仅得到最初序列的14%,即1,171,974,849序列,这些序列被称为novel protein sequences。
tips:
文章中去除低复杂度序列应该是处于低复杂度区域通常包含一些高度重复的序列,这些重复序列可能对分析和解释基因组和转录组数据造成干扰,因此去除它们有助于减少噪音和提高数据的可信度。
文章中提到提取reference genomes方法:
Reference Genomes: In total, we extracted all protein sequences from 89,412 bacterial, 9,202 viral, 3,073 archaeal and 804 eukaryal genomes, resulting in a final dataset of 94,672,003 sequences. The reference genomes included in this study consisted solely of isolate genomes, not MAGs or single-amplified genomes.

那么接下来拿到这些novel protein sequences 之后作者又用LAST对蛋白质序列之间做相似性比较(an all-versus-all similarity matrix was built for each of the two gene catalogues by calculating all significant pairwise sequence similarities.),生成一个相似性矩阵,然后根据相似性矩阵用HipMCL进行聚类得到最后的蛋白质clusters。作者同样对reference genomes也进行了类似的操作,以便后续比较。整个过程结合图1a和supp figure更加清楚


原文细节描述(具体node和edges数目)如下
We next clustered the 1.1 billion ED proteins using a graph-based approach. For comparative purposes, we followed the same approach for the 94 million proteins from reference genomes.
First, an all-versus-all similarity matrix was built for each of the two gene catalogues (that is, proteins from reference genomes and those from the ED) by calculating all significant pairwise sequence similarities.
The all-versus-all pairwise alignments were calculated using LAST (70% sequence identity, 80% alignment coverage). The reference genome graph consisted of 71,312,220 nodes (proteins) and 5,313,956,680 edges (pairwise similarities). The graph for the ED proteins consisted of 570,198,677 nodes and 5,196,499,560 edges.
下面作者进一步移走了一些只有少数蛋白序列的cluster以及和pfam有weak hits的cluster,只留下包含有至少100个memeber的cluster,我认为这部是为了保证这个novel。这个部分就是novel protein families,也就是全文通篇在提的NMPFs(novel metagenome protein families)

结果1: ED has more clusters than reference genomes

文章这里的图是说明与reference genome的cluster相比,NMPFs包含的蛋白序列更加的多,不仅仅是有3个members的cluster多,从3-100都多。
In total, we identified 106,198 families with at least 100 members that will be referred to as novel metagenome protein families (NMPFs) (Table 1 (right column)).
For comparison, we identified 92,909 protein clusters in the corresponding set of protein clusters with at least 100 members from reference genomes.
We observed an increase in the ED protein clusters by greater than 14-fold for clusters with at least 3 members, greater than 3-fold for clusters with at least 25 members, around a 2-fold increase for clusters with at least 50 and 75 members as well as an increase for clusters with at least 100 members.
下面作者又做了一个稀释曲线,可以发现ED组相比较reference genomes的斜率更大,说明随着sample数目的增加,还可能有更多的cluster被发现。这进一步说明这些unknown protein sequence是未知的,非常值得探索的,是比reference genomes更多未知的更丰富的功能序列。

结果2:biome distribution(未完待续。会明天补全。)
reference
Unraveling the functional dark matter through global metagenomics | Nature
相关文章:
文章系列2:Unraveling the functional dark matter through global metagenomics
这篇文章发布于2023年10月nature。通讯作者是来自于 DOE Joint Genome Institute, Lawrence Berkeley National Laboratory, Berkeley, CA, USA. 背景介绍&目标 作者首先背景介绍了两种主流宏基因组分析方法,包括reads-based reference mapping(eg…...
ubuntu 20.04 搭建crash dump问题分析环境
ubuntu 20.04 搭建crash dump问题分析环境 1 安装依赖软件1.1 linux-dump1.2 kexec-tools1.3 安装crash工具1.4 安装gdb调试工具1.5 安装ubuntu内核调试符号1.5.1 GPG 秘钥导入1.5.2 添加仓库配置1.5.3 更新软件包1.5.4 下载和安装内核调试符号1.5.5 验证内核调试符号已经被安装…...
算法训练营一刷 总结篇
今天就是Day60了,坚持了两个月的算法训练营在今天结束了。这两个月中,学习、练习了许许多多的算法,坚持每天完成博客来打卡,养成了写C的习惯,现在相比于Python我反而更喜欢思路严谨的C。感谢这个平台,感谢C…...
Linux中的MFS分布式文件系统
目录 一、MFS分布式文件系统 1、MooseFS简介 2、Moose File System的体系结构 (1)MooseFS Master (2)MooseFS Chunk Server (3)MooseFS Metalogger (4)MooseFS Client &…...
气相色谱质谱仪样品传输装置中电动针阀和微泄漏阀的解决方案
标题 摘要:针对目前国内外各种质谱仪压差法进样装置无法准确控制进气流量,且无相应配套产品的问题,本文提出了相应的解决方案和配套部件。解决方案主要解决了制作更小流量毛细管和毛细管进气端真空压力精密控制问题,微流量毛细管的…...
ArkTS基础知识
ArkTS基础知识 ArkUI开发框架 ArkTS声明式开发范式 装饰器: 用来装饰类,结构体,方法及变量。如: Entry:入口组件 Component :表示自定义组件 State 都是装饰器:组件中的状态变量,该…...
Kotlin学习(二)
2.kotlin学习(二) 1.条件控制 package com.simon.secondfun main(args: Array<String>) {//ifvar a 1var b 2var max:Intif (a > b){max a}else{max b}//作为表达式结果赋值给max1 感觉这个简单啊var max1 if(a>b)a else bprintln(ma…...
LangChain 6根据图片生成推广文案HuggingFace中的image-caption模型
根据图片生成推广文案, 用的HuggingFace中的image-caption模型 LangChain 实现给动物取名字,LangChain 2模块化prompt template并用streamlit生成网站 实现给动物取名字LangChain 3使用Agent访问Wikipedia和llm-math计算狗的平均年龄LangChain 4用向量数…...
QFontDialog开发详解
QFontDialog 类是 Qt 框架中用于选择字体的对话框类。它允许用户选择字体的各种属性,如字体名称、字号、粗体、斜体等。以下是 QFontDialog 的一些常见用法和详解: 一、QFontDialog基本用法 #include <QApplication> #include <QFontDialog> #include <QMes…...
【C++进阶之路】第七篇:异常
文章目录 一、C语言传统的处理错误的方式二、 C异常概念三、异常的使用1.异常的抛出和捕获2.异常的重新抛出3.异常安全4.异常规范 四、自定义异常体系五、C标准库的异常体系(了解)六、异常的优缺点 一、C语言传统的处理错误的方式 传统的错误处理机制&am…...
shell 判断文件是否存在(csh bash)
文章目录 前言1. -e 判断文件是否存在2. -f 判断文件是否存在且为普通文件3. -d 判断文件是否存在且为目录3. -s 判断文件是否存在且不为空4. -r 判断文件是否存在且可读5. -w 判断文件是否存在且可写6. -x 判断文件是否存在且可执行 前言 Shell 编程能提升我们工作效率&#…...
第六年到第十年是分水岭
我今年懈怠了,觉得就这样了,看到知乎上有个大神的帖子,深受触动,前五年都差不多,第六年到第十年才是分水岭,是否愿意继续努力,才是关键。拷贝如下: 作者:技术王 来源&…...
关于标准库中的string类 - c++
目录 关于string类 string类的常用接口 string类常用接口的简单模拟实现 关于string类 string类在cplusplus.com的文档介绍 1. string是表示字符串的字符串类 2. 该类的接口与常规容器的接口基本相同,再添加了一些专门用来操作string的常规操作。 3. string在…...
Chrome添加扩展程序
Crx4Chrome 下载crx 打开扩展程序 如果拖动crx文件到扩展程序提示只能通过Chrome应用商店添加此项内容 修改crx文件后缀为zip并解压,再拖动到扩展程序 Vue.js devtools...
C++单调向量算法:132模式枚举1简洁版
本题不同解法 包括题目及代码C二分查找算法:132 模式解法一枚举3C二分查找算法:132 模式解法二枚举2代码简洁C二分查找算法:132 模式解法三枚举1性能最佳C单调向量算法:132 模式解法三枚举1代码更简洁C二分查找算法:1…...
【ARFoundation学习笔记】2D图像检测跟踪
写在前面的话 本系列笔记旨在记录作者在学习Unity中的AR开发过程中需要记录的问题和知识点。主要目的是为了加深记忆。其中难免出现纰漏,更多详细内容请阅读原文以及官方文档。 汪老师博客 文章目录 2D图像检测创建一个图像检测工程图像追踪的禁用和启用多图像追踪…...
计算机算法分析与设计(24)---分支限界章节复习
文章目录 一、分支界限法介绍二、旅行商问题应用三、装载问题应用3.1 问题介绍与分析3.2 例题 四、0-1背包问题应用4.1 问题介绍与分析4.2 例题 一、分支界限法介绍 二、旅行商问题应用 三、装载问题应用 3.1 问题介绍与分析 3.2 例题 四、0-1背包问题应用 4.1 问题介绍与分析…...
二十三种设计模式-解密状态模式:优雅地管理对象状态
在软件开发中,经常会遇到需要根据对象的状态来改变其行为的情况。传统的实现方式可能涉及到大量的条件语句或者使用标志位来跟踪状态,导致代码复杂、难以维护。 而状态模式(State Pattern)可以提供一种优雅且灵活的解决方案&#…...
git常常用命令
这篇文章中,一些简单的,大家都知道的git 命令我就不再赘述,我只写出来最近在项目中常用到的一些命令。这些命令可以帮助我更好的开发。 git stash 请大家设想下面的场景,你的本地有两个分支,develop,fix分支…...
C语言中的大端字节序和小端字节序是什么?如何进行字节序的转换?
C语言中的大端字节序和小端字节序以及字节序的转换 引言 在计算机科学中,字节序是指多字节数据在存储或传输过程中字节的排列顺序。在C语言中,特别是在涉及二进制数据的处理、网络通信以及硬件相关的编程中,了解大端字节序和小端字节序的概…...
DeepSeek V4模型的Agent能力实测
DeepSeek V4 系列发布之后,关于它能不能用、好不好用的讨论很多,但大部分评测还停留在普通对话或编码上。CowAgent 作为一个开源中立的 Agent 框架,则更关心模型在 Agent 链路中的真实表现,包括任务规划、复杂编码、长期记忆、浏览…...
R3nzSkin国服版终极指南:5分钟学会英雄联盟全皮肤免费使用
R3nzSkin国服版终极指南:5分钟学会英雄联盟全皮肤免费使用 【免费下载链接】R3nzSkin-For-China-Server Skin changer for League of Legends (LOL) 项目地址: https://gitcode.com/gh_mirrors/r3/R3nzSkin-For-China-Server R3nzSkin国服特供版是一款专为中…...
EkyBot连接器:构建RPA与外部系统集成的中心化桥梁
1. 项目概述与核心价值 最近在折腾一些自动化流程,特别是想把不同平台的数据和操作打通,发现一个叫 regiomag/ekybot-connector 的项目挺有意思。简单来说,这是一个连接器,或者叫“桥梁”,专门用来把 EkyBot 这个自动…...
import_3dm:5个关键步骤解决Blender与Rhino间的数据鸿沟
import_3dm:5个关键步骤解决Blender与Rhino间的数据鸿沟 【免费下载链接】import_3dm Blender importer script for Rhinoceros 3D files 项目地址: https://gitcode.com/gh_mirrors/im/import_3dm 你是否曾经花费数小时在Rhino中精心设计的模型,…...
一键在Docker Desktop启用Kubernetes:本地开发与学习的高效实践
1. 项目概述与核心价值如果你是一名开发者,日常工作离不开Docker Desktop,同时又对Kubernetes(K8s)充满好奇,或者你的项目正从单容器向微服务编排演进,那么你一定遇到过这个经典困境:如何在本地…...
终极Windows清理指南:如何用Windows Cleaner一键解决C盘爆红问题
终极Windows清理指南:如何用Windows Cleaner一键解决C盘爆红问题 【免费下载链接】WindowsCleaner Windows Cleaner——专治C盘爆红及各种不服! 项目地址: https://gitcode.com/gh_mirrors/wi/WindowsCleaner 你的电脑是否经常提示"磁盘空间…...
AISMM评估结果≠能力现状!:揭秘隐藏在“合格”标签下的4大结构性缺陷与5项紧急加固动作
更多请点击: https://intelliparadigm.com 第一章:AISMM模型评估报告解读会 AISMM(Artificial Intelligence Software Maturity Model)是一套面向AI系统全生命周期的成熟度评估框架,其评估报告并非静态文档࿰…...
OpenCoder-llm性能优化秘籍:vLLM加速与多GPU并行技术
OpenCoder-llm性能优化秘籍:vLLM加速与多GPU并行技术 【免费下载链接】OpenCoder-llm The Open Cookbook for Top-Tier Code Large Language Model 项目地址: https://gitcode.com/gh_mirrors/op/OpenCoder-llm OpenCoder-llm作为顶级代码大语言模型的开源解…...
Linux下将Cursor AppImage封装为系统级deb包的自动化方案
1. 项目概述:为什么我们需要一个“类VSCode”的Cursor安装器?如果你和我一样,是一个长期在Linux桌面环境(特别是Debian/Ubuntu及其衍生发行版)下工作的开发者,那你一定对Visual Studio Code(VSC…...
Flair:为AI智能体构建本地化身份、记忆与灵魂系统
1. 项目概述:为AI智能体注入“灵魂”与“记忆”在AI智能体(Agent)的开发浪潮中,我们常常面临一个核心痛点:智能体本质上是“健忘的”。每次对话或任务执行结束后,它便回归到一张白纸的状态,之前…...
