AlphaFold的极限:高中生揭示人工智能在生物信息学挑战中的缺陷
人工智能程序AlphaFold (AlphaFold2开源了,不是土豪也不会编程的你怎么蹭一波?),通过预测蛋白质结构解决了结构生物信息学的核心问题。部分AlphaFold迷们声称“该程序已经掌握了终极蛋白质物理学,其工作能力已超越了最初的设计”。事实真是如此吗?Skoltech Bio的研究团队让 AlphaFold 预测单个突变对蛋白质稳定性的影响,结果与实验结果相矛盾,这表明该人工智能并非结构生物信息学的万能良药。该研究发表在《PLOS One》杂志。
在Skoltech为高中生举办的生物信息学训练营上,人类和人工智能在科学领域中的较量迎来了新篇章。早前AlphaFold解决了结构生物信息学50年来的核心问题而一度被认为是结构生物信息学的万能药,而该程序在解决这个领域研究人员面临的其他问题时表现欠佳。
该项目的海报来自于2021年由Skoltech在线上举办的分子与理论生物学学院中的“Playing With AlphaFold2”课程。图片来源:Dmitry Ivankov/Skoltech。
结构生物信息学是一门研究蛋白质、RNA、DNA及其与其他分子相互作用结构的科学分支。其核心问题是预测蛋白质的结构。也就是说,给定组成蛋白质的任意氨基酸序列,如何可靠地计算该蛋白质将在体内呈现什么样的三维结构,以及如何发挥功能。其研究结果为新药研发和具有新特性的蛋白质(例如在自然界中尚未发现的催化剂)的合成提供了基础。
这个里程碑式的成就引发了人们的猜测,即神经网络必须以某种方式将蛋白质的基本物理原理转变为内在的信息,并且能够实现超出其设计范围的任务。某些人,甚至在结构生物信息学界,预计该人工智能很快就会解决这一学科的剩余问题,并将其归入科学史。
“我们决定解决这个问题,并让AlphaFold处理结构生物信息学的另一个核心任务:预测单个突变对蛋白质稳定性的影响。对某个已知的蛋白质只引入一个突变,想知道所得到的突变体是更稳定还是更不稳定,及其程度如何。根据实验结果,AlphaFold明显无法实现此任务,其预测与已知的实验结果相矛盾。”该研究的主要负责人、Skoltech生物学助理教授Dmitry Ivankov评论道。
然而,在本次挑战中,AlphaFold无法预测单个突变对蛋白稳定性的影响,这意味着人工智能程序并未掌握蛋白质物理学的全部内容,不能成为结构生物信息学的万能药。高中生参与了该项目,他们参与了突变数据处理、编写处理预测结果的脚本、可视化AlphaFold指定的结构等任务。
伊万科夫强调AlphaFold的创建者实际上从未声称该人工智能适用于除了基于氨基酸序列预测蛋白质结构之外的其他任务。“但是一些机器学习爱好者很快预言了结构生物信息学的终点。因此,我们认为测试一下是个好主意,现在我们知道它不能预测单个突变对蛋白质稳定性的影响,”伊万科夫补充道。
在实际应用层面上,预测单个突变如何影响蛋白质稳定性有助于从众多突变中筛选出可能有用的位点。例如,如果想制造一种蛋白质添加剂,使其能够在更高温度下分解油脂、淀粉、纤维或其他蛋白质,那么这非常有用。此外,已知有一些甜味蛋白有望代替糖,但前提是它们能够承受一杯咖啡或茶的高温。
在基础研究层面上,这项研究结果表明,当今的人工智能并非万能药,虽然它可能在解决一个问题方面非常成功,但其他问题仍然存在,包括结构生物信息学面临的主要挑战。其中包括预测由蛋白质和小分子或DNA或RNA组成的复合物的结构,确定突变如何影响蛋白质与其他分子的键能(binding energy),设计具有赋予所需特性的蛋白质,例如能够催化本来不可能的反应,作为一个微小“分子工厂”的元素。
除了提醒人们即使在AlphaFold之后,该领域的科学家仍有一两件事情要做,该研究报告的作者还探讨了AI程序成功的原因是否来自其“学习过的物理学”,而不仅仅是内化了所有已知的蛋白质结构并巧妙地操纵它们。显然并非如此,如果熟悉相关的物理学知识,应该会相对容易地获得两个非常相似但不完全相同的结构在稳定性方面的差异,但这恰恰是AlphaFold没有完成的任务。
这与之前提出的两个关于对AI物理学“知识”保留意见的观点不谋而合。首先,AlphaFold预测了一些侧基团结构,表明锌离子与它们结合。然而,程序的输入仅限于蛋白质的氨基酸序列,因此“看不见的锌”之所以存在,是因为AI是在类似的蛋白质结构与该离子结合的基础上进行训练的。没有锌,预测的侧基团的定位与物理规律相矛盾。其次,AlphaFold可以预测出一种孤立的蛋白质结构,看起来像螺旋,确实准确无误,但前提是该结构与另外两条链相互交织。如果没有这两条链,预测结果就是不合理的。因此,程序不是依赖物理知识,而是简单地复制了从复合结构中分离出的一个形状。
蛋白质序列三维结构的预测,改变了结构生物学领域的现状。该里程碑甚至导致了蛋白质折叠问题已经“解决”的言论。然而,蛋白质折叠问题不仅仅是从序列进行结构预测。目前,尚不清楚AlphaFold引发的革命是否能够帮助解决与蛋白质折叠相关的其他问题。本文中,我们评估了AlphaFold预测单个突变对蛋白稳定性(ΔΔG)和功能影响的能力。为研究这个问题,我们从蛋白质中提取了AlphaFold预测中单个突变前后的pLDDT和指标,并将预测的变化与已知的实验ΔΔG值进行相关性分析。此外,我们使用大规模的GFP单个突变数据集将相同的AlphaFold pLDDT指标与单个突变对结构的影响以及实验测定的荧光强度进行了相关性分析。我们发现AlphaFold输出指标与蛋白稳定性或荧光变化之间存在非常弱或没有相关性。我们的结果表明,AlphaFold可能不适合立即应用于蛋白质折叠的其他问题或应用。
往期精品(点击图片直达文字对应教程)
机器学习
后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集
相关文章:

AlphaFold的极限:高中生揭示人工智能在生物信息学挑战中的缺陷
人工智能程序AlphaFold (AlphaFold2开源了,不是土豪也不会编程的你怎么蹭一波?),通过预测蛋白质结构解决了结构生物信息学的核心问题。部分AlphaFold迷们声称“该程序已经掌握了终极蛋白质物理学,其工作能力已超越了最初的设计”。…...

RocketMQ双主双从环境搭建
环境要求 64位操作系统,推荐 Linux/Unix/macOS 64位 JDK 1.8 服务器准备 准备4台服务器两台master两台slave,如果服务器紧凑,则至少需要两台服务器相互master-slave IP HOSTS 172.*******.120 rocketmq-nameserver1 rocketmq-master1 …...

next.js博客搭建_初始化next项目(第一步)
文章目录 ⭐前言⭐next初始化TypeScript 开发项目安装react的ui框架(tDesign)设计布局 ⭐结束 ⭐前言 大家好,我是yma16,本期给大家分享next项目搭建博客的开始。 背景 因为我的博客网站https://yongma16.xyz是基于vue2搭建的&am…...

ACM - 其他算法 - 基础(前缀和 + 差分)
ACM- 其他算法 一、前缀和模板例题1、区间余数求K倍区间个数:AcWing 1230. K倍区间例题2、前缀和哈希求最长个数平分子串:Leetcode 面试题 17.05 字母与数字 二、差分1、一维差分2、二维差分 一、前缀和 模板 //一维前缀和 S[i] a[1] a[2] ... a[i] a[l] ... …...
No.056<软考>《(高项)备考大全》【冲刺10】《软考高项常见工具口语化解释》
《软考高项常见工具口语化解释》 序号工具名称口语化属于哪个过程1模板、表格和标准就是用之前的项目的模版、表格、标准,结合本项目进行了修改,在编制一些计划、方案的时候就可以采用这个工具和技术。可以拿来就用的,节约时间、提高质量的。…...
MySQL原理(九):表分区和分库分表
前言 上一篇介绍了 MySQL 的存储过程和触发器,这一篇将介绍表分区和分库分表相关的内容。 表分区 原本的表文件都是以完整的形式存储在磁盘中,而表分区则是指将一张表的数据拆分成多个磁盘文件,然后放到磁盘中存储。 做了表分区之后&…...
【Ehcache技术专题】「入门到精通」带你一起从零基础进行分析和开发Ehcache框架的实战指南(缓存查询-配置篇)
缓存查询 Ehcache中为我们提供了可以对Cache中缓存的元素进行查找的方式。其逻辑类似于SQL中的查找。通过给定各种限制条件,我们可以构造各种复杂的查询,然后返回结果集,也可以对查询进行分组和排序等。 使Cache可查询 Ehcache中的查询是针…...

MySQL基础(七)单行函数
1. 函数的理解 1.1 什么是函数 函数在计算机语言的使用中贯穿始终,函数的作用是什么呢?它可以把我们经常使用的代码封装起来,需要的时候直接调用即可。这样既提高了代码效率,又提高了可维护性。在 SQL 中我们也可以使用函数对检…...

Cy5.5-PEG-FA结构式 荧光Cy5.5标记聚乙二醇叶酸;PEG分子量2000,叶酸(-FA)基团可应用于靶向传递
Cy5.5-PEG-FA,Cy5.5-聚乙二醇-叶酸 中文名称:Cy5.5-聚乙二醇-叶酸 英文名称:Cy5.5-PEG-FA 溶剂:溶于水、氯仿,DMSO等常规性有机溶剂 性状:固体或粉末,取决于分子量 分子量:1k、…...

【微服务笔记23】使用Spring Cloud微服务组件从0到1搭建一个微服务工程
这篇文章,主要介绍如何使用Spring Cloud微服务组件从0到1搭建一个微服务工程。 目录 一、从0到1搭建微服务工程 1.1、基础环境说明 (1)使用组件 (2)微服务依赖 1.2、搭建注册中心 (1)引入…...

舞台特效-第14届蓝桥杯省赛Scratch初级组真题第2题
[导读]:超平老师的《Scratch蓝桥杯真题解析100讲》已经全部完成,后续会不定期解读蓝桥杯真题,这是Scratch蓝桥杯真题解析第131讲。 舞台特效,本题是2023年5月7日举行的第14届蓝桥杯省赛Scratch图形化编程初级组真题第2题…...

mysql 5.7.32安装及主从安装信息
最方便的 就是 直接使用docker容器 搭建一个比较方便 或者 直接使用yum源安装,说白了就是少踩坑。 或者 是直接使用 宝塔等工具帮忙,直接脚本跑 宝塔面板 - 简单好用的Linux/Windows服务器运维管理面板 以下是内网两台机器安装的方法 1: 下…...

leecode111——二叉树最短路径
递归三部曲: 最小深度是从根节点到最近叶子节点的最短路径上的节点数量 (1)确定参数和返回值, 参数为传入根节点,再根据此遍历左右左右树的节点。返回最短路径,即int类型。 (2)确…...
Swift学习教程大纲
以下是Swift学习教程的大纲: 第一部分:基础知识 Swift简介 什么是Swift? Swift的历史和发展 Swift的特点和优势 开发环境的搭建 安装Swift编译器 配置开发环境 第一个Swift程序 Hello World程序 程序的结构 编译和运行程序 数据…...

HTML 基础知识
HTML基础知识 1. VSCode的安装与配置 下载地址 https://code.visualstudio.com/ 安装插件 Live Server Auto Rename Tag 自动格式化 点击 settings,然后输入format,然后勾选上 Format On Save。 2. HTML 基础标签 2.1 文件结构 快捷键࿱…...

国考省考结构化面试:综合分析题,名言哲理(警句观点启示)、漫画反驳题等
国考省考结构化面试:综合分析题,名言哲理(警句观点启示)、漫画反驳题等 2022找工作是学历、能力和运气的超强结合体! 公务员特招重点就是专业技能,附带行测和申论,而常规国考省考最重要的还是申论和行测&a…...
【前端面经】CSS-浮动和清除浮动的方式
浮动和清除浮动的方式 在页面布局中,我们经常会用到浮动来实现一些特殊效果,但是浮动也会引起一些问题。在使用浮动布局时,我们需要清除浮动以避免出现布局问题。本文将介绍浮动的相关知识以及清除浮动的方式。 浮动 浮动是 CSS 中的一种布…...

【Android取证篇】ADB版本更新详细步骤
【Android取证篇】ADB版本更新详细步骤 更新ADB版本,解决无法连接设备问题【蘇小沐】 ADB没有自动更新的命令,我们需要下载新的ADB进行替换更新。 1、ADB查找 打开任务管理器(快捷键shiftctrlEsc或WinX),在“详细信…...

【rust】| 02——语法基础_变量(不可变?)和常量
系列文章目录 【rust】| 00——开发环境搭建 【rust】| 01——编译并运行第一个rust程序 【rust】| 02——语法基础_变量(不可变?)和常量 文章目录 1. 变量1.1 变量的定义1.2 试验变量的不可变特性 2. 常量2.1 常量的定义 3. 覆盖(同名变量)3.1 修改已定义变量的数据类型3.2 1…...

JavaScript实现在键盘输入按键,浏览器进行显示的代码
以下为实现在键盘输入按键,浏览器进行显示的代码和运行截图 目录 前言 一、在键盘输入按键,浏览器进行显示 1.1 运行流程及思想 1.2 代码段 1.3 JavaScript语句代码 1.4 运行截图 前言 1.若有选择,您可以在目录里进行快速查找…...

stm32G473的flash模式是单bank还是双bank?
今天突然有人stm32G473的flash模式是单bank还是双bank?由于时间太久,我真忘记了。搜搜发现,还真有人和我一样。见下面的链接:https://shequ.stmicroelectronics.cn/forum.php?modviewthread&tid644563 根据STM32G4系列参考手…...
Spring Boot面试题精选汇总
🤟致敬读者 🟩感谢阅读🟦笑口常开🟪生日快乐⬛早点睡觉 📘博主相关 🟧博主信息🟨博客首页🟫专栏推荐🟥活动信息 文章目录 Spring Boot面试题精选汇总⚙️ **一、核心概…...

《基于Apache Flink的流处理》笔记
思维导图 1-3 章 4-7章 8-11 章 参考资料 源码: https://github.com/streaming-with-flink 博客 https://flink.apache.org/bloghttps://www.ververica.com/blog 聚会及会议 https://flink-forward.orghttps://www.meetup.com/topics/apache-flink https://n…...

自然语言处理——循环神经网络
自然语言处理——循环神经网络 循环神经网络应用到基于机器学习的自然语言处理任务序列到类别同步的序列到序列模式异步的序列到序列模式 参数学习和长程依赖问题基于门控的循环神经网络门控循环单元(GRU)长短期记忆神经网络(LSTM)…...

在WSL2的Ubuntu镜像中安装Docker
Docker官网链接: https://docs.docker.com/engine/install/ubuntu/ 1、运行以下命令卸载所有冲突的软件包: for pkg in docker.io docker-doc docker-compose docker-compose-v2 podman-docker containerd runc; do sudo apt-get remove $pkg; done2、设置Docker…...

网络编程(UDP编程)
思维导图 UDP基础编程(单播) 1.流程图 服务器:短信的接收方 创建套接字 (socket)-----------------------------------------》有手机指定网络信息-----------------------------------------------》有号码绑定套接字 (bind)--------------…...

C# 求圆面积的程序(Program to find area of a circle)
给定半径r,求圆的面积。圆的面积应精确到小数点后5位。 例子: 输入:r 5 输出:78.53982 解释:由于面积 PI * r * r 3.14159265358979323846 * 5 * 5 78.53982,因为我们只保留小数点后 5 位数字。 输…...

算法岗面试经验分享-大模型篇
文章目录 A 基础语言模型A.1 TransformerA.2 Bert B 大语言模型结构B.1 GPTB.2 LLamaB.3 ChatGLMB.4 Qwen C 大语言模型微调C.1 Fine-tuningC.2 Adapter-tuningC.3 Prefix-tuningC.4 P-tuningC.5 LoRA A 基础语言模型 A.1 Transformer (1)资源 论文&a…...

【JVM面试篇】高频八股汇总——类加载和类加载器
目录 1. 讲一下类加载过程? 2. Java创建对象的过程? 3. 对象的生命周期? 4. 类加载器有哪些? 5. 双亲委派模型的作用(好处)? 6. 讲一下类的加载和双亲委派原则? 7. 双亲委派模…...

论文阅读:LLM4Drive: A Survey of Large Language Models for Autonomous Driving
地址:LLM4Drive: A Survey of Large Language Models for Autonomous Driving 摘要翻译 自动驾驶技术作为推动交通和城市出行变革的催化剂,正从基于规则的系统向数据驱动策略转变。传统的模块化系统受限于级联模块间的累积误差和缺乏灵活性的预设规则。…...