当前位置: 首页 > news >正文

AlphaFold3中文使用说明

目录

  • 1. 在线网站
    • 用例1. 使用json输入预测蛋白结构
  • 2. 本地命令行
    • 2.1 运行示例
    • 2.2 AF3输入
      • 输入格式
      • JSON兼容性
      • JSON最外层(Top-level)结构
        • 序列
          • 多序列比对MSA
          • 结构模板
        • 用户提供CCDs
    • 2.3 AF3输出

AlphaFold3(AF3)可以通过在线网站或本地部署后使用。 在线网站即开即用,但是每个账号每天只能跑20个任务,适合普通学术用户。 本地部署对机器的配置要求高,适合专业学术用户。

功能特性在线网站本地部署
任务数限制每个账号每天限额20个任务
tokens长度限制和显卡内存相关
输入网页表单/手动输入;json输入;更灵活的json输入(不同于网站的json格式)

1. 在线网站

AlphaFold3网站 目前支持两种输入方式,一种是手动填写每个任务的输入,另一种是将任务以json的格式上传,后者更加适合批量任务。由于手动填写输入的方式简单,本文不再赘述。下文主要演示json输入的用法。

用例1. 使用json输入预测蛋白结构

①根据输入文件,准备json文件。
在这里插入图片描述
图1. 展示了json输入文件中的一个任务示例,包括任务名(name)、随机种子(modelSeed)和蛋白序列(sequence)。本例中的蛋白序列包括4条待建模的序列(s1-s4,分别为TCR alpha, TCR beta, HLA, epitope)。

②打开AlphaFold Server(需要google帐号和科学上网),上传json文件(每个账号每天配额20个任务)。
在这里插入图片描述
图2. 通过json上传任务。右图中绿色方框代表上传的任务解析成功。

③挨个检查、投递上传的任务。
在这里插入图片描述
图3. 依次投递任务。

④投递后运行中的任务可以通过In progress标签查看。
在这里插入图片描述
图4. 查看运行中的任务。

⑤下载已完成任务(Completed),或在网页上初步查看结果。
在这里插入图片描述
图5. 已完成任务的下载。

2. 本地命令行

2.1 运行示例

首先,本地部署AF3,机器配置和部署方法可参考《AlphaFold3中文安装教程》。

然后,使用 JSON 输入文件(以下演示了一个名为alphafold_input.json的json输入文件)测试。

{"name": "2PV7","sequences": [{"protein": {"id": ["A", "B"],"sequence": "GMRESYANENQFGFKTINSDIHKIVIVGGYGKLGGLFARYLRASGYPISILDREDWAVAESILANADVVIVSVPINLTLETIERLKPYLTENMLLADLTSVKREPLAKMLEVHTGAVLGLHPMFGADIASMAKQVVVRCDGRFPERYEWLLEQIQIWGAKIYQTNATEHDHNMTYIQALRHFSTFANGLHLSKQPINLANLLALSSPIYRLELAMIGRLFAQDAELYADIIMDKSENLAVIETLKQTYDEALTFFENNDRQGFIDAFHKVRDWFGDYSEQFLKESRQLLQQANDLKQG"}}],"modelSeeds": [1],"dialect": "alphafold3","version": 1
}

测试命令如下。

docker run -it \--volume $HOME/af_input:/root/af_input \--volume $HOME/af_output:/root/af_output \--volume <MODEL_PARAMETERS_DIR>:/root/models \--volume <DATABASES_DIR>:/root/public_databases \--gpus all \alphafold3 \
python run_alphafold.py \--json_path=/root/af_input/fold_input.json \--model_dir=/root/models \--output_dir=/root/af_output

2.2 AF3输入

输入格式

与网站的json输入格式不同,AF3使用自定义json输入格式。定制的格式允许:

  • 指定蛋白质、RNA 和 DNA 链,包括修饰残基。
  • 为蛋白质和 RNA 链指定自定义多序列比对(MSA)。
  • 为蛋白质链指定自定义结构模板。
  • 使用 CCD(Chemical Component Dictionary) 指定配体。
  • 使用 SMILES 指定配体。
  • 使用 CCD mmCIF 格式定义配体,并通过用户提供的 CCD 提供配体。
  • 指定实体间的共价键。
  • 指定多个随机种子。

JSON兼容性

run_alphafold.py提供了一个转换器,可通过检查 JSON 最外层(top-level)是否为列表来判定输入 JSON 的格式(alphafoldserveralphafold3)。如果检测到输入格式是alphafoldserver,则将其转换为 alphafold3格式。

contents在线网站/serve本地/codebase转换规则(s->c)
多个输入允许在单个 JSON 中指定多个输入每个 JSON 文件只有一个输入
多聚糖不支持
随机种子允许为空,此时由系统随机指定要求用户指定一个随机种子
离子将离子和配体视为不同的实体类型将离子视为一种配体
序列 ID不允许为每个实体指定 id要求用户为每个实体指定一个唯一id

JSON最外层(Top-level)结构

{"name": "Job name",    #任务名称,被用于命名输出文件。"modelSeeds": [1, 2],  #随机种子整数列表,提供n个(n>=1)种子,获得n个预测结构。"sequences": [{"protein": {...}},{"rna": {...}},{"dna": {...}},{"ligand": {...}}],                      #序列字典的列表,每个字典定义一个分子实体。"bondedAtomPairs": [...],    #(可选)共价键合原子的列表。"userCCD": "...",            #(可选)用户提供的CCD。适用于:SMILES不足;自定义分子需要与其他实体结合;RDKit无法生成构象。"dialect": "alphafold3",  #输入JSON的风格,必须设置为alphafold3。参考JSON兼容性。"version": 1              #输入JSON的版本,必须设置为1。
}
序列

序列(sequences)指定蛋白链、RNA 链、DNA 链和配体。序列中的每个实体都必须有一个唯一ID。
蛋白链示例

{"protein": {"id": "A",    #一或多个大写字母,指定该蛋白链每个拷贝的唯一 ID。将被用于输出 mmCIF 文件。指定 ID 列表(如[“A”、“B”、“C”])意味着同源链有多个拷贝。"sequence": "PVLSCGEWQL",    #氨基酸序列"modifications": [{"ptmType": "HY3", "ptmPosition": 1},{"ptmType": "P1L", "ptmPosition": 5}],                   #(可选)翻译后修饰PTM列表,每个修饰都使用 CCD 和 1-based 的残基位置来指定。"unpairedMsa": ...,  #(可选)该链的多序列比对,使用 A3M 格式(等同于FASTA,但允许用"-"表示gap)指定。"pairedMsa": ...,    #(不推荐使用)"templates": [...]   #(可选)结构模板列表。}
}

RNA链示例

{"rna": {"id": "A",    #一或多个大写字母,指定该 RNA 链每个拷贝的唯一 ID。将被用于输出的 mmCIF 文件。指定 ID 列表(如[“A”、“B”、“C”])意味着同源链有多个拷贝。"sequence": "AGCU",    #RNA 序列"modifications": [{"modificationType": "2MG", "basePosition": 1},{"modificationType": "5MC", "basePosition": 4}],                  #(可选)修饰列表,每个修饰都使用其 CCD 和 1-based 位置来指定。"unpairedMsa": ...  #(可选) 该链的多序列比对,使用 A3M 格式指定。}
}

DNA链示例

{"dna": {"id": "A",        #一或多个大写字母,指定该 DNA 链每个拷贝的唯一 ID。将被用于输出的 mmCIF 文件。指定 ID 列表(如[“A”、“B”、“C”])意味着同源链有多个拷贝。"sequence": "GACCTCT",    #DNA 序列"modifications": [{"modificationType": "6OG", "basePosition": 1},{"modificationType": "6MA", "basePosition": 2}]            #(可选)修饰列表,每个修饰都使用其 CCD 和 1-based 位置来指定。}
}

配体示例
配体可通过 3 种不同格式指定。①CCD编码:使用 2022-09-28 的 CCD。如指定了多个 CCD,可能需要指定这些代码之间的键和/或与其他实体的键。②SMILES字符串:这可以指定不在 CCD 中的配体。如果使用 SMILES,则不能指定与其他实体的共价键,因为这些键依赖于特定的原子名称。③用户提供的 CCD + 自定义配体编码:这可以指定 CCD 中没有的配体,同时还支持指定与其他实体的共价键,以及在 RDKit 无法生成构象时的备份参考坐标。

{"ligand": {"id": ["G", "H", "I"],    # 一或多个大写字母,指定该配体的唯一ID。也将被用于输出的 mmCIF 文件。指定 ID 列表(如[“A”、“B”、“C”])意味着配体有多个拷贝。"ccdCodes": ["ATP"]       #(可选)CCD编码列表。可以是标准 CCD 编码,或用户提供的 CCD 自定义编码。}
},
{"ligand": {"id": "J","ccdCodes": ["LIG-1337"]}
},
{"ligand": {"id": "K","smiles": "CC(=O)OC1C[NH+]2CCC1CC2"   #(可选)使用 SMILES 定义的配体。}
}
多序列比对MSA

蛋白RNA允许设置自定义MSA。如果没有设置,数据管道将按照论文中的描述,使用 Jackhmmer/Nhmmer在基因数据库中搜索,自动构建MSA

MSA有3种模式:①(推荐选项)如果未设置unpairedMsa字段,AF3将自动构建 MSA。②如果unpairedMsa字段设置为空,AF3将不会构建MSA,输入模型的MSA为空。③(专家选项)如果unpairedMsa字段设为自定义A3M字符串,AF3将使用提供的MSA。

如果为蛋白设置了unairedMsa字段,则必须明确设置pairedMsa字段(通常为空字符串)和templates(可以是模板列表或空列表)。
在设置自定义MSA时,必须确保MSA 是有效的 A3M 文件第一个序列与查询序列完全相同如果删除 MSA hits 的所有插入序列,则所有序列的长度与查询序列完全相等

只有在折叠多链时,MSA配对才有意义,因为需要找到一种沿序列维度连接各条链MSA的方法。如果只是简单地沿序列维度连接单个 MSA 矩阵,并进行填充以使所有 MSA 深度相同,那么连接的 MSA 中可能会出现由来自不同生物体的序列组成的行。为了确保MSA同一行的序列来自同一生物体,AF3 的方法是在pairedMsa中查找 UniProt organism ID,并根据此信息对序列进行配对。
建议用户手动配对或使用适当软件的输出结果,然后仅使用unpairedMsa字段提供 MSA。这种方法可以精确控制每个序列在 MSA 中的位置,而不是依赖pairedMsa中名称匹配的后处理方法。

手动设置unairedMsa时,pairedMsa必须保持未设置状态(即JSON中没有pairedMsa关键字)?

结构模板

只能为蛋白指定结构模板。

"templates": [{"mmcif": ...,"queryIndices": [0, 1, 2, 4, 5, 6],"templateIndices": [0, 1, 2, 3, 4, 8]}
]

模板被指定为一个 mmCIF 字符串,其中包含一个结构模板链一个0-based映射(将查询残基索引映射到模板残基索引)。映射使用两个相同长度的列表指定。
可以提供多个结构模板。注意,如果提供的 mmCIF 包含一个以上的链,则会出现错误,因为无法确定哪个链应被用作模板。

未完待续。。。

用户提供CCDs

2.3 AF3输出

相关文章:

AlphaFold3中文使用说明

目录 1. 在线网站用例1. 使用json输入预测蛋白结构 2. 本地命令行2.1 运行示例2.2 AF3输入输入格式JSON兼容性JSON最外层&#xff08;Top-level&#xff09;结构序列多序列比对MSA结构模板键 用户提供CCDs 2.3 AF3输出 AlphaFold3&#xff08;AF3&#xff09;可以通过在线网站或…...

使用@react-three/fiber,@mkkellogg/gaussian-splats-3d加载.splat,.ply,.ksplat文件

前言 假设您正在现有项目中集成这些包&#xff0c;而该项目的构建工具为 Webpack 或 Vite。同时&#xff0c;您对 Three.js 和 React 有一定的了解。如果您发现有任何错误或有更好的方法&#xff0c;请随时留言。 安装 npm install three types/three react-three/fiber rea…...

Koa进阶:掌握中间件和参数校验的艺术

目录 一、首先下载依赖 二、在index.js中引入koa-parameter&#xff0c;一般挂载这个中间件时会放在注册请求体的后面 三、使用实例 四、如果跟我们所需求的参数不同&#xff0c;返回结果直接会返回422 koa-parameter一般是用来校验请求传过来的参数是否是自己所需要的的 G…...

开源共建 | 长安链开发常见问题及规避

长安链开源社区鼓励社区成员参与社区共建&#xff0c;参与形式包括不限于代码贡献、文章撰写、社区答疑等。腾讯云区块链王燕飞在参与长安链测试工作过程中&#xff0c;深入细致地总结了长安链实际开发应用中的常见问题及其有效的规避方法&#xff0c;相关内容多次解答社区成员…...

【网络】深入理解 HTTPS:确保数据传输安全的核心协议

目录 引言一、HTTPS的基本概念1.1 什么是 HTTPS&#xff1f;1.2 HTTPS 的工作原理1.3 图解&#xff1a;HTTPS 通信过程1.4 HTTPS 与 HTTP 的区别1.5 为什么 HTTPS 更加重要&#xff1f; 二、SSL/TLS协议的核心2.1 SSL/TLS 协议的作用2.2 SSL/TLS 的工作流程2.2.1 握手阶段2.2.2…...

C/C++中使用MYSQL

首先要保证下载好mysql的库和头文件&#xff0c;头文件在/usr/include/mysql/目录下&#xff0c;库在/usr/lib64/mysql/目录下&#xff1a; 一般情况下&#xff0c;在我们安装mysql的时候&#xff0c;这些都提前配置好了&#xff0c;如果没有就重装一下mysql。如果重装mysql还是…...

【GD32】(一) 开发方式简介及标准库开发入门

文章目录 0 前言1 开发方式选择2 标准库模板的创建3 遇到的问题和解决方法 0 前言 因为项目关系&#xff0c;需要使用GD32。之前对此早有耳闻&#xff0c;知道这个是一个STM32的替代品&#xff0c;据说甚至可以直接烧录STM32的程序&#xff08;一般是同型号&#xff09;&#x…...

轻松上手:使用Docker部署Java服务

文章目录 1. 什么是Docker&#xff1f;2. 为什么使用Docker部署Java服务&#xff1f;3. 如何使用Docker部署Java服务&#xff1f;步骤1&#xff1a;创建Dockerfile步骤2&#xff1a;构建Docker镜像步骤3&#xff1a;运行Docker容器 4. 注意事项5. 结语推荐阅读文章 在当今的云计…...

wormml_vgg19

创建环境 mamba install libopencv hdf5 -c conda-forge conda create -n st python3.6.2手动导入包 mamba install blas1.0mkl -c conda-forge mamba install hdf51.8.20hac2f561_1 -c conda-forge mamba install libopencv3.4.2h20b85fd_0 -c conda-forge mamba install l…...

Rust学习(二):rust基础语法Ⅰ

Rust学习&#xff08;二&#xff09;——rust基础语法Ⅰ&#xff1a; 1、关键字&#xff1a; 了解编程语言的同学都清楚&#xff0c;关键字在一门编程语言中的意义&#xff0c;所谓关键字就是语言的创造者及后续开发者们&#xff0c;以及定义好的具有特殊含义和作用的单词&am…...

【WebRTC】视频发送链路中类的简单分析(下)

目录 1.任务队列节流发送器&#xff08;TaskQueuePacedSender&#xff09;1.1 节流控制器添加RTP数据包&#xff08;PacingController::EnqueuePacket()&#xff09;1.2 监测是否要处理Packet&#xff08;PacingController::MaybeProcessPackets()&#xff09; 2.数据包路由&am…...

HTML(超文本标记语言)

HTML&#xff08;超文本标记语言 - HyperText Markup Language&#xff09;是一种用于创建网页的标准标记语言。 HTML 最初是由蒂姆・伯纳斯 - 李&#xff08;Tim Berners - Lee&#xff09;在 1990 年左右开发的。当时的目的是为了让世界各地的科学家能够方便地共享和交流信息…...

CatBoost中目标变量统计

CatBoost中的目标变量统计&#xff08;Target Statistics&#xff09;是其处理分类特征&#xff08;Categorical Features&#xff09;的核心技术之一。目标变量统计是一种特殊的编码方法&#xff0c;通过利用目标值信息生成数值特征&#xff0c;从而替代传统的独热编码或其他处…...

WSL与Ubuntu系统--使用Linux

WSL与Ubuntu系统--使用Linux 前言基础教学视频卸载链接网络配置方法1方法2 正式安装步骤步骤1 基本命令修改网络配置Ubuntu系统的导出与导入文件操作给Ubuntu创造界面--也就是在装一个有界面的UbuntuHyper-v与windows主机文件共享 前言 需要链接梯子&#xff0c;并且梯子十分稳…...

操作系统离散存储练习题

1. (简答题)分页存储管理系统具有快表&#xff0c;内存访问时间为2ns&#xff0c;检索快表时间为0.5ns&#xff0c;快表命中率为80%&#xff0c;求有效访问时间 -分析&#xff1a;首先访问缓存&#xff08;快表&#xff09;&#xff0c;如果没有找到访问内存&#xff08;页表&…...

性能高于Transformer模型1.7-2倍,彩云科技发布基于DCFormer架构通用大模型云锦天章

2017年&#xff0c;谷歌发布《Attention Is All You Need》论文&#xff0c;首次提出Transformer架构&#xff0c;掀开了人工智能自然语言处理&#xff08;NLP&#xff09;领域发展的全新篇章。Transformer架构作为神经网络学习中最重要的架构&#xff0c;成为后来席卷全球的一…...

PHP反序列化_3-漏洞利用

1. 信息收集与分析 确定目标应用程序&#xff1a;首先需要找到存在反序列化漏洞的 PHP 应用程序。这可能是一个网站、Web 服务、内部系统等。可以通过网络扫描、漏洞报告、安全评估等方式来发现潜在的目标。分析应用程序逻辑&#xff1a;了解目标应用程序的功能和业务逻辑&…...

2.初始sui move

vscode安装move插件 查看sui 客户端版本号 sui client --version 创建新项目 sui move new <项目名> sui move new hello_world 项目目录结构&#xff1a; hello_world ├── Move.toml ├── sources │ └── hello_world.move └── tests└── hello_world…...

数据结构--排序算法

目录 一.排序相关概念二.常见排序算法1.堆排序2.插入排序3.希尔排序4.选择排序5.冒泡排序6.快速排序1.快速排序--递归(未优化)2.快速排序--递归(优化)3.快速排序--非递归 7.归并排序1.归并排序--递归2.归并排序--非递归 一.排序相关概念 排序&#xff1a;使一串记录按照某个关…...

day60 图论章节刷题Part10(Floyd 算法、A * 算法)

Floyd 算法 思路&#xff1a;本题是多源最短路问题&#xff0c;使用Floyd算法求解。Floyd 算法对边的权值正负没有要求&#xff0c;核心思想是动态规划。 我们使用动规五部曲来理解和应用Floyd算法&#xff1a; 1、确定dp数组&#xff08;dp table&#xff09;以及下标的含义…...

FastAPI 教程:从入门到实践

FastAPI 是一个现代、快速&#xff08;高性能&#xff09;的 Web 框架&#xff0c;用于构建 API&#xff0c;支持 Python 3.6。它基于标准 Python 类型提示&#xff0c;易于学习且功能强大。以下是一个完整的 FastAPI 入门教程&#xff0c;涵盖从环境搭建到创建并运行一个简单的…...

Java - Mysql数据类型对应

Mysql数据类型java数据类型备注整型INT/INTEGERint / java.lang.Integer–BIGINTlong/java.lang.Long–––浮点型FLOATfloat/java.lang.FloatDOUBLEdouble/java.lang.Double–DECIMAL/NUMERICjava.math.BigDecimal字符串型CHARjava.lang.String固定长度字符串VARCHARjava.lang…...

【2025年】解决Burpsuite抓不到https包的问题

环境&#xff1a;windows11 burpsuite:2025.5 在抓取https网站时&#xff0c;burpsuite抓取不到https数据包&#xff0c;只显示&#xff1a; 解决该问题只需如下三个步骤&#xff1a; 1、浏览器中访问 http://burp 2、下载 CA certificate 证书 3、在设置--隐私与安全--…...

MySQL 8.0 OCP 英文题库解析(十三)

Oracle 为庆祝 MySQL 30 周年&#xff0c;截止到 2025.07.31 之前。所有人均可以免费考取原价245美元的MySQL OCP 认证。 从今天开始&#xff0c;将英文题库免费公布出来&#xff0c;并进行解析&#xff0c;帮助大家在一个月之内轻松通过OCP认证。 本期公布试题111~120 试题1…...

css3笔记 (1) 自用

outline: none 用于移除元素获得焦点时默认的轮廓线 broder:0 用于移除边框 font-size&#xff1a;0 用于设置字体不显示 list-style: none 消除<li> 标签默认样式 margin: xx auto 版心居中 width:100% 通栏 vertical-align 作用于行内元素 / 表格单元格&#xff…...

Device Mapper 机制

Device Mapper 机制详解 Device Mapper&#xff08;简称 DM&#xff09;是 Linux 内核中的一套通用块设备映射框架&#xff0c;为 LVM、加密磁盘、RAID 等提供底层支持。本文将详细介绍 Device Mapper 的原理、实现、内核配置、常用工具、操作测试流程&#xff0c;并配以详细的…...

【7色560页】职场可视化逻辑图高级数据分析PPT模版

7种色调职场工作汇报PPT&#xff0c;橙蓝、黑红、红蓝、蓝橙灰、浅蓝、浅绿、深蓝七种色调模版 【7色560页】职场可视化逻辑图高级数据分析PPT模版&#xff1a;职场可视化逻辑图分析PPT模版https://pan.quark.cn/s/78aeabbd92d1...

springboot整合VUE之在线教育管理系统简介

可以学习到的技能 学会常用技术栈的使用 独立开发项目 学会前端的开发流程 学会后端的开发流程 学会数据库的设计 学会前后端接口调用方式 学会多模块之间的关联 学会数据的处理 适用人群 在校学生&#xff0c;小白用户&#xff0c;想学习知识的 有点基础&#xff0c;想要通过项…...

【Elasticsearch】Elasticsearch 在大数据生态圈的地位 实践经验

Elasticsearch 在大数据生态圈的地位 & 实践经验 1.Elasticsearch 的优势1.1 Elasticsearch 解决的核心问题1.1.1 传统方案的短板1.1.2 Elasticsearch 的解决方案 1.2 与大数据组件的对比优势1.3 关键优势技术支撑1.4 Elasticsearch 的竞品1.4.1 全文搜索领域1.4.2 日志分析…...

华为OD最新机试真题-数组组成的最小数字-OD统一考试(B卷)

题目描述 给定一个整型数组,请从该数组中选择3个元素 组成最小数字并输出 (如果数组长度小于3,则选择数组中所有元素来组成最小数字)。 输入描述 行用半角逗号分割的字符串记录的整型数组,0<数组长度<= 100,0<整数的取值范围<= 10000。 输出描述 由3个元素组成…...