当前位置: 首页 > news >正文

生信算法9 - 正则表达式匹配氨基酸序列、核型和字符串

建议在Jupyter实践。

1. 使用正则表达式匹配指定的氨基酸序列

import re# 氨基酸序列
seq = 'VSVLTMFRYAGWLDRLYMLVGTQLAAIIHGVALPLMMLI'# 正则表达式匹配
match = re.search(r'[A|G]W', seq)# 打印match及匹配到开始位置和结束位置
print(match)
# <re.Match object; span=(10, 12), match='GW'>
print(match.start())
print(match.end())if match:# 打印匹配到氨基酸print(match.group())# GW
else:print("no match!")

2. 使用正则表达式查找全部的氨基酸序列

import reseq = 'RQSAMGSNKSKPKDASQRRRSLEPAENVHGAGGGAFPASQRPSKP'# 匹配R开头、第二个氨基酸为任意、第三个氨基酸为S或T、第四个氨基酸不为P的连续4个氨基酸徐磊
matches = re.findall(r'R.[ST][^P]', seq)
print(matches)
# ['RQSA', 'RRSL', 'RPSK']# finditer 匹配对象迭代器
match_iter = re.finditer(r'R.[ST][^P]', seq)# 遍历
for match in match_iter:# 打印group和spanprint(match.group(), match.span())print(match.start(), match.end())# RQSA (0, 4)# 0 4# RRSL (18, 22)# 18 22# RPSK (40, 44)# 40 44

3. 使用正则表达式匹配多个特殊字符,分割字符串

import re# 匹配特殊字符|和;,并分割字符串
annotation = 'ATOM:CA|RES:ALA|CHAIN:B;NUMRES:166'
split_string = re.split(r'[|;]', annotation)print(split_string)
# ['ATOM:CA', 'RES:ALA', 'CHAIN:B', 'NUMRES:166']

4. 正则表达式获取核型染色体数量,区带和CNV大小

karyotype1 = '46,XY; -11{p11.2-p13, 48.32Mb}'
karyotype2 = '47,XXX; +X{+3};-11{p11.2-p13.2, 48.32Mb}'#### 匹配染色体数量 ####
match = re.search(r'(\d+,\w+);', karyotype1)
print(match)
# <re.Match object; span=(0, 6), match='46,XY;'>chr = match.group(1)
print(chr)
# 46,XY#### 匹配染色体开始和结束区带和CNV大小 ####
match2 = re.search(r'([p|q|pter]\d+.?\d+)-([p|q|qter]\d+.?\d+), (\d+.?\d+)Mb', karyotype2)
print(match2)cyto_start = match2.group(1)
cyto_end = match2.group(2)
size = match2.group(3)print(cyto_start)
# p11.2
print(cyto_end)
# p13.2
print(size)
# 48.32

5. 正则表达式获取指定格式的字符串内容

# 结果变异VCF文件描述信息
string = """##ALT=<ID=DEL,Description="Deletion">##ALT=<ID=DUP,Description="Duplication">##ALT=<ID=INV,Description="Inversion">##ALT=<ID=INVDUP,Description="InvertedDUP with unknown boundaries">##ALT=<ID=TRA,Description="Translocation">##ALT=<ID=INS,Description="Insertion">##FILTER=<ID=UNRESOLVED,Description="An insertion that is longer than the read and thus we cannot predict the full size.">##INFO=<ID=CHR2,Number=1,Type=String,Description="Chromosome for END coordinate in case of a translocation">##INFO=<ID=END,Number=1,Type=Integer,Description="End position of the structural variant">##INFO=<ID=MAPQ,Number=1,Type=Integer,Description="Median mapping quality of paired-ends">##INFO=<ID=RE,Number=1,Type=Integer,Description="read support">##INFO=<ID=IMPRECISE,Number=0,Type=Flag,Description="Imprecise structural variation">##INFO=<ID=PRECISE,Number=0,Type=Flag,Description="Precise structural variation">##INFO=<ID=SVLEN,Number=1,Type=Integer,Description="Length of the SV">##INFO=<ID=SVMETHOD,Number=1,Type=String,Description="Type of approach used to detect SV">##INFO=<ID=SVTYPE,Number=1,Type=String,Description="Type of structural variant">##INFO=<ID=SEQ,Number=1,Type=String,Description="Extracted sequence from the best representative read.">##INFO=<ID=STRANDS2,Number=4,Type=Integer,Description="alt reads first + ,alt reads first -,alt reads second + ,alt reads second -.">##INFO=<ID=REF_strand,Number=.,Type=Integer,Description="plus strand ref, minus strand ref.">##INFO=<ID=Strandbias_pval,Number=A,Type=Float,Description="P-value for fisher exact test for strand bias.">##INFO=<ID=STD_quant_start,Number=A,Type=Float,Description="STD of the start breakpoints across the reads.">##INFO=<ID=STD_quant_stop,Number=A,Type=Float,Description="STD of the stop breakpoints across the reads.">##INFO=<ID=Kurtosis_quant_start,Number=A,Type=Float,Description="Kurtosis value of the start breakpoints across the reads.">##INFO=<ID=Kurtosis_quant_stop,Number=A,Type=Float,Description="Kurtosis value of the stop breakpoints across the reads.">##INFO=<ID=SUPTYPE,Number=.,Type=String,Description="Type by which the variant is supported.(SR,AL,NR)">##INFO=<ID=STRANDS,Number=A,Type=String,Description="Strand orientation of the adjacency in BEDPE format (DEL:+-, DUP:-+, INV:++/--)">##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency.">##INFO=<ID=ZMW,Number=A,Type=Integer,Description="Number of ZMWs (Pacbio) supporting SV.">##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">##FORMAT=<ID=DR,Number=1,Type=Integer,Description="# high-quality reference reads">##FORMAT=<ID=DV,Number=1,Type=Integer,Description="# high-quality variant reads">"""import re# 创建空dataframe
df_output = pd.DataFrame()list_type = []
list_id = []
list_description = []# 遍历字符串内容,内容拷贝至结构变异VCF文件
for str in string.split('\n'):# 去除末尾\n和字符串内空格str = str.strip().replace(' ', '')# 内容为空或字符串为空则跳过if not str or str == '':continue# 正则表达式匹配##后的英文字符match = re.search(r'##(\w+)', str)type = match.group(1) if match else 'ERORR'# 匹配ID内容match = re.search(r'ID=(\w+)', str)id = match.group(1) if match else 'ERORR'# 匹配Description内容match = re.search(r'Description=\"(.*?)\"', str)description = match.group(1) if match else 'ERORR'# 加入列表list_type.append(type)list_id.append(id)list_description.append(description)print(list_description)
# 加入dataframe
df_output['Type'] = list_type
df_output['ID'] = list_id
df_output['Description'] = list_description# 保存至excel
df_output.to_excel('结构变异描述信息说明.xlsx', index=False)

生信算法文章推荐

生信算法1 - DNA测序算法实践之序列操作

生信算法2 - DNA测序算法实践之序列统计

生信算法3 - 基于k-mer算法获取序列比对索引

生信算法4 - 获取overlap序列索引和序列的算法

生信算法5 - 序列比对之全局比对算法

生信算法6 - 比对reads碱基数量统计及百分比统计

生信算法7 - 核酸序列Fasta和蛋白PDB文件读写与检索

生信算法8 - HGVS转换与氨基酸字母表

相关文章:

生信算法9 - 正则表达式匹配氨基酸序列、核型和字符串

建议在Jupyter实践。 1. 使用正则表达式匹配指定的氨基酸序列 import re# 氨基酸序列 seq VSVLTMFRYAGWLDRLYMLVGTQLAAIIHGVALPLMMLI# 正则表达式匹配 match re.search(r[A|G]W, seq)# 打印match及匹配到开始位置和结束位置 print(match) # <re.Match object; span(10, …...

linux ext2文件系统浅析

文章目录 前言ext2内容概述实验准备二进制对比分析1 super block2 group desc3 block bitmap4 inode bitmap5 inode_tableinode 1inode 2inode 11inode 12 6 dir entry7 data区8 间接块9 块组 前言 网上关于ext2文件系统的博客有很多&#xff0c;但看完之后还是有些云里雾里&a…...

「树莓派入门」树莓派进阶02-传感器应用与交通灯项目

传感器是树莓派实现智能化的关键。通过本教程,你可以开始尝试使用传感器来增强树莓派的功能。 一、传感器在树莓派中的作用 传感器是树莓派与外界环境交互的重要工具。它们可以检测各种物理量,如光、声音、温度等,并将这些物理量转换为电信号,供树莓派读取和处理。 二、数…...

pytorch 指定GPU设备

使用os.environ["CUDA_VISIBLE_DEVICES"] 这种方法是通过环境变量限制可见的CUDA设备&#xff0c;从而在多个GPU的机器上只让PyTorch看到并使用指定的GPU。这种方式的好处是所有后续的CUDA调用都会使用这个GPU&#xff0c;并且代码中不需要显式地指定设备索引。 im…...

华为od-C卷200分题目6 - 5G 网络建设

华为od-C卷200分题目6 - 5G 网络建设 题目描述 现需要在某城市进行 5G 网络建设&#xff0c;已经选取 N 个地点设置 5G 基站&#xff0c;编号固定为 1 到 N&#xff0c;接下来需要各个基站之间使用光纤进行连接以确保基站能互联互通&#xff0c;不同基站之间架设光纤的成本各不…...

步进电机(STM32+28BYJ-48)

一、简介 步进电动机&#xff08;stepping motor&#xff09;把电脉冲信号变换成角位移以控制转子转动的执行机构。在自动控制装置中作为执行器。每输入一个脉冲信号&#xff0c;步进电动机前进一步&#xff0c;故又称脉冲电动机。步进电动机多用于数字式计算机的外部设备&…...

Node.js介绍 , 安装与使用

1.Node.js 1 什么是Node.js 官网&#xff1a;https://nodejs.org/zh-cn/ 中文学习网&#xff1a;http://nodejs.cn/learn1.Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行环境。Node.js 使用了一个事件驱动、非阻塞式 I/O 的模型,使其轻量又高效。 2.前端的底层 html…...

JavaEE初阶-网络原理1

文章目录 前言一、UDP报头二、UDP校验和2.1 CRC2.2 md5 前言 学习一个网络协议&#xff0c;最主要就是学习的报文格式&#xff0c;对于UDP来说&#xff0c;应用层数据到达UDP之后&#xff0c;会给应用层数据报前面加上UDP报头。 UDP数据报UDP包头载荷 一、UDP报头 如上图UDP的…...

leetcode秋招冲刺 (专题16--18)

专题16&#xff1a;分治 题目169&#xff1a;多数元素&#xff08;YES&#xff09; 解题思路&#xff1a;使用哈希表可以统计出现次数的性质&#xff0c;直接统计就行。 给定一个大小为 n 的数组 nums &#xff0c;返回其中的多数元素。多数元素是指在数组中出现次数 大于 ⌊…...

学懂C#编程:实用方法——string字符串指定连接符拼接之 string.Join 的详细用法

在C#中&#xff0c;string.Join 方法用于将一个字符串数组或集合中的元素连接成一个单一的字符串&#xff0c;并在每个元素之间插入指定的分隔符。这个方法非常有用&#xff0c;特别是在需要将多个字符串合并成一个字符串时。以下是 string.Join 方法的详细用法&#xff1a; 方…...

Javascript常见数据结构和设计模式

在JavaScript中&#xff0c;常见的数据结构包括两大类&#xff1a;原始数据类型&#xff08;Primitive Types&#xff09;和对象类型&#xff08;Object Types&#xff09;。对象类型又可以进一步细分为多种内置对象、数组、函数等。下面是一些JavaScript中常见的数据结构&…...

【ChatGPT】全面解析 ChatGPT:从起源到未来

ChatGPT 是由 OpenAI 开发的一个基于 GPT&#xff08;Generative Pre-training Transformer&#xff09;架构的聊天机器人。通过自然语言处理&#xff08;NLP&#xff09;技术&#xff0c;ChatGPT 能够理解和生成语言&#xff0c;与人类进行对话。本文将深入探讨其起源、发展、…...

html+css+js贪吃蛇游戏

贪吃蛇游戏&#x1f579;四个按钮控制方向&#x1f3ae; 源代码在图片后面 点赞❤️关注&#x1f64f;收藏⭐️ 互粉必回&#x1f64f;&#x1f64f;&#x1f60d;&#x1f60d;&#x1f60d; 源代码&#x1f4df; <!DOCTYPE html> <html lang"en"&…...

新手必学:掌握Excel中这些常用公式,轻松提升数据处理能力

各位同学好&#xff0c;今天和大家来分享几个常用函数公式的典型用法。 1、提取指定条件的不重复名单 如下图所示&#xff0c;某公司课程比赛&#xff0c;同一员工有多个比赛项目。希望从左侧的列表中&#xff0c;提取出财务部的参赛人员名单。F2单元格输入以下公式&#xff0…...

经济寒冬:竞品凶猛,你的产品如何求生?

那些年曾被竞品干掉的产品 1997年到2010年左右是国内互联网行业的快速发展和多元化发展的时期&#xff0c;这一时期涌现出来一大批优秀的产品&#xff0c;市场竞争越来越激烈。苹果 在20 世纪 80 年代&#xff0c;乔布斯的苹果电脑&#xff0c;在当时可是PC行业的老大&#xf…...

信号量——Linux并发之魂

欢迎来到 破晓的历程的 博客 引言 今天&#xff0c;我们继续学习Linux线程本分&#xff0c;在Linux条件变量中&#xff0c;我们对条件变量的做了详细的说明&#xff0c;今天我们要利用条件变量来引出我们的另一个话题——信号量内容的学习。 1.复习条件变量 在上一期博客中&…...

自动驾驶中的逆透视变换(Inverse Perspective Mapping,IPM)详解

前言 IPM(Inverse Perspective Mapping,逆透视变换)图的历史可以追溯到计算机视觉和图像处理领域的发展。逆透视变换是一种用于消除图像中透视效应的技术,使得原本由于透视产生的形变得以纠正,进而更准确地描述和理解图像中的场景。比如在行车中的车道线检测,泊车中的常见…...

Python地震波逆问题解构算法复杂信号分析

&#x1f3af;要点 &#x1f3af;时域、时频域以及时间和频率相关联偏振特性分析三种算法 | &#x1f3af;时域波参数估计算法 | &#x1f3af;机器学习模型波形指纹分析算法 | &#x1f3af;色散曲线和频率相关波分析算法 | &#x1f3af;动态倾斜校正算法 | &#x1f3af;声…...

C语言 -- 深入理解指针(二)

C语言 -- 深入理解指针&#xff08;二&#xff09; 1. 数组名的理解2. 使用指针访问数组3. 一维数组传参的本质4. 冒泡排序5. 二级指针6. 指针数组7. 指针数组模拟二维数组8. 字符指针变量9. 数组指针变量2.1数组指针变量是什么&#xff1f;2.2 数组指针变量怎么初始化 10. 二维…...

HTTP协议详解

HTTP协议详解 一、HTTP协议概述二、网络基础与HTTP2.1 TCP/IP协议2.2 发送HTTP请求过程2.3 HTTP请求的组成部分 三、HTTP报文HTTP请求报文HTTP响应报文 结语 一、HTTP协议概述 HTTP&#xff0c;即超文本传输协议&#xff08;Hypertext Transfer Protocol&#xff09;&#xff…...

液态神经网络在医疗诊断中的落地案例:如何用LNNs处理动态心电图数据

液态神经网络在医疗诊断中的落地案例&#xff1a;如何用LNNs处理动态心电图数据 当心电图仪器的电极贴片接触患者皮肤的瞬间&#xff0c;那些起伏的波形不仅是心脏跳动的印记&#xff0c;更是一组充满噪声的复杂时间序列数据。传统深度学习模型在处理这类动态生理信号时&#x…...

类OpenClaw智能体优选指南,企业级+个人级全覆盖

2026年初&#xff0c;OpenClaw开源智能体框架凭借“自主规划、工具调用、端到端执行”的核心能力&#xff0c;打破传统AI“只对话不行动”的壁垒&#xff0c;在GitHub迅速斩获25万星标&#xff0c;引发全球科技圈热潮&#xff0c;国内厂商纷纷入局推出类OpenClaw产品&#xff0…...

Steam API集成:构建智能游戏生态的完整PHP解决方案

Steam API集成&#xff1a;构建智能游戏生态的完整PHP解决方案 【免费下载链接】Steam A composer package to make use of the steam web api. 项目地址: https://gitcode.com/gh_mirrors/stea/Steam 在当今游戏开发和社区管理领域&#xff0c;与Steam平台的深度集成已…...

5分钟打造个人游戏库:FitGirl Repack Launcher高效管理方案

5分钟打造个人游戏库&#xff1a;FitGirl Repack Launcher高效管理方案 【免费下载链接】Fitgirl-Repack-Launcher An Electron launcher designed specifically for FitGirl Repacks, utilizing pure vanilla JavaScript, HTML, and CSS for optimal performance and customiz…...

校园网环境下树莓派与Windows直连SSH的实战指南

1. 为什么需要网线直连树莓派&#xff1f; 在校园网环境下使用树莓派时&#xff0c;很多同学都会遇到这样的困扰&#xff1a;宿舍里没有路由器&#xff0c;校园WiFi又需要复杂的认证&#xff0c;根本无法让树莓派联网。这时候&#xff0c;一根普通的网线就能解决大问题。 我第一…...

从零到上线:手把手教你调试若依(RuoYi) + 微信小程序登录的全流程(附排错清单)

若依框架与微信小程序登录集成实战指南 在当今移动互联网时代&#xff0c;微信小程序已成为企业服务用户的重要入口。本文将深入探讨如何基于若依(RuoYi)这一流行的Java快速开发框架&#xff0c;实现与微信小程序的一键登录功能集成&#xff0c;并重点解决开发过程中可能遇到的…...

AgentCPM-Report镜像免配置方案:Pixel Epic一键部署教程(含Streamlit定制)

AgentCPM-Report镜像免配置方案&#xff1a;Pixel Epic一键部署教程&#xff08;含Streamlit定制&#xff09; 1. 像素史诗&#xff1a;当科研遇上RPG冒险 想象一下&#xff0c;撰写专业研究报告的过程变成了一场像素风格的RPG冒险。这就是Pixel Epic带来的独特体验——它将A…...

SiameseUIE参数详解:custom_entities与通用规则双模式解析

SiameseUIE参数详解&#xff1a;custom_entities与通用规则双模式解析 1. 核心功能概述 SiameseUIE作为信息抽取领域的实用模型&#xff0c;提供了两种截然不同的实体抽取模式&#xff0c;让用户可以根据实际需求灵活选择。这两种模式就像是给你的数据提取工作配备了两套不同…...

新手友好:在快马平台上通过实践快速掌握trea核心概念

作为一个刚接触trea技术的新手&#xff0c;我最近在InsCode(快马)平台上找到了特别适合入门的学习方式。这个平台最让我惊喜的是&#xff0c;不需要从零开始搭建环境&#xff0c;就能直接动手实践trea的核心概念。 理解trea的基本原理 刚开始接触trea时&#xff0c;最困惑的就…...

如何通过5个关键步骤实现Altair GraphQL Client与GitHub的高效团队协作开发

如何通过5个关键步骤实现Altair GraphQL Client与GitHub的高效团队协作开发 【免费下载链接】altair ✨⚡️ A feature-rich GraphQL Client for all platforms. 项目地址: https://gitcode.com/gh_mirrors/alta/altair Altair GraphQL Client是一款功能丰富的跨平台Gra…...