当前位置: 首页 > news >正文

GEO生信数据挖掘(二)下载基因芯片平台文件及注释

检索到目标数据集后,开始数据挖掘,本文以阿尔兹海默症数据集GSE1297为例

目录

下载平台文件

1.AnnotGPL参数改为TRUE,联网下载芯片平台的soft文件。(国内网速奇慢经常中断)

2.手工去GEO官网下载

转换芯片探针ID为gene name

拓展:通过bioconductor注释包

# 找到GPL6244相应的注释包hgu133a.db



上节我们下载了GEO数据集,并提取了基因表达矩阵,但是矩阵行名称是芯片探针需要转换为基因名。

下载平台文件

1.AnnotGPL参数改为TRUE,联网下载芯片平台的soft文件。(国内网速奇慢经常中断)

注意:下载好soft文件,才可以直接可以提取注释,没下载好,注释内容全为空,后续代码可以运行但是,不能得到正确数据的矩阵。

# 提取注释信息
annotation <- featureData(gse_info[[1]])  

library(GEOquery)
# 指定GEO数据集的ID
gse_id <- "GSE1297"
# 使用getGEO函数获取数据集的基础信息
gse_info <- getGEO(gse_id, destdir = ".", AnnotGPL = TRUE )# 提取注释信息
annotation <- featureData(gse_info[[1]])  #下载好soft,可以直接可以提取注释,没下载好注释内容全为空#查看平台文件列名
colnames(annotation)#仅提取两列,第一列芯片探针名,第十一列基因名
platform_file_set=annotation[,c(1,11)]

#还可以尝试单独下载GPL96平台文件

gse_gp<-getGEO('GPL96',destdir =".")  #  网速不佳 下载失败提示 Failed to download ./GPL96.soft.gz!

2.手工去GEO官网下载

GEO Accession viewerNCBI's Gene Expression Omnibus (GEO) is a public archive and resource for gene expression data.icon-default.png?t=N7T8https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL96

dir() #打印项目文件列表
# 读取芯片平台文件txt
platform_file <- read.delim("GPL96-57554.txt", header = TRUE, sep = "\t", comment.char = "#")
#查看平台文件列名
colnames(platform_file)#仅提取两列,第一列芯片探针名,第十一列基因名
platform_file_set=platform_file[,c(1,11)]

转换芯片探针ID为gene name

先将上节中提取到的表达矩阵转换格式。

表达矩阵是Matrix对象,而我们接下来要用到的merge函数不能对Matrix对象使用,因此要先将表达矩阵转换为data.frame对象。否则会报错。Error in fix.by(by.x, x) : 'by'必需指定唯一有效的列

#将Matrix格式表达矩阵转换为data.frame格式
exprSet <- data.frame(expression_data)#给表达矩阵新增加一列ID
exprSet$ID <- rownames(exprSet) # 得到表达矩阵,行名为ID,需要转换,新增一列#矩阵表达文件和平台文件有相同列‘ID’,使用merge函数合并
express <- merge(x = exprSet, y = platform_file_set, by.x = "ID")#删除探针ID列
express$ID =NULL

最终将探针ID列删除,剩余32列,即得到有基因名称的表达矩阵。

大家观察最后一列,一个芯片探针匹配到多个基因,下节我们来看看处理方案。

拓展:通过bioconductor注释包

GPL96hgu133a
# 找到GPL6244相应的注释包hgu133a.db

gpl    bioc_package    title
GPL32    mgu74a    [MG_U74A] Affymetrix Murine Genome U74A Array
GPL33    mgu74b    [MG_U74B] Affymetrix Murine Genome U74B Array
GPL34    mgu74c    [MG_U74C] Affymetrix Murine Genome U74C Array
GPL71    ag    [AG] Affymetrix Arabidopsis Genome Array
GPL72    drosgenome1    [DrosGenome1] Affymetrix Drosophila Genome Array
GPL74    hcg110    [HC_G110] Affymetrix Human Cancer Array
GPL75    mu11ksuba    [Mu11KsubA] Affymetrix Murine 11K SubA Array
GPL76    mu11ksubb    [Mu11KsubB] Affymetrix Murine 11K SubB Array
GPL77    mu19ksuba    [Mu19KsubA] Affymetrix Murine 19K SubA Array
GPL78    mu19ksubb    [Mu19KsubB] Affymetrix Murine 19K SubB Array
GPL79    mu19ksubc    [Mu19KsubC] Affymetrix Murine 19K SubC Array
GPL80    hu6800    [Hu6800] Affymetrix Human Full Length HuGeneFL Array
GPL81    mgu74av2    [MG_U74Av2] Affymetrix Murine Genome U74A Version 2 Array
GPL82    mgu74bv2    [MG_U74Bv2] Affymetrix Murine Genome U74B Version 2 Array
GPL83    mgu74cv2    [MG_U74Cv2] Affymetrix Murine Genome U74 Version 2 Array
GPL85    rgu34a    [RG_U34A] Affymetrix Rat Genome U34 Array
GPL86    rgu34b    [RG_U34B] Affymetrix Rat Genome U34 Array
GPL87    rgu34c    [RG_U34C] Affymetrix Rat Genome U34 Array
GPL88    rnu34    [RN_U34] Affymetrix Rat Neurobiology U34 Array
GPL89    rtu34    [RT_U34] Affymetrix Rat Toxicology U34 Array
GPL90    ygs98    [YG_S98] Affymetrix Yeast Genome S98 Array
GPL91    hgu95av2    [HG_U95A] Affymetrix Human Genome U95A Array
GPL92    hgu95b    [HG_U95B] Affymetrix Human Genome U95B Array
GPL93    hgu95c    [HG_U95C] Affymetrix Human Genome U95C Array
GPL94    hgu95d    [HG_U95D] Affymetrix Human Genome U95D Array
GPL95    hgu95e    [HG_U95E] Affymetrix Human Genome U95E Array
GPL96    hgu133a    [HG-U133A] Affymetrix Human Genome U133A Array
GPL97    hgu133b    [HG-U133B] Affymetrix Human Genome U133B Array
GPL98    hu35ksuba    [Hu35KsubA] Affymetrix Human 35K SubA Array
GPL99    hu35ksubb    [Hu35KsubB] Affymetrix Human 35K SubB Array
GPL100    hu35ksubc    [Hu35KsubC] Affymetrix Human 35K SubC Array
GPL101    hu35ksubd    [Hu35KsubD] Affymetrix Human 35K SubD Array
GPL198    ath1121501    [ATH1-121501] Affymetrix Arabidopsis ATH1 Genome Array
GPL199    ecoli2    [Ecoli_ASv2] Affymetrix E. coli Antisense Genome Array
GPL200    celegans    [Celegans] Affymetrix C. elegans Genome Array
GPL201    hgfocus    [HG-Focus] Affymetrix Human HG-Focus Target Array
GPL339    moe430a    [MOE430A] Affymetrix Mouse Expression 430A Array
GPL340    mouse4302    [MOE430B] Affymetrix Mouse Expression 430B Array
GPL341    rae230a    [RAE230A] Affymetrix Rat Expression 230A Array
GPL342    rae230b    [RAE230B] Affymetrix Rat Expression 230B Array
GPL570    hgu133plus2    [HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array
GPL571    hgu133a2    [HG-U133A_2] Affymetrix Human Genome U133A 2.0 Array
GPL886    hgug4111a    Agilent-011871 Human 1B Microarray G4111A (Feature Number version)
GPL887    hgug4110b    Agilent-012097 Human 1A Microarray (V2) G4110B (Feature Number version)
GPL1261    mouse430a2    [Mouse430_2] Affymetrix Mouse Genome 430 2.0 Array
GPL1318    xenopuslaevis    [Xenopus_laevis] Affymetrix Xenopus laevis Genome Array
GPL1319    zebrafish    [Zebrafish] Affymetrix Zebrafish Genome Array
GPL1322    drosophila2    [Drosophila_2] Affymetrix Drosophila Genome 2.0 Array
GPL1352    u133x3p    [U133_X3P] Affymetrix Human X3P Array
GPL1355    rat2302    [Rat230_2] Affymetrix Rat Genome 230 2.0 Array
GPL1708    hgug4112a    Agilent-012391 Whole Human Genome Oligo Microarray G4112A (Feature Number version)
GPL2112    bovine    [Bovine] Affymetrix Bovine Genome Array
GPL2529    yeast2    [Yeast_2] Affymetrix Yeast Genome 2.0 Array
GPL2891    h20kcod    GE Healthcare/Amersham Biosciences CodeLink™ UniSet Human 20K I Bioarray
GPL2898    adme16cod    GE Healthcare/Amersham Biosciences CodeLink™ ADME Rat 16-Assay Bioarray
GPL3154    ecoli2    [E_coli_2] Affymetrix E. coli Genome 2.0 Array
GPL3213    chicken    [Chicken] Affymetrix Chicken Genome Array
GPL3533    porcine    [Porcine] Affymetrix Porcine Genome Array
GPL3738    canine2    [Canine_2] Affymetrix Canine Genome 2.0 Array
GPL3921    hthgu133a    [HT_HG-U133A] Affymetrix HT Human Genome U133A Array
GPL3979    canine    [Canine] Affymetrix Canine Genome 1.0 Array
GPL4032        [Maize] Affymetrix Maize Genome Array
GPL4191    h10kcod    CodeLink UniSet Human I Bioarray
GPL5188    huex10sttranscriptcluster    [HuEx-1_0-st] Affymetrix Human Exon 1.0 ST Array [probe set (exon) version]
GPL5689    hgug4100a    Agilent Human 1 cDNA Microarray (G4100A) [layout C]
GPL6097    illuminaHumanv1    Illumina human-6 v1.0 expression beadchip
GPL6102    illuminaHumanv2    Illumina human-6 v2.0 expression beadchip
GPL6244    hugene10sttranscriptcluster    [HuGene-1_0-st] Affymetrix Human Gene 1.0 ST Array [transcript (gene) version]
GPL6246    mogene10sttranscriptcluster    [MoGene-1_0-st] Affymetrix Mouse Gene 1.0 ST Array [transcript (gene) version]
GPL6885    illuminaMousev2    Illumina MouseRef-8 v2.0 expression beadchip
GPL6947    illuminaHumanv3    Illumina HumanHT-12 V3.0 expression beadchip
GPL8300    hgu95av2    [HG_U95Av2] Affymetrix Human Genome U95 Version 2 Array
GPL8321    mouse430a2    [Mouse430A_2] Affymetrix Mouse Genome 430A 2.0 Array
GPL8490    IlluminaHumanMethylation27k    Illumina HumanMethylation27 BeadChip (HumanMethylation27_270596_v.1.2)
GPL10558    illuminaHumanv4    Illumina HumanHT-12 V4.0 expression beadchip
GPL11532    hugene11sttranscriptcluster    [HuGene-1_1-st] Affymetrix Human Gene 1.1 ST Array [transcript (gene) version]
GPL13497    HsAgilentDesign026652    Agilent-026652 Whole Human Genome Microarray 4x44K v2 (Probe Name version)
GPL13534    IlluminaHumanMethylation450k    Illumina HumanMethylation450 BeadChip (HumanMethylation450_15017482)
GPL13667    hgu219    [HG-U219] Affymetrix Human Genome U219 Array
GPL14877    hgu133plus2    Affymetrix Human Genome U133 Plus 2.0 Array [Brainarray Version 13, HGU133Plus2_Hs_ENTREZG]
GPL15380    GGHumanMethCancerPanelv1    Illumina Sentrix Array Matrix (SAM) - GoldenGate Methylation Cancer Panel I
GPL15396    hthgu133b    [HT_HG-U133B] Affymetrix HT Human Genome U133B Array [custom CDF: ENTREZ brainarray v. 14]
GPL17556    hugene10sttranscriptcluster    [HuGene-1_0-st] Affymetrix Human Gene 1.0 ST Array [HuGene10stv1_Hs_ENTREZG_17.0.0]
GPL17897    hthgu133a    [HT_HG-U133A] Affymetrix Human Genome U133A Array (custom CDF: HTHGU133A_Hs_ENTREZG.cdf version 17.0.0)
GPL18190    hugene11sttranscriptcluster    [HuGene-1_1-st] Affymetrix Human Gene 1.1 ST Array [CDF: Brainarray HuGene11stv1_Hs_ENTREZG_15.1.0]
 

相关文章:

GEO生信数据挖掘(二)下载基因芯片平台文件及注释

检索到目标数据集后&#xff0c;开始数据挖掘&#xff0c;本文以阿尔兹海默症数据集GSE1297为例 目录 下载平台文件 1.AnnotGPL参数改为TRUE,联网下载芯片平台的soft文件。&#xff08;国内网速奇慢经常中断&#xff09; 2.手工去GEO官网下载 转换芯片探针ID为gene name 拓…...

淘宝电商必备的大数据应用

在日常生活中&#xff0c;大家总能听到“大数据”“人工智能”的说法。现在的大数据技术应用&#xff0c;从大到巨大科学研究、社会信息审查、搜索引擎&#xff0c;小到社交联结、餐厅推荐等等&#xff0c;已经渗透到我们生活中的方方面面。到底大数据在电商行业可以怎么用&…...

Docker版部署RocketMQ开启ACL验证

一、拉取镜像 docker pull apache/rocketmq:latest 二、准备挂载目录 mkdir /usr/local/rocketmq/data mkdir /usr/local/rocketmq/conf 三、运行 docker run \ -d \ -p 9876:9876 \ -v /usr/local/rocketmq/data/logs:/home/rocketmq/logs \ -v /usr/local/rocketmq/data…...

【RabbitMQ实战】04 RabbitMQ的基本概念:Exchange,Queue,Channel等

一、简介 Message Queue的需求由来已久&#xff0c;80年代最早在金融交易中&#xff0c;高盛等公司采用Teknekron公司的产品&#xff0c;当时的Message queuing软件叫做&#xff1a;the information bus&#xff08;TIB&#xff09;。 TIB被电信和通讯公司采用&#xff0c;路透…...

APACHE NIFI学习之—RouteOnAttribute

RouteOnAttribute 描述: 使用属性表达式语言根据其属性路由数据流,每个表达式必须返回Boolean类型的值(true或false)。 标签: attributes, routing, Attribute Expression Language, regexp, regex, Regular Expression, Expression Language, 属性, 路由, 表达式, 正则…...

防火墙网络接口下面多个外网地址,只有第一地址可以访问通其他不通

环境&#xff1a; 主备防火墙 8.0.75 AF-2000-FH2130B-SC 问题描述&#xff1a; 两台防火墙双击热备&#xff0c;高可用防火墙虚拟网络接口Eth4下面有多个外网地址&#xff0c;只有第一地址可以访问通其他不通 解决方案&#xff1a; 1.检查防火墙路由设置&#xff08;未解决…...

【HTTP】URL结构、HTTP请求和响应的报文格式、HTTP请求的方法、常见的状态码、GET和POST有什么区别、Cookie、Session等重点知识汇总

目录 URL格式 HTTP请求和响应报文的字段&#xff1f; HTTP请求方法 常见的状态码 GET 和 POST 的区别 Cookie 和 Session URL格式 &#xff1f;&#xff1a;是用来分割URL的主体部分&#xff08;通常是路径&#xff09;和查询字符串&#xff08;query string&#xff09;…...

苹果mac电脑显示内存不足如何解决?

忍痛删应用、删文档、删照片视频等等一系列操作都是众多Mac用户清理内存空间的方法之一&#xff0c;悲催的是一顿“猛如虎的操作”下&#xff0c;释放出来的内存空间却少的可怜&#xff0c;原因很简单&#xff0c;这样释放内存空间是无效的。如何合理有效的清理内存空间&#x…...

如何在Windows 10上安装Go并搭建本地编程环境

引言 Go是在谷歌的挫折中诞生的编程语言。开发人员不得不不断地选择一种执行效率高但需要长时间编译的语言&#xff0c;或者选择一种易于编程但在生产环境中运行效率低的语言。Go被设计为同时提供这三种功能:快速编译、易于编程和在生产中高效执行。 虽然Go是一种通用的编程语…...

[Realtek sdk-3.4.14b]RTL8197FH-VG 2.4G to WAN吞吐量低于60%的问题分析及解决方案

问题描述 RTL8197FH-VG 2.4G wifi to WAN吞吐量低于65%的标准,正常2T2R的wifi 300Mbps x 65% = 195Mbps,但是实际只能跑到160Mbps,这个时候CPU的idl已经为0,sirq占用率达到98%左右 网络拓扑 一台PC通过2.4G WiFi连接到RTL8197FH-VG,另外一台PC直接通过WAN口连接到RTL8197…...

软件设计模式系列之十八——迭代器模式

1 模式的定义 迭代器模式是一种行为型设计模式&#xff0c;它允许客户端逐个访问一个聚合对象中的元素&#xff0c;而不暴露该对象的内部表示。迭代器模式提供了一种统一的方式来遍历不同类型的集合&#xff0c;使客户端代码更加简洁和可复用。 2 举例说明 为了更好地理解迭…...

前端项目配置 prettier、eslint、lint-stages、husky、commitlint 、style-lint设置代码书写和提交规范

prettier中文网&#xff1a;Options Prettier 中文网 eslint中文网 &#xff1a;ESLint 中文网 github husky &#xff1a; https://github.com/typicode/husky commitlint.js 官网&#xff1a;commitlint - Lint commit messages 、github&#xff1a;GitHub - conventiona…...

如何开始着手一篇Meta分析 | Meta分析的流程及方法

Meta分析是针对某一科研问题&#xff0c;根据明确的搜索策略、选择筛选文献标准、采用严格的评价方法&#xff0c;对来源不同的研究成果进行收集、合并及定量统计分析的方法&#xff0c;最早出现于“循证医学”&#xff0c;现已广泛应用于农林生态&#xff0c;资源环境等方面。…...

【PID控制技术】

PID控制技术 简介控制原理相关术语调参技巧相互作用 相似算法与PWM对比 应用范围优缺点硬件支持 简介 PID控制是一种在工业过程控制中广泛应用的控制策略&#xff0c;其全称是比例-积分-微分&#xff08;Proportional Integral Derivative&#xff09;控制。它的基本原理是根据…...

docker openjdk:8-jdk-alpine 修改时区、添加字体

新建Dockerfile文件&#xff0c;制作新镜像 FROM openjdk:8-jdk-alpine 1、解决字体问题 RUN apk add --update ttf-dejavu fontconfig && rm -rf /var/cache/apk/* 2、解决时差问题 # 解决时差8小时问题ENV TZAsia/ShanghaiRUN ln -snf /usr/share/zoneinfo/$TZ /et…...

9+单细胞+实验验证,探讨单基因对癌细胞转移作用的思路方向

今天给同学们分享一篇单细胞实验的生信文章“Identification of RAC1 in promoting brain metastasis of lung adenocarcinoma using single-cell transcriptome sequencing”&#xff0c;这篇文章于2023年5月18日发表在Cell Death Dis期刊上&#xff0c;影响因子为9。 本研究旨…...

《计算机视觉中的多视图几何》笔记(7)

7 Computation of the Camera Matrix P P P 这章讲的是摄像机参数估计。摄像机标定&#xff0c;本质上就是求摄像机矩阵 P P P&#xff0c;当我们知道足够多的 X ↔ x X \leftrightarrow x X↔x&#xff0c;我们该如何计算 P P P&#xff1f;如果知道3D和2D点的对应&#xff…...

Python经典练习题(四)

文章目录 &#x1f340;第一题&#x1f340;第二题&#x1f340;第三题 &#x1f340;第一题 题目&#xff1a;打印出如下图案&#xff08;菱形&#xff09;: 我们首先分析一下&#xff0c;本题实现的步骤主要有两个&#xff0c;分别是前四行和后三行 前四行&#xff1a;第一…...

Mac Pro在重装系统时提示“未能与恢复服务器取得联系”

检查网络连接&#xff1a; 确保你的Mac Pro连接到稳定的网络。尝试更换其他网络&#xff0c;例如切换到不同的Wi-Fi或使用有线连接。 系统时间校正&#xff1a; 错误的系统时间有时会导致与恢复服务器的连接问题。在恢复模式下打开终端&#xff08;在实用工具菜单中选择终端&a…...

【C/C++】指针常量、常量指针、指向常量的常指针

目录 1.概念2. const pointer3. pointer to a constant3.1 (pointer to a constant)-constant3.2 poiner-constant3.3 (pointer to a constant)-variable3.4 poiner-variable3.5 多层级关系时的兼容3.6 用处 4. a constant pointer to a constant 1.概念 首先明确这几个术语的…...

Vim 调用外部命令学习笔记

Vim 外部命令集成完全指南 文章目录 Vim 外部命令集成完全指南核心概念理解命令语法解析语法对比 常用外部命令详解文本排序与去重文本筛选与搜索高级 grep 搜索技巧文本替换与编辑字符处理高级文本处理编程语言处理其他实用命令 范围操作示例指定行范围处理复合命令示例 实用技…...

微信小程序之bind和catch

这两个呢&#xff0c;都是绑定事件用的&#xff0c;具体使用有些小区别。 官方文档&#xff1a; 事件冒泡处理不同 bind&#xff1a;绑定的事件会向上冒泡&#xff0c;即触发当前组件的事件后&#xff0c;还会继续触发父组件的相同事件。例如&#xff0c;有一个子视图绑定了b…...

k8s从入门到放弃之Ingress七层负载

k8s从入门到放弃之Ingress七层负载 在Kubernetes&#xff08;简称K8s&#xff09;中&#xff0c;Ingress是一个API对象&#xff0c;它允许你定义如何从集群外部访问集群内部的服务。Ingress可以提供负载均衡、SSL终结和基于名称的虚拟主机等功能。通过Ingress&#xff0c;你可…...

边缘计算医疗风险自查APP开发方案

核心目标:在便携设备(智能手表/家用检测仪)部署轻量化疾病预测模型,实现低延迟、隐私安全的实时健康风险评估。 一、技术架构设计 #mermaid-svg-iuNaeeLK2YoFKfao {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg…...

C++.OpenGL (10/64)基础光照(Basic Lighting)

基础光照(Basic Lighting) 冯氏光照模型(Phong Lighting Model) #mermaid-svg-GLdskXwWINxNGHso {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-GLdskXwWINxNGHso .error-icon{fill:#552222;}#mermaid-svg-GLd…...

【HTTP三个基础问题】

面试官您好&#xff01;HTTP是超文本传输协议&#xff0c;是互联网上客户端和服务器之间传输超文本数据&#xff08;比如文字、图片、音频、视频等&#xff09;的核心协议&#xff0c;当前互联网应用最广泛的版本是HTTP1.1&#xff0c;它基于经典的C/S模型&#xff0c;也就是客…...

C++ Visual Studio 2017厂商给的源码没有.sln文件 易兆微芯片下载工具加开机动画下载。

1.先用Visual Studio 2017打开Yichip YC31xx loader.vcxproj&#xff0c;再用Visual Studio 2022打开。再保侟就有.sln文件了。 易兆微芯片下载工具加开机动画下载 ExtraDownloadFile1Info.\logo.bin|0|0|10D2000|0 MFC应用兼容CMD 在BOOL CYichipYC31xxloaderDlg::OnIni…...

dify打造数据可视化图表

一、概述 在日常工作和学习中&#xff0c;我们经常需要和数据打交道。无论是分析报告、项目展示&#xff0c;还是简单的数据洞察&#xff0c;一个清晰直观的图表&#xff0c;往往能胜过千言万语。 一款能让数据可视化变得超级简单的 MCP Server&#xff0c;由蚂蚁集团 AntV 团队…...

Redis的发布订阅模式与专业的 MQ(如 Kafka, RabbitMQ)相比,优缺点是什么?适用于哪些场景?

Redis 的发布订阅&#xff08;Pub/Sub&#xff09;模式与专业的 MQ&#xff08;Message Queue&#xff09;如 Kafka、RabbitMQ 进行比较&#xff0c;核心的权衡点在于&#xff1a;简单与速度 vs. 可靠与功能。 下面我们详细展开对比。 Redis Pub/Sub 的核心特点 它是一个发后…...

JAVA后端开发——多租户

数据隔离是多租户系统中的核心概念&#xff0c;确保一个租户&#xff08;在这个系统中可能是一个公司或一个独立的客户&#xff09;的数据对其他租户是不可见的。在 RuoYi 框架&#xff08;您当前项目所使用的基础框架&#xff09;中&#xff0c;这通常是通过在数据表中增加一个…...