生物信息场景下的用户需求
背景分析
概念定义
基因测序是一种新型基因检测技术,是基因检测的方法之一,其又叫基因谱测序,是国际上公认的一种基因检测标准。基因测序技术能锁定病变基因,提前预防和治疗。过长的测序周期以及上万美元的仪器成本,成了阻碍基因测序进入寻常百姓家的障碍。而运用新技术的基因测序仪,大大降低了基因组测序的门槛,使得更多研究人员能够使用这项技术开发多种应用。常用的测序平台有Complete Genomics,Illumina HiSeq,ABI SOLiD System,Roche GS FLX Platform,Ion Torrent及Ion Proton等。
政策纲要

十四五”开局之年,我国发布《中华人民共和国国民经济和社会发展第十四个五 年规划和2035年远景目标纲要》,提出未来我国要大力发展战略新兴产业,利用新一代信息技术,壮大航空航天、海洋装备、新能 源汽车、新能源、生物技术、绿色环保、新材料等产业。“生物医药作为我国十四五规划中战略性新兴产业的主攻方向,更是成为推进健康中国建设的重要支撑点。”5月10日,国家发展改革委印发《“十四五”生物经济发展规划》(以下简称《规划》),明确提出了生物经济发展阶段目标。与此同时,全国多个城市发布相关政策以促进我国生物医药行业发展。
2.生信项目方案
FASS+ NVMe SSD构建分布式全闪存储集群,并将LUN分配给不同的网关节点;
xFile构建高可用网关集群,为业务提供高性能文件存储服务。支持N-1节点故障,NAS共享服务正常;XDFS作为存储底座+SATA硬盘,构建大容量归档近线存储系统磁带库作为离线存储系统。对在一定时间内没有访问的数据进行归档迁移操作,将这些数据按策略归档到磁带库中保证业务数据正常访问的情况下,充分节约在线和近线存储空间。

2.1现状分析
(一)用户分析:
1.元数据保存方式:
·目前用户95%以上元数据由不同机构通过网络上传至华为云上;
·华为云为上传数据提供对象存储服务(OBS),及所有文件均以对象方式保存。
2.数据分析:
·用户通过手动方式将华为云OBS上数据迁移至华为云文件存储上;
· 通过用户专业数据分析系统对迁移至华为云文件存储上的数据进行分析、处理,生成相应报告。
3.数据输出:
·在整个分析过程中会生成结果文件和过程文件;
·结果文件会通过手动方式迁移回OBS上,过程文件保存在华为云文件存储上。
4.数据容量:
·用户每天产生超过1TB的数据,加上过程数据等中间数据,全年数据量可达3-5PB。
(二)存在问题:
1.用户在生产过程中产生大量数据,需要从华为云上获取大量的存储资源,因此每年需要投入较高的费用租用华为云服务。
2.数据流转过程需要通过手动方式进行,效率较低,并且容易造成人为失误。
3.基因测序分析对存储性能要求很高,云上进行无法满足日益增长的分析需求。
2.2整体解决方案
·根据用户需求将华为云OBS上元数据下载至本地私有云存储系统上;
·根据基因测序业务需求和数据特性,TaoCloud以FASS全闪分布式存储为数据底座,结合高性能文件网关,组成一套高性能文件存储集群,为基因测序业务提供高可靠、高带宽、高IOPS、低延时的文件存储服务,本次建设提供200TB可用容量SSD存储池。
·同时配置XDFS分布式统一存储系统,配以SATA HDD构建800TB高性价比存储池,按策略进行数据归档,将过程数据按策略归档至HDD存储池中,实现数据全生命周期管理。
(一)数据下云、上传及归档详细描述:
1、数据下云:
下云数据主要针对用户所有在华为云OBS上保存的对象存储数据,通过在本地分布式全闪存储系统上设置相应策略,将这部分数据定时自动下载至本地私有云存储系统的全闪分布式存储系统上,并以文件形式保存,以便于进行相应的数据分析。
2、数据上传:
上传数据主要针对经过分析所产生的结果数据,同样需要在本地分布式全闪存储系统上设置相应策略,定时将这部分数据上传到华为云OBS上,用以最终用户获取分析结果。
3、数据归档:
元数据在分布式全闪存储系统上经过分析后不仅会产生结果数据,还会产生过程数据,这部分过程数据会被保存在相应的文件夹中通过归档模块根据相应策略迁移归档至分布式文件存储的HDD存储池中进行长期保存。
(二)系统性能:
方案采用分布式全闪+高性能文件网关方式构建业务存储系统(主存储),系统通过全SSD+100GbE网络为业务系统提供高性能存储服务,其性能分为分布式全闪底座块存储性能及文件存储性能,具体性能指标如下:
1、分布式全闪文件存储性能指标:
带宽:20GB/S
OPS:单客户端10000
10客户端100000
满足1000个以上容器通过CSI方式挂载
2、分布式全闪块存储性能指标:
带宽:48GB/S
IOPS:大于800万
延时:小于200微秒
2.3方案优势
(一)完善的计算处理能力
大道分布式存储系统具有非常好的硬件兼容性,在一个集群环境中可以同时部署各种服务器、同时支持ARM等国产CPU架构。用户通过部署高主频CPU、大内存计算节点等硬件资源,可以创建出满足用户各类科研应用的存储硬件资源池,并通过资源管理和调度软件实现资源的有效分配。
在药物研发、化学分子分析、基因测序及蛋白分析的应用软件中,经常需要Windows系统环境的支持。大道分布式存储系统支持Linux和Windows混合架构的HPC计算集群;支持(如Windows2008/2012/2016、Windows 10、Suse Linux、Redhat Linux、Centos Linux)多版本的操作系统。
(二)完整的数据管理功能
药物研发、化学分子分析、基因测序及蛋白分析过程中会产生非常庞大的数据。这些数据包含珍贵的一手测序数据,也包含测序分析过程中产生的过程文件。大道分布式存储系统支持用户的存储空间配额管理,从而为用户提供便捷的数据存储服务。
(三)数据协同共享
大道分布式存储系统还提供基于数据共享实现的数据协同功能,可以通过定义数据共享区,让用户将需要协同交换的数据放到数据共享区。为了保证数据协同的安全性,系统管理员还可以配置用户访问数据共享区的权限。
相关文章:

生物信息场景下的用户需求
背景分析概念定义基因测序是一种新型基因检测技术,是基因检测的方法之一,其又叫基因谱测序,是国际上公认的一种基因检测标准。基因测序技术能锁定病变基因,提前预防和治疗。过长的测序周期以及上万美元的仪器成本,成了…...
linux su(switch user)和sudo(superuser do)的区别?(sudo su与su的区别)
文章目录linux su(switch user)和sudo(superuser do)的区别?sudo su与su的区别linux su(switch user)和sudo(superuser do)的区别? 在Unix或Linux操作系统中…...

PostgreSQL的学习心得和知识总结(一百二十三)|深入理解PostgreSQL数据库开源扩展pg_dirtyread的使用场景和实现原理
目录结构 注:提前言明 本文借鉴了以下博主、书籍或网站的内容,其列表如下: 1、参考书籍:《PostgreSQL数据库内核分析》 2、参考书籍:《数据库事务处理的艺术:事务管理与并发控制》 3、PostgreSQL数据库仓库…...

ubuntu清理挖矿病毒
0 序言 我之前搭建的hadoop用于测试,直接使用了8088和9870端口,没有放入docker,从而没有端口映射。于是,就被不法之徒盯上了,hadoop被提交了很多job,使得系统被感染了挖矿病毒,在前几天阿里云站…...
【代码随想录训练营】【Day16】第六章|二叉树|104.二叉树的最大深度|559.n叉树的最大深度|111.二叉树的最小深度|222.完全二叉树的节点个数
二叉树的最大深度 题目详细:LeetCode.104 递归法很容易理解: 定义一个全局变量max, 记录二叉树的最大深度在递归函数中增加一个深度参数,表示当前的节点的深度然后对二叉树进行深度优先遍历当遍历到叶子节点时,比较…...

transformer总结
1.注意力机制 意义:人类的注意力机制极大提高了信息处理的效率和准确性。 公式: 1)自注意力机制 b都是在考虑了所有a的情况下生成的。 以产生b1向量为例: 1.在a这个序列中,找到与a1相关的其他向量 2.每个向量与a1关联的程度&a…...
dart flutter入门教程,开发手册 分享
我最近在学校dart flutter.这是我收集的一些手册和教程. 不需要关注公众号,不需要加好友. 我发现flutter(dart)的中文资料比较奇缺.入门的教程非常多.但是api手册几乎没有(全是英文的). 收集原则 1.中文(我英文不好) 2.不要pdf的,网上有一些pdf的 从入门到进阶的,但是太长…...

教育舆情监测关键词有哪些,TOOM教育舆情监测系统流程?
教育舆情监测是指对教育领域的舆情进行收集、分析和处理的过程。舆情是指公众在各种渠道上对教育政策、教育机构、教育事件等方面的言论、态度和情绪。通过对教育舆情的监测和分析,可以了解公众对教育行业的看法和反应,提高对教育行业的管控能力…...

MySQL高级(一)
MySQL-day01 1 MySQL简介 1.1 MySQL简介 MySQL是一个关系型数据库管理系统,由瑞典MySQL AB(创始人Michael Widenius)公司开发,2008被Sun收购(10亿美金),2009年Sun被Oracle收购。MariaDBMaria…...

如何将Python项目部署到新电脑上运行?
如何将Python项目部署到新电脑上运行? 在工作中,可能需要在新服务器上部署项目代码,例如新增服务器、把测试环境的代码部署到生产环境等。 在生活中,也会遇到换新电脑,需要将自己在旧电脑上写的(项目&…...

JVM和JAVA体系结构
1、为什么要学习JVM作为Java工程师的你曾被伤害过吗?你是否也遇到过这些问题?运行着的线上系统突然卡死,系统无法访问,甚至直接OOM想解决线上JVM GC问题,但却无从下手新项目上线,对各种JVM参数设置一脸茫然…...

(十)、通过云对象修改阅读量+点赞功能的实现【uniapp+uinicloud多用户社区博客实战项目(完整开发文档-从零到完整项目)】
1,通过云对象importObj修改阅读量 1.1 新建云对象 1.2 云对象中写自增自减方法 封装云对象utilsObj中的自增自减方法,方法名取为operation,传递4个参数。 // 云对象教程: https://uniapp.dcloud.net.cn/uniCloud/cloud-obj // jsdoc语法提…...
刷力扣的第一天脑子要长出来的感觉(怎么有人大四才开始啊啊啊啊啊啊啊啊啊啊啊啊,又是等成绩的一天,)
刷力扣的第一天脑子要长出来的感觉(为什么大四才开始啊啊啊啊啊啊啊啊啊啊啊啊) emmm,自己还是想不太出来(只是一点想法),可能还是会参考评论区,求各位轻喷 分析:带符号一定不是回…...

Nuclei文*件上*传FUZZ POC
目录 1.前言 2. Nuclei文件上传FUZZ POC 3. 实战中的应用 1.前言 该文件上传FUZZ POC主要来源于一个靶*场,该POC 主要用来FUZZ目标js页面中的upload ajax请求,以此来进一步尝试文件上传漏*洞利*用。 这里也要感谢下“打工仔1号”提供的开*发人员常见的文*件上*传javaScr…...
完美解决方案-雪花算法ID到前端之后精度丢失问题
最近公司的一个项目组要把以前的单体应用进行为服务拆分,表的ID主键使用Mybatis plus默认 的雪花算法来生成。 快下班的时候,小伙伴跑过来找我,:“快给我看看这问题,卡这卡了小半天了!”。连拉带拽&#x…...
工程管理系统源码之高效的工程项目管理软件
高效的工程项目管理软件不仅能够提高效率还应可以帮你节省成本提升利润 在工程行业中,管理不畅以及不良的项目执行,往往会导致项目延期、成本上升、回款拖后,最终导致项目整体盈利下降。企企管理云业财一体化的项目管理系统,确保…...
390. 消除游戏
列表 arr 由在范围 [1, n] 中的所有整数组成,并按严格递增排序。请你对 arr 应用下述算法:从左到右,删除第一个数字,然后每隔一个数字删除一个,直到到达列表末尾。重复上面的步骤,但这次是从右到左。也就是…...
springBoot JPA代码生成器
介绍通过IDEA配置文件,根据数据库表结构快速生产Service、ServiceImpl、repository、repositoryImpl、自动生成常用的jpa增删改查等方法。使用的版本Spring Boot2.1.6.RELEASE spring-boot-starter-data-jpa使用idea 生成代码步骤打开idea(https://images.gitee.co…...

相同月利率条件下不同还款方式贷款的APR与IRR研究
文章目录前提假设一次性还本付息先息后本等额本息等额本金简单二分法求解IRR的程序汇总实验对比前提假设 因为常见的信贷产品还款期数定义都是按照月,假设只借一期的利率(月利率)为r,在此条件下,研究不同还款方式下的…...

【论文】智能隧道检测车的现状及改进策略
本文转载自《智慧城轨》2022年第11期 作者:黄丹樱1,韦强1,朱椰毅2,范骁1,林浩立1 单位:1 浙江师范大学工学院;2 浙江金温铁道开发有限公司 声明:本文仅用于学术分享,不做商业用途,如有侵权,联…...

linux之kylin系统nginx的安装
一、nginx的作用 1.可做高性能的web服务器 直接处理静态资源(HTML/CSS/图片等),响应速度远超传统服务器类似apache支持高并发连接 2.反向代理服务器 隐藏后端服务器IP地址,提高安全性 3.负载均衡服务器 支持多种策略分发流量…...
今日科技热点速览
🔥 今日科技热点速览 🎮 任天堂Switch 2 正式发售 任天堂新一代游戏主机 Switch 2 今日正式上线发售,主打更强图形性能与沉浸式体验,支持多模态交互,受到全球玩家热捧 。 🤖 人工智能持续突破 DeepSeek-R1&…...

智能仓储的未来:自动化、AI与数据分析如何重塑物流中心
当仓库学会“思考”,物流的终极形态正在诞生 想象这样的场景: 凌晨3点,某物流中心灯火通明却空无一人。AGV机器人集群根据实时订单动态规划路径;AI视觉系统在0.1秒内扫描包裹信息;数字孪生平台正模拟次日峰值流量压力…...

蓝桥杯3498 01串的熵
问题描述 对于一个长度为 23333333的 01 串, 如果其信息熵为 11625907.5798, 且 0 出现次数比 1 少, 那么这个 01 串中 0 出现了多少次? #include<iostream> #include<cmath> using namespace std;int n 23333333;int main() {//枚举 0 出现的次数//因…...

Linux --进程控制
本文从以下五个方面来初步认识进程控制: 目录 进程创建 进程终止 进程等待 进程替换 模拟实现一个微型shell 进程创建 在Linux系统中我们可以在一个进程使用系统调用fork()来创建子进程,创建出来的进程就是子进程,原来的进程为父进程。…...
C++课设:简易日历程序(支持传统节假日 + 二十四节气 + 个人纪念日管理)
名人说:路漫漫其修远兮,吾将上下而求索。—— 屈原《离骚》 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 专栏介绍:《编程项目实战》 目录 一、为什么要开发一个日历程序?1. 深入理解时间算法2. 练习面向对象设计3. 学习数据结构应用二、核心算法深度解析…...
Vue 模板语句的数据来源
🧩 Vue 模板语句的数据来源:全方位解析 Vue 模板(<template> 部分)中的表达式、指令绑定(如 v-bind, v-on)和插值({{ }})都在一个特定的作用域内求值。这个作用域由当前 组件…...
用鸿蒙HarmonyOS5实现中国象棋小游戏的过程
下面是一个基于鸿蒙OS (HarmonyOS) 的中国象棋小游戏的实现代码。这个实现使用Java语言和鸿蒙的Ability框架。 1. 项目结构 /src/main/java/com/example/chinesechess/├── MainAbilitySlice.java // 主界面逻辑├── ChessView.java // 游戏视图和逻辑├──…...

篇章二 论坛系统——系统设计
目录 2.系统设计 2.1 技术选型 2.2 设计数据库结构 2.2.1 数据库实体 1. 数据库设计 1.1 数据库名: forum db 1.2 表的设计 1.3 编写SQL 2.系统设计 2.1 技术选型 2.2 设计数据库结构 2.2.1 数据库实体 通过需求分析获得概念类并结合业务实现过程中的技术需要&#x…...

图解JavaScript原型:原型链及其分析 | JavaScript图解
忽略该图的细节(如内存地址值没有用二进制) 以下是对该图进一步的理解和总结 1. JS 对象概念的辨析 对象是什么:保存在堆中一块区域,同时在栈中有一块区域保存其在堆中的地址(也就是我们通常说的该变量指向谁&…...