当前位置: 首页 > news >正文

生物信息场景下的用户需求

  1. 背景分析

  1. 概念定义

基因测序是一种新型基因检测技术,是基因检测的方法之一,其又叫基因谱测序,是国际上公认的一种基因检测标准。基因测序技术能锁定病变基因,提前预防和治疗。过长的测序周期以及上万美元的仪器成本,成了阻碍基因测序进入寻常百姓家的障碍。而运用新技术的基因测序仪,大大降低了基因组测序的门槛,使得更多研究人员能够使用这项技术开发多种应用。常用的测序平台有Complete Genomics,Illumina HiSeq,ABI SOLiD System,Roche GS FLX Platform,Ion Torrent及Ion Proton等。

  1. 政策纲要

十四五”开局之年,我国发布《中华人民共和国国民经济和社会发展第十四个五 年规划和2035年远景目标纲要》,提出未来我国要大力发展战略新兴产业,利用新一代信息技术,壮大航空航天、海洋装备、新能 源汽车、新能源、生物技术、绿色环保、新材料等产业。“生物医药作为我国十四五规划中战略性新兴产业的主攻方向,更是成为推进健康中国建设的重要支撑点。”5月10日,国家发展改革委印发《“十四五”生物经济发展规划》(以下简称《规划》),明确提出了生物经济发展阶段目标。与此同时,全国多个城市发布相关政策以促进我国生物医药行业发展。

2.生信项目方案

FASS+ NVMe SSD构建分布式全闪存储集群,并将LUN分配给不同的网关节点;

xFile构建高可用网关集群,为业务提供高性能文件存储服务。支持N-1节点故障,NAS共享服务正常;XDFS作为存储底座+SATA硬盘,构建大容量归档近线存储系统磁带库作为离线存储系统。对在一定时间内没有访问的数据进行归档迁移操作,将这些数据按策略归档到磁带库中保证业务数据正常访问的情况下,充分节约在线和近线存储空间。

2.1现状分析

(一)用户分析:

1.元数据保存方式:

·目前用户95%以上元数据由不同机构通过网络上传至华为云上;

·华为云为上传数据提供对象存储服务(OBS),及所有文件均以对象方式保存。

2.数据分析:

·用户通过手动方式将华为云OBS上数据迁移至华为云文件存储上;

· 通过用户专业数据分析系统对迁移至华为云文件存储上的数据进行分析、处理,生成相应报告。

3.数据输出:

·在整个分析过程中会生成结果文件和过程文件;

·结果文件会通过手动方式迁移回OBS上,过程文件保存在华为云文件存储上。

4.数据容量:

·用户每天产生超过1TB的数据,加上过程数据等中间数据,全年数据量可达3-5PB。

(二)存在问题:

1.用户在生产过程中产生大量数据,需要从华为云上获取大量的存储资源,因此每年需要投入较高的费用租用华为云服务。

2.数据流转过程需要通过手动方式进行,效率较低,并且容易造成人为失误。

3.基因测序分析对存储性能要求很高,云上进行无法满足日益增长的分析需求。

2.2整体解决方案

·根据用户需求将华为云OBS上元数据下载至本地私有云存储系统上;

·根据基因测序业务需求和数据特性,TaoCloud以FASS全闪分布式存储为数据底座,结合高性能文件网关,组成一套高性能文件存储集群,为基因测序业务提供高可靠、高带宽、高IOPS、低延时的文件存储服务,本次建设提供200TB可用容量SSD存储池。

·同时配置XDFS分布式统一存储系统,配以SATA HDD构建800TB高性价比存储池,按策略进行数据归档,将过程数据按策略归档至HDD存储池中,实现数据全生命周期管理。

(一)数据下云、上传及归档详细描述:

1、数据下云:

下云数据主要针对用户所有在华为云OBS上保存的对象存储数据,通过在本地分布式全闪存储系统上设置相应策略,将这部分数据定时自动下载至本地私有云存储系统的全闪分布式存储系统上,并以文件形式保存,以便于进行相应的数据分析。

2、数据上传:

上传数据主要针对经过分析所产生的结果数据,同样需要在本地分布式全闪存储系统上设置相应策略,定时将这部分数据上传到华为云OBS上,用以最终用户获取分析结果。

3、数据归档:

元数据在分布式全闪存储系统上经过分析后不仅会产生结果数据,还会产生过程数据,这部分过程数据会被保存在相应的文件夹中通过归档模块根据相应策略迁移归档至分布式文件存储的HDD存储池中进行长期保存。

(二)系统性能:

方案采用分布式全闪+高性能文件网关方式构建业务存储系统(主存储),系统通过全SSD+100GbE网络为业务系统提供高性能存储服务,其性能分为分布式全闪底座块存储性能及文件存储性能,具体性能指标如下:

1、分布式全闪文件存储性能指标:

带宽:20GB/S

OPS:单客户端10000

10客户端100000

满足1000个以上容器通过CSI方式挂载

2、分布式全闪块存储性能指标:

带宽:48GB/S

IOPS:大于800万

延时:小于200微秒

2.3方案优势

(一)完善的计算处理能力

大道分布式存储系统具有非常好的硬件兼容性,在一个集群环境中可以同时部署各种服务器、同时支持ARM等国产CPU架构。用户通过部署高主频CPU、大内存计算节点等硬件资源,可以创建出满足用户各类科研应用的存储硬件资源池,并通过资源管理和调度软件实现资源的有效分配。

在药物研发、化学分子分析、基因测序及蛋白分析的应用软件中,经常需要Windows系统环境的支持。大道分布式存储系统支持Linux和Windows混合架构的HPC计算集群;支持(如Windows2008/2012/2016、Windows 10、Suse Linux、Redhat Linux、Centos Linux)多版本的操作系统。

(二)完整的数据管理功能

药物研发、化学分子分析、基因测序及蛋白分析过程中会产生非常庞大的数据。这些数据包含珍贵的一手测序数据,也包含测序分析过程中产生的过程文件。大道分布式存储系统支持用户的存储空间配额管理,从而为用户提供便捷的数据存储服务。

(三)数据协同共享

大道分布式存储系统还提供基于数据共享实现的数据协同功能,可以通过定义数据共享区,让用户将需要协同交换的数据放到数据共享区。为了保证数据协同的安全性,系统管理员还可以配置用户访问数据共享区的权限。

相关文章:

生物信息场景下的用户需求

背景分析概念定义基因测序是一种新型基因检测技术,是基因检测的方法之一,其又叫基因谱测序,是国际上公认的一种基因检测标准。基因测序技术能锁定病变基因,提前预防和治疗。过长的测序周期以及上万美元的仪器成本,成了…...

linux su(switch user)和sudo(superuser do)的区别?(sudo su与su的区别)

文章目录linux su(switch user)和sudo(superuser do)的区别?sudo su与su的区别linux su(switch user)和sudo(superuser do)的区别? 在Unix或Linux操作系统中…...

PostgreSQL的学习心得和知识总结(一百二十三)|深入理解PostgreSQL数据库开源扩展pg_dirtyread的使用场景和实现原理

目录结构 注:提前言明 本文借鉴了以下博主、书籍或网站的内容,其列表如下: 1、参考书籍:《PostgreSQL数据库内核分析》 2、参考书籍:《数据库事务处理的艺术:事务管理与并发控制》 3、PostgreSQL数据库仓库…...

ubuntu清理挖矿病毒

0 序言 我之前搭建的hadoop用于测试,直接使用了8088和9870端口,没有放入docker,从而没有端口映射。于是,就被不法之徒盯上了,hadoop被提交了很多job,使得系统被感染了挖矿病毒,在前几天阿里云站…...

【代码随想录训练营】【Day16】第六章|二叉树|104.二叉树的最大深度|559.n叉树的最大深度|111.二叉树的最小深度|222.完全二叉树的节点个数

二叉树的最大深度 题目详细:LeetCode.104 递归法很容易理解: 定义一个全局变量max, 记录二叉树的最大深度在递归函数中增加一个深度参数,表示当前的节点的深度然后对二叉树进行深度优先遍历当遍历到叶子节点时,比较…...

transformer总结

1.注意力机制 意义:人类的注意力机制极大提高了信息处理的效率和准确性。 公式: 1)自注意力机制 b都是在考虑了所有a的情况下生成的。 以产生b1向量为例: 1.在a这个序列中,找到与a1相关的其他向量 2.每个向量与a1关联的程度&a…...

dart flutter入门教程,开发手册 分享

我最近在学校dart flutter.这是我收集的一些手册和教程. 不需要关注公众号,不需要加好友. 我发现flutter(dart)的中文资料比较奇缺.入门的教程非常多.但是api手册几乎没有(全是英文的). 收集原则 1.中文(我英文不好) 2.不要pdf的,网上有一些pdf的 从入门到进阶的,但是太长…...

教育舆情监测关键词有哪些,TOOM教育舆情监测系统流程?

教育舆情监测是指对教育领域的舆情进行收集、分析和处理的过程。舆情是指公众在各种渠道上对教育政策、教育机构、教育事件等方面的言论、态度和情绪。通过对教育舆情的监测和分析,可以了解公众对教育行业的看法和反应,提高对教育行业的管控能力&#xf…...

MySQL高级(一)

MySQL-day01 1 MySQL简介 1.1 MySQL简介 MySQL是一个关系型数据库管理系统,由瑞典MySQL AB(创始人Michael Widenius)公司开发,2008被Sun收购(10亿美金),2009年Sun被Oracle收购。MariaDBMaria…...

如何将Python项目部署到新电脑上运行?

如何将Python项目部署到新电脑上运行? 在工作中,可能需要在新服务器上部署项目代码,例如新增服务器、把测试环境的代码部署到生产环境等。 在生活中,也会遇到换新电脑,需要将自己在旧电脑上写的(项目&…...

JVM和JAVA体系结构

1、为什么要学习JVM作为Java工程师的你曾被伤害过吗?你是否也遇到过这些问题?运行着的线上系统突然卡死,系统无法访问,甚至直接OOM想解决线上JVM GC问题,但却无从下手新项目上线,对各种JVM参数设置一脸茫然…...

(十)、通过云对象修改阅读量+点赞功能的实现【uniapp+uinicloud多用户社区博客实战项目(完整开发文档-从零到完整项目)】

1,通过云对象importObj修改阅读量 1.1 新建云对象 1.2 云对象中写自增自减方法 封装云对象utilsObj中的自增自减方法,方法名取为operation,传递4个参数。 // 云对象教程: https://uniapp.dcloud.net.cn/uniCloud/cloud-obj // jsdoc语法提…...

刷力扣的第一天脑子要长出来的感觉(怎么有人大四才开始啊啊啊啊啊啊啊啊啊啊啊啊,又是等成绩的一天,)

刷力扣的第一天脑子要长出来的感觉(为什么大四才开始啊啊啊啊啊啊啊啊啊啊啊啊) emmm,自己还是想不太出来(只是一点想法),可能还是会参考评论区,求各位轻喷 分析:带符号一定不是回…...

Nuclei文*件上*传FUZZ POC

目录 1.前言 2. Nuclei文件上传FUZZ POC 3. 实战中的应用 1.前言 该文件上传FUZZ POC主要来源于一个靶*场,该POC 主要用来FUZZ目标js页面中的upload ajax请求,以此来进一步尝试文件上传漏*洞利*用。 这里也要感谢下“打工仔1号”提供的开*发人员常见的文*件上*传javaScr…...

完美解决方案-雪花算法ID到前端之后精度丢失问题

最近公司的一个项目组要把以前的单体应用进行为服务拆分,表的ID主键使用Mybatis plus默认 的雪花算法来生成。 快下班的时候,小伙伴跑过来找我,:“快给我看看这问题,卡这卡了小半天了!”。连拉带拽&#x…...

工程管理系统源码之高效的工程项目管理软件

高效的工程项目管理软件不仅能够提高效率还应可以帮你节省成本提升利润 在工程行业中,管理不畅以及不良的项目执行,往往会导致项目延期、成本上升、回款拖后,最终导致项目整体盈利下降。企企管理云业财一体化的项目管理系统,确保…...

390. 消除游戏

列表 arr 由在范围 [1, n] 中的所有整数组成,并按严格递增排序。请你对 arr 应用下述算法:从左到右,删除第一个数字,然后每隔一个数字删除一个,直到到达列表末尾。重复上面的步骤,但这次是从右到左。也就是…...

springBoot JPA代码生成器

介绍通过IDEA配置文件,根据数据库表结构快速生产Service、ServiceImpl、repository、repositoryImpl、自动生成常用的jpa增删改查等方法。使用的版本Spring Boot2.1.6.RELEASE spring-boot-starter-data-jpa使用idea 生成代码步骤打开idea(https://images.gitee.co…...

相同月利率条件下不同还款方式贷款的APR与IRR研究

文章目录前提假设一次性还本付息先息后本等额本息等额本金简单二分法求解IRR的程序汇总实验对比前提假设 因为常见的信贷产品还款期数定义都是按照月,假设只借一期的利率(月利率)为r,在此条件下,研究不同还款方式下的…...

【论文】智能隧道检测车的现状及改进策略

本文转载自《智慧城轨》2022年第11期 作者:黄丹樱1,韦强1,朱椰毅2,范骁1,林浩立1 单位:1 浙江师范大学工学院;2 浙江金温铁道开发有限公司 声明:本文仅用于学术分享,不做商业用途,如有侵权,联…...

强化学习在并行机构人形机器人控制中的应用

1. 项目概述在机器人控制领域,强化学习(RL)正逐渐成为解决复杂动力学系统问题的有力工具。然而,当面对具有并行驱动机构的人形机器人时,传统RL训练方法往往面临一个关键挑战:大多数仿真环境无法准确模拟闭环运动链(Closed Kinemat…...

Ventoy终极指南:一个U盘启动所有系统,告别重复格式化烦恼 [特殊字符]

Ventoy终极指南:一个U盘启动所有系统,告别重复格式化烦恼 😎 【免费下载链接】Ventoy A new bootable USB solution. 项目地址: https://gitcode.com/GitHub_Trending/ve/Ventoy 还在为每次安装系统都要重新制作启动盘而烦恼吗&#x…...

保姆级教程:在ROS2 Humble/Foxy的Gazebo中配置RGB-D相机(附解决点云颜色/坐标问题)

ROS2 Humble/Foxy中Gazebo深度相机仿真全攻略:从配置到点云问题解决在机器人仿真开发中,深度相机(RGB-D)是不可或缺的传感器之一。它能够同时提供彩色图像和深度信息,为SLAM、物体识别、避障等任务提供关键数据支持。本…...

数组专项(一):数组排序、去重、查找

大家好,欢迎来到《算法面试60讲(2026最新版全真题带解析)》第19篇!上一篇我们彻底吃透了字符串专项的核心难点——BF暴力匹配与KMP高效匹配算法,搞定了字符串模块面试最难的算法考点。从本节课开始,我们正式进入算法面试第一高频模块:数组专项。 在算法面试中,数组是出…...

我靠这个测试设计方法,把漏测率降低了80%

当“直觉测试”撞上南墙很长一段时间里,我和许多测试同行一样,测试用例的设计主要依靠两样东西:需求文档和“测试直觉”。这种模式在业务逻辑相对简单、迭代速度平缓时还能勉强应付。一旦面对复杂的企业级应用、高频的敏捷迭代,或…...

2026年LLM推理加速全景:量化、投机解码与KV Cache工程实战

大语言模型推理速度慢、成本高,是阻碍AI大规模落地的核心障碍之一。一个7B参数的模型,在标准配置下每秒只能生成约30个token,对于需要实时响应的应用来说几乎无法接受。但2026年,一系列推理加速技术的成熟,让这一局面发…...

Postgresql基础实践教程(九)

⭐️⭐️⭐️⭐️⭐️ 完整数据详见 练习数据免费 ⭐️⭐️⭐️⭐️⭐️ 七十二、WITH查询(公用表表达式CTE) 1. SELECT 中的 WITH 2. 递归查询 3. 公用表表达式的物化 4. WITH中的数据修改语句 WITH提供了一种在主查询中写辅助语句的方法。这些语…...

PCL 基于强度的双边滤波【2026最新版】

目录 一、算法原理 1、计算步骤 2、算法源码 3、函数解析 4、参考文献 二、代码实现 三、结果展示 四、滤波后未发生变化的原因 五、解决办法 六、结果展示 七、相关链接 本文由CSDN点云侠原创,博客长期更新,本文最近一次更新时间为:2026年5月24日。 一、算法原理 1、计算…...

CUDA并行计算与FSR框架优化实践

1. CUDA并行计算与FSR框架概述在GPU加速计算领域,CUDA(Compute Unified Device Architecture)作为NVIDIA推出的并行计算平台和编程模型,已经成为高性能计算的事实标准。其核心设计理念是将计算任务分解为网格(Grid&…...

INT8量化下TVA注意力对齐精度保障方案

重磅预告:本专栏将独家连载系列丛书《智能体视觉技术与应用》部分精华内容,该书是世界首套系统阐述“因式智能体”视觉理论与实践的专著,特邀美国 TypeOne 公司首席科学家、斯坦福大学博士 Bohan 担任技术顾问。Bohan先生师从美国三院院士、“…...