当前位置: 首页 > news >正文

生物信息场景下的用户需求

  1. 背景分析

  1. 概念定义

基因测序是一种新型基因检测技术,是基因检测的方法之一,其又叫基因谱测序,是国际上公认的一种基因检测标准。基因测序技术能锁定病变基因,提前预防和治疗。过长的测序周期以及上万美元的仪器成本,成了阻碍基因测序进入寻常百姓家的障碍。而运用新技术的基因测序仪,大大降低了基因组测序的门槛,使得更多研究人员能够使用这项技术开发多种应用。常用的测序平台有Complete Genomics,Illumina HiSeq,ABI SOLiD System,Roche GS FLX Platform,Ion Torrent及Ion Proton等。

  1. 政策纲要

十四五”开局之年,我国发布《中华人民共和国国民经济和社会发展第十四个五 年规划和2035年远景目标纲要》,提出未来我国要大力发展战略新兴产业,利用新一代信息技术,壮大航空航天、海洋装备、新能 源汽车、新能源、生物技术、绿色环保、新材料等产业。“生物医药作为我国十四五规划中战略性新兴产业的主攻方向,更是成为推进健康中国建设的重要支撑点。”5月10日,国家发展改革委印发《“十四五”生物经济发展规划》(以下简称《规划》),明确提出了生物经济发展阶段目标。与此同时,全国多个城市发布相关政策以促进我国生物医药行业发展。

2.生信项目方案

FASS+ NVMe SSD构建分布式全闪存储集群,并将LUN分配给不同的网关节点;

xFile构建高可用网关集群,为业务提供高性能文件存储服务。支持N-1节点故障,NAS共享服务正常;XDFS作为存储底座+SATA硬盘,构建大容量归档近线存储系统磁带库作为离线存储系统。对在一定时间内没有访问的数据进行归档迁移操作,将这些数据按策略归档到磁带库中保证业务数据正常访问的情况下,充分节约在线和近线存储空间。

2.1现状分析

(一)用户分析:

1.元数据保存方式:

·目前用户95%以上元数据由不同机构通过网络上传至华为云上;

·华为云为上传数据提供对象存储服务(OBS),及所有文件均以对象方式保存。

2.数据分析:

·用户通过手动方式将华为云OBS上数据迁移至华为云文件存储上;

· 通过用户专业数据分析系统对迁移至华为云文件存储上的数据进行分析、处理,生成相应报告。

3.数据输出:

·在整个分析过程中会生成结果文件和过程文件;

·结果文件会通过手动方式迁移回OBS上,过程文件保存在华为云文件存储上。

4.数据容量:

·用户每天产生超过1TB的数据,加上过程数据等中间数据,全年数据量可达3-5PB。

(二)存在问题:

1.用户在生产过程中产生大量数据,需要从华为云上获取大量的存储资源,因此每年需要投入较高的费用租用华为云服务。

2.数据流转过程需要通过手动方式进行,效率较低,并且容易造成人为失误。

3.基因测序分析对存储性能要求很高,云上进行无法满足日益增长的分析需求。

2.2整体解决方案

·根据用户需求将华为云OBS上元数据下载至本地私有云存储系统上;

·根据基因测序业务需求和数据特性,TaoCloud以FASS全闪分布式存储为数据底座,结合高性能文件网关,组成一套高性能文件存储集群,为基因测序业务提供高可靠、高带宽、高IOPS、低延时的文件存储服务,本次建设提供200TB可用容量SSD存储池。

·同时配置XDFS分布式统一存储系统,配以SATA HDD构建800TB高性价比存储池,按策略进行数据归档,将过程数据按策略归档至HDD存储池中,实现数据全生命周期管理。

(一)数据下云、上传及归档详细描述:

1、数据下云:

下云数据主要针对用户所有在华为云OBS上保存的对象存储数据,通过在本地分布式全闪存储系统上设置相应策略,将这部分数据定时自动下载至本地私有云存储系统的全闪分布式存储系统上,并以文件形式保存,以便于进行相应的数据分析。

2、数据上传:

上传数据主要针对经过分析所产生的结果数据,同样需要在本地分布式全闪存储系统上设置相应策略,定时将这部分数据上传到华为云OBS上,用以最终用户获取分析结果。

3、数据归档:

元数据在分布式全闪存储系统上经过分析后不仅会产生结果数据,还会产生过程数据,这部分过程数据会被保存在相应的文件夹中通过归档模块根据相应策略迁移归档至分布式文件存储的HDD存储池中进行长期保存。

(二)系统性能:

方案采用分布式全闪+高性能文件网关方式构建业务存储系统(主存储),系统通过全SSD+100GbE网络为业务系统提供高性能存储服务,其性能分为分布式全闪底座块存储性能及文件存储性能,具体性能指标如下:

1、分布式全闪文件存储性能指标:

带宽:20GB/S

OPS:单客户端10000

10客户端100000

满足1000个以上容器通过CSI方式挂载

2、分布式全闪块存储性能指标:

带宽:48GB/S

IOPS:大于800万

延时:小于200微秒

2.3方案优势

(一)完善的计算处理能力

大道分布式存储系统具有非常好的硬件兼容性,在一个集群环境中可以同时部署各种服务器、同时支持ARM等国产CPU架构。用户通过部署高主频CPU、大内存计算节点等硬件资源,可以创建出满足用户各类科研应用的存储硬件资源池,并通过资源管理和调度软件实现资源的有效分配。

在药物研发、化学分子分析、基因测序及蛋白分析的应用软件中,经常需要Windows系统环境的支持。大道分布式存储系统支持Linux和Windows混合架构的HPC计算集群;支持(如Windows2008/2012/2016、Windows 10、Suse Linux、Redhat Linux、Centos Linux)多版本的操作系统。

(二)完整的数据管理功能

药物研发、化学分子分析、基因测序及蛋白分析过程中会产生非常庞大的数据。这些数据包含珍贵的一手测序数据,也包含测序分析过程中产生的过程文件。大道分布式存储系统支持用户的存储空间配额管理,从而为用户提供便捷的数据存储服务。

(三)数据协同共享

大道分布式存储系统还提供基于数据共享实现的数据协同功能,可以通过定义数据共享区,让用户将需要协同交换的数据放到数据共享区。为了保证数据协同的安全性,系统管理员还可以配置用户访问数据共享区的权限。

相关文章:

生物信息场景下的用户需求

背景分析概念定义基因测序是一种新型基因检测技术,是基因检测的方法之一,其又叫基因谱测序,是国际上公认的一种基因检测标准。基因测序技术能锁定病变基因,提前预防和治疗。过长的测序周期以及上万美元的仪器成本,成了…...

linux su(switch user)和sudo(superuser do)的区别?(sudo su与su的区别)

文章目录linux su(switch user)和sudo(superuser do)的区别?sudo su与su的区别linux su(switch user)和sudo(superuser do)的区别? 在Unix或Linux操作系统中…...

PostgreSQL的学习心得和知识总结(一百二十三)|深入理解PostgreSQL数据库开源扩展pg_dirtyread的使用场景和实现原理

目录结构 注:提前言明 本文借鉴了以下博主、书籍或网站的内容,其列表如下: 1、参考书籍:《PostgreSQL数据库内核分析》 2、参考书籍:《数据库事务处理的艺术:事务管理与并发控制》 3、PostgreSQL数据库仓库…...

ubuntu清理挖矿病毒

0 序言 我之前搭建的hadoop用于测试,直接使用了8088和9870端口,没有放入docker,从而没有端口映射。于是,就被不法之徒盯上了,hadoop被提交了很多job,使得系统被感染了挖矿病毒,在前几天阿里云站…...

【代码随想录训练营】【Day16】第六章|二叉树|104.二叉树的最大深度|559.n叉树的最大深度|111.二叉树的最小深度|222.完全二叉树的节点个数

二叉树的最大深度 题目详细:LeetCode.104 递归法很容易理解: 定义一个全局变量max, 记录二叉树的最大深度在递归函数中增加一个深度参数,表示当前的节点的深度然后对二叉树进行深度优先遍历当遍历到叶子节点时,比较…...

transformer总结

1.注意力机制 意义:人类的注意力机制极大提高了信息处理的效率和准确性。 公式: 1)自注意力机制 b都是在考虑了所有a的情况下生成的。 以产生b1向量为例: 1.在a这个序列中,找到与a1相关的其他向量 2.每个向量与a1关联的程度&a…...

dart flutter入门教程,开发手册 分享

我最近在学校dart flutter.这是我收集的一些手册和教程. 不需要关注公众号,不需要加好友. 我发现flutter(dart)的中文资料比较奇缺.入门的教程非常多.但是api手册几乎没有(全是英文的). 收集原则 1.中文(我英文不好) 2.不要pdf的,网上有一些pdf的 从入门到进阶的,但是太长…...

教育舆情监测关键词有哪些,TOOM教育舆情监测系统流程?

教育舆情监测是指对教育领域的舆情进行收集、分析和处理的过程。舆情是指公众在各种渠道上对教育政策、教育机构、教育事件等方面的言论、态度和情绪。通过对教育舆情的监测和分析,可以了解公众对教育行业的看法和反应,提高对教育行业的管控能力&#xf…...

MySQL高级(一)

MySQL-day01 1 MySQL简介 1.1 MySQL简介 MySQL是一个关系型数据库管理系统,由瑞典MySQL AB(创始人Michael Widenius)公司开发,2008被Sun收购(10亿美金),2009年Sun被Oracle收购。MariaDBMaria…...

如何将Python项目部署到新电脑上运行?

如何将Python项目部署到新电脑上运行? 在工作中,可能需要在新服务器上部署项目代码,例如新增服务器、把测试环境的代码部署到生产环境等。 在生活中,也会遇到换新电脑,需要将自己在旧电脑上写的(项目&…...

JVM和JAVA体系结构

1、为什么要学习JVM作为Java工程师的你曾被伤害过吗?你是否也遇到过这些问题?运行着的线上系统突然卡死,系统无法访问,甚至直接OOM想解决线上JVM GC问题,但却无从下手新项目上线,对各种JVM参数设置一脸茫然…...

(十)、通过云对象修改阅读量+点赞功能的实现【uniapp+uinicloud多用户社区博客实战项目(完整开发文档-从零到完整项目)】

1,通过云对象importObj修改阅读量 1.1 新建云对象 1.2 云对象中写自增自减方法 封装云对象utilsObj中的自增自减方法,方法名取为operation,传递4个参数。 // 云对象教程: https://uniapp.dcloud.net.cn/uniCloud/cloud-obj // jsdoc语法提…...

刷力扣的第一天脑子要长出来的感觉(怎么有人大四才开始啊啊啊啊啊啊啊啊啊啊啊啊,又是等成绩的一天,)

刷力扣的第一天脑子要长出来的感觉(为什么大四才开始啊啊啊啊啊啊啊啊啊啊啊啊) emmm,自己还是想不太出来(只是一点想法),可能还是会参考评论区,求各位轻喷 分析:带符号一定不是回…...

Nuclei文*件上*传FUZZ POC

目录 1.前言 2. Nuclei文件上传FUZZ POC 3. 实战中的应用 1.前言 该文件上传FUZZ POC主要来源于一个靶*场,该POC 主要用来FUZZ目标js页面中的upload ajax请求,以此来进一步尝试文件上传漏*洞利*用。 这里也要感谢下“打工仔1号”提供的开*发人员常见的文*件上*传javaScr…...

完美解决方案-雪花算法ID到前端之后精度丢失问题

最近公司的一个项目组要把以前的单体应用进行为服务拆分,表的ID主键使用Mybatis plus默认 的雪花算法来生成。 快下班的时候,小伙伴跑过来找我,:“快给我看看这问题,卡这卡了小半天了!”。连拉带拽&#x…...

工程管理系统源码之高效的工程项目管理软件

高效的工程项目管理软件不仅能够提高效率还应可以帮你节省成本提升利润 在工程行业中,管理不畅以及不良的项目执行,往往会导致项目延期、成本上升、回款拖后,最终导致项目整体盈利下降。企企管理云业财一体化的项目管理系统,确保…...

390. 消除游戏

列表 arr 由在范围 [1, n] 中的所有整数组成,并按严格递增排序。请你对 arr 应用下述算法:从左到右,删除第一个数字,然后每隔一个数字删除一个,直到到达列表末尾。重复上面的步骤,但这次是从右到左。也就是…...

springBoot JPA代码生成器

介绍通过IDEA配置文件,根据数据库表结构快速生产Service、ServiceImpl、repository、repositoryImpl、自动生成常用的jpa增删改查等方法。使用的版本Spring Boot2.1.6.RELEASE spring-boot-starter-data-jpa使用idea 生成代码步骤打开idea(https://images.gitee.co…...

相同月利率条件下不同还款方式贷款的APR与IRR研究

文章目录前提假设一次性还本付息先息后本等额本息等额本金简单二分法求解IRR的程序汇总实验对比前提假设 因为常见的信贷产品还款期数定义都是按照月,假设只借一期的利率(月利率)为r,在此条件下,研究不同还款方式下的…...

【论文】智能隧道检测车的现状及改进策略

本文转载自《智慧城轨》2022年第11期 作者:黄丹樱1,韦强1,朱椰毅2,范骁1,林浩立1 单位:1 浙江师范大学工学院;2 浙江金温铁道开发有限公司 声明:本文仅用于学术分享,不做商业用途,如有侵权,联…...

【OSG学习笔记】Day 18: 碰撞检测与物理交互

物理引擎(Physics Engine) 物理引擎 是一种通过计算机模拟物理规律(如力学、碰撞、重力、流体动力学等)的软件工具或库。 它的核心目标是在虚拟环境中逼真地模拟物体的运动和交互,广泛应用于 游戏开发、动画制作、虚…...

Keil 中设置 STM32 Flash 和 RAM 地址详解

文章目录 Keil 中设置 STM32 Flash 和 RAM 地址详解一、Flash 和 RAM 配置界面(Target 选项卡)1. IROM1(用于配置 Flash)2. IRAM1(用于配置 RAM)二、链接器设置界面(Linker 选项卡)1. 勾选“Use Memory Layout from Target Dialog”2. 查看链接器参数(如果没有勾选上面…...

基于Docker Compose部署Java微服务项目

一. 创建根项目 根项目&#xff08;父项目&#xff09;主要用于依赖管理 一些需要注意的点&#xff1a; 打包方式需要为 pom<modules>里需要注册子模块不要引入maven的打包插件&#xff0c;否则打包时会出问题 <?xml version"1.0" encoding"UTF-8…...

自然语言处理——Transformer

自然语言处理——Transformer 自注意力机制多头注意力机制Transformer 虽然循环神经网络可以对具有序列特性的数据非常有效&#xff0c;它能挖掘数据中的时序信息以及语义信息&#xff0c;但是它有一个很大的缺陷——很难并行化。 我们可以考虑用CNN来替代RNN&#xff0c;但是…...

c#开发AI模型对话

AI模型 前面已经介绍了一般AI模型本地部署&#xff0c;直接调用现成的模型数据。这里主要讲述讲接口集成到我们自己的程序中使用方式。 微软提供了ML.NET来开发和使用AI模型&#xff0c;但是目前国内可能使用不多&#xff0c;至少实践例子很少看见。开发训练模型就不介绍了&am…...

网络编程(UDP编程)

思维导图 UDP基础编程&#xff08;单播&#xff09; 1.流程图 服务器&#xff1a;短信的接收方 创建套接字 (socket)-----------------------------------------》有手机指定网络信息-----------------------------------------------》有号码绑定套接字 (bind)--------------…...

Web 架构之 CDN 加速原理与落地实践

文章目录 一、思维导图二、正文内容&#xff08;一&#xff09;CDN 基础概念1. 定义2. 组成部分 &#xff08;二&#xff09;CDN 加速原理1. 请求路由2. 内容缓存3. 内容更新 &#xff08;三&#xff09;CDN 落地实践1. 选择 CDN 服务商2. 配置 CDN3. 集成到 Web 架构 &#xf…...

RSS 2025|从说明书学习复杂机器人操作任务:NUS邵林团队提出全新机器人装配技能学习框架Manual2Skill

视觉语言模型&#xff08;Vision-Language Models, VLMs&#xff09;&#xff0c;为真实环境中的机器人操作任务提供了极具潜力的解决方案。 尽管 VLMs 取得了显著进展&#xff0c;机器人仍难以胜任复杂的长时程任务&#xff08;如家具装配&#xff09;&#xff0c;主要受限于人…...

Go语言多线程问题

打印零与奇偶数&#xff08;leetcode 1116&#xff09; 方法1&#xff1a;使用互斥锁和条件变量 package mainimport ("fmt""sync" )type ZeroEvenOdd struct {n intzeroMutex sync.MutexevenMutex sync.MutexoddMutex sync.Mutexcurrent int…...

Redis:现代应用开发的高效内存数据存储利器

一、Redis的起源与发展 Redis最初由意大利程序员Salvatore Sanfilippo在2009年开发&#xff0c;其初衷是为了满足他自己的一个项目需求&#xff0c;即需要一个高性能的键值存储系统来解决传统数据库在高并发场景下的性能瓶颈。随着项目的开源&#xff0c;Redis凭借其简单易用、…...