网站里添加百度地图,建设推广型网站,网站建设 义乌,上海交通网站建设1、基因行业背景
1.1. 中国基因市场分析
基因组学是未来精准医疗的“基石”。70%的基因企业选择使用云计算来处理基因组相关业务。过去一年内#xff0c;阿里云为基因医学影像数据提供了安全可靠的存储#xff0c;500%数据增长#xff0c;增长迅猛。强大无限制的计算能力阿里云为基因医学影像数据提供了安全可靠的存储500%数据增长增长迅猛。强大无限制的计算能力阿里云支撑了百万以上的基因样本数据分析工作。 2. 基因行业的存储痛点和需求分析
2.1. 基因组学数据管理相对复杂
一家大型基因测序功能公司每日会产生 10TB 到 100TB 的下机数据大数据生信分析平台需要达到 PB 级别的数据处理能力这背后需要生物科技和计算机科技的双向支撑。测序应用从科研逐步走向临床应用计算模式从离线向在线演进交付效率越来越重要。多变的数据处理流程以及大量的生物信息软件版本的管理大量排队的数据处理任务由于生物信息软件的运行特性CPU平均利用率仍然不足难以无人职守的处理失败任务成本居高不下等等问题存在于以下的现有的系统中催生了生物信息行业对云计算和云原生技术的拥抱姿态在成本弹性效率规模也提出了更高要求。
从基因业务角度理解基因行业的数据处理的主要需求是提升效率降低成本。基因场景的数据传输要求高速、稳定。如下图所示是基因业务的数据处理流程图。 典型的基因行业数据传输与交付场景如下• 测序服务商海量数据上云数据上云有多重途径通过OSS工具、存储网关、闪电立方等。一般1PB数据离线迁移最快1周上云。• 科技服务公司企业客户数据交付。数据交付通知杭州到上海同账号的跨地域复制的数据交付在线迁移服务完成跨地域、跨账号交付。杭州传到全球访问全球访问加速。杭州传到企业用户基于阿里云ram子账号企业客户自己账号系统的交付体系。• 样本数据保存进行高吞吐分析计算对存储要求高吞吐、高IOPS对计算资源要求弹性、横向扩展。• 科研院所分析结果实现全球数据分发快速一般每天交付19TB数据全球14个数据中心保障快速就近交付。• 分析结果长期保存归档要求高性价比、高可靠性。
2.2. 典型的基因行业的数据存储痛点
1、数据存储数据增长快存储费用高管理困难长期保存数据可靠性难以保障需要寻求低成本大数据量的数据压缩方式元数据管理混乱数据清理困难。
2、分发共享海量数据需要快速、安全的分发到国内多地及海外传统硬盘寄送方式周期长可靠性低多地中心数据需要共享访问。
3、计算分析批量样本处理时间长资源需求峰谷明显难以规划大规模样本的数据挖掘需要海量计算资源本地集群难以满足计算工作流流程迁移困难、线上线下调度困难、跨地域管理困难线下弹性能力差按需计算需求。
3、阿里云基因容器存储解决方案
阿里云上的基因行业的容器存储解决方案架构如下 阿里云基因文件存储解决方案说明
• 基于AGS/ACK工作流搭建极速、低成本、高精度的基因测序的容器计算环境根据业务需求按需弹性提供计算资源解决业务高峰期排队问题的同时提高资源利用率。
• 文件存储可以对接容器基因计算环境满足基因测序的计算和数据共享需求
• NAS为基因行业用户提供低时延、高 IOPS 的文件存储用于基因数据分析中的共享存储保存下机数据和组装后的数据以及过程中的中间数据。
• NAS计算结果数据会同步到 OSS 存储文件存储集成OSS 提供海量存储空间同时通过冷数据归档存储降低存储成本。保存测序仪下机数据和组装后数据以及分析结果数据用于数据的分发、归档、交付。保证10000用户同时上传、下载数据提高数据交付效率。
阿里云整体解决方案在基因行业的优势
• 生态闭环70%的基因行业客户都在阿里云上包括100%的测序工厂头部客户跟阿里云有高速专线基因数据在阿里云上各个基因客户之间高速流动
• 产品成熟K8S、ACK、AGS、OSS、NAS等产品都已经商业化多年在基因行业客户得到广泛使用。对比友商我们的产品稳定功能丰富性价比高
• 行业老兵服务基因行业多年深入理解客户的业务场景和痛点针对性的解决了数据上云、数据分析、数据交付的问题给客户提供端到端的解决方案
• 全球化借助阿里云全球基础设施以及跨境高速通道帮助客户拓展海外业务。
阿里云文件存储解决方案在基因行业的优势
• 扩展能力强集群最大规模支持近万个节点容量可达数十PB规模便于基因海量数据的性能升级和容量扩展。
• 性能能力强协助客户使用高性能文件存储有力支撑基因业务增长带来的大容量和高性能需求大大提高海量数据快速分发和基因计算分析效率。
• 更经济通过阿里云文件存储服务构建基因测序高性能工作负载没有一次性成本投入或冗长的采购周期享受按需付费、更经济的基础设施资源。
• 灵活敏捷阿里云高性能文件存储服务与ACK等计算集群整合支持集群直接挂载文件系统多种产品选型通用型NAS、CPFS公共云及CPFS一体机满足不同基因用户性能、成本、多云部署需求灵活售卖方式资源弹性伸缩按需购买支持云下和云上整体解决架构既提供线下固定资产输出方案满足对数据存储管理和基因业务高性能的双重要求也提供快速数据上云的方案。
• 数据生命周期管理支持数据智能流转至低频节约成本支持集成OSS实现数据计算、分发、归档、交付的智能数据流转智能数据冷热分层同时满足基因快速高效计算和海量基因数据成本优化需求。阿里云文件存储解决方案用户收益
• 敏捷按需使用弹性扩展• 超高性能存储提高基因计算的高性能和效率
• 数据冷热分层降低成本
4、基因行业容器文件存储介绍
阿里云文件存储NAS为非结构化数据提供存储服务。随着云原生的快速发展许多公司的容器化应用程序使用NAS存储数据有些甚至存储PB级数据。阿里云在云原生布局上提供容器K8s服务ACK、弹性容器实例ECI、容器服务ACK/ASK容器实例使用NAS文件系统作为持久化存储。容器存储离不开共享文件存储。通常彼此共享数据的容器自然需要共享文件存储长期运行的容器也可使用共享文件存储应对故障。阿里云文件存储同时满足容器应用场景对持久化存储弹性伸缩、灵活挂载、高性能的需求。此外容器镜像的配置文件或初始加载数据存储可以在 NAS 文件存储上实现共享在容器批量加载时实时读取多 POD 间通过 NAS 共享持久化数据在 POD 故障时可以进行故障切换。阿里云NAS是容器存储的自然选择因为它是一种完全托管的服务配置简单添加或删除数据时自动扩展和容器基础架构一样灵活便捷。它还可以扩展到每秒数GB的吞吐量以及每秒数万的IOPS。它基于 POSIX 文件接口提供 NFS / SMB 协议天然适配原生操作系统提供共享访问同时保证数据一致性和锁互斥。文件存储中的数据在可用区内以多副本冗余方式存储避免数据的单点故障风险。
文件存储目前包括三款产品分别是通用型NAS、极速型NAS和CPFS并行文件存储为企业应用、大数据处理、小文件存储、高性能计算等场景提供全方位解决方案。了解更多阿里云文件存储
阿里云文件存储主要具备以下特性无缝对接容器存储插件简化的云原生体验
文件存储基于POSIX/NFS/SMB文件接口现有应用无需任何改造可直接从本地磁盘平滑迁移至文件存储。针对容器编排文件存储提供了CSI、Flexvolume存储插件简化部署和使用拥有完整的云原生体验。
共享持久化数据故障灵活切换
文件存储具备多节点共享访问能力文件存储还可以在不同可用区不支持跨地域、不同VPC之间共享。多Pod间通过NAS共享持久化数据在POD故障时可以进行故障切换。统一的名字空间统一的管理方式。弹性文件系统无需扩容缩容0-10PB完全按量。
高性能加速在容器批量加载时实时读取
文件存储基于分布式存储架构具备性能水平扩展能力。提供不同类型、不同规格存储产品充分满足各类应用的吞吐、延迟、IOPS和小文件等性能需求。文件存储支持us时延数十GB吞吐加速存储访问提升应用性能在容器批量加载时实时读取数据支撑有状态应用、AI数据智能应用。
企业级应用特性Pod存储安全可靠
文件存储支持副本、纠删码技术同时通过备份、快照提供完整的数据保护和恢复机制。支持传输、落盘加密确保数据不会被任何人窃取和篡改。统一命名空间支持海量pod存储隔离和统一管理。
持久化数据生命周期管理优化成本
文件存储提供按量付费模式您只需为正在使用的存储空间付费不需要提前配置存储并且不存在最低费用或设置费用。借助文件存储的共享能力可以节约大量的冗余数据拷贝和同步费用。数据生命周期管理支持冷热分层自动归档冷数据降低成本90%。 本文作者孟威
原文链接https://developer.aliyun.com/article/768760?utm_contentg_1000161277
本文为阿里云原创内容未经允许不得转载。