假如为人类基因组计划插上 EHPC 的“翅膀”,世界将会怎样?

百家 作者:QingCloud 2022-08-01 21:07:17












如果说 18、19 世纪是蒸汽机、电动机的时代,20 世纪是信息化的时代,那么 21 世纪可以说是生命科学、人工智能的时代。



物理学家伦琴发现 X 射线,为沃森和克里克提出 DNA 双螺旋结构提供了重要的技术基础。


DNA 双螺旋结构的发现标志着人类对生命科学的研究进入了分子水平,预示着人们即将揭开生命遗传的神秘面纱,对于更为深入地认知生命过程,进行疾病控制和品种改良等具有划时代的意义。



“高冷”的超级计算与“神秘”的生命科学



生命科学作为 21 世纪最重要的科学分支之一,离不开信息技术的突破与发展;高性能计算作为人工智能模型建立的基础,对生命科学的研究起到非常重要的推动作用。



随着基因测序技术的飞速发展,基因组序列的海量数据不断涌现,数据正以指数级增长,对于如此庞大的基因进行同源性搜寻、比对、分析和遗传发育分析等等,往往伴随着巨大的数据处理量和并行计算量。


同时,由于生命科学的研究对象往往是蛋白质和 DNA 的大分子,对这些分子的三维结构的预测,动力学特性、热力学特性、在生命过程中如何发生作用,进行分子动力学模拟以及利用计算机辅助药物设计等等科学问题,都需要借助计算机来处理。


高性能计算作为一种用于解决计算密集型、海量数据处理等计算需求的计算科学形式,正是生命科学所需要的,可以通过计算分析、模拟试验,来验证理论的正确性。


高性能计算(High Performance Computing,缩写 HPC)可以理解为使用很多处理器或者是某一集群中的几台计算机的硬件资源、计算系统和环境,将大规模的运算任务拆分成很多小任务,分发到各个服务器上并行计算,再将计算结果汇总成最终的结果。



前文提到基因组数据是非常庞大的,这个“庞大”是什么概念呢?


举个例子,人类的基因组大约包括 30 亿碱基对,相当于 3GB 的数据,而如果考虑到准确测序所需的深度或覆盖倍数,比如 30 倍就能取得相当准确的测序数据,那么一个人的基因组数据量将达到 100GB 左右。


有一种植物叫重楼,是一种很有名的中草药,能清热解毒、消肿止痛。在重楼中有一个种类叫做重楼百合,重楼百合有着世界上最庞大的基因组,基因组中拥有大约 1500 亿个碱基对,差不多是人类基因组数据量的 50 倍。考虑准确测序,重楼百合的基因组数据量至少有 4TB。


据专业人士预测,基因研究工程需要的计算资源(包括计算速度、内存和磁盘存容量以及网络通信能力)将超过人类登月工程的上百万倍。


著名的“人类基因组计划”于 1990 年启动,耗时 13 年、花费 30 亿美元初步完成人类全基因组测序,当时测一个基因组需要花费 1 亿美元;而现在,一个基因组测序费用降到了 1000 美元以下,测序时长缩短到了 1-10 天。


测序的成本和时长均呈现超摩尔定律下降,基因测序逐渐走入寻常百姓家,而让基因测序变得可用、实用的关键因素之一就是 HPC 技术的应用。


我国一直积极发展高性能计算技术,相继出台“863”、“新基建”、“十四五”和“东数西算”等政策方针指导,数据中心市场不断扩大,国家和企业自建的数据中心规模稳步快速增长。



弹性高性能计算助力破解生命密码



科学技术的发展与应用相辅相成。随着生物学数据不断增长和生命科学研究的不断深入,传统 HPC 逐渐显现弊端:过于依赖人工运维与管理,排期和等待时间长;租户共用超算网络,面对各种新型网络攻击方式,网络安全问题重重;购买硬件设备自建投入大,周期长,作业高峰期资源不足,作业低谷期资源浪费严重,等等。


为了更好地适应新的计算需求,生物学家们开始使用一种新的计算方式,也就是弹性高性能计算


弹性高性能计算(Elastic High Performance Computing,缩写EHPC)提供弹性和可扩展的 HPC 计算资源,是传统 HPC 技术与云计算技术的融合升级。


用户可以同时享有 HPC 计算的超高性能和云计算的弹性与可扩展性,通过快捷、弹性、安全以及互通的公有云高性能计算服务,实现计算资源的弹性定制,大大降低了作业费用,提高了资源利用率,具有极大的灵活性。


据报道,近日斯坦福大学研究团队将人类 DNA 测序的时间缩短至 5 小时 2 分钟,重新定义了人类基因组测序速度,该研究团队就是利用了 EHPC,将病例样本原始信号数据实时传输到云存储,通过云计算系统对算力进行弹性扩容,将数据分布到多台云计算机上实时筛选,使测序后运行时间减少了 93%。



生命科学领域不乏优秀的 EHPC 解决方案,以 QingCloud EHPC 生命科学云解决方案为例,其基于青云QingCloud 云基础设施,面向基因测序分析、药物虚拟筛选、蛋白质结构预测、分子动力学模拟等应用场景,为生命科学行业用户提供一站式高性价比解决方案。



计算资源

Intel Xeon 6258R 型号 CPU,双核,单颗处理器主频 2.7GHz、28 核,单核心峰值 86.4 GFlops,GPU 计算采用 NVIDIA GPU A100 卡;



存储资源

采用分布式并行文件系统 Lustre 商用版本,提供 GB 级吞吐,百万级 IOPS;



网络资源

采用专用 IB 网络,计算节点之间,计算与存储之间通信最高达 100GB/S;



软件资源

平台预置 300+ 共享软件仓库,如,用于生物分子序列数据进行同源及相似性分析的 BLAST、FASTA、HMMER、SHAPEIT,用于分子动力学模拟的 AMBER,用于计算机辅助药物设计的 AutoDock 等应用软件,一键勾选即可快速开启云上作业任务,除平台预置的软件外,还支持用户自研软件及其他应用软件的安装。


QingCloud EHPC 架构图



EHPC 在生命科学领域中的应用



◉ 应用场景 1:基因测序分析解决海量基因测序数据对计算、存储、资源弹性、应用软件、数据可视化的需求。


解决方案:


  • 资源丰富:提供丰富的算力资源支持、数据管理、软件应用的一站式服务;

  • 弹性伸缩:计算和存储资源按需扩容,即开即用,无等待时耗;

  • 应用软件:预置多款应用软件,并支持按需安装及应用,支持基因测序场景使用;

  • 结果可视化:样本分析结果和变异检测结果可以直接在线查看、预览和下载,也可以直接共享给集群内用户。


QingCloud EHPC 基于基因测序分析的服务场景图


◉ 应用场景 2:蛋白质结构预测,解决蛋白质结构建模及预测对浮点计算能力、分子结构解析精度的需求。


解决方案:


  • 高性能异构资源:每个节点内采用“CPU+GPU”异构模式,每个节点可以配置多块 GPU A100 卡;

  • 强大的训练能力:提供多种 GPU 实例规格,灵活满足蛋白质结构模型训练和数据分析所需的算力资源;

  • 优异的推理能力:GPU A100 通过全系列精度加速,提供领先的推理能力,实现强大的多元化用途;

  • 巨大的存储能力:分布式并行文件系统 Lustre 商用版本,GB 级吞吐,百万级 IOPS,有效支撑多软件大内存和 IO 需求。


QingCloud EHPC 基于蛋白质结构预测的服务场景图


◉ 应用场景 3:药物研发,解决靶标分子合成及测试生物活性对算力、内存、时效的需求。


解决方案:


  • 调度系统:EHPC 集群基于 SLURM 等多种调度系统,实现多任务并行计算,提高研发时效;

  • 计算资源:提供 CPU 和 GPU 两种计算资源,并提供不同实例规格,按需满足药物研发全流程计算需求;

  • 并行文件系统:采用 Lustre 并行文件系统及 NAS 共享文件存储,满足分布式并行读写能力的同时,支持多用户共享数据资源及计算成果;

  • 用户权限管理:实现多用户协同作业,适应药物研发多人多作业项目场景。


QingCloud EHPC 基于药物研发的服务场景图


◉ 应用场景 4:分子动力学模拟,解决分子力场的计算量对大规模并行计算、应用软件、网络低延时、经济性价比的需求。


解决方案:


  • 提供丰富的超算算力资源:满足分子动力学场景下的生信计算对资源的需求;

  • 应用软件:软件中心预置 50+ 种分子动力学软件,无需安装,直接调用,简单快捷享用一键式作业提交;

  • 低延时高带宽:所有设备支持 IB 网络,计算节点之间、计算与存储之间通信最高达 100GB/S,包含 IB 交换机、IB 网卡(每个节点双卡),最多不超过 2 层转发;

  • 性价比高:按需购买队列或集群,灵活计费,省时省钱,无额外费用损耗。


QingCloud EHPC 基于分子动力学模拟的服务场景图


◉ 应用场景 5:生命科学行业对混合云架构数据安全性的通用需求。


解决方案:


青云QingCloud 是一家国产自研的企业级云服务商与数字化解决方案提供商,无缝打通公有云和私有云,交付一致功能与体验的混合云。基于混合云框架和技术的 QingCloud EHPC 高性能计算平台提供多租户隔离机制,可大大提高数据安全性和高可用性。


平台支持 Singularity 容器应用,集群集成 Singularity 容器环境,用户可以将容器应用上传后使用 EHPC 集群,有效解决应用软件与部署环境的适配问题,降低软件部署的复杂度,提高软件管理及运维效率。


平台提供符合网络安全等级标准的防护措施和隐私计算,帮助生命科学领域的用户打破数据孤岛的同时,有效消除安全隐患。


QingCloud EHPC 基于混合云的服务场景图



给时光以生命



2001 年,人类基因组工作草图的发布被认为是人类基因组计划成功的里程碑事件,距今已过去 20 余年。


今年 3 月,科学家首次公布了第一个完整的、无间隙的人类基因组序列,这是对标准人类参考基因组,即 2013 年发布的参考基因组序列(GRCh38)的“重大升级”。


《科学》杂志这样总结:最新的人类参考基因组代表着重要的一步,表明可以组装代表所有人类的基因模型,这将更好地支持个体化医疗、人口基因组分析和基因组编辑。


这意味着围绕基因组学进行癌症、精神疾病等各种疾病的个性化治疗有望进一步实现。不禁令人想象,假如穿越 1990 年,为人类基因组计划插上 EHPC 的“翅膀”,现在的世界将会怎样?


伟大的数学家、物理学家帕斯卡曾说过:给时光以生命,而不是给生命以时光。


在科学技术爆炸式发展的今天,越来越多的未解之谜将被科学解开,人类在有限的生命中探索着无限的价值,生命科学的发展注定在新一代科学技术的引领下更好地造福人类。





戳下方二维码

快速开启云上超算之旅

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接