华为云:解码人类基因的奥秘,Kubernetes 是隐身的“英雄”

在科学的视角中,一切事物都妙趣横生,包括人类本身。

一直以来,我是一个与牛奶 " 绝缘 " 的人,就是人们常说的乳糖不耐受。为什么我和别人不一样?直到有一天,我得知这是由于基因所致的乳糖代谢能力差,就像有些人酒量好、有些人喝咖啡无法入睡 ...... 对于同一种食物有着不同的反应,看似生活中的平凡小事,背后都隐藏着精巧的基因学密码。

DNA 的奇妙之旅

人类是真核生物,共有 23 对染色体,包含 22 对长染色体和一对性染色体。如果这些 DNA 做统一的处理,在性细胞里有 31 度的碱基对,而二万多二万五千对的基因决定了人类的身高、体重、相貌等特征,还决定了对牛奶等食物是否敏感、以及对药物和疾病的易感性,甚至于头发的多少也和基因有一定的关系。DNA 提取出来了以后,碱基就像乐高拼图一样,组成了我们的基因序列。DNA 作为人类生命的编码,就像是计算机的二进制编码决定着程序一样。

人类对 " 解码 " 自己充满着好奇心。2003 年,耗资 30 亿美元的人类基因组计划完成,代表着人类基因草图绘画的完成,成为一个里程碑事件,在此之后,单人全基因组测序成本不断下降,个人消费级的基因检测从数千美元下降到一百美元以内。

随后,针对消费市场的基因检测公司与企业的数量呈现爆发式增长,总部位于陕西西安、2016 年成立的图灵生物是全国五千家向用户提供基因检测服务的公司之一。

那么,基因测序究竟是什么?这个行业面临的挑战和机会是什么?又和当今科技行业流行的云原生,容器、Kubernetes 产生哪些化学反应?图灵生物 CTO 王超向笔者解答了以上的疑问。

图灵生物 CTO 王超

实际上,基因测序和计算机技术是相辅相成的。据王超介绍,当从口腔上皮细胞提取出 DNA 之后,接下来是核酸提取和建库的过程,然后就会 " 上机 "。数据形成原始数据,全基因大概是 150G,外显子是 60-70G 的大小,芯片会提取需要的大约 15M 数据进行检测。数据提取后进入到分析阶段,首先检测这些数据的质量合格与否,其次进行扩展的使用,再次,分析基因群和人体中的某一个表现的关联性,比如乳糖不耐、花粉敏感……通过组建众多的数据库,对基因进行进一步解读。

从 HPC 到 Kubernetes

对于大多数基因检测企业来说,数据的处理过程都是依靠 HPC 来完成的。王超介绍说,在此前,图灵生物的测序中心旁边,建立了私有的数据中心,采用 HPC 的方式,通过共享的存储和集群来完成基因的存取和分析工作。而随着业务的增加和数据量的激增,会导致资源管理遇到非常大的挑战,尤其是存储和计算 ; 此外,还存在着维护大量 " 碎片化 " 工具的挑战," 每天 5000 多个工具是非常原始化的,这些工具分散在基因组、转入组、蛋白质组等,这些工具有开源的、也有闭源的,开发的语言也不一样,包括 R 语音、比较底层的 C++ 等,如何将这些工具安装部署、如何串联起来管理、甚至日常打补丁等基础维护都面临很多困难和挑战。" 王超说。

于是,图灵生物技术团队在研究和调研的过程中,发现容器和 Kubernetes 和基因测序是可以完美切合的 " 天生一对 "。因为如果采用容器化的方式进行打包和封装,那么管理、升级都非常方便,而且用 Kubernetes 进行管理,资源的调度和维护都会变得简单,对于环境的扩容非常有利。

找到了完美的方案,就如长夜漫漫后的曙光一样让人兴奋。但随后,便被 " 阴霾 " 所笼罩。图灵生物的技术团队对于容器技术比较陌生,由于已经习惯了 HPC 的环境,要转到云原生和容器的环境,存在着门槛:不仅要学习 Kubernetes 等关于容器的项目,还要了解如何在新的环境下写基因应用,这个过程将会付出相当大的学习成本。此外,在基因测序的过程中,流程管理非常复杂,想要把 Kubernetes 放在基因测序的工作流程中,中间也存在一定的鸿沟。

" 如果有一种方式可以将一切简化,那就好了。" 王超说,而正在困扰的时候,华为云走进了他们的视野。

GCS 基因容器:更省、更快、更轻松

在 2018 华为全联接大会上,华为云推出了以 Kubernetes 为基础的基因容器服务,它是专门为基因计算设计容器产品,将基因测序和容器技术完美结合在一起。基因容器基于轻量级的容器技术,结合大数据、深度学习算法,为测序厂商提供了灵活可定制的测序流程、秒级可伸缩的高可靠资源和便捷一站式用户体验。

华为云 BU PaaS 产品部总经理 廖振钦

据笔者了解,华为云在 Kubernetes 封装了一层关于基因测序的抽象、将 K8S 做了封装,让基因行业可以迅速部署和使用容器技术,帮助基因行业的用户提高资源利用率,轻松应对波峰波谷,降低环境搭建的复杂性。

具体来说,GCS 基因容器可以让基因计算 " 更省、更快、更轻松 ":

首先,集群自动扩缩容保证永远资源最小消耗、任务投放密度更高保证资源得到最大利用、提供一站式服务保证运维成本低,让企业省钱。

其次,容器的高并发度带来的性能提升,减少了计算时间 ; 其支持 Deepvarient、Spark 等深度学习工具,提高计算效率 ; 同时基因容器也会支持更多 AI 工具,加速测序进程 .... 意味着 " 更快 "。

再次,基因容器基于容器思想带入测序领域,实现全测序软件容器化,软件免安装免升级,一键节点维护,日志、监控一目了然,使得维护复杂度呈指数级下降,让企业更轻松。

在应用 GCS、从 HPC 迁移到了 Kubernetes 后,图灵生物快速弥补了行业短板,从而能够专注在基因测序技术的创新领域上," 快 " 人一步,逐渐成为了行业领军者。

从 GCS 到 KubeGene 的开放进化论

虽然一直保持着低调,但华为云实际上是 Kubernetes 领域的早期践行者。早在 2015 年,就首次加入了 Kubernetes 社区,并作为创始会员之一参与发起了 CNCF 基金会 ;2016 年,国内第一家发布基于 K8S 的容器服务 CCE;2017 年第一批成为全球 K8S 认证的服务提供商,并且 CCE 也首批通过了 K8S 的一致性认证。

三年来,华为在基金会领域持续积极贡献:在 Kubernetes 领域,华为先后大颗粒贡献了集群联邦、高级调度策略、IPVS 负载均衡,容器存储快照等项目。并通过 CloudNativeLives 直播、参与组织各类技术峰会和云原生技术沙龙、发表技术文章等的形式,持续贡献力量构助力构建国内云原生生态。目前,华为云在 CNCF 基金会,全球贡献 3000+ PR,全球排名第三,国内排名第一。

Kubernetes 和 Cloud Native 的技术不是完美的,对于用户来说,挑战在于存在一定的复杂性,门槛比较高。" 对于做容器迁移的企业来说,即使十个人左右的团队都觉得非常吃力,而更多的企业则更难投入这么多人力来做这方面的研究工作。 华为云是要把 Kubernetes 的技术做成一个服务,按照云服务的方式提供,赋能给各行业的企业用户,让他们更方便使用云原生技术。华为云在 2016 年推出了基于 K8S 容器的 CCE 服务,今年推出了 CCI 服务,更进一步降低了门槛。" 华为云 BU PaaS 产品部总经理廖振钦介绍道。

在不久前的 KubeCon + CloudNativeCon 2018 ( 以下简称 KubeCon ) 大会上,华为云宣布将 GCS 开源:基于容器技术的一站式基因测序计算框架 KubeGene,希望借助社区和生态的力量,让 KubeGene 发挥更大的价值,降低行业开发者学习云原生和容器的技术门槛。

有强劲容器技术的支撑,再结合基因测序场景所出现的具体的痛点,华为云在云原生技术生态构建和行业使能上必然将越来越发挥出更多效用,而人类也正在离全方位解码自己的目标越来越近。

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();