服务粉丝

我们一直在努力
当前位置:首页 > 科技 >

人工智能驱动的生命科学研究新范式

日期: 来源:中国科学院院刊收集编辑:中国科学院院刊

本文刊载于《中国科学院院刊》2024年第1期“专题:大力推进科研范式变革”

李鑫1,2  于汉超3*

1 中国科学院动物研究所

2 北京干细胞与再生医学研究院

3 中国科学院  前沿科学与教育局

生物技术和信息技术的迅速发展,使生命科学进入了数据爆发的新时代。随着人工智能(AI)在生命科学研究领域持续取得颠覆性突破,AI驱动的生命科学研究新范式呼之欲出。文章通过深入剖析AI驱动的生命科学研究的典型范例,提出了生命科学研究新范式的内涵和关键要素,阐述并讨论了新范式下的生命科学研究前沿和我国面临的挑战。

2007年,图灵奖得主吉姆·格雷(Jim Gray)提出了科学研究的四类范式:第一范式是实验(经验)科学;第二范式是理论科学;第三范式是计算科学;第四范式是数据科学。科学研究的范式变革体现了人类对宇宙探索的深度、广度、方式和效率的演进。

生命科学的发展经历了多个阶段,其研究范式的演进也有其独特的学科属性。在生命科学早期发展阶段,生物学家主要通过观察不同生物体的形态和行为模式来探索生物存在的一般形式和演化的共同规律。从20世纪中叶开始,生命科学研究进入了分子生物学时代。随着生命科学的进一步发展和新型生物技术的快速涌现,科学家通过高通量、多维度组学数据分析与实验科学结合的方式对生物过程进行更加精细的描述和解析,成为现代生命科学研究的常态。

然而,生命系统具有多层面的复杂性,涵盖了从分子、细胞到个体不同层次,以及个体间的种群关系、机体与环境的互作关系,展现出多层级、高维度、高度互联、动态调控的特点。现有的实验科学研究范式在面对如此复杂的生命系统时,往往只能从特定尺度对有限数量的样本进行观察描述和研究,难以全面理解生物网络的运作机制;并且高度依赖人的经验和先验知识对特定生物关系进行探索,难以从大规模、多样性、高维度数据中高效提取隐匿的关联和机制。面对生命现象中复杂的非线性关系和难以预测的特征,人工智能(AI)技术展现出强大的能力,并且已经在蛋白质结构预测、基因调控网络模拟解析方面表现出颠覆性的应用潜力,将生命科学研究由实验科学为主的第一范式推向以人工智能驱动的生命科学研究新范式——第五范式(图1)。

图1 生命科学与人工智能的发展简述

本文将从AI驱动的生命科学研究典型范例、生命科学研究新范式的内涵和关键要素、新范式赋能的生命科学研究前沿及我国面临的挑战3个方面进行系统论述。

1.人工智能驱动的生命科学研究典型范例

AI技术以其优越的模式识别和特征提取能力,能够在庞大的参数堆叠情况下超越人类理性推理能力,从数据中更好地理解复杂生物系统中的规律。当拥有充足且高质量的数据和适配于生命科学的算法时,AI模型就能够在多层次的海量数据中以“低维”数据预测“高维”信息及规律,实现从基因序列和表达等低维数据到细胞、机体等高维复杂生物过程规律揭示的跨越,解析复杂的非线性关系。近年来生命科学领域涌现出了蛋白质结构解析、基因调控规律解析等一批AI驱动生命科学研究发展的典型范例。

蛋白质结构解析范例

蛋白质作为生物体内关键功能的执行者,其结构直接影响运输、催化、结合和免疫功能等重要的生物过程。捕获蛋白质折叠的底层规律从而实现对蛋白质结构的精准预测,一直是结构生物学领域最重要的挑战之一。

AlphaFold 2利用基于注意力机制的深度学习算法,对大量蛋白质序列和结构数据进行训练,并结合物理学、化学和生物学的先验知识,构建了包含特征提取、编码、解码模块的蛋白质结构解析模型。在2020年国际蛋白质结构预测竞赛(CASP14)中,其蛋白质三维结构预测准确性甚至可与实验解析的结果相媲美。这一突破为生命科学领域带来了全新的视角和前所未有的机遇,主要体现在3点。

1)对药物发现领域产生了直接影响

大多数药物通过与体内蛋白质特殊结构域的结合而引发蛋白质功能的变化,AlphaFold 2能够快速计算出海量目标蛋白质的结构,从而有针对性地设计药物以有效地与这些蛋白质结合。

2)对蛋白质的理性设计提供了新的可能性

一旦AI对蛋白质折叠的底层规律有了深刻理解,就可以利用这一知识设计出折叠成所需结构的蛋白质序列。这使得生物学家可以根据需求自由设计和改造蛋白质或酶的结构,如设计更高活性的基因编辑酶,甚至是自然界中不存在的蛋白质结构。同时也推动了人们对基因编码信息在蛋白质层面结构投射规律的理解,并将大幅提高人类对生命的改造能力。

3)AlphaFold 2彻底改变蛋白质结构解析领域的研究范式

从只能通过费时费力的传统实验技术解析蛋白质结构转变为低门槛、高精度、高通量地预测蛋白质三维结构的新范式,证明通过将蛋白质知识和AI技术相结合,可以提取和学习到高维、复杂的知识,促进对蛋白质物理结构和功能的更深入理解。

基因调控规律解析范例

人类基因组计划被誉为20世纪人类三大科学计划之一,揭开了生命奥秘的序幕。传统生物信息分析方法只能处理少量数据,对大规模、高维度且缺乏准确标注的生物组大数据难以捕捉数据中复杂的非线性关系。

近年来,自然语言处理技术的不断突破,特别是大语言模型的迅猛发展,能够通过训练语料数据使模型具有理解人类语言描述知识的能力,为解决这一领域问题带来了新思路。国际多个研究团队借鉴大语言模型的训练思路,相继基于数以千万计的人类单细胞转录组谱数据和庞大的算力资源,利用Transformer等先进算法和多种生物学知识,构建了多个具有理解基因动态关系能力的生命基础大模型,如GeneCompass、scGPT、Geneformer和scFoundation等。这些生命基础大模型以基因表达等底层生命活动信息为训练基础,利用机器来学习理解这些“低维”的生命科学数据与复杂“高维”的基因表达调控网络、细胞命运转变等底层生命机制之间的关联性和对应规律,实现以低维数据对高维信息的有效模拟和预测。这种对基因表达调控网络的模拟可以在广泛的下游任务中表现出卓越性能,为深入理解基因调控规律提供了全新的途径。

2.生命科学研究新范式的内涵和关键要素

随着生物技术的不断进步、生命科学数据的快速增长、AI技术的飞速发展及其与生命领域的深度交叉融合,AI以对生命科学知识的深入理解和泛化能力进入AI驱动的生命科学研究新范式(第五范式,以下简称“新范式”)。

通过深入剖析AI驱动生命科学研究的典型范例,笔者认为,生命科学研究的新范式正如一台智能化的新能源汽车,对标新能源汽车的电池系统、电控系统、电机系统、辅助驾驶系统、底盘系统等核心技术,新范式应具备生命科学大数据、智能算法模型、算力平台、专家先验知识和交叉研究团队五大关键要素(图2)。犹如电池系统为车辆提供能量,生命科学大数据为科学研究提供基础资源;算法模型则像智能电控系统,赋能深入理解生物系统的运行机制;算力平台可比喻为电机系统,负责处理海量的科学数据和复杂的计算任务;专家先验知识则像辅助驾驶系统,为科学家提供方向引领和实施经验;交叉研究团队类似于底盘系统,负责整合不同领域的知识和技能,通过跨学科合作提高研究效率,推动生命科学的发展。

图2  生命科学研究新范式的五大关键要素

关键要素一:生命科学大数据

生命科学大数据是新范式“汽车”的“电池”系统。对生命科学大数据进行有效整合并利用创新AI技术充分挖掘数据,能够打破人类科学家的认知局限、促进新发现的产生并拓展生命科学的探索范围。例如医疗视觉大模型,通过整合多来源、多模态、多任务的医疗图像数据,实现了在少样本和零样本条件下的多种应用;跨物种生命基础大模型GeneCompass,通过有效整合全球开源的单细胞数据,在超过1.2亿个单细胞的训练数据集上实现了对基因表达调控规律的全景式学习理解等多个生命科学问题的分析。

关键要素二:智能算法模型

智能算法模型是新范式“汽车”的“电控”系统。Gerstein团队使用贝叶斯网络算法预测蛋白质相互作用的成果发表于Science,为经典机器学习在生物信息领域发展奠定了基础;图卷积神经网络算法被用于分析蛋白质—蛋白质相互作用网络和基因调控网络等生物分子网络,拓展了生命科学领域的研究方向;AlphaFold 2使用Transformer模型,能够在高准确度的基础上快速计算出大量蛋白质的结构,都展示出了AI算法模型在生命科学研究新范式中的重要性。

关键要素三:算力平台

算力平台是新范式“汽车”的“电机”系统。面向新范式,未来应构建能够支撑AI赋能生命科学研究的硬件能力平台,包括建设高速大容量存储系统、构建高性能高吞吐量超级计算机、研发专门用于处理生命科学数据的芯片、设计用于加速生物模型推理和训练的专用处理器等,为生命科学研究提供高效、可靠的计算和处理能力,以应对生命科学领域产生的海量数据、满足生命科学领域复杂模型构建的计算需求,保障AI在生命科学领域的应用和创新。

关键要素四:专家先验知识

专家先验知识是新范式“汽车”的“辅助驾驶”系统。新范式下,已有的生命科学知识将为AI算法模型提供宝贵的训练约束条件、重要的背景和特征关系,帮助解释和理解生命科学数据的复杂性、验证和优化AI在生命科学领域的应用;能够在AI算法设计和模型构建时发挥重要的指导作用,促进更加准确、高效地解决生命科学问题,推动生命科学研究向更深入、全面的方向发展。例如,通过嵌入生命科学专家先验知识和人类注释信息编码,新型基因表达预训练大模型提高了对生物数据间复杂特征关联关系的解释,展示出更为优异的模型表现。

关键要素五:交叉研究团队

交叉研究团队是新范式“汽车”的“底盘”系统。新范式下,一支由AI专家、数据科学家、生物学家和医学家等组成的多学科交叉研究团队对于实现跨越式的生命科学发现至关重要。多元背景紧密协作的交叉研究团队能够整合AI、生物学、医学等领域的专业知识,提供多元化的视角和方法,为全面理解和解决生命科学中的复杂机制问题提供牢固基础,为创新性解决方案提供更多可能性,从而推动生命科学领域的突破性发现和进展。

3.新范式赋能的生命科学研究前沿及我国面临的挑战

随着新范式的不断发展,生命科学研究将迎来以AI预测、指导、提出假说、验证假设为特点的新型研究模态。然而,在当前条件下加速推进我国生命科学研究新范式的建立和推广,仍面临一系列巨大的挑战。

新范式赋能的生命科学研究前沿

1)结构生物学

目前在结构生物学领域,以AlphaFold为代表的AI应用技术仍停留在“从序列到结构”的蛋白质结构预测和设计阶段,还无法实现复杂生理条件下蛋白质结构和功能的模拟与预测。更高质量、更大规模的蛋白质数据和新型算法的出现,将有望实现蛋白质“从序列到功能”甚至“从序列到多尺度相互作用”的智能化结构解析与精细设计。

2)系统生物学

当前的组学数据分析仍局限于较低维度的生物组学观测水平,还未形成从基因水平到细胞水平甚至生物个体乃至群体组学水平的全维度观测。新范式将融通多维度、多模态的生物大数据和专家先验知识,提取生物表型的关键特征,构建多尺度生物过程解析模型,还原复杂生物系统运行的底层规律,形成基础而广泛适用的系统生物学研究新体系。

3)遗传学

随着多组学数据的积累和新型基因大模型的出现,遗传学研究已进入新范式推动的快速发展阶段,基于基因表达谱数据的自监督预训练大模型有望成为解析基因调控规律、预测疾病靶点的有力工具,拓展遗传学研究的探索边界。

4)药物设计开发

随着AlphaFold的出现和一批分子动力学模型的发展,AI模型已经被用于预测和筛选药物候选分子。未来新范式将进一步推动该领域的发展,有望出现AI辅助的全流程药物设计开发体系,能够自主完成药物结构和性质的优化设计、实现候选药物的有效性和安全性模拟预测、生成药物的高效合成和生产工艺方案,极大加速药物的开发和生产过程。

5)精准医学

计算机视觉、自然语言处理和机器学习等AI技术已广泛渗透到生物影像、医学影像、疾病智能分析及靶点预测等精准医学子领域。例如,基于AI的诊断系统在准确度上已经可以媲美甚至在某些方面超过资深的临床医生。然而,现有的模型大多受制于数据的偏好性,存在鲁棒性差、通用性低等问题,随着新范式驱动的通用精准医学模型的出现,将有助于更加快速准确地诊断疾病、解析疾病的分子机制、发现新的治疗靶点,提高人类的健康水平。

我国生命科学研究新范式面临的挑战

面对生命科学研究新范式发展的新形势、新要求,我国仍面临高质量生命科学数据资源体系缺乏、AI关键技术与基础设施不足、新范式下的交叉创新科研新生态匮乏等方面的巨大挑战。

1)高质量生命科学数据资源体系缺乏

国内生命科学数据资源还存在分布不均衡问题,需要更好地统筹协调和资源整合,实现高质量生命科学数据资源的高效汇聚和系统化提升。此外,在生命科学数据的收集、传输和存储过程中,数据安全问题亟待加强,特别是生物数据的隐私和安全问题仍需要引起重视。


2)AI关键技术与基础设施不足

针对生命科学大数据的海量、高维、稀疏分布等特征,亟需发展复杂数据的先进计算与分析方法。未来应开发更加适合生命科学应用的硬件、软件和新计算介质,并在生命科学和计算科学的融合过程中,探索新的计算-生物交互模式,解决算力“卡脖子”问题。


3)新范式下的交叉创新科研新生态匮乏

现有AI驱动的生命科学研究方式大多为课题组自发组合的“小作坊”模式,缺乏新范式发展所需的交叉创新环境。美国在2023年发布的《国家人工智能研发战略计划》更新版本中也着重强调了人工智能研究的跨学科交叉发展的重要性。《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》中指出要推动互联网、大数据、人工智能等同各产业的深度融合。因此,新范式下的科研生态应建立干湿结合、理实交融的新型研究模式,持续培养高水平复合型交叉研究人才,实现以点带面的整体效应建立更加开放的新型科研生态和发展环境。

4.结  语

从传统的主要依赖于人经验的假说和实验驱动的科研范式向大数据和AI驱动的新研究范式的演变将广泛改变或促进不同层面的科学研究活动的变革。我们正身临着一个充满变革和希望的时代,生命科学的革新与科技的进步共同绘制出人类对生命奥秘更深层次探索的未来蓝图。可以预见,随着通用AI的进一步发展,生命科学研究将迎来AI自驱抽象新知识、新规律的“预人所未见,思人所未思”的科学新时代。

李鑫  中国科学院动物研究所研究员。主要研究领域:干细胞与再生、衰老及癌症,人工智能与生物计算。

于汉超   中国科学院前沿科学与教育局副研究员。主要研究领域:人工智能与交叉科学。

文章源自:

李鑫, 于汉超. 人工智能驱动的生命科学研究新范式.中国科学院院刊,2024,39(1):50-58. DOI: 10.16418/j.issn.1000-3045.20231211001


相关阅读

  • 全国政协委员白涛,最新发声!

  • 中国基金报 张燕北 闫晶滢如何进一步支持数字金融发展,推动金融服务提质增效,更好服务实体经济发展和人民群众生产生活?今年全国两会期间,全国政协委员、中国人寿集团董事长白涛
  • 两会进行时,这组铁路数据很亮眼!

  • 全国两会正在召开政府工作报告中谈到2023年经济总体回升向好2024年主要预期目标包括国内生产总值增长5%左右春山可望,奋楫扬帆一组关于铁路的数据带你体验“中国速度”感受中
  • 40天超84亿人次!看春运里的“流动中国”

  • 3月5日,2024年春运落下帷幕。交通运输部数据显示,40天里,全社会跨区域人员流动量预计超84亿人次,其中公路人员流动量预计达78.3亿人次,创下新纪录。车流穿梭、人来人往,汇成一幅流
  • 菏泽医专两个项目获批省级示范项目

  • 近日,山东省教育厅发布《关于公布“无感知数据采集”示范项目名单的通知》,菏泽医专组织申报的2个项目全部入选,分列第4位和第15位。本次“无感知数据采集”示范项目遴选,由山东
  • 全国政协委员、中国人寿集团董事长白涛建言献策

  • 如何进一步支持数字金融发展,推动金融服务提质增效,更好服务实体经济发展和人民群众生产生活?在全国政协十四届二次会议上,全国政协委员、中国人寿集团董事长白涛提交了“大力支

热门文章

  • 解码“新IT”的5个特征和3大价值

  • 党的二十大报告提出,要加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。在数字经济与实体经济深度融合的产业浪潮中,以智能设备、边缘计算
  • OPPO k1的低价高配真实么?网友:不看不知道

  • 近日OPPO一款新机OPPO k1,摒弃了高价低配,就连自家老大哥r17都要怼一下。更是放弃了请代言人,以往的OPPO手机还没出来,各路流量小生,花样美男的代言就先来了。还有线下销售人员的
  • 一招教你手机无限制成为一台新设备

  • 大家平时用手机去注册app,肯定会遇到检测设备异常,交易关闭,等问题 这个都是手机已经不止1-2次注册过此app,不断更换手机仅是一个暂时的方法,却不是长久之计,手机总归会用完
  • 从零开始如何开网店

  • 随着互联网的高速发展,人们的生活发生了翻天覆地的变化,生活节奏越来越快,网购已经成为家家户户生活中离不开的一种购物方式了。网购的发展使得越来越多的人想要涉足电商事业,那

最新文章

  • 人工智能驱动的生命科学研究新范式

  • 本文刊载于《中国科学院院刊》2024年第1期“专题:大力推进科研范式变革”李鑫1,2 于汉超3*1 中国科学院动物研究所2 北京干细胞与再生医学研究院3 中国科学院 前沿科学与教
  • 潍坊寿光:安全知识进社区 筑牢平安“防火墙”

  • 近日,潍坊寿光市圣城街道一中花园社区联合寿光市审计局等联合开展了“消防安全进社区”志愿服务活动,进一步增强了居民消防安全意识,提高了社区居民应急突发事件的自救和互救能
  • 这4条赏花专线开通了!可线上预定包车出游

  • 进入3月,春暖花开,武汉迎来最美赏花季。在武汉,有不少公交线路经过热门赏花点,为方便市民游客更便捷到达赏花点,武汉公交集团开通了4条赏花专线。找个时间,约上亲朋好友,坐着公交车