DeepMind精准预测蛋白质结构,AI解决50年生物学难题!

百家 作者:大数据文摘 2020-12-02 12:47:37
大数据文摘出品
 
生物学家花了50年都解不出的难题,突然就被AI解决了?
 
美国时间11月30日,DeepMind宣布推出AlphaFold,这是一种能够基于蛋白质的基因序列,利用AI预测蛋白质3D结构的系统。
 
在国际蛋白质结构预测竞赛(CASP)上,AlphaFold系统在第14次CASP评估中的总体中位数得分达到92.4GDT,击败了其余的参会选手。GDT(Global Distance Test ) 是CASP用来测量预测准确性的主要指标,范围是从0-100。
              
DeepMind表示,他们已经解决了关键的“蛋白质折叠问题”,并且将解决问题的运算时间从数月缩短至了数小时,这将大大加速药物发现速度,有可能破解一个类似于绘制人类基因组的问题。
 
DeepMind首席执行官Demis Hassabis在电话采访中表示:“这些算法现在已经足够强大,强大到可以应用于解决科学问题。经过4年的发展,我们有了一个足够精确的系统,对生物学研究人员来说具有实际的生物学意义和相关性。”
              
Hassabis还透露道,DeepMind目前正在研究以“可扩展方式”为科学家提供访问AlphaFold系统的途径。
 
DeepMind的这一成就不仅引来不少业界人士的点赞,Nature还发文称,“这将改变一切”
              
此前,DeepMind在国际象棋、围棋、游戏星际争霸II和老式的Atari经典游戏中,都战胜了人类玩家,这次,他们更是直接向学术圈发起了挑战。
 

论预测蛋白质结构的不可能


我们都知道,在每个活细胞内部有着成千上万种不同的蛋白质,蛋白质的不同折叠程度决定了它的独特功能。因此,如果我们能够预测蛋白质的结构变化,这对于人类攻克癌症等疑难杂症有着划时代的意义。
 
但是,要准确预测蛋白质的折叠,在过去50年间一直困扰着生物学家
 
这就要从蛋白质的生成说起了。以DNA生物为例,DNA由4种碱基组成,这4种碱基能够通过转录和翻译生成64种密码子,这64种密码子又对应着20多种氨基酸,氨基酸之间的排列组合,构成了数万至数亿种不同的蛋白质。但是,决定蛋白质不同功能的,除了氨基酸的种类数量外,氨基酸的3D结构起着更为重要的作用。
 
从理论上来说,如果我们知道了DNA序列,就能够绘制出氨基酸序列和蛋白质结构,但如果想要实现这种预测,中间涉及的计算难度难以想象。
 
早在1969年,Cyrus Levinthal就指出,如果我们使用蛮力计算的方式,枚举每一种蛋白质可能存在的结构,那么我们要花费的时间甚至比宇宙的年龄还要长。Levinthal估计,一种蛋白质大约存在10*300种结构,但在自然界中,蛋白质会自发折叠,有些只需几毫秒。
 

AlphaFold如何将不可能变为可能


2018年,DeepMind团队就已经用初始版AlphaFold参加了CASP13比赛,当时他们也取得了最高的准确率,随后,DeepMind还把CASP13方法和相关代码发表在了Nature上。
 
如今,DeepMind团队利用新的深度学习架构继续参赛CASP14,也刷新了自己的记录,准确率达到了92.4GDT。
              
DeepMind团队使用的数据也都是公开数据,包括蛋白质结构数据库(PDB)和包含未知结构蛋白质序列的大型数据库,共约170,000个蛋白质结构。运行周期持续了数周,主要使用了约128个TPUv3内核运行。
 
正如上文所说,如果我们把蛋白质的3D结构视为一张空间图,用节点表示残基,边将残基紧密连接起来,要理解这种结构,DeepMind团队创建了一个基于注意力的神经网络系统,用端到端的方式进行训练,并且基于构建的隐式图执行推理。
 
通过迭代这一过程,该系统能够较强地预测蛋白质的底层物理结构,并在几天内确定高度准确的结构。此外,AlphaFold还能使用内部置信度度量指标判断预测的每个蛋白质结构中哪一部分比较可靠
              
AlphaFold负责人John Jumper认为,要想产出“真正具有生物学相关性,或在实验上有竞争力”的成果,还有一段路要走。
 
CASP主席John Moult教授表示:“DeepMind已经取得领先。生物学长达50年的难题在很大程度上已得到解决。对于药物设计以及蛋白质设计等新兴领域,这都将产生重大影响。”
 
DeepMind团队表示,他们准备在适当的时候将AlphaFold新系统相关论文提交至同行评审期刊。
 
相关报道:
https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology




实习/全职编辑记者招聘ing

加入我们,亲身体验一家专业科技媒体采写的每个细节,在最有前景的行业,和一群遍布全球最优秀的人一起成长。坐标北京·清华东门,在大数据文摘主页对话页回复“招聘”了解详情。简历请直接发送至zz@bigdatadigest.cn





点「在看」的人都变好看了哦!

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接