业界 | Nature:人工智能协助科学家解密基因序列

百家 作者:大数据文摘 2018-11-10 06:21:16


大数据文摘出品

编译:李可、Aileen


快速测序基因组的能力为科学家提供了大量的数据,但了解进化是如何塑造了人类仍然是一项艰巨的任务。


精确确定人类基因序列在哪里及如何进化就像大海捞针。每个人的基因组包含30亿个称为核苷酸的构建模块,研究人员必须汇编来自数千人的数据,以期发现进化压力塑造基因的模式。


为了找到这些模式,越来越多的遗传学家转向一种称为深度学习的机器学习方法。该方法的支持者表示,与传统的统计方法相比,在自然选择的特征描述上,深度学习算法需要的明确假设更少。


 “机器学习正在把推测进化的能力自动化,”俄勒冈大学的人口遗传学家Andrew Kern说, “毫无疑问,它正向前发展。”



麻省理工—哈佛大学Broad研究所的人员开发了一种名为“DeepSweep”的深度学习工具。该工具标记了20,000个单个核苷酸供进一步研究。研究人员上个月在加州圣地亚哥举行的美国人类遗传学会年会上报告说,这些简单突变或其中的一部分可能帮助人类在疾病,干旱或达尔文所谓的各种“生活状况”中生存下来。


自20世纪70年代以来,遗传学家已经构建了数学模型来描述自然选择在DNA中的独特踪迹。如果新出现的突变能够使人比周围人更好地生存和产生后代,那么具有该突变基因的人群占比将随着时间的推移而增长。


一个例子是使成年人能够消化牛奶的突变。进入成年期后,它使身体能够产生乳糖酶(一种消化牛奶中的糖的酶)。用统计方法分析人类基因组后,研究人员发现该突变数千年前在欧洲通过社区迅速传播——可能是因为牛奶中的营养物质使人能繁衍更健康的后代。如今,近80%的欧洲人后裔携带该突变基因。


算法训练



然而,遗传学家一直在努力识别和确认基因组的其他片段,这些基因片段因为提供了适应优势而在整个种群中传播。深度学习正擅长这类任务:发现隐藏在大量数据中的微妙模式。


但有一个问题。深度学习算法通常使用真实数据来训练,学习将信息分类; 以Facebook为例,其面部识别算法基于人们标注过的图片。遗传学家还不知道基因组的哪些部分是通过自然选择形成的,因此不得不在模拟数据上训练深度学习算法。


布朗大学的人口遗传学家Sohini Ramachandran表示,生成模拟数据时需要研究人员对自然选择特征作出假设。 “我们没有正确标注过的数据,所以我们担心可能无法正确模拟。”


康奈尔大学的人口遗传学家Philipp Messer表示,深度学习算法以黑箱运行,因此很难获知识别数据模式时使用的标准。 “如果模拟数据有错,则不清楚响应意味着什么” ,他补充道。


使用深度学习算法的研究人员确实也有一些方法可以窥视这个黑箱。 DeepSweep的作者在模拟基因组中插入了一些自然选择特征并在上面训练他们的算法。当他们在真实的人类基因组数据上进行测试时,该算法聚焦到了让成人可以消化牛奶的乳糖酶突变。Broad研究所的计算遗传学家Joseph Vitti说,这增强了团队对该工具的信心。


研究人员随后筛选了来自1000 Genomes Project的数据(一项国际计划,测序来自全球2,504人的DNA),并使用统计方法识别可能处于进化压力下的区域,这些区域约占人类基因组的三分之一。接下来,DeepSweep评估了每个区域。在分析结束时,它提供了含20,000个突变点位的列表供进一步研究。


在接下来的几个月里,Vitti和同事将把这些突变编码到活细胞DNA中,并比较有无突变的情况,来研究这些突变的作用。


继续寻寻觅觅中



其他几位研究人员正在研究深度学习算法,以寻找基因组中适应环境的征象。由Kern开发的深度学习模型表明,首先,人类的大多数突变既非有益也非有害3。相反,它们似乎在种群中漂移,增加了自然遗传变异性,并且只在环境变化使变异携带者拥有进化优势时才变得更加频繁。


2月,Ramachandran和她的同事报告了他们开发的深度学习算法SWIF(r)。当他们将其用于来自非洲南部的Khomani San族群的45名成员的基因组时,它标示了与新陈代谢相关的基因附近的变异。研究人员推测这些变化可能发生在几千年前,帮助族群成员在缺乏保障的食物周期储存脂肪。


该突变的影响还需进一步考察。但与DeepSweep确定的突变基因一样,由SWIF(r)选出的候选基因给了研究人员一个起点。


 “这是寻找自然选择踪迹的极其强大的方法,”Broad研究所的计算遗传学家和Vitti的博士生导师Pardis Sabeti说。 “尽管我刚开始这项研究时,有人认为根本无法精确定位突变。”


如今,那些不可能的设想正在一步一步地实现。


相关报道:

https://www.nature.com/articles/d41586-018-07225-z


【今日机器学习概念】

Have a Great Definition

志愿者介绍

后台回复志愿者”加入我们

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接
百度热搜榜
排名 热点 搜索指数