首个ML的生物医药大型数据集,3行代码就能运行丨哈佛MIT斯坦福等出品

百家 作者:量子位 2021-01-02 14:10:40
萧箫 编辑整理
量子位 报道 | 公众号 QbitAI

AlphaFold2出世、强力抗生素Halicin的预测……

机器学习,已经在生物医药这一大领域贡献了不少成果。

然而,这一领域,此前甚至还没有大规模的机器学习数据集?

无论是查找、处理数据,还是验证模型效果,之前的研究,都只能在几个小型数据集、或是已经被反复研究的几个任务上进行。

这极大地降低了ML在生物医药领域的应用进展。

为此,一群来自哈佛、MIT、斯坦福等机构的研究人员,开发出了第一个ML领域的生物医药大型数据集TDC,还附带最新的模型评估方法。

这是个什么样的数据集?

TDC(Therapeutics Data Commons)数据集有三大特点:开源、大型、3行代码搞定。

这一开源数据集,包含20+有意义的任务,和70多个高质量数据集。

涉及的范围也非常广,包含生物医药的各种研究方向,如靶蛋白发现、药物动力学、安全性和药物生产等。研究目标也不局限于小分子,还包括抗体、疫苗、miRNA等。

使用起来也非常简便,只需要3行代码,就能获得ML-ready数据、使用TDC里面的各种功能。

TDC解决问题的3层架构

生物医药领域涵盖各种任务,每个任务都需要不同的数据结构来进行处理。

为此,TDC提出了一个三层式阶级架构Central Dogma (中心法则)

第一层,模型要解决哪类问题?

  • 单实例预测(Single-instance prediction): 预测单个实体(比如分子,蛋白)的某些性质。

  • 多实例预测(Multi-instance prediction): 预测多个实体之间的某些性质(比如反应类型)

  • 生成(Generation): 已知一系列的实体,生成新的拥有某些性质的实体(比如优化后的分子)

第二层,模型要学习什么样的任务?

从生物医药角度来定义,任务包括设计新的抗体、识别个性化的组合疗法、改善疾病诊断、寻找治疗新疾病的方法。

第三层,模型用什么数据集来训练?

根据任务类型,从TDC已有的数据集中挑选数据,用于训练模型。

根据这三层架构,就能非常轻松地找到需要用的数据集。

例如,想要检索Z类问题中的学习任务Y,Y中需要用到数据集X,只需要三行代码就能找到需要的结果。

TDC的数据集长啥样

TDC所包含的数据集和任务,大多是没有用机器学习进行过系统研究、但又极具潜力的应用方向。

例如,ADMET性质预测。其中,ADMET包含一系列药物指标,用于评估某种药物分子在口服后,能否安全有效地到达指定靶点。

此前,已有部分研究机构进行过ADMET预测,但都基于非公开数据。

TDC从各种小数据库、期刊等公开资料中,收集整理了20多个药厂目前在用的重要指标,并将所有数据进行了开源。准确预测这些指标,可以帮助药企节省大量资源。

又例如,对药物进行精准组合

同种药物,在不同个体间会产生不同影响,尤其是肿瘤方向的药物。如果用机器学习,就能预测药物在各种基因表达下的效果,目前TDC也已经包含了这样的数据集。

此外,多药物分子组合,往往比单药物分子效果更好(drug synergy),如果能预测出两个药物分子的组合效应,能节省大量新药研发的时间,TDC也已经处理了这样的数据集。

还有生物药(Biologics)方向的任务。

近几年来,机器学习在小分子上已有许多应用,但在大分子生物药上的应用不多。

TDC也包含了6个生物药方面的任务,包括抗体和抗原的亲和力预测、多肽和MHC的亲和力预测、miRNA和靶点的反应预测等。

TDC的数据处理函数

除了核心数据集以外,TDC还能进行简单的数据处理,主要包括以下四点:

  • 模型评估:TDC提供了一个评估函数。只需3行代码,就能评估TDC中的任务。

  • 数据分割:TDC提供了一些训练和测试集的分割方法,用于模拟实际生物医药场景,如scaffold split等。

  • 数据处理:TDC提供可视化、标签转化,二值化等工具。

  • 分子生成任务:目的是让产生的新药物分子具有更好的性质。TDC收集了20多个有意义的任务,同样只需要3行代码,就能运行。

还可以刷新榜单排名

此外,TDC还提供各种类型的榜单(Leaderboard),给机器学习研究者对比模型预测的效果。

虽然TDC提供的每个数据集都能作为基准,但如果要真正评估一个机器学习模型,就要求其必须在一系列数据集和任务上达到更好的效果。

因此,TDC围绕各种有意义的生物医疗问题,合并了各种子基准、形成基准组合。

所有的衡量标准和训练、测试、分割的方式的设计目的,都是为了模拟实际生物医药的应用场景。

团队简介

TDC的开发和维护团队,由多个高校和机构的研究人员共同组成。

主要的5位开发者,分别是来自哈佛的黄柯鑫、佐治亚理工学院的符天凡、MIT的高文昊、CMU的赵越、斯坦福的Yusuf Roohani。

此外,还有他们的5位导师,也在这次数据集开发中做出了不少贡献。

目前,TDC数据集还在不断地更新和完善中,作者黄柯鑫表示,还会不断地更新如CRISPR、临床试验等方向的其他数据。

感兴趣的同学,可以戳下方传送门用起来了~

项目传送门:
https://zitniklab.hms.harvard.edu/TDC/

参考链接:
https://zhuanlan.zhihu.com/p/340254116

—  —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

AI落地最佳参考!

2020中国人工智能年度评选结果揭晓

12月16日,量子位MEET 2021智能未来大会现场,50大领航企业、10大明星创业公司、30大商业领军人物、10大最佳产品、10大最佳解决方案、5大社会责任榜样、5大最佳技术社区等年度奖项悉数颁出。
点击图片查看完整榜单:

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~


关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接