首个ML的生物医药大型数据集,3行代码就能运行丨哈佛MIT斯坦福等出品
萧箫 编辑整理
量子位 报道 | 公众号 QbitAI
AlphaFold2出世、强力抗生素Halicin的预测……
机器学习,已经在生物医药这一大领域贡献了不少成果。
然而,这一领域,此前甚至还没有大规模的机器学习数据集?
无论是查找、处理数据,还是验证模型效果,之前的研究,都只能在几个小型数据集、或是已经被反复研究的几个任务上进行。
这极大地降低了ML在生物医药领域的应用进展。
为此,一群来自哈佛、MIT、斯坦福等机构的研究人员,开发出了第一个ML领域的生物医药大型数据集TDC,还附带最新的模型评估方法。
这是个什么样的数据集?
TDC(Therapeutics Data Commons)数据集有三大特点:开源、大型、3行代码搞定。
这一开源数据集,包含20+有意义的任务,和70多个高质量数据集。
涉及的范围也非常广,包含生物医药的各种研究方向,如靶蛋白发现、药物动力学、安全性和药物生产等。研究目标也不局限于小分子,还包括抗体、疫苗、miRNA等。
使用起来也非常简便,只需要3行代码,就能获得ML-ready数据、使用TDC里面的各种功能。
TDC解决问题的3层架构
生物医药领域涵盖各种任务,每个任务都需要不同的数据结构来进行处理。
为此,TDC提出了一个三层式阶级架构Central Dogma (中心法则)。
第一层,模型要解决哪类问题?
单实例预测(Single-instance prediction): 预测单个实体(比如分子,蛋白)的某些性质。
多实例预测(Multi-instance prediction): 预测多个实体之间的某些性质(比如反应类型)
生成(Generation): 已知一系列的实体,生成新的拥有某些性质的实体(比如优化后的分子)
第二层,模型要学习什么样的任务?
从生物医药角度来定义,任务包括设计新的抗体、识别个性化的组合疗法、改善疾病诊断、寻找治疗新疾病的方法。
第三层,模型用什么数据集来训练?
根据任务类型,从TDC已有的数据集中挑选数据,用于训练模型。
根据这三层架构,就能非常轻松地找到需要用的数据集。
例如,想要检索Z类问题中的学习任务Y,Y中需要用到数据集X,只需要三行代码就能找到需要的结果。
TDC的数据集长啥样
TDC所包含的数据集和任务,大多是没有用机器学习进行过系统研究、但又极具潜力的应用方向。
例如,ADMET性质预测。其中,ADMET包含一系列药物指标,用于评估某种药物分子在口服后,能否安全有效地到达指定靶点。
此前,已有部分研究机构进行过ADMET预测,但都基于非公开数据。
TDC从各种小数据库、期刊等公开资料中,收集整理了20多个药厂目前在用的重要指标,并将所有数据进行了开源。准确预测这些指标,可以帮助药企节省大量资源。
又例如,对药物进行精准组合。
同种药物,在不同个体间会产生不同影响,尤其是肿瘤方向的药物。如果用机器学习,就能预测药物在各种基因表达下的效果,目前TDC也已经包含了这样的数据集。
此外,多药物分子组合,往往比单药物分子效果更好(drug synergy),如果能预测出两个药物分子的组合效应,能节省大量新药研发的时间,TDC也已经处理了这样的数据集。
还有生物药(Biologics)方向的任务。
近几年来,机器学习在小分子上已有许多应用,但在大分子生物药上的应用不多。
TDC也包含了6个生物药方面的任务,包括抗体和抗原的亲和力预测、多肽和MHC的亲和力预测、miRNA和靶点的反应预测等。
TDC的数据处理函数
除了核心数据集以外,TDC还能进行简单的数据处理,主要包括以下四点:
模型评估:TDC提供了一个评估函数。只需3行代码,就能评估TDC中的任务。
数据分割:TDC提供了一些训练和测试集的分割方法,用于模拟实际生物医药场景,如scaffold split等。
数据处理:TDC提供可视化、标签转化,二值化等工具。
分子生成任务:目的是让产生的新药物分子具有更好的性质。TDC收集了20多个有意义的任务,同样只需要3行代码,就能运行。
还可以刷新榜单排名
此外,TDC还提供各种类型的榜单(Leaderboard),给机器学习研究者对比模型预测的效果。
虽然TDC提供的每个数据集都能作为基准,但如果要真正评估一个机器学习模型,就要求其必须在一系列数据集和任务上达到更好的效果。
因此,TDC围绕各种有意义的生物医疗问题,合并了各种子基准、形成基准组合。
所有的衡量标准和训练、测试、分割的方式的设计目的,都是为了模拟实际生物医药的应用场景。
团队简介
TDC的开发和维护团队,由多个高校和机构的研究人员共同组成。
主要的5位开发者,分别是来自哈佛的黄柯鑫、佐治亚理工学院的符天凡、MIT的高文昊、CMU的赵越、斯坦福的Yusuf Roohani。
此外,还有他们的5位导师,也在这次数据集开发中做出了不少贡献。
目前,TDC数据集还在不断地更新和完善中,作者黄柯鑫表示,还会不断地更新如CRISPR、临床试验等方向的其他数据。
感兴趣的同学,可以戳下方传送门用起来了~
项目传送门:
https://zitniklab.hms.harvard.edu/TDC/
参考链接:
https://zhuanlan.zhihu.com/p/340254116
— 完 —
本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。
AI落地最佳参考!
2020中国人工智能年度评选结果揭晓
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见~
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 1 共绘亚太下一个“黄金三十年” 7978547
- 2 山里藏价值6000亿元黄金?村民发声 7907144
- 3 微信或史诗级“瘦身” 内存有救了 7873723
- 4 中国主张成为G20峰会的一抹亮色 7729780
- 5 朝鲜将军队提升至战斗准备状态 7685211
- 6 男生解锁“滑步下泰山”技能 7597568
- 7 带96岁母亲酒店养老遭拉黑 男子发声 7469415
- 8 女教师被指出轨学生 校方通报 7365295
- 9 《小巷人家》全员告别 7272089
- 10 千年古镇“因网而变、因数而兴” 7162813