酷应用

Google研究主管：非技术专家如何利用机器学习解决问题

百家作者：大数据文摘 2019-03-04 04:58:19

本文经O'Reilly授权发布

大数据文摘字幕组出品

编译：邬亮、廖荣凡、limbic D、effy、蒋宝尚

机器学习是现在大家都打了鸡血想用的技术。

但是，多数人认为只有那些懂技术的专家才能用好它。其实，现在机器学习已经集成到了各个领域，并且对用户非常友好。一些非技术的小白完全能够使用现成的软件解决自己领域的专业问题。

这次，我们为大家带来了Google研究主管 Peter Norvig在O'Reilly和Intel共同举办的AI Conference旧金山站所做的演讲——《AI的应用广度：正在扩展中》，来看看那些非计算机领域的专家如何利用机器学习解决问题。

点击观看

时长14分钟

带有中文字幕

▼

首先讲一个熟悉的故事，这个故事是关于人工智能和机器学习技术的快速发展的，具体来说时候发生在2010年。

那时理论学家,数学家,和计算机科学家开始重新关注神经网络和机器学习技术，并且在这些方面取得了一些进展，并且让一些应用的性能有了很高的提升。

就拿熟悉的计算机视觉来说，2010年ImageNet比赛的竞赛成绩和错误率，已经取得不错的成绩，而且在那之后我们很快达到并且超过人类水平。

在自然语言方面我们也有相似的故事，上图里表示的是我们在机器翻译方面的进展，纵轴是翻译质量，越高代表结果越好，横轴代表不同语言的翻译任务。蓝色是传统统计模型的最好成绩，绿色是新一代的端到端神经网络模型。

注：端到端指的是输入是原始数据，输出是最后的结果，特征提取这一步融入到算法当中，不需要人为干预。

通过这两个“故事”，我们可以知道传统模型和人类间的差距，已经被新一代技术追上了一半甚至90%，可以说机器翻译几乎已经发展到人类翻译的水平了。

技术进步的背后

对于这些伟大的技术突破，我们要感谢人工智能领域内的几位大师，比如Feifei，Jeff和Quoc 等。他们已经在相关领域钻研多年，提出创新的理论并把这些创新应用到实践。

同时另外一些专家也在这方面做出了贡献。Bengio说：哎我觉得激活方程不应该这么弯弯曲曲的，我觉得它应该是条直线。Goodfellow说：我们不应该只训练一个网络，我们应该同时训练两个然后让他们俩打架。然后Sergey说：我们不应该只随机打乱数据一次，因为我们有可以并行计算的机器，我们应该优化数据随机化方式，我们把各种技术都融合在一起。

正是因为这些学者的努力，才能建立了我们今天的机制，才达到了今天取得的技术进展。

非专家也能用机器学习解决问题

我们现在更需要的是各个领域的从业者主动参与进来。虽然我们不是机器学习专家，但是我们知道该如何解决我们领域中需要解决的问题。

可能你的疑问是机器学习工具能帮助我们解决这些问题么？下面有几个很棒的案例将会回答你。

机器学习破解引力透镜效应

斯坦福大学的一些天体物理学家希望探索引力透镜效应。

引力透镜效应：爱因斯坦的广义相对论所预言的一种现象。由于时空在大质量天体附近会发生畸变，使得光线经过大质量天体附近时发生弯曲。如果在观测者到光源的直线上有一个大质量的天体，则观测者会看到由于光线弯曲而形成的一个或多个像，这种现象称之为引力透镜现象。

如果我们能弄清楚这个过程，我们就完全可以测量出第二个星系的质量，甚至能帮助我们研究更有趣的事情，比如暗物质等等。

一直以来物理学家是这么解决这个问题的呢？通过光向前传播的物理公式，如果我们也知道这些星系的质量，我们就可以用超级计算机来模拟出这些光到达地球时的样子，然后我们比较模拟结果和望远镜观测到的真实结果。如果这两个结果有差异，我们就回去把星系质量的参数调整一下。但是这个过程非常容易出错。

显然机器学习技术能够求微分，并且可以从模型的结果反向推导出模型的参数，如果从光线的结果出发来反向推导，机器学习技术似乎能帮助我们解决引力透镜效应。

几个月后这些物理学家成功地完成了这项工作，新模型的计算效率比传统方法要快一千万倍。这可以说是个很大的进展。

深度学习能够回溯数据，揭露以往未被发现的行星

科学家们试图用开普勒望远镜寻找系外行星。当行星围绕恒星运行时，一颗行星围绕着另一颗恒星运行，就形成了光蚀（类似月蚀），来自恒星的光线也就减弱了。如果这个行星够大，接近太阳大小，它会遮挡掉大量的光线。我们也就能探测到它了，实际上，我们也就是这么找星星的，并且使用这种方法我们发现了前几百颗太阳系外的行星。

但是一旦我们挖掘了所有这些数据，我们可能知道的更多，例如隐藏在太阳系外的小行星还有多少。这种情况下，传统的统计模型精度就不够了。需要更精确的模型去探测星空中的其他事情。恒星发出的光线有变化吗？中间是否有一个小行星场呢？将深度学习应用到这个场景中，我们可以回溯数据，揭露以往未被发现的行星。

预测植物是否得病

对于有些人，你甚至都不用太多的背景知识，就可以通过机器学习直接解决这些问题。这些技术不仅可用于人，也可以用于植物。对于热带木薯植物，它们容易患各种疾病，如果你是个有经验的农民，你大概知道出现上图这种棕色的东西意味着植物得了这种疾病。

因为我们需要及时治疗这些植物，但不是所有农民都那么有经验呀。而且，随着气候变化，又出现了新的疾病类型。因此在AI时代，农民可以通过手机给植物拍照上传到云实时获取植物的诊断结果。

视频自动生成字幕

另外还有视频自动生成字幕的案例，从某种意义上说，这只是语音识别，但是由于某些原因，它们也不完全相同，对于语音识别当你对着麦克风说话时，一次只有一个说话人。而字幕生成时，有不同的声音在响，像撞车声啊，爆炸声啊，等等这些。

而字幕生成的任务也不仅仅是把视频中的听到的词语组合在一起，你得判断出哪些是需要出现在字幕中的词语。哪些是应该忽略的词语，你还得考虑何时需要加上一些备注。比如用括弧添加“音乐响起”之类的说明。可见，字幕生成是比讲话识别复杂得多的问题。而这类问题正是机器学习的用武之地。机器学习可以告诉你：虽然无法提前预知要发生的一切，但根据以往的案例，我们仍然有可能做出某些判断。

拍照不再依赖专业的相机