酷应用

业界 | 向机器学习偏见开战：谷歌展示全球涂鸦数据集分析结果

百家作者：机器之心 2017-08-26 08:39:55

选自Google Research

作者：Reena Jana等

机器之心编译

参与：路雪

机器学习系统对日常生活的影响越来越大，软硬件产品都使用机器学习系统为全世界人们提供服务。因此，研究者和设计者希望创造一款产品，使每个需要反映世界各地用户类型和背景的数据集的人都能够获取想要的数据集。为了训练这些机器学习系统，我们需要开源、全球性和不断增长的数据集。谷歌在近期Quick, Draw！网站的数据中进行了自己的探索。

Quick, Draw! 链接：https://quickdraw.withgoogle.com/

数据集链接：https://github.com/googlecreativelab/quickdraw-dataset

在过去六个月中，我们收集了一个来自 Quick, Draw! 网站用户的数据集。Quick, Draw! 是谷歌的最新举措，以帮助全世界人们理解神经网络的工作原理。谷歌的一支团队设计了 Quick, Draw! 网站，使每个人用画画这种有趣的方式与机器学习系统互动，该系统会在 20 秒内猜用户画画的内容。尽管 Quick, Draw! 的初衷只是创造一个基于机器学习的有趣游戏，但是该系统汇总了来自 100 个国家的两千万用户的 8 亿幅图画。

现在，我们开放这些图画的数据集，以使世界各地的人们都可以贡献、分析该数据，并使用这些数据帮助产品设计。目前，该数据集包括 Quick, Draw! 用户生成的 5 千万幅图画（我们将持续发布更多图画）。

该数据集的数据量相当大，同时这还可以让我们看到如何使大量人员参与（1）训练机器学习系统，而不管他们各自的技术背景如何；（2）创建开源数据集，且该数据集反映不同的文化和观点。

国家和全球图画一览

为了快速高效地理解该数据集中的视觉图形，我们与艺术家 Kyle McDonald 一道工作，叠加数千幅来自世界各地的图画。这帮助我们创建合成图像，并判断每个国家以及全球的趋势。我们叠加 1000 张来自世界各地的图画（猫、椅子，见下图）制作成动画，来分享我们利用该数据寻找视觉趋势的方法：

猫，根据来自世界各地用户的 1000 张猫图片制作而成：

椅子，根据来自世界各地用户的 1000 张椅子图片制作而成：

不同文化中自然物体（如猫、树、彩虹或头骨）的涂鸦通常都很相似：

但是，对于某些文化比较熟悉但另一些文化不太熟悉的物体，我们可以看到它们的涂鸦有显著差异。有的三明治线条清晰，有的则杂乱无章；杯子把手的方向相反；椅子有的面朝前方，有的则侧着，这些都根据国家或地区的不同而发生变化：

一种类型无法代表全部

我们意识到，这些合成图像可以根据三明治中面包的种类、咖啡杯的形状，甚至出于审美角度的涂鸦手法，揭示不同地区的人观点和偏好的区别。例如，一些国家的图画视角直接、正面，有些国家则是侧着的。

叠加图画还揭示了如何在缺乏不同类型的数据时改进我们训练神经网络的方式，有时即使是大型、开源的国际性数据集也可能数据类型不全面。例如，当我们分析 Quick, Draw! 数据集中 115000 幅鞋的图片时，我们发现一种鞋（类似球鞋）的图片非常多。由于这种鞋的图片比较多，神经网络学得的结果是仅识别这种鞋为「鞋」。

但是，和现实世界一样，训练数据中的一种类型并不能代表全部。我们想知道如何持续、高效地分析数据集，以找到解决潜在偏差的方法，以及如果一个团队根据无偏数据集构建分类器的话，效果又会如何。

诊断数据以改善数据集的包容性

通过谷歌上个月 PAIR 项目推出的开源工具 Facets，我们可以快速浏览大型数据集中的图像。我们的目标是高效、可视化地诊断大型数据集的代表性，如 Quick, Draw! 数据集。

下图是 Quick, Draw! 数据集在 Facets 工具中的截图。该工具根据图像的特征值在多个维度内进行「层面搜索」（faceting），帮助我们定位数千幅图像，特征值可以是国家，最多可以是 100 个国家。你也可以在 10 个国家中过滤「random face」特征，国家数量最多可达 100。首先，你可以查看国家表征的占比；你还可以放大、查看每幅图的细节、更深入地观察单个数据点。这对处理类似 Quick, Draw! 的大型数据数据集尤其有用，研究者可以探索细微不同或异常，或者开始标记小范围视觉趋势，它们稍后会以图像的形式出现在大型数据集中。

这是 Quick, Draw! 数据中 94 个国家的「random faces」数据，同样的数据不同的视角。我们可以在几秒中清晰地看到 Facets 用这种新的可视化角度加载图像，大量数据代表美国和欧洲国家。这合乎情理，因为 Quick, Draw! 目前只有英语版本。我们计划加入更多语言。但是，可视化向我们展示了巴西和泰国似乎是数据中得到较充分代表的非英语国家。这表明，设计者可以重新搜索在这些国家运行效果较好的界面设计元素。然后，我们可以在下次迭代时使用该信息改进 Quick,Draw!，以适应其他非英语母语者用户。我们还使用层面数据（faceted data）帮助我们判断当地语言对未来翻译的优先级。