酷应用

观点 | 从数据科学的角度，看斯坦福神经网络检测性取向的研究

百家作者：机器之心 2017-09-14 05:41:57

选自 fast.ai

作者：Jeremy Howard

机器之心编译

参与：蒋思源、路雪、刘晓坤

除非过去这几天你离开了地球，不然你肯定听说了斯坦福的论文《Deep Neural Networks Can Detect Sexual Orientation From Faces（深度神经网络从人脸图片检测性取向）》。该预印本论文引起了很大反响，比如欧柏林的社会学教授 Greggor Mattson，他用一句话总结了他的看法： AI Can’t Tell if You』re Gay… But it Can Tell if You』re a Walking Stereotype.（AI 无法判断你是不是 gay，但它可以判断你是不是一个持有刻板印象的人。）

引言

当我第一次看到这项研究时，我感到很沮丧。这个话题引起了我个人的强烈兴趣。Rachel Thomas 和我当初创立 fast.ai 的目的就是为了让深度学习领域（包括这项研究中使用的深度神经网络）变得更加多样化，我们甚至以个人的名义向各种学生提供奖学金，其中就包括了 LGBTQ 学生。此外，我们还想支持深度学习在更广泛的领域中得到运用。因为我们相信，深度学习对很多人的生活产生了积极和消极的影响，因此我们想向人们展示如何适当和正确地利用技术。和很多评论家一样，我对这项研究有很多关心的问题。它到底应不应该被设计出来？数据收集过程侵犯隐私吗？参与这项研究的人合适并反映真实分布吗？对研究结果的交流周到体贴、富有同理心吗？这些问题都很重要，而且没有任何个人能够回答。因为深度学习做到了这件之前不可能做到的事情，我们需要在更多的领域中考察这些问题将如何发展。因此，我们需要考察更多由跨学科团队做的跨学科研究。在这个案例中，研究员是数据科学家和心理学家，但是论文涉及的论题（以及结论的推演过程）覆盖了从社会学到生物学的范围。

那么，这篇论文到底向我们展示了什么？神经网络能不能如其所称能做到很多事情？我们将作为数据科学家，通过考察数据，去分析这个问题。

摘要

论文（《Deep neural networks can detect sexual orientation from faces》，深度神经网络从人脸图片检测性取向）和回应（AI 无法分辨同性恋）二者的关键结论都未得到该研究的支持。得到研究支持的是一个更弱的声明：在某些情况下，深度神经网络可以从交友网站异性恋用户的照片中辨认出同性恋用户的照片。我们确实不能说」AI 无法分辨同性恋」，但是这样说也是不负责任的：该论文至少表明「同性恋是可以识别的」，以及这种技术可以被任何政府和组织轻松获取和使用。

该论文的高级研究者 Michael Kosinski 曾经成功地提醒过我们类似的问题：他的论文《Private traits and attributes are predictable from digital records of human behavior》是引用量最多的论文之一，这篇论文至少对 Facebook 改变默认公开点赞记录的策略有部分贡献。如果这项新研究的关键结果是正确的，那么我们应该讨论它对策略会产生什么影响。如果你住在一个同性恋要被判处死刑的国家，你必须面对这种可能性：你可能因为自己的社交媒体照片接受额外的监控。如果你无法公开自己性取向，那么你应该警醒，机器学习推荐系统可能会（或许偶然性更强）向你推荐适用于同性恋人群的商品。

但是，该论文引出了其他结论，这些结论与关键问题不直接相关，没有得到该研究的明确支持，且被夸大和未得到良好沟通。尤其是，该论文称这项研究支持」广泛接受」的产前激素理论（prenatal hormone theory，PHT），即」同性恋倾向来源于男性胎儿对决定性取向的雄性激素的暴露（exposure）不足或女性胎儿对雄性激素的暴露过度」。论文中对该理论的支持并不严谨，是不确定的。另外，社会学家 Greggor Mattson 说，该理论并未被广泛接受，而且该理论」只是该领域 10 年综述的第一句『Public perceptions of the effect of testosterone on 『manly』 behavior are inaccurate』（公众对睾丸素对」男性化」行为的影响的认知并不准确）」。

研究是如何进行的？

文中提到了几个研究，但关键的还是「study 1a」。在这项研究中，研究员从数据网站上下载了 70,000 个人的照片，平均每个人五张。虽然几乎所有的程序员都可以复制这些数据（实际上很多开发者之前都创建过类似的数据集），目前也还无法获得研究中收集的数据。由于研究中关注的是从面部特征识别性取向，他们将照片中面部区域以外的部分都修掉了。他们还将有多个人、面部模糊以及从照片上看起来不像异性恋的人的照片删除。由于应用了软件 Face++，从技术角度上来说这项研究是很可靠的。

然后他们根据一群非专业工作人员的判定删去了未成年或者非高加索人（使用 Amazon 的 Machanical Turk 系统）的照片。他们这么做的原因尚未清楚，最有可能是因为他们认为太多类型的照片会使得模型的训练更加困难。需要注意的是，几乎所有的数据科学研究中，将数据集进行筛选的步骤都是很有必要的，不过，如果数据集很完美而且数据集中的缺陷一般并不会对研究的精确性的理解产生影响，就不太需要这么做了。评估过程的关键在于确定最后的度量报告评估是否适当。再稍微提一点，他们是根据每一份数据文件中列出的性偏好标记一个人是不是 gay。

研究员接下来使用一个深度神经网络（VGG-Face）创建特征。具体来说，每一张照片都被转换成 4096 个元素的一维特征向量，所有的元素都经由牛津大学的研究员训练过以使照片中的人脸尽可能的清晰可辨。他们使用一种简单的统计技术 SVD 将 4096 个特征压缩成 500 个，然后他们使用一种简单的回归模型将 500 个特征映射到标记（是不是 gay）上，回归过程重复了十个 epoch。每一次他们都使用数据的 90% 作为训练集，然后用剩下的 10% 测试模型（即所谓的交叉验证）。这十个模型使用 AUC 标准（一种评估分类模型的标准方法）进行评分。在这个数据集中，将男性标记为同性恋的 AUC 得分是 0.91。

该模型有多准确？

研究者这样描述他们的模型：「准确度达到 91%」。这个结果来自于 0.91 的 AUC 分数。但是，使用「accuracy」（准确度）来形容 AUC 并不常见，且有一定的误导性。研究者澄清道，该模型的实际准确度是：如果选择研究中 10% 的在该模型上取得最高分的人，那么根据收集的标签，一半就是同性恋。如果男同性恋实际比例是 7%，则这表明该模型比随机要好得多。但是，这与大多数人认为的」91% 的准确度」并不一样。

我们还需要注意，根据该研究（研究 1a），我们可以说，该模型可以从成年白人（非专家标注）的交友网站上辨认出同性恋的交友资料，但无法在普遍意义上通过照片辨认同性恋。该模型很可能具备泛化至其他类似人群的能力，但是我们从这项研究中无从得知那些人群与训练样本的相似度到底是多少，以及该模型在类似人群中的准确度是多少。

研究者创造了新技术吗？

该研究使用的方案确实是我们在入门级深度学习课程中讲授的第一项技术。我们的课程不需要高等数学功底，高中数学水平就足够了。因此这里使用的方法确实是任何一个掌握高中数学、进行过一个小时的免费在线学习、具备编程基础知识的人就可以做的。

用这种方式训练的模型在商品服务器上（0.90 美元／小时就可租用）运行只需不到 20 秒，因此不需要任何特殊或昂贵的资源。任何具备基础编程技术的人都可以从交友网站轻松下载数据。

研究者说他们的研究提出了一个潜在的隐私问题。由于他们使用的技术很容易获取，如果你认为该研究展现的能力值得关心，那么这个说法似乎是合理的。

我们或许可以合理地假设，很多组织已经完成了类似的项目，但还没有在学术文献上发表。他们的论文展示了很容易就可以做到的事，并没有创建新的技术。营销人员使用社交媒体数据推销自己的产品变得越来越普遍；在这些案例中，模型只是寻找产品销量与获取的社交媒体数据之间的关系。那么在这个案例中，模型清晰地揭示某些照片和面向同性恋市场的产品之间的关系是非常容易的，开发者甚至没有意识到这种关联。实际上，我们已经见到过类似的事情，比如《How Target Figured Out A Teen Girl Was Pregnant Before Her Father Did》中的案例。

该模型展示出同性恋的脸在生理上存在哪些不同吗？

在研究 1b 中，研究者掩盖每个图像的不同部分，来看哪个部分引起预测的变化。这是理解输入的不同部分对神经网络的不同重要性的常见技术。

该分析结果在论文中的这张图片中显示：

红色区域对模型的重要性比蓝色区域大。但是，该分析没有显示更重要的程度，或者红色区域更重要的原因或方式。

在研究 1c 中，研究者尝试为每个男性、女性、同性恋、异性恋创建一个」平均脸」。这部分研究缺少严谨分析，完全依赖于对图像的直观感知。从数据科学的角度来看，这部分无法获取任何额外信息。

研究者称，这些研究结果支持产前激素理论（prenatal hormone theory）。但是，该研究中没有数据可以证明该理论如何支持该理论或提供了何种水平的支持，也没有就观察结果调查可能的替代性理论。

模型真的比人类准确吗？

研究者在摘要的第一句中说：「人脸包含了许多关于性取向的信息，这些信息比人类大脑能够感知和解释的更多。」他们在研究 4 研究基础上声明了这一点，他们在研究 4 中请人类对 study 1a 中的数据集图像进行分类。然而该研究并没有提供充分的方法论来支持这一声称。

斯坦福研究员 Andrej Karpathy（现在在特斯拉）曾经展示了一个相当严谨的方法来确定人类进行图像分类如何和神经网络相比较。该方法的关键是需要给人类同样的机会研究计算机训练时所使用的训练数据。这意味着让每个人类判断者在进行面部识别前，先研究数据集中众多面部图像及其标注。

由于没有提供这种「人类训练」的过程，人类和电脑对需要完成的任务掌握的信息非常不对等。那么即使方法论更好，但除了他们在随论文公开的强硬和无支持的声明外，仍然有许多可能的解释。

通常来说，学术声明应该是严谨且深思熟虑的，特别是当我们在论文中表述一个声明，尤其是在这么敏感的领域，且该领域超出了研究人员的专业范畴。

除了训练提供的图片外，分类器是否有效？

简而言之：我们并不能知道。论文中的研究 5 中提到这一点，但是并没有为这种说法提供强力的支持，而是以费解的方式提出这一点。研究 5 中使用的方法是：从一些同性恋 Facebook 用户处寻找图片，选择的标准是列出同性伴侣，至少有两页的「Manhunt」和「I love being gay」话语。然后他们试图训练一个分类器以分离这些图片和其他异性恋约会网站上的图片。研究者称该分类器的准确度为 74%，但 74% 的确切意义并没有详细指出来。如果它意味着 AUC 为 0.74（研究者在论文前面提到过 AUC），但这并不是一个令人信服的结果。而且他们对比不同的数据集（facebook 和约会网站数据集），使用特定类型的 Facebook 个人资料进行测试。

研究者表明他们并没有比较异性恋资料图片，因为他们不知道如何找到它们。

他们的研究支持最后的结论吗？

在一般性讨论部分，研究者得出了一些结论。所有的结论都比从研究结果可以得出的结果更强。但是，我们至少可以说某些照片中性取向识别情况要比随机选定的情况好一些，前提是假定他们的数据分析已经正确完成，但由于无法获取他们的数据或代码，我们并不能验证这一前提是否存在。

他们总结到他们的模型并不是简单地发现两组数据之间的表现差异，而是实际展示了基础的面部结构差异。该声明部分基于这种主张：他们使用的 VGG-Face 模型被训练识别非瞬时面部特征。然而，简单的数据分析就能表明这种声明是不正确的。维多利亚大学的研究者 Tom White 分享了他对人脸数据的分析，他的模型可以从无表情人脸图像中以高达 0.92 的 AUC 识别快乐图像（而且从悲伤的人脸图像中识别快乐图像的表现更好，得到了 0.96 的 AUC 分数），这要比这篇论文中的模型性能强大得多。

该论文是否混淆了因果和相关性？

每当社会科学家的论文引起计算机科学家的关注（例如在代码平台上共享时），不可避免地会听到「相关性并不是因果关系」。这一问题也在这篇论文上。

相关性是指对两个事件同时发生的必然联系，比如说冰淇淋买的多的时候防晒霜也买的多。很多时候会将它误认为是因果关系。事件 x（买冰淇淋）和事件 y（买防晒霜）之间的相关性主要有 3 种情况，如下所述：

1.x 引起 y

2.y 引起 x

3. 其他事件引起 x 和 y（可能不是直接影响）

4. 纯粹偶然（我们可以评估这种事发生的概率，而在这项研究中几乎没有提到这个。）

在上面的案例中，当然是大热天造成了购买冰淇淋和防晒霜的需求上涨。许多社会科学涉及到这个问题，这些领域的研究者经常需要在许多混合因素的情况下研究得出结论。这是一项比较复杂且具有挑战性的任务，并且经常导致不那么好的结果。对于计算机科学家和数学家来说，社会科学的成果看起来没有坚实的基础。在数学上声明一项陈述，那么我们就需要寻找所有的可能来证明该声明的成立性，证明前提是充分还是必要条件。但在社会科学中，这种结果不太可能实现，所以我们必须努力权衡证据和我们对结果的先验期望。

如上所述，斯坦福的这篇论文尝试通过各种研究分离因果关系和相关性，不过他们做的并不是很好。简单地声明「相关性并不是因果关系」是草率的回应。我们需要提供替代性理论，最好加上证据：我们是否能声明 y 引起了 x，或者其它事件引起了 x 和 y，我们论文中的研究是否支持该替代性理论？

我们应该担忧隐私问题吗？

该论文以警告的方式总结道，很多政府已经可以使用复杂巧妙的技术去推断居民的私密特征，而只有通过的这样的研究，我们才能猜测他们已经拥有了什么样的能力。他们声明：

推迟或者放弃发布这些研究结果将剥夺个人采取预防措施的权利和政策制定者立法保护人们的能力。此外，除了强调他们工作的伦理含义，这项研究并没有为那些正在开发或部署分类算法的人们提供任何好处。我们只是使用了普遍易得的工具、公开的数据，以及计算机视觉从业者熟悉的方法。我们并没有创造一个侵犯隐私的工具，应该说，我们的工作展示了那些被广泛应用的基本方法严重威胁个人隐私。

这些担忧都是真诚的，了解那些可用于威胁个人隐私的工具对我们来说也确实是一件好事。但很遗憾的是，那些夸张的声明、弱交叉学科研究和方法论问题掩盖了这个重要的议题。