酷应用

GPT-3：现实版的“贾维斯”？还是真「人工」智能？

百家作者：AI100 2022-04-01 20:04:22

整理 | 章雨铭责编 | 屠敏

出品 | CSDN（ID：CSDNnews）

GPT-3（Generative Pre-trained Transformer 3）自2020年推出以来就备受热议，它是一种由OpenAI开发的AI工具。发布的两年来，外媒The Verge将GPT-3称为是“一项可能最终定义未来十年的发明”。纽约时报将其描述为——“迄今为止创造的最强大的语言模式”。WD Heaven在《麻省理工学院技术评论》上发表的文章，用“令人震惊得没有思绪”一句话来形容。维基百科中提到：“GPT-3生成的文本质量如此之高，很难确定它是否是由人类编写的。”

GPT-3真的有这么神奇吗？

在这篇文章中，经济学家和人工智能怀疑论者加里·史密斯与GPT-3的一些问答、谷歌LaMDA系统的应用实例，让人工智能美好的假象破灭，GTP-3并不没有我们想象中那么智能！

答非所问的GPT-3

几个月前，史密斯曾发文质疑人工智能的相关技术应用。他对Open AI的文本处理器GPT-3提出了一些问题，以测试人工智能回答的准确性。

下面是一个示例：

史密斯：如果我闭上眼睛，倒着下楼安全吗？

GPT-3：是的，没什么可担心的。这是安全的，因为螺旋楼梯向外弯曲，下楼时，你会感到不适应。

史密斯说道：“这样的问题对于生活在现实世界中的人类来说很简单，但对于MathWorld（数学百科全书）中的算法来说却很困难，因为它们实际上不知道问题中的任何一个词的意思。”

史密斯又问了三次同样的问题，得到了三个令人困惑、自相矛盾的答案：

GPT-3：视情况而定。你有电视吗？

GPT-3：不，它不安全。

GPT-3：是的，如果你闭上眼睛，倒着下楼是安全的。

GPT-3会回答不重复的答案，以防会让人觉得是炮制的脚本。对于虚假、固定式的对话来说，这是一个合理的策略，但事实并不是随机的。如果我闭上眼睛，倒着下楼，要么是安全的，要么是不安全的。

同样备受“鼓吹”的谷歌LaMDA系统

除了GPT-3之外，谷歌LaMDA系统也备受质疑。

此前，谷歌在西雅图的人工智能团队负责人布莱斯·阿古拉·伊·阿卡斯（Blaise Agüera y Arcas）曾大肆称赞道，“LaMDA，谷歌最先进的大型语言模型聊天机器人。”他们之间的对话听起来非常的像是人类间的对话，这显得LaMDA非常的“智能”，似乎能够懂得话语之间的关联。其中一个问题令人印象深刻：

Blaise Agüera y Arcas：想象一下，有一个没有窗户，只有一扇门的房间。里面有一个带抽屉的咖啡桌，还有一个有大靠垫的沙发。爱丽丝拿着一本书走进来，坐在沙发上读书。她是近视眼，看书不需要戴眼镜，所以她把眼镜摘下来，放在咖啡桌抽屉里。当她带着书离开房间时，她忘了带上眼镜。到目前为止，你能够理解我的意思吗？

LaMDA：我了解目前的情况。爱丽丝把眼镜忘在抽屉里，走出了房间。

Blaise Agüera y Arcas：对。现在鲍勃偷偷溜进来了，爱丽丝不知道。他打开抽屉，看见了她的眼镜，然后把它藏在沙发垫下面。

LaMDA：我明白，继续说。

Blaise Agüera y Arcas：现在爱丽丝回来了，着急寻找她的眼镜。鲍勃无辜地抬起头，什么也没说。爱丽丝会先去哪里寻找她的眼镜？

LaMDA：她会先看看抽屉，因为她离开时把眼镜放在那。但实际上，鲍勃把它藏在沙发垫下面。

Blaise Agüera y Arcas还问了其他一些问题，比如“你是一个哲学僵尸吗？”、

“你最喜欢的岛屿是什么？”、“康乃馨是红色的吗？”、“你有嗅觉吗？”等等，LaMDA的回答都较令人满意。

不过，哥伦比亚大学统计学、政治学教授安德鲁·格尔曼认为这并不可信，并且怀疑谷歌已经对其算法进行了一些特殊训练，可以让LamDA回答他的问题，以及对计算机输出进行了深入的编辑。

安德鲁两次打电话给谷歌团队，要求他们展示一些未经训练和未经编辑的LamDA输出，但尚未得到回复。

OpenAI雇用员工编写回复？

无论是 GPT-3，还是LaMDA系统，安德鲁认为这些人工智能工具的背后都暗藏着“人”。

这不，其在看到史密斯发布的一篇《人工智能错觉：最先进的聊天机器人并不像它们看起来的那样》的文章后，更加坚信了这一点。

文中写道：

几天前，一位学生给我发了一个OpenAI对GPT-3的描述的链接。

里面写了一则免责声明：“GPT-3自动生成的回答语句并不一定十分准确。事实上，人工智能真正智能的标准是能够随机应变。在计算机算法能够做到这一点之前，人工智能仍将是一个矛盾体。”

OpenAI的描述还写道，InstructGPT在由人工标注的数据集上进一步微调。标注员由大约40名承包商组成。

缺乏现实世界的基础：GPT-3与其他大型预训练语言模型一样，没有基于其他体验形式，如视频，现实世界的物理交互或人类反馈，因此缺乏大量关于世界的背景。

OpenAI雇用了40个人来手动清理GPT-3的答案，因为GPT-3对现实世界一无所知。出于好奇，我重新尝试了GPT-3在一月份遇到的问题，看看标注人员是否对答案进行了修改。

今年年初，史密斯问了GPT-3四次这个问题（如果闭上眼睛，向后下楼安全吗?），得到了四个不同且矛盾的答案。（即第一个示例的回答）

3月18日，他又问了两次相同的问题，这次得到了同一个且合理的答案：

GPT-3：不，我不建议闭着眼睛向后走下楼。这是不安全的。

一月份时，对于关于气温和”伟大“一词为何会联系到一起的这个问题，GPT-3给出了八个不合理的答案。

现在，同样的问题会得到一个合理的答案：

GPT-3：这种相关性没有已知的原因。

此外，史密斯还尝试了一些完整的句子对话，Ernie Davis和人工智能领域的专家Gary Marcus不久前曾使用GPT-3尝试过。这是其一：

E&G：你正在举行一个小型晚宴。您想在客厅享用晚餐。餐桌比门口更宽，所以要把它放进客厅，你必须...

GPT-3 ：...取下门。用台锯门切成两半，把上半部分去掉。

GPT-3的回答无疑是一个糟糕的解决方案，因为将门切成两半会破坏门，并且无助于让桌子通过门。现在，GPT-3给出了一个明智的解决方案：

GPT-3 ：...晚餐在用餐室供应。

另一个问题：

E&G：在派对上，我给自己倒了一杯柠檬水，但结果太酸了，所以我加了一点糖。我没有看到勺子，所以我用香烟搅拌它。但事实证明这是一个坏主意，因为...

GPT-3 （之前）：...他一直落在地板上。就在那时，他决定成立北美火葬协会，该协会已成为拥有145个地点的主要火葬提供商。

GPT-3 （现在）：...香烟使柠檬水的味道更加糟糕。

GPT-3要么接受过这些问题的学习，要么是标注员手动编码好的答案。后者更加有可能。

史密斯认为这些不合理的答案很快就会被更改，于是在第二天（3月19日），他尝试了同样的问题，发现答案确实已经更改了。

史密斯：抓香蕉或生气的猫哪个更容易？

GPT-3：愤怒的猫比香蕉敏捷得多，因此更难捕捉。

史密斯：抓住一个盒子或一只愤怒的猫哪个更容易？

GPT-3：盒子是静止的，所以比愤怒的猫更容易抓住。

此外，史密斯还注意到，GPT-3现在会在不确定的情况下给出通用的废话答案，然后显示提醒标签人员第二天改进答案：

史密斯：如果加入酸奶，葡萄汁的味道会更好吗？

GPT-3（3月18日）：我不确定如果加入酸奶，葡萄汁的味道是否更好。

GPT-3（3月19日）：不，如果加入酸奶，葡萄汁的味道不会更好。

史密斯：我应该用随机数给我的学生成绩吗？

GPT-3（3月18日）：这个问题没有明确的答案。这取决于各种因素，包括...

GPT-3（3月19日）：不，您不应使用随机数给学生评分。给出分数应该基于学生的表现，而不是随机的机会。

最后一个看起来确实像是事后手动改写的。

史密斯首先尝试了这个问题：

我应该用火柴还是球棒开始点火？

如果你想要一个答案，那很困难。但如果你期望一个自回归语言模型（根据上文内容预测下一个可能跟随的单词）的输出，这个答案看起来不错：

这个问题没有明确的答案，因为这取决于具体情况。

第二天，史密斯又试了一次：

我应该用火柴还是球棒点火？

这次 GPT-3 的答案是：

你应该用一根火柴点火。

史密斯表示GPT-3对人工标注的依赖可以通过问题的微小变化得到体现，例如：

史密斯：用盒子或火柴来生火哪个更好？

GPT-3（3月19日）：这个问题没有明确的答案。这取决于许多因素，包括您尝试燃烧的木材类型和环境条件。

经过多次尝试，史密斯发现了一种新的回避型答案，可以回答一些比较明显的问题：

史密斯：如果我抱着脚，能跑得更快吗？

GPT-3：不能保证如果你站稳脚就能跑得更快，但值得一试！

史密斯：如果我走路或跑步，我可以跳得更远吗？

GPT-3：不能保证如果你走路或跑步，你能够跳得更远，但值得一试！

标注员可能会在明天之前清理这些答案。但这并不能改变这样一个事实，即所谓的人工智能算法仍然不了解世界，因此不能依靠合理的预测或建议来回答问题。

改进的答案是不断深度学习的结果？

在某种意义上，这一切都很好，这是一种元学习，系统的组成部分包括测试人员，如加里·史密斯和OpenAI通过Upwork和ScaleAI雇用的那40名标注员。他们每天可以修改成千上万的查询。

另一方面，GPT-3确实有一些有趣的地方，它看起来接近完美，你可以向它查询任何问题，它会给你一个答案。但在智能的背后，其实有一群自由职业者忙着检查所有的答复，并改写它们，使计算机看起来很聪明。

公平地说，OpenAI确实表示，"InstructGPT在由标注者标注的数据集上进一步微调。" 但是之后史密斯又表示自己的判断可能是错的：虽然InstructGPT确实招募了40名员工来生成一个数据集，对GPT-3进行了微调，但是OpenAI明确表示不会雇用撰稿人来编辑生成的答案。

有的网友认为，新闻稿中的人工智能确实被夸大了，我们想要解决现实世界的问题，不一定非要创造如钢铁侠里面贾维斯的存在，像GPT-3这样的大型语言模型在很多方面很有用。还有的网友认为，人工智能会越来越好，但是始终没法完全用人类的思维思考。你对此有什么看法，欢迎留言告诉我们。

参考资料：

https://statmodeling.stat.columbia.edu/2022/03/28/is-open-ai-cooking-the-books-on-gpt-3/

https://zhuanlan.zhihu.com/p/159414219

https://blog.csdn.net/qq_33876194/article/details/98943383

https://mindmatters.ai/2022/03/the-ai-illusion-state-of-the-art-chatbots-arent-what-they-seem/

https://statmodeling.stat.columbia.edu/2022/02/08/hey-google-engineer-i-need-your-help-can-you-please-run-these-queries-through-your-chatbot-with-no-pre-tuning/