酷应用

ChatGPT“大战”谷歌搜索：新王加冕还是旧王延续？

百家作者：InfoQ 2023-02-19 11:41:09

作者 | Ben Dickson

译者 | 平川

策划 | 凌敏

自从 OpenAI 发布 ChatGPT 以来，关于它的杀手级应用会是什么，人们有很多猜测。排名第一的可能要属在线搜索。据《纽约时报》报道，谷歌的管理层已经宣布进入“红色警戒”，努力保护其在线搜索的垄断地位，以抵御 ChatGPT 将带来的冲击。
这场 ChatGPT 与谷歌搜索之间的大战，究竟谁能称王？可能不同的人心中都有不同的答案。日前，TeckTalks 博客发表评论文章认为，ChatGPT 确实是一项很棒的技术，但从现阶段来看，取代谷歌搜索还存在一定的难度。

本文最初发布于 TeckTalks 博客。

ChatGPT 是一项很棒的技术，它很有可能会重新定义我们创建以及与数字信息交互的方式。它可以有许多有趣的应用，包括在线搜索。

但说它将取代谷歌可能有点牵强——至少从目前来看是这样。目前，大型语言模型（LLM）在挑战搜索引擎之前还有许多问题需要解决。即使技术成熟，谷歌搜索也可能是从 LLM 中获益最多的。

LLM 与真实性

ChatGPT 非常擅长回答问题。它让你觉得自己就像是在和一个花了几百年时间汲取知识的人说话。它的输出很流畅，语法也正确，甚至可以模仿不同的演讲风格。

然而，有个问题是 ChatGPT 的答案有时候不对。事实上，它经常产生幻觉，陈述的事实完全错误。在读写能力的表象之下，ChatGPT 是一个非常先进的自动补全引擎。它会根据你的提示（和聊天记录）尝试预测接下来会发生什么。而且，即使它的答案大部分看起来是合理的，它也没有把事情做好。

解决 ChatGPT 输出的真实性问题将是一项重大的挑战。 遗憾的是，目前还没有办法在 ChatGPT 的输出中区分幻觉和真相，除非你用其他事实来源验证它的答案（或许可以使用谷歌？）。但如果重点是使用大型语言模型作为搜索引擎的替代品，那可能会弄巧成拙。

现在，谷歌或其他搜索引擎所提供的所有内容都不一定是真实的。但至少，它们为你提供了可以进行验证的资源链接。而 ChatGPT 提供纯文本，不会引用实际的网站（注：在融合 ChatGPT 的最新版 Bing 中，会引用相关网址）。

一个可能的解决方案是添加一种机制，将 LLM 输出的不同部分链接到实际的网页（一些公司正在试验这种方法）。但这是一项复杂的任务，可能无法用纯基于深度学习的方法来解决。这就需要访问另一个信息源，比如搜索引擎索引数据库（这是经典搜索引擎不太可能很快失去其重要地位的原因之一）。

更新模型

ChatGPT 及其他 LLM 面临的另外一项挑战是更新知识库。 搜索引擎可以借助工具和软件不断索引新页面以及修改过的页面。更新搜索引擎数据库也是一项非常高效的操作。

但对于大型语言模型，添加新知识需要重新训练模型。也许不是每次更新都需要重新训练，但与在搜索引擎数据库中添加和修改记录相比，其成本要高得多。如果你想了解最新的新闻，就得每天做很多次。

ChatGPT 基于 GPT 3.5 构建，它可能至少有 1750 亿个参数。由于任何一个单独的硬件都无法运行这个模型，所以必须将其分解并分布在几个处理器上，比如 A100 GPU。配置这些处理器并行训练和运行模型不管在技术上还是财务上都是不小的挑战。

LLM 搜索引擎的运营商还需要有机制和工具，来确定哪些网络资源是可靠的知识源并应优先考虑。再一次，我们看到了搜索引擎组件的踪迹。

速度挑战

LLM 还存在推理速度的问题。像谷歌这样的公司已经创建了高度优化的数据库基础设施，可以在不到一秒钟的时间内找到数百万个答案。像 ChatGPT 这样的 LLM 则需要几秒钟来撰写回复。

搜索引擎不需要为每个查询浏览整个数据集。它们有索引、排序和搜索算法，可以非常快的定位到正确的记录。因此，尽管在线信息的数量在增长，但搜索引擎的速度并没有下降。

另一方面，LLM 每次收到提示时都会浏览整个神经网络的信息。诚然，神经网络的规模无法与搜索引擎数据库相比。但是，计算量仍然比查询索引大很多。鉴于深度神经网络的非线性性质，并行化推理操作的程度是有限的。随着 LLM 训练语料库的增长，模型也必须变得更大，才能在其知识库中很好地泛化。

ChatGPT 的商业模式

不过，基于 LLM 的搜索引擎最大的挑战可能是商业模式。谷歌在其搜索引擎上建立了一个广告帝国。

谷歌搜索并不是一个完美的商业模式。人们很少会点击那些越来越多地出现在搜索引擎结果页面上方的广告。但谷歌在在线搜索市场的份额如此之大，所以即使点击率很低，它每年也能赚上数十亿美元。

谷歌还可以根据从用户那里收集的数据来个性化搜索结果和广告。这使得它的业务更加高效和有利可图。别忘了谷歌还有许多其他产品，包括 YouTube、Gmail、Chrome 和 Android，可以强化它为用户创建的数字档案。它的广告网络也扩展到了网站和其他媒体。

基本上，谷歌控制着市场的两端：内容搜寻者和广告商。通过控制整个市场，它成功地创造了一个自我强化的循环。在这个循环中，它收集了更多的数据，改善了搜索结果，并提供了更多相关的广告。

作为一个潜在的搜索引擎，ChatGPT 还没有一个商业模式，而且成本很高。粗略估计，在 100 万用户的情况下，ChatGPT 每天的成本为 10 万美元，每月约为 300 万美元。

据我估计，运行 ChatGPT 的成本是每天 10 万美元或每月 300 万美元。这是一个粗略的计算。我是假设节点都总是在使用，批处理大小为 1。而实际上，它们可能在访问量大时进行批处理，而在访问量小时会有 GPU 处于空闲状态。
—— Tom Goldstein （@tomgoldsteincs）2022 年 12 月 6 日

现在想象一下，当人们每天运行 80 亿个搜索查询时会发生什么。现在，再加上定期训练模型的成本，以及通过强化学习和人类反馈来优化模型所需的人工劳动。

训练和运行像 ChatGPT 这样的大型语言模型的成本是如此之高，以至于让它发挥作用将成为大型科技公司的专利，这些公司可以在没有明确商业模式的无利可图的产品上投入大量资金。

盈利的一个可能途径是将 LLM 作为像 Codex 和 GPT-3 那样的付费 API 交付。但这并不是搜索引擎的传统商业模式，我不确定它们将如何做到这一点。另一种方法是将其作为一些问答功能集成到微软 Bing 中，但这将使其与谷歌搜索相提并论，而不是提供一个可以颠覆搜索市场的不同系统。

ChatGPT 是一个搜索引擎吗？

很多人都在谈论 ChatGPT 将成为万能助手，可以回答任何问题，这在逻辑上引出了它将取代谷歌搜索的想法。

但是，尽管拥有一个可以回答问题的人工智能系统非常有用（假设 OpenAI 解决了它的问题），但这并不是在线搜索的全部。谷歌搜索有缺陷，它会显示很多没用的广告，也会返回很多没用的结果。但这是一个价值不可估量的工具。

大多数时候，当我使用谷歌搜索时，我甚至不知道正确的问题是什么。我只是把一堆关键字混在一起，看看结果，做一些研究，然后缩小或修改搜索。在我看来，这种应用还不是一个非常有效的问答模型所能取代的。

表面看来，ChatGPT 或其他类似的 LLM 将成为在线搜索引擎的补充。最终，它们很可能会强化现有搜索巨头的地位，因为这些巨头拥有训练和运营它们的资金、基础设施和数据。

原文链接：

https://bdtechtalks.com/2023/01/02/chatgpt-google-search/

声明：本文为 InfoQ 翻译，未经许可禁止转载。

点击底部阅读原文访问 InfoQ 官网，获取更多精彩内容！