Google 版 ChatGPT 大更新!用 GPT-4 给它出的难题全都满分回答

百家 作者:爱范儿 2023-04-12 17:52:25
Bard
vs
ChatGPT

AI 热潮以来,「突发」就成了我们标题的常客。
昨天,来自 Google 的大语言生成类 AI 模型 Bard 又迎来更新,新增了「Google it」按钮,增强了数学与逻辑能力,并发布了一个全新的功能更新公告板。
发布以来就饱受争议的 Bard,如今能在数理逻辑领域,与 GPT 4 一较高下吗?
三个更新点,做数学题是重点
为了让用户更方便的了解 Bard 更新变化,Google 上线了 experiment updates(实验更新)界面,展示 Bard 的最新消息。网址如下:
https://bard.google.com/updates
相比其他厂商「提高系统稳定性,优化系统流畅度」的更新对联,Bard 不仅告诉你更新了什么,还告诉你为什么更新。Google 表示,这是为了让用户更快的进行测试、提供反馈。
顺着更新公告往下看,「Google it」是这次的第一个功能更新,当你问过 Bard 后,可以在答案下方看到「Google it」的按钮,点击后 Bard 会生成几个相关主题,以便你使用 Google 进行更多元的搜索。
这样一来,Google 搜索就变成了 Bard 的补充,如果在未来,Bard 完全替代前者我也不会感到意外。
不过,Google it 在提取复杂问题的主题时准确性还不够高,比如在我询问奥数题时,Google it 的主题几乎没有价值。

最后,也是最大的更新,Bard 的数学和逻辑能力得到了升级,以前一道 123456*654321 就开始乱说的大语言模型终于站起了身,开始实践「学好数理化,走遍网络都不怕」的道理。
光说不练假把式,Bard 的数理能力够不够强,我们给它出了 20 道题,看看它的表现如何。
GPT-4 出了 20 道题,Bard 满分
第二题答案有误,应为(2,-1)
我们用 GPT-4 整理了 20 道数学、逻辑类问题,用于测试 Bard 的数理能力。
先不说对不对,Bard 的反应速度着实很快,即使是加速后的 GPT-3.5 也不是它的对手。
先来看看 Bard 的表现,Bard 不仅完全答对了所有题目,还给出了详细的解题过程。
ChatGPT 的表现也不错,数学题全对,逻辑题只错了一个。
我们也用同样的问题考了百度的文心一言和阿里的通义千问,10 道数学题,通义千问仅对 1 题,文心一言则对了 4 题;10 道逻辑判断,通义千问 3 题正确略胜一筹,文心一言 2 题正确屈居第二。
不得不说,数理计算对大语言模型来说,门槛确实比较高。
10*3.14=314
无中生有的兔子
我们也用英语问了一遍,结果依然很难让人满意。
忘记了周长公式的通义千问
回归猫咪的文心一言
从我们简短的测试来看,Bard 的表现相比它刚发布时确实有了显著的提升,在回答问题的逻辑性和正确性上已经逐渐赶上了 GPT-3.5。
比 ChatGPT 表现更好的是,Bard 在回答问题时还会加入引用信源,降低了编造事实的可能。
目前 Google 对 Bard 的试用申请似乎放松了不少,只要申请加入 Waitlist 后再刷新几次界面,就能马上体验 Bard。
感兴趣的朋友可以在下方地址体验。
https://bard.google.com/
如果你的试用申请一直都没通过,也不用着急。
Google 的 CEO Sundar Pichai 最近在接受采访时透露,Google 计划将 Bard 整合到搜索引擎中,以应对 ChatGPT 等聊天机器人带来的竞争压力和更为广泛的商业问题。
未来 Google 应该会像 Bing 那样开放一个聊天搜索界面,直接在搜索引擎就能调用 Bard。
目前 Google 并没有给出明确的时间表,也许在 5 月 10 日召开的 Google I/O 2023 大会上会透露出更多的信息。
AI 不会画手、AI 不会做数学题,这些问题已经慢慢成为了历史,那么问题来了,AI 的下一个突破点,又会在哪里呢?


ChatGPT 将打开「四天工作制」的大门,取代你的不是 AI



硅谷最爱的「丑鞋」又出大招,要打破和阿迪达斯创下的纪录 | Feel Good 周报



关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接