CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力
最近谷歌发布的 Gemini 格外引人注目,其号称是第一个在各种任务中可与 OpenAI 的 ChatGPT 相媲美的大模型。
报道显示,Gemini 的“Ultra”版本在各种任务上都优于 GPT-4,而 Gemini 的“Pro”版本则与 GPT-3.5 不相上下。
针对两个当红炸子鸡的较量,美国卡内基梅隆大学近日展开了一项研究,深入探讨了谷歌 Gemini 的语言理解和生成能力,并将其与 OpenAI 的 GPT 系列作了对比,得到了有趣的结论——谷歌 Gemini 的综合性能与 ChatGPT 仍有较大差距。
论文地址:https://arxiv.org/pdf/2312.11444.pdf
Gemini 仅媲美 GPT-3.5 Turbo
CMU 的这项研究主要探讨了两个问题:
其一,对 OpenAI GPT 和 Google Gemini 模型的能力进行了第三方客观比较,并提供了可重现的代码和完全透明的结果;
其二,对结果进行了更深入的研究,找出两类模型中某一类模型分别拥有的优势领域。
研究团队对测试各种语言能力的 10 个数据集进行了分析,包括推理、回答基于知识的问题、解决数学问题、语言间翻译、生成代码以及充当指令遵循代理。
在所有的基准测试任务基础上,CMU 团队分析发现:
Gemini Pro 模型在模型大小和类别上与 GPT 3.5 Turbo 相当,其准确度一般与 GPT 3.5 Turbo 相当,但略逊于 GPT 3.5 Turbo,比 GPT 4 差很多。 Gemini Pro 的平均性能略低于 GPT 3.5 Turbo,尤其是在多选题的回答顺序偏差、多位数数学推理、过早终止智能体任务以及因激进的内容过滤而导致回答失败等方面存在问题。 在特别长和复杂的推理任务中,Gemini 的表现优于 GPT 3.5 Turbo,包括生成非英语语言以及处理更长、更复杂的推理链。而在不对回答进行过滤的任务中,Gemini 也善于使用多种语言。
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号
随时掌握互联网精彩
随时掌握互联网精彩
赞助链接
排名
热点
搜索指数
- 1 习主席收到的三份珍贵心意 4930411
- 2 金店店长:从业20年这个五一生意最淡 4915457
- 3 中国队时隔6年重夺汤姆斯杯冠军 4819604
- 4 五一假期文旅热 4711875
- 5 市监局通报叫花鸡里没有鸡 4691682
- 6 山东10个馄饨250克吃懵南方人 4578592
- 7 凤凰传奇北京演唱会观众被质疑假唱 4410768
- 8 男子服务区卖瓜一小时卖了1800 4359740
- 9 官方辟谣游客玩网红桥被割鼻子 4253613
- 10 美国士兵与俄女兵基地内共舞 4124012