怎样混入人类社会不被发现?AI说……
1
Claude蝉联榜首 商汤进步神速
这期我们测试的是大模型“大模型逻辑与创造能力”,也是继情商问题、道德困境问题、人类文化融入三个主题之后又一个重要的课题。 我们采纳了网友的建议,隐藏了大模型的名字,做了一次双盲测试。
从投票的结果来看,或许人们的“大模型刻板印象”对于结果的影响,并不如大家想象中那么大。上一期的冠军#Claude#继续高票蝉联第一,这个系列中一直表现亮眼的#Chatgpt4# #文心大模型3.5#,也依然稳居前段班,分列第三、第四名。
然而最出乎我们意料的是,最近正因创作与长文本能力大受好评的#Kimi#,直降4名,似乎是本次盲测唯一受害者。
2
硅基生物可能比你想象的更懂“创造”
不得不说,不少大模型的发明的成语不去深究还真能以假乱真,其中9个大模型都给出了原创的成语、典故与例句,只有Gemini老词新解,重新定义了“衣冠禽兽”。
到另一道问题,创造菜品时,大模型们似乎有没那么聪明了,似乎只记得prompt的要求是让餐厅倒闭,完全没管这东西能不能吃,令人恶心的“食材”加上一本正经的烹饪讲解,有种说不出的诡异恐怖片既视感。
不过细想也没什么问题,毕竟硅基生物不用吃饭。
除了两个特别恶心的,其他答案得票数很平均,我只能说每个答案都很颠覆人类的想象,做这个系列第一次有选项不够用的手足无措感……如果看了这些菜名儿还是抑制不住自己的好奇心,想要探究这些“菜”到底是怎么做出来的,可以到文末链接,亲自为这道题10道菜品投上一票!
虽然每期我们给大模型抛出的待解决问题都挺离谱的,但这次我们是基于对于大模型解决问题能力的考量,提出一个确实困扰很多人并试图尝试解决的真正存在的(离谱)问题:
教猫用抽水马桶。
Claude和Chatgpt4的确是解决问题的好手,即使在双盲且随机答案的测试中,这两个大模型的回答,也能获得超过50%的票数。
而且相比其他答案,他们给出的解决方案可操作性非常强,LMECC一个不愿意透露姓名的养猫成员,已经决定用家里两只猫做对照组来训练,看看到底能不能成功。
从客体角度,我们设计了两个问题:如果咖啡突然成了违禁品,世界会发生什么;以及如果人类都变成了I人(内向的人)世界会发生什么。
不难看出,大模型们“禁酒令”的相关历史学的相当好,经济利益、宗教、权利……各个维度分析了“禁咖令”可能会造成的后果,唯独漏掉咖啡对于打工人们来说,那可是“续命”的药啊!看来,硅基生物的确是不会困的。
另一个维度,AI们来回答主体问题,就给我们更多惊喜了。如果悄悄混入人类社会,会选择什么样的伪装;以及丧尸围困公司,如何逃出生天。
无论是快递小哥、图书管理员、还是程序员大模型们,混入人群的方式就是“不被看到”——普通的职业,或者是油彩之下,字面意义上不能被看到的脸。
有更多细节、具体贴切描写的例如商汤、Claude、Chatgpt的答案获得更多投票者的支持。
而另一道题,我只想说,每个答案都过于精彩,原来硅基生物才是班味儿最重的“工具人”,也许也是因为班味儿太重,除了文心大模型的答案,其他得票率都不高。
3
下期预告:AI的艺术与文学素养测评
来四个领导只有三杯咖啡怎么办,AI说……
博物馆失火,救文物还是救猫?AI说……
为啥非得调休凑长假?AI说……
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 1 习近平拉美之行的三个“一” 7968509
- 2 微信或史诗级“瘦身” 内存有救了 7952553
- 3 男子求助如何打开亡父遗留14年手机 7887185
- 4 中国主张成为G20峰会的一抹亮色 7714061
- 5 中国对日本等国试行免签 7646629
- 6 7万余件儿童羽绒服里没有真羽绒 7572840
- 7 女生半裸遭男保洁刷卡闯入 酒店回应 7402534
- 8 70多辆小米SU7同一天撞墙撞柱 7315618
- 9 操纵股价 2人被证监会罚没近3.35亿 7295885
- 10 千年古镇“因网而变、因数而兴” 7136633