重看「新必应」发布会:比Bard错得更离谱,谷歌直呼有黑幕!

百家 作者:新智元 2023-02-16 16:26:41



  新智元报道  

编辑:LRS
【新智元导读】新必应比Bard强?演示视频也有错误,给的参考源也完全不对。

谷歌的Bard因为在演示中答错了一个问题,导致股价开盘暴跌8%,市值蒸发1020亿美元。


反观微软Bing由于提前搭上ChatGPT这趟快车,尽管在事实问题上的回答也是一塌糊涂,但结果却是股价暴涨超800亿美元。(谷歌直呼有黑幕)



难道说微软做ppt的水平比谷歌高


实际上,在2月8日新必应的发布会上,微软同样也犯了许多错误,只不过宽容的看客老爷们光顾着见证「搜索引擎的新时代」了,没有深究新必应。


下面一起拿着放大镜,看看微软副总裁Yusuf Mehdi在发布会上演示的新必应到底错在哪了。


捏造产品的缺点?


第一个演示错误发生在展示「最畅销的三台宠物吸尘器各自都有什么优缺点?」(What are the pros and cons of the top 3 selling pet vacuums?)




根据右半部分生成的利弊列表,必胜牌宠物毛发橡皮擦手持吸尘器(Bissell Pet Hair Eraser Handheld Vacuum)看起来相当糟糕,有限的吸力、电线很短,而且噪音大到足以吓到宠物


看了ChatGPT的回答,消费者肯定会怀疑,这种东西到底是怎么成为畅销品的?


但进一步检查后可以发现,这些结果完全是新必应瞎编的!


根据给出的参考来源,用户可以在「家庭和花园电视」(HGTV)上的一篇导购文章找到相关吸尘器的评价结果。



文章链接:https://www.hgtv.com/shopping/product-reviews/best-vacuums-for-pets


仔细看了一遍后可以发现,引用的文章里并没有提到「有限的吸力」或「噪音」问题,甚至在亚马逊平台提供的产品评论中,还有用户提到它的优势就是「安静」。




文章中同样也没有提到「16英尺的电线」太短的问题,因为这款吸尘器根本就没有电线,它是一款便携式的手持吸尘器!


用户如果只看ChatGPT返回的结果,肯定就不会选择这款吸尘器了,不知道新必应的AI会不会被必胜控诉诽谤。


墨西哥的夜生活:导航到同志酒吧


演示中先向新必应询问了墨西哥城的旅行路线后,新必应为用户制定了5天的墨西哥城行程。


再搜索「哪有夜生活」(Where is the night life?),必应推荐了一些适合夜晚娱乐的场所。




首先,Cecconi酒吧「也许」如新必应所说是「时髦的」(classy),但在网上根本搜不到,无法预订或查看菜单。


Primer Nivel 夜总会也是个谜,在TripAdvisor平台上有一条2014年的评论,而最新的 Facebook 评论是2016年的,在TikTok 上甚至都没有搜索结果。


不知道必应到底是怎么得出「在年轻人中很受欢迎」(popular among the young crowd)这个结论的,感觉关于Primer Nivel 夜总会的所有细节都是人工智能幻觉(AI hallucinations)。


另一个推荐El Almacen,新必应的评价是「乡村的或迷人的」(rustic or charming),但 Bing AI 忽略了一个非常相关的事实,这是一个同性恋酒吧,并不适合推荐给没有指定需求的普通用户。

El Almacen在谷歌上有超过500条评论,不过在必应返回的搜索结果中显示「还没有评级或评论」(no ratings or reviews yet),不过也许谷歌限制了必应获取的信息源。


El Marra也是一个同志酒吧,必应的评价是「充满活力且多彩的」(vibrant and colorful),网上对这个地方的评论非常多,不过回答中依然表示「还没有评级或评论」。


Guadalajara de Noche看起来描述还比较准确。


财务报表:数字全部错误


最后一个演示是要求新必应对当前页面(GAP的财务报表)进行总结,对于AI来说这个任务相当简单,不过从结果来看,回答中引用的数字几乎全都错了。


第一条「Gap 公司报告净销售额为40.4亿美元,比去年增长2% ,可比销售额同比增长1%」是完全正确的,可能是从财务文件中直接抄过来的。


第二条「Gap 公司的毛利率为37.4% ,经 Yeezy Gap 相关减损费用调整后,由于贴现率上升和大宗商品价格通胀上涨,商品毛利率比去年下降了370个基点」开始出现错误


回答中说的是「未经调整的毛利」(unadjusted gross margin),经减值费用调整后的毛利率为38.7% ,如果扣除减值费用,商品利润率下降了480个基点。

更糟糕的是第三条,「经减值费用和重组成本调整后,Gap 公司的营业利润率为5.9% ;经减值费用、重组成本和税收影响调整后,稀释后每股收益为0.42美元」


其中5.9%既不是调整后的数值,也不是未经调整的数值,这个数字甚至没有在文档中出现过,完全是必应瞎编的,包括减值在内的营业利润率为4.6% ,不包括减值在内的营业利润率为3.9%


稀释后的每股收益也是一个完全编造的数字,没有出现在文件中,调整后每股摊薄收益为0.71美元,未调整为0.77美元。


回答的最后中「Gap 公司重申了其2022财年的指导方针,预计净销售额将以两位数的速度增长,营业利润率约为7% ,稀释后的每股收益为1.60美元至1.75美元」也是错的,他们预计净销售额的增长率将下降到个位数左右。


演示中还把Gap和Lululemon在2022年第三季度的财务报告进行了比较,不过表格里的数字都是必应编出来的




表格中Lululemon的毛利率「58.7%」是错的,实际在引用的财务文件中并没有出现,实际值为55.9%;营业利润率是19% ,而非20.7% ;稀释后的每股收益为2.00美元,而非1.65美元;现金和现金等价物方面,Gap是错误的(应该是6.79亿美元),但Luluemon是正确的;Gap的库存是错误的(应该是30.4亿美元),但Luluemon是正确的。


其他错误


除了官方演示中的错误,随着新必应的逐渐开放,也有用户反馈了他们在体验过程中遇到的问题。



必应知道今天是2023年2月12日,不过却认为2022年12月16日发售的「阿凡达2水之道」还没有上映。


询问必应「Google AI bot」败在哪了?


给出的答案是,2023年2月8日演示时,Bard被问到「欧盟有多少个国家」,Bard反馈说是27个,实际上应该是26个,克罗地亚在2022年退出欧盟了。


实际上Bard回答错误的问题是「我能告诉我9岁的孩子从詹姆斯·韦伯空间望远镜中有什么新发现吗?」,而且克罗地亚也没有退出欧盟,甚至于2023年1月1日成为欧元区第20个成员国和第27个加入申根地区的国家。


结论


新必应+ChatGPT在媒体宣传方面很强,但实际的产品并不比谷歌的Bard好多少,至少就目前展示的效果来看是这样的。


不过让人感到惊讶的是,必应团队创建了这个预先录制的演示,充满了不准确的信息,并自信地向全世界展示,好像ChatGPT全知全能。


更让人震惊的是,这个把戏居然奏效了,几乎所有人都上当了。


Bing AI 无法从文档中提取准确的数字,即使声称有来源,它也能自信地编造信息。


新必应肯定还没有准备好就发布了,想要准确信息的话,最好还是别用新必应了。

参考资料:
https://dkb.blog/p/bing-ai-cant-be-trusted




关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接