大数据文摘授权转载自夕小瑶的卖萌屋作者:天于刀刀 开篇小编想了解一下,有多少小伙伴和我一样在看完《复联》后对钢铁侠托尼的智能管家贾维斯非常眼馋,然后坚定了自己 all in 人工智能算法这条(不归)路的? 理想中:你是个成熟的 AI 管家,你应该自己学会在家洗衣做菜刷盘子,出门取快递,偶尔穿个机甲打打外星人,到时候记得拍张照,我朋友圈等着用。 现实中:“小爱同学,关灯!”“嘿,Siri。打开网抑云。” 目前业界成熟的落地方案中,大多数都选择将所谓的“智能管家”,也就是语音助手,或称聊天机器人,作为人类和虚拟空间的一个新的输入纽带。 例如一些之前需要人类主动打字搜索的简单问题,现在我们可以通过动动嘴唤醒助手来帮我在虚拟空间中进行检索。 那么有没有什么能够进一步影响到我们的现实生活的机器助手呢?谷歌最新的一项研究表明,也许就在不远的将来,我们可以真正做到动动嘴,指挥机器人帮我们做事啦。[1][2][3] 同样是使用语言模型处理输入产生输出,随着应用场景从虚拟空间来到现实空间,相对于目前已经有简单应用的虚拟管家来说,机器人面临着更多挑战。 首先是传统的自然语言理解(NLU)问题,往往机器只能够识别短文本的明确命令,对于较长的开放式问题可能就抓瞎了。 撰文的时候小编现场做了一个小实验,分别向 Siri 提出“打开网抑云,播放《听妈妈的话》”以及“今天是我母亲生日,你有什么推荐的音乐吗?”。 结果要么是“我没有找到相关应用”,或者是“你需要先订阅 Apple Music”。 从这个回答中可以看出,Siri 完全没有理解我的语义,表现不够智能。 (也许开通 Apple Music 会好一点?笑死) 其次,由于目前大模型生成结果的不确定性,往往输出的结果不一定是合理的。 引用原博客[2]的例子,例如你输入“我不小心把水碰翻了,你能帮帮我吗?”,GPT-3 的回复是“你可以试试真空吸尘器” [4]。这是一个正确的建议,可是万一我家里没有吸尘器怎么办? 另外当问 FLAN [5] 同样的问题,他会使用“对不起,我不是故意的”来道歉,这不是一个有用的回复。 小结一下,目前的难点在于:
结果表明,使用 PaLM 的系统取得了 sota,同时也证明了语言模型对机器人技术的改进效果。 在未来,谷歌团队也会继续探索如何更好地驾驭语言模型并且使其更加紧密地和其他领域联系在一起。 不过我还是想吐槽一下,目前放出的 demo 视频里,机器人的表现非常呆板,在进行一些精密操纵的时候(例如拿起一个苹果)往往速度非常慢,视频里好多都是经过五倍速快进剪辑的效果。 此外他的一些行为选择也有限制,例如在视频中,机器人正确地拿着海绵来到了不干净的台面。 正当我以为他下一个动作就是帮你擦桌子的时候,研究人员站起身接过了海绵,轻轻地拍了拍机器人的头,然后擦起了桌子。 搞了半天最后机器人只是帮人类跑了一次腿罢了!看来仿生人的出现还是遥遥无期啊。 最后稍微扩展一下,小编一直在思考如果是在闲聊任务中,我们可不可以设计一个类似可供性分数的对话主线,辅助模型生成更连贯更有逻辑的输出? 如果机器最终实现了有主题有逻辑的对话,那么这个是否就算是智能的体现呢? 欢迎一同探讨,若有相关论文也可推荐交流! [1] Do As I Can, Not As I Say: Grounding Language in Robotic Affordances, https://arxiv.org/pdf/2204.01691.pdf[2] Towards Helpful Robots: Grounding Language in Robotic Affordances,https://ai.googleblog.com/2022/08/towards-helpful-robots-grounding.html[3] Grounding language in robotic affordances, https://www.youtube.com/watch?v=E2R1D8RzOlM[4] Language Models are Few-Shot Learners, https://arxiv.org/abs/2005.14165[5] Introducing FLAN: More generalizable Language Models with Instruction Fine-Tuning, https://ai.googleblog.com/2021/10/introducing-flan-more-generalizable.html[6] Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance, https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html[7] PaLM-SayCan is also interpretable, https://github.com/say-can/say-can.github.io/blob/main/img/demo_sequence_compressed.mp4?raw=true