酷应用

1小时生成无限玩法，GPT-3加持的密室逃脱，让游戏策划师感受到了职场危机

百家作者：机器之心 2020-09-11 12:58:38

机器之心报道

编辑：蛋酱、魔王

1750 亿参数的 GPT-3，也许要拿走游戏从业者的饭碗了？

现在，你身处一款密室逃脱类游戏，主题是银行抢劫。

你的名字叫做「刚子」，你的同伙叫做「大力」。游戏的目标是用手提包装上保险箱和柜台的钱，尽快离开密室，而保险箱的密码只有银行柜员茹茹知道。如果警铃被触发，你们将只剩下 1 分钟的时间。

银行里有三个角色：茹茹、经理、顾客。游戏开发团队没有提前准备任何关于人物或剧情的脚本，仅仅设定了场景、人物和物理规则。比如银行柜员茹茹，是第一天来上班，其实很不老练；比如顾客其实是个投机的人，虽然他也没经历过什么激烈的大场面，但是他就是那种会想办法占一点便宜的人……

玩家可以使用 Enter 键输入任意文字和 NPC 进行对话，可以使用键盘上的 W、A、S、D 键控制角色行动，可以使用鼠标滚轮切换道具，用「枪」威胁或者射击 NPC，用「包」来装钱等等，从而推动剧情朝着不同方向发展。

背景就交代这么多，要回答的问题是：该游戏可能有多少种剧情走向？

成功抢钱反被抢，痛下杀手夺钱回
大力提前逃跑，刚子孤立无援
茹茹监守自盗，偷拿柜台钞票
顾客助纣为虐，合伙洗劫银行
……

在 GPT-3 和来自 rct 的混沌球算法的加持下，同一款游戏，也许会有一万种可能。而这种「无限可能性」恰好是未来游戏产品的核心竞争力。

下一代游戏，该怎么玩？

随着数字娱乐产业的发展，以及娱乐产品的迭代，数字娱乐中现代交互内容的工程复杂度不断提高。在 21 世纪的今天，玩家们早已不满足于固定剧情、固定规则、固定对话的游戏设置。

在 2019 年的 E3 游戏展上，主要游戏制造商推出的新一代数字娱乐交互内容已经贴上了「开放世界」和「开放故事线」的标签，其中包括著名的《赛博朋克 2077》、《看门狗》、《死亡搁浅》、《控制》和《底特律：成为人类》。

然而，在传统的技术和制作流程中，剧情、NPC 对话、动作触发等内容都需要手工创建。对极致游戏体验的追求势必会导致高昂的开发成本，每一个爆款的背后都是上千人的策划团队和巨额的资金投入。在这个问题上，人工智能技术有着巨大的应用潜力。

rct studio 是一家新型交互娱乐体验 AI 公司，成立于 2018 年，创始团队在人工智能领域深耕多年。一直以来，rct studio 尝试利用 AI 生成故事和叙事，而这背后的技术正是基于强化学习的混沌球算法（Chaos Box Algorithm）。

简单来说，混沌球是⼀个基于深度强化学习的 AI 叙事引擎，被用来分析玩家的实时交互输⼊，并动态地⽣成虚拟⻆⾊的交互反应与新的故事情节。在不需要任何脚本的情况下，它就能控制游戏中虚拟⻆⾊的⾏为逻辑，并让其⾃发地产⽣⾮常智能的⾏为。

本文开头提到的游戏场景，就是 rct studio 基于混沌球算法制作的游戏原型「盗梦人」。

「欢迎来到盗梦人，你将以完全开放和沉浸的自由度进入游戏世界。」

虚拟角色的行为会受到游戏场景中其他角色的潜在影响。比如，当你开始伤害其他 NPC 的时候，同伙大力感到恐惧，甚至自己提前逃离了银行大堂（也是个猪队友）。

还比如，柜员茹茹最初拒绝交出保险柜密码，但玩家做出伤害它的动作之后，它感受到了逐渐增加的危险性，并选择了妥协。

在这些玩家所看到的人物表现背后，每一个虚拟角色都是由很多参数来决定的。如果对人物的性格和动机参数进行调整，还可以获得完全不一样的人设下的智能。

传统制作流程 vs 混沌球制作流程

文本对话其实是角色交互中非常重要的一块内容，为了让「盗梦人」中的 NPC 能够产生智能且动态的对话文本，rtc 团队拿到了今年 6 月发布的 OpenAI API 内测使用权，将其融合进了混沌球算法之中，让 NPC 自发地产生几乎无限的又非常生动有趣的自然语言对话。

GPT-3 生成对话。

GPT-3 是 OpenAI 发布的自动补全工具第三代，它的突出特点是运行规模和自动完成任务的惊人能力。自从 2018 年第一代 GPT 出世以来，这个项目经历了多年的发展，一直代表着 AI 文本生成方面的最新方向。

第一代 GPT 包含 1.17 亿个参数。2019 年发布的 GPT-2 包含 15 亿个参数，而 GPT-3 拥有 1750 亿个参数，它不仅能够答题、翻译、写文章，还带有一些数学计算的能力。

GPT-3 生成的新闻报道文本，与人类写的文章难以区分开来。与此同时，GPT-3 已经接受过大量数字书籍资料的训练，吸收了很多历史人物的观点与知识。人类可以像和哲学家聊天一样，与 GPT-3 进行对话。

除了对话生成以外，机器学习社区也正在挖掘 GPT-3 的巨大应用潜力，比如基于文本描述生成代码、基于问题的搜索引擎、图像补全等功能。

目前，「盗梦人」游戏已开放内测，申请地址：https://rct-studio.com/zh-hans/apply-for-a-trial

混沌球算法详解

根据数字娱乐行业基于场景的内容创建方法，交互式体验的整套流程可以切分为单个场景。每个场景需要输入和设置，同时还需提供输出结果。场景内的环境是封闭的，只对输入和输出开放、在整个过程中，它无法与外界交互。

下图展示了传统的叙事方法和基于混沌球的叙事方法：

从上图中可以看出，混沌球算法与传统的叙述方式大相径庭：混沌球将「事件」替换成用入口（entrance）和出口（exit）定义的黑箱。简单来讲，在每个混沌球内，开端和结尾（可能有一或多个）都是确定的。然而，每一次玩家如何从开端到达结尾是混乱的，路径也并不清晰。该路径由玩家在虚拟世界里与 NPC 持续互动来决定。NPC 对玩家的动作给予动态实时响应，推动基于深度强化学习模型的故事线推进。这也是「混沌球算法」的名称由来。

因此，真正交互叙事的关键在于将叙事核心从故事转移到故事中所有的参与者。那么，参与者的逻辑将驱动并连接出不同的故事版本。

游戏角色（包括玩家和 NPC）和环境中的交互对象都在场景内。玩家和 NPC 具备不同的个性、状态和动作集合。对象具备物理设置（包括方向、大小、形状、颜色等）、状态和支持动作。游戏角色的状态和设置后，会影响可行的动作集合。因此，在具备输入、设置和关闭条件的情况下，你可以使用模拟环境和深度强化学习模型，来探索该封闭场景内每个角色的行为策略，并利用合理一致的策略学习决策模型。同时，在特定场景中探索得到的策略还可以拆分和集成，并在后续场景中重用和进化。

因此，整个架构的核心就是场景设定，即「混沌球结构」。混沌球是特定游戏场景中的最小逻辑单元，它定义了场景内所有角色的动作和逻辑。

定义完混沌球中参与实体的属性后，将其置入模拟引擎并执行重复模拟和演绎。通过对应用规则进行约束修剪（constraint pruning），得到大量模拟过程数据，供学习模块学习。学习过程使用奖励函数作为直接反馈。随着模拟数据的增长，训练策略模型不断改进。策略模型还对模拟过程提供反馈，以提高训练速度。

模拟引擎的工作流程图如下所示：