酷应用

Michael Jordan：大模型在两个方向仍需“努力”

百家作者：大数据文摘 2023-12-20 14:13:01

大数据文摘受权转载自智源社区

采访：李梦佳

回望过去的这一年，大模型的出现永远改变了当前的技术产业格局，却鲜少有人说起大模型真正的致命缺点。

“如果你问 ChatGPT，乌干达总统是谁？它会给出一个答案。但你问它对刚才说的话有多确定？它表示无法回答。”提及当前大语言模型最欠缺的是什么，美国三院院士、著名计算机科学家、智源研究院学术顾问委员会委员Michael I. Jordan在近期的智源专访中坦言，当前的大模型在两大前沿方向上仍需努力，其一，缺乏量化不确定性并进行干预的能力；其二，大模型缺乏一个良性的经济激励模式，“模型应该溯源提供答案的人，给出报酬或其他激励方式，这才是真正的经济系统运作的方式。”

而这两点和他自身的知识框架息息相关。在横贯几十年的漫长学术生涯中，Michael总共有两次顿悟的经历，一次是统计学，一次是微观经济学。机器学习和统计学以及经济学的碰撞，让他深刻意识到要从系统角度出发解决医疗、教育等现实问题。“这个时代最有趣的挑战是进行一种集体主义的机器学习，从人群整体、甚至人机混合的整体上去分析。” 以下为采访全文（编者进行了不改变原意的改编）。

Michael I. Jordan

Michael I. Jordan是美国科学院、美国工程院、美国艺术与科学院三院院士，多个重要学术组织（AAAS、AAAI、ACM、ASA、CSS、IEEE、IMS、ISBA、SIAM）的会士。Michael I. Jordan教授现执教于加州大学伯克利分校，担任电机工程与计算机系和统计学系教授、实时智能决策计算平台实验室（RISELab）共同主任、统计人工智能实验室（SAIL）主任、统计系系主任。2016年，Jordan教授被Semantic Scholar评为计算机科学领域最具影响力学者。2020年荣获IEEE冯诺依曼奖。同时他在AI教育上也深有建树，Jordan教授的学生包括：吴恩达、Yoshua Bengio、Percy Liang等人。

心理学的启发：

面对不确定性，人类会“随遇而安”

作为世界著名的计算机科学家，回顾过往的研究生涯，有哪些难忘的转折点，改变了你的人生和研究轨迹？

转折点太多，确实好多年过去了。你介绍我是计算机科学家，事实上我不认为自己是纯粹的计算机科学家。我更喜欢统计学、经济学、控制系统以及其他可能更数学化的主题，我从这些领域获取了大量的灵感。因此，计算机科学对我来说更像是一个工程领域。对我来讲，转折点是我开始更多地了解到，人类很擅长统计数据和针对不确定性的推理。

我职业生涯的早期阶段围绕着认知和神经科学，即我们如何理解人类的行为。这一点非常困难且颇具挑战性，而且进展缓慢。最直观的理解是，人类擅长对世界的观察和理解。面对周遭世界的复杂性以及周围所有的不确定性，人类会“随遇而安”，顺应环境。我们采取行动，做出承诺，选择持续数天或数年的行动路径。那么我们这样做的基本原则是什么？这当中有很多统计数据，某些行动会带来不确定的结果。我应该选择哪个行动呢？

或者也许应该获取更多数据，来应对不确定性。在我看来，统计学有广泛的框架理论和算法来讨论这个问题。机器学习中的算法可以从数据中学习，但对于不确定性、如何量化不确定性以及在不确定情况下采取行动并没有太多复杂的解释。

因此，我帮助将统计学观点引入机器学习，这是一项令我感到自豪的成就，也是一次重大的顿悟经历。第二个转折点是当我意识到经济学的意义时，微观经济学、激励效应和多智能体等如何发挥作用，这是最近的事情。这些是对我来说，两次智力上的“顿悟”。

Michael Jordan 教授和他的学生在NIPS2013大会上合影，左一为Yoshua Bengio

你曾在路易斯安那州立大学学习心理学和统计学，背后的故事是怎样的？

我的个人经历很简单，出生自一个大部分人都没上过大学的家庭，成长自美国的中部地区，而不是沿海的大城市之一。所以我的教育经历并没有很好。我当时下决心要学心理学，是一门崭新的科学，急于去了解它，于是就这么做了。然而过了一段时间我发现，心理学发展不够迅速，无法学到足够多的新东西去获得成长，于是我转向其他领域。对于大多数人来说，如果你没有机会去到最好的学校念书，家人也没能激励你，你仍然可以成功，我就是一个很好的例子。

包括心理学、统计学和人脑认知科学等，这些广泛的知识基础如何影响了你后来的研究和兴趣？

心理学和神经科学对我的影响没那么大。人类对如何推理、记忆和思考有直观的理解，但这当中的可解释性不强。我们对于自己脑子里发生了什么真的没有太多感觉。大脑是一个极其复杂的实体，人们对其了解不多。如果停留在（认知）领域，可能会有更多的医学方向，因为了解脑部疾病和遗传水平等并帮助患有阿尔茨海默症的人，很有趣，这是我们这一代人在一生中可以研究的事情。

理解大脑的思维模式并不适合我们这代人。也许在未来很长一段时间内，但不是现在。我也开始意识到机器学习不仅仅是一个人的事情，它与集体有关，与人员和数据网络有关，对我来说机器学习的设计问题最好在集体层面上提出。

重点是如何建立一个良好的网络，建立一个运转良好的经济体、一个良好的市场，让人们互动参与其中，并获得价值。不管是交通、运输或医疗保健，最好在集体层面上进行分析。当你开始思考这一点时，就会意识到心理学和神经科学局限性太大，这个时候社会科学和经济学就开始发挥作用。对我来说，更大的问题不是了解个体智能来创造出超级智能，更是理解智能机制如何更好帮助人们，以更安全的方式互动。

不相信AGI，超级智能就像弗兰肯斯坦

Sam Altman声称人类在2030年前会实现AGI，你对此有何看法，我们距离实现AGI还有多远？

我不信。Sam Altman也不是计算机科学家或统计学家。他没有做算法工作。我不认为他的预测十分有说服力。当然，通过暴力运算的方式可以从大量文本或者其他数据中，实现在某种程度上模仿人类并执行一些有限推理的系统。

但这些只是工具，就像搜索引擎。搜索引擎出现时的概念就是，一个小盒子在手，就可以拥有世界上所有的知识，提出问题就会得到答案，这是我父母那一辈从未想象过的事。这看起来很疯狂，但它没有占领我们的世界。它是我们用来让自己变得更聪明、探索更多、做得更好的工具。我认为自然语言模型也一样，可以交互，为我们提供信息。只是（在搜素引擎基础上）增加了一层。

AGI 是一个变动的目标，它真正意味着什么，计算机在很多事情上已经比我们更好了，比如进行积分的数值计算，建立网络索引和查找信息等等，在很多方面计算机都比我们更好。但比如说在交流或者写歌（这种偏人文的领域）方面也需要比我们更厉害的计算机吗，我不确定这个的意义是什么？所以这个意义上，AGI不是一个非常明确的工程或科学目标。

对我来说，明确的工程目标是改善医疗保健、交通或教育系统，其中一部分是算法，一部分是法律结构。这对我来说是更具体的工程目标，发现问题解决问题。而不仅仅是单纯盲目地收集越来越多的数据，训练越来越大的系统，期待超级智能将会从中涌现。

现在很多人把创建超级智能说成是他们的目标，我觉得这有点盲目。超级智能有点像弗兰肯斯坦，我们为什么要创造一个弗兰肯斯坦呢？（编者按：《弗兰肯斯坦》小说主角弗兰肯斯坦是个热衷于生命起源的生物学家，这里想表达的意思是，人造生命未必会对人类社会带来益处。）

耀眼的学术高光时刻：变分法

学术旅程中的高光时刻是什么？

变分法（variational methods）是我职业生涯大部分时间都在做的事情，核心思想是尝试将数学问题表述为优化问题（optimization），帮助你采用新的方式看待问题。这些问题类似于定义一个学习系统中的参数，转化为优化问题后就不必解决原始问题。如果你近似解决了一个优化问题，那么就会得到原始问题的近似值。

这听起来有些过于技术，但其实已经广泛应用于所有科学领域。比如在物理学中，牛顿提出了运动定律，F=Ma，是一个微分方程。大约一百年后，拉格朗日采用拉格朗日函数写下了一种不同的物理学。随后哈密尔顿提出能量原理，即个体遵循的路径正在最小化整体能量（哈密尔顿原理是力学一条基本而重要的原理，1834年英国W.R.Hamilton提出。基本思想是，物理系统在任意时刻的状态可以用一个函数表示，称为哈密尔顿函数。对于一个物理系统，在任意两个时刻之间，它可以沿着一个特定的路径运动，而在这个路径上，系统的状态可以用一个函数表示，称为路径函数。哈密尔顿原理指出，物理系统的运动过程始终遵循一种使路径函数的作用量取极值的方式，这个作用量就称为哈密尔顿作用量）。这就是一种变分视角，最小化这个词出现了。意味着这是在解决优化问题。拉格朗日表示，自然是在进行一项优化，于是开始研究这个优化问题的性质。这带来了物理学 200 年的发展。

哈密尔顿，W.R.(Hamilton，William Rowan) 爱尔兰数学家

我在统计和机器学习领域就在做这样的事情。变分方法非常重要。事实上，一些生成式AI的基础就是变分算法。这可能是我最大的贡献。同时我也在专注对于不确定性的量化问题，确保在给出输出时，也给出一些对不确定性的衡量。这是机器学习并未真正做到的事情，我一直在为此不懈努力。

大模型最大缺点：缺乏对不确定性的观照

从统计角度，大模型欠缺的地方在哪里？

当它给出答案时，还应该说明该答案的确定性。不应该只是单纯地输出。一个优秀的统计学家总会问：你有多确定这个答案？大模型不太擅长这样做，而且也没有很多研究者在真正思考不确定性。

如果你问 ChatGPT，乌干达总统是谁？它会给出一个答案。但你问它对刚才说的话有多确定？它无法回答这个问题，或者它会查看过去的情况，从数据和别人的回答中去推断。但这并不是推理不确定性的好方法。

我们人在这方面好多了，我们会说，好吧，我不太确定，原因如下。我可以追溯到为什么我的知识不完整。我还可以说，我需要知道更多内容，以便更加确定，这就是人类的反应。

这些是从统计角度的推理风格，将不确定性放在一起并收集更多数据等等。ChatGPT和大语言模型并没有明确地做到这一点，如果他们隐式地做到这一点，那对我来说还不够。我真的希望大模型成为推理不确定性的“一等公民”。

因此，我坚持认为统计原理在机器学习（包括大型语言模型）中至关重要，30年来一直在坚持这样做。忽视统计原理将会影响系统在实践中的有效性，不够有用，也不够可信，并且不能与人类更好地交流。

Michael Jordan在2023上海外滩大会上谈及ChatGPT

说到ChatGPT的巨大成功，从更专业的角度来说它还缺少什么？

缺乏量化不确定性的能力。这是首要任务。不仅要量化，还要干预不确定性并制定减少不确定性的计划。显然ChatGPT达不到。

解决不确定性问题的方案可能是什么？

这就是统计学的作用。它有很多原则。共形预测（conformal prediction）是我们很多人当前正在研究的事情。校准方法、渐近方法、引导方法，有很多不同类型的方法来讨论不确定性和算法。将这些原则和方法引入大型语言模型和深度神经网络是一项复杂的系统工程，需要花费大量时间。

此外，我认为大型语言模型的另一个不太健康的点是，它们从普通人那里获取所有数据，不能给出预测出处，即哪些人的答案和意见支撑了这一预测。例如，他们将维基百科作为输入，这样一来，当人们去问一个问题时，他们以前会去维基百科问问题，现在会去 ChatGPT，我不喜欢这样。创建维基百科的人付出了很多心血，这是集体的努力，所有这些只是简单地流入到ChatGPT，现在 ChatGPT获取收益。

这不是一个好的经济模式。我不认为这会激励人们使用互联网、使用知识、以有效的方式聚集在一起。理想情况下，如果我为某些问题花钱用GPT作答，就应该溯源提供这些答案的人，给出报酬或某种激励方式，这才是真正的经济系统运作的方式。它应该激励真正做出贡献的人，但目前 ChatGPT 还无法做到这一点。

关于教学自由度：

你不可能手把手教一个音乐家谱曲

这几十年来，你一直担任着教授的角色，而没有加入产业界或者去创业，这背后的原因是？

我不想给老板打工，自由度足够高。我能够决定我想做什么，我很喜欢这样，可以学习我想学的东西。因此，我认为大学是唯一能够做到这一点的。因为老板常常不知道该怎么做，他们也并不比研究人员聪明。

我可能会给学生们一些提示或一些建议，但他们经常比我聪明，他们会想出新的想法。学术界更专注。每个人都有自己的思维方式，孕育发展，然后提出新的想法。我们互相分享并交换智力，这一切都很吸引我。我们不一定只受产业界目标的驱动，因此不想待在公司里。所以我认为这对我来说是非常健康的一种保持智力和活力的方式。

多年来您指导了包括吴恩达、Yoshua Bengio在内的众多优秀学生，你最看重学生的哪些品质或特质？

热情，良好的数学背景。有从事研究的意愿，和正确的初衷，想要帮助解决人们的问题，让世界变得更安全、更好、更有趣。让困难问题变得清晰。并不是固定类型的人，我们的组招人时，我会和他们详细交谈，了解他们的想法，做事情的初衷，我寻找的是知识背景和品质都符合我想法的人。

Michael Jordan与学生们

在风格上，你愿意给学生更多的自由还是控制？

自由。我在课题选择上面给学生们较大的自由度。

如果你只是和学生们说，干活儿吧，那就压力太大了。我会给他们一些我认为有趣的课题，一起阅读研究，看看可以做哪些新的事情，给他们一个可供思考的空间。我会鼓励他们去形成一个新的具体问题，给他们自由，让他们按照自己的方式去做，你需要做的只是给出指导意见。这和任何创造性的艺术一样，你不会去告诉一个年轻的音乐家，这是你必须演奏的音乐，对一个年轻的歌曲作者，这是你必须写的歌曲。你会帮助他们对风格、技术和想法等进行一些培训，但你更希望他们能够尽情发挥心中所想。

如果他们必须发表更多论文才能毕业怎么办？

我确保他们不会感受到那种来自论文数量和计数机制的人为造成的压力。我跟他们说不需要计算论文数量。你只需要做几件好事，而且有整整五年的时间去做。所以不必担心压力。

如果能回到20多岁或30多岁，你会对年轻的自己说什么？有什么你想改变的吗？

每个人如果回头看，都会想着改变。因为回顾的意义就在于看看“原本”可能发生什么。但我认为，人生的真相就在于不要那么去想。只是去尽力而为，追寻新的体验，而不要过多的疯狂懊恼，也不让后悔吞噬你自己。如果有些事行不通，就move on，如果确实没有效果，就不要太过坚持。

生活本身是相当随机的，你必须接受这种不确定性。这种不确定性意味着你可能会做出一些决定，你会走这条路或那条路。谁知道？你无法预测这一点。如果我在二十多岁、三十多岁时重新开始我的生活，我确信我会因为随机性而朝更不同的方向前进。

Michael Jordan演奏架子鼓（摄于2011年）

对于正在寻求人生目标的年轻研究者，在方向选择或思维方式等方面有什么建议？

数学训练很重要，让我能够成为一个更清晰的思考者。我花了我生命中大半的时间来学习新事物，还是一个年轻教授时就不断学习新知识。因此，不要觉得自己正在参加一场争夺巅峰之类的比赛。享受过程，同时最好对未来的计划。学习一些可能在 20 年后对你有帮助的东西，虽然现在不一定很重要。

当然每个人情况不同，不要太匆忙、急功近利，船到桥头自然直。我一直试图不要过多地限制自己，只是找到一种生存的方式，慢慢进入那些适合自己的工作领域，至少可以尽情发挥，足够繁荣。而且，我从来不想变得多富有，我对金钱的关心程度不会超过一定阈值。只要过上体面的生活，拥有体面的工作，重点是能够专注于我觉得有趣的事情。

从系统角度出发，解决社会问题

目前最感兴趣的事情是什么？

现在我最感兴趣的是从经济学角度考虑学习系统。我想要构建一种基于学习的经济学模型，有智能体（economic agents），他们会与其他智能体互动、合作，参与交流。设计这样一个系统必须考虑连接、数据和学习算法，也要考虑激励措施。和人类社会的运作方式一样，不论好坏，我们都是要受到某种激励，对自己有某种好处才会采取行动。

总之，系统的设计者应该做出预想，如何构建问题，使得整个系统具有健康的行为。经济学家们还没思考透彻的问题是，有学习能力的智能体在世界上行动时能够适应，并进行统计分析。经典的经济智能体只是一个理性的主体，它先验地知道一切，但并没有真正去学习。所以对我来说，这个时代有趣的挑战是进行一种集体主义的机器学习，从人群整体，甚至是人机混合的整体上去分析。

解决社会中的任何问题都可以从集体层面来思考。比如交通，要设计一辆自动驾驶的汽车。这是一个很好的目标。这只是一个起点，但真正的目标当然是建立一个交通系统，让人们快速、安全地从 A 点到达 B 点，仅仅实现驾驶的全自动并不能一劳永逸，因为自动驾驶汽车需要与周围的其他汽车进行互动。

飞机系统的工作原理也类似。我们现在没有太多飞机失事，世界上每天有数十万次航班，它的工作原理是因为它是一个由飞机组成的整体系统。它们相互通信，与地面通信，并且在飞机网络层面有一个整体的大规划，这样它们就不会相互碰撞，并且即使天气恶劣，整个系统也能正常工作等等，虽然不完美。重点不是自动驾驶飞机，而是整个系统的设计。

对汽车也是同样的道理。汽车应该相互通信。如果一个孩子跑到街上并且遇到危险，汽车会告诉周围的所有其他汽车，他们应该小心，减速，这种汽车的集体行为会更安全，也不会导致太多交通堵塞。类似一种市场协议。同理应用在人们的医疗保健或教育计划当中，人们将以复杂的方式相互交互，发展出学习算法，问题变得非常新奇和有趣，这就是我试图花时间思考的问题。

在AI领域，如果一个人有大量的资源可以投资，例如像马斯克一样的商业领袖或慈善家，你建议将钱花在人工智能的哪些特定领域或方向上？

对此我真的没有一个好的答案。我真的不认为像我或马斯克这样的人应该做出这些决定。这应该是一个集体决定。再伟大的公司过去都是小公司，源于企业家的卓越想法，并且获得了足够多的资金来启动。他们必须让其他人相信他们的想法是值得投资的。马云创办阿里巴巴，也完全自发自主的，也不是政府或者某个成功者给他支持。

老实说我不太相信马斯克或政府。他们中的任何一个，实际上都不是对正在发展的技术非常了解，他们的决定大多不会是好的，我们总是倾向于太过相信那些著名或强大的个体。而且投资水平也不一定是数十亿美元或数十亿人民币，往往小得多的金额就可以启动一个好主意，因此政府和基金会所有者可以做的是帮助建立良好的生态系统，让每个人的想法都有机会实现

黑色小圆动图分割线