图灵奖得主 Judea Pearl:一场改变数据科学的“因果革命”,正席卷而来......

百家 作者:程序人生 2020-06-25 12:36:26

整理 | 智源社区,龚鹤扬&高亦斌
 
2020年6月21日,在第二届北京智源大会开幕式及全体会议上,图灵奖得主、贝叶斯网络奠基人Judea Pearl 做了名为《The New Science of Cause and Effect with reflections on data science and artificial intelligence》的主题演讲。

在演讲中,Judea Pearl 站在整个数据科学的视角,简单回顾了过去的“大数据革命”,指出数据科学正在从当前以数据为中心的范式向以科学为中心的范式偏移,现在正在发生一场席卷各个研究领域的“因果革命”。Pearl 解释了什么是因果科学以及相关新逻辑和推理引擎的思想脉络,包括介绍了被称之为“Double-Helix”的两个因果推理的基本定理,并以其作为出发点推演出因果图模型框架,最后概述了该框架下因果推理的七大工具。

另外,为了帮助读者们更加透彻地理解Pearl 的因果推理思想,我们结合 Judea Pearl 近年来的论文、访谈和报告,以及其学生 Elias Bareinbion、马普智能所 Bernhard Scholkopf 团队等的相关研究工作,对本报告进行了一定的补充说明。

Judea Pearl 个人简介

朱迪亚·珀尔(Judea Pearl)是加州大学洛杉矶分校(UCLA)教授,图灵奖(Turing Award)得主。他在 20 世纪 80 年代开发并倡导了AI 的概率方法,被称为贝叶斯网络之父。然而为了强人工智能的愿景,Pearl 脱离主流 AI 研究社区,提出了一套因果的数学语言和理论,引领了正在席卷各个学科的”因果革命“。他自己最引以为傲的工作是 “The fundamental law of counterfactuals。”[4]

 To Build Truly Intelligent Machines, Teach Them Cause and Effect
         ——Judea Pearl

因果革命:改变数据科学的新革命
 
在报告中 ,Pearl 首先介绍了一场正在改变数据科学的新革命 --- ”因果革命“。因果革命和以数据为中心的第一次数据科学革命,也就是大数据革命(涉及机器学习,深度学习机器应用,例如Alpha-Go、语音识别、机器翻译、自动驾驶等等 )的不同之处在于,它以科学为中心,涉及从数据到政策、可解释性、机制的泛化,再到一些社会科学中的基础概念信用、责备和公平性, 甚至哲学中的创造性和自由意志 。可以说, 因果革命彻底改变了科学家处理因果问题的方式。
 
             
图1:Pearl 关于数据科学本质的洞见,见文献[3]
 
因果革命中,数据科学的任务被重新分成了三类:预测, 描述和反事实预测[6]。关于它具体如何席卷各个学科,详情可参见:

  • Bernhard Scholkopf 最引以为傲的论文之一《Causality for Machine Learning》,它概述了信息革命时代下因果和机器学习的融合的基本原理和深刻思考[5];
  • 《Causal Inference and Data-Fusion in Econometrics》是 Elias Eareinboim(Pearl 学生) 关于因果结合经济学领域的最新综述[7];
  • 因果也影响了社会科学, 医疗健康科学, 计算机和统计学等,见资料[1, 8]。

哈佛大学教授 Gary King(2014) 盛赞了这场因果革命,它指出“过去三十年关于因果理论的进展超过了人类前面积累的总和。” Pearl 继续解释说,成百上千过去认为不可能解决的问题,现在可以通过简单的数学和可计算的算法解决。在介绍完“因果革命”之后,Pearl接着介绍了本次报告的大纲:
 
  • 什么是因果科学,为什么它需要新的逻辑和推断引擎
  • 如何让机器获得因果推理的能力(因果推理引擎的结构)
  • 因果推理的两个基本定律
  • 因果智慧的七个工具

什么是因果科学?
 
当前曲线拟合的机器学习和深度学习取得了巨大的成功,为什么需要研究因果[8]?Pearl 在去年接受 Lex Fridman 访谈[4]时提到 “Everything starts with the question: What is the research question? ”。
 
而Pearl 在这次报告中,则用了几个统计学中的经典例子。第一个问题是:“锻炼身体是否能够有利于健康?”见下图,x轴表示运动时间,y轴表示胆固醇水平。

             

图2:锻炼是否有利于健康?
 
一方面,在图2(左)中,可以看大每个年龄组中都出现了向下的趋势,表明运动可能的确有降低人体胆固醇水平的效果;另一方面,在图2(右)中,同样的散点图并不依据年龄对数据进行分层,那么我们就会看到一个明显向上的趋势,这表明运动得越多,人体胆固醇水平就越高,这种矛盾在统计学中被成为辛普森悖论。Pearl 介绍的另外两个例子,一个是关于“药物”、“性别”、“死亡率”的研究问题:“药物有效果吗?” 另外一个是关于“疫苗”、“天花”、“死亡率”的研究问题:“疫苗有效果吗?”
 
这几个例子共同说明了数据可能对你讲出两个不同的故事。如果信息发生了一些变化,得到的结论就可能是不一样的。更加准确地来说,这几个例子本质上是要回答因果问题,仅有数据信息而没有先验因果关系信息的时候,就可能得出与关注研究的问题相互矛盾的答案。回答因果问题需要因果信息。
 
Pearl 在这次报告中指出,因果科学始于因果问题,因果科学研究如何回答因果问题。

什么是因果问题呢?他举了几个简单的例子:

1. 给定的治疗方法在预防疾病方面效果如何?
2. 是新的减税政策导致销售额上升吗?还是我们的营销活动?
3. 肥胖引起的年度医疗保健费用是多少?
4. 雇佣记录可以证明雇主犯了性别歧视吗?
5. 我即将辞职,我会后悔吗?

他解释到,上面这五个因果问题,因为这些问题都包含着不对称信息,所以无法用现在标准的科学语言,也就是具备对称性的数学公式来描述。相对于“=”表示对称信息,他用箭头 → 表示非对称信息,见下图:
              
图3:对称 VS 非对称

在过去的30年中,Pearl 和他的同事找到了非对称性的表达工具。他认为因果科学是回答因果问题的逻辑和工具,也就是推理引擎。通俗来说它有三个输入,包括我们想知道什么、我们已经知道什么和可用数据,以及作为输出的两类关注问题的答案:a) 现在某个行动会有什么结果?b) 过去换个选择会有什么不同的结果?
 
因果推理是人类思想中不可或缺的组成部分,应该对其进行形式化和算法化处理,以实现人类水平的机器智能[3]。Pearl 描述了一个因果推理的三级结构,把因果信息按其能够回答的类型进行分类。该分类形成了一个三层的层级结构,某层的问题,只有在获取不低于该层信息时,才能够被回答。
 
a) 三个因果层级  
               图4:三个因果层级,参见书籍[2]
 
第一层是关联(Association),它涉及由数据定义的统计相关性。大多数机器学习系统围绕这一层运行。

第二层是干预(Intervention),不仅涉及到能看到什么,还涉及一个干预或行动将会导致什么结果。作为例子,Pearl 提了一个问题:“如果我们把价格翻倍,将会发生什么?”

第三层是反事实(Counterfactual),是对以前发生的事情的反思和溯因,解决的是“如果过去作出不一样的行为,现在的结果会有何不同?”的问题。
 
顶层也就是反事实层是功能最强大的层次,如果我们有一个可以回答反事实问题的模型,那么我们也可以回答有关干预和观察的问题。例如,干预问题:What will happen if we double the price? 可以通过反事实问题来回答:What would happen had the price been twice its current value? 同样,一旦我们回答了干预问题,就可以回答关联问题。我们只是忽略了干预动作部分,而是让观测取代了。但是在相反的方向上,干预问题不能仅凭观测信息(也就是统计相关性)回答,涉及反思和溯因的反事实问题也不能仅用从随机对照实验中获得的干预信息来回答。
 
反事实是科学思维以及法律和道德推理的基础。举个例子,在法庭判定被告是否应该负法律责任的时候,判定有罪的一个依据是 ——“若非”被告的行为,损失就很可能不会发生(For example, in civil court, a defendant is considered responsible for an injury if, but for the defendant's action, it is more likely than not the injury would not have occurred)。"若非" 的计算含义要求将现实世界与被告未发生某行为反事实世界进行比较。用个更通俗的例子来讲,已知的事实是"一个人吃了药死了",对应的一个反事实问题是“如果此人没有吃药,不死的概率是多少?”
 
Pearl 在报告中指出,理解因果推理需要抓住一个窍门,那就是区分 seeing 和 doing 的不同,一个简单例子就是某个便利店中”观测到某商品的价格翻倍“和“店主强制让某商品价格翻倍”存在区别。Pearl 发明了 do 算子来数学化表示干预或行为,有了它我们能用数学公式区分 seeing 和 doing:

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接