贝叶斯之父Judea Pearl 信息--转载

资料仓库  收藏
0 / 670

Judea Pearl是一名美国计算机科学家和哲学家,以倡导人工智能的概率方法和贝叶斯网络的发展而闻名。他还因为建立了基于结构模型的因果和反事实推理的理论。他是ACM 图灵奖的2011年度获奖者,这是计算机科学中的最高荣誉,“通过发展概率和因果推理的微积分对人工智能做出了重大贡献”。

Judea Pearl 于1936 年出生于英国的巴勒斯坦,曾在波兰移居父母,1960年从Technion获得电气工程学士学位。1960年移居美国。他于1961 年获得纽瓦克工程学院(现在称为新泽西理工学院)的电气工程硕士学位。然后在罗格斯大学获得物理学硕士学位和博士学位。1965年在纽约大学Tandon工程学院(当时的布鲁克林理工学院)获得电气工程学位。他曾在RCA在超导参数和存储设备上的研究实验室,以及在先进存储器系统上的Electronic Memories公司负责半导体相关的工作,后来他于1970年加入了加州大学洛杉矶分校的工程学院,开始研究概率人工智能。他是“因果推论”(Journal of Causal Inference)的创始编辑之一。

在刚刚过去不久的NIPS 2017现场,就是这位图灵奖得主同时也是贝叶斯之父 Judea Pearl 的报告似乎并没多少人关心。而报告的题目《机器学习的理论障碍》(Theoretical impediments to machine learning)正是关于Judea Pearl对机器学习特别是深度学习背后理论的思考。

CMU大学教授,Petuum公司创始人Eric Xing则在看到这组图后表示:这是NIPS2017大会上一个让人难过的场景。成为一个单纯的“炼金术师”并不可耻,可耻的是并不努力从“炼金术师”学成“化学家”。

与此同时,NIPS 2017 "Test of Time"论文大奖获得者Ali Rahimi 在长滩现场的演讲中抱怨当前机器学习尤其是深度学习使用的很多方法缺少(理论)理解。

而Lecun则回怼说:仅仅因为理论没有追赶上实践的水平,就批评整个机器学习社区使用「炼金术」,这种言论是危险的。

以下是Ali Rahimi's talk at NIPS(NIPS 2017 Test-of-time award presentation)演讲视频内容

https://v.qq.com/x/page/r05163rm6li.html

AliRahimi与Ali引起的理论之争一石激起千层浪,网络上出现了更多机器学习界的代表发声。

今天芝加哥丰田研究院教授DavidMcAllester发表博文进行解读,以下内容为McAllester的观点:这篇博文的主要受Ali Rahimi最近的NIPS演讲和Lecun回怼的启发。

https://www.reddit.com/r/MachineLearning/comments/7hys85/nalirahimistalkatnipsnips2017testoftime/

https://www.facebook.com/search/str/yann+lecun+alchemy/keywordssearch

机器学习的理论障碍(Theoretical impediments to machine learning):

摘要

目前的机器学习系统几乎完全以纯粹的统计模式运行,这对他们的表现提出了严格的理论限制。我们考虑杠杆化的可行性,在机器学习任务中的反事实推理,并确定这样的领域,推理可能会导致机器学习应用程序的重大突破。

科学背景

如果我们检查今天驱动机器学习的信息,我们发现它几乎是完全的统计。换句话说,学习机器通过优化通过从环境中接收到的感官输入流参数来改善其性能,这是一个缓慢的过程。类似在许多方面适用于进化的适者生存的过程,比如物种老鹰和蛇已经发展了超过百万年的高超的视觉系统。然而它不能解释这个超级进化的过程,因为使得人类能够制造眼镜和望远镜几乎没有一千年。人类拥有其他物种缺乏的精神,人类可以操纵环境的蓝图,可以想象替代假设的规划和学习环境。人类学家,如哈拉里,和米东(S. Mithen)普遍认为给予我们智人的决定性因素大约4万年前,祖先有能力实现全球统治,是他们绘画并存储他们环境表示的能力。询问表示,精神扭曲它想象力的行为,最后回答“假如?”这样的问题。例子是介入问题:“如果我采取行动呢?”和回顾性或解释性问题:“如果我采取行动怎么办?不同?“今天没有学习机器可以回答这样的问题。而且,今天的大多数学习机都不具备使用从哪个可以回答表示这样的问题。

我们假设,实现加速学习速度的主要障碍,以及通过消除这些障碍和装备学习可以克服人类的水平表现带有因果推理工具的机器。这个假设本来是推测二十年在反事实数学的数学化之前。今天不是这样。图形和图形的进步结构模型已经使得反事实计算上易于管理,从而导致了转变。学习值得认真探索。下一节将总结这些进展和解释了如何消除反事实思维的障碍。

三层因果关系

因果推理的逻辑揭示的一个非常有用的见解是存在一个尖锐的因果信息的分类,就每个类别所能提供的问题类型而言的回答。这个分类形成了一个三层次的层次结构,即在第一层次上的问题(i = 1,2,3)只有在j级(j≥i)的信息可用时才能被回答

图1显示了3级层次,以及可以回答的特征问题在每个级别。水平标题为1.协会,2.干预,和3.反事实。选择这些图层的名称来强调它们的用法。我们称之为一级协会,因为它调用纯粹的统计关系,由裸数据定义。例如,观察购买牙膏的顾客更有可能购买牙线;这样的联系可以使用条件期望直接从观测数据中推断出来。问题在这个层,因为他们不需要因果信息,被放置在层次结构的最底层。第二级干预,比协会高,因为它不仅涉及看看是什么,但改变我们所看到的。这个级别的一个典型问题是:会发生什么如果我们加倍价格?这些问题不能单从销售数据来回答,因为它们涉及到客户行为的变化,以适应新的定价。客户选择下的新的价格结构可能与过去普遍存在的差异很大。最后是最高层被称为反事实,这个术语可以追溯到哲学家大卫·休谟(David Hume)和约翰·斯图尔特(John Stewart)Mill,在SCM框架中已经给出了结构语义。一个典型的问题在反事实的类别是“如果我采取不同的行动,那么就需要追溯”推理。

反事实被放置在层次的顶部,因为它们包括介入和联想问题。如果我们有一个可以回答反事实查询的模型,我们也可以回答关于干预和观察的问题。例如,介入性问题,如果我们把价格翻倍,会发生什么?可以通过询问反事实问题来回答:价格是目前价值的两倍会发生什么?同样,关联问题,一旦我们可以回答介入性问题就可以回答;我们简单地忽略了动作部分,并让观察接管。翻译不能在相反的方向上工作。介入问题不能从纯粹的观察信息(即从统计学的角度来回答)数据)。没有涉及回顾的反事实问题可以从纯粹的介入来回答信息,如从受控实验中获得的信息;我们不能重新运行一个对用药物治疗的受试者进行实验,看看他们的行为如何,然后不给予毒品。因此,层次结构是有方向性的,顶层是最强大的层次。最初为计算机视觉开发的深度学习不能直接应用于这些高度不规则的领域,必须设计新的深度学习技术。这是非常具有挑战性的,因为大多数标准数据分析工具不能用于异类数据域。

反事实是科学思维的基石,也是法律和道德的推理。例如,在民事法庭,被告被认为是造成伤害的原因原告如果,但对于被告的行为,伤害不可能有更大的可能性发生。对于比较现实世界和替代的要求的计算意义被告行为没有发生的世界。

层次结构中的每个层都有一个句法签名,用来表征所接受的句子进入该层。例如,关联层以条件概率为特征句子,例如P(y | x)= p,说明:我们观察到事件Y = y的概率事件X = x等于p。在大型系统中,这样的证据句子可以被有效地计算使用贝叶斯网络或任何支持深度学习系统的图形模型。

在介入层,我们找到P(y | do(x),z)类型的句子,它表示“The事件Y = y的概率,因为我们介入并将X的值设置为x,随后观察事件Z = z。这样的表达可以通过随机试验或实验来估计分析使用因果贝叶斯网络(珍珠,2000年,第1章)。

最后,在反事实层面,我们有P(yx | x)类型的表达式(0,y0)站在对于“事件Y = Y的概率X是X,因为我们实际上观察到X是X0和Y是y0。只有当我们拥有功能性或结构性时,才能计算这些句子方程模型,或这些模型的属性。

一种提出的适应性决策的反事实方法

考虑一下这个指令:“你应该采取不同的行动”,在一个代理人的背景下优化行动策略。大多数孩子学会通过回应这些来改善行为指导,无论是父母,教师,教练,还是对自己经验的反思。这些指令的信息价值可能包含数小时的试错学习。然而要解析这个指令,代理人必须拥有反事实推理的工具缺席当前学习机器。这条指令的解释是:“你有行动X = X,你的结果是Y = Y,但是,如果你的行为不同,说X = X0,你的结果会更好,也许Y = Y0。“正式的,我们可以把这句话写成

或者以概率的方式:

调节事件提供的信息:X = x和Y = y是非常重要的,因为这是代理人特有的这个信息,并且带有代理人的总结动机,反应模式和其他特质,否则不可察觉的代理特征。在SCM框架内已经对这些类型的反事实句子进行了深入的分析,现在我们可以很好地理解他们可以从中估计的条件了数据,既有实验又有观察。这个句子的一个简单的版本,称为效应治疗(ETT)治疗在经济学和流行病学方面引起了重大的关注并写道:

例如,在职业培训的背景下,ETT描述了治疗的效果(培训计划)那些选择加入该计划的人,或者更确切地说,是那些预期的收入(Y)如果他们没有接受过培训显然,ETT是更多的信息量度该计划的效果比收入的平均处理效果(ATE)那些接受过整个未受过培训的人群的平均收入。 ETT专注于特定的选区参与该计划,而这种一致性可能不像整个人口。对于那些保证高收入的人来说,这可能是一个极端的例子或没有训练。

在个人决策的背景下,ETT会抓住一个代理人说:“我是行动X = X,如果我改变主意,行动X = x,该怎么办?相反?“显然,在许多决策情况下这种情况无处不在,特别是那些代理人是学习情绪的人。再次,代理人的意图,X = x,带有关于代理人特定特征的重要信息不应该被忽视。例如,一名代理人说:“我即将入住医院,应该我?“可能会有不同的医疗紧迫性,而不是从人群中随机选择的。

这些考虑导致的结论是,在个人决策中,正确的目标函数应该是ETT,而不是ATE。换句话说,应该选择最大化的行动在所有的行为X = x上ET T = E(Yx0 | X = x0),而不是最大化AT E = E(Y | do(x0))为在标准文献中完成。

为了测试这些想法,Bareinboim,Forney和Pearl将ETT度量纳入了作为原型范式的MAB问题的背景用于主动机器学习。在这种情况下,一个代理试图玩不知道的老虎机赌场中每台可用机器的预期收益。因此,代理人必须平衡他需要了解哪台机器能够提供最高的回报,并且需要利用这个回报在任何给定时间可用的信息。 (探索与利用权衡)。在这个上下文标准中选择的度量是ATE,并且是通过随机估计的。换一种说法,代理人在任何时刻选择一台机器x0最大化他的平均回报Y通过一个实验来确定机器是从哪些机器中随机选择的在赌场。当ATE指标被替换为ETT时,代理被允许探索机器的任何策略,但是当涉及到优化,标准是ETT,不是ATE。正如预期的那样,仿真结果显示,性能和性能都有显著的提高收敛速度。

但是,如何从收集的可用数据中估算ETT?幸运的是,结构框架确切地确定了ETT可以从中综合考虑条件观测和实验数据。这些条件大部分都需要模型的一些知识,除了一个:当行动是二元的(相应的到两台老虎机)。而且,在非二元行为的情况下,MAB设置允许我们进行后期随机化,即代理人记录他/她的机器选择,暂停,进行随机实验,然后实施一个ETT最佳行动可能与预期的不同。这样,就创建了一个数据库,其中的意图和所选择的动作可能会有所不同。这反过来使我们能够在任何给定的点上选择一个行动根据目前的意图最大化期望的奖励。我们把这个策略称为“针对性的优化”,并用它来展示利用代理人意图的优点作为有用信息的来源。

当然,意图只有在反映了未被察觉的混杂因素的情况下才会有价值的信息影响到没有记录代理人过去的选择。我们猜想是这样的未观察到的混杂因素在大多数决策情境中无处不在。

然而,意图基础优化的价值超越了它在多重土地上的成功问题。它包含我们认为可以提取出反事实信息的关键的实验。关键是让代理人暂停,审议,然后采取行动,可能与之相反他们原来的意图。记录制定结果之间差异的能力一个人的意图和那些在审议暂停之后的行为所提供的信息这使得反事实是可以估计的。正是这些信息使我们能够跨越障碍在因果层次的第2层和第3层之间。这种能力不是多匪特有的问题。每个孩子都经历过他/她暂停和思考的经历:我能做得更好吗?如果精神记录保留这些经验,我们有反实在的实验语义,以遗憾的句子思考“我本可以做得更好”,当然这个新的语义是值得探讨的。

文章编辑:人工智能技术社区

原文参考链接:1.https://www.facebook.com/yann.lecun/posts/10154938130592143

2.https://machinethoughts.wordpress.com/2017/07/22/the-plausibility-of-near-term-machine-sentience/

3.https://www.reddit.com/r/MachineLearning/comments/7hys85/n_ali_rahimis_talk_at_nipsnips_2017_testoftime/

4.https://machinethoughts.wordpress.com/2017/12/08/the-role-of-theory-in-deep-learning/

5.https://www.facebook.com/search/str/yann+lecun+alchemy/keywords_search

6.http://web.cs.ucla.edu/~kaoru/theoretical-impediments.pdf