编译 | AI 科技评论组
编辑 | 陈彩娴
5月下旬,国际顶刊《美国国家科学院院刊》(PNAS)发表了一篇其于去年10月接收审核的工作,研究非常扎实:
受图灵的计算模型图灵机(TM)与有意识的全局工作空间理论(GWT)影响,作者等人从理论计算机的角度出发,结合计算复杂性理论与机器学习知识,提出了一个形式化的理论计算机模型,将其命名为「有意识的图灵机」(Conscious Turing Machine,CTM),有助于帮助我们进一步理解「意识」。
论文链接:https://www.pnas.org/doi/epdf/10.1073/pnas.2115934119
例如,作者团队提到一个观点:计算需要时间。从这个角度看,理论计算机的观点可以改变我们对「自由意志」的定义,即:
自由意志是计算不同行动路线的后果的自由,或在可用资源(时间、空间、计算能力和信息)范围内尽可能多地计算这些后果,并从中选题最适合自己目标的行动路线。
作者的观点是:无论计算系统是由血肉组成的,还是由金属和硅组成的,意识都是所有合理组织的计算系统属性。从这点出发,CTM不是为大脑建模,也不是暗示意识的神经关联,而是一个简单抽象的意识计算模型,试图理解意识及其相关现象。
论文篇幅较长,AI科技评论作了精简的要点整理如下:
1 从理论计算机的视角看「意识」
1.1. 理论计算机科学
艾伦·图灵的开创性论文“On computable numbers, with an application to the Entscheidungsproblem”可以说是理论计算机的起源。这篇论文给出了“计算机器”的数学定义,这个机器现在被称为图灵机(TM)。在图灵的定义中,这个计算机器可以计算任何计算机或超级计算机可以计算的函数。
定理是数学理论存在的理由,图灵证明了所谓的理论计算机的第一个定理,即停机问题的不可解性。用现代的说法,这个定理证明不可能有通用的(调试)程序能确定哪些计算机程序会停止,哪些不会停止,想要构造一个这样的程序也是不可能的。
停机问题的不可解性等同于初等数论的不可判定性,并隐含了哥德尔的第一个不完备定理的弱形式。
在哥德尔和图灵之后,数理逻辑学家们开始对哪些问题是可解决的、哪些是不可解决的进行分类,并开始研究不可解决问题的深奥层次。
随着计算机器在1960年代的出现并变得广泛可用,我们很快地了解到,许多在原则上可以解决的重要问题实际上不可能得到解决,甚至用最快的电脑也不可能解决,这不是一个技术的问题,而是更深层次的问题。
理论计算机新兴领域的研究人员(特别是Jack Edmonds, Stephen Cook, Richard Karp和Leonid Levin)意识到,在自然有限(因此是可解的)问题中,似乎存在一种可解的问题和不可解的问题之间的二分类,反映了之前可解和不可解的二分法。有可行的方法解决的问题在数学上可以形式化为在多项式时间P内通过某些计算机程序可解。此外,实现在多项式时间内可解的问题和在多项式时间NP内可检查的问题可能不是等价的。事实上,如果能确定等价性,就能回答著名的百万美元P=?NP问题。
除了定义串行快(多时间)计算复杂度类的层次结构外,理论计算机还定义了并行超快(多时间)计算复杂度类的层次结构。这两个层次结构都提供了模型中使用的定义和选择。
对简单与困难、快速与缓慢之间的二分法的理解及含义,以丰富的理论、思想的重构、新颖的概念和惊人的应用,掀起了一场复杂性革命。事实上,在过去的40年里,计算复杂性的发展已经展示了如何利用困难来处理看似不可能的问题。
我们用计算机生成的随机序列来说明,这个序列我们称为「伪随机序列」。
从表面上看,伪随机序列的概念是如此的不和谐,以至于冯·诺伊曼开玩笑说:“一个考虑用算术方法产生随机数字的人,当然是有罪的。”
更准确地说,伪随机序列生成器是一种可行的(多项式时间)计算机程序,用于生成无法与任何可行计算机程序所生成的真正随机序列(比如由独立投掷一枚公平的硬币产生的序列)区分开来的序列。因此,在人类生活的多项式时间世界里,伪随机序列实际上是真正随机的。如果没有理论计算机对多项式和超多项式复杂性之间区别的说明,这种理解是不可能做到的。
上述思想的一个应用是用提供(短)随机种子的伪随机发生器产生的序列来取代概率型CTM中的随机序列。特别是,如果概率型CTM具有“自由意志”,那么确定型的CTM也具有“自由意志”。这种确定型的CTM的自由意志与某些(也许是大部分)决定论的思想是相悖的。
1.2. 现在我们来谈谈意识
CTM的定义采用了理论计算机的视角。CTM是一种简单的机器,它在数学上形成(并通过动力学进行修正)有意识的GWT,有意识的GWT概念起源于认知神经科学家Bernard Baars,并由Dehaene和Mashour等人在他们的全局神经元工作空间理论(GNWT)中加以扩展。在《Theater of Consciousness》中,Baars将意识比喻为戏剧演员在工作记忆的舞台上的表演,他们的表演是在一群坐在黑暗中的观众(或者说是无意识处理器)的观察下进行的。
在CTM中,GWT的舞台以在任何时刻都包含着CTM意识内容的短时存储器(short-term memory ,STM)为代表。观众则由强大的处理器(processor)代表,每个处理器都有自己的专业知识,这些处理器组成了CTM的长期存储器(long-term memory ,LTM)。这些LTM处理器进行预测,并从CTM的世界获得反馈。每个处理器内部的学习算法会基于这个反馈改进处理器的行为。
每个LTM处理器都有自己的专长,并且之间相互竞争,以便在舞台上以块(chunk)的形式获得它们的问题、回答和信息,然后立即把这些内容传递给观众。
自觉意识(Conscious awareness),有时也被称为注意力,在CTM中被正式定义为LTM处理器对CTM有意识内容广播的接收。随着时间的推移,一些处理器通过链接(links)连接起来,这些LTM处理器之间从通过STM的有意识通信变成通过链接的无意识通信。通过链接对块进行传播,可以强化其自觉意识,这一过程被Dehaene和Changeux称为点火(ignition)。
受到Baars的GWT架构的启发,CTM还集成了一些对意识感至关重要的附加功能。其中包括其动态,其丰富的多模态内部语言(我们称之为脑语(Brainish)),以及特殊的LTM处理器,使CTM能够创建世界的模型。
1.3. 复杂性的考虑
有限资源的后果在我们对与意识相关的现象(如变化盲视和自由意志)的高层次解释中发挥着至关重要的作用。
这些后果也修正了CTM的详细定义。其中细节包括:
- 块的正式定义:块是每个LTM处理器在时钟每一次滴答声中投入到意识竞争中的信息;
- 选择其中一个竞争块到达意识的快速概率竞争算法;
- 每个处理器中的机器学习算法,这个算法利用来自全球广播、其他处理器和外部世界的反馈来提升处理器的竞争力和可靠性。
尽管受到图灵的计算机模型的启发,但CTM并不是标准的图灵机。这是因为赋予CTM“意识感”的不是它的计算能力,也不是它的输入-输出映射,而是它的全局工作空间架构、预测动力学(预测、反馈和学习的循环)、其丰富的多模态内部语言,以及某些特殊的LTM处理器,如世界模型处理器。
如前所述,我们不是在寻找大脑的模型,而是在寻找意识的简单模型。
2 CTM 模型综述
2.1 CTM的基本结构及CTM中意识的定义
假设CTM有一个有限的生命周期t。时间是用离散的时钟节拍测量的,t= 0,1,2,…T∼10 ^ 10。(大约每秒10次,即阿尔法脑波节奏)。CTM诞生于时间0。
CTM是一个七元组,包括<STM, LTM, Up Tree, Down Tree, Links, Input, Output>等组件。
2.1.1. STM和LTM处理器
在CTM中,STM是一种能够保存单个块的小内存,定义见2.2节。LTM是N个处理器(N>10^7)的大规模集合,每个处理器是一个随机访问机器,其随机访问内存大到足以容纳T个块的一小倍。处理器只在LTM中,而不是在STM中,所以当文中说到处理器时,所指的是LTM处理器。某些特殊的LTM处理器特别负责CTM的意识感觉。这些特别的处理器包括世界处理器的模型、内部语音处理器和用于处理内部视觉、内部触觉等的其他内部通用语音处理器。
2.1.2. 上行树竞争与下行树竞争
下行树( Down Tree)是一棵高度为1的简单下向树,STM中有一个根,有N条从根指向叶的边,每个LTM处理器中有一个叶。
上行树是一个向上的二叉树,高度为h,有N个叶子,每个LTM处理器有一个叶子,STM中有一个(单个)根。每个LTM处理器都有自己的专长,通过上行树竞争把属于自己的问题、答案和信息获取到STM,并通过下行树立即广播给所有LTM处理器的观众。为了让CTM简单运行,所有LTM处理器向STM的竞争提交信息,所有处理器接收来自STM的所有广播。然而在人类身上,视觉的背侧通路从来没有意识(从来没有达到STM),只有腹侧通路是有意识的。
这种自下而上/自上而下的循环类似于全局神经元工作空间(global neuronal workspace,GNW)假说,即“有意识的访问在两个连续的阶段进行……在第一个阶段,从约100毫秒到约300毫秒,刺激以一种自下而上、无意识的方式在处理器的皮层层次上上升;在第二阶段,如果刺激被认为满足当前的目标和注意力状态,就会以自上而下的方式被放大,并由一小部分GNW神经元的持续活动维持,其余的则被抑制。整个工作空间是全局连接的,在任何给定的时间,只有一个这样的意识表征是活跃的。”
2.1.3. 块,有意识的内容,自觉意识,和意识流
问题、答案和信息以块的形式传递。在上行树竞争中胜出进入STM的块被称为CTM的有意识内容。
在CTM中,与Baars的剧场比喻不同,STM(舞台)中总是有一个完全相同的演员。在每一个及时的步骤中,演员都会得到一个胜出的块,这个块就是通过下行树即时播放的脚本。我们认为,当所有LTM处理器通过这个广播接收到这些内容时,CTM就会有意识地意识到这些内容。
我们将自觉意识定义为所有LTM处理器对STM广播的接收,而不是在STM中出现获胜块,这么定义是为了强调意识的感觉是出现在处理器之后,尤其是世界模型和内部语音模型接收到广播后产生的。
在CTM中,我们对意识的定义大致与认知神经学家所说的“注意力”一致。我们在CTM中所称的意识感觉(the feeling of consciousness)大致与认知神经学家所说的“意识”或“主观意识”一致。
CTM中不断冒泡的块竞争着STM,其中的获胜块会不断地从STM被广播到LTM处理器中。从STM传播到LTM的时间有序块形成了一个意识流。如第3节所述,这种流是意识的主观感觉的一部分。
2.1.4. 链接,无意识的沟通,全局点火
处理器之间的所有沟通最初都是通过STM进行的。例如,处理器A可以向上行树竞争向STM提交问题。如果这个问题在竞争中胜出,就会被广播到所有LTM处理器。然后处理器B可以通过竞争提交答案,如果处理器B赢了,就会被广播,以此类推。
如果A认为B的答案是足够有用的,那么A和B之间就会形成双向联系。这种联系让人想起Hebbian原理,即“一起放电的神经元会连接在一起”。
除了向上行树竞争发送块,处理器还通过链接发送块。这样,A和B之间(通过STM的)有意识交流就可以通过A和B之间(通过链接)发送的块,变成直接的无意识交流。A和B之间形成了额外的链接,用我们的话来说就是A和B之间的链接加强了。
链接是处理器之间传输信息的通道。随着CTM有意识内容的广播,那些在链接处理器之间发送的块可以加强和维持自觉意识。这种强化与Dehaene和Changeux在他们的GNWT中所称的“全局点火”有关。正如Dehaene所写的那样,“全局点火出现在……当广播超过某个阈值,并进行了自我强化,一些神经元刺激其他神经元,然后这种刺激又反过来回传兴奋的时候。连接在一起的(细胞)突然进入一种自我维持的高水平活动状态,正如Hebb所说的,这是一种回响的‘细胞集合(Cell assembly))’。”
2.1.5. 输入和输出映射:传感器和驱动器
CTM的环境(Env)是Rm(t)的一个子集,其中R表示实数,m是正整数维度,t(非负整数)是时间。输入映射将CTM的传感器获取的、时变的环境信息发送给指定的LTM处理器(为了简单起见,这里假设这些传感器是输入映射的一部分),后者将环境信息转换为块。输出映射将命令信息从LTM处理器传递到执行器(这里假定执行器是输出映射的一部分),来对环境进行操作。
2.1.6. 对连接的总结
在CTM中,一共有五种连接为信息传输提供路径和机制。下图显示了CTM与LTM处理器之间的这五种连接,它们分别是:
- Env-LTM:来自环境的定向边通过传感器与感觉数据的处理器之间的连接;
- LTM—STM:通过上行树;
- STM—LTM:通过下行树;
- LTM——LTM:处理器之间的双向边;
- LTM—Env:特定处理器通过执行器将定向边传递给环境,执行器作用于环境(特定处理器指的是比如生成手指运动指令的处理器,执行器如接收这些处理器指令的手指,执行器通过这些处理器的手指动作对环境进行操作)。
图注:CTM中与LTM处理器之间的连接
2.2. 脑语(CTM的多模型内部语言),要点和块
脑语(Brainish)是CTM的内部语言,用于处理器之间的通信,通过竞争和广播或直接通过链接来实现通信。另一方面,处理器内部使用的语言通常因处理器而异,除了脑语还有其他语言。
脑语是用来表达内部语言、内部视觉、内部感觉、想象和梦境的语言。脑语包括输入和输出的编码表示,这些编码表示都是用简洁的多模态脑语单词和短语来表示,称为“gists”(要点)。要点可以包含一个场景的本质,或关于一个证明的高度可扩展的思想。要点还可以是一个问题的答案,某种洞察,一个梦的图像,一种痛苦(的描述),等等。比起外部语言如英语、汉语或狗语(Doggish),脑语能够更好地表达和操控图像、声音、触觉和思想——包括非符号化的思想。作者认为,具有表现力的内在语言是意识感觉的重要组成部分(详见第3节)。
信息在所有边上以块的形式进行传输,其在处理器之间传输,在STM和LTM之间传输,从输入到LTM之间传输,也从LTM到输出之间传输。
一个块就是一个六元组:<address, t, gist, weight, intensity, mood> 。
其中,address(地址)是LTM处理器产生的地址块,t是块产生的时间,gist(要点)是脑语中被“简明表示”的信息,该信息是处理器计划所要通信的内容。weight(权重)是处理器提供给要点的一个假数,intensity(强度)和mood(情绪)在时间t分别以 |weight|和weight开始。
研究者注意到,块的大小(以及它的组件的大小,包括要点)必然会受到计算复杂性考虑的限制。
2.3. 概率性质的上行树竞争:coin-flip神经元和竞争函数
上行树竞争是决定哪个LTM处理器能够将自己的块放入STM的机制。在每个计时点t= 0,1,…,T,第t个竞争开始时,每个处理器p将其块放入上行树的处理器叶节点中。在一个块被送入上行树竞争之后,当它在竞争树上向上移动时,它的address、t、gist和weight保持不变,但其ntensity和mood会发生变化,以纳入更多的全局信息。
2.4. 有意识感知的计算复杂性和时间延迟
对于t>0和s>0,更新上行树竞争中节点vs处的块,所需的计算包括:
- 两次快速计算f,对其值进行求和和除法运算,以及一次快速的概率选择;
- 将所选块的地址、要点和权重放入节点vs;
- 对与vs的子节点相关的块的强度和情绪进行求和,并将这些总和设置为块在vs节点处的强度和情绪。
这些计算都必须在1个时间单位内完成,这对节点上块的大小和可以在该节点执行的计算量设置了一个界限。
2.5. 内存和高层存储
我们假设每个处理器p在其内部内存中存储元组的序列,这些序列按时间t排序,包括处理器送到竞争中的块p、t、0,和处理器通过STM的广播所接收到的块,以及处理器在时间t从链接或输入映射中接收到的块的选择子集。这些序列是CTM存储的重要组成部分。
「历史」提供了一个p所看到和做过的高层存储。高层存储在很大程度上解释了CTM在意识感受中的自我感知。CTM需要高层存储结合预测算法来创造梦(详见第4.5节)。
这些存储的信息可能会定期被修剪,因此只剩下「显著」的块,最显著的是那些代表可怕、美妙或意外事件的块。通常而言,每个处理器都会对它生成、修改和存储的块进行预测。
2.6. 预测动力学=预测+反馈+学习(睡眠专家算法)(Sleeping Experts Algorithm,SEAs)
处理器需要反馈来评估其预测的正确性和检测错误,并学习如何提高正确性和减少并纠正错误。
•无论是提交给STM竞争、通过链接提交给其他处理器,还是提交给影响环境的执行器,LTM处理器都会对所有块进行CTM预测。
•反馈从STM广播中接收的块、通过链接接收的块以及通过输入映射从环境接收的块。
•所有CTM学习和纠错都在处理器中进行。
在CTM中,预测、反馈和学习不断循环。CTM需要警惕任何不寻常的事情和任何形式的意外,以便在必要时处理这些事情,并始终提高对世界的理解。通过这种循环,预测的误差(例如「意外」)被最小化。
处理器尤其需要知道自己在设置权重时是过于保守还是过于大胆,这样才能修正权重分配算法。睡眠专家算法(SEAs)是LTM处理器用来实现这一目标的一类学习算法。这里所展示的是SEAs最简单的版本之一。
当出现以下情况时,鼓动处理器(提高其赋给块的强度):
- 它的块未进入STM,并且
- 它的信息(在SEA看来)比进入STM的信息更有价值。
当出现以下情况时,抑制处理器(降低其赋给块的强度):
- 它的块进入了STM
- 它的信息被发现(可能是之后被发现)不如某些未能进入STM的块的信息有价值。
SEAs在处理器是否将它们的块放入STM方面起作用。SEAs也对处理器是否会「注意」那些通过链接发送给它们的块中的要点有影响。块的权重绝对值显示生成块的处理器认为其要点是否重要,这将影响接收块的处理器是否会注意到它。
2.7. CTM与GWT模型的比较
研究者比较了CTM和Baars的GWT模型,见下图。
图注:模型草图:Baars的GWT模型(左)和CTM模型(右)
为了简单起见,此图简化了许多功能。例如,CTM在舞台上只有一个「演员」,这个「演员」一次只持有一个块。此外,CTM中的所有处理器都在LTM中。在这里,中央执行器被取消,因为其功能可以由处理器代劳。
在CTM中,输入和输出直接进出LTM处理器,而不是直接通过STM。在CTM中,块在定义明确的竞争中展开竞赛,以登上舞台(STM)。自觉意识(注意力)是所有LTM处理器对所广播的获胜块(即CTM的意识内容)的接收,而不是发生在输入和STM之间的事件。Baddeley和Hitch的口头排练和视觉空间画板的角色由LTM处理器承担。
预测动力学(预测、反馈和学习的循环)和多模态内部语言(脑语)以及计算和复杂性考虑是显著的、关键的CTM特性。
最后,正如「扩展心智理论」所述,CTM可以LTM处理器的形式访问现有技术,如Google、Wikipedia、WolframAlpha、AlphaGo等,LTM处理器的任务就是去使用这些应用程序。这是确保CTM在其生命周期开始时(t=0)拥有大量功能强大的处理器集合的一种方法,该集合在其整个生命周期中都是可扩充的。
CTM模型及其动力学的关键特征与Dennett概述的意识特性之间具有异曲同工之处:
控制我们意识思维的转变的既不是主调度器,也不是Boss神经元,更不是Homunculus或Res Cogitans。在实施控制的必定是一个动态的、有些竞争性的过程。究竟是什么决定了谁是赢家?应当是类似于伴随和控制着所有内容命运的微观情绪、积极和消极的配价强度这些因素,不仅是在情感上明显突出的事件如痛苦、尴尬或欲望的强迫性记忆,而且还有最深奥和抽象的理论思考。
尽管受到了Baars的GWT架构的启发,但CTM集成了其意识感受所必需的功能。这是下一节的重点。
3 意识的感觉
虽然根据STM传播的意识内容的定义,CTM是有意识的,但这个定义并没有解释在CTM中是什么产生了意识的感觉。
作者认为,CTM对意识的感觉主要是其极富表现力的脑语所带来的,再加上CTM的架构、特定的特殊处理器和CTM的预测动态(预测、反馈和学习)。
1) 脑语
多模态脑语准确地描述了CTM所感知到的世界。这种知觉是由多模态语言的感觉所组成的。它的词汇包括气(鼻孔闻到的气味)、疼痛(极度不愉快的疼痛感觉)、脸(看别人脸时看到的东西)等等。梦是很重要的,因为它显示了当CTM既没有输入也没有输出时,要点可以表达什么。
2) 架构
这包括获得STM访问权的上行树竞争,以及随后对赢家所进行的全局的下行树广播,尤其是所有在产生意识感觉中扮演特殊角色的处理器。
3) 特殊的处理器。
作者挑选了在诞生时就内置了专门算法的一些处理器。
- 世界模型处理器(Model of The World processor)根据从环境中获得的信息,或从可能被修改过的内部存储器中获得的信息,来构建CTM世界的模型。将CTM的内部世界定义为世界处理器的模型为CTM创建的稀疏「CTM」模型。将CTM的外部世界定义为它用脑语所注释的标签和描述,包括它们(可能)拥有的感觉和它们(可能)执行的动作。
- 内部语音处理器提取STM广播的要点中被编码的任何语音,并将其发送到与输入映射发送外部语音的要点(由输入映射创建的要点)相同的位置。这最初是通过STM发送的,然后在链接形成后,直接通过链接发送。「内部语音」是由内部语音处理器产生的,它使CTM能够回忆过去,预测未来,并制定计划。内在语言的要点(如自言自语或梦中所说的和所听到的)与外在语言的要点几乎没有区别。人类的内部语言听起来很像外部语言,以至于很难区分二者,就像精神分裂症患者的情况一样。
- 内部视觉和内部(触觉)感觉处理器,将STM广播的任何图像和感觉都映射到输入映射发送到外部场景和外部感觉的任何位置。内部视觉和外部视觉(由输入图像产生的视觉要点)几乎没有区别。CTM的记忆和预测能力使得CTM能够创造内部图像和感觉,从而产生想象和梦境。为了阻止精神分裂症的幻觉,人类大脑会区分内部图像和外部图像。大脑有各种各样的技巧来做到这一点,其中一个就是让梦变得难以记忆。
这些处理器通知CTM世界模型中的「眼睛」和「皮肤」,让它们「看到」