人工智能的哲学:从海德格尔到黑格尔

FlyBird
·
·
IPFS
·

转:

科学家其实很少懂哲学,或者不像他们以为的那么懂哲学。虽然哲学和科学分开才300年而已,牛顿定律发表的时候,仍将他的理论命名为“自然哲学的数学原理”。自然哲学,那时候就是自然科学。

然而越接近现代,哲学和科学的分野就越大。

哲学通常划归为文科,而大部分分属科学的学科,实际上都是理科;哲学越来越强调主观内省,而科学是客观的;哲学理论通常在哲学家群体中,并无多大的共识(David Chalmers),而科学理论如果没有共识,它就不科学。

哲学家通常并不能理解真正科学前沿的进展。比如波普尔,在让他获得盛名的《开放社会及其敌人》之后,他的注意力转向科学发现的本体论,例如莱布尼兹对笛卡儿的批判如何影响了物理学从原子论到“法拉第-麦克斯韦场论”的发展,如经典物理和量子理论中的非决定论,自我与大脑,小范围获得盛赞,但大多数哲学家都不知所云。当然也并不认可,以至于他在伦敦经济学院的“逻辑与科学方法教授”这个职称,都是哈耶克推动特批的。

科学家通常也不太接受哲学家的成果。比如Scott Aaronson会提示哲学家应该重视科学,复杂度理论家可能未能传达他们可以为哲学的概念武器库添加什么。可要是反过来,如果要问科学家,哲学家能为科学做点什么,几乎毫无思索就会这么回答:那是不可能的。 Scott Aaronson算是科学家中较为接受哲学的,但也不愿意沉浸在欧陆哲学的喋喋不休之中,No prior immersion in continental babble required.

我想,现代科学的缘起,如果历史让科学家来写,也一定不会归于唯名论。


所以,要来谈“人工智能的哲学”,总会是一个尴尬之事。


无所谓啦,我就姑且这么一说,你就姑且这么一瞅。

1,德雷福斯Hubert Dreyfus与海德格尔

德雷福斯被视为人工智能的批评者。从上个世纪60年代开始,他的想法一引入,就遭到了嘲笑和彻底的敌意。他在MIT的人工智能同事,都不敢跟他共进午餐,除了ELIZA的作者Joseph Weizenbaum,而这唯一一个,其实也并不赞同德雷福斯的观点,只是觉得其他人不该这么对人not the way to treat a human being。德雷福斯在1972年发表《计算机无法做什么》后,部分同事甚至试图阻挠他获得MIT终身职位。原因是,他的存在可能影响国防部高等研究计划署给人工智能的研究预算。

在长达几十年里,只有少数人接受他的建议。 Winograd放弃了他的知识表示语言KRL的计划,并将海德格尔纳入斯坦福大学计算机科学的课程。 John Haugeland将当时的人工智能主流研究称为Good Old Fashioned AI,简写为GOFAI,这个说法现在已经广为接受。 Michael Wheeler称新的范式已经形成:


海德格尔式的认知科学…已经在世界各地涌现出来,其中蕴含着“具身性”思维正在挖掘和发展之中。

Heideggerian cognitive science is ... emerging right now, in the laboratories and offices around the world where embodied-embedded thinking is under active investigation and development. by Michael Wheeler, Reconstructing the Cognitive World

Michael Wheeler, Reconstructing the Cognitive World


主流人工智能社群几乎都不拿德雷福斯当回事儿。偶有回应,也都是嘲弄的、个人的。比如Seymour Papert将他的论文都视作八卦。 Simon说他是为了蹭热点。 Minsky认为他应该被忽略。反正怎么难听怎么来。


但反过头来看,德雷福斯的理论(有些还不能说是理论,只能算是评论)几乎都被证明是正确的。无论这是因为海德格尔(德雷福斯的理论都是依据海德格尔做出的,他算是开创了整个海德格尔式的人工智能哲学),还只是因为他的直觉比较好,这件事情,对未来人工智能的发展,甚至对于未来科技的发展,都是值得研究和重视的。


德雷福斯在70年代左右,总结了四个人工智能研究所依据的假设,是当时研究人员共有的信念或公理,然后德雷福斯认为这只应该停留在假设层面,需要谨慎的检验,并依据海德格尔的立场一一做了反驳,分别是:生物学假设、心理假设、认识论假设、本体论假设。我们简单看一看。


生物学假设:大脑是通过等价于0/1的生物学开关来离散的处理。

The brain processes information in discrete operations by way of some biological equivalent of on/off switches.


在那时候,人们都相信,大脑类似于电脑一样,神经元类似于数码元件,输出是0和1。德雷福斯通过引用神经科学的最新进展来反驳这个信念,可惜并不被认可。这种信念也成为神经网络发展的的两大障碍之一(另一个障碍是神经网络局部无法有效求导)。神经网络的基础反向传播算法的发明者Werbos那时候还在学校,曾经这样描述:“ 1971年,我去找Marvin Minsky,说我有一个方法,可以解决神经网络的这些问题,我写成了论文。Minsky说我不想做描述这个新方法的论文的共同作者。Minsky本可以分享反向传播的荣誉,但他说,我不想做这个,它会把我从殿堂上赶出来,我会失去MIT的地位。我不能冒这么大的风险,因为每个人都认为神经元是输出0/1的,很多人现在还是这么认为的。


Werbos说他给Minsky看了一些数据,Rosenblatt和Amari的建议,以及关于高阶神经元的实时序列,



每隔大约100毫秒,会周期性的连续发射,它不是二进制的。这是60年代的神经科学的进展,可以参考Bear、Connors的书。确实,计算神经科学和人脑建模领地有太深的宗教信仰,Minsky当时是奠基的大人物,在这方面采用保守策略,确实也无可厚非。


一直到了90年代,大家才逐步认可德雷福斯。


心理学假设:可以将心灵视为通过形式规则操作信息位的设备。

The mind can be viewed as a device operating on bits of information according to formal rules.


符号主义一直占据人工智能的主流,即人的心智,是一套基于形式逻辑规则的系统。人的心理过程,就是符号的操作。这其实在哥德尔已经做了比较清晰的讨论了,哥德尔有点倾向于柏拉图的理智直观,或者叫概念直观。认为机器是运算,而心灵还包含了直观过程。所以,心灵必胜过机器。


德雷福斯基于海德格尔和梅洛-庞蒂的见解,认为人的智慧和知识主要依赖于无意识的过程,而不是有意识的形式系统。这些无意识的“技能”永远无法在形式规则中被捕获。用形式规则来表达现实,不仅是不可行,而且是对于智能的贬低。


德雷福斯这种思想,后来在Freeman的大脑动力模型有更为具体的表现。这种模型,其实是梅洛-庞蒂式的:动物的感知系统由过去的经验引发,以寻求并获得相关经验的奖励。当寻求成功时,与之联系的神经元的突出强度由Hebbian规则加强。大脑不仅仅是提取特征,而是参与感知和行动。生物体以某种方式组成的物理化学作用,而不是平行和独立的序列展开,构成…在相对稳定的“漩涡”中。全局状态从一个的吸引子的域到另一个吸引子的域可以对大脑的活动进行建模,在宏观层面,神经活动的每个感知模型都是离散的,虽然大脑并不使用数字作为符号,但它们确实是时间和空间中的离散事件,可以使用数字表示它们。


德雷福斯这种思想被压制了几十年,直到神经网络在深度学习的模型上出了成果,才渐渐被接受。深度学习的模型被认为就是无意识的模型,大脑认知的基础,依靠的不是逻辑,而是类比analogy。人不是生来做逻辑的,而是看和运动的。人是依靠类比工作的设备。


而强化学习Sutton的sarsa模型,其实跟Freeman的模型相差无几。


到2017年,Hinton重提人工智能的两种路线之争。 “ 50多年来,人工智能的两个愿景之间发生了争执,受逻辑启发的经典观点认为,智能是关于推理的,而且为了使系统能够在现实世界中合理的推理,我们需要手工输入大量事实,并且还应该在应用它们时,输入大量的推理和启发式规则。竞争对手的观点是我们应该关注生物学,并尝试模仿大脑的神经网络,特别是我们应该关注这些网络如何从经验中学习,以便我们就不必手动指定所有知识。神经网络方法被大多数人工智能研究者认为是一种荒谬的幻想。…但经过我的优秀的毕业生们的努力,他们的2009、2012年的工作彻底改变了计算机视觉和神经网络,最终被认为是解决了许多打败古典AI问题的正确方法。


这庶几可以为德雷福斯对心理学假设的反驳,画上一个完美的句号。


认识论假设:所有知识都可以形式化。

All knowledge can be formalized.


相比上两个假设,这个假设涉及到一个更深的成见。是否可以将整个知识组织成一个完备且一致的体系。它是开始于莱布尼兹,终止于希尔伯特的一项雄心勃勃的计划。至今还是一些人的信仰。


德雷福斯的立论仍与海德格尔有关,我们无意识的直觉、态度和世界的认识。它是某种“框架”,与“此在”相关,仍然是一种知识形式,它不是以符号的形式存在于我们的大脑中。梅洛-庞蒂提供了一个身体与世界耦合方式的非表示性描述,当代理人获得“技能”时,这些技能被存储,而不是代理人心中的表示,作为世界情境的供饲。学习者和世界的反馈循环是一种“意向弧”,围绕着我们的过去,我们的未来,和我们的人设(human setting)。


“世界上最好的模型就是世界本身”,而此在being-in-the-world。


本体论假设:世界由独立的事实组成,这些事实可以用独立符号来表示。

The world consists of independent facts that can be represented by independent symbols


最后,德雷福斯还提供了一个关于世界的假设。世界不只是用逻辑、数学,它是不完备的,还必须引入元数学。在德雷福斯那里被称为本体论。当然,这不纯属于海德格尔,而是部分属于黑格尔了。



总的来说,德雷福斯所做的,实际上是利用海德格尔和梅洛-庞蒂的存在主义,批判霍布斯关于推理和计算、笛卡尔的心理表征、莱布尼兹的“普遍特征”(一套表达所有知识的原语)、康德的概念即规则、弗雷格的形式化规则、罗素对逻辑原子的假设作为现实的基石等。


正是这后面部分哲学的思想,悄无声息的影响着当时人工智能的科学家们,可能他们自己都没有意识到,而且他们并不屑于去理解这些哲学思想,以及它的后续脉络,一切问题早在哲学那里早就被预先用另一种形式讨论过了。


而德雷福斯,一直在最终的答案那里等着他们。



2,黑格尔哲学对人工智能未来发展的启示

为什么有了海德格尔,还要回到黑格尔呢?复旦大学哲学院的徐英瑾老师提供过一个答案。他将黑格尔哲学类比于人工智能中的符号主义。不过,这是徐老师不太懂人工智能。黑格尔与“框架”何干?


目前困扰神经网络的问题,其实主要是如何处理逻辑推理的问题。 Hinton称,逻辑不过是状态向量的序列。但这并不能说明问题,因为在以类比为基础的神经网络模型中,并没有涌现出逻辑的规则。而答案,可能就在黑格尔。


黑格尔存在论那里的范畴像是神经网络,处理的是量和质这种范畴。存在论处理的是直观,本质论处理反思。而概念论用抽象概念对世界进行总体化把握,就是有诸如客体、生命、精神这种东西。


神经网络对外部世界的反应(或者叫做奖励)进行学习,形成了对外部世界的模型,比如识别🐱是“猫”,这个模型本身固化在网络结构中。这是Dreyfus。现在的强化学习模型,就是这么做的。只是感知模型还是分离的,比如声音和图像不同。


从亚里士多德开始,思维同感官不同之处在于它不处理具体的感官类型,而是统摄所有感官。其实就是统摄各种感知模型。


Bengio的人工智能框架是,共享现实输入>表示状态(高维向量)>意识状态(低维向量)>语言(符号)。其中包含的信息逐步减少,抽象程度逐步增加。考虑对深度学习捕获的表示状态,进一步导出的意识状态,它保留着更丰富的信息,其中有世界之中的不确定性、非离散的属性,可以为推理所用。


而语言本身并不是基本的,它的成因,因为交换突触状态,是不可能的。有意思的是,交换的双方并非是交换语言,而是交换思想。每一句语言后面,激发的都是一种思想。它是固化在神经网络中的一个结构。



(两个学习者都看到共享输入X,其中A产生一个高级抽象表示,与A的高级意识状态相关,作为X的表示。B也将这种话语,虽然是窄带的、吵杂的通道,作为输入。设置为B的当前语言表征,试图从X的内部预测。接下来的轮次可能是B说而A听,两者都能理解对方各自形成的对X的高级意识状态)


也就是说,语言也应该是一种独立的感知模型。这种模型是一种新的人机交互接口,依靠这种接口,它能影响神经网络中的结构。但它的影响方式跟外部世界模型均不同。同样,我们也可以将语言视为外部输入。人工智能专家,不再通过调整程序,而是通过这种新的人机交互接口,一种语言的感知模型去影响神经网络的固有结构,进而影响对外部世界的反应。


注意到,目前还没有对语言的感知模型,包含最近的NLP突破也不是。


这个语言的感知模型,就是黑格尔的概念论。它反馈给世界模型,甚至给第一阶模型降维。


另外,在黑格尔,本质是僵化了的概念,为了让思维有稳定性,以概念为基础。所以,本质可能是一种特殊的语言。


所以,存在论对应神经网络,统摄各种感知模型。概念论本身对应于一套特殊的感知模型,不止是语言,还可能包含交流。而本质论,原则上,它对应于一套规则系统。本质上,它地位等同于语言。


那么接下来的重要工作,就是为黑格尔哲学找到对应的物理基础,就像为梅洛-庞蒂找到一种Freeman动力系统一样。


这就是黑格尔哲学给人工智能的启示了。



3,德雷福斯Dreyfus对海德格尔具身性embodiment的误解

具身性是德雷福斯将海德格尔引入人工智能的一个重要概念,冗长的论述我就不引用了,结论是,人工智能并不只是需要模拟大脑,还需要一个身体,“Dasein is its world existingly.”


这种思想也影响了现在的强化学习的Sutton等。


但实际上这不过是一个误解。引入具身性并不是要引入一个真正的“身体”。人工神经网络需要世界的一个锚,而不是身体。这是Hinton的表述。


当然,这里并不是反对引入具身性,从而回到笛卡尔和英国经验的传统(比如Scott Aaronson),那种传统将人视为从世界中衍生的心理意象,并在这些有意识或无意识的反思的基础上行动。海德格尔和梅洛-庞蒂实际上代表的是另一种更为小众的传统,更多采用亚里士多德影响的立场,这种立场并不是特别重视世界的表示,而是将存在深深的耦合进世界。


而是说,可以别那么死板吗?海德格尔本身也不过是说being-in-the-world。


同样在两种传统之间采用对话立场的,比如Andy Clark和David Chalmers的“心灵延伸”“Extended mind”,认为人的视觉系统及其扩展比如望远镜,人的记忆及其扩展比如笔记本,本身没有原则上的不同。他们并不拒绝某种类型的心理表征,只是强调,这种心理表征的基础,是与世界并不是那么智能的、身体导向的关系。


可能因为科技进步进一步模糊了身体的边界概念,所以,不是需要一个真正的身体,更不是需要一个人身,而是需要与世界的交互方式。这种交互方式,简化的被称为,世界的锚。


有趣的是,晚年的德雷福斯已经不这么强调身体了,而是强调自我。概念化的自我个体,或者它所代表的价值、目标,与他人或世界的联系。这体现在他与Kelly合着的关于文学的著作《All Things Shining》之中。主要例子之一是冒着生命危险拯救掉进纽约地铁轨道里的人。英勇的救援人员并没有进行反思,而是出于“直觉本能”的回应。奋不顾“身”。他不仅体验了身体所在的环境,还体验了因为有过这种环境体验而犹豫不决的人们,通过他们对他的要求,直接体验了他们。他做出这种行为并不是出自一个自主意识控制的理性自我,而是好像是神灵在通过他们行事。救赎在于,这种世俗的神圣的可能性,它本身也包含了身体的局限,而探索、扩展、改造身体约束可以为我们开辟新的经验。


To say that all men need the gods…is to say, in part at least, that we are the kinds of beings who are at their best when we find ourselves acting in ways that we cannot - and ought not - entirely take credit for. by Dreyfus and Kell


不再是身体,而是一个人在世界中的位置。


一个锚。



4,Capsule和意象问题

说是意象问题,但涉及的是两个问题,一是在神经网络中自发产生符号(即涌现规则),二是已有规则参与感知模型(即利用规则给信息降维度,或者提示关键特征)。这两个问题其实也是一个循环,就是信息涌现规则,然后反馈给信息降维,是一个循环的两个环节,涌现-降维。黑格尔的自然哲学,其实可以理解为一种涌现论。


我们来考察一下Hinton在Capsule中怎么处理这个问题。


从2006年以来,几乎所有人工智能领域的重大成果,都与深度学习有关。但作为模拟人脑建立的人工神经网络,深度学习所使用的基础反向传播算法,却在生物学上并不成立,这也是它为人诟病之处。 2015-2017年,深度学习的科学家们做了很多尝试,均不是很成功。在深度学习中,替代反向传播几乎不太可能,它有效且灵活,什么形状的神经网络都可以训练,相当于万能引擎。虽然后来也强调深度学习和完整复制人脑结构(期待STDP中的涌现)的方式不同,它使用的神经网络是受人脑启发,但跟人脑的关系不大,而是来源于理论、直觉和经验的探索,是人工创造出来的结构。但这并不能让完美主义者满意。


于是,Hinton在2017年创造出一种新的理论架构,名为Capsule。本是用来解决这个反向传播问题。 Capsule受大脑皮层中是一组神经元组成柱状结构启发,Cortical minicolumn,在大部分哺乳类,特别是灵长类中普遍存在。其内部有数百个神经元,内部存在分层。 Capsule是Hinton用来跟这个柱状结构对应的结构体,在神经网络中,是一种子网结构。


大脑在认知上,有一些先在的知识,比如,正向看脸,容易辨认,而倒过来,辨认就差很多。比如


就不容易看出她的表情是笑还是哭。又比如错觉,


(错觉,奇怪的反转,丹尼特)


都是人脑中的先在的知识在影响视觉的识别。 Hinton认为,这种知识对应着一些框架,比如坐标框架,是可以被训练出来,且作为专门的结构,Capsule,在识别中起作用。一种建议的Capsule识别方法,是经过一个动态路由选择的过程,输出是Capsule的活动向量(即特定类型实体的实例化参数),向量的长度表示实体存在的概率。同一级别活跃的Capsule,通过位置和类型对更高级别的Capsule进行预测。


一个通常用来举例的就是在一幅图中扫描识别“帆船”和“小屋”,前者由一个立着的三角和一个矩形组成,后者由一个横着的三角和矩形组成。三角和矩形是一层Capsule,帆船和小屋是另一层Capsule。这就是分层的抽象结构。然后就可以通过下层的Capsule,预测上一层Capsule的几率。



Capsule假说:在图像的每一个位置,一个Capsule最多只表示实体类型的一个实例。这个假说受Pelli et al 2004命名为“拥挤”crowding的知觉现象的启发,能消除绑定问题。识别分解为多层Capsule(不同类型的实体或其部分)存在概率的计算。输出不取决于输入图像,而取决于两个Capsule的位置和类型。


这个Capsule,其实就是从信息涌现规则,然后反馈给信息降维。它的规则,其实就是Capsule,对应于生物神经元中的Cortical minicolumn。三角和矩形,在这里只是方便的例子,实际上,任何的认知模块,都可以作为Capsule。它是自动产生的,可能有更多更深的层次。


黑格尔管这个叫做意象,存在于无意识中。其实还有个有趣的地方,就是意识中的意象其实比无意识中要少,就十多个。而人本身的无意识中意象也很多,只是进入意识的少。人脑应该是分开处理的。


但意象问题,本身比Capsule类别的降维要广泛。它还应包含逻辑。


所以,我们还需要Capsule这样的方案。或者对它的扩展。



5,统摄问题

刚才提到的涌现-降维问题,其实不止是两个,还有第三个问题,即统摄问题。


一般,我们看物的时候,视觉要处理事物,事实上会根据想象力综合其他感觉。比如我看一棵树,视觉其实综合了材质的触感,这样有助于给信息降维度。即,通过不同感官的复合,可以降低单一感官提供的不确定性,而这就需要一个统摄不同感官的质的层面。


其实它是不同感知模型之间的统摄问题,还包含概念论部分的感知。



6,人工智能和哲学

过去,主观内省之所以被科学忽略,文理分科、哲学不精确等等,都不是原因,而是因为个体人类的心智和身体太弱小了。


等人类心智被机器强化之后,主观内省就会变得更为重要。


哲学能不能给予科学以帮助(或者说,哲学会不会重新应用于科学),还不好说,但旧有学科的分界会被打破,现象学和观念论就会被重启,人类有一个更强大的心智,就会有如何在主观层面驾驭技术的问题。


到时候宗教可能也有新的地位。


整个世界的理论范式都会发生变化,AI开启新纪元。


或者就是,技术(类似于希腊的techna,而不是现代的technology)发展,人的理解已经跟不上,即科学的解释跟不上技术发展,所以,科技变成了魔法。我们只是努力在理解和解释技术本身,表现为哲学或宗教。



7,结语

无论如何,我们需要一个如题图一样,模仿苏格拉底姿势的机器人,它作为神学家正在沉思。



(沉思中的苏格拉底)


本文哲学相关由Exοφία指导和提示,错误的归于我,偶尔正确的,请归于他。

CC BY-NC-ND 2.0 授权

喜欢我的作品吗?别忘了给予支持与赞赏,让我知道在创作的路上有你陪伴,一起延续这份热忱!