leafwind
leafwind

在日軟體工程師|不務正業|碎念個人意見|聯絡我:https://linktr.ee/leafwind

是AI 追上了,还是人类倒退?

自从ChatGPT 成为话题之后,我就在推特上密切关注并发表评论,我打算以这篇文章把外界资讯与自己内心声音做一个总结,篇幅颇长,有兴趣可当做睡前读物一看。
会读书的攻壳车,算是有意识吗?

意识产生了吗?

作为一个相关领域的技术人员,至今还没有看到人工智慧产生意识的迹象,因此我一直认为AI 要追上人类还要很久,甚至未必会在我有生之年发生。

对我来说,即使如ChatGPT 这样的当红产品,其背后是大型语言模型(LLM)的技术,都还只是受惠于晶片计算能力的堆叠,把相关性的预测提升到更高的层次而已,终究受限于资料,并不是真正用自我意识在运作。

有人说, ChatGPT 可以通过人类独有的心智理论(Theory of Mind, ToM)测验,能力与九岁小孩相当、 ChatGPT 还能通过Google 三级工程师面试

但作为一个包山包海的知识库,既然吸收了世界上所有的面试题、并且计算能力(相对于人类)无限,考上Google 初阶工程师本就理所当然,更不要说通过九岁小孩的心智测验,我不认为做到这些叫做意识。

然而,在这里要强调,我并不是不看好ChatGPT;相反地,我认为即使以目前的状态,AI 就已经有能力造成革命性的影响、并且造成人类对「意识」定义的冲击(详细后述),所以还不需要急着谈论产生出意识的可能。

在继续讨论ChatGPT 之前,我们先来看看人类对ChatGPT 的反应。


模糊与随机是人类的认知罩门

原本试用了ChatGPT 之后,我不认为这是个能改变世界的技术,然而当看了许多别人使用ChatGPT 的心得之后,我改观了。

我发现多数网路上的留言并不在意ChatGPT 的答案品质,只要是「乍看有个样子」的回答,大家就会觉得ChatGPT 答对了;我也看到许多人并不在意ChatGPT 产出的结果,将各种错误的答案拿去使用,连基本查证都不做。

这才赫然注意到,人脑不仅原本就不擅长处理资讯,而且认知能力也随着网路平台退化,以至于要分辨内容的好坏越来越难。

验证答案的能力跟回答能力是成正比的,当一个人无法验证答案是否正确,通常就代表他也无法回答好这个问题。譬如一个不会写程式的麻瓜去面试的时候能骗过面试官,那表示面试官大概也不会写程式。

也就是说,当ChatGPT 的错误答案得到人类赞赏的时候,就代表ChatGPT 回答问题的能力比人类强了。而这个「强」与其说是ChatGPT 做了什么革命性的进步,不如说是它所产生的「模糊」与「随机」意外地将人类认知能力非常有限的罩门暴露出来。

随机性

机率推衍是人类认知的罩门—《这才是心理学! 》(How to Think Straight about Psychology)第十章标题

多年前我曾经做了一个聊天机器人,用的是网路上开源的统计模型(Markov Chain),Markov Chain 的原理也有点类似,就是根据前一个词,找出最有可能出现的下一个词。

虽然它没办法根据很复杂的上下文给出回答,只能算是「微型语言模型」,但它就可以被当做一个阳春的聊天机器人来玩。

因为模型太简单、训练资料集也不够,结果当然是错误百出且不受控制,聊天室讲A,它回毫不相干的B,只有不到10% 是勉强有一点相关的回应。

但它却得到不错的评价。不少人把回答错误解读成「它在闹脾气」或是「幽默」,把相关性很低的回应解读成「它应该有弦外之音」,而回答正确的部份则被认为「这一定有意识吧」。

在我做聊天机器人的过程中,我发现,只要模型中存在随机性,那就算只是掷骰子,有时候玩家都会觉得它具有「灵性」,但若失去了随机性,玩家就会把它当作是一个单纯的查表工具。

模糊性

关于模糊性的概念,姜峰楠的这篇《 ChatGPT is a blurry JPEG of the web 》( 中文机器翻译)使用了「压缩后的失真」来比喻ChatGPT 就像是个「把整个网路资料压缩到极致的资料库」,永远只能给出模糊、近似的答案。

姜峰楠(Ted Chiang)是华裔美国科幻小说作家。曾获四项星云奖、四项雨果奖、约翰·W·坎贝尔最佳新作家奖、四项轨迹奖等奖项。他的短篇小说《你一生的故事》在2016年被改编成电影《异星入境》

另一方面,DeepMind 科学家Andrew Lampinen 认为,姜峰楠这种过度简化的譬喻, 可能会让大型语言模型(LLM)的能力被低估,而抹煞了科学家的努力,因为LLM 能处理的资料量更多,能在学习过程中对语言做到更好的归纳,而不只是背诵。

但Andrew 也承认有许多例子,LLM 的确只是在做「有损压缩」的记忆背诵,而且也因为这样而在部分任务中取得了成功,所以姜峰楠也不完全是错的。

我认为姜峰楠只是为了要强调「失去了精确性」而使用了有损压缩的譬喻来让整个概念更好懂,但的确也如Andrew 所说,LLM 可以做到的不只是有损压缩,还可以更进一步做到归纳。

ChatGPT 改写而非逐字引用,使它看起来像是一个学生用自己的话表达想法,而不是简单地复述它读过的东西。对于人类学生来说,死记硬背并不是真正学习的指标,因此ChatGPT 无法从网页中生成准确的引述,正是让我们认为它学到了一些东西的原因。

不管LLM 是否真的有做到学习与理解,我认为更有趣的是,人类觉得表现出这样的模糊性看起来更聪明、也更接近人类。

人很容易犯错,也不像机械只会问一题答一题。如果少了模糊性与随机性,每次都给一样的答案,就算是一字不漏,也会被认为只是机械式的背书;反之,若是随机性很强、又掺杂了模棱两可的回答,人类会主动地替这种行为找理由,认为应该是背后有其他原因,譬如「它有意识」。

这就进入了下一个问题:「意识」的定义正在遭受挑战。


自我意识的定义被挑战

很多人认为ChatGPT 已经有了情感意识,譬如认为他会针对霸凌言语有感情般的回应,这是一种具有感性的表现。但其实很可能只是资料集告诉了ChatGPT「这个输入」对于「这个输出」有强烈的相关性而已。

如果我们用以上的方式理解,ChatGPT 似乎离理解感情还有很长的鸿沟要跨越。

但如果我们假设ChatGPT 已经学完了世界上99% 霸凌的句子与对应的回应,以致于就算它不懂何谓「霸凌」、也丝毫不会感受到任何情绪,仍然可以表现得出自己正在被「霸凌」的样子。

这样我们要如何证明ChatGPT 没有意识、或是不懂感情呢?似乎一点方法也没有。

因为就算是人类,恐怕也没有办法理解世界上50% 的霸凌情境,而在测验过程中做出「人类般」的正确回应,而AI 却可以轻松地超越人类的分数。

现有的各种理论,不管是电脑科学领域的图灵测试(Turing Test),或者是心理学领域的心智理论(Theory of Mind),只要做成测验,很快地都会无法分辨人类跟机器的差别。

结果是,虽然人类真的会感受到情绪、具有自我想法,但在这些「人类考试检定」上,恐怕还会输给ChatGPT。

图灵测试回避了「灵魂」与「意识」的定义,用很表象、粗糙的结果论分辨人类与机器,而现在这个粗糙的测试很可能不再适用,从此之后人类将会不断地被挑战、一直问自己以下问题:

  • 什么才是意识?如果我们要说AI 没有意识,那要如何证明?
  • 用考试来辨别意识是一个好的方法吗?或者,意识真的可以测试吗?
  • 人类的情绪与AI 的情绪有何分别? (想像两者都透过文字交流,又或者AI 已经能控制脸部肌肉产生表情,在没有情绪的情况下,仍可以表现地富有情绪)

二次质变

在过去,我一直用一种菁英思维的视角看待人工智慧,认为要取代人类还有很长的路要走。我没注意到的是,人类对模糊的错误答案接受度很高,因此要达到让一般人混淆的水准没有那么困难。

在AI 可以用大量资料集、以及硬体进步之后,第一次量变(资料量与计算量)带来的质变(跨过人类认知门槛)就发生了,ChatGPT 只是把这个事实广泛地传播出去而已。

有人开始会在网路上打趣地问「你的文章是不是用ChatGPT 写的? 」表示部分人已经觉得AI 产出的内容多少可以媲美、甚至超越一般人的能力。

要辨别一条讯息是否为AI 撰写的,现在或许还不难。但就算我自视认知能力甚高,若每天身边充斥著成千上万AI 产生的资讯,能分辨出来的恐怕也只是少数。

有趣而又悲伤的是,人类是一个积非成是的社会,当所有资料都显示一个人是坏蛋的时候,那他只能是坏蛋,反之亦然。

因此,我认为第二次量变(大量采用)带来的质变(AI 主导生活)很快也会发生:我们将无法拒绝被AI 产生的内容影响自己生活中的大小决策。


真正的取代长什么样子?

如果生活中一天只有少数讯息来自AI,我相信多数人都还有能力仔细审视,并抓出其中的错误;但未来我们无可避免会面对一堆AI 产出的低品质内容,同时又没有心力审核大量的垃圾。

此时面对排山倒海的AI 产出,有两种可能会发生。第一种,是我们无法察觉AI 产出的不完全正确资讯,于是只能无条件接收,这已经在发生,而且只会越来越严重。

而第二种情况是使用一个较为「经济」的对策,那便是用另一个AI 来验证内容、替它们打分数。我认为这很快也会发生。于是,一个「用AI 产出,再用AI 来验证产出」的闭环就这样形成了。

在这样的闭环当中,与其说人类被取代,我认为更像是人类选择了成为服从的机器,不需要(也几乎没有能力)去验证决策,只能被动地跟着整个系统一起运作。

未来的路径不是AI 毁灭人类,而是人类先选择成为机器。
AI 要有人的自主意识非常困难,但人类放弃思考却非常容易。
当人类自主降维,而机器能处理的维度远高于人类,人类自然就被取代。
(人类降维简化来说,是人类变得像机械,只会做重复的工作,也甘愿做重复的工作,成为真正意义上的螺丝钉。)—
https://twitter.com/leafwind/status/1623233853572927495

比起魔鬼终结者那种会想要消灭人类的AI 出现,我认为人类放弃思考的情况才是最危险的。因为前者描述的故事中,人类保有自我意识、知道要反抗;而后者描述的未来则是一个不可逆的过程。


真正的资讯还能存在吗?

有些人认为我低估ChatGPT 的能力,说它不只是「晶片堆叠的模仿行为」,就如同Andrew 批评姜峰楠一样。

为何我会站在更接近姜峰楠的角度,去简化大型语言模型的行为?因为我并不想要纠结于ChatGPT 到底有多强,而是想把重点放在思考人类该如何应对。

毕竟,即使以最最保守的能力估计,ChatGPT 也已经可以让多数人类混淆、达到无法分辨优劣的程度,更遑论当ChatGPT 有更强的能力时,人类要如何在未来的世界保有主体性

我认为姜峰楠唯一很可能有错误的地方,就是他最后的这句话:

But we aren't losing our access to the Internet. So just how much use is a blurry jpeg, when you still have the original?
(我们并没有失去对网路的存取,所以在我们还有完整原版的资料时,模糊的JPEG 能有多少用处?)

他认为,既然有原始网路文件,为何需要AI 给我们一个模糊的压缩版本?

我则认为,当人类分辨不出低品质的内容是谁产出的、也不思考资讯的真伪,活得像是一块生体CPU,那出现一道AI 高墙挡在面前,让多数人都只存取到假的资讯,而真正的资讯却乏人问津、甚至消失,也只是时间的问题了。

以前我们常说「Google 不到的东西就不存在」,以后可能变成「ChatGPT 问不到的东西就不存在」。

原文刊登于leafwind.tw

CC BY-NC-ND 2.0 版权声明

喜欢我的文章吗?
别忘了给点支持与赞赏,让我知道创作的路上有你陪伴。

加载中…

发布评论