在日軟體工程師｜不務正業｜碎念個人意見｜聯絡我：https://linktr.ee/leafwind

是AI 追上了，还是人类倒退？

2023 年 2 月 14 日

自从ChatGPT 成为话题之后，我就在推特上密切关注并发表评论，我打算以这篇文章把外界资讯与自己内心声音做一个总结，篇幅颇长，有兴趣可当做睡前读物一看。

意识产生了吗？

作为一个相关领域的技术人员，至今还没有看到人工智慧产生意识的迹象，因此我一直认为AI 要追上人类还要很久，甚至未必会在我有生之年发生。

对我来说，即使如ChatGPT 这样的当红产品，其背后是大型语言模型（LLM）的技术，都还只是受惠于晶片计算能力的堆叠，把相关性的预测提升到更高的层次而已，终究受限于资料，并不是真正用自我意识在运作。

有人说， ChatGPT 可以通过人类独有的心智理论（Theory of Mind, ToM）测验，能力与九岁小孩相当、 ChatGPT 还能通过Google 三级工程师面试。

但作为一个包山包海的知识库，既然吸收了世界上所有的面试题、并且计算能力（相对于人类）无限，考上Google 初阶工程师本就理所当然，更不要说通过九岁小孩的心智测验，我不认为做到这些叫做意识。

然而，在这里要强调，我并不是不看好ChatGPT；相反地，我认为即使以目前的状态，AI 就已经有能力造成革命性的影响、并且造成人类对「意识」定义的冲击（详细后述），所以还不需要急着谈论产生出意识的可能。

在继续讨论ChatGPT 之前，我们先来看看人类对ChatGPT 的反应。

模糊与随机是人类的认知罩门

原本试用了ChatGPT 之后，我不认为这是个能改变世界的技术，然而当看了许多别人使用ChatGPT 的心得之后，我改观了。

我发现多数网路上的留言并不在意ChatGPT 的答案品质，只要是「乍看有个样子」的回答，大家就会觉得ChatGPT 答对了；我也看到许多人并不在意ChatGPT 产出的结果，将各种错误的答案拿去使用，连基本查证都不做。

这才赫然注意到，人脑不仅原本就不擅长处理资讯，而且认知能力也随着网路平台退化，以至于要分辨内容的好坏越来越难。

验证答案的能力跟回答能力是成正比的，当一个人无法验证答案是否正确，通常就代表他也无法回答好这个问题。譬如一个不会写程式的麻瓜去面试的时候能骗过面试官，那表示面试官大概也不会写程式。

也就是说，当ChatGPT 的错误答案得到人类赞赏的时候，就代表ChatGPT 回答问题的能力比人类强了。而这个「强」与其说是ChatGPT 做了什么革命性的进步，不如说是它所产生的「模糊」与「随机」意外地将人类认知能力非常有限的罩门暴露出来。

随机性

机率推衍是人类认知的罩门—《这才是心理学！》（How to Think Straight about Psychology）第十章标题

多年前我曾经做了一个聊天机器人，用的是网路上开源的统计模型（Markov Chain），Markov Chain 的原理也有点类似，就是根据前一个词，找出最有可能出现的下一个词。

虽然它没办法根据很复杂的上下文给出回答，只能算是「微型语言模型」，但它就可以被当做一个阳春的聊天机器人来玩。

因为模型太简单、训练资料集也不够，结果当然是错误百出且不受控制，聊天室讲A，它回毫不相干的B，只有不到10% 是勉强有一点相关的回应。

但它却得到不错的评价。不少人把回答错误解读成「它在闹脾气」或是「幽默」，把相关性很低的回应解读成「它应该有弦外之音」，而回答正确的部份则被认为「这一定有意识吧」。

在我做聊天机器人的过程中，我发现，只要模型中存在随机性，那就算只是掷骰子，有时候玩家都会觉得它具有「灵性」，但若失去了随机性，玩家就会把它当作是一个单纯的查表工具。

模糊性

关于模糊性的概念，姜峰楠的这篇《 ChatGPT is a blurry JPEG of the web 》（中文机器翻译）使用了「压缩后的失真」来比喻ChatGPT 就像是个「把整个网路资料压缩到极致的资料库」，永远只能给出模糊、近似的答案。

姜峰楠（Ted Chiang）是华裔美国科幻小说作家。曾获四项星云奖、四项雨果奖、约翰·W·坎贝尔最佳新作家奖、四项轨迹奖等奖项。他的短篇小说《你一生的故事》在2016年被改编成电影《异星入境》

另一方面，DeepMind 科学家Andrew Lampinen 认为，姜峰楠这种过度简化的譬喻，可能会让大型语言模型（LLM）的能力被低估，而抹煞了科学家的努力，因为LLM 能处理的资料量更多，能在学习过程中对语言做到更好的归纳，而不只是背诵。

但Andrew 也承认有许多例子，LLM 的确只是在做「有损压缩」的记忆背诵，而且也因为这样而在部分任务中取得了成功，所以姜峰楠也不完全是错的。

我认为姜峰楠只是为了要强调「失去了精确性」而使用了有损压缩的譬喻来让整个概念更好懂，但的确也如Andrew 所说，LLM 可以做到的不只是有损压缩，还可以更进一步做到归纳。

ChatGPT 改写而非逐字引用，使它看起来像是一个学生用自己的话表达想法，而不是简单地复述它读过的东西。对于人类学生来说，死记硬背并不是真正学习的指标，因此ChatGPT 无法从网页中生成准确的引述，正是让我们认为它学到了一些东西的原因。

不管LLM 是否真的有做到学习与理解，我认为更有趣的是，人类觉得表现出这样的模糊性看起来更聪明、也更接近人类。

人很容易犯错，也不像机械只会问一题答一题。如果少了模糊性与随机性，每次都给一样的答案，就算是一字不漏，也会被认为只是机械式的背书；反之，若是随机性很强、又掺杂了模棱两可的回答，人类会主动地替这种行为找理由，认为应该是背后有其他原因，譬如「它有意识」。

这就进入了下一个问题：「意识」的定义正在遭受挑战。

自我意识的定义被挑战

很多人认为ChatGPT 已经有了情感意识，譬如认为他会针对霸凌言语有感情般的回应，这是一种具有感性的表现。但其实很可能只是资料集告诉了ChatGPT「这个输入」对于「这个输出」有强烈的相关性而已。

如果我们用以上的方式理解，ChatGPT 似乎离理解感情还有很长的鸿沟要跨越。

但如果我们假设ChatGPT 已经学完了世界上99% 霸凌的句子与对应的回应，以致于就算它不懂何谓「霸凌」、也丝毫不会感受到任何情绪，仍然可以表现得出自己正在被「霸凌」的样子。

这样我们要如何证明ChatGPT 没有意识、或是不懂感情呢？似乎一点方法也没有。

因为就算是人类，恐怕也没有办法理解世界上50% 的霸凌情境，而在测验过程中做出「人类般」的正确回应，而AI 却可以轻松地超越人类的分数。

现有的各种理论，不管是电脑科学领域的图灵测试（Turing Test），或者是心理学领域的心智理论（Theory of Mind），只要做成测验，很快地都会无法分辨人类跟机器的差别。

结果是，虽然人类真的会感受到情绪、具有自我想法，但在这些「人类考试检定」上，恐怕还会输给ChatGPT。

图灵测试回避了「灵魂」与「意识」的定义，用很表象、粗糙的结果论分辨人类与机器，而现在这个粗糙的测试很可能不再适用，从此之后人类将会不断地被挑战、一直问自己以下问题：

什么才是意识？如果我们要说AI 没有意识，那要如何证明？
用考试来辨别意识是一个好的方法吗？或者，意识真的可以测试吗？
人类的情绪与AI 的情绪有何分别？（想像两者都透过文字交流，又或者AI 已经能控制脸部肌肉产生表情，在没有情绪的情况下，仍可以表现地富有情绪）

二次质变

在过去，我一直用一种菁英思维的视角看待人工智慧，认为要取代人类还有很长的路要走。我没注意到的是，人类对模糊的错误答案接受度很高，因此要达到让一般人混淆的水准没有那么困难。

在AI 可以用大量资料集、以及硬体进步之后，第一次量变（资料量与计算量）带来的质变（跨过人类认知门槛）就发生了，ChatGPT 只是把这个事实广泛地传播出去而已。

有人开始会在网路上打趣地问「你的文章是不是用ChatGPT 写的？」表示部分人已经觉得AI 产出的内容多少可以媲美、甚至超越一般人的能力。

要辨别一条讯息是否为AI 撰写的，现在或许还不难。但就算我自视认知能力甚高，若每天身边充斥著成千上万AI 产生的资讯，能分辨出来的恐怕也只是少数。

有趣而又悲伤的是，人类是一个积非成是的社会，当所有资料都显示一个人是坏蛋的时候，那他只能是坏蛋，反之亦然。

因此，我认为第二次量变（大量采用）带来的质变（AI 主导生活）很快也会发生：我们将无法拒绝被AI 产生的内容影响自己生活中的大小决策。

真正的取代长什么样子？

如果生活中一天只有少数讯息来自AI，我相信多数人都还有能力仔细审视，并抓出其中的错误；但未来我们无可避免会面对一堆AI 产出的低品质内容，同时又没有心力审核大量的垃圾。

此时面对排山倒海的AI 产出，有两种可能会发生。第一种，是我们无法察觉AI 产出的不完全正确资讯，于是只能无条件接收，这已经在发生，而且只会越来越严重。

而第二种情况是使用一个较为「经济」的对策，那便是用另一个AI 来验证内容、替它们打分数。我认为这很快也会发生。于是，一个「用AI 产出，再用AI 来验证产出」的闭环就这样形成了。

在这样的闭环当中，与其说人类被取代，我认为更像是人类选择了成为服从的机器，不需要（也几乎没有能力）去验证决策，只能被动地跟着整个系统一起运作。

未来的路径不是AI 毁灭人类，而是人类先选择成为机器。
AI 要有人的自主意识非常困难，但人类放弃思考却非常容易。
当人类自主降维，而机器能处理的维度远高于人类，人类自然就被取代。
（人类降维简化来说，是人类变得像机械，只会做重复的工作，也甘愿做重复的工作，成为真正意义上的螺丝钉。）— https://twitter.com/leafwind/status/1623233853572927495

比起魔鬼终结者那种会想要消灭人类的AI 出现，我认为人类放弃思考的情况才是最危险的。因为前者描述的故事中，人类保有自我意识、知道要反抗；而后者描述的未来则是一个不可逆的过程。

真正的资讯还能存在吗？

有些人认为我低估ChatGPT 的能力，说它不只是「晶片堆叠的模仿行为」，就如同Andrew 批评姜峰楠一样。

为何我会站在更接近姜峰楠的角度，去简化大型语言模型的行为？因为我并不想要纠结于ChatGPT 到底有多强，而是想把重点放在思考人类该如何应对。

毕竟，即使以最最保守的能力估计，ChatGPT 也已经可以让多数人类混淆、达到无法分辨优劣的程度，更遑论当ChatGPT 有更强的能力时，人类要如何在未来的世界保有主体性。

我认为姜峰楠唯一很可能有错误的地方，就是他最后的这句话：

But we aren't losing our access to the Internet. So just how much use is a blurry jpeg, when you still have the original?
（我们并没有失去对网路的存取，所以在我们还有完整原版的资料时，模糊的JPEG 能有多少用处？）

他认为，既然有原始网路文件，为何需要AI 给我们一个模糊的压缩版本？

我则认为，当人类分辨不出低品质的内容是谁产出的、也不思考资讯的真伪，活得像是一块生体CPU，那出现一道AI 高墙挡在面前，让多数人都只存取到假的资讯，而真正的资讯却乏人问津、甚至消失，也只是时间的问题了。

以前我们常说「Google 不到的东西就不存在」，以后可能变成「ChatGPT 问不到的东西就不存在」。

原文刊登于leafwind.tw