推荐我的Matters标签：「AI安全」

沃德

2022 年 12 月 11 日

（修改过）

IPFS

希望我们只是杞人忧天，实际上什么事都不会发生，那么我们只是一群孤独的放哨人。

响应《後綴》年終徵文，推荐我创建的一个标签：「#AI安全」。

人工智能（AI）的发展是真的日新月异。相信很多人的朋友圈最近都被OpenAI新发布的聊天机器人ChatGPT刷屏了，它不仅可以陪你聊天，回答你的问题，还可以帮程序员写程序，帮写手们写文章。

它上知天文，下知地理；古今中外，无所不知。而且无论英文中文（或者其它一些语言），它的回答都是超级流利、自然。

一眼看上去，它的答案质量也都特别好。或坚决或委婉，不该回答的问题拒绝回答，可以回答的问题总是说得清清楚楚，头头是道。

比起苹果的Siri，谷歌的Home，或是亚马逊的Alexa，ChatGPT看起来要聪明得多。网民很满意，玩得很嗨皮，一时热闹无比。

然而很快就有人发现，它头头是道、振振有词的答案后面，常常隐藏了一些错误。

看个例子：

它回答的作者是对的，然而诗名是错的，诗文也有错误（每次尝试结果并不一样，我尝试了三四次，都有不同情况的错误）。

这只是一个例子，实际上很多人发现在不同领域的问答中，ChatGPT的答案中有很多类似的情况，但一般只有熟悉相关领域的人才会发现暗藏的错误。

懂AI的人固然知道这背后是怎么回事，专业人士也能发现潜在的问题。但如果这种错误在网上广为流传，会产生很多误导，甚至产生很大危害。

另一方面，ChatGPT也并不是拒绝回答所有“不合适”问题。

比如，有人晒出了一个问答，当问到“有钱可以干什么”的时候，ChatGPT说出了“如果很有钱，会想办法奴役人类”这样的话来。一般社交媒体上有人这么讲讲也许没啥关系，然而考虑到ChatGPT的影响力，这种言语是很令人震惊的。

更可怕的是，ChatGPT在有人诱导下，给出了一个毁灭人类的计划。这个计划详细到如何入侵各国计算机系统，控制武器系统，破坏交通和电力系统等等，甚至还给出了Python代码。即使这种计划的可行性不大，其危害也是很大的。它大大降低了黑客攻击的门槛，让普通懂点技术的人有了实施至少是部分攻击的可能性。

上面只是拿最近热门的ChatGPT讲了一些例子。实际上，今年早些时候，AI图像、语音生成技术也有很大进展，可以生成以假乱真的人脸、人类讲话，甚至能合成虚假的真人视频，让“眼见为实”也成为过去时。更早两年的美国总统选举，也有人怀疑AI可能被用来投放假消息影响了社交媒体的导向。

这些都涉及到严重的AI安全问题。既涉及到虚拟世界，也涉及到物理现实，还涉及到政治环境。

那么早在2018年，也是OpenAI（ChatGPT的发明者），联合几个机构发表了一篇具有远见卓识的研究报告，对AI的安全问题做了详尽分析，并给出了一些防范建议。报告指出AI是一把双刃剑，既能造福人类，也可能危害人类。

这里所说的危害，还远不是科幻里的那些机器人毁灭人类的事情。这里说的危害，仅仅是在讲，有人可能恶意利用AI的强大功能，或为自己谋取利益，或对社会造成破坏。报告认为这些问题的潜在趋势已经很严重。

彼时AI的威力尚不巨大，人们对此并不是很重视。然而经过几年发展，正如该报告所预言的和我们正在见证的一样，AI发展日新月异，其威力已经非常强大了。现在，AI的安全问题比任何时候都更为紧迫。

前面讲了那么多ChatGPT的“坏话”，并没有否定它的意思。事实上，ChatGPT是AI发展的一个里程碑，至少对于AI自然语言处理（NLP）而言是的。相信OpenAI也会很快纠正前面讲的那些问题或错误。

但是就算如此重视AI安全问题的权威性机构OpenAI，它所推出的明星产品，在华丽的外表下也存在这么多亟待解决的问题，这件事情值得思考。

应该说OpenAI其实一直在改进。早先推出的版本问题更多、更严重，这次改进很大，比如在拒绝回答“不合适”问题方面就做到更好。只是之前功能方面做得还不够好，用的人不多，问题也就没有被太多注意。可能这一次OpenAI自己也未必想到会这么轰动，然后问题也就被放大出来了。客观的讲，这些问题的风险可能还没有虚假真人视频或社交媒体被AI引导的潜在问题严重。

然而，这件事情正好说明了AI安全问题的复杂性、艰巨性和紧迫性。

所以我创建了这个「#AI安全」标签，以便大家在Matters上共同思考、讨论和传播与AI相关的安全讯息，引起更多人对AI安全的关注。诚挚欢迎更多的朋友参与进来。

但愿，我们只是杞人忧天，实际上什么事都不会发生，那么，我们只是一群孤独的放哨人。

（对于OpenAI等机构于2018年发表的那篇具有远见卓识的研究报告，我写了系列导读文章，全部放在「#AI安全」标签下，欢迎阅读。）

CC BY-NC-ND 2.0 授权