生成式人工智能AI與文學

2023 年 3 月 23 日

AI能否寫出一首好詩的問題在可見的將來將繼續懸而未決。這裡的懸而未決又可細分為兩個問題：1. AI能否寫出足夠長也足夠好的詩可以混跡於多數讀者認可的好詩人的作品中？ 2. 未來的讀者是否認為應當對AI生成的詩歌文本和人工生成的文本一視同仁？順便說一局，假如第二個問題的答案是Yes，那麼接下來的一個必然結果就是以後的文學創作競賽將取決於高技術硬件的競爭，恰如現在的游泳競賽取決於高技術游泳衣。

所谓的生成式人工智能（generative artificial intelligence）简单地说就是那种不但能够汇总现有的数据而且还能生成新的、出人意料的输出的人工智能。

隨著ChatGPt之類的可以像模像樣地回答問題的人工智能產品出現，世界各國各種媒體有關人工智能的討論也驟然暴增。在Matters上出現的一些討論在我看來非常有趣也非常重要。我想對已有的討論作一番跟進和推進。我認為這方面的認真討論不但有助於我們認識人工智能，而且也有助於我們重新認識什麼是智能，什麼是文學，什麼是原創性。

ChatGPT的文学信息处理仍有致命伤

截至目前，OpenAI公司提供的所谓生成式人工智能软件ChatGPT虽然号称“May occasionally generate incorrect information（可能偶尔会产出不正确的信息）”，但现在已经有很多确切的证据显示，OpenAI的这种但书（disclaimer）是一种明显的有意无意的误导。

人们可以很容易地看到，至少在本文所要讨论的文学领域，ChatGPT这款生成式人工智能软件是持之以恒地、系统性地而不仅仅是偶尔推出不正确的信息。

这方面的可以黑白分明一目了然地说明问题的例子，我在先前发表的拙文《人工智能ChatGPT的可敬與可笑》已经做了扼要的陈述。我在那里展示了ChatGPT在文学解说方面显然是系统性的严重问题并做了简单说明。

拙文发表后，我又对ChatGPT进行了一个非常无害的测验，要它给我推荐日本著名作家芥川龙之介的一部作品。它给我提供的以下这种答案令我既欢乐又沮丧：

芥川龙之介是日本文学史上的杰出作家之一，他的作品风格多样，既有现实主义的作品，也有奇幻和怪诞的作品。如果只能推荐他的一部作品，我会选择他的代表作之一——《羅生門》。

《羅生門》是一篇以中世纪的日本为背景，描写了一个发生在一座荒山野岭上的凶杀案件的短篇小说。芥川龙之介通过多重叙述者的视角，展现了对同一件事情的不同诠释和解读。这个故事探讨了人性的复杂性和主观性的局限性，引起了读者的深思。

此外，《羅生門》还因其出色的文学技巧而备受赞誉。芥川龙之介运用了自由间接述法、意识流等多种叙事手法，刻画了人物的内心和感受，使读者更加深入地理解和体验故事。

综上所述，如果只能推荐芥川龙之介的一部作品，我会选择《羅生門》。这是一篇充满思考和文学价值的作品，能够带给读者独特的阅读体验。

我由这一测验结果得出的我自认为是足够客观公允的结论是：

世界文学名著《罗生门》的故事背景并非荒山野岭，而是在当时的日本京城；《罗生门》讲的并非凶杀案；作者芥川龙之介在《罗生门》这篇短篇小说中没有使用意识流，也没有使用多重叙述者的视角以展现对同一件事情的不同诠释和解读。

对世界众多国家众多读者都熟悉的作品和作家，ChatGPT都会这么生编乱造，移花接木，乱来一气，在解说众人不太熟悉的事情的时候，它能提供多少可信的信息而不是笑话只有天知道。也就是说，在处理文学问题的时候，它常常比无用还坏，不能用。谁用谁倒霉（谁用谁就使自己变成可笑的傻瓜）。

这一足以一举说明问题的例子显示，ChatGPT反复地、系统性地（显然是根源于设计地）提供不靠谱的答案，其作业形同欺诈。这种据说是设计来给用户提供知识帮助的工具是好用，还是成事不足败事有余，我想答案是清楚明了的，没有什么好争议的。

换句话说，ChatGPT还有大片的知识空白，但其设计不是要它承认无知，而是用胡说八道或滥竽充数来填充空白，强不知以为知，这是这款人工智能软件的致命伤。

公允地说，ChatGPT这款人工智能软件还在研发中，先前发表的拙文指出的它那些看似恶作剧的虚假不实的信息可以说是它成长中的痛苦，是它还不成熟的表现。本文接下来要讨论的不是这种痛苦和不成熟，而是要讨论ChatGPT这样的生成性人工智能软件在成熟的情况下，在其运作进入理想境界时，我们可以遇到什么问题，应当想到什么问题。

AI能否寫出一首好詩？ - 煮雪的人

煮雪的人提出了一个很好的问题。这个问题不但是人工智能AI问题，也是一个具有根本性的文学问题，哲学问题。但这个好问题要想成立，就必须有一系列前提条件得到满足，否则它就不能成立。这样的前提条件必须包括：

1. ChatGPT这样的人工智能AI软件已经设计成熟，运作平稳，它写出的句子都是靠谱的，通顺的，没有明显错误或怪异，不会再推出逻辑或语法不通、不符合语言习惯说法的诗文文句；

2. 它的信息储备足够丰富，信息搜索汇总能力足够强大，不会在明显的事情上张冠李戴，如把著名作家著名作品的故事发生地点说错了还说得有鼻子有眼，或把一个著名作家的作品说成是另一个著名作家的著名作品。

那么，在这样的前提条件得到充分满足的情况下，AI能否写出一首好诗？

现在我们已经可以给ChatGPT发布指令，让它写一首诗。它还真能写出诗来。比如说，让它以“手帕”为题，写一首悲伤的或欢快的诗。它马上会写出像模像样的悲情诗或欢乐诗，如，

手帕柔软如丝绸，
轻轻擦拭着泪痕。
难掩眼眶湿润，
心事绵绵如愁云。...（以“手帕”为题的悲情诗）

或者，

手帕薄如蝉翼，
绣着红花绿叶。
洁白如新鲜雪，
摇曳生辉如星月。...（以“手帕”为题的欢乐诗）

我们可以忽略ChatGPT写出的蹩脚诗句（并相信随着软件的改进和升级蹩脚会变为通顺），然后接着问：AI能否写出一首好诗？

这个问题很简单，很直截了当。但靠谱的回答不可能简单，也不可能直截了当。因为靠谱的回答必须应对一系列难题，牵涉很多实际的问题，哲学问题，形而上学问题，其中必定包括：怎样才可以算是好或更好？好如何判定？由谁判定？判定的标准是什么？标准以及判定结果会有怎样的变化？

由此可知，“AI能否写出一首好诗”看似是一个简单的问题，其实是一个一言难尽的非常复杂的问题。复杂的问题令人头痛。本文不想让读者头痛，只想给读者娱乐。于是，这里不妨把问题简单化，来一个攻其一点不及其余。

关于好诗的文学和科学试验

说到好诗或好诗的判定，日本学者桑原武夫1946年进行了一次非常有趣的文学与科学试验——他挑选了15首俳句（日本特有的只有17个音节的短诗），其中既有俳句大家的作品，也有阿狗阿猫无名之辈的作品，把作者的名字给拿掉，让普通读者来判断那些俳句的好坏优劣，结果是他们的判断结果完全是随机的（好坏难分的，即平时众人公认的大家高手得分不一定高，阿狗阿猫得分不一定低）。

桑原武夫由此得出的结论是，一般读者认为俳句大家的作品好，其判断并非是基于大家作品本身的内在文学价值，而是看人下菜碟。

桑原武夫当年进行的试验至今余波荡漾，他所提出/呈现的问题（俳句究竟货真价实的艺术，还是老人或病人闲来无事玩弄的雕虫小技）至今悬而未决。人工智能AI写诗能否写出好诗的问题显然是桑原武夫提出的老问题的延申——假如我们抹掉作者的名字，把人工智能写的俳句跟人（包括俳句名人大家）写的俳句混在一起，读者会得出怎样的优劣评判？

考虑到俳句这种诗歌的独特性（异乎寻常地短、超级短），考虑到人工智能的进步，再考虑到桑原武夫当年进行的试验，人们现在可以得出一个安全的结论——AI能写出一首好俳句。

俳句这种篇幅极短的诗歌高手大家可以写，阿狗阿猫也可以写，而且写出来之后高手大家和阿狗阿猫可以难分高下。但要是说篇幅长一些的诗歌，阿狗阿猫就难以靠着隐姓埋名混迹于高手大家之中了，比如阿狗阿猫很难、或曰不可能写出一首白居易那样的《长恨歌》，杜甫那样的“秋兴八首”，或写一部荷马史诗，但丁的《神曲》那样的长诗。

AI能否寫出一首好詩的问题悬而未决

说到这里，我们似乎可以得出一个结论：像俳句那样的短诗的好坏常常不易判断，但篇幅长一些或比较长的诗歌的好坏就容易判断了，就不会出现阿狗阿猫可以混迹于大家高手之中了。

但上述结论仔细一想也有问题，因为读者或社会大众对什么是好诗的判断标准可以随着时代或社会文化环境的变化而变化。

例如，在英语世界，莎士比亚的同辈人、诗人约翰·邓恩（John Donne）的诗歌在其当年和其后很长一段时间被认为多是不足观的玩意儿。只是到了二十世纪，部分是由于著名诗人和批评家艾略特（T.S. Eliot）大力的宣扬才被广泛阅读和欣赏，并被认为是真正的好诗，而不是一味的奇技淫巧的炫耀。

以上是什么是好诗的判断标准随着时代的变化而变化的例子。当然这个例子也可以说是好诗的判断标准随着社会文化环境的变化而变化的例子。也就是说，艾略特所生活于其中的社会文化环境跟邓恩时代不同，也跟十八世纪的英国不同（那个时代的英国大文豪和文学批评权威约翰生博士Dr. Samuel Johnson对邓恩批判得很厉害，说他的诗完全没有诗意，人们只能靠扳着手指数他的诗行音节才能看出他写的是诗）。

关于什么是好诗的判断可以随着社会文化环境的变化而变化，这方面最好的例子是中国人大都认为李白杜甫是最好的唐代诗人，但日本人则大都认为白居易最好。在另外一方面，中国人认为日本古代诗歌集《万叶集》中那些明显模仿中国诗歌的诗是更好的诗，但日本人则认为那些诗的写手明显模仿中国诗，因此他们的作品不够好，是二流的。

例如，日本评论家八木毅在评论《万叶集》中的一首和歌（日本特有的只有31个音节的短诗）时这样写道：

从诗风推理，此诗多被认为是（柿本）人麻吕之作。偏重形式，格调拘谨，给人一种仅是罗列材料的强烈感觉。在创作和发表的当时，或许以其汉诗式的修辞令人耳目一新而受称许。但这种强调知性的写法走得过头，远离了切实的实感。作者对描写对象的这种刻意修饰令读者不能感到生的跃动。

综上所述，AI能否写出一首好诗的问题在可见的将来将继续悬而未决。这里的悬而未决又可细分为两个问题：

1. AI能否写出足够长也足够好的诗可以混迹于多数读者认可的好诗人的作品中？
2. 未来的读者是否认为应当对AI生成的诗歌文本和人工生成的文本一视同仁？

顺便说一句，假如第二个问题的答案是Yes，那么接下来的一个结果必然就是以后的文学创作竞赛将取决于高技术硬件的竞争，恰如现在的游泳竞赛取决于高技术游泳衣，自行车竞赛取决于高技术自行车。

高技术游泳衣和自行车堂而皇之地进入奥林匹克竞赛颠覆了源自古希腊的传统体育竞赛概念（当初的竞赛者都是裸体参加竞赛以显示自己是公平竞赛不假外力）。假如文学创作也引入科技产品则必将颠覆传统的文学创作概念。由此而来的后果是什么，人类还在没能看明白或想明白。

最后再说明一下。本文的主题是生成式人工智能AI与文学问题，但本文的讨论显然是挂一漏万，攻其一点不及其余，很多人工智能AI与文学的其他重要问题，如AI与文学批评问题，文学创作问题，尤其是长篇作品创作问题都没有细谈，甚至没有触及。

CC BY-NC-ND 2.0 授权