思想，技术，性情爱个人网站：https://www.xiahua.me

AI 時代的創作｜正被抹平的審美和創造的鴻溝

2023 年 4 月 16 日（編輯過）

我認為，AI 生成模型帶來的一個重要改變，是抹平了審美力和創造力之間的巨大鴻溝。本篇文章將詳細討論，這究竟意味著什麼。

本文首發於我的個人公眾號TheLandsBetween

ChatGPT 橫空出世，相信很多朋友都已經試用過了。最初的震驚已經逐漸消退，但整個人類的科技史，無疑正在發生一次真正的革命。在這個所有科技巨頭都在訓練自己的大模型，而風投和創業者們雨點般跳入風口的當下，我想來討論一些ChatGPT 和類似的生成類模型，對創作和教育的影響。

我認為， AI 生成模型帶來的一個重要改變，是抹平了審美力和創造力之間的巨大鴻溝。本篇文章將詳細討論，這究竟意味著什麼。

1：ChatGPT 抹平了審美和創造之間的鴻溝

ChatGPT（和New Bing），已經是我日常工作學習中不可或缺的一環。前不久聽了一個很有洞察的說法，即真正的科技革命，對於用戶的使用習慣來說應該是「不可逆」的。例如智能手機是一個不可逆的發明，一旦用過之後，幾乎沒有人會真正願意放棄使用手機。而VR 頭盔則是一個可逆的發明，即便我試用過它幾次，有一些有趣的體驗，我仍然不會將其當作必需品。

ChatGPT，尤其是基於GPT-4，可以聯網查詢信息的New Bing，已經完全改變了我獲取信息和思考問題的方式：我幾乎不再使用Google 搜索了。更有趣的是，在學習AI 的過程中，我有時候會想到一些學術或商業的問題去請教朋友，但剛發完微信，就意識到這些問題完全可以問New Bing，然後通常會獲得一個不錯的回答。現在，這類大模型工具對我來說已經是不可逆的技術了。

誠然，ChatGPT 還有許多讓人詬病的問題，其中最嚴重的當屬所謂的幻覺（Hallucination）現象，即它會胡編亂造一段乍看上去非常符合語境的內容。例如你問它某個教授的簡介，它可能會瞎編許多這個教授根本沒有發表過的論文題目（但卻很像那麼回事）。這個問題被不少人文學者拿來作為「ChatGPT 不過是在預測下一個詞，它並不理解自己到底在說什麼」的佐證，which is wrong。 ChatGPT 的確在很大程度上理解了語言（但這個關於「理解」的問題留在未來的文章仔細討論）。

但這個Hallucination 的確是要命的問題。 OpenAI 的首席科學家Ilya Sutskerver 和CEO Sam Altman 多次在採訪中表示，目前OpenAI 團隊的工作重點，是讓GPT-4 變得可信賴（Reliable)，可操作(Controllable)。如果無法確保大語言模型能輸出可靠的，用戶真正想要的內容，它在許多關鍵領域，例如醫療，法律，教育，政策等，就很難發揮關鍵作用。我自己就被New Bing 胡編的但又很像那麼回事的數學解題步驟和結果迷惑過，結果花了更長時間來驗算自己原本就算對的答案。所以還是老話說得好：「知之為知之，不知為不知，是知也」。解決不了這個問題，就稱不上真正的智能。

OpenAI 正在全力解決ChatGPT 「胡說」的問題，Ilya 似乎相信，解決這個問題的關鍵就藏在RLHF，即人類反饋的強化學習過程中。對此我們可以拭目以待。但我更想說的是，即便大語言模型，以及其他文生圖模型如DALL·E，Stable Diffusion 仍然不准確，不完全可控，它們現在展現的能力在一類情景中也完全構成顛覆性的影響了。

我是在今年2月份開始使用ChatGPT 的。那時，我在泰國準備著雅思考試。我立即發現，ChatGPT 是一個很好的雅思作文老師。我可以給它一篇我的作文，讓其評分，潤色。它的評分有時很離譜，但潤色的工作，經過一些調教之後（過了一陣我才知道，這就是所謂的提示詞工程（Prompt Engineering）），它卻做得非常好。例如，在要求它潤色我輸入的文章之外，我還要求它「用合適的連接詞，讓段落過渡更自然；添加更多的例子和細節；使用英語習語；第一段只用兩句話…」等等。這些要求，部分來自雅思官方的作文評分標準，部分來自網絡和我自己的經驗。除了直接潤色，我還讓它指出我所犯的各種語法錯誤和用詞不當的情況並改正。 ChatGPT 表現得極好，立即讓我對從在線平台上找外教做100元一篇的作文批改需求不存在了。

我想指出的是，改雅思作文的需求，和法律諮詢，或者解決數學問題的需求有一個本質區別：對於雅思作文，我不需要更多的知識，就可以判斷文章的好壞（當然這建立在我的閱讀水平比寫作水平高，但相信這也是多數人的情況）。當ChatGPT 指出我的用詞不當和中式英語，並用非常簡練和適當的詞句重寫我的文章，且不改變我的論點和論據，我可以完全理解它的好，並由衷地嘆服。但對於法律問題，或者數學問題，我無法在不了解法律條文，或者俱體數學知識的情況下，直接判斷它生成的那些似是而非的內容是否可用。也就是說，在寫作文的這種情況下，我的判斷力大於創造力，而ChatGPT 幫我抹平了創造力和判斷力之間的鴻溝。

仔細想想，這種創造力> 判斷力的情形，非常廣泛的存在著。儘管「品味」無疑也是一個人與人之間差異極大的能力，但除非是專業藝術評論，在一定的基準線上，多數人都可以對一首歌是不是好聽，一幅畫是不是好看，達成一定的共識（哪怕只是某個群體或者階層裡的共識）。

從另一個角度來說，如果某人要裝修自己的房子，顯然他對於房子要如何裝修，怎麼佈置才好看，是有相當的信心的（畢竟他是甲方）。固然他無法靠自己的能力畫出效果圖來，卻也不會把設計師當成權威，從而忽視自己的審美。

也許在純藝術的領域情形並非如此，藝術家為自己創作，不存在「甲方-乙方」的關係。但想想看，這個社會大多數從事創意和內容生產的人，其實都是在做著抹平甲方自信的審美和孱弱的創造力之間的鴻溝。這一點，ChatGPT 和最新的文生圖模型，做得都相當好。所以或許可以誇張的說一句：「乙方不存在了」。

可以說，用一種合適的方式，讓AI 明白我們的創作意圖，成為了一種新的創造力。而這將帶來的影響，我想不是「努力學習提示詞工程，學會和AI 溝通」那麼簡單。接下來我們就討論這個問題。

2：一種新的創作方式：人人都是甲方（爸爸）

我們先來看看傳統的創作過程是怎樣的。以我粗淺的理解，我把傳統的創作方式，按照「想法成形度」和「創作時間長短」，分為「胸有成竹」，「逐漸成形」和「噴薄而出」，外加電影，遊戲工業中高度分工創造的藝術，姑且稱之為「團隊創作」四類。

在「胸有成竹」的創作方式下，創作者已經在心中提前完成了清晰的構思，而實際的創作只是落實這個構思的過程。這個過程可以理解為從設計圖到施工的過程，只不過有時這個「設計圖」是存在於創作者心中的。許多熟練的設計師，特定工具性文章的寫作者（例如一些商業記者），差不多是以這樣的創作方式為主。我們用上技術行業的黑話，稱這種創作方式是「端到端（end-to-end）」的，因為它更像是把想法從一種成形的形式翻譯為另一種成形的形式的過程。

而在「逐漸成形」的創作方式下，創作者通過和媒介的交互中，不斷塗塗抹抹，修剪刪改，以捕捉自己內心想要表達的感覺。當然，創作者內心的感覺，也在這個塗塗抹抹的過程中不斷變化，不斷成形。在更長的時間尺度上，創作者還可能遭遇靈感枯竭的情況，需要中斷創作，去旅行，去冥想，去酒吧和人聊天。顯然，這是大多數我們熟悉的原創性作品，例如小說，劇本，大部分的繪畫的產生方式。這種方式不是「端到端」的，因為我們並不是把一個成形的東西變換成另一個成形的東西。記得王小波說過，他能看出杜拉斯的《情人》，是在完成後又不斷調整了不同章節段落的順序，可以打亂以造成一種自由的閱讀體驗。這些嘗試對於作品至關重要，我們甚至可以說，創作者是在和媒介的交互和對話中，才讓作品真正存在出來。

在「噴薄而出」的創作中，創作者往往用很短的時間，就在一種激情狀態下完成了作品。據說亨利·米勒寫作《北迴歸線》的時候即是如此，更著名的例子當屬傑克·凱魯亞克寫作《在路上》的過程，據說作品是由作者爆發的藝術衝動在一卷30米長的電傳打字紙上一氣呵成。後來原稿於2001年以二百四十萬美元的價格被拍賣。除此之外，許多音樂家在作曲的時候，也會首先在這種狀態下即興完成作品最核心的主題。這種創作狀態是許多藝術家追求的，也是可遇不可求的。在這種狀態下，創作者當然有一個非常強烈的想法和感受要「生出來」，但和「胸有成竹」的冷靜，清晰和可控不同，這種創作狀態中那個要出生的想法，恐怕是很難用其他方式先形成藍圖或者草圖的，而是要立即變為成品。

而在諸如3A 遊戲和好萊塢電影的「團隊創作」中，因為是團隊行動，限於人力和溝通的成本，並沒有非常多的試錯空間，而是有少數人完成的初期的策劃和架構，然後自上而下，把這些想法逐漸傳遞給美術，音樂，開發等具體人士。而由於藝術創作無法被消除的內在不確定性，可以想像要把這種不確定過程變成可控的「工業生產」，會出多少問題。因此，即便是好萊塢電影，「導演」也非常重要，其他人相當於是他實現想法的左膀右臂。在遊戲行業，玩家常樂道於日本的製作人負責制，因為這種制度下能出現非常有個人特色的，極致的作品（如小島秀夫的《死亡擱淺》，宮崎英高的《艾爾登環》）。而即便如此，大型遊戲的「跳票」仍然是很常見的事情。但不論如何，對於團隊創作來說，最初的構思都必須在一層一層向具體執行者的傳遞過程中，不斷變得清晰。

想法成形度低想法成形度高創作過程短噴湧而出胸有成竹創作過程長逐漸成形團隊創作

顯然，這種分類會產生不少edge case，同時屬於幾類，或者難以被清晰歸類。但希望這是一個能用來分析AI 對創作領域影響的初步框架。

目前看來，生成式AI 的創作模式，是一種「端到端」的，自上而下的創作。即，它需要創作者用非常明確的語言來提示（告訴）AI，自己想要的內容。雖然提示詞也可以是圖片或文章的示例，但這種創作方式，顯然和一筆一畫地構建作品是完全不同的。在創作過程中，創作者沒有介入到每一個細部的生成過程中，而是對完成度更高的作品進行挑選。

可以說，在AI 的加持下，人人都成了「甲方爸爸」

顯然，對於「想法成形度」高的「胸有成竹」和「團隊創作」，AI 的介入是順理成章的。在這些創作模式下，創作的Idea 本身就要求且能夠被清晰的表達，然後向執行的層面傳遞。既然擔任具體執行的人可以理解，AI 也可以去理解。如果我們關心的是「AI是否能替代藝術家」，那這兩個領域的從業者就很危險了。而對於「噴湧而出」和「逐漸成形」的創作方式，表面看上去，則不會受到巨大衝擊。

但我更想討論的是，這種創作模式的改變會帶來什麼。過去的甲方畢竟不是藝術家，而當藝術家自己成為「甲方」，他應該如何工作？由於現在諸如Adobe 旗下的各款創作工具還在開發中，我們現在還很難在操作層面討論，只能做一些猜想和推測。

首先，創作者可能會前所未有地需要一種「反思性」的視角。可以類比中學語文的古詩鑑賞，或者藝術批評家的評論。些許諷刺的是，在過去，創作者和評論家總是充滿張力的，許多創作者對評論者會有一種「不屑」的態度。但很可能未來的創作模式，要求創作者變成對AI 的藝術評論家，通過對AI 指指點點，來使其生成更好的作品。

而從積極的一面看，和甲方乙方廣為人知的衝突和張力不同，現在我們有一個任勞任怨的機器人乙方，可以輸出幾百個作品版本供挑選。不同於通常「不懂藝術」的甲方，現在藝術家可以自己做甲方，可以用更精確和有意義的語言去和AI 乙方溝通。

更進一步來看，AI 作為乙方的價值在於，它可以不知疲倦地生成數百個作品，而量變可能會帶來產生質變。在過去，甲方其實也受制於乙方的生產力，往往要過早地將自己的想法收斂到有限的幾個方案裡。而如果AI 乙方的生產力近乎無限，作為創作者的甲方其實可以探索遠比過去多得多的方向。這會為世界帶來怎樣的作品呢？

3: 未解的問題：判斷力是從哪裡來的？

前文的探討集中在創意領域，但大家顯然能感覺到，大語言模型的工作方式，無論在回答問題，還是創作小說，都有某種一致性：用戶可以用很high-level 的語言告訴AI 自己想要什麼，而AI 會去完成那些low-level 的實操工作。所以我所謂的「AI 抹平了審美和創作之間的鴻溝，讓每個人都成為了甲方」，也可以重述為AI 讓每個人都成了老闆，有自己的研究生，實習生或者秘書。

那麼，判斷力，提問的能力，是從哪裡來的呢？

已經有很多文章，教育者在呼籲改變，順便再次嘲諷中國這種強調基礎訓練，旨在培養任勞任怨乙方的教育模式，儘管我們並不需要等到AI 的出現才發現中國教育的問題。但AI 的出現或許反而讓這些訓練多了一層價值。

為了獲得判斷力，審美力，或者提問的能力，我們究竟需要多少「打木樁人」式的訓練？這種訓練可以是美術生花在練習素描上的時間，可以是琴童花在練習曲上的時間，或者所有應試教育下的學生花在解題，推公式上的時間。在互聯網職業發展討論中也常有一個問題，即產品經理需要懂多少技術。

從保守的一面來看，我會擔心AI 創作方式讓我們過度忽視「肌肉訓練」的價值。我們關於繪畫的知識，是在頭腦層面嗎？還是其實在學習素描的過程中，以身體記憶的方式存在著？要感受到貝多芬的月光奏鳴曲的美，顯然不需要你真的會用鋼琴演奏。但我想大家也多少都能直覺地認同，倘若能學會彈奏這首曲子，對它的音樂之美的理解是會加強的。

更讓人覺得不安的地方在於，我們第二節討論的「噴湧而出」和「逐漸成形」的創作方式，暗示著藝術的創意在很多時候無法首先用別的方式描述出來，形成策劃或者草圖。很可能，真正的藝術突破，存在於身體和媒介交互的過程中。而正因為身體感受的無法言喻，藝術被廣泛認為具備某種「神秘性」。

在照相機發明並普及之後，本雅明在《迎向靈光消逝的時代》和《機械複製時代的藝術》中，已經揭示了那個時代的藝術境況。照相機可能是最早的「端到端」藝術的代表，藝術家只能在有限的意義是介入到作品的生成過程中。按照本雅明的提法，在AI 的時代，文字，繪畫，音樂…所有領域，都將迎向某種「靈光消逝」。

但從積極的一面來看，其實攝影藝術已經得到了廣泛承認，也沒有人認真覺得優秀的攝影師應該首先去學習繪畫。我覺得，和繪畫相比，攝影的確是一種更high-level 的創作。比起究竟畫什麼這個問題，攝影更重要的是「在正確的時刻拿起相機」，從而捕捉到生活中更豐富的信息。在AI 時代，這個問題會變成「在正確的時刻用合適的方式呼叫AI」。一個例子是，有了AI 繪畫工具，我們可以很容易地將自己的夢轉變為一幅畫。夢很快就會被忘記，可能等不急畫家拿起畫筆。

我猜想，未來的藝術家，一方面可能會因為在底層訓練的一手經驗的缺乏，而逐漸失去在技法層面創新的衝動。另一方面，則會因不同媒介形式創作門檻的降低，而獲得將更多的生活位面藝術化的能力。

判斷力從哪裡來？我暫時的回答是，從生活本身來。畢竟，除非AI 能替我們生活，否則我們對生活本身永遠擁有一手經驗，有基本的判斷力。

從AI 發展的態勢來看，未來社會不再那麼需要專家，或者那種作為人力資源，從原來嵌入的社會生活中脫離，每天被地鐵這樣的管道系統從居住地輸送到工位上的，面目模糊，生活方式雷同的職業白領。那些有不可替代的獨特生活經驗的人，會相互形成生態系統，並利用AI 的能力來讓自己的生活經驗發光。這個圖景非常很吸引人。

當然，這不是本文能探討的內容了，留待下一篇吧。