我和AI共同創作了這篇文章，主編說乾得漂亮明天不用來了

2022 年 7 月 11 日

人工智能，進入工業大生產時代。

大部分文藝工作者，比如寫字的，畫畫的，作曲的，失業風險都在攀升——本文的所有插圖均由AI創作。但文字是我自己寫的，如假包換。

最近Open AI的Dall-E 2創造的一系列精美畫作，以及結合微軟Florence和OpenAI GPT-3模型寫出來的文本，都證明了AI有時候看著是比人強。今年叫AI文藝創作元年也不過分，通過給定的文字或圖像，AI能產出超乎想像、大膽有趣又合情合理的作品，確實不乏“劃時代”的意義。

這些進展建立在巨大的“基石模型”基礎之上，令AI擁有了創造者不曾預見的能力。過去的人工智能模型，帶著手工作坊式的“粗糙”。通過長期的調整，“基石模型”的潛在能力已經成為肉眼可見的發展趨勢。

人工智能要進入工業大生產時代了。

大模型，下崗工人製造機

5月份出了beta版的AI繪圖工具Midjourney，連雜誌《經濟學人》也忍不住“嚐鮮”。 Midjourney為《經濟學人》報導畫的插圖，看起來靈氣十足，具有強烈的現代主義風格——別忘了，畫面可是基於非常抽象的概念生成的，畢竟文章內容不是“一位女人抱著一隻貓”這種具體記敘。

Midjourney其中一位開發者，就是研發YouTuber Quick-Eyed Sky的Disco Diffusion的創作者Somnai，這些應用都屬於“你說我畫”，或者叫輸入關鍵詞就出圖。 Disco Diffusion非常火爆，但相比DALL-E和Midjourney就略帶“門檻”，要自己調代碼，調參數，目前更火爆的應用都是“傻瓜”型的，寫點文字就行。

我給“Domo大畫家”下的指令，是諾貝爾經濟學獎得主保羅·克魯格曼的一句話：在市場經濟下，你的支出就是我的收入

玩“你說我畫”會上癮。 Twitter上的馬斯克、特朗普、斯嘉麗·約翰遜以及瑪麗蓮·夢露都要被“玩壞了”，個個都有“猛鬼街”的造型。國內滴墨社區兒童節上線的“Domo大畫家”，在我刻意“刁難”的情況下，給出的畫面還是饒有趣味。

輸出的作品效果如何，完全取決於AI模型。而打造AI模型，相當於豪華軍備競賽。

目前拿得出手的“基石模型”，有OpenAI的GPT-3，參數接近2000億，耗資超過1000萬美元；谷歌的Switch Transformer，參數超過GPT-3；微軟和英偉達有MT-NLG模型，參數超5000億；華為盤古大模型，定位中文語言預訓練模型，參數規模也達到千億級別。

2020年GPT-3剛“誕生”的時候，就得名“下崗工人製造機”。其輕鬆通過了人工智能屆的底線試探——“圖靈測試”，所有問題對答如流。基於GPT-3模型開發出來的文字、翻譯、設計、計算等應用，都能頂替人類的操作。

甚至有個人想讓GPT-3寫篇“論刷Twitter的重要性”的小論文，GPT-3都給他寫得流暢自然，還用上了寫作者的高階操作“春秋筆法”，也就是陰陽怪氣。它說”Twitter是“所有人都使用的、充斥著人身攻擊的社交軟件”。

基石模型的優點明顯。一是參數大、訓練數據量大，不僅不會邊際效益遞減，反而極大地提高了AI自身的能力和運算突破性。二是使用的小樣本學習方法，AI不用一遍遍“從頭開始學”，可以碎片化選取自己需要的數據來自動執行。

基石模型就相當於“通用技術”。 1990年代，經濟歷史學家將“通用技術”比如蒸汽機、印刷機、電動機等，視為推動生產力長期發展的關鍵因素。 “通用技術”包含核心技術快速迭代、跨部門的廣泛適用性和溢出效應等特徵，從而刺激產品、服務和商業模式不斷創新。

今天的基石模型，已然具備了同樣的特點。

神經網絡+自我監督學習，神乎其技

當下，超過80%的人工智能研究都集中在基石模型上。像特斯拉也在構建一個龐大的基石模型，為自動駕駛服務。

要理解斯坦福大學人工智能研究院院長李飛飛所說的“人工智能階段性的變化”，就要知道基石模型和過去的人工智能模型有何不同。

如今所有的機器學習模型都立足於“神經網絡”——模仿腦細胞相互作用方式的編程上。它們的參數描述了虛擬神經元之間連接的權重，模型通過反複試驗權重，被“訓練”到能夠輸出開發者想要得到的特定內容。

過去幾十年裡，神經網絡都處於實驗階段，沒什麼能落地的。直到2000年代末、2010年代初，超級計算機算力增強，互聯網提供了足夠多的訓練數據，在硬件和數據的加持下，神經網絡才開始完成文本翻譯、語音指令解釋、不同圖片中識別同一張臉等此前“不可能完成的任務”。

特別到了2010年代，機器學習和礦機一樣也用起了GPU。 GPU的特點是，有上千顆流處理器，可以進行大量且重複的一般運算，而且還不貴，比啟動一次超級計算機便宜太多了。

突破出現在2017年。當時谷歌的BERT模型使用了新型架構，不再按“慣例”、依照順序處理數據，而是採用了同時“查看”所有數據的機制。

具體來說，就是BERT一類的模型，沒有用預先標記的數據庫訓練，用的是“自我監督學習”技術。當模型在無數的字節中挖掘時，能自己找到隱藏的單詞，或者根據上下文猜測意思——和我們從小到大做的考試題特別像！整個新方法非常接近人類大腦的學習機制，掃一眼就能找到自己感興趣的東西，不用逐字逐句地去處理、消化。

經過數十億次的猜測-比較-改進-猜測的循環後，模型一般都能妙筆生花、才華過人。

不僅限於文字，神經網絡和自我監督學習技術均可以應用在語言文字之外，包括圖片、視頻甚至大分子數據庫等等。像DALL-E圖形模型，猜測的不是下一個字母組合，而是下一個像素簇。

在大模型基礎上開發的應用也是花樣繁多。除了上文提到的一系列文藝創作類應用，谷歌旗下的DeepMind推出了Gato，可以玩視頻遊戲、控制機械臂和寫作。 Meta的“世界模型”貌似要擱淺，本來是打算為元宇宙提供背景的。

酷東西或圖靈陷阱

基石模型的繁榮，對芯片製造商肯定是好消息。積極參與製造基石模型的英偉達，已經是世界上最有價值的半導體設計商之一，市值為4680億美元。

初創公司也有望藉此大展身手。 Birch AI會自動紀律與醫療保健相關的呼叫電話；Viable會用它來篩選客戶反饋；Fable Studio用AI創作互動故事；在Elicit上，人們可以靠AI工具從學術論文中找到自己研究的問題。

大公司也有大公司的玩法。 IBM的相關負責人表示，基石模型可以分析海量的企業數據，甚至從車間傳感器讀數中找到消耗成本的蛛絲馬跡。埃森哲公司人工智能項目的負責人預測“工業基石模型”即將興起，為銀行、汽車製造商等傳統客戶提供更加精準的分析服務。

雖然前景一片光明，AI作畫也激發了大眾的熱情，但不少研究者還是建議“後退一步”。有人認為，大模型依賴的大數據，並不是完全發揮了作用，一部分只是在“隨機重複”；同時一些帶有偏見的問題會引發模型的“幻覺”。去年年初，GPT-3在回答完形填空題“兩個XXX（宗教人士）走進了……”時，有高於60%的概率填寫“穆斯林”。

在“滴墨社區”刷“Domo大畫家”的動態時，首頁偶爾也會看到有用戶給AI發出不雅指令，CEO林澤浩告訴愛範兒記者，一般後台關鍵詞篩选和人工篩選會同時進行，保證社區的健康運轉。 Dall-E 2等AI作畫工具也面臨同樣的困境——和之前微軟小冰“口吐芬芳”同命相憐。

斯坦福大學經濟學家Erik Brynjolfsson擔心，對擁有類人能力的大模型的集體痴迷，很容易把整個社會帶進“圖靈陷阱”。計算機做到了很多人類做不到的事情，如今也做到了人類能做到的事情——還比人類做得好，越來越多的人失去工作，財富和權力會更加集中，不平等逐漸加大。

他的擔心也有道理。大模型耗資巨大，一般人也投資不起，背後的支撐者，不是科技巨頭，就是國家。基石模型會成為一系列服務的基礎平台，而平台也有“馬太效應”：贏家通吃，就算沒全吃掉，也給別人留不下什麼了。

藝術家們是真心喜愛這些“酷東西”的。英國作曲家Reeps One（Harry Yeff）就給模型餵了幾小時的節拍器節奏，該模型學完後能對他的聲音做出節奏化的反應。他預測“許多藝術家會使用這個工具來更好地完成自己的工作”。

作為一名記者，我也真心喜愛“科大訊飛”的語音轉錄應用。在過去，整理兩小時的人物訪談錄音，足以令一個心智健康的成年人當場崩潰。如今只需要坐等軟件出一個文本文檔即可，不能直接拿來當“對話”，但當素材看完全夠了。

最近我也在研究如何使用GPT-3來訓練自己的寫作模型。說不定，後面的文章，就是我的AI寫的。

CC BY-NC-ND 2.0 授權

喜歡我的作品嗎？別忘了給予支持與讚賞，讓我知道在創作的路上有你陪伴，一起延續這份熱忱！

超载叽“啊哒”~嘤嘤怪+硬妹，一个经不起批评的人。科幻文学硕士，星球大战中文网副站长。关注科技、游戏、艺术、美食、历史等领域。曾服务于多家主流媒体，主持过文化、科技、游戏等栏目。创作，是要发现和体现属于自己的趣味。此博客登载本人原创文字和编译内容，未经授权严禁转载。 “伏枥骅骝千里志，经霜乔木百年心。”

來自作者
相關推薦

我和AI共同創作了這篇文章，主編說乾得漂亮明天不用來了

埃尔多安第三次连任，“新奥斯曼主义”引发“文明冲突”？

战术核武器，让世界更“安全”？

别拿风流当借口，性骚扰就是性骚扰

埃尔多安第三次连任，“新奥斯曼主义”引发“文明冲突”？

战术核武器，让世界更“安全”？

别拿风流当借口，性骚扰就是性骚扰