📝📝:人類世界的數據將在五年內耗盡|大量使用「合成數據」近親繁殖,讓網路空間成為大染缸

馬斯克觀察到 AI 產業正到達一個轉捩點 。根據他的說法
「基本上我們已經耗盡了人類知識….. 特別在 AI 訓練方面的累積。」
2023 年以來,生成式 AI 大幅改變人類世界的資訊結構,出自人類之手的文章,其撰寫的速度遠比不過 ChatGPT 的生成。之後陸續蔓延至聲音、圖像、影音,不乏混雜大量參差不齊的拙作,網路反而變成內容的廚餘桶。
然而,科技巨頭發開 AI 的野心不僅沒有被澆熄,甚至更加白熱化;誠如馬斯克的擔憂,業界開始導入合成數據(synthetic data)訓練 AI,作為彌補數據即將耗盡的替代方案。
不料,合成數據並未能緩解數據缺乏的焦慮,隨著模型幾代的演算,生成的作品愈趨同質、失去多樣性;甚至,最後陷入模型自嗜的狀況。
原文刊載於《關鍵評論網》:人類世界數據將在五年內耗盡:大量「合成數據」近親繁殖,網路空間成為大染缸
人類已經成為 AI 內容的清潔員
2024 年 6 月,BBC 科技記者葛曼(Thomas Germain)深入報導第一線的文案寫手如何面對 ChatGPT 的衝擊,那時,距離 ChatGPT 的推出已經至少有一年的時間。
報導裡提到一位化名為「米勒」(Benjamin Miller)的文案經理,因為公司實施自動化政策並導入 ChatGPT 加速工作流程,僅在一年的時間內,輪番解雇米勒帶領的 60 人寫手團隊與專業編輯。

米勒原本負責為一家科技公司撰寫部落格文章,該公司蒐集並轉售各式各樣的資料,從房地產到二手車。這項工作既需要創意,也需要與主題專家合作,讓米勒的團隊有機會探索各種主題。米勒的職責包括監督內容的整體方向,並確保每篇文章都能兼具準確性和原創性。
當米勒的公司開始採用 ChatGPT 時,這一切都改變了。
最初,米勒的經理會在線上表格中輸入標題,交由 AI 模型產生大綱。米勒的寫手團隊只需要根據這些 AI 生成的大綱撰寫文章,文章上架前,米勒會進行最後的潤稿。幾個月後,公司又增加了一輪自動化:ChatGPT 開始從頭到尾撰寫整篇文章。使得米勒團隊中的大多數人都被淘汰,只剩下幾個人在出版前做最後的編輯。
到了 2024 年,連僅有的幾個職位也不見了。
米勒突然發現自己孤身一人,他每天一上班,就在電腦上打開 ChatGPT 生成的文件,整理蹩腳的用字,刪除呆板的詞句,去除文字中的機械感。米勒不再需要開發新的題材,只能從事重複性的工作 :潤飾那些缺乏「人味」的句子,修改著沒有生命力的文字。
幾個月後,公司將潤稿的工作也交給 AI 執行,米勒最終也被解雇了,眼睜睜看著公司內容管道中最後一道人工檢核關卡消失。
AI 廚餘讓網路使用者「腦腐」
米勒可以說是這一波 AI 浪潮下,首當其衝的受害者,一旦生產的速度超過人工檢核的流程,這些未經檢核的內容將會在網路的各個角落四處流竄。維基百科的編輯就面臨了站內充斥著不實的資訊,像是:不存在的堡壘、畸形的手部、七趾的腳。
2023 年 12 月,一群維基百科的編輯組成了名為 WikiProject AI Cleanup 的團隊。目標是清理文筆拙劣的 AI 生成內容,以保護這座全球最大的資料庫,避免受到錯誤條目的汙染。

WikiProject AI Cleanup 小組檢查維基百科的方法,類似於在科學期刊和 Google Books 中尋找 AI 生成內容的技術。
團隊成員透過搜尋 ChatGPT 常用的詞組來鑑定 AI 生成內容。根據非營利媒體 404 Media 報導,其中一個最典型的案例是關於切斯特精神健康中心(Chester Mental Health Center)的條目。該條目在 2023 年 11 月曾註明「截至我最近一次知識更新在 2022 年 1 月」明顯是 AI 模型生成的內容。
WikiProject AI Cleanup 小組坦言,並非所有 AI 生成內容都如此容易檢測。團隊其中一位成員 Queen of Hearts 就曾發現關於 Amberlisihar 的條目。這篇關於鄂圖曼堡壘的文章超過 2000 字,乍看之下寫得非常有條理,甚至包含:堡壘名稱、建造細節、參與的建築師,以及該堡壘在第一次世界大戰期間,受到俄軍轟炸後的修復工作。
Queen of Hearts 實際一搜尋, 卻發現這座堡壘根本不存在。
WikiProject AI Cleanup 的創始成員雷布勒之一(Ilyas Lebleu)解釋道,假的條目對於資訊生態的影響往往比預期的嚴重,因為這些錯誤條目可能需要好幾個月才能被察覺,有時,AI 生成的文本會引用真實的學術資源,但引用內容與文章內容毫無關聯。
除了純文字的條目,WikiProject AI Cleanup 也會需要清理 AI 生成的虛構甚至荒謬的圖片。團隊某次在處理一篇關於 Darul Uloom Deoband 的條目,發現了一張看似相關的歷史畫作。但仔細檢查後發現圖片中的人物,有著明顯的 AI 生成特徵:畸形的手部、一隻七趾的腳。

2024 年末,《牛津英語詞典》(Oxford English Dictionary;OED)將 Brain Rot(腦腐)選為 2024 的年度詞彙,正是反映了生成式 AI 所帶來的隱憂。《牛津英語詞典》也指出,約在年底左右,slop 一詞的使用量迅速增加了 332%。
主因正是因為 AI Slop(AI 廚餘)的盛行,AI Slop 專指生成式 AI 產出的作品(文章、音樂、圖片、影音等),勾勒出當代的低品質數位內容,越來越常出現在各大社群媒體。
根據 AI 檢測公司 Originality AI 2024 年的分析,商業社群平台 LinkedIn 上超過 54% 的長篇英文貼文可能都是由 AI 生成。《WIRED》的報導也揭露,部落格平台 Medium 上有 47% 的文章,可能都不是由人類所撰寫。全球最大的影音素材網站 Adobe Stock 也遭到 AI 內容汙染,許多設計師抱怨,自己得要花兩倍以上的時間才能找到合適的圖片。
數據耗盡的焦慮:合成數據近親繁殖
文章開篇提到馬斯克的觀察,他推估,人類世界的數據很有可能在 2026~2028 年間耗盡。馬斯克主張,解決數據短缺的「唯一方式」,就是利用由 AI 生成的合成數據(synthetic data)。不過,這種資料訓練的迴圈,形成了一條潛在的「自我消耗」路徑:
下一代的模型並非只從真實世界(real-world)收集資料,也同時將前一代模型所生成之合成資料納入訓練。
2023 年的一份聯合研究《Self-Consuming Generative Models Go MAD》提到,每次訓練中若缺乏足量且新鮮的真實資料(Fresh Real Data),模型生成的品質(quality)與多樣性(diversity)都會逐漸退化,最終將陷入所謂的模型自嗜(Model Autophagy Disorder, MAD)的狀態。
換句話說,到了人類數據用罄的那天,生成式 AI 每一次的演算,都是大量使用合成數據在進行近親繁殖。如同歷史上的貴族家庭,試圖藉由近親繁殖保留純種且優良的基因,只會增加不良隱性性狀的基因表現,導致後代子嗣的環境適應力衰退。
本研究將生成式模型的自我吞噬現象分為三種主要形態:
完全合成迴圈(Fully Synthetic Loop)
合成增強迴圈(Synthetic Augmentation Loop)
新鮮資料迴圈(Fresh Data Loop)
每個迴圈的訓練方式差別在於每個世代(generation)在訓練新模型時加入多少新的真實資料,以及如何混合前代模型的合成資料。完全合成迴圈完全使用合成過的資料,合成增強迴圈次之,新鮮資料迴圈則完全使用真實世界的新鮮資料。
完全合成迴圈
在完全合成迴圈中,僅用合成數據訓練模型,不使用也不補充任何新鮮的真實樣本,再加上抽樣偏倚,就算可以得到好看或清晰的「單一模態」合成影像,長久來看仍是品質或多樣性的長期退化。
完全合成迴圈下的模型演算出來的圖片會逐漸開始失去多樣性,上圖為初代資料,下圖為演算至第五代的資料。來源:本研究。
合成增強迴圈
合成增強迴圈的模式下,每個世代都會把前代模型的合成資料加進訓練的數據集,但同時保留原始的一批真實資料,但不增加、不更新。隨著模型接續演算,原始真實資料會慢慢被稀釋,合成資料的比例越來越大。
固定的一批真實資料可以延緩衰退,但無法從根本上阻止模型走向自我吞噬的境地。時間一久,合成資料仍舊會佔據主導地位,進而影響生成的品質。
合成增強迴圈的模型演算至第六代就開始出現畸形的人臉。來源:本研究。箭頭為自行加註。
唯獨新鮮數據的訓練迴圈可以避免模型崩潰,研究最後也主張,若要在自噬循環的每一代中,沒有足夠的新鮮真實數據,那麼未來生成的模型將會注定落入精確度、多樣性的損失。換句話說,模型訓練時應盡量引入新鮮的真實數據,用浮水印(Watermarking)標記使用過的資料,以確保模型效能。
無論是米勒遇到「自動化」政策而導致裁員、WikiProject AI Cleanup 面臨的錯誤條目汙染維基百科,或是《牛津英語辭典》年度選字所捕捉到的腦腐文化,三者都共享了一個關於技術的不爭事實:
AI 的光鮮亮麗,遠不及其所帶來的負面漩渦;並且隨著 AI 內容創作工具的普及,合成資料的風險也在不斷上升。
若每一代的模型都過度依賴前一代合成資料,無論是在圖像、語音,或是純文字等領域,只要缺乏充足且新鮮的真實資料,長遠來看,都會導致生成的內容品質與多樣性惡化。
未來的 AI 開發人員可能將會在「骯髒」的環境裡訓練模型,而一般的使用者只能在大染缸裡反芻 AI 排泄的廚餘。最終,累積的偏誤大到必須投入更多時間、精力才能修復。科技巨頭所允諾 AI 解放人力的幻夢,最終還是得交由人類親自收拾其殘局。
Like my work? Don't forget to support and clap, let me know that you are with me on the road of creation. Keep this enthusiasm together!