📝📝：不存在的堡壘、畸形的手部、七趾的腳｜AI 生成的內容正在汙染維基百科

10 月 31 日

一群 Wikipedia 編輯組成了名為「WikiProject AI Cleanup」的團隊。目標是清理未經引用文筆拙劣的 AI 生成內容，以保護這座全球最大的資料庫，避免受到錯誤條目的汙染。

【本文翻譯自 The Editors Protecting Wikipedia from AI Hoaxes】

一群 Wikipedia 編輯組成了名為「WikiProject AI Cleanup」的團隊。目標是清理未經引用文筆拙劣的 AI 生成內容，以保護這座全球最大的資料庫，避免受到錯誤條目的汙染。

這些 AI 生成的錯誤資料，不僅影響了 Google 搜尋結果，其中也包含亞馬遜銷售的書籍；甚至，學術期刊也面臨類似的問題。

－

不自然的寫作風格

WikiProject AI Cleanup 的創始成員 Ilyas Lebleu 表示：

這個專案的發起源自於部分成員注意到一些 Wikipedia 不自然的寫作風格

編輯們猜測這些風格來自 AI，他們也成功用 ChatGPT 再製了這些文類風。Lebleu 提到：

「找到了幾個常見的 AI 生成用語後，我們就能迅速識別出惡劣的生成內容，並將這些技術整理成一個有系統的專案。」

－

WikiProject AI Cleanup 小組使用，類似於在科學期刊和 Google Books 中尋找 AI 生成內容的方法來檢查 Wikipedia。他們透過搜尋 ChatGPT 常用的詞組來鑑定 AI 生成內容。

其中一個顯著的例子是關於切斯特精神健康中心（Chester Mental Health Center）的條目。該條目在 2023 年 11 月曾包括這樣一句話：

「截至我最近一次知識更新在 2022 年 1 月」

明顯是 AI 模型生成的內容。

－

然而，並非所有 AI 生成內容都如此容易檢測。另一位成員 Queen of Hearts 發現了關於鄂圖曼堡壘「Amberlisihar」的條目。這篇超過 2000 字的文章寫得非常有條理，甚至包含了：

以及該堡壘在第一次世界大戰期間，受到俄軍轟炸後的修復工作；然而，這座堡壘根本不存在。

Lebleu 解釋道，假的引文是更具隱匿和危害的問題。因為這些引文可能需要好幾個月才能被察覺，有時，AI 生成的文本會引用真實的學術資源，但引用內容與文章內容毫無關聯。

例如，編輯就有發現一篇關於某種甲蟲的 Wikipedia 條目，引用了一篇法語期刊文章。而實際上那篇文章討論的，是一個完全無關的蟹類物種。

－

偵測 AI 生成圖片的挑戰

WikiProject AI Cleanup 也處理了AI 生成圖片的問題。團隊在處理一篇關於「Darul Uloom Deoband」的條目，發現了一張看似相關的歷史畫作。

但仔細檢查後發現圖片中的人物，有著明顯的 AI 生成特徵。像是，畸形的手部和一隻七趾的腳。

儘管如此，WikiProject AI Cleanup 仍表示，他們不會僅僅因為圖片是 AI 生成的就移除。如果一篇文章討論到 AI 生成的圖片，那麼這些圖片在條目中就有其存在的合理性。

WikiProject AI Cleanup 所面臨的挑戰之一，是如何平衡 AI 技術的使用與確保條目的準確性。雖然有些 AI 工具（如 GPTZero）已經被作為偵測 AI 生成內容的手段，但 Lebleu 表示這些工具的效果有限，尤其是針對較新的語言模型。

－

人工審查的重要性

Wikipedia 目前在辨識和過濾 AI 生成內容方面更有效。部分原因在於維基百科長期依賴志願者，來審查新文章並驗證條目以及引用來源。

然而，WikiProject AI Cleanup 的成員也承認，雖然 Wikipedia 社群偵測 AI 生成內容已經做得不錯，還是有許多 AI 生成的內容沒有被及時察覺。

而 Lebleu 和 Queen of Hearts 也都認為，許多大公司在檢測和移除 AI 生成內容成效仍有待加強。他們如果能分配適當的資源，應該能比 Wikipedia 的編輯志工做得更好。

CC BY-NC-ND 4.0 授权