數據污染與AI（一）

杨道还

2023 年 7 月 26 日

日前又有新聞、新名詞、新信息，叫做AI數據污染。這是更尷尬的一個問題，但不新，是個老問題。數據污染在自然科學裡，是原始數據被污染羼入或被缺失，損害了其完整性和真實性。

楊道還 7/14/2023

（一）

AI是今年特大的一個新聞，但也是特別詭異的一個。資本家們一邊努力地推廣，一邊又大聲地警告，十分不尷尬。這就像開著大奔進胡同裡的農貿市場，一邊鳴笛，一邊前進；一邊擠了市場裡的攤位，一邊又提供了推車、修車和擦車的新行當——司機都在跳車。

這個新聞說，AI在網上抓人類數據，結果抓回來的原始數據，卻被AI自己生產的數據羼入了。AI的腦瓜和鍵盤比人的快，一句問題，可以頂上一萬句。所以這個污染一旦出現，規模該不小，不是前AI時代的宣傳和廣告所能比的。英文裡，有misinformation，misknowledge，AI的數據污染應該有個新名詞，叫misdata或misdatum。名不正，則言不順。

如果以上估計正確，繼知識爆炸和信息爆炸之後，會有這個AI導致的數據爆炸。爆炸越來越深入，也算一個自然的進程。諾貝爾之獎，被稱為炸藥獎，莫非前定？

之所以說自然，還因為misinformation不是disinformation或者malinformation，沒有主觀的故意。即AI仍不能算是個真人，仍然是個機器。當AI能有主觀的故意時，它才能像個人一樣負起責任。現下看來，AI沒有主觀故意卻可能導致錯誤，這樣的錯誤，沒有專家願意承擔，只能由社會的非專家承受，主要是那些對警告聽不太懂的門外漢們，譬如筆者。

AI算不算是個真人，怎麼算？圖靈測試？圖靈說，如果一台機器能夠與人類展開對話（透過電傳設備）而不被辨別出其機器身份，那麼稱這台機器具有智慧。那個時代的機器，懂得的東西很少，但是純粹理性和邏輯的，不犯錯；但稱不上智慧。現代有人認為，人只有完全理性和按照邏輯思考，才算是有智慧。如果這兩者成立的話，那麼那個時代的機器與人的差距就只在於知識量。是這樣嗎？填鴨式地喂給機器數據和信息，它就會生出知識來，以至於生出智慧來麼？當然，沒那麼簡單，還得有個人為的算法輸進去，直到AI能自己源源不斷地產生算法。但大方向似乎就是這樣的。結果將是個智慧制造機。這有什麼值得警告的呢？malinformation？

但圖靈這句話翻成古文，就是一個機器「言足以飾非」，即為智慧。「言足以飾非」這句，前面還有一句「智足以拒諫」。加上這句，就反映了現在AI的真正狀態，它比你知道的多得多，它也能讓你分不出它是機器還是人，它犯了錯，眨眼的功夫就可以換個說法，一樣理直氣壯——算法錯了，它卻沒錯，不可追責。工程師們也不能擔其責，這就是加入集體的好處，兢兢業業的螺絲釘怎好有責？而監管、監管，如何監管？加芯片加電源。除了抱薪救火，有什麼別的法兒？

上面這兩句話從哪裡來的呢？司馬遷《史記·殷本紀》：「帝紂資辨捷疾，聞見甚敏，材力過人，手格猛獸，知足以距諫，言足以飾非；矜人臣以能，高天下以聲，以為皆出己之下。」好巧不巧的是，紂也是不可追責的。AI人士發出的警告，是因為這個原因麼？顯然AI還沒到這個地步。未來麼，不要想得太遠。

Misdata對AI來說，不完全是件壞事。這就像小孩子在成長的過程中，一邊吸收信息，一邊辨別虛假信息——無陰陽不成。有極端的人認為，神話什麼的，不理性，是不能教給孩子的。大概他們認為，用純粹事實（？）和理性邏輯教出來的孩子，對錯誤就百毒不侵了。這種方法或者能制造出成功的科學家，但他如何與他人相處，如何與不能永遠正確的自己相處？這是造AI的方法，然而即便對AI來說，從今開始，也屬過時了。所以Misdata對某些人類來說，也不完全是件壞事。

Misdata對AI來說，是個與同類相處的問題。或者這是AI能反思，有真正地進化，以至於接近人類思維的一個階段。人類從哪裡來？現代人類中，神創和自然的比例佔多少？人類交互影響、文化自進化的比例又佔多少？佛法講無情與有情，無情如何生有情？有情未現前，如何含於無情？當然，這些都是為AI專家擔憂，思出其位了，不贅述。

但這裡有個切近的問題，就是人腦能夠處理左一片，又一片信息的能力是有限的，拿這樣的左一坨、右一坨的數據怎麼辦？「真實」數據尚且處理不來，misdata怎處？雖說現代社會裡的人，數據、信息不厭多，像廣告一樣，不看就好了，但無處不在的廣告仍屬生命不能承受之輕。大概只能希望後代有個好運了。

CC BY-NC-ND 4.0 授权