演算法的偏見與歧視如何形成

leafwind

2020 年 7 月 27 日

IPFS

演算法為何會有缺陷

有人發現，某些演算法在還不夠準確的時候，會傾向利用「現實中的偏差」讓結果更接近目標，而這個小聰明會在無意中「放大」了原本真實世界的歧視。

這種技巧就類似於我們發現老師喜歡在選擇題放答案為 C 選項的題目，於是所有人便盲目地猜 C，雖然分數提高了，但並不是真的學到了知識。

AI 不只學到人類的歧視與偏見，還可能加深它

舉例來說，如果要做一個分類模型預測護士的性別，而資料集裡面有 90% 護士是女人。

有一個模型原本能做到 80% 的 Accuracy，它只要簡單地將邏輯改成「所有護士都是女人」就能達到 90% 的 Accuracy，但卻反而造成比資料集的偏差還要嚴重的偏見（100% 比現實的 90% 還要更極端）。

這是由於「指標選擇」所造成的問題，以上面的例子來說，因為我們只告訴演算法要 Accuracy，最常見的就是引入 Precision 的概念避免 false positive，或是引入 Recall 的概念避免 false negative。

ref: 心理學和機器學習中的 Accuracy、Precision、Recall Rate 和 Confusion Matrix

已經有很多研究在處理這樣的問題，將更多指標（譬如預測的比例必須與資料集接近）放進演算法當中，並同時讓 Accuracy 維持在不錯的表現。

The less accurate the algorithm is, the more it will take advantage of biases in the data to help improve predictions. In real models the bias is unlikely to be amplified to 100%, but even the use of this bias in the dataset will cause some amplification.

ref: AI is not just learning our biases; it is amplifying them

課本（訓練資料集）的缺陷

但即使演算法沒有缺陷，還是有很多因素會導致模型行為變得比事實還要偏差，這篇文章又描述了另外兩個可能的原因：課本（textbook）與老師（teacher）

So in machine learning, the questions that matter are “what is the textbook” and “who is the teacher.”

ref: The Algorithms Aren’t Biased, We Are – MIT MEDIA LAB – Medium

「課本」：我們現在都仰賴 data driven 的方式讓機器學習，因此教導機器的數據還是來自人的行為，在非監督式學習當中，如果數據中人的行為是錯的，那教出來也就是錯的，就像微軟的聊天機器人 Tay 曾經鬧出的風波：《微軟聊天機器人少女Tay被網友教成納粹份子，上線不到一天黯然下場》

人工智慧是根據人類餵給它的資訊學習、發展出其自有能力，微軟指出，使用者和Tay講愈多話，它就會愈變愈聰明。顯然Tay引來不少言論偏激者企圖教壞它。事實上，Tay昨天發表了各種荒腔走板的言論，包括反女性主義者、種族仇恨、反猶太，甚至模仿美國總統共和黨競選人川普，說出「我們要蓋一個邊境長城，叫墨西哥付錢」（Ｗe are going to build a wall and Mexico is going to pay for it）的話。