Revision history and IPFS entry, back to latest
Morven
IPFS What is this

Content Hash

【書】Dark Data《暗數據》

Morven
·
·
本書書名《暗數據》就是在說明除了我們眼前所看到、所收集到的數據外,還有更多我們看不見、收集不到的數據,而這些暗數據對於我們決策的品質至關重要,能夠了解暗數據的存在甚至是反過來利用它,便能夠很大程度的改善我們的生活並做出正確的決定。

🟥這本書在說什麼

大數據以及其應用已經現代社會重要的戰略資源,網路巨頭、製造業、零售業乃至於研究單位、政府機關等等,無不希望從數據中能夠萃取出相關珍貴的資訊。而對於數據的一知半解甚至是誤解,除了可能會造成我們無法從中獲益外,更可能因此作出錯誤的決策,造成嚴重的後果。

本書書名《暗數據》就是在說明除了我們眼前所看到、所收集到的數據外,還有更多我們看不見、收集不到的數據,而這些暗數據對於我們決策的品質至關重要,能夠了解暗數據的存在甚至是反過來利用它,便能夠很大程度的改善我們的生活並做出正確的決定。


🟥暗數據是什麼

🔷暗數據的定義

對比於我們一般熟知的數據,作者對於暗數據(Dark Data)的定義為「遺漏的資訊與數據」。而暗數據之所以稱之為「暗」,是發想自物理學的「暗物質」(Dark Matter),暗物質的構成不明、也無法被觀察或者是感測,但若沒有暗物質的加入,便無法解釋天文學中許多觀察到的自然現象,也因此我們並非是透過觀察而認識到暗物質,而是反向地透過創造這個概念、才得以自圓其說我們所觀測到的自然現象。

暗數據同理,我們每天都在創造新的數據,數據也被視為客觀的存在而被大量的應用在科學、產業、社會以及政策制定中,但是我們有時候會誤以為手中的數據就是全部的資訊,然後藉由這些資訊做決策時卻往往不盡人意,原因就在於其實有許多暗數據的存在被我們所忽略,本書撰寫的目的就在於說明這些暗數據的存在。


🔷暗數據的分類

作者依照其性質,將暗數據分成 15 種類型,分別以 DD-Tx 的方式做編碼以方便稱呼,15 種暗數據的分類如下:

  • DD-T1:我們知道漏掉的數據
  • DD-T2:我們不知道漏掉的數據
  • DD-T3:只選擇部分情況
  • DD-T4:自我選擇
  • DD-T5:漏掉關鍵因素
  • DD-T6:可能會如何
  • DD-T7:隨時間而異
  • DD-T8:數據的定義
  • DD-T9:數據的摘要
  • DD-T10:量測誤差與不確定
  • DD-T11:反饋與玩弄
  • DD-T12:資訊不對稱
  • DD-T13:刻意弄暗的數據
  • DD-T14:編造與合成數據
  • DD-T15:類推到數據之外

從其名稱我們大多可以猜到該暗數據的意義,作者於書中也有針對每種編號的暗數據做範例的解說。總括來說,數據本身在蒐集的過程中就已經參雜了人為的選擇,除了在收集數據的過程中就可能有所遺漏,在整理以及後續的分析上也會有所偏誤,在許多情境下我們還會無中生有甚至是做數據的操弄。

以犯罪率或者是新冠肺炎的確診率為例,光是對於「犯罪」或者是「確診」的定義作微調,就能夠大幅的改變數據的呈現與結果。俗話說盡信書不如無書,若對於數據的來源與結果沒有任何的質疑與警覺,便很容易成為被操弄的對象而不自知。


🟥我們如何收集數據

了解暗數據的定義後,有必要對於我們如何獲取數據的幾種方式有所認知。數據無所不在,而收集數據的方式有很多種,收集之前的篩選與定義很大程度的影響了數據的品質以及其完整度,以下列舉三種我們主要的數據收集方式與來源。

🔷收集全部

直覺來說,如果我們要了解一個國家的人口組成、薪資結構或者是健康狀態等等,若能夠鉅細靡遺的收集到「所有」人的數據,那麼其結果一定最為準確,這也是人口普查經常採用的方法,雖然非常耗時但準確性也很高。

但是執意收集所有的數據往往曠日廢時,而且需要的成本極高,更現實的問題是、當我們真的收集到「全部」的數據後,可能因為時效性已過,所以得到的數據實用性不高,反而白白浪費了時間與資源的成本。


🔷抽樣

數據看似愈完整愈好,但是太過追求數據的完整卻不符合效益,也因此統計學中發展出非常多收集與整理數據的方法與理論,能夠幫助我們有效率的達到我們的目的,也就是透過抽樣的方法。

當我們針對母群體做抽樣,統計學指出只要有足夠的樣本數,抽樣的結果就足以代表整體,而這「足夠」的樣本數為絕對值,像是從 10 萬人取 1,000 人,與 1,000 萬人中取 1,000 人作為代表,兩者有相同的代表性。

也因此抽樣算是我們經常使用的數據收集方式,雖然抽樣結果無法非常準確也沒辦法每次都得到完全相同的結果,但是對於我們想要了解的趨勢或者是特性來說已經是綽綽有餘。


🔷改變條件

前面兩種收集方式對於收集的對象都沒有任何的介入措施,而「改變條件」就類似於疫苗的雙盲實驗與 A / B 測試,也就是改變受試群體的輸入,看這種「介入」的行為會對於結果有何改變。

「改變條件」這種收集數據的方法,大量的被應用在科學研究與網路相關的領域,透過改變條件我們能夠了解到事物之間的因果關係,也能夠判斷到底透過改變什麼變因才能夠有效的達到我們的目的。


🟥暗數據造成的錯誤決策

若我們對於暗數據沒有足夠的了解,這些暗數據便很容易造成我們誤解、做出錯誤結論或是壞決定,用句書中的話來形容:就是無知讓人出錯。以下節錄數個暗數據造成我們誤解的案例。

🔷得比較多病的人有比較高的存活率?

研究人員讓人工智慧學習、當病人罹患肺炎時因此死亡的機率,當數據投入後,結果卻發現罹患肺炎而且同時患有氣喘的患者,比只得了肺炎的人死亡率來的低。這種結果非常的反直覺,好像多得了一種病反而降低了肺炎的死亡率?

這算是暗數據的其中一種案例,事實上因為擁有氣喘病史的病患屬於高危險群,所以會被送入加護病房接受比較精良的醫療服務;對比只有得肺炎的人可能只會得到普通的醫療服務,相對來說被判斷為「低風險」者反而有比較高的死亡率。

這種因為數據內容不齊全所導致的解讀錯誤非常容易發生,數據本身並沒有偽造也沒有定義上的錯誤,但是因為沒有看見全貌而得到錯誤的結論。


🔷裝甲加厚卻沒能提高防禦力?

在戰爭期間為了提升空戰的存活率,理論上戰機的裝甲愈厚愈能抵禦子彈的攻擊,但是太厚的裝甲又會影響戰機的重量,所以科學家便從戰場上成功返回的戰機做分析,在彈孔最多的地方做裝甲的補強,認為如此一來能夠有效的對症下藥。這個方法看似合理,畢竟彈孔最多處代表這些地方最容易中彈,對於其他比較少彈孔的地方就不用耗費成本加厚進而增加戰機的重量。

上述是倖存者偏差非常經典的案例,事實上戰機之所以能夠成功返回,就是因為這些戰機沒有被擊墜,真正被擊墜的戰機根本就無法回到國家被科學家所收集甚至是研究,我們甚至可以猜測成功返回的戰機中,彈孔最多的地方反而不用另外加強,因為即使戰機的這些部分被打中也能夠成功的返航。


🔷知名期刊比較沒有公信力?

科學實驗有個很重要的要件,也就是實驗的成果是否可信,取決於他人能否以相同的條件下進行實驗而得到相同的結果。由於實驗的過程中變因很多,實驗者可能是因為湊巧、也可能是無意間對數據做篩選,造成實驗結果符合其假定。

而根據統計,知名期刊所發表的實驗在可重現的比率反而比較低,這隱含著知名期刊所刊登的內容反而比較不可信?

事實上可以分成兩個方面來分析,首先知名期刊比較傾向發表突破性的內容(也算是其之所以知名的原因),所以對於投稿者而言更有誘因去捏造甚至是斷章取義數據,而即使投稿者沒有偽造數據,也可能因為較新穎的理論尚未得到足夠的了解而有所偏頗,錯誤率自然也比較高。

其次是閱讀知名期刊的人通常也比較有能力與意願去重現實驗結果,對比於名不見經傳的期刊,刊登的內容相對來說比較多屬於驗證型而非突破性的實驗,所以實驗重現率雖然比較高,除了因為這些期刊所發表的內容比較成熟外、同時也可能只是因為很少人嘗試去重現這些實驗。


🔷現代人憂鬱症與文明病比較嚴重?

在許多先進國家中,憂鬱症與相關精神疾病一直是個難以解決的社會問題。有許多研究皆指出對比於過去,現代社會罹患精神病的比例大幅上升,在先進國家尤其明顯,便斷定現代社會因為壓力太大,造成我們雖然有較好的生活品質、但是卻有著伴隨而來的精神病作為代價;而過去或許物質生活條件較差、但是人民普遍比較幸福快樂。但事實真的是如此嗎?

憂鬱症算是近代才開始有較多研究的領域,因為過去對於精神疾病的不了解,我們自然不太會將患者歸因並分類至精神疾病,這代表著或許過去也有不少憂鬱症或者是精神病的患者,只是我們沒有正確地將其分類。而且心理疾病與生理疾病不同,比較難做量化與觀測,所以也更容易讓我們將病患歸類至罹患精神疾病。

在上述這個案例中,憂鬱症之所以多很多,不一定是因為現代人社會壓力比較大,可能只是因為我們降低了確診條件;就好像新冠肺炎確診的人數,可以藉由 CT 值的定義來做數據的操弄一樣。


🟥數據背後的道德思考

前面提到暗數據代表著「遺漏的資訊與數據」,所以理論上數據愈「明」愈好,但是實務上我們有許多領域會刻意地將數據弄「暗」,這通常牽涉到比較多的社會與道德議題。

🔷排除歧視與風險規避

許多國家皆規定金融或是保險業者不能將性別或種族或年齡列入貸款或者是金融服務得判斷依據,像是還款信用與利率設定等等,以避免陷入歧視的爭議之中。因為普遍來說白人男性對比於有色人種總是有較低的保險利率與較高的借款額度,但是這往往是建立在雙方並沒有相同的競爭基礎。

可以理解政府對於這部分的管制初衷,但是這對於金融公司來說在預測模型的建立以及風險規避上就少了非常多的數據可以利用,更不用說有太多所謂的「歧視」其實是主觀認定,而這些變因與模型的準確度息息相關,如此是否犧牲了金融保險公司的權益?

對此歐盟曾經原本設有逃脫條款,也就是當基於正確的事實與統計數據時,若性別真的是判斷風險的因素之一,可以依此針對保費與福利做出適度差異,但是這逃脫條款最後也在 2012 年失效。

實務上我們很難將模型完全將歧視去除,因為歧視本身的定義往往沒有足夠明確的定義,若要 100 % 避免歧視存在,或許我們也將沒有任何的數據可以使用。


🔷隱私與方便的權衡

最近網路隱私的討論度與日俱增,歐盟更是推行了史上最嚴格的個資法 GDPR(General Data Protection Regulation),對於網路巨頭在網路行為的數據收集與利用有著嚴格的規範。

而前面提到數據愈完整,我們利用數據所分析出來的資訊則愈準確,但是這卻代表著我們可能要犧牲掉自己的隱私來達到這個目的。這點在我們的生活中經常可見,當我們在網路商搜尋某項商品,結果網頁的廣告欄位便開始大量的推播相關的廣告,這便是因為網路無時不刻都在收集我們的使用資訊。

對於網路隱私的部分也有了數年的討論,大方向都是將資訊以不可辨識到個人為主要的執行方向,不過相對的我們便可能不會感覺到那麼的「方便」。要如何在方便與隱私之前做取捨,是個難解的大哉問。


🟥小結

我們有個很矛盾的心理,就是我們很想要知道社會或是公司平均的薪水多少,但是卻很少有人願意透漏自己真實的薪資。這也是前面提到收集數據中很可能造成數據變暗的原因之一。當我們不願意透漏自己的真實數據,那又要怎麼期待統計後的數據能夠準確呢?

暗數據就其內涵來說並不是全新的概念,不過本書將這些「遺漏的資訊與數據」用系統化的方式做歸類與拆解,並加上大量的案例以及統計學的原理說明,讓讀者能夠對於這些「暗數據」有更多的了解。我們很容易被各種偏誤所影響、喜歡簡化的答案,造成我們喪失的對於數據的敏感度與警覺性。

本書的內容很多可以連結到先前分享的【書】Rock Breaks Scissors《為什麼出布容易贏》【書】Everybody lies《數據、謊言與真相》,都是探討數據統計以及人性的各種偏誤。

最後引用書末提到的一個小故事:有個醉漢在路燈下找鑰匙,不是因為鑰匙掉在那邊,是因為只有那邊夠亮才看得見。


原文好讀版:Morven's Bookshelves

CC BY-NC-ND 2.0