【书】Dark Data《暗数据》

Morven
·
·
IPFS
·
本书书名《暗数据》就是在说明除了我们眼前所看到、所收集到的数据外,还有更多我们看不见、收集不到的数据,而这些暗数据对于我们决策的品质至关重要,能够了解暗数据的存在甚至是反过来利用它,便能够很大程度的改善我们的生活并做出正确的决定。

🟥这本书在说什么

大数据以及其应用已经现代社会重要的战略资源,网路巨头、制造业、零售业乃至于研究单位、政府机关等等,无不希望从数据中能够萃取出相关珍贵的资讯。而对于数据的一知半解甚至是误解,除了可能会造成我们无法从中获益外,更可能因此作出错误的决策,造成严重的后果。

本书书名《暗数据》就是在说明除了我们眼前所看到、所收集到的数据外,还有更多我们看不见、收集不到的数据,而这些暗数据对于我们决策的品质至关重要,能够了解暗数据的存在甚至是反过来利用它,便能够很大程度的改善我们的生活并做出正确的决定。


🟥暗数据是什么

🔷暗数据的定义

对比于我们一般熟知的数据,作者对于暗数据(Dark Data)的定义为「遗漏的资讯与数据」 。而暗数据之所以称之为「暗」,是发想自物理学的「暗物质」(Dark Matter),暗物质的构成不明、也无法被观察或者是感测,但若没有暗物质的加入,便无法解释天文学中许多观察到的自然现象,也因此我们并非是透过观察而认识到暗物质,而是反向地透过创造这个概念、才得以自圆其说我们所观测到的自然现象。

暗数据同理,我们每天都在创造新的数据,数据也被视为客观的存在而被大量的应用在科学、产业、社会以及政策制定中,但是我们有时候会误以为手中的数据就是全部的资讯,然后藉由这些资讯做决策时却往往不尽人意,原因就在于其实有许多暗数据的存在被我们所忽略,本书撰写的目的就在于说明这些暗数据的存在。


🔷暗数据的分类

作者依照其性质,将暗数据分成15 种类型,分别以DD-Tx 的方式做编码以方便称呼,15 种暗数据的分类如下:

  • DD-T1:我们知道漏掉的数据
  • DD-T2:我们不知道漏掉的数据
  • DD-T3:只选择部分情况
  • DD-T4:自我选择
  • DD-T5:漏掉关键因素
  • DD-T6:可能会如何
  • DD-T7:随时间而异
  • DD-T8:数据的定义
  • DD-T9:数据的摘要
  • DD-T10:量测误差与不确定
  • DD-T11:反馈与玩弄
  • DD-T12:资讯不对称
  • DD-T13:刻意弄暗的数据
  • DD-T14:编造与合成数据
  • DD-T15:类推到数据之外

从其名称我们大多可以猜到该暗数据的意义,作者于书中也有针对每种编号的暗数据做范例的解说。总括来说,数据本身在搜集的过程中就已经参杂了人为的选择,除了在收集数据的过程中就可能有所遗漏,在整理以及后续的分析上也会有所偏误,在许多情境下我们还会无中生有什至是做数据的操弄。

以犯罪率或者是新冠肺炎的确诊率为例,光是对于「犯罪」或者是「确诊」的定义作微调,就能够大幅的改变数据的呈现与结果。俗话说尽信书不如无书,若对于数据的来源与结果没有任何的质疑与警觉,便很容易成为被操弄的对象而不自知。


🟥我们如何收集数据

了解暗数据的定义后,有必要对于我们如何获取数据的几种方式有所认知。数据无所不在,而收集数据的方式有很多种,收集之前的筛选与定义很大程度的影响了数据的品质以及其完整度,以下列举三种我们主要的数据收集方式与来源。

🔷收集全部

直觉来说,如果我们要了解一个国家的人口组成、薪资结构或者是健康状态等等,若能够巨细靡遗的收集到「所有」人的数据,那么其结果一定最为准确,这也是人口普查经常采用的方法,虽然非常耗时但准确性也很高。

但是执意收集所有的数据往往旷日废时,而且需要的成本极高,更现实的问题是、当我们真的收集到「全部」的数据后,可能因为时效性已过,所以得到的数据实用性不高,反而白白浪费了时间与资源的成本。


🔷抽样

数据看似愈完整愈好,但是太过追求数据的完整却不符合效益,也因此统计学中发展出非常多收集与整理数据的方法与理论,能够帮助我们有效率的达到我们的目的,也就是透过抽样的方法。

当我们针对母群体做抽样,统计学指出只要有足够的样本数,抽样的结果就足以代表整体,而这「足够」的样本数为绝对值,像是从10 万人取1,000 人,与1,000 万人中取1,000 人作为代表,两者有相同的代表性。

也因此抽样算是我们经常使用的数据收集方式,虽然抽样结果无法非常准确也没办法每次都得到完全相同的结果,但是对于我们想要了解的趋势或者是特性来说已经是绰绰有余。


🔷改变条件

前面两种收集方式对于收集的对象都没有任何的介入措施,而「改变条件」就类似于疫苗的双盲实验与A / B 测试,也就是改变受试群体的输入,看这种「介入」的行为会对于结果有何改变。

「改变条件」这种收集数据的方法,大量的被应用在科学研究与网路相关的领域,透过改变条件我们能够了解到事物之间的因果关系,也能够判断到底透过改变什么变因才能够有效的达到我们的目的。


🟥暗数据造成的错误决策

若我们对于暗数据没有足够的了解,这些暗数据便很容易造成我们误解、做出错误结论或是坏决定,用句书中的话来形容:就是无知让人出错。以下节录数个暗数据造成我们误解的案例。

🔷得比较多病的人有比较高的存活率?

研究人员让人工智慧学习、当病人罹患肺炎时因此死亡的机率,当数据投入后,结果却发现罹患肺炎而且同时患有气喘的患者,比只得了肺炎的人死亡率来的低。这种结果非常的反直觉,好像多得了一种病反而降低了肺炎的死亡率?

这算是暗数据的其中一种案例,事实上因为拥有气喘病史的病患属于高危险群,所以会被送入加护病房接受比较精良的医疗服务;对比只有得肺炎的人可能只会得到普通的医疗服务,相对来说被判断为「低风险」者反而有比较高的死亡率。

这种因为数据内容不齐全所导致的解读错误非常容易发生,数据本身并没有伪造也没有定义上的错误,但是因为没有看见全貌而得到错误的结论。


🔷装甲加厚却没能提高防御力?

在战争期间为了提升空战的存活率,理论上战机的装甲愈厚愈能抵御子弹的攻击,但是太厚的装甲又会影响战机的重量,所以科学家便从战场上成功返回的战机做分析,在弹孔最多的地方做装甲的补强,认为如此一来能够有效的对症下药。这个方法看似合理,毕竟弹孔最多处代表这些地方最容易中弹,对于其他比较少弹孔的地方就不用耗费成本加厚进而增加战机的重量。

上述是幸存者偏差非常经典的案例,事实上战机之所以能够成功返回,就是因为这些战机没有被击坠,真正被击坠的战机根本就无法回到国家被科学家所收集甚至是研究,我们甚至可以猜测成功返回的战机中,弹孔最多的地方反而不用另外加强,因为即使战机的这些部分被打中也能够成功的返航。


🔷知名期刊比较没有公信力?

科学实验有个很重要的要件,也就是实验的成果是否可信,取决于他人能否以相同的条件下进行实验而得到相同的结果。由于实验的过程中变因很多,实验者可能是因为凑巧、也可能是无意间对数据做筛选,造成实验结果符合其假定。

而根据统计,知名期刊所发表的实验在可重现的比率反而比较低,这隐含着知名期刊所刊登的内容反而比较不可信?

事实上可以分成两个方面来分析,首先知名期刊比较倾向发表突破性的内容(也算是其之所以知名的原因),所以对于投稿者而言更有诱因去捏造甚至是断章取义数据,而即使投稿者没有伪造数据,也可能因为较新颖的理论尚未得到足够的了解而有所偏颇,错误率自然也比较高。

其次是阅读知名期刊的人通常也比较有能力与意愿去重现实验结果,对比于名不见经传的期刊,刊登的内容相对来说比较多属于验证型而非突破性的实验,所以实验重现率虽然比较高,除了因为这些期刊所发表的内容比较成熟外、同时也可能只是因为很少人尝试去重现这些实验。


🔷现代人忧郁症与文明病比较严重?

在许多先进国家中,忧郁症与相关精神疾病一直是个难以解决的社会问题。有许多研究皆指出对比于过去,现代社会罹患精神病的比例大幅上升,在先进国家尤其明显,便断定现代社会因为压力太大,造成我们虽然有较好的生活品质、但是却有着伴随而来的精神病作为代价;而过去或许物质生活条件较差、但是人民普遍比较幸福快乐。但事实真的是如此吗?

忧郁症算是近代才开始有较多研究的领域,因为过去对于精神疾病的不了解,我们自然不太会将患者归因并分类至精神疾病,这代表着或许过去也有不少忧郁症或者是精神病的患者,只是我们没有正确地将其分类。而且心理疾病与生理疾病不同,比较难做量化与观测,所以也更容易让我们将病患归类至罹患精神疾病。

在上述这个案例中,忧郁症之所以多很多,不一定是因为现代人社会压力比较大,可能只是因为我们降低了确诊条件;就好像新冠肺炎确诊的人数,可以藉由CT 值的定义来做数据的操弄一样。


🟥数据背后的道德思考

前面提到暗数据代表着「遗漏的资讯与数据」,所以理论上数据愈「明」愈好,但是实务上我们有许多领域会刻意地将数据弄「暗」,这通常牵涉到比较多的社会与道德议题。

🔷排除歧视与风险规避

许多国家皆规定金融或是保险业者不能将性别或种族或年龄列入贷款或者是金融服务得判断依据,像是还款信用与利率设定等等,以避免陷入歧视的争议之中。因为普遍来说白人男性对比于有色人种总是有较低的保险利率与较高的借款额度,但是这往往是建立在双方并没有相同的竞争基础。

可以理解政府对于这部分的管制初衷,但是这对于金融公司来说在预测模型的建立以及风险规避上就少了非常多的数据可以利用,更不用说有太多所谓的「歧视」其实是主观认定,而这些变因与模型的准确度息息相关,如此是否牺牲了金融保险公司的权益?

对此欧盟曾经原本设有逃脱条款,也就是当基于正确的事实与统计数据时,若性别真的是判断风险的因素之一,可以依此针对保费与福利做出适度差异,但是这逃脱条款最后也在2012 年失效。

实务上我们很难将模型完全将歧视去除,因为歧视本身的定义往往没有足够明确的定义,若要100 % 避免歧视存在,或许我们也将没有任何的数据可以使用。


🔷隐私与方便的权衡

最近网路隐私的讨论度与日俱增,欧盟更是推行了史上最严格的个资法GDPR(General Data Protection Regulation),对于网路巨头在网路行为的数据收集与利用有着严格的规范。

而前面提到数据愈完整,我们利用数据所分析出来的资讯则愈准确,但是这却代表着我们可能要牺牲掉自己的隐私来达到这个目的。这点在我们的生活中经常可见,当我们在网路商搜寻某项商品,结果网页的广告栏位便开始大量的推播相关的广告,这便是因为网路无时不刻都在收集我们的使用资讯。

对于网路隐私的部分也有了数年的讨论,大方向都是将资讯以不可辨识到个人为主要的执行方向,不过相对的我们便可能不会感觉到那么的「方便」。要如何在方便与隐私之前做取舍,是个难解的大哉问。


🟥小结

我们有个很矛盾的心理,就是我们很想要知道社会或是公司平均的薪水多少,但是却很少有人愿意透漏自己真实的薪资。这也是前面提到收集数据中很可能造成数据变暗的原因之一。当我们不愿意透漏自己的真实数据,那又要怎么期待统计后的数据能够准确呢?

暗数据就其内涵来说并不是全新的概念,不过本书将这些「遗漏的资讯与数据」用系统化的方式做归类与拆解,并加上大量的案例以及统计学的原理说明,让读者能够对于这些「暗数据」有更多的了解。我们很容易被各种偏误所影响、喜欢简化的答案,造成我们丧失的对于数据的敏感度与警觉性。

本书的内容很多可以连结到先前分享的【书】Rock Breaks Scissors《为什么出布容易赢》【书】Everybody lies《数据、谎言与真相》 ,都是探讨数据统计以及人性的各种偏误。

最后引用书末提到的一个小故事:有个醉汉在路灯下找钥匙,不是因为钥匙掉在那边,是因为只有那边够亮才看得见。


原文好读版: Morven's Bookshelves

CC BY-NC-ND 2.0 授权

喜欢我的作品吗?别忘了给予支持与赞赏,让我知道在创作的路上有你陪伴,一起延续这份热忱!

Morven生活中一大樂事是認識到新的觀點,並且感覺自己有所成長。從閱讀輸入到口說輸出,為了想更深化自己的架構能力,便開始著手進行寫作,也就產生了你眼前所見的這些文章。 個人網站:https://www.morvenhsu.com/ 讚賞公民連結:https://liker.land/digitalcoinwallet666/civic
  • 来自作者
  • 相关推荐

【書】Peaks and Valleys《峰與谷》

【書】Narconomics《毒家企業》

【書】Eating Animals《吃動物》