你知道如何解讀數字嗎?11條記者&編輯必讀的統計指南
梁啟智老師前幾日在臉書上提到data literacy,指出做傳媒的人都應該讀這本書''How to Read Numbers'',才不會出現新聞常見的數據解讀謬誤。
逛了一下書的官網 ,發現作者整理了11條「統計風格指南(The Statistical Style Guide)」,內容簡潔扼要,值得一讀,因此非常粗略地翻譯了一些▼▼▼
統計風格指南
1. 將完整數字加進上下文
可以先問自己:那是一個大數字嗎?比如當我們看到「英國每年傾倒600萬噸污水到北海」,這聽起來真的很糟,但600萬頓很多嗎?誰是分母?為了瞭解600萬噸到底比想像中多還是少,我們還需要知道哪些數字?像在這種情況下,最好在前後文加上「南海水量是5.4億噸」的敘述。
2. 給出「絕對風險」,而不僅有相關性
如果你告訴我,吃烤麵包會讓我患疝氣的風險增加50%,這聽起來確實使人憂慮,但如果你不告訴我一般人患疝氣的機率究竟有多高,這個50%其實沒有意義。讓讀者知道「絕對風險」,最好的方式是給出「多少人會受影響」的預期數字,例如,每1萬人會有2人在人生中患疝氣,而如果他們長期吃烤焦的麵包,患疝氣的機率會提高到每1萬人有3人發生。
另外,在報導某數值「快速增長」的時候要格外警惕,舉例來說,一個政黨如果黨員從1人變成2人,那它很容易成為國內「增長最快速」的政黨。
3. 檢查引用的研究是否公平地呈現了整體狀況
不是所有科學研究「生來平等」,比如,歐洲核子研究組織發現希格斯玻色子,或是美國雷射干涉儀重力波觀測站檢測到重力波,這些發現本身就值得單獨報導。但如果你正在報導一篇發現紅酒對人有益的新研究,則應該在有許多其他研究的背景下進行介紹,任何一篇單一研究只能作為整體情況的一部分。
推薦做法:打電話給該領域、且沒有參與那份研究的專家,向他們諮詢,討論出你們對於該主題的共識。
4. 給出研究樣本數,並小心樣本數很小的研究
本書作者之一Tom參與的牛津大學新冠肺炎疫苗試驗共有1萬名參與者,有這種樣本數,應該是較不容易出現統計雜訊或隨機誤差。舉一個反例:一個心理學研究詢問15名大學生「洗手是否能讓他們感到不那麼內疚」,但研究結果和現實並不符。並不是說小樣本數的研究總是很差勁,但這種研究經常能得到詭異的實驗結果,所以寫進報導時要特別注意。作者甚至建議,如果研究的參與者少於100人,那就需要小心謹慎。雖然也有一些小樣本數的研究結果是可靠的,畢竟沒有硬性要求樣本數大小,但總是越大越好嘛。
順帶一提,民調問卷通常都有很偏頗的樣本來源,對它們要非常小心。
5. 注意那些科學家正面臨的問題,例如操作科學數據(p-hacking)和出版偏誤(publication bias )
我們不可能期待記者成為所有領域裡的專家,也很難因為他們犯了科學家自己也經常犯的錯誤而指責他們,不過依然有些警示值得注意。例如,如果一份研究還沒有「預註冊*」,那麼科學家們可能會在收集到足以發表論文的數據後回來繼續進行,或者,可能還有數百項其他研究尚未公布,仍躺在某個科學家的抽屜裡。
另外,如果一個研究結果是令人意外的——例如,考慮到該領域的其他發現,這不是你所期望的結果——那可能是因為它不是真的。科學有時候是令人驚訝的,但並不是大多數時候。
*註:註冊報告(Registered Reports)是一種學術文獻類型,該方式允許公佈無效結果、進而鼓勵進行複製與改良嚐試。
6. 當報導一項預測時,不要使用單一的數字,給出一個信賴區間(confidence interval)並解釋它
假如英國預算責任辦公室(OBR)模型預測明年經濟將增長2.4%,這聽起來準確又科學, 但如果沒有提到95%信賴區間介於-1.1%和+5.9%之間,那麼這個2.4%只是給人一種虛假的精確感。 未來是未知的,儘管我們有時候希望它不是。試著解釋預測是怎麼做的,以及為什麼它是不確定的。
7. 指出或暗示什麼事會導致什麼事時,請特別小心
常常有研究發現兩件事物之間存在相關性——例如,喝汽水與暴力有關,或是吸電子煙和吸食大麻有關。 但事實上兩件事有關,比如A跟B有相關性,並不代表A就會導致B,其他或許還有CDEF也在過程中發生了。 如果一項研究不是隨機實驗,那麼就難以證明因果關係,而如果研究中無法證明因果關係,請小心不要說「打電動會導致暴力」或「YouTube會導致極端主義」。
8. 小心採櫻桃謬誤(cherry-picking)和隨機變數(random variation)
如果你注意到某項數值從2010年到2018年上升了50%,先快速看一下——如果從2008年或2006年開始繪製圖表的話,它的增長看起來還是那麼高嗎? 有時數字波動起伏很大,而如果剛好你選擇到一個特異的低點,就能讓原本的隨機變數變成一個令人震驚的趨勢。
這種情況在相對罕見的事件裡尤其容易發生,比如謀殺或自殺事件。
9. 小心「排名」
英國從世界第五大經濟體跌至第七名了嗎? 一所世界排名48的大學難道就是第48名嗎? 這些意味著什麼? 排名表現出來的可能是一件大事,也可能是無關緊要的事,例如,假設丹麥以每百萬人擁有1000 台公共除顫器(AED)的數量奪全球之冠,而排名第17的英國則是每百萬人擁有968 ,1000台與968台其實並沒有巨大的差異(尤其跟沒有公共除顫器的國家相比的話),而在這種情況下,排名第17的英國難道就不重視公共緊急情況的急救設施嗎? 可能也沒有這樣。
在給出排名時,記得解釋背後具體的數字,以及它們是如何被算出的。
10. 永遠都要附上你的來源
這一點很重要。在報導裡附上那些數字的來源,無論是放連結,或是講述你是如何找到它們的。原始來源比如科學研究(文獻頁面或doi.org頁面)、英國統計局、YouGov 民意調查等。如果不這麼做的話,讀者很難自己去檢視那些數字。
11. 如果你弄錯了什麼,勇於承認它
最關鍵的是:如果因為犯了什麼錯誤被他人指出,不要擔心,這種事經常發生。說聲謝謝,修正它,然後繼續前進。
這11項注意事項簡略介紹了解讀數字時應注意的方向,第7點剛好讓我想到最近台灣重新出現的「接種疫苗後猝死」相關報導,新聞容易誤導民眾把時序相關認為是因果關係,然而事實上不一定如此。這種時候似乎是閱讀這本書的good timing。
最後再幫推廣書:'How to Read Numbers: A Guide to Statistics in the News'' ,台灣目前好像只能在Amazon買到,如果有人已經讀過的話歡迎分享心得,也歡迎在分享你知道的統計小知識! (ง •̀_•́)ง
#記者節快樂 (一個遲到的9/1)
~~~
偷偷推一張我近期翻到的謬誤整理圖,裡面就有提到cherry picking!🍒