統計學閒聊與尊重專業
一個奇妙的緣分發現這個網站,既然註冊了,就隨手打打文章。個人是經濟系學生,所以分析的工具多半以經濟學與統計學為主。印象中幾個月前曾經吵過台灣covid-19死亡率問題,今天就這點閒聊一下。看到死亡率上升,大家都會覺得這是壞事,但死亡率的計算方式,是總死亡數/總染病數。
但covid-19這病呢,染病後很少會在病發7天內死亡,多半在10或者14天後,具體數字在下面的故事不是很重要就是了,總之死亡時間點與染病時間點有一個不短的落差。為了故事的理解性,讓我們假設最終死亡率固定為10%,病程固定10天,10天後病人死亡或康復。
讓我們在故事中觀察3個國家ABC,30天內感染的人數分別是
A國: 疫情爆發後不受控制,
5*10 + 10*10 +20*10 = 350人
B國: 成功控制疫情,唯未能有效根除傳播鏈
5*10 + 10*10 +10*10 =250人
C國: 成功撲滅疫情
5*10 + 10*10 +5*5 +0*5=175人
那在第30天的時候呢,
A國死亡率: (50+100)*0.1 / 350 = 4.29%
B國死亡率: (50+100)*0.1 / 250 = 6%
C國死亡率: (50+100)*0.1 /175 = 8.57%
看起來反直覺的的事情發生了,C國成功控制了疫情,卻反而在30天這個時間點上在死亡率的數字上表現的最差勁。那這就一個如果你只有學過基本的統計學,不了解疾病相關知識會錯判的問題,其實很多時候所謂專業的眉角就在這裡,道理講出來大家都能懂,但沒講出來非專業人士很可能不會去想到。
那回過來談談,要修正上述這個死亡率反直覺的問題,其實重點在於,你要先問問自己,你希望用死亡率這個參數評估什麼?
顯然的,如果要談疫情控制的好壞,會這樣說是因為死亡案例被忽略的比例遠比無症狀來的稀少許多,所以可以用死亡數*已知最終死亡率區間去評估真正的感染人數,但請注意這只能評估1~2周前的數字(covid-19)
如果要用死亡率評估該國醫療系統狀況,那同樣地為了計算出正確的最終死亡率,分母不能使用當下感染數字,要用走完病程後的人數,此外,病程的長短或許也可以是一個重要的考量依據。
最後無論要評估什麼,都還要清楚的理解死亡率其實不是固定的,會因為年齡等等因素有重大的影響,所以按照你想討論的目標,要思考是否需要納入年齡分區比對(上面兩個例子都要)。
印象中有句話這麼說的,數字不會騙人。是的,數字不會騙人,因為數字不會說話,是人替數據下判斷講述故事,而這故事講的有沒有道理是不是騙人,不少時候是君子可以欺之以方的。
雖然沒有臨表泣涕,但我仍然認為我不知所云,學得越多越常感到,真正要把知識轉譯成文章不是一件容易的事情,在你想替文章負責的時候。
喜欢我的作品吗?别忘了给予支持与赞赏,让我知道在创作的路上有你陪伴,一起延续这份热忱!