造假大師易富賢的漿糊統計學:“計劃死亡”終於在他筆下變成現實

鬼撞墙
·
(修改過)
·
IPFS
·

2018年2月初前後,我跑到reddit的威斯康星大學小組去,揭露易富賢推算2035年中國將有上千萬失獨家庭是數據造假。不出所料地,我收穫了一大堆“shit”、“garbage”,還有不止一個人說我是“50-cent dogs”或“五毛”。 (寫到這裡,先莞爾一下下^_^)。

不過,在成堆充滿敵意的評論中,我也有了一個重大發現。

一位網名叫“Gibborim”、專業為“電子與計算機”(Electrical and Computer Engineering)的網民向我指出,易富賢所說的“每出生一萬人,就有x人在y歲之前死亡”並非我理解的“0-y歲死亡率”,而且還非常仔細地給我解釋了易富賢可能是怎麼算出他那個證據的。當然,最後他還想讓我相信易富賢的這種“專業”方法。

雖然他言辭激烈,但我在用自己那個小學算術不及格的愚鈍大腦思考了幾天后,終於認識到他的第一個說法是正確的:我確實誤解了易富賢的說法。易富賢所說的“每出生一萬人,就有x人在y歲之前死亡”,指的是這一萬人在年滿y歲之前的總死亡人數,也就是把他們在y+1年內的死亡人數相加的總數。

但這是否意味著易富賢和Gibborim的計算方法就是正確的呢?下面我就來作一個非專業的分析。如果有不正確的地方,歡迎各位指出來。

一、易富賢是怎樣算出“每出生一萬人,就有x人在y歲之前死亡”的

關於易富賢的算法,Gibborim作了非常詳盡的分析,甚至還把他的計算結果做成一個圖表,懂英文的網友可以參考他在我帖子後面的回复

只是,對我這個小學算術不及格的腦瓜子來說,他這套算法太複雜,不過我還是理解了他和易富賢計算這個數據的大致思路。為了便於說明,我在這裡把他們用來計算的那個表格的部分截圖再貼出來(需要查看整個表格原文的請戳這裡: http://www.stats.gov.cn/tjsj/ndsj/renkoupucha/2000pucha/html/t0604.htm ):

簡單地說,要計算易富賢的那個“每出生一萬人,就有x人在y歲之前死亡”,就需要知道這些人每年的死亡人數或死亡率。例如,如果要計算2000年出生的人總共有多少在10歲之前死亡,除了表格中已經提供的他們在0歲的死亡人數之外,我們還需要知道他們在1歲、2歲、3歲……直至10歲的每年死亡人數(一共11個數據),然後將這些人數相加,除以他們出生時的人數,再乘以萬分之一萬,就能得到易富賢說的那種數據了。

但是這個表格只提供了單個年齡組在當年的死亡人數、總人數和死亡率,計算2000年出生的人總共有多少在10歲之前死亡所需的另外10個數據,在上述表格中是沒有的。

中國有句話叫“巧婦難為無米之炊”,但這樣龐大的數據缺失顯然難不倒我們的造假大師易富賢。因為他直接就用表格中出生於其他年份的人的死亡率,來推算相關年齡組在相應年齡的死亡人數了。

例如,從這個表格中,我們知道出生於2000年的人在0歲時的死亡率是26.9‰,那麼他們到1歲、2歲、3歲……10歲……25歲……44歲時的死亡率是多少呢?這個表格沒有提供,按照易富賢們的計算方法,他們實際上是用1999年生人在1歲時的死亡率計算2000年生人在2001年(即他們1歲時)的死亡人數,用1998年生人在2歲時的死亡率計算2000年生人在2002年(及他們2歲時)的死亡人數……以此類推。

(說白了,他這種算法兒的本質,就是此前此後的所有兲朝人,不管是出生於大饑荒時代、文革時代、改革開放時代還是21世紀,都得按照上述表格中的死亡率去死。反節育派嚮往的“計劃死亡”終於在易富賢的“神筆”下變成現實。

為了便於說明,我們先拿一個比較短的時間段來舉例子,如果我們用n來表示某年生人的活產人數,用A、B、C……來表示上述表格中0-2歲的死亡率,那麼該組在0歲的死亡人數是n*A,在1歲的死亡人數是(nn*A)*B,在2歲的死亡人數是[nn*A -(nn*A)*B]*C

因此,按照易富賢們的算法,該組人在0-2歲的總死亡人數是:n*A+(nn*A)*B+[nn*A -(nn*A)*B]*C=n*A+n*Bn*A*B+n*Cn*A*Cn*B*C+n*A*B*C=n*A+n*B+n*Cn*A*Bn*A*Cn*B*C+n*A*B*C

那麼對於該組的人,每出生一萬人,會有多少人在2歲之前死亡呢?其計算公式就是:

x=[(n*A+n*B+n*Cn*A*Bn*A*Cn*B*C+n*A*B*C)10000]/[n*10000]= (A+B+CA*BA*CB*C+A*B*C)*10000/10000

也就是x= (A+B+C+……-A*BA*CB*C-……+A*B*C*……) *10000/10000

(很久沒做數學題,寫到這裡已經兩眼發花或昏花*_*)

由於表格中的死亡率是千分比,例如0歲死亡率是26.9‰(即0.0269),1歲死亡率為2.49‰(即0.00249),2歲死亡率為1.60‰(即0.0016)因此,A*B=0.000066981≈0.00007,

A*C=0.00004304 ≈0.00004

B*C=0.00003984 ≈0.000005

A*B*C=0.0000001072

相乘的死亡率個數越多,得出的數字就越小,除了那個0.00007和0.00004之外,其餘的幾乎可以忽略不計。難怪易富賢算出的那些數字就跟直接把各年齡的死亡率相加差不多!

Gibborim還不憚麻煩地挨個算出原表格中每個年齡總共有多少人在25歲之前死亡,從這個公式看,他/她完全是多此一舉。

二、易富賢的算法是否可行?

通過上述表格中的數據,用易富賢的這種方法能否計算“每出生一萬人有多少人在y歲之前死亡”,並進而算出失獨家庭的數量呢?

筆者認為,他的方法並非完全不可行,但必須滿足3個非常苛刻的條件:

1. 該國必須數十年處於發展停滯狀態;

2. 該國數十年都沒有影響人口死亡率的大型天災人禍;

3. 該國必須處於絕對平均主義狀態。

條件1中所說的“發展停滯”,意思是既不發展也不後退,因為科技進步和經濟發展都會降低人口死亡率,尤其是嬰兒死亡率(即0歲死亡率),反之則可能提高這些死亡率。

而條件2所說的大規模天災人禍如戰爭、疫病之類也會提高人口死亡率,例如歐洲中世紀的黑死病和兩次世界大戰(以及現在全球大流行的武漢肺炎瘟疫),都造成大量人口死亡,相應也就推高了相關國家和地區在那些時代的死亡率。

至於條件3中所說的絕對平均主義狀態,則是為了消除不同社會階層因經濟條件不同造成的死亡率差異,否則像易富賢那樣,用全國性的人口數據,來計算作為群體之一的獨生子女的死亡人數,就會非常不靠譜。

我撓著腦瓜子想了半天,覺得我們根本無法在地球上找到完全符合上訴3個條件的國家,甚至連接近這3個條件的國家都很難找到,兲朝就更是概莫能外了。

不信的話就請去看看維基百科里的“ 世界嬰兒死亡率列表”:在過去的五六十年裡,全球所有國家的該項數據都有大大改觀,排在第一位的新加坡,從1950年代初的60.69‰降低到21世紀初的1.92‰;而排在末尾的阿富汗,也從275.03‰降低到135.95‰。這就是科技進步和經濟發展能夠降低人口死亡率的證據。

blablabla這麼多,我其實就想說明一件事:在現實社會中,易富賢的這套荒誕計算方法幾乎是不可行的。

三、易富賢到底錯在哪裡?

如果對統計學稍微有點了解,那麼我們就不難看出,在利用前述表格中的數據作分析和計算時,易富賢犯了兩個非常明顯的錯誤:

錯誤一,用一個整體中A群體的數據,推算其他群體的數據。打個比方說,這就像根據某年上海的人均GDP,來推算該年度或其他年度甘肅的GDP總量(即用該年上海人均GDP乘以相應年份的甘肅人口總數)。這是錯誤的。

錯誤二,用整體的數據,推算其中某個群體的數據。打個比方說,這就像用某年的全國人均GDP,推算甘肅或上海的GDP總量(即用該年的全國人均GDP乘以同年的甘肅或上海人口總數)。這也是錯誤的。

具體到這裡來說就是,當易富賢把2000年、1999年、1998年、1997年……1975年……1956年生人分別處於0歲、1歲、2歲、3歲……25歲……44歲時的死亡率,當作其中一個或所有年齡組在相應年齡的死亡率時,他犯了第一個錯誤。其實計算其中任何一個年齡組在一定年限內的死亡人口,都可以得出他算的數據,因為我們從前面的公式已經可以看出來,他所謂的“每出生一萬人就有多少人在多少歲死亡”,就跟把相應年齡組的死亡率相加差不多。

當易富賢拿這個本身就是用錯誤方法算出的死亡數據,來計算失獨家庭的數量時,他犯了第二個錯誤。因為,正如我在《反節育派彌天大謊之一:“失獨家庭上千萬” 》中所言,中國嚴格實行一胎化的地區主要是城市。而中國的城鄉差距一直很大,相應地,也就造成城鄉人口死亡率差距。

所以,即使他的第一個數據是準確的,用這個全國性的平均數據來計算作為群體之一的獨生子女的死亡數量,也會有很大的誤差。更何況,他還是用歷史數據推算未來的情況,這就更是多重不靠譜了。

這也是每次統計局發布全國人均收入時,好多網友都大呼自己的收入“被平均”了的原因。因為我們本來就不能用那個人均收入用來計算單個個體(或部分群體)的收入。我們能做的,只能是拿自己的實際收入跟全國人均收入作對比,看看自己的經濟狀況在全國大致處於哪個層次。

那麼,有沒有比較可靠的辦法從有限的數據中推算“每出生一萬人,就有多少人在多少歲之前死亡”呢?答案是:有的。

例如,如果我們能從其他地方找到比較可靠的數據說明1990年、1975年和1956年的出生人口數量,那麼再結合上述表格,就很容易算出那個“每出生一萬人就有多少人在10歲、25歲和44歲之前死亡”了。

只是,在這句話之前,請一定要加上相應的年份,決不能像易富賢那樣,把由此算出的數據概而括之、想當然地適用於所有年代(這也是易富賢犯的第三個錯誤),更不能用它們去推算獨生子女死亡人數。頂多,也只能根據這些數據,來非常非常非常粗略地比較一下前面兩個年份(第3個年份不算,因為那會兒還沒實行計生)出生的獨生子女可能的死亡趨勢是高還是低。

分析到這裡,我們不難得出結論:易富賢在計算“失獨家庭上千萬”時至少犯了3個錯誤,從本質上說,它們都是反統計學的,也是反科學的

說得難聽一點,他這些可笑的方法不過是一團胡謅,簡直就是“漿糊統計學”,這也是他的“數據造假學”的方法論基礎。只是,憑藉他作為“美國威斯康星大學高級科學家”的地位,他這類不倫不類的數據頗能糊弄一般受眾,包括眾多記者,包括一些國際著名媒體的記者。

四、如何解讀媒體報導中的數據和結論?

易富賢的“失獨家庭上千萬”之所以流傳多年且流毒全球,固然主要是一些群體故意炒作反節育反計生話題造成的,但也跟全球媒體記者集體缺乏專業精神有關。

審視各家媒體有關易富賢這個數據(以及他的一些其他“研究成果”)的報導,我們都會發現,從《環球時報》到《紐約時報》,有相當多的文章幾乎都只擺出了易富賢的觀點和/或與易富賢類似的觀點,很少有記者去採訪那些與他觀點相異甚至相反的專業人士。因此,自然也就不會有專業人士去檢驗易富賢的數據和“研究成果”了。

也就是說,此類文章都跟傳說中被一些媒體奉為圭臬的“平衡報導”相去甚遠,它們完全是共匪黨媒那樣的宣傳。自由亞洲電台最近發表的一篇文章《易富賢:中國諸多政策建立在錯誤人口數據基礎之上》,就是這樣失於偏頗的宣傳文章。

所以,當我們閱讀各種媒體甚至自媒體的各種新聞和消息時,一定要對那些觀點和立場單一的報導保持警惕(這種報導是兲朝“新聞”的主流),因為這樣的報導就算不是徹頭徹尾的謊言,至少也是有失偏頗的。

如果有某個號稱專家的傢伙,自稱根據什麼權威統計數據計算出什麼結果(特別是那些看起來非常龐大的數字),卻對自己的推算過程諱莫如深,甚至也對統計數據的來源諱莫如深,而文章中同樣只列出他或她及其支持者的觀點,那就更要保持警惕了。因為這就是易富賢之流一貫的做法。

寫到這裡,我還想調侃一下自己在牆內外的遭遇:當我試圖在牆內說真話時,兲朝網民(以五毛水軍為主)罵我是美分黨;當我試圖在牆外說真話時,一些西方網民罵我是五毛狗。看起來,不論是在牆內還是牆外,說真話的人都是不受歡迎的,因為真相往往刺眼

感覺易富賢現在就像那個在全球蔓延的新冠病毒一樣,越是揭露他的謊言,諸如自由亞洲電台、BBC之類的媒體就越追捧他,他的謊言就傳播得越遠。 “共和黨黨報系”的一些網站則在我留言批評易富賢的數據不靠譜後,雞賊地把易富賢的名字換成“專家”,然後繼續傳播他的謊言。

很快,作為“民主黨黨報”的《紐約時報》也會與“共和黨黨報系”盡釋前嫌,加入這場每年定時在年底年初出現的謊言大傳播了(它出現的時間都跟什麼流感和冠狀病毒的流行時間相同,簡直了!),今年紐時的反節育派假新聞會不會比以前編得更高明一點呢?就讓我們拭目以待吧。

(本文原來發佈在本人的博客上,因為原文排版比較難看,把它稍作修改和整理後,重新發在Matters上。)

CC BY-NC-ND 2.0 授權

喜歡我的作品嗎?別忘了給予支持與讚賞,讓我知道在創作的路上有你陪伴,一起延續這份熱忱!

鬼撞墙揭露易富贤和反节育派造假,就跟鬼撞墙一般,一次次兜兜转转,把自己撞得头破血流,却怎么都撞不破那屹立如墙、颠扑不破的谎言与谣言。不过一想到这个国家的历史也是如鬼撞墙一般兜圈子,我也就释然了。
  • 來自作者
  • 相關推薦

刷个存在感

宴席与战争

找祖宗是一桩艰巨的任务