為什麼信心水準不是機率？

2022 年 11 月 23 日

這是很多統計學初學者會有的疑惑。大部分的統計數據呈現，像是人口調查、民調等等，都會利用抽樣來推估真實值，並在抽樣的結果附近加上一段信賴區間，可以簡單理解為誤差範圍（如果涉及統計推論則會呈現 p 值）。那個範圍會有他對應的信心水準，但很多人將其理解為「真實值落在這個範圍內的機率」，然而這其實是錯誤的。

我在網路上幫高中生解題多年（雖然課綱現在把信賴區間刪掉了），發現造成這樣錯誤解讀的根本原因是大家對於「抽樣分佈 (sample distribution)」，也就是 X̄（樣本平均）的機率分布的理解不正確導致。

什麼是抽樣分佈？

假設今天我們對一個母體（比方說全台灣的人口）進行抽樣，母體的平均和標準差是 μ 和 σ（這兩個我們當然不知道是多少），且每次抽樣取 n 個樣本。第一次抽樣之後得到 n 個數據，然後算它的平均，就會得到第一次的樣本平均 X̄₁，然後再進行第二次抽樣，也是抽 n 個數據，得到第二次的 X̄₂，以此類推，直到從母體抽出 n 個樣本的所有可能都抽完。很明顯每一次的 X̄ 幾乎都不同，因為每次抽樣得到的樣本是隨機的。

注意一下 n 不是抽樣的次數，是每次抽樣的樣本數。總共抽樣幾次得看母體有多大，有多少可能抽出的組合，造成各種可能的 X̄ 值，最後當所有的 X̄ 值都抽到了，還有抽到這個值的次數，就可以知道得到各個 X̄ 值發生的機率，所以 X̄ 是隨機變數。我們將這個機率分布畫出來，橫軸是 X̄ 的各種可能值，縱軸是它發生的機率，這就是「抽樣分佈」。

統計學家分析這個分佈的性質，得到了「中央極限定理 (central limit theorem, CLT)」，證明有點複雜所以通常教科書只會寫以下結論：

抽樣分佈的平均正好是母體平均 μ。
抽樣分佈的標準差是母體標準差 σ 除以 √n。
如果 n 夠大的話，抽樣分佈會接近常態分佈。

稍微分析一下這結果：第三條說這分佈會呈現出鐘型曲線，可見這分佈的平均大概在中央最高峰處，而且第一條告訴你它等於母體平均，也就是說樣本平均和母體平均的機率超高，這相當直觀；第二條則說明了抽出的樣本平均之間的差異程度，比單獨觀測母體的各個值的差異程度還小（因為 n 是正整數），這也很好理解，畢竟你觀察了更多值，只是證明就是個大工程了。

原本母體的數據可以是隨便一個分佈（高中的話就是拿二項分布當母體），但 X̄ 的機率分佈是常態分佈，兩者完全不同概念！你可能想說，我們怎麼可能抽完母體的所有抽樣可能？如果母體是全台灣 2300 萬人，我每次抽樣 10 人，抽樣的可能數（C 23000000 取 10）大概是 1.14×10⁶⁷，這最好抽的完？

不是的，我們現在根本還沒實際進行抽樣，以上都是在抽樣前，對於抽樣這件事所進行的事先分析，當你看清了這點，你應該就想通抽樣分佈是什麼了。

抽樣分佈是實際抽樣前對 X̄ 的機率分析，並由中央極限定理說明其性質。

信賴區間和信心水準

之所以做以上的分析是要讓你了解 X̄ 的行為，接下來你只需要進行一次抽樣得到一個 X̄，就能利用抽樣分佈來告訴你這數據有多可靠。那你抽樣出的樣本平均有沒有等於母體平均呢？答案是：要嘛有，要嘛沒有嘛！

那信賴區間 (confidence interval) 是什麼？它是你得到的 X̄ 所展開的一定範圍，畢竟除非你的籤運好的離譜，不然你應該不會很有自信地聲稱你的 X̄ 就是母體的平均 μ，所以要展開一段區間作為誤差範圍，保守一點地說 μ 在這裡面。這個範圍要取多大是你決定，如果取的超大，你自然就有更高的信心來宣稱這範圍涵蓋 μ，這個信心程度就是所謂的信心水準 (confidence level)。

當然你也可以取到讓整個信賴區間涵蓋所有 X̄ 的可能值，然後說你有 100% 的信心這會涵蓋 μ，那這就只是個廢話。就好像你想知道台灣人平均年齡，抽了一個樣本出來後說平均年齡在 0 到 1000 歲之間，那其實跟沒說一樣。所以信賴區間能夠取的越小越好，但越小的話信心水準肯定會下降，也不能取太小，要自己在這兩者間權衡。

信賴區間越小越好，與此同時，其信心水準要越高越好。

那信心水準怎麼算，總不是靠感覺來說自己多有信心吧？

從中央極限定理知道抽樣分佈是常態分佈，為了方便查表，統計學常把數據標準化，將原始數據扣掉平均，再除以標準差，這樣平均就平移到 0，標準差則伸縮成 1，這東西就是「z 分數 (z-score)」。中央極限定理也已經告訴你抽樣分佈的平均和標準差是多少，則公式如下：

當機率分佈橫軸的隨機變數標準化後，一切就好辦了，例如如果我想求抽樣得到的 X̄ 換算成 z 分數後，這個值落在中央的 μ（其值為 0）往左右展開一個標準差（加減 1）的機率，那就將這個常態分佈的機率函數積分，算 ±1 之間的曲線下面積，相較於曲線下的總面積（其實就是 1，因為是機率函數）的比值。

由於平均和標準差的標準化，這個常態分佈的函數是固定的，那就可以建出固定的表，以後只要查表就能知道你要的曲線下面積。

而我們可以發現，在 ±1 之間（加減 1 個標準差）的曲線下面積是 0.682、±2（加減 2 個標準差）的則是 0.954、±3（加減 3 個標準差）的則是 0.997，這一般被稱為 68-95-99.7「經驗法則 (empirical rule)」因為這比例早在 18 世紀初就被觀察到，而不是計算出來的。

以加減 2 個標準差為例，用數學式表達的話就是：

接著將 z 分數的公式代入移項，讓 μ 在中間：

這告訴我們：如果我們抽樣的話，抽出來的 X̄ 加減 2 個標準差的區間內涵蓋 μ 的機率是 95.4%。這是機率，但再次提醒，現在還只是抽樣前進行的分析。

現在實際進行抽樣，會得到一個固定的 X̄ 值，此時 X̄ 不再是隨機變數，它展開的信賴區間有沒有涵蓋 μ 已變成既定事實（儘管你不知道到底有沒有），而 μ 也不是隨機變數，哪來的機率可言？

我們只能回顧抽樣分佈，得知對於所有可能的 X̄ 值，有 95.4% 涵蓋了 μ。如果我還沒進行抽樣的話，那麼我有 95.4% 的機率會抽到展開的信賴區間涵蓋 μ 的 X̄ 值；但我進行抽樣後事已成定局，我的信賴區間要嘛有涵蓋 μ，要嘛沒有，雖然不知道有沒有，但我有 95.4% 的信心宣稱有，基於先前抽樣分佈的分析。

抽樣後的 X̄ 不再是隨機變數，所以原先的機率僅是信心水準的參考依據，而信心水準本身並不是機率。

如果喜歡我的文章，還請不吝【👏拍手】、【➕追蹤】！
我平常更常在 instagram 發布短文，等內容累積到一定的量後才會整理出完整文章發布在這，也歡迎有興趣的讀者來逛：@study.msh

CC BY-NC-ND 2.0 授权