2023年11月23日 星期四

民調 3% 統計誤差的由來

http://4rdp.blogspot.com/2023/11/3.html?m=0

選舉投票,一人一票,票票等值,誰票多就贏,在投票之前想要估計得票數是多少,就只能利用民調來估計,某選區有投票權的人共有 $N$ 人,A 候選人可得 $n$ 張票,他的得票率為 $p=\frac{n}{N}$。


依據中央極限定理,民調次數越多次,其民調統計分佈將趨於標準常態分佈,比例型態的隨機變數,期望值為 $p$,標準差為 $\sigma = \sqrt{\frac{p(1-p)}{n}}$

我們常說民調要做 1068 份,但是我們不知道比例數值 $p$ 因此取最大標準差數值來估計,當 $p=0.5$ 可以得到最大標準差,
所以最大標準差為  $\sigma = \sqrt{\frac{0.5\times (1-0.5)}{1068}}=0.0153$
而信心水準 95%,查標準常態分配函數表可得 $Z = 1.96$
因為 $Z\sigma = 1.96 \times 0.0153 = 0.03$,所以大家就習慣在 95% 信心水準下 $\pm 3$% 統計誤差。





這次 2024 總統大選,國眾兩黨對民調計分方式產生嚴重歧見,
民眾黨以「差距的差距」來評判何種總統候選人搭配最優,以 TTP 內參為例,
(柯侯 VS 賴蕭) = 44 - 32 = 12
(侯柯 VS 賴蕭) = 39.7 - 33 = 6.7
兩種搭配方式的差距 = 12 - 6.7 = 5.3
統計誤差 = $1.96\times\sqrt{\frac{0.5\times (1-0.5)}{1082}}=0.0298$
因為 5.3% > 2.98%,所以判定 柯侯勝

國民黨是直接將兩種搭配相比,
(柯侯 VS 侯柯) = 44 - 39.7 = 4.3
因為 4.3% < 5.96% = 2.98% $\times 2$,統計誤差乘 2 是為了檢定顯著性
所以判定 侯柯勝

就計算意義,「差距的差距」方法在計算不同搭配對賴蕭的強弱差異,而「搭配相比」方法在判斷非柯正不投與非侯正不投的選民差距比例,2024 年大選約 1950 萬人有投票權,那侯柯配估計有 1950 x 4.3% = 83.85 萬人跑票

另外兩個獨立隨機變數 $p_A$ 和 $p_B$「相比整合」成一個時,其聯合標準差要修正成 $\sqrt{{\sigma_A}^2+{\sigma_B}^2}$,估算大約為 $\sqrt{2}\,\sigma$。民眾黨的「差距的差距」聯合標準差,還需透過上式再計算一次,估計略小於 $2\sigma $,這些聯合標準差僅表示合併後的新隨機變數分布狀況,不管那一種算法皆以最後的差值為新的期望值,聯合標準差為最終的標準差形成另一個新的常態分佈。

本貼文算是提供 訓練數學感 360 解答。

沒有留言:

張貼留言