2023年11月23日 星期四

民調 3% 統計誤差的由來

https://4rdp.blogspot.com/2023/11/3.html?m=0

選舉投票,一人一票,票票等值,誰票多就贏,在投票之前想要估計得票數是多少,就只能利用民調來估計,某選區有投票權的人共有 N 人,A 候選人可得 n 張票,他的得票率為 p=nN


依據中央極限定理,民調次數越多次,其民調統計分佈將趨於標準常態分佈,比例型態的隨機變數,期望值為 p,標準差為 σ=p(1p)n

我們常說民調要做 1068 份,但是我們不知道比例數值 p 因此取最大標準差數值來估計,當 p=0.5 可以得到最大標準差,
所以最大標準差為  σ=0.5×(10.5)1068=0.0153
而信心水準 95%,查標準常態分配函數表可得 Z=1.96
因為 Zσ=1.96×0.0153=0.03,所以大家就習慣在 95% 信心水準下 ±3% 統計誤差。





這次 2024 總統大選,國眾兩黨對民調計分方式產生嚴重歧見,
民眾黨以「差距的差距」來評判何種總統候選人搭配最優,以 TTP 內參為例,
(柯侯 VS 賴蕭) = 44 - 32 = 12
(侯柯 VS 賴蕭) = 39.7 - 33 = 6.7
兩種搭配方式的差距 = 12 - 6.7 = 5.3
統計誤差 = 1.96×0.5×(10.5)1082=0.0298
因為 5.3% > 2.98%,所以判定 柯侯勝

國民黨是直接將兩種搭配相比,
(柯侯 VS 侯柯) = 44 - 39.7 = 4.3
因為 4.3% < 5.96% = 2.98% ×2,統計誤差乘 2 是為了檢定顯著性
所以判定 侯柯勝

就計算意義,「差距的差距」方法在計算不同搭配對賴蕭的強弱差異,而「搭配相比」方法在判斷非柯正不投與非侯正不投的選民差距比例,2024 年大選約 1950 萬人有投票權,那侯柯配估計有 1950 x 4.3% = 83.85 萬人跑票

另外兩個獨立隨機變數 pApB「相比整合」成一個時,其聯合標準差要修正成 σA2+σB2,估算大約為 2σ。民眾黨的「差距的差距」聯合標準差,還需透過上式再計算一次,估計略小於 2σ,這些聯合標準差僅表示合併後的新隨機變數分布狀況,不管那一種算法皆以最後的差值為新的期望值,聯合標準差為最終的標準差形成另一個新的常態分佈。

本貼文算是提供 訓練數學感 360 解答。

沒有留言:

張貼留言