『統計的仮説検定の方法論』要約|p値・有意差の誤解をほどき、検定を道具に戻す
仮説検定は「万能の判定装置」ではない
p値、有意差、5%水準。研究でもビジネスでも、数字が出ると議論が止まりやすい。
でも本当は、仮説検定は「結論を自動で出す機械」ではなく、不確実性の中で判断するための道具だ。道具は、使い方を誤ると事故る。
星野匡郎さんの『統計的仮説検定の方法論』は、仮説検定を「数学の手続き」ではなく、科学方法論として捉え直す本だ。本記事では、読後に手元のデータへ接続できるように、要点を整理して要約する。
まず押さえるべき基本:p値は「帰無仮説の確率」ではない
初心者が最初につまずくのは、p値の意味だ。
p値は、ざっくり言えばこうだ。
「もし帰無仮説が正しいなら、観測された(またはそれ以上に極端な)データが得られる確率」
ここで重要なのは、p値が「帰無仮説が正しい確率」ではないこと。逆ではない。
この誤解が起きると、次のような事故が起きやすい。
p<0.05だから「効果が確定した」と思うp>0.05だから「効果はゼロだ」と思う
どちらも飛躍だ。
第I種・第II種の誤り:検定はトレードオフの上にある
仮説検定の設計は、結局トレードオフになる。
- 第I種の誤り:本当は差がないのに「ある」と言う(偽陽性)
- 第II種の誤り:本当は差があるのに「ない」と言う(偽陰性)
有意水準を厳しくすれば第I種は減るが、第II種は増えやすい。逆も同じ。
つまり仮説検定は、「正しさ」ではなく「誤りの配分」を決める技術だ。ここを理解すると、p値を神格化しなくなる。
研究界で起きたこと:p値をめぐる“反省”が公式に出た
仮説検定(とくにp値)の使い方に対しては、統計の専門家から長い間、警鐘が鳴らされてきた。
代表例が、米国統計学会(ASA)のp値に関する声明だ(DOI: 10.1080/00031305.2016.1154108)。
また「有意差(statistical significance)」の概念自体を見直そうという提案も大きな議論を呼んだ(DOI: 10.1038/s41562-017-0189-z)。
本書の読みどころは、こうした“炎上”をゴシップとして消費せず、方法論の問題として整理する視点にある(要約としての捉え方)。
現場で役立つチェックリスト:検定を道具に戻す5項目
本書の主題を、日々の分析に落とすなら、僕は次の5つを最優先にしたい。
- 仮説の形を言語化する(何がどう変わると嬉しいのか)
- 効果量を見る(「有意」でも小さすぎる効果はある)
- 信頼区間を見る(不確実性の幅を把握する)
- 検出力(パワー)を意識する(小さいサンプルでp値だけ追うのは危険)
- 多重比較を疑う(試行回数が増えるほど偶然は起きる)
「検出力(パワー)」の重要性は、古典的な論文でも繰り返し強調されている(DOI: 10.1037/0033-2909.112.1.155)。
こんな人におすすめ
- p値や有意差を“判定”として使ってしまい、議論が雑になると感じる
- 研究・論文の読み方を、方法論から整えたい
- データ分析を仕事で使うが、検定に自信がない
まとめ:仮説検定は、判断の責任を免除してくれない
仮説検定は便利だ。でも、便利だからこそ誤解されやすい。
『統計的仮説検定の方法論』は、検定を「結論装置」から引きずり下ろし、方法論として手元に戻してくれる本だった。
関連記事
Kindle Unlimited
200万冊以上が読み放題。30日間無料体験できます。
