2025年5月9日
多重検定の問題と対処:有意差の落とし穴
企業における人事施策の効果測定や従業員の意識調査において、データに基づく意思決定の重要性が増しています。特に近年、組織サーベイの実施が増え、様々な角度から従業員の声を分析することが求められています。
しかし、データ分析において陥りやすい落とし穴の1つが、本コラムで取り上げる「多重検定」の問題です。例えば、組織サーベイの結果を部署ごとに比較する際、「10の部署のうち1つだけ有意に高いスコアが出た」という発見が、本当に意味のある違いなのか、それとも単なる偶然の結果なのか、判断を誤る可能性があります。
このような判断を適切に行うためには、多重検定について理解する必要があります。本コラムでは、多重検定のエッセンスと、対処方法について解説します。
多重検定とは何か
多重検定とは、複数の統計的検定を同時に行う状況を指します。組織サーベイを例に考えてみましょう。ある企業で1000人の従業員に対してサーベイを実施し、10の部署間でスコアを比較する場合を想像してください。
それぞれの部署のスコアが会社全体の平均と異なるかどうかを検証したい場合、45回の検定を行うことになります[1]。具体的には、まず営業部のスコアと全社平均を比較し、次に経理部のスコアと全社平均を比較し、という具合に、全ての部署について同じ作業を繰り返します。このように複数回の検定(この場合は10の部署それぞれについての平均値の比較)を行うことが、多重検定と呼ばれる状況です。
統計的検定においては、「差がない」という仮説(帰無仮説)を立て、データからその仮説を棄却できるかどうかを判断します[2]。この際、p値(観測されたデータと同程度またはより極端なデータが、帰無仮説の下で得られる確率)を計算し、それが事前に定めた有意水準(慣習的には5%)よりも小さい場合に帰無仮説を棄却します。有意水準は、検定手続きにおいて誤って帰無仮説を棄却してしまう確率の上限を定めるものです[3]。
データには常にランダムな変動が含まれています。例えば、ある部署の従業員が上司満足度について全員「普通」と感じているような状況でも、アンケートの回答には多少のばらつきが生じます。例えば、アンケートを回答した日に上司の気分が良く、一部の従業員にポジティブな働きかけをした場合、上司満足度は多少変わってくるかもしれません。このような無作為なばらつきによって、本来ならば差がないにもかかわらず、データ上では差があるような結果が偶然にも示される可能性があります。このような「偶然現れる差」を「本当の差」と誤って判断してしまう確率を5%以下に抑えるのです。
ここで注意点があります。この5%という基準は、1回の検定に対するものです。例えば、1つの部署と全社平均を比較する場合、検定は1回のみ行われることになります。多重検定の問題は、1回の検定における確率を抑える計算手続きを複数回行うことで、その計算が甘くなることにあります。10の部署それぞれについて別々に検定を行う場合、少なくとも1つの部署で誤って差があると判断してしまう確率は、直感的に考えるより遥かに高くなります。
サイコロを振る場合を想像してください。1回振って「1」の目が出る確率は1/6です。では、6回振って少なくとも1回は「1」が出る確率はどうでしょうか。これは1回も「1」が出ない確率を1から引くことで計算できます。1回の試行で「1」が出ない確率は5/6なので、6回全てで「1」が出ない確率は(5/6)^6となります。したがって、少なくとも1回は「1」が出る確率は1-(5/6)^6となり、これは約0.665、約67%になります。
統計的検定の場合も同様の原理が働きます。一回の検定では5%に抑えられていた誤判断の確率が、複数回の検定を行うことで膨らんでいくのです。それぞれの検定が新たな「誤判断の機会」を生み出すためです。サイコロの例で言えば、振る回数が増えれば増えるほど「1」が出る機会が増えていくのと似ています。
有意水準を5%として、実際には統計的に有意な差や関連がないデータで20回検定を繰り返した場合を考えてみます。このとき、少なくとも1つの検定で誤って有意な結果であると判断する確率は、1-(0.95)^20となります。まず、0.95は一回の検定で誤判断を避けられる確率です。誤判断の確率が5%(0.05)なので、正しい判断の(つまり、有意な差や関連がないと判断される)確率は1-0.05=0.95となります。
次に、これを20回繰り返す場合を考えます。全ての検定で正しい判断をするためには、それぞれの検定で正しい判断をする必要があります。独立な事象が全て起こる確率は、個々の確率の積になります。したがって、20回全てで正しい判断をする確率は(0.95)^20となります[4]。
少なくとも1回は誤った判断をする確率は、全て正しい判断をする確率を1から引けば求められます。したがって、実際には統計的に有意な差や関連がないデータで20回検定を繰り返した場合、少なくとも1つの検定で誤って有意な結果であると判断する確率は、1-(0.95)^20となります。これを計算すると約0.64、つまり約64%になります。
多重検定の問題は検定の回数が増えれば増えるほど深刻になります。検定回数が増えると、偽陽性(誤って統計的に有意であると判断すること)の確率は急速に高まります。例えば、検定回数が2倍になったときのことを考えてみましょう。
先ほどと同じ計算方法を使うと、40回の検定を行う場合、少なくとも1つの検定で誤った判断をする確率は1-(0.95)^40となり、これは約0.87、なんと87%になります。同様に、60回の検定を行う場合は約0.95(95%)になります。
このように、検定回数の増加に伴って、誤った判断をする確率は加速度的に高まっていきます。これは単純な比例関係ではありません。検定回数が2倍になると偽陽性の確率は2倍よりもさらに大きくなり、3倍になると3倍よりもさらに大きくなるのです。適切な調整を行わないまま大量の比較を実行すると、ほぼ確実に偽陽性が発生し、それを「意味のある差」として誤って解釈してしまう危険性があるのです。
多重検定の何が問題か
多重検定の問題は、データを用いた人事の意思決定に影響を及ぼす可能性があります。その問題点について見ていきましょう。
第一に、誤った施策の実施につながる可能性があります。組織サーベイの結果、特定の部署で「有意に低いスコア」が検出されたとします。そうなると例えば、その部署に対して特別な研修プログラムを実施したり、管理職の交代を検討したり、あるいは組織構造自体の見直しを行ったりするかもしれません。
これらの施策には三つのコストが発生します。一つは金銭的なコスト(研修費用、コンサルタント費用など)、二つ目は時間的なコスト(施策の計画・実施に費やされる労力)、三つ目は組織的なコスト(変更に伴う混乱や不安)です。
もし「低いスコア」が多重検定による偽陽性だった場合、これらのコストは無駄になってしまいます。また、不必要な介入によって、職場の雰囲気や従業員のモチベーションに悪影響を及ぼすことすらあります。
第二に、組織の公平性に関する問題が生じる可能性があります。例えば、10の部署のうち1つだけが「有意に高い」評価を受けたとして、その部署の管理職に特別な表彰を行う判断をしたとします。
しかし、その「高い評価」が多重検定の影響による偽陽性だった場合、重大な公平性の問題を引き起こします。不公平な評価により、部署間の協力関係や情報共有が妨げられるかもしれません。長期的な人材育成や組織文化にも悪影響を及ぼすかもしれません。
多重検定の問題は、統計的な問題だけではなく、組織の公平性や健全性に関わる重要な課題となるのです。
多重検定をどう調整すれば良いか
多重検定の問題に対処するため、いくつかの調整方法があります。代表的な方法について紹介します[5]。
シンプルな方法として、ボンフェローニ法です。これは、個々の検定の有意水準をα/n(αは有意水準、nは検定する総回数)に設定します。例えば、有意水準を5%に定めた分析において10の部署を比較する場合、検定する総回数は部署の組み合わせ10C2=45回になるため、各検定の有意水準を0.05/45 = 0.0011に設定します。統計的検定を行った際に、p値の基準を0.05(5%)でなく、0.0011(0.11%)を基準に評価するということです。
この方法は簡単に適用できる一方で、やや保守的すぎる傾向があります。偽陽性(誤って差があると判断すること)を避けようとするあまり、真の差(実際に存在する意味のある差)も検出できなくなってしまう、という意味です。
例えば、ある部署で本当に効果的な施策が実施され、従業員のエンゲージメントが向上しているにもかかわらず、統計的な基準が厳しすぎるために、その改善を「統計的に有意でない」と判断してしまう可能性があります[6]。
そこで、より洗練された方法として、ホルム法があります。これは、得られたp値を小さい順に並べ、段階的に判定を行う方法です。
例えば、10の部署を比較する場合を考えましょう。まず、10部署間のすべての組み合わせにおいて平均差の検定を行い、それぞれでp値を算出します。次に、最も小さいp値が示された部署間比較において、0.05/45=0.0011(0.11%)の基準で統計的に検定をします。その結果が有意でない、つまりp値が0.0011を上回る場合は、すべての比較を「有意差なし」と判定して終了です。対して、p値が0.0011より小さい場合は、その比較結果を「有意差あり」とし、次に小さいp値を0.05/44と比較します。この手順を、p値が基準を超えるまで、あるいはすべての比較が終わるまで続けます[7]。基準を超えた時点で、それ以降のすべての比較は自動的に「有意差なし」と判定されます。
ホルム法は、1つの誤った判断をする確率を5%以下に保つことができます。この要件を満たしながら、ボンフェローニ法よりも多くの真の差を検出できる可能性があります。誤った判断の確率を適切にコントロールしながら、統計的に意味のある差をより正確に見つけ出すことができるのです。
脚注
[1] 全社平均と部署平均を比較するために、一標本のt検定などの手法を用いることができるでしょう。
[3] 有意確率の考え方やその算出方法については、当社コラムを参照していただければと思います。
[4] ここで示した(0.95)^nという計算は、各検定が互いに独立であるという仮定に基づいています。しかし実際には、検定間に相関がある場合、真の第一種の過誤の確率はこの計算値より小さくなることが知られています。1つの検定で誤った判断をする傾向がある場合、相関のある他の検定でも同様の傾向が生じやすく、結果として全体としての誤判断確率が独立な場合より低くなるためです。
[5] 多重検定の調整方法には、大きく分けてFamily-Wise Error Rate (FWER)とFalse Discovery Rate (FDR)の制御という2つのアプローチがあります。FWERは、少なくとも1つの誤った判断をする確率を制御する方法で、本コラムで説明したボンフェローニ法やホルム法がこれに該当します。
一方、FDRは誤って「差がある」と判断した検定の割合の期待値を制御する方法です。一般的に、FWERの制御は保守的で、特に検定数が多い場合には検出力が著しく低下する傾向があります。そのため、大規模な多重比較(例:数十以上の部署や、複数の設問項目を同時に比較する場合)では、より緩やかなFDRの制御が適している場合があります。
[6] このように、本来は差や関連がある状態であるのに誤って差や関連がないと判断する誤り、つまり「誤って統計的に有意であると判断すること」を、ここまで述べてきた偽陽性と対比して偽陰性と呼びます。なお、偽陽性はタイプ1エラー、偽陰性はタイプ2エラーにそれぞれ該当するものです。
[7] 例えば、3つの部署のp値が[0.001, 0.02, 0.04]だった場合を考えてみましょう。なお、3部署間の比較回数は3回になります。すると、最初に0.001を0.05/3≒0.017と比較し有意と判定、次に0.02を0.05/2=0.025と比較し有意と判定、最後に0.04を0.05/1=0.05と比較します。この段階的な方法により、ボンフェローニ法よりも検出力を維持しながら、多重性の調整を行うことができます。
執筆者
伊達 洋駆 株式会社ビジネスリサーチラボ 代表取締役
神戸大学大学院経営学研究科 博士前期課程修了。修士(経営学)。2009年にLLPビジネスリサーチラボ、2011年に株式会社ビジネスリサーチラボを創業。以降、組織・人事領域を中心に、民間企業を対象にした調査・コンサルティング事業を展開。研究知と実践知の両方を活用した「アカデミックリサーチ」をコンセプトに、組織サーベイや人事データ分析のサービスを提供している。著書に『60分でわかる!心理的安全性 超入門』(技術評論社)や『現場でよくある課題への処方箋 人と組織の行動科学』(すばる舎)、『越境学習入門 組織を強くする「冒険人材」の育て方』(共著;日本能率協会マネジメントセンター)などがある。2022年に「日本の人事部 HRアワード2022」書籍部門 最優秀賞を受賞。東京大学大学院情報学環 特任研究員を兼務。