ビジネスリサーチラボ

open
読み込み中

コラム

その「違い」に意味はあるか:有意性検定と効果量の違い

コラム

組織サーベイを通じて、様々なデータを取得し、それらを基に施策を検討する企業が増えています。「前年比で3ポイント上昇した」「部署間で5ポイントの差がある」といった数値の違いを目にする機会も出てきているかと思います。しかし、これらの違いは、本当に意味のある差なのでしょうか。

ある人事施策を実施した結果、エンゲージメントスコアが2ポイント上昇したとします。この変化は施策の効果を反映したものなのか、それとも自然な変動の範囲内なのか。また、2ポイントという上昇幅は十分な改善と言えるのでしょうか。こうした判断を行う際に重要な役割を果たすのが、「有意性検定」と「効果量」という2点です。

本コラムでは、有意性検定と効果量の考え方と、それらがなぜ重要かについて解説します。これらを理解することで、社内の様々なデータをより深く、正確に解釈できるようになり、より効果的な人事施策の立案と実行につなげることができるはずです。

有意性検定とは

有意性検定は、統計的仮説検定や帰無仮説検定とも呼ばれ、データから観察された差が統計的に意味のあるものかどうかを判断するための手法です。例えば、ある会社で新しい研修を導入し、導入前後でエンゲージメントスコアを測定したところ、平均値が72点から75点に上昇したとします。この3ポイントの上昇は、研修プログラムの効果によるものと言えるでしょうか。

測定値には様々な要因による変動が伴います。回答者の体調、業務の繁忙度、天候、直近の出来事、質問項目の性質など、数多くの要因がスコアに影響を与える可能性があります。同じ条件で調査を行っても、測定値はそれらの要因の影響もあり一定の範囲で上下します。この変動は、測定における本質的な性質であり、完全に取り除くことはできません。

有意性検定は、測定値の持つ性質を踏まえ、より深い考察を可能にする手法です。具体的には、観察された差が「収集されたデータにおいて想定される、測定上の変動の範囲」を超えているかどうかを評価します。これによって、観察された差が統計的に意味のあるものか、それとも測定に伴う自然な揺らぎの範囲内かを判断することができます[1]

この判断プロセスにおいては、まず、「研修には効果がない」という仮説(これを「帰無仮説」と呼びます)を立てます。帰無仮説は、観察された差が単なる測定上の変動によるものだという仮定を表現したものです。

続いて、帰無仮説に基づいて、実際に観測されたようなデータ(あるいはさらに極端なデータ)が得られる確率を計算します。この確率が「p値」です。

p値は、仮に「研修に効果がない」という帰無仮説が真である場合に、実際に観察されたデータと同程度かそれ以上に極端なデータが得られる確率を表しています。これは、すなわち、観察された差を単なる測定上の変動として説明することが難しい可能性が高いということを意味します。

一般的には、p値が5%0.05)未満の場合、その差は「統計的に有意」であると判断します。この5%という基準は、慣習として広く受け入れられているものです[2]。これは、「観察された差を単なる測定上の変動として片付けるには、今回のデータが得られる確率はあまりにも小さすぎる」と判断できる基準を指します[3]

ただし、ここで重要なポイントがあります。有意性検定は、あくまでも「観察された差が測定上の通常の変動として説明できる範囲を超えているかどうか」という、統計的な判断を提供するだけです。たとえば、エンゲージメントスコアが3ポイント上昇し、それが統計的に有意であったとしても、この結果だけでは、その上昇が人事施策として十分な成果と言えるのか、という実務的な判断はできません。

統計的有意性は、効果の大きさについて何も語っていません。1ポイントの上昇でも、10ポイントの上昇でも、それが統計的に有意であるかどうかは、別の問題です。有意性検定は「その差が確からしい」ということは教えてくれますが、「その差が大きいのか」については教えてくれないのです[4]

効果量とは

効果量は、観察された差や関係性の強さを、数値として表現するものです。有意性検定が「この差は統計的に意味があると言えるか」という二値的な判断を提供するのに対し、効果量は「その差がどれほどの大きさなのか」を連続的な数値として示します。

効果量の意義は、実務的な意思決定において明確になります。例えば、ある研修の効果が統計的に有意であることが分かったとしても、その効果が実務的にどの程度のインパクトを持つのかを判断するためには、効果の大きさを定量的に評価する必要があります。効果量は、まさにこの評価を可能にする指標です。

効果量の指標の一つに、Cohen’s dがあります。これは、2つのグループ間の差の大きさを評価する際によく用いられる指標です。単純化して言えば、2つのグループの平均値の差を、データのばらつきを意味する指標で割って計算します[5]。この計算には重要な意味があります。

エンゲージメントスコアが100点満点で評価される場合と、5点満点で評価される場合を考えてみましょう。100点満点では1点の差は小さく感じるかもしれませんが、5点満点では1点の差でも大きな違いとなります。また、同じ尺度であっても、回答のばらつき方によって、同じ点数差の持つ意味は異なります。

Cohen’s dは、このような問題を解決するために、差の大きさを標準化します。観察された差を、そのデータが持つばらつきの大きさで割ることで、尺度に依存しない、比較可能な指標として表現するということです。

2つの部署でエンゲージメントスコアに5ポイントの差があったとします。しかし、この5ポイントという差が「大きい」のか「小さい」のかを判断するためには、そのスコアがどの程度ばらついているのかを考慮する必要があります。

もし社内で測定したエンゲージメントスコアのデータが通常30ポイントから90ポイントまで広く分布しているような場合、5ポイントの差は比較的小さな違いかもしれません。一方、ほとんどの部署のスコアが70ポイントから80ポイントの間に集中しているような場合、5ポイントの差は大きな違いとなります。Cohen’s dは、このようなデータの特性を考慮に入れた評価を可能にします。

有意性検定と効果量の違い

有意性検定と効果量は、データ分析において異なる役割を果たします。有意性検定は「観察された差が、測定上の通常の変動として説明できる範囲を超えているかどうか」を評価します。これは、裏を返せば、観察された差が「確かな差」であるか否か判断するものです。

一方、効果量は「その差がどれくらいの大きさなのか」を数値として示します。これは、観察された差では捉えにくい差異の大きさを、統計的に評価するものです。例えば、ある人事施策によってエンゲージメントスコアが有意性検定により統計的に有意な上昇を示したとしても、その上昇幅が0.1ポイントであれば、差はほとんどないと判断でき、実務的な価値は限定的かもしれません。

効果量の特徴の一つは、サンプルサイズ(回答者数)の影響を直接的には受けにくい点です[6]。ある研修の効果を測定した際に、エンゲージメントスコアが0.5ポイント上昇したとします。この0.5ポイントという変化を効果量(Cohen’s d)で評価した場合、それが100人規模の調査で得られた結果であっても、1000人規模の調査で得られた結果であっても、(研修前後で取った差の平均値と標準偏差が同じであれば)同じ値となります。

これは重要な特徴です。有意性検定の結果はサンプルサイズによって変わる可能性があるためです。1000人規模の調査では0.5ポイントの差でも統計的に有意となる可能性が高いのですが、100人規模の調査では同じ0.5ポイントの差が有意とならないかもしれません[7]。効果量は、このようなサンプルサイズの影響を直接には受けないため、「差の大きさ」そのものを評価することができます。

有意性検定と効果量では、結果の表現方法も異なります。有意性検定は「有意である」か「有意でない」かという、二つに一つの判断しか提供しません。これは、医薬品の効果判定のように、明確な判断が必要な場合には適していますが、人事施策の効果を評価する際には、やや単純すぎるかもしれません。

他方で、効果量は連続的な値として結果を示します。たとえば、Cohen’s dの値として0.30が得られた場合、これは「小から中程度の効果」として解釈できます。0.6であれば「中程度より大きな効果」、0.2であれば「より小さな効果」というように、細やかな評価が可能です[8]

有意性検定と効果量の補完的な関係

これら二つの指標を組み合わせることで、豊かな解釈が可能になります。実際の分析では、主に4つのパターンが得られます。

1つ目は、統計的に有意で効果量も大きい場合です。例えば、新しいキャリア開発プログラムを導入した結果、エンゲージメントスコアが5ポイント上昇し(p<0.01)、効果量も大きい(d=0.80)というケースです。これは新しいプログラムの有効性が強く支持された結果と言えるでしょう。

この結果の場合、統計的には二つの条件が満たされています。一つは、観察された変化が統計的に信頼できるものだということ。もう一つは、その変化の大きさが実務的に意味のある水準に達していそうだと評価できることです。このような結果が得られた場合、その施策は効果的であり、さらなる展開や投資を検討する価値があると判断できるでしょう。

2つ目は、統計的に有意だが効果量が小さい場合です。従業員1000人規模の調査で、研修後にエンゲージメントスコアが0.5ポイント上昇し、統計的には有意(p < 0.05)だが、効果量は小さい(d = 0.03)というケースです。

このような結果が得られた場合、施策の費用対効果を特に慎重に検討する必要があります。統計的に有意な結果が得られたからといって、必ずしもその施策が価値のあるものだとは限らないのです。実際の意思決定においては、その微小な改善を得るために必要なコストや労力が正当化できるかどうかを吟味しなければなりません。

3つ目は、統計的に有意ではないが効果量が大きい場合です。例えば、20人程度の小規模な部署で新しいマネジメント手法を試験的に導入し、エンゲージメントスコアが8ポイント上昇したものの、サンプルサイズが小さいために統計的有意性は得られず(p=0.38)、しかし効果量は大きい(d=0.73)というケースです。

この不一致は、サンプルサイズが小さいことに起因しているかもしれません。20人という小規模なサンプルでは、たとえ実質的な効果があったとしても、それを統計的に「有意」と判断するために必要な検出力が不足している可能性があります。

4つ目は、統計的に有意でなく効果量も小さい場合です。この結果を見る限り、施策の効果については否定的な判断を下さざるを得ないでしょう。観察された変化が統計的な有意性を持たないだけでなく、その変化の大きさ自体も意味のある水準に達していないためです。

このような結果が得られたとき、その施策は期待された効果を生み出していない可能性が高いと判断されるでしょう。施策の内容や実施方法を見直すか、異なるアプローチを検討する必要があります。

脚注

[1] 統計的な検証プロセスのより詳しい解説は、当社コラム『人事のためのデータ分析講座「統計的に有意」を学ぶ(セミナーレポート)』をご覧ください。

[2] 5%という有意水準は慣習的なものであり、この基準を機械的に適用することには注意が必要です。例えば、重大な意思決定を伴う場合はより厳しい基準を採用したり、探索的な調査では緩い基準を採用したりすることもあるでしょう。有意水準は調査や分析の目的に応じて設定します。

[3] 統計的有意性は、指標間の関連性の存在を示唆するものですが、因果関係の証明にはなるわけではありません。例えば、研修後にエンゲージメントが向上したとしても、それが研修の効果なのか、他の要因(業績の向上、組織変更など)の影響なのかを、統計的有意性のみから判断することはできません。

[4] 統計的有意性への過剰な依存は、実務上の意思決定に誤解をもたらす可能性があります。特に、統計的有意性(p値)を求めるために、サンプルサイズを意図的に増やしたり、分析を繰り返したりする「p値ハッキング」や、複数の仮説検定を行う際の多重検定のリスクがあります。これらの方法で、統計的に有意な結果が得られても、実際の効果が実務的に意味を持たないことがあり得ます。

[5] Cohen’s dの具体的な計算方法としては、2群の平均値の差を、プールされた標準偏差で割ることで求めます。プールされた標準偏差とは、2群のデータのばらつきを総合的に考慮した値です。各群の標準偏差を両群のサンプルサイズで重み付けして算出します。効果量に関する詳細は当社コラムをご覧ください。

[6] より厳密に言えば、効果量の点推定値自体はサンプルサイズの影響を直接的には受けませんが、その推定の精度はサンプルサイズに依存します。サンプルサイズが小さい場合、効果量の推定値は不安定になり、真の効果量から離れた値となる可能性が高くなります。また、効果量の信頼区間も広くなります。そのため、実際に効果量を解釈する際には、サンプルサイズも考慮に入れる必要があるでしょう。特に小規模なサンプルでの分析結果を解釈する際は、得られた効果量の値を暫定的なものとして扱うことをおすすめします。

[7] この観点は、統計的検定力と呼ばれる指標で評価できます。この指標は、差異や効果を正確に検出できる程度を表し、主にサンプルサイズ、効果量の大きさ、有意水準の3要素によって決定されます。サンプルサイズが小さすぎると、実際には意味のある効果があっても、それを統計的に検出できない可能性が高くなります。

[8] 効果量の解釈基準(Cohen’s dの場合、0.2が小、0.5が中、0.8が大)は、この指標を開発したCohenが提案したものです。この基準は絶対的なものではなく、分野や状況によって異なる可能性があります。


執筆者

伊達 洋駆 株式会社ビジネスリサーチラボ 代表取締役
神戸大学大学院経営学研究科 博士前期課程修了。修士(経営学)。2009年にLLPビジネスリサーチラボ、2011年に株式会社ビジネスリサーチラボを創業。以降、組織・人事領域を中心に、民間企業を対象にした調査・コンサルティング事業を展開。研究知と実践知の両方を活用した「アカデミックリサーチ」をコンセプトに、組織サーベイや人事データ分析のサービスを提供している。著書に『60分でわかる!心理的安全性 超入門』(技術評論社)や『現場でよくある課題への処方箋 人と組織の行動科学』(すばる舎)、『越境学習入門 組織を強くする「冒険人材」の育て方』(共著;日本能率協会マネジメントセンター)などがある。2022年に「日本の人事部 HRアワード2022」書籍部門 最優秀賞を受賞。東京大学大学院情報学環 特任研究員を兼務。

#伊達洋駆 #人事データ分析

アーカイブ

社内研修(統計分析・組織サーベイ等)
の相談も受け付けています