2025年6月2日
組織サーベイの「妥当性」を高める:正確な測定のために必要な証拠
組織開発において、従業員の意識や行動を測定することは重要です。近年、多くの企業で組織サーベイが実施されるようになり、従業員の声を定量的に把握する取り組みが広がっています。しかし、そこで使用される尺度は本当に測定したいものを正確に測れているのでしょうか。
この「正確に測れているか」という点を検討する概念が「妥当性」です。妥当性とは、測定したい概念をどれほど適切に測定できているかを意味します。測定ツールが測ろうとしている対象を、どれだけ精確に捉えているかという指標です。
例えば、ワークエンゲージメントを測定したいと考えた場合、「仕事をしていると、元気が出てくる」という単一の質問だけでは、ワークエンゲージメントという複雑な概念を十分に捉えることはできません。ワークエンゲージメントには、「熱意」「活力」「没頭」の三要素が含まれるからです。
このように、測定したい概念をどれほど正確に測れているかを評価するために、妥当性という考え方が重要になってきます。人事施策の効果を正確に把握するためには、この妥当性の概念を十分に理解し、適切な測定手法を選択することが求められます。
妥当性の捉え方
従来、妥当性は「表面的妥当性」「内容的妥当性」「基準関連妥当性」「構成概念妥当性」など複数の異なる種類が並列的に考えられていましたが、「妥当性」は単一の統合的概念として再定義され、従来「構成概念妥当性」と呼ばれた領域が全てを包括する単一の妥当性として位置づけられ、他の妥当性がそれを支持する証拠のひとつとして整理される、という理解が広まりつつあります[1]。
この視点は、測定の質を向上させるための包括的なアプローチを提供します。特に企業の人事領域においては、従業員の態度や行動、組織風土などの抽象的な概念を測定する機会が多いため、この統合的な妥当性の概念を理解することは重要でしょう。
妥当性は「あるかないか」の二分法ではなく、程度の問題として捉え、様々な証拠を積み重ねることで妥当性の程度を高めていくという考え方をとります。人事領域のデータ活用においては、社内で実施するサーベイの質を担保するために、統合的な妥当性の概念を理解しておきたいところです。本コラムでは、妥当性の証拠の種類について解説していきます[2]。
内容に基づく証拠
内容に基づく証拠には、従来の「内容的妥当性」が含まれます[3]。これらは測定ツールの内容そのものに焦点を当て、測定したい概念を適切に反映しているかどうかを評価します。
内容的妥当性とは、測定したい概念を構成する項目が、その概念の意味する範囲(つまりは概念に定めた定義の全体)を十分にカバーしているかどうかを、専門家の視点や理論の観点から検討するものです。例えば、「ワークエンゲージメント」を学術的に正確に測るとして、「仕事に熱意を持っているか」をいった質問項目だけでは、ワークエンゲージメントの全体を十分に捉えているとは言えません。なぜなら、学術的に定義されるワークエンゲージメントには、「熱意」だけでなく「活力」「没頭」という要素があるからです。測定したい概念の全体像を漏れなく捉えるためには、理論的背景に基づいた綿密な質問設計が必要になります。
内容的妥当性においては、専門家の知見や、先行研究での定義などで得られた内容をもとに、「項目が網羅的に選定されているか」をチェックします。例えば、「熱意」「活力」「没頭」など複数の観点から、十分な数の質問項目が用意されているかどうかを、専門家チームが検証するといった方法です。サーベイを設計する際には、測定したい概念について十分な理解を得て、その概念の構成要素を網羅的に測定できる質問項目を準備しましょう。
反応過程に基づく証拠
反応過程に基づく証拠は、従来の妥当性の分類にはあまり明示的に含まれていなかった側面です。回答者が質問項目にどのように認知的に反応し、回答を形成するかというプロセスに焦点を当てます。例えば、回答者が質問をどのように解釈しているか、どのような思考過程で回答を選んでいるかなどを検討します。これは測定ツールの設計者が意図した項目の解釈の仕方と、実際の回答者の解釈が一致しているかどうかを確認するステップです。
例えば、「私は仕事にやりがいを感じている」という質問に対して、回答者がどのような経験や状況を思い浮かべて回答しているのかを、インタビューや発話思考法などで調査することが含まれます。これによって、質問が意図した通りに理解され回答されているかどうかを確認できます。ある回答者は日々の業務内容そのものを思い浮かべるかもしれませんが、別の回答者は職場の人間関係や評価制度を念頭に置いているかもしれません。解釈の違いが大きい場合、質問項目の改善が必要になることがあります。
サーベイの実施前にパイロットテストを行い、少数の従業員に対してインタビューを実施することで、質問の解釈が設計意図と一致しているかを確認することができます。異なる部署や職種、年齢層によって解釈が異なる可能性がある場合には、この検証プロセスが重要になります。多国籍企業では、言語や文化的背景によって質問の解釈が異なる可能性にも注意が必要です。
内部構造に基づく証拠
内部構造に基づく証拠は、測定ツール内の項目間の関係性が、測定しようとしている構成概念の理論的構造と一致しているかどうかを指します。因子分析や項目間の相関パターンなどの統計的手法を用いて検証します[4]。これによって、測定ツールの内部構造が理論的に想定されている構造と合っているかを確認することができます。
ワークエンゲージメントの例を再び持ち出せば、「熱意」「活力」「没頭」という三要素を測定するために設計した質問項目が、実際に3つの因子に分かれるかどうかを因子分析で検証します。もし理論通りの因子構造が確認されれば、内部構造に基づく妥当性の証拠となります。逆に、想定とは異なる因子構造が見られた場合は、測定ツールの再検討が必要かもしれません。
サーベイデータを分析する際には、内部構造の検証を行うことで、サーベイの質を高めることができます。とりわけ定期的に実施するサーベイでは、初回の実施時に構造的な検証を行い、必要に応じて質問項目の修正や追加を行うことが望ましいでしょう。因子構造の安定性を確認するために、複数回の調査結果を比較することも有効です。
他の変数との関係に基づく証拠
他の変数との関係に基づく証拠は、測定ツールの得点と他の変数との関係性パターンが、理論的予測と一致しているかどうかを表します。従来の「基準関連妥当性」「収束的妥当性」「弁別的妥当性」などがこのカテゴリに含まれます。これらの証拠は、測定ツールが測ろうとしている概念が、他の関連概念や実際の行動指標とどのように関連しているかを明らかにします。
基準関連妥当性は、測定したい概念と「客観的な外部の基準(Criterion)」との関連の強さを確認することで評価されます。大きく分けて「予測的妥当性」と「併存的妥当性」の2つがあります。
予測的妥当性は、尺度の得点が、将来的な行動や成果(外部基準)をどの程度予測できるかを指します。例えば、「ワークエンゲージメント」を測る尺度を作ったとします。その得点が高い人は将来的に離職率が低く、または業績評価が高いという結果が得られるならば、その尺度は「予測的妥当性が高い」と言えます。例えば、サーベイ結果と将来の業績や行動との関連性を追跡調査することで、予測的妥当性を確認できます。
併存的妥当性は、尺度の得点と同時期に測定した外部基準との関連を示すものです。予測的妥当性が「未来の指標」との関連を見るのに対し、併存的妥当性は「現在の指標」との関連を見る点が異なります。例えば、ワークエンゲージメントの測定結果と、同時期に測定した生産性や出勤率との関連性を検証することが挙げられます。測定している概念が現在の行動や状態とどの程度関連しているかを確認できます。
さらに、収束的妥当性は、同様または類似した理論的概念を測っているとされる他の尺度と、高い相関を示すかどうかを確認するものです。例えば、新たに作った「ワークエンゲージメント」尺度が、既存の「ワークパッション」を測る定評のある尺度と正の相関を示すか、という点を確認します。理論的に関連が予測される概念間で期待通りの相関が見られれば、測定ツールの妥当性の証拠となります。
対して、弁別的妥当性は、測定したい概念とは理論的に異なる概念の尺度との間に、低い相関または有意な相関がないことを示します。例えば、新たに作った「ワークエンゲージメント」尺度が、理論的に異なる概念とはあまり相関せず、区別がついているかを確認することで、測定ツールが特定の概念を区別して測定できているかどうかを判断できます。異なる概念を測定する尺度間の相関が過度に高い場合、それらが本当に異なる概念を測定できているのか疑問が生じます[5]。
結果に基づく証拠
結果に基づく証拠は、測定ツールの使用がもたらす社会的、倫理的影響や結果を検討する証拠です。測定ツールの使用がどのような影響や結果をもたらすかという観点から妥当性を検証します。この側面は、測定ツールの実用的な価値に焦点を当てており、組織の意思決定や施策立案に影響を与える組織サーベイにおいて重要です。
これは結果妥当性とも呼ばれ、従来の妥当性概念が測定の精度や正確さに主眼を置いていたのに対し、結果妥当性は測定行為自体が測定対象や環境に与える影響を考慮するという、より広い倫理的視点を取り入れたものです。
例えば、組織全体で非生産的行動を減らすべく組織サーベイで実態調査を実施したとします。それを行ったことで「組織が非生産的行動に対して意識を高めている」ことが従業員に伝わり、従業員も意識を高めて非生産的行動が抑制されていくかもしれません。このような測定ツールの使用がもたらす非意図的な結果も、結果妥当性の観点から検討する必要があります。
また、サーベイ結果の共有方法や運用によっては、組織内の信頼関係やモチベーションに正負の影響を与える可能性があります。例えば、否定的な結果が出たにもかかわらず、改善策が講じられなければ、従業員の組織への不信感が高まるかもしれません。逆に、結果を適切に共有し、具体的な改善策を実施することで、組織への信頼感や参加意識が高まる可能性もあります。
結果妥当性の検討においては、このような測定前・測定中・測定後の影響についても含めて考える必要があります。この視点は、測定が単純な情報収集の手段ではなく、組織変革のプロセスの一部であるという認識を促すでしょう。サーベイの設計段階から結果のフィードバックまで、測定がもたらす組織への影響を総合的に考慮することが求められるのです[6]。
脚注
[1] Cronbach & Meehl(1955)が提唱した構成概念妥当性は、Messick(1989)により拡張されました。Messickは妥当性を「単一の統合された評価的な判断」と再定義し、構成概念妥当性を中核に据えつつ、内容的側面、実質的側面、構造的側面、外的側面、結果的側面を含む多面的な枠組みを構築しました。構成概念妥当性が消滅したのではなく、むしろ妥当性概念全体を包含するまでに拡張されたと理解すべきでしょう。
- Cronbach, L. J., & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52(4), 281-302.
- Messick, S. (1989). Validity. In R. L. Linn (Ed.), Educational Measurement (3rd ed., pp. 13-103). American Council on Education and Macmillan.
[2] 本コラムは特に、下記の文献を参照して内容を整理しています。妥当性についてより精緻な議論を知りたい方は、これらの文献も合わせて読むとさらに掘り下がった知識が得られるためおすすめです。
- Hill, J., Ogle, K., Gottlieb, M., Santen, S. A., & Artino Jr, A. R. (2022). Educator’s blueprint: a how‐to guide for collecting validity evidence in survey‐based research. AEM education and training, 6(6), e10835.
- Messick, S. (1995). Validity of psychological assessment: Validation of inferences from persons’ responses and performances as scientific inquiry into score meaning. American psychologist, 50(9), 741-749.
- 村山 航 (2012). 妥当性概念の歴史的変遷と心理測定学的観点からの考察 教育心理学年報, 51, 118-130.
[3] 表面的妥当性と呼ばれるものもあり、「この項目は測りたいものを測っている」と見なせる度合いを指します。特に専門家が、質問の内容を見たときに「これは職場の満足度を測ろうとしているのだろう」と認められるかどうかが、表面的妥当性の一種の指標になります。実務上は、回答者にとっても質問の意図や目的がある程度伝わることで、回答しやすくなる可能性が高まるかもしれません。
[4] 因子分析については、以下の当社コラムで解説しています。
[5] 他の変数との関連という意味では、増分的妥当性という考え方もあります。これは、ある新しい尺度が、既存の尺度に比べてどれだけ付加価値のある情報をもたらすかを示します。例えば、「組織コミットメント尺度により離職を25%予測できたが、この新しいワークエンゲージメント尺度を加えると35%まで予測精度が上がった」といった場合、新しい尺度は離職に対して組織コミットメントと異なる独自な影響力を持っており、増分的妥当性があると言えます。
[6] このコラムで挙げたもの以外に、測定の一般化可能性も妥当性の証拠に含まれ、これを考慮することも重要です。一般化可能性は、特定の集団や状況で確認された測定の妥当性が、他の集団や状況にも適用できるかという問題です。例えば、大企業で検証された組織サーベイが中小企業でも同様に機能するか、日本で開発された尺度が他の文化圏でも同じ構成概念を測定できるかといった点が含まれます。一般化可能性には、文化的背景、年齢層、職種などの要因が影響するため、異なる集団での測定不変性の検証が重要になります。また、いわゆる測定の信頼性も一般化可能性に含まれます。
執筆者
伊達 洋駆 株式会社ビジネスリサーチラボ 代表取締役
神戸大学大学院経営学研究科 博士前期課程修了。修士(経営学)。2009年にLLPビジネスリサーチラボ、2011年に株式会社ビジネスリサーチラボを創業。以降、組織・人事領域を中心に、民間企業を対象にした調査・コンサルティング事業を展開。研究知と実践知の両方を活用した「アカデミックリサーチ」をコンセプトに、組織サーベイや人事データ分析のサービスを提供している。著書に『60分でわかる!心理的安全性 超入門』(技術評論社)や『現場でよくある課題への処方箋 人と組織の行動科学』(すばる舎)、『越境学習入門 組織を強くする「冒険人材」の育て方』(共著;日本能率協会マネジメントセンター)などがある。2022年に「日本の人事部 HRアワード2022」書籍部門 最優秀賞を受賞。東京大学大学院情報学環 特任研究員を兼務。