ビジネスリサーチラボ

open
読み込み中

コラム

なぜ一つの質問では足りないのか:多項目測定の根拠

コラム

組織サーベイにおいて概念を測定する際、一つの質問項目ではなく複数の質問項目を用いるほうが有効です。例えば、ワーク・エンゲージメントを測定する際、「仕事に熱心に取り組んでいる」「仕事から活力を得ていると感じる」「仕事に没頭している」などといった具合に、複数の質問項目を設定します。

こうした多項目測定には重要な利点があります。本コラムでは、なぜ一つの概念を複数の質問項目で測定することが望ましいのかについて解説します。特に、測定の精度や信頼性、妥当性の観点から、多項目測定の利点を説明します。

組織サーベイの具体例を交えながら説明を進めます。本コラムの解説を通じて、サーベイ設計における多項目測定の重要性を理解していただければ幸いです[1]

概念を多面的に把握する

例えば、ワーク・エンゲージメントには「活力」「熱意」「没頭」など、複数の側面が存在します。このように心理的概念は、単一の側面だけで完全に捉えることは困難な場合が多いということです。

心理統計では、測定したい概念(潜在変数)θを、複数の基本的な構成要素からなる合成概念として捉えます。この考え方によれば、一つの概念は複数の要素が組み合わさって形成される多次元的な性質を持っています[2]。色が赤・緑・青の三原色の組み合わせで表現できるように、心理的概念も複数の要素の組み合わせで表現できると考えるのです。

それらの複数の要素を捉えるには、それに応じて複数の項目を作問する必要があります。ワーク・エンゲージメントは3つの側面からなる概念であるならば、その測定は最低でも3項目必要です。もしこの概念を1~2項目で測定しようとしたら、3つの概念の内容をひとつの項目の中に押し込める必要が出てしまいます。すると、ひとつの項目内で複数の内容を問うダブル・バーレル項目となる問題が生じます。ダブル・バーレル項目はその構成上、「あてはまる」など肯定的な回答がされても、データの上で含まれる複数の内容のうちどの側面がどの程度あてはまっているか不明瞭になり、データが持つ概念の意味合いがわからなくなってしまいます。

加えて、複数の各側面についても、必要十分な量の内容を捉えることが有効です。例えば、ワーク・エンゲージメントの1側面である「没頭」は仕事に集中している状態と定義される概念ですが、そのような状態を捉える際には、「仕事に没頭している」といった内容以外に、「余計なことに気を取られることなく、仕事に取り組んでいる」など、概念定義の範囲内で違った事柄を問う内容も複数捉えることが求められます。もしこれをやらずに各側面1項目ずつで質問すると、各側面が大まかに捉えられてしまい、個々の従業員の特徴をうまく捉えられなくなってしまいます。

質問項目を増やして概念を多くの異なる方向から測定することで、潜在変数をより細かく、より正確に表現できるようになります。ある建物を様々な角度から撮影することで、建物の全体像をより正確に把握できるようになるようなイメージです。各質問項目が異なる視点からの「写真」を提供し、それらを組み合わせることで、測定対象の全体像を詳細に把握することができます[3]

そのように様々な方向から測定することは、内容的妥当性の向上につながります。内容的妥当性とは、測定対象となる概念の本質的な特徴を、測定方法がどれだけ網羅的に反映できているかを表します。例えば、テストで「足し算」だけを出題して「算数の計算能力」を測定しようとすることは、内容的妥当性が低いと言えます。算数の計算能力には、例えば「引き算」「掛け算」「割り算」など、他の重要な側面も含まれているからです。

個人差を正確に捉えられる

項目数が多いほど、指標の得点が回答者間の個人差をより細やかに反映できるメリットがあります。学力テストにおいて、小テストのような数問のみのテストでは実力の一部しかわかりませんが、期末テストのように多くの問題で多様な内容を出題すれば実力が網羅的に捉えられることと同じです。

このメリットは、統計学では特に項目反応理論という分析枠組みで扱われています。項目反応理論では、ある概念を測定するために用いられる各項目がうまく概念を捉えられているかという測定精度を検証します[4]。その中で、「各項目は、測定したい概念について回答者のどういった状態を捉えることができるか」を表す困難度と呼ばれる指標を推定します。困難度が高い項目は、アンケートにおいて「あてはまる」と肯定的に回答することが測定したい概念の状態が高い・良い人でないと難しいような項目を表します。逆に困難度が低い項目は、アンケートにおいて「あてはまる」と肯定的に回答することが誰でも簡単にできるような項目を表します。例えば、貢献意欲を測定する架空の質問項目として、「求められる成果を最低限こなそうと努める」は貢献意欲が高くなくても「あてはまる」と回答できそうな、困難度が低い項目です。一方、「会社に貢献できることがないか、日々探っている」は相当な貢献意欲がないと「あてはまる」と回答できない、困難度が高い項目といえます。

概念を測定する項目は、サーベイの目的に応じて、必要なだけの困難度バリエーションがあることが望ましいです。例えば、「従業員の様々な状態を把握したい」ならば、困難度が低い・中程度・高い項目をまんべんなく含めることが有効です。また、「ハイパフォーマーの把握」が目的ならば、困難度が高い項目を多めにして困難度が低い項目を少なくまとめると、ハイパフォーマーのみで指標の得点が高くなり、ハイパフォーマーが誰なのか把握しやすくなります。

以上の議論を踏まえて単一項目による測定を考えると、困難度にバリエーションが出せないことが問題だとわかります。単一項目での測定は、学力テストに置き換えると「問題が1問だけのテストで、生徒の学力を判断しようとしている」状態です。それでは学力を適切に把握するのは難しいでしょう。学力テストには相応の問題数が盛り込まれるのと同様に、回答者の状態を正確に測定したいならば、多くの項目で測定する必要があるということです。

誤差が平均化される

古典的テスト理論は、1900年代初頭から発展してきた測定理論の基礎となる考え方です。この理論は、人々の回答データに含まれる誤差や不確実性を、数学的な枠組みの中で扱うための体系を提供します。例えば、同じ人が同じ質問に対して異なる時点で異なる回答をすることがありますが、この理論はそのような現象を説明し、対処する方法を提供します。

古典的テスト理論では、私たちが観測する回答値(観測値)Xが、その人が本当に持っている特性の値(真値)τと、様々な要因によって生じる誤差εの和として表現できると考えます。これは数式で言えば、X=τ+εと表されます。例えば、ある人のワーク・エンゲージメントの真の値が7τ=7)だったとしても、その日の気分や環境の影響で、実際の回答(X)は8になったり(ε=+1)、6になったり(ε=-1)する可能性があります。

このモデルにおいて、誤差εは長期的に見ると特定の方向への偏りを持たないと仮定されます。プラスの方向の誤差(例えば、+1)とマイナスの方向の誤差(例えば、-1)がランダムに発生するという仮定です。サイコロを何度も振り続けると、各目が出る回数が均等に近づいていくのと同じような考え方です。そのような発想のため、誤差の期待値(平均)は0となると仮定します。

誤差の大きさのばらつきは、誤差分散σ²という指標で表現されます。これは、誤差が平均値(0)からどの程度離れているかを指します。例えば、ある質問項目の誤差分散が1.0である場合、別の質問項目の誤差分散が4.0である場合と比べて、誤差のばらつきが小さく、より安定した測定が可能であることを表しています。

複数の質問項目の平均値を計算する場合、各項目の観測値から得られる式「x=(1/n)Σ(τ+εi)=τ+(1/n)Σεi」は、重要な性質を持っています。この式の右辺は、真の値τと、n個の誤差の平均値(1/n)Σεiから構成されています。複数の質問項目の平均値は、その人の真の特性値と、各質問項目の測定誤差を平均化したものの和として表現できることを意味します。例えば、3つの質問項目があり、真の値が7で、それぞれの誤差が+1, -1, 0 だった場合、平均値は7+(1/3)(+1-1+0)=7となります。

ここで各質問項目の誤差εiは、互いに独立していると仮定されます。ある質問項目での誤差が、他の質問項目での誤差に影響を与えないということです[5]。例えば、1つ目の質問で気分が良くて高めの回答(正の誤差)をしたからといって、2つ目の質問でも必ず高めの回答をするわけではありません。

この独立性の仮定のもとでは、独立した確率変数の和の分散は、個々の分散の和に等しいという性質を用いることができ、誤差の平均値の分散を計算することができます。具体的には、Var((1/n)Σεi)=(1/n²)Σσ² =σ²/nという式が導かれます。この式は、n個の質問項目の平均値に含まれる誤差の分散が、単一項目の誤差分散のn分の1になることを示しています[6]

この性質は、多項目測定の重要な利点を説明するものです。例えば、誤差分散が1.0の質問項目を10個使用して平均を取ると、その平均値の誤差分散は少なくとも理論的には1.0/10=0.1となります。単一項目で測定した場合と比べて、誤差のばらつきが10分の1に減少するということです。まとめると、項目数を増やすほど誤差による測定のばらつきが減って、本来測定したい真値がうまく反映されたデータが得やすくなり、これが多項目測定のメリットのひとつです。

推定精度が向上する

因子分析モデルは、観測された回答値と、測定したい潜在変数との関係をより精緻な形で表現します。観測値は、潜在変数の線形関数として表現され、そこに測定誤差が加わると考えます。例えば、潜在変数の値が1単位増加すると、観測値も一定の割合(因子負荷量)で増加すると仮定します。

この関係は「Xi=Mi+λiθ+εi」という式で表すことができます[7]。この式において、Xiは項目iの回答値、Miは以降の指標を除いた全回答者に共通する平均的なXiの値を指します。θは項目iが捉えている測定したい潜在変数(例えば、ワーク・エンゲージメント)の真の値[8]を表し、λiは因子負荷量と呼ばれる指標です。因子負荷量は、潜在変数θ1単位変化したときに、質問項目iの観測値がどれだけ変化するかを示します。例えば、λi=0.7の場合、潜在変数が1単位増加すると、その質問項目の観測値は0.7単位増加すると解釈できます。εiは、その質問項目に固有の測定誤差を表します。

このモデルにおいて、因子負荷量を表すλiの推定精度は、測定したい潜在変数を構成する項目数が増えるほど高くなることが示されています[9]。より多くの質問項目を用いて潜在変数を捉えることで、潜在変数に関する多くの情報が得られ、各項目が概念をどの程度反映しているかを表す因子負荷量λiの推定精度も高まっていきます。同じ対象を複数の角度から観察することで、より詳細な情報が得られるのです。ある建物を1枚の写真で撮影するよりも、複数の角度から撮影した写真を組み合わせる方が、建物の状態を正確に把握できます。それと同様に、複数の項目で潜在変数を捉えた方が潜在変数の状態をより正確に捉えることができるわけです。

脚注

[1] なお、本コラムでは、まず概念の多次元性を説明し、その後、単一次元のモデルを用いた説明に移行していきます。これは、複雑な多次元構造を理解した上で、説明の簡略化のために段階的にモデルを単純化するというアプローチを採用したためです。実際の分析では、まず多次元性を考慮したモデルで構造を確認し、必要に応じて次元の縮約や単純化を検討することが望ましいでしょう。

[2] 多くの心理特性は、複数の側面が絡み合う多因子的構造を有しています。一つの潜在変数に全ての項目が直線的に収れんするという想定を吟味せずに使用すると、潜在構造が過度に単純化され、測定概念を十分に捉えられない恐れがあります。実際には、因子分析などを用いて多次元性を検討し、適切なモデルを採用することが重要です。

[3] 多項目化は理論的に測定精度を高める一方で、回答者が多くの項目に答えることによる負担増を引き起こします。質問数が増えると回答者は疲労し、集中力が低下し、結果的に回答の質が下がる恐れがあります。

また、似通った項目を繰り返すことで冗長性が生じ、回答者は実質的に同じ問いを再三示されるため、注意が散漫になったり、形式的な回答を続けたりする可能性もあります。調査全体の時間やコストも膨らむことを踏まえ、項目選択では吟味が求められます。

[4] 項目反応理論については、以下の当社コラムで解説しています。

[5] 古典的テスト理論では、各質問項目の誤差が互いに独立であることを前提としますが、実務上はこの前提が崩れることがあります。類似した表現や設問形式を持つ項目群では、回答者の反応様式が系統的に似通い、誤差が相関する可能性があります。また、回答の順序や文脈も誤差を歪める要因となり得ます。こうした状況では、独立性仮定に基づく信頼性推定は過大評価や過小評価を招きます。

[6] 古典的テスト理論の数式で取り上げられ、ここで改正している誤差は、正確には「偶然誤差」といいます。多項目測定は偶然誤差を平均化する上では有効ですが、同質的なバイアスが全項目に及ぶ場合、その偏りは複数項目を組み合わせても残ります。例えば、文化的背景や回答者特性、用語選択上の偏りが全ての項目に共通して存在すると、いくら項目数を増やしてもその影響は軽減できません。

そのような、ランダム性がなく一貫して測定データに混入し続ける誤差を「系統誤差」と呼び、その対処には、項目形式や文面を多様化する、異なる測定手段(例えば、他者評価)を組み合わせる、あるいは構造方程式モデリングなどを用いるといった対策が求められます。また、事前に専門家レビューを行い、潜在的なバイアス要因を排除することも大切です。単純な項目数増加ではなく、測定設計そのものの品質向上が欠かせません。

[7] ここで示した式(Xi=λiθ+εi)は、説明の簡略化のため一因子モデルを前提としています。しかし、実際には多くの心理的構成概念は、複数の因子から構成される多次元的な構造を持っています。厳密には、複数因子モデル(Xi=Σ(λijθj)+εi)を考慮する必要があります。このモデルでは、各観測値が複数の潜在因子の影響を受けることを表現できます。

[8] この潜在変数θからなる真の値は、因子得点のことを指します。

[9] 因子負荷量の推定精度(標準誤差)と項目数の関係性については、以下の論文でその数理的背景と二次データ分析による実証結果が示されています。

Yuan, K. H., Cheng, Y., & Zhang, W. (2010). Determinants of standard errors of MLEs in confirmatory factor analysis. Psychometrika75(4), 633-648.


執筆者

伊達 洋駆 株式会社ビジネスリサーチラボ 代表取締役
神戸大学大学院経営学研究科 博士前期課程修了。修士(経営学)。2009年にLLPビジネスリサーチラボ、2011年に株式会社ビジネスリサーチラボを創業。以降、組織・人事領域を中心に、民間企業を対象にした調査・コンサルティング事業を展開。研究知と実践知の両方を活用した「アカデミックリサーチ」をコンセプトに、組織サーベイや人事データ分析のサービスを提供している。著書に『60分でわかる!心理的安全性 超入門』(技術評論社)や『現場でよくある課題への処方箋 人と組織の行動科学』(すばる舎)、『越境学習入門 組織を強くする「冒険人材」の育て方』(共著;日本能率協会マネジメントセンター)などがある。2022年に「日本の人事部 HRアワード2022」書籍部門 最優秀賞を受賞。東京大学大学院情報学環 特任研究員を兼務。

能渡 真澄 株式会社ビジネスリサーチラボ チーフフェロー
信州大学人文学部卒業、信州大学大学院人文科学研究科修士課程修了。修士(文学)。価値観の多様化が進む現代における個人のアイデンティティや自己意識の在り方を、他者との相互作用や対人関係の変容から明らかにする理論研究や実証研究を行っている。高いデータ解析技術を有しており、通常では捉えることが困難な、様々なデータの背後にある特徴や関係性を分析・可視化し、その実態を把握する支援を行っている。

#能渡真澄 #伊達洋駆 #人事データ分析

アーカイブ

社内研修(統計分析・組織サーベイ等)
の相談も受け付けています