2025年12月15日
項目点検の陥穽:良かれと思ったフィードバックが妥当性を損なう
人事部門では、エンゲージメントサーベイや従業員意識調査など、組織の状態を把握するための数多くの「問い」を扱っています。もし、皆さんが経営層や他部署の管理職にサーベイ項目の事前点検を依頼したとします。
多くの方は、調査の質を向上させたいという善意から、熱心に項目の検討を始めるはずです。言葉の定義の曖昧さを指摘し、より正確な表現を提案し、想定される例外的な状況を挙げてくれるかもしれません。その貢献は価値があるように思われます。
しかし、その善意に基づくフィードバックが、かえってサーベイの測定精度を損ない、組織診断としての妥当性を低下させてしまう可能性があるとしたら、どうでしょうか[1]。本コラムでは、この問題の構造について解説します。
人の思考に存在する二つのモード、すなわち直感的で速い思考と、分析的で遅い思考。この違いが、サーベイ項目の評価にどのような影響を与えるのか。専門家がその影響とどのように向き合い、科学的な精度を追求しているのか、その過程を説明します。
直感的な「回答者」と分析的な「点検者」
同じ人間が、同一のサーベイ項目を前にしたとき、その評価が状況によって異なることがあります。この現象を理解する鍵は、「システム1」と「システム2」という二つの異なる思考モードにあります[2]。
従業員の自然な状態:直感で動く「回答者」
従業員がサーベイに回答する際の自然な心理状態、いわば「回答者モード」について説明します。これは「システム1」の思考が優位な状態です。例えば、「現在の仕事にやりがいを感じている」という項目に対し、従業員は日々の業務経験や感情を瞬時に統合し、深く考え込むことなく「4(そう思う)」などを選択するでしょう。
このとき、思考は「直感的」かつ「迅速」に機能しています。「やりがい」という言葉の厳密な定義を問うことはせず、「おそらくこういう意味だろう」と自身の全体的な経験に基づいて理解して回答します。これは、私たちの脳が持つ効率的な情報処理の仕組みです。表現の多少の曖昧さも、文脈から意味を推論し、円滑に課題を遂行できます。
役割が思考を変える:分析的になる「点検者」
ところが、「このサーベイ項目を、より良いものにするために点検してください」と依頼された瞬間、思考モードは変化する可能性があります。すなわち「システム2」が起動し、「点検者モード」へと移行するのです。
このモードでは、直感的な情報処理は抑制され、分析的で批判的な思考が活性化します。もはや単なる一人の従業員としてではなく、「評価者」や「批評家」として、項目を客観的な分析対象と見なします。そして、言葉の厳密な定義、論理的な整合性を徹底的に検証し始めます。
「『やりがい』という言葉は多義的です。成長実感、貢献実感、裁量権など、項目を細分化すべきです」
「5段階評価の『3』が『どちらでもない』を意味するのか『普通』なのか、定義が不明確です」
先ほどは気にならなかった細部が、次々と欠点であるかのように認識されます。これは、調査に貢献したいという誠実な動機から生じる、自然な心理的変化です。
なぜモードの移行が問題なのか
この思考モードの移行は、サーベイ開発におけるすれ違いを生みます。開発者は、多くの従業員が「回答者モード(システム1)」で円滑に、そして直感的に回答できる項目を作成したいと考えています。しかし、そのために協力を仰いだ方が点検者の心構えで確認に臨むなら、「点検者モード(システム2)」で論理的・分析的なフィードバックを提供します。このズレが、サーベイの品質をめぐる対応が難しい問題を生み出します。
良かれと思った指摘が品質低下につながる
サーベイ開発において、「表面的妥当性」は重要な概念です。これは「その尺度が、測定したいものを測定しているように見えるか」という、外見上の妥当性を指します。専門家が見て「これはエンゲージメントについて尋ねている」と学術的に認められるかどうかが基準となります。
この表面的妥当性は、測定内容の精度を高めるのみならず、意味のわからない内容でなくしっかり設計されたアンケートであることが伝わり、従業員の協力意欲や信頼感を確保し、真摯な回答態度を引き出しうる、大事な性質です[3]。しかし、ここで「点検者モード(システム2)」による点検が、意図せぬ弊害をもたらすことがあります。
点検者モードが生み出す「過剰なフィードバック」
「点検者モード」に入った協力者は、しばしば開発者の意図や学術的精度を保つ設計意図を超える、過度に詳細なフィードバックを提供します。その内容は、主に三つのパターンに分類できます。
第一に、「些細な表現への固執」です。例えば、「上司は有効なフィードバックを与える」という項目に対し、「『有効な』の定義が曖昧です。具体的行動に落とし込むべきです」と指摘するかもしれません。しかし、多くの従業員は「有効な」という言葉から、自身の経験に照らして直感的に評価を下せます。むしろ定義を厳密にしすぎると、かえって回答が困難になる可能性があります。学術的な観点でも、「上司のフィードバックの有効性」を捉える項目を作る際、従業員の率直な感覚を尋ねるべく敢えて厳密に定義しない「有効な」という表現を用いて測定することは十分に考えられます。その点で見ても、この表現に厳密性を求める点検者の観点は、その学術的意図を棄損するやりすぎな指摘と言えるでしょう。
第二に、「極端な例外ケースの追求」です。「私のチームは効果的に協働している」という項目に対し、「主に一人で業務を完結させる職種の社員が一部にいるが、彼らはどう答えるのか。」という指摘が入ることがあります。しかしサーベイは多くの場合、組織の最大公約数的な状況を想定して作られ、ごく少数のあてはまらない回答者については条件分けなどで対応する方針を取ります。指摘のように「ひとつの項目内で全ての例外を考慮して対処しよう」とすると、冗長で煩雑な質問になってしまい、むしろ測定の精度は落ちます。
第三に、「完璧主義による問題提起」です。例えば、「この会社で働くことに誇りを持っている」という項目に対し、「『誇り』の定義が曖昧です。『愛着』なのか『満足』なのか、あるいは『世間体』なのか。この言葉の定義を最初に補足して示したほうが良いと思います」といった指摘が投げかけられることもあります。しかし、最初の学術的意図の例で示した通り、あえて「誇り」という日常的な言葉で問うことで、従業員の主観的な実感そのものを捉えることが目的であることもあります。その場合、最初に詳細な定義を提示するのはノイズになり得ます。
フィードバックが品質低下につながるメカニズム
問題は、開発者がこれらの善意のフィードバックを無批判に受け入れた場合に生じます。点検者的な指摘に対応して項目を修正していくと、サーベイは品質が低下していきます。
項目は長く、説明的で、不自然な表現になるかもしれません。それは従業員の認知的負担を増やし、回答意欲を減退させます。さらに深刻なのは学術的な測定精度の低下であり、本来測定したかった概念における「従業員の素朴で実感的な意識全般」から、焦点がずれてしまうことです。個々の項目が必要以上に細かい内容に焦点化されていき、もともと狙っていた測定概念を包括的に捉えにくくなります。これは(専門用語でいう)「内容的妥当性の低下」に他なりません[4]。
結果的に、実用性のないサーベイが完成するリスクもあります[5]。これが、表現など細部を追求するあまり、本質的な測定品質を見失うという、サーベイ開発における弊害です。
専門家の質問技法
この「回答者モード」と「点検者モード」の断絶に対し、人事担当者はどのように対応すれば良いのでしょうか。専門家は、協力者の意見の背景にある問題を把握するための技術を発展させてきました。それは、単に回答(What)を求めるのではなく、そこに至る思考のプロセス(How)そのものを探るアプローチです。
思考を可視化する「認知インタビュー」
この課題に対する解決策の一つが、「認知インタビュー」という手法です。これは、協力者に単に項目の良否を尋ねるのではなく、質問理解→情報検索→判断→回答写像という四段階モデル[6]に沿って、各段階で生じる認知的障害を口頭報告してもらい、どの工程でつまずくかを特定する手法です。
代表的な手法が「思考発話法」です。協力者に質問項目を声に出して読んでもらい、回答を決定するまでの間に頭に浮かんだことを、すべて話してもらいます。これにより、例えば「上司」という言葉を直属の上司と解釈したか、部門長と解釈したか、といった認知プロセスが明確になります。これは、「『上司』の定義が曖昧だ」という点検者モードの批判とは、情報の質が異なります。
認知インタビューは、協力者を「批評家」の立場から、再び「一人の回答者」の立場に戻し、実際に生じている認知的な困難を区別することを可能にします。
次善策としての工夫:低コストで本質に迫るには
しかし、認知インタビューは時間的コストが高いのが現実です。そこで、このエッセンスを、より低コストで実現するための工夫が求められるかもしれません。
その一つが、協力者への「教示」の工夫です。フィードバックを依頼する際に、「項目の文法的な正しさを批評するのではなく、一人の従業員として全体を10分で回答する際に直感的に意味が分かり、円滑に答えられるかという視点でご確認ください」と伝えます。こうした教示により、協力者の意識を「点検者(システム2)」から「回答シミュレーター(システム1)」へと誘導する効果が期待できます。
また、少人数の従業員にパイロット調査として回答してもらい、項目ごとに「分かりやすさ」を評価してもらったり、「特に迷った質問はどれですか」とヒアリングしたりすることも有効です。オンライン調査であれば、各項目の回答時間を記録し、著しく時間がかかっている項目を特定することも、認知的な困難を抱えている可能性を示唆するデータとなります。
どう伝えるか:協力関係を育むコミュニケーション
さて、様々な工夫を凝らしてフィードバックを収集した人事担当者は、最後の、そして慎重さを要する課題に直面します。それは、寄せられた善意の意見のある部分を、「採用しない」と判断し、その事実を協力者にどう伝えるか、というコミュニケーションの問題です。
協力者の善意を無下にし、組織内の良好な関係を損なうことは避けなければなりません。専門家が取るべきコミュニケーションは、相手を敬意ある「パートナー」として扱い、開発のプロセスを共有することです。
前述の通り、効果的なのは、フィードバックを依頼する前に、期待する役割を伝えることです。しかし、すでに「過剰な」フィードバックを受け取ってしまった場合は、丁寧な対応が求められます。
第一に、「感謝と受容」です。その労力と善意に対して、最大限の感謝を伝えます。「詳細なご確認、ありがとうございます。非常に助かります」とはっきり伝えるのが第一歩です。
第二に、「プロセスの透明化」です。「いただいたご意見はすべてリストアップし、開発チームで検討しています。その際、私たちは『多くの従業員が直感的に理解できるか』という基準と、『論理的な厳密性』とのバランスを重視して、最終的な修正を判断しています」[7]。これによって、協力者は自分の意見が無視されたのではなく、専門的なプロセスの中で体系的に検討されたのだと理解できます。
第三に、「役割分担の提示と今後の協力へのお願い」です。「皆さんからいただく『回答者として感じた素直な違和感』が、私たちにとって何よりのヒントになります。そのヒントを基に、最適な表現へと修正していきたいと思います」。このように役割分担を明確にすることで、協力者は過度なプレッシャーから解放されます。
協力者は尺度開発のパートナーです。フィードバックの「内容」だけでなく、その背景にある「善意」を受け止める姿勢こそが、科学的な知見を生み出すための、人間的な基盤を育みます。
脚注
[1] 点検が測定精度を損なうのは、不適切な修正が無批判に加えられた場合に限られます。例えば、理論的根拠を共有したうえで行う専門家レビューは、曖昧な項目の削除、表現の平易化、文化的バイアスの低減などを通じて妥当性と信頼性を高めます。本コラムが警告するのは「過度で的外れな」介入であり、計画的・理論志向の点検そのものを否定するものではありません。
[2] Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.
ただし、システム1とシステム2の二分法は理解を助ける便宜的な区分にすぎません。実際の認知プロセスは両システムが並行かつ相互作用的に働く連続体と考えられています。課題の複雑さや時間制約、動機づけ、専門知識などの文脈要因によって寄与率は変化し、明確な境界で切り替わるわけではありません。
[3] 実際には、表面的妥当性が回答態度に与える効果は一律ではありません。高い表面的妥当性が回答率を向上させる効果は限定的であるとする意見もあります。
[4] 内容的妥当性とは、尺度が構成概念の全領域をどれだけ網羅しているかという「カバレッジ」の適切さを指します。実際には、項目文が長いか短いか自体は問題ではなく、概念の主要側面が過不足なく表れているかが核です。
また、ここで言う「内容的妥当性」と密接に関わるのが「構成概念妥当性」です。これは、尺度が「やりがい」といった目に見えない心理的概念(構成概念)そのものを的確に捉えられているかを示すもので、尺度開発で最も重視されます。点検者の意見で項目を細分化しすぎると、個々の行動は測れても、測定される事柄が本来の狙いとずれて細かな領域に焦点化されすぎるため、それらの項目で捉えようとしていた全体的な心理状態をうまく捉えきれなくなり、構成概念妥当性が損なわれる恐れがあります。
なお、妥当性について詳細を知りたい場合は当社コラムを参考にしてください。
[5] サーベイの「実用性」は、例えば、「基準連関妥当性」という概念で評価できます。これは、調査結果が離職率や業績評価といった社内の客観的なデータ(基準)と実際に関連しているかを示す指標です。回答者の実感から乖離した尺度は、こうした実社会での行動を予測する力を失い、基準連関妥当性が低いと判断されることになります。
[6] Tourangeau, R., Rips, L. J., and Rasinski, K. (2000). The Psychology of Survey Response. Cambridge University Press.
[7] この「バランス」は、測定の「妥当性(的確さ)」と「信頼性(一貫性)」のトレードオフとして説明できます。例えば、点検者の指摘通りに言葉の定義を厳密にすると、回答者ごとの解釈のブレが減って信頼性は高まるかもしれません。しかし、その定義が多くの従業員の実感とずれている場合、測りたい本質から外れてしまい妥当性は低下します。逆に直感性を重視しすぎると解釈が多様になり信頼性が損なわれるため、両者の最適な点を探ることが専門家には求められます。
執筆者
伊達 洋駆 株式会社ビジネスリサーチラボ 代表取締役
神戸大学大学院経営学研究科 博士前期課程修了。修士(経営学)。2009年にLLPビジネスリサーチラボ、2011年に株式会社ビジネスリサーチラボを創業。以降、組織・人事領域を中心に、民間企業を対象にした調査・コンサルティング事業を展開。研究知と実践知の両方を活用した「アカデミックリサーチ」をコンセプトに、組織サーベイや人事データ分析のサービスを提供している。著書に『組織内の“見えない問題”を言語化する 人事・HRフレームワーク大全』、『イノベーションを生み出すチームの作り方 成功するリーダーが「コンパッション」を取り入れる理由』(ともにすばる舎)、『越境学習入門 組織を強くする「冒険人材」の育て方』(共著;日本能率協会マネジメントセンター)などがある。2022年に「日本の人事部 HRアワード2022」書籍部門 最優秀賞を受賞。東京大学大学院情報学環 特任研究員を兼務。

