ビジネスリサーチラボ

open
読み込み中

コラム

現場が納得するアセスメントとは:少人数検証が生む罠

コラム

近年、人事領域におけるデータ活用、いわゆるピープルアナリティクスの重要性が高まっています。その中でも、従業員の「性格特性」や「価値観」、「コンピテンシー」といった目に見えない要素を可視化するアセスメント(適性検査)は、採用選考の場面だけでなく、入社後の配置、育成、マネジメントといった幅広い領域で活用が進んでいます。これらの取り組みの背景には、画一的な管理ではなく、従業員一人ひとりの個性を把握し、きめ細やかな個別対応を実現したいという動機があります。

しかし、アセスメントの活用範囲が広がるにつれて、人事担当者は「回答の信頼性」という問題に直面することになります。受検者は本当に本音で回答しているのでしょうか。評価への懸念から、実態よりも自分をよく見せようと回答を歪めていないでしょうか。この「回答バイアス」の問題は、アセスメント結果の妥当性を揺るがしかねません。データが本人の実態を反映していなければ、それに基づく個別対応や育成施策が、的外れなものになってしまいます。

本コラムでは、アセスメント活用におけるこの核心的な問題、特にバイアスを技術的にどう扱うべきか、その妥当性を検証しようとする際に陥りがちな落とし穴について考えていきます。

アセスメント活用の深化とスコアの重み

アセスメントにおいて、「個人のスコア」を見ること自体は、決して新しい話ではありません。採用選考における合否検討や、特定の部署への配属決定など、従来から個人の資質を見極めるためにスコアは参照されてきました。

しかし、昨今の人事トレンドにおいて、その「見方」や「スコアの重み」は変化しています。かつてのアセスメント活用は、どちらかといえば採用時や昇格時の「選抜」を目的としており、ある一定の基準を超えているかどうかという「足切り」や、集団の中での相対的な位置づけが重視される傾向にありました。極端に言えば、合否という一度きりの判断材料として機能すれば十分だった側面があります。

ところが現在は、個への対応の重要性が増し、アセスメント結果を「育成」や「対話」のツールとして活用するケースが増えています。結果を本人にフィードバックして自己認識を促したり、上司が部下の特性を理解して個人面談の質を高めたり、個別のキャリア開発計画に落とし込んだりするような運用です。

アセスメントの結果を、本人との対話や継続的な育成に利用し始めると、スコアに求められる「信頼性の質」が変わります。本人に「あなたの協調性は低いという結果が出ています」とフィードバックするならば、そのスコアは本人が納得できるだけの確かな実態を反映していなければなりません(本来は選考での利用においても重要なのですが)。

AさんはBさんよりスコアが20点高い」という事実が、実際の行動やパフォーマンスの差として説明できなければ、現場の信頼を得ることはできません。個別対応の重要性が増す今だからこそ、アセスメントのスコアが持つ「信頼性」がシビアに問われています。

スコアの信頼性を脅かす「回答バイアス」

アセスメントにおいて、この信頼性を脅かす敵が「回答バイアス」です。このバイアスは、企業内での実施という文脈においては例えば、「評価懸念」から発生します。「この検査の結果が、評価、処遇、異動に影響するかもしれない」と受検者が感じるとき、バイアスは生まれます。

人は、自分が評価される場面では、意識的・無意識的に自分を社会的に望ましい姿に見せようとする傾向があります。これは特定の個人の「悪意」や「不誠実さ」の問題ではなく、多くの人間に共通する自然な防衛反応です。

問題の本質は、この「自分をよく見せようとする傾向」の強さに、個人差がある点です。自己評価が厳しく謙虚な人と、自分をポジティブに提示することに慣れている人とでは、同じ実態・能力であっても、回答結果が異なります。この個人差が存在する状態で単純に回答を集計・スコア化すると、不公平な状況が出現します。実態以上に高く回答した人のスコアは不当に上昇し、謙虚に回答した人のスコアは不当に低く算出されます。こうなると、アセスメントは本人の資質ではなく、「回答傾向の癖(どれだけ自分を盛るか)」を測定していることになってしまいます。

回答バイアスに対する二重の対策

心理測定の領域において、自己報告式の検査におけるバイアス問題は古くから研究されてきました。現代のアセスメント開発では、例えば、二つの異なるアプローチを統合して対処します。一つは「測定環境の設計(運用)」による心理的な抑制、もう一つは「測定モデル(統計)」による数学的な補正です。

第一の対策は、「運用や設計による抑制」です。これは、回答行動における心理的コストを操作するアプローチです。例えば、回答前に「この結果は、後日、上司との育成面談で使用され、行動事実との照合が行われます」といった教示を行います。自身の回答に対する「説明責任」が生じると予期される状況下では、自己高揚的なバイアスが抑制され、より現実的な自己評価が行われやすくなります。

あるいは、アセスメント内の設問の冒頭に、回答を意図的に歪めることへの注意や抑制のメッセージを入れるよう設計する方法もあります[1]。それらのメッセージにより、回答者は「素直に回答しよう」と本音の回答が行われやすくなる仕組みです。これらは、いわば回答者の「回答戦略」自体に働きかける防止策です。

第二の対策は、「統計モデルによる推定と補正」です。これは、観測されたデータから「真の得点」を統計的に推定しようとするアプローチです。古典的テスト理論において、観測される得点は「真の能力値」と「誤差」の和であると考えますが、ここに「系統誤差(バイアス)」を組み込みます[2]

具体的には、本題の性格特性を測る項目とは独立して、回答者の「反応スタイル」自体を測定する指標を埋め込みます。各項目に対する肯定反応などの偏りの分析を通じて、その個人が持つ「自分をよく見せようとする傾向(演出傾向)」の強さをパラメータとして推定します。

スコア算出においては、このパラメータを用いて、観測された回答から「演出による上乗せ分」を数学的に差し引く(重み付けを変える)処理を行います。これによって、自己評価が過度に高い受検者のスコアは下方修正され、逆に過度に謙虚な受検者のスコアは上方修正され、より「真の能力値」に近い推定値が算出されます[3]

スコア算出ロジックへの誠実な疑問

人事として、自社で導入・運用するアセスメントの「スコア」が、どのようなロジックで算出されているのかを理解し、その妥当性に納得したいと考えるのは、データドリブンな人事を推進する上で健全かつ重要な姿勢です。特に、前述の「統計モデルによる補正」は、内部のアルゴリズムが複雑であるため、外部からはブラックボックスに見えるかもしれません。

この補正ロジックは、本当に正しく機能しているのか。過度な補正によって、本来優秀な人材のスコアまで不当に下げてしまっていないか。こうした疑問は、アセスメント結果に責任を持つ実務家として抱くべき懸念です。

この誠実な疑問は時折、「ロジックの妥当性を、自らの手で、目に見える形で検証したい」という行動へとつながります。スコアという、個人のキャリアを左右しかねない情報を扱う以上、その算出根拠を統計的な「魔法」として片付けるのではなく、納得できるエビデンスとして確認したいという責任感が、そこにはあります。

少人数による検証という罠

しかし、この「ロジックの妥当性を検証したい」という誠実な動機が、統計学の原理原則と照らし合わせたとき、時に誤ったアプローチを選択させてしまうことがあります。その典型例が、「身近な少数のメンバーだけで、意図的に回答を作り分けたデータを使ってロジックを検証しようとする」試みです。例えば、次のようなシナリオです。

「導入プロジェクトのメンバー数名が、それぞれ『本音の自分』だけでなく、『理想的な人物を演じた回答』や『あえて評価が低くなるような回答』など、意図的にパターンを変えた回答を作成する。これらのデータは、回答者がどのような意図(正解)で入力したかがわかっている。この『正解付きデータ』を使えば、アセスメントのロジックが正しく『演出』を見抜き、意図通りにスコアを補正できているかをテストできるはず」

これは、システム導入前の受け入れテストなどでよく見られる光景です。入力(回答意図)と出力(スコア)の関係を確認する合理的な「実験」のように見えます。しかし、心理測定の観点から言えば、この検証方法は統計的に無効であり、誤った結論を導く危険性が高いものです。なぜなら、アセスメントのスコア算出は、決定論的な「計算」ではなく、確率論的な「推定」に基づいているからです。

決定論的アプローチと確率論的モデルの違い

誤解の核心は、アセスメントのアルゴリズムを「入力Aならば必ず出力Bとなる関数(決定論的モデル)」として捉えている点にあります。

アセスメントが「『はい』と答えたら1点加算する」という単純な積み上げ式の計算式であれば、少人数のテストデータであっても、計算通りに機能しているかを検証することができます。これは電卓の検算と同じです。

しかし、高度なアセスメントにおける統計モデルは、「確率的な傾向」を扱います。このモデルは、一定規模のデータを分析し、「社会的望ましさ尺度が高い反応を示した受検者は、統計的な傾向として、本題のスコアも平均して〇〇程度高くなる確率が高い」という傾向を導き出したものです。

ここで重要なのは、これが「平均的な傾向」であり、「個別の事象」を100%予測するものではないということです。天気予報で「降水確率80%」と出ているのに雨が降らないことがあるように、統計モデルにおいても「バイアス傾向が強いが、実際のスコアはそれほど高く出ていない(あるいはその逆)」という個人は、確率的に存在します。

計算式を作る前の少人数チェック

なぜ計算式が確立する前の段階で、少人数(例えば3名)のデータを使ってロジックを検証・構築しようとするのが危険なのでしょうか。それは、少人数のデータには「ノイズ(個人の気まぐれや誤差)」が含まれており、そこから「シグナル(ある特徴を持つ人々に共通する真の傾向)」を分離することが数学的に無理だからです。

統計モデルの構築とは、大量のデータを集めることで個々のノイズを相殺し、シグナル(計算式)を抽出する作業です。しかし、たった3名のデータしかない状態で「この回答パターンの人はスコアを下げるべきだ」と判断しようとすると、その3名の「個人的な癖(ノイズ)」を「一般的な法則(シグナル)」だと誤認してしまいます。

この状態で無理やり計算式を作ると、「過学習(Overfitting)」と呼ばれる現象が起きます。その3名のテスト結果には完璧に適合するが、それ以外の従業員に適用すると全く的外れな結果になる、歪んだ計算式が出来上がってしまうのです。したがって、「計算式を作るため」や「ロジックの正しさを証明するため」に少人数データを使うことは、統計学的に問題です。

このように、少人数によってアセスメントによる測定がうまくできているかを評価しようとしても、なかなかうまく行きません。もし結果が予測通りになっていなかったとしても、「測定に用いたアセスメントが良くない」のか「ノイズが偶然にも強調されて、予測とは違った結果になった」のか、判断ができないからです。

計算式ができた後の少人数チェック

一方で、大人数のデータを用いて計算式が完成した後に、少人数(例えば人事担当者自身や特定の社員)で試しに受検し、結果を確認すること自体は問題ありません。むしろ、現場の納得感を得るための確認として、実務上は有用なステップです。

ただし、ここでも注意が必要です。完成したモデルで3名が受検し、そのうち1名の結果が肌感覚とズレていたとしても、「このモデルは間違っている」と即断してはいけないということです。

前述の通り、統計モデルはあくまで「確率的な傾向」を示したものです。N=3のうち1名が傾向から外れることは、統計的にも十分にあり得ます。ここでやってはいけないのは、「この1名の結果が合うように、せっかく大人数で作った計算式を微調整してしまうこと」です。これを行えば、それは再び「過学習」の罠に逆戻りすることになります。

少人数での確認は、あくまで「大きなバグがないか」「全く見当違いな結果が出ていないか」という大まかな確認に留めるべきであり、モデルの統計的な正しさを判定する材料にはなり得ないことを理解しておく必要があります。

取るべき現実的なアプローチ

統計的な妥当性を確保しつつ、人事が納得感を持ってアセスメントを導入するにはどうすべきでしょうか。

第一に、「計算式の構築(モデリング)」は、十分なサンプルサイズを持つデータを用いて行うことです。これは専門家に委ねると良い領域であり、一定以上のデータが必要です。

第二に、妥当性の検証は「基準関連妥当性」を中心に行うことです。少人数の作為的なテストデータ(入力)とスコア(出力)を見比べるのではなく、「算出されたスコア」と「現実のパフォーマンスや行動事実」との相関を確認します。

例えば、既に社内で「ハイパフォーマー」として認知されている人材群のデータをとり、そのスコア傾向を確認します。統計的補正を経たスコアが、現場の肌感覚(「確かにあの人はこういう特性がある」)とおおむね合致しているのであれば、そのモデルは確率的に正しく機能していると判断できます。

脚注

アセスメントの信頼性は、作為的な実験室の中ではなく、現場の事実との照合プロセスの中で確認されるものです。人事に求められるのは、目の前の少数の例外事象に惑わされず、統計的な視座を持って「全体としての確からしさ」を見極める姿勢です。

[1] Griffith, R. L., & Peterson, M. H. (Eds.). (2006). A closer examination of applicant faking behavior. IAP.

[2] 本コラムでは理解を優先し、古典的テスト理論(真の得点+誤差)の枠組みを用いて解説していますが、アセスメント開発においては、項目反応理論等のより高度な確率モデルが用いられることがあります。これらは個人の特性値と項目の性質を複雑なパラメータを用いて同時に推定する数理モデルであり、少人数の単純な計算(決定論的アプローチ)での検証が通用しない理論的背景となっています。

[3] 学術的には「社会的望ましさ(よく見せようとする傾向)」をどこまで補正すべきか議論があります。この傾向自体が、組織適応力や社会性の一部を反映しており、統計的に除去しすぎると、かえって入社後のパフォーマンス予測の精度(予測的妥当性)が低下するという結果も存在するためです。実務上は、極端な回答歪みを補正し、一部演出に見えるような少し誇張された回答は社会的能力の一部を反映した結果として許容する、そういったバランス感覚が重視されるでしょう。


執筆者

伊達 洋駆 株式会社ビジネスリサーチラボ 代表取締役
神戸大学大学院経営学研究科 博士前期課程修了。修士(経営学)。2009年にLLPビジネスリサーチラボ、2011年に株式会社ビジネスリサーチラボを創業。以降、組織・人事領域を中心に、民間企業を対象にした調査・コンサルティング事業を展開。研究知と実践知の両方を活用した「アカデミックリサーチ」をコンセプトに、組織サーベイや人事データ分析のサービスを提供している。著書に『組織内の“見えない問題”を言語化する 人事・HRフレームワーク大全』、『イノベーションを生み出すチームの作り方 成功するリーダーが「コンパッション」を取り入れる理由』(ともにすばる舎)、『越境学習入門 組織を強くする「冒険人材」の育て方』(共著;日本能率協会マネジメントセンター)などがある。2022年に「日本の人事部 HRアワード2022」書籍部門 最優秀賞を受賞。東京大学大学院情報学環 特任研究員を兼務。

#企業人事のデータ測定論 #伊達洋駆 #人事データ分析

アーカイブ

社内研修(統計分析・組織サーベイ等)
の相談も受け付けています