ビジネスリサーチラボ

open
読み込み中

コラム

データ錬金術の誘惑:「創造性スコア」を自作してはいけない理由

コラム

デジタルトランスフォーメーションが叫ばれ、私たちの周りにはデータがあふれています。人事評価、マーケティング、製品開発、あらゆる場面で「データに基づいた意思決定」が重要視される時代です。手元にあるデータを活用し、これまで見えなかったものを見通したい。その欲求は、ビジネスの現場において強力な動機となるでしょう。

ここで、あるアイデアが頭に浮かんだとします。「従業員の性格特性(ビッグファイブ)のデータがある。これをうまく計算すれば、本人も気づいていない『創造性』や『リーダーシップ』といった潜在能力を数値化できるのではないか」というアイデアです。例えば、性格特性のうち「開放性」と「外向性」のスコアに特定の重みを付けて足し合わせ、「創造性スコア」と名付ける。なんと効率的で、データドリブンなアプローチでしょう。しかし、この一見良さそうに見えるアイデアは、科学的測定の観点から言えば、問題のある行為です[1]

この「データ錬金術」とも言うべき試みには、どのような問題が含まれているのでしょうか。それは、私たちが物事を「測る」という行為の基本的なルールを踏み外しています。本コラムでは、まず「ビッグファイブから創造性スコアを作る」という具体例を深掘りし、次いで、この問題に潜む測定の原則について論じていきます。

なぜ「ビッグファイブ」から「創造性」は生まれないのか

具体的なケースから始めましょう。心理学で広く利用される性格特性の理論「ビッグファイブ」は、人間の性格を「開放性」「誠実性」「外向性」「協調性」「神経症的傾向」という5つの次元で捉えます。多くの研究が、これらの特性と様々な行動や成果との関連を報告しています。特に「開放性(新しい経験や知的好奇心への寛容さ)」は、創造性の高さと正の相関があることが知られています[2]

この知見を基に、「では、開放性のスコアを創造性のスコアとみなしてしまおう。いや、アイデアを外部に発信する力も大事だから、外向性のスコアも少し加味しよう。そうだ、『創造性スコア=0.7×開放性スコア+0.3×外向性スコア』という式はどうだろうか」と考えたとします。この思考プロセスには、少なくとも4つの問題が含まれています。

第一の問題は、「妥当性」の欠如です。妥当性とは、測定したいものを本当に測定できているか、という指標の「正しさ」を問う概念です。ここで問題になるのは「構成概念妥当性」です。これは、私たちが測定しようとしている理論上の抽象的な概念(構成概念)を、その測定値が適切に代表しているか、という度合いを指します。

「開放性」と「創造性」はイコールではありません。「開放性が高い人は創造性も高い傾向がある」という相関関係は事実ですが、それはあくまで一部分での関連に過ぎません。開放性は、未知な事柄を受け入れる姿勢や好奇心、芸術や抽象的な思考への関心など、創造性以外の要素も広く含んでいます。逆に、創造性は、アイデアを出す「発散的思考」、それらを論理的に検証し、一つの答えにまとめる「収束的思考」、そして特定の分野における深い専門知識やスキル、粘り強さといった、性格特性だけではカバーできないであろう多様な要素から成り立っています。

この両者を同一視するのは、「身長が高い選手はバスケットボールが上手い傾向がある」というデータから、「身長を測って『バスケ能力スコア』と名付ける」のと同じくらい乱暴な論理です。そのスコアは、バスケの能力ではなく、ただの身長でしかありません。

第二の問題は、創造性という概念の「過度な単純化」です[3]。前述の通り、創造性は多面的で複雑な現象です。それを性格特性の、しかもたった二つの要素の単純な合成で表現しようとすること自体が、現実を歪めている可能性があります。もし仮に性格だけで語るとしても、「誠実性」の低さが既成概念に囚われない自由な発想につながる可能性や、「神経症的傾向」の高さが自己への不満から創作へのエネルギーを生む可能性など、他の因子との複雑な相互作用も考えられます。これらの機微を無視し、安易な方程式に押し込める行為は、人間の能力の豊かさに対する冒涜とさえ言えるかもしれません。

第三の問題は計算式の「恣意性」です。「開放性に0.7、外向性に0.3」という重み付けは、一体どこから来たのでしょうか。これは作成者の直感や憶測に過ぎず、理論的・経験的な根拠がありません。なぜ0.60.4ではないのか、なぜ開放性と外向性の掛け算といった複雑な非線形モデルではないのか、という問いに答えることができません[4]。尺度開発において各項目への重み付けは、大規模なデータを収集し、因子分析をはじめとする統計手法を用いて慎重に決定されます。

第四の問題は、「相関関係と定義の混同」です。ビッグファイブの各特性は、創造性の高さをある程度「予測」するための予測因子にはなり得ます。しかし、それは決して創造性そのものを定義するものではありません。この二つの混同が、データ錬金術のアイデアを生む原因でしょう。予測はあくまで関連の強さに基づく推測であり、定義は「ABである」と規定する関係です。この違いを理解しないままデータを扱うと誤謬に陥ります。

なぜ「合成」という考えが成り立たないのか

創造性の例で見てきた問題は、特定の概念に限った話ではありません。根拠なく「測定済みのABから、未測定のXを合成する」という発想は、科学的測定のルールを破っています。ここからは、より本質的なレベルで、なぜこの考えに問題があるのかを検討していきましょう。

「操作的定義」の不備

科学が客観性を担保するために発明した武器の一つが「操作的定義」です。これは、ある概念を「誰もが追試可能な、具体的で物理的な操作」によって定義し直すという考え方です。例えば、「知能」という抽象的な概念は、そのままでは人によって解釈が異なり、測定できません。そこで、「ウェクスラー式知能検査を実施して算出された、IQスコア」を「知能」の操作的定義とします。こうすることで、誰もが同じ基準で「知能」を測定し、比較できるようになります。この操作的定義は、狙った概念の理論的根拠に基づいて定められている必要があります。

では、「合成スコア」の場合はどうでしょうか。新しい概念Xを測定するための、独立した操作がここには存在しません。あるのは、概念Aを測る手順と概念Bを測る手順、そしてそれらを計算する式だけです。その算出方法を操作的定義だと主張するにも、それを担保する理論的根拠はありません。すると、その「合成スコア」が一体何を表しているのか、誰にも説明がつきません。それは操作的定義という土台を持たない、実体不明の「幽霊スコア」とでも言えるでしょう。

「構成概念妥当性」の崩壊

この幽霊スコアが、もし偶然にも本当に狙った概念Xを捉えているとしたらどうでしょうか。それを証明する責任は、スコアの作成者にあります。ある測定値が、狙った構成概念を適切に捉えているか(構成概念妥当性)を立証するには、長く地道な検証作業が必要です。例えば、新しく作った「リーダーシップ合成スコア」が高い人は、実際に昇進が早いのか、チームの業績が高いのか、部下からの評価が高いのか、といった外部の基準と照らし合わせて、その関係性を検証しなければなりません。

この検証プロセスを省略して、「ABを足したから、これはXだ」と宣言するのは問題です。「体温計で測った体温」と「体重計で測った体重」を足し合わせて、「総合健康スコア」と名付けても、その数字に何の意味も持たないであろうことと同じです。そのスコアは、健康という複雑な構成概念を代表していません[5]

「論理的・数学的飛躍」の禁止

合成に用いる計算式が、論理的にも数学的にも飛躍している点も問題です。なぜ、概念Aと概念Bの関係は、単純な足し算(線形和)で表せると考えたのでしょうか。現実の世界では、物事の関係性はもっと複雑です。ある要素が効果を発揮するには、別の要素が一定の閾値を超えている必要があるかもしれません(交互作用)。あるいは、ある要素が増えすぎると、逆に効果が減少に転じるかもしれません(非線形関係)。

これらの複雑な関係性を無視して、足し算を根拠なく採用することは、現実を切り詰める行為です。その計算式は、世界のあり方を記述したものではなく、作成者の頭の中にある願望や単純化された世界観を表現しているに過ぎません。

「予測」と「定義」の混同

ここでも「予測」と「定義」の混同が顔を出します。既存の測定値ABを使って、未知のXの値を「予測・推定」すること自体は、統計学が得意とするところです。重回帰分析などの手法を用いれば、「ABがこの値のとき、Xはおそらくこのくらいの値だろう」という予測モデルを構築できます。しかし、このモデルを機能させる前提として、モデル構築の段階では、予測したいXの値も別途きちんと測定されていなければなりません。

要するに、正しい手順は、「ABXを全て測定した大規模なデータセットを用意し、ABからXを予測する最適なモデルを見つけ出す」というものです。このモデルを使えば、今後はABのデータしかなくても、Xの値をある程度の精度で「推定」できます[6]

しかし、「合成」の発想はこのプロセスを逆転させます。Xを一度も測定することなく、いきなりABからXを「定義」しようとするのです。これは、料理のレシピ(予測モデル)を作るために、完成品の味見(Xの測定)を一度もせずに、手元の食材(AB)を適当に混ぜ合わせ、「これが完成品だ」と言い張るようなものです[7]

脚注

[1] こうした恣意的な合成スコアで従業員を「高創造性」「低創造性」と二分すると、評価者側に先入観が生じ、配置・昇進・研修機会が偏るおそれがあります。本人も周囲の期待を内面化し、行動や成果がスコアの示す通りに収束する自己成就的予言が起こるかもしれません。

[2] e.g. Sung, S. Y., & Choi, J. N. (2009). Do big five personality factors affect individual creativity? The moderating role of extrinsic motivation. Social Behavior and Personality: an international journal37(7), 941-956.

[3] 心理測定論では、測定のモデルを「反映的指標」と「構造的指標」に大別する捉え方があります(Coltman et al., 2008)。前者は、測定したい潜在的な概念(例えば、抑うつ)が観測指標(例:「気分が落ち込む」「眠れない」)に影響を与えると考えます(指標が概念を反映するということです)。一方、後者は、観測指標(例えば、「仕事量」「人間関係」)が積み重なって概念(例えば、ストレス)を形成すると考えます。

本コラムの「創造性スコア」の合成は、後者の形成的測定に近い発想ですが、その概念を構成する要素を網羅しているか、各要素の重み付けは適切かといった厳密な検討が不可欠です。本コラムの例は、こうした手続きを無視した、モデルの誤用と言えます。

Coltman, T., Devinney, T. M., Midgley, D. F., & Venaik, S. (2008). Formative versus reflective measurement models: Two applications of formative measurement. Journal of Business research61(12), 1250-1262.

[4] さらに、ビッグファイブの各因子間には一定の相関関係が存在します。例えば、「開放性」と「外向性」の間にも正の相関があることが多くの研究で報告されています。このような説明変数同士の相関(多重共線性)が存在する状況で単純な線形和を用いると、各係数の意味が曖昧になります。0.7という重みが「開放性固有の効果」を表しているのか、それとも「外向性との共通部分も含んだ効果」なのかが判別できません。

[5] 新しい指標を自作する前に、まず検討すべきは、学術的にその妥当性と信頼性が確立された「既存尺度」の利用です。例えば、創造性を測りたいのであれば、世界的に利用されている「トーランス創造性テスト(TTCT)」や、日本語で開発された各種の創造性検査が存在します。これらの尺度は、専門家が慎重な手続きを経て開発したものであり、そのスコアは客観性と比較可能性を持ちます。独自の指標開発に固執する前に、こうした既存の知的資産を活用できないか調査することは、データ活用の健全な第一歩となります。

[6] 分析の結果、A, BXとあまり関連しておらず、AとBではXを十分な精度で予測できないことが示される場合もあります。こういった可能性が検証されないことも、無思慮にA, Bを合成する問題と言えるでしょう。

[7] どうしても既存の尺度では目的が達成できず、独自の尺度を開発する必要がある場合、科学的に確立されたプロセスを踏まなければなりません。その手順は多岐にわたりますが、主要なものとして、測定したい概念の理論的な定義、概念を測定するための多数の質問項目案の作成、予備調査による項目の洗練、大規模な本調査の実施、統計手法による妥当性と信頼性の検証、が挙げられます。この一連のプロセスには、統計的な専門知識と多大な時間・労力が必要であり、安易な「合成」がいかに乱暴な行為であるかを示唆しているでしょう。


執筆者

伊達 洋駆 株式会社ビジネスリサーチラボ 代表取締役
神戸大学大学院経営学研究科 博士前期課程修了。修士(経営学)。2009年にLLPビジネスリサーチラボ、2011年に株式会社ビジネスリサーチラボを創業。以降、組織・人事領域を中心に、民間企業を対象にした調査・コンサルティング事業を展開。研究知と実践知の両方を活用した「アカデミックリサーチ」をコンセプトに、組織サーベイや人事データ分析のサービスを提供している。著書に『組織内の“見えない問題”を言語化する 人事・HRフレームワーク大全』、『イノベーションを生み出すチームの作り方 成功するリーダーが「コンパッション」を取り入れる理由』(ともにすばる舎)、『越境学習入門 組織を強くする「冒険人材」の育て方』(共著;日本能率協会マネジメントセンター)などがある。2022年に「日本の人事部 HRアワード2022」書籍部門 最優秀賞を受賞。東京大学大学院情報学環 特任研究員を兼務。

#企業人事のデータ測定論 #伊達洋駆 #人事データ分析

アーカイブ

社内研修(統計分析・組織サーベイ等)
の相談も受け付けています