2022年4月11日
α係数とは何か
本コラムでは、組織サーベイの分析においてしばしば登場する「α係数」について解説します。
α係数とは
α係数は、1951年にリー・クロンバックによって開発されたため、クロンバックのα係数と呼ばれることもあります。α係数を一言でいうと、測定の信頼性(その中でも特に内的一貫性)を表す指標の一つです。
このように言われても分かりにくいと思うので、以下では、α係数を理解するためにまず信頼性や内的一貫性とは何かを説明します。その後、α係数の算出方法、α係数が低い場合の対処方法、α係数を扱う際の注意点を紹介します。
信頼性とは
信頼性について検討する前に、次の例を考えてみましょう。
Aさんは自社の社員の職場満足度を測定したいと考えています。そこでアンケートを配布して、社員が以下の4つの項目[1]にどの程度同意するかを5段階評価[2](まったく同意しない場合は1点、強く同意する場合は5点)でたずねました。
- 職場満足度を測定するために用意した4項目:
-
- 項目1「よくできた仕事は評価される」
- 項目2「職場の人たちと仲が良いと思う」
- 項目3「私の才能や技術を仕事で使えている」
- 項目4「この会社で働けて良かったと思う」
全社員がアンケートに協力し、この4項目にどの程度同意するかについて点数をつけました。結果を見てみると、4項目の平均値は4.1点でした。社員の職場満足度は比較的高そうです。
Aさんは無事に職場満足度を測定できたと考え、職場満足度は平均4.1点だったという結果を上司に報告しようとしました。
しかし、それで良いのでしょうか。そもそも、この4項目が職場満足度を正確に測定できている根拠は何でしょうか。仮にこの4項目が職場満足度を正確に測定できていなければ、今回せっかく得られた平均4.1点という結果は、社員の職場満足度を知る上では無意味になってしまいます。
使用した4項目が職場満足度を正確に測定できているかどうか(つまり測定の質)を評価する上で使われる概念に、妥当性と信頼性があります(図1)。本コラムのテーマであるα係数を理解する上では信頼性が分かれば十分ではありますが、妥当性についても簡単に説明します。
図1. 妥当性と信頼性
妥当性とは、測定した値(今回は上の4項目の点数)が測定したい概念(今回は職場満足度)を正しく反映している程度です。
妥当性があるかどうかを判断する際には、測定したい概念を構成する具体的な要素をリストアップして、それらの要素が満たされているかなどを考察します。例えば、職場満足度の重要な要素は、①仕事が正しく評価されること、②人間関係が良好であること、③自分の強みを活かせること、④組織に対してポジティブな感情を持つことだと考えるのであれば、上の4項目で職場満足度を測定することには妥当性があると判断できそうです。
しかし、仮に職場満足度という概念に、②人間関係が良好であることは関係ないと考えるのであれば、上の4項目で職場満足度を測定することの妥当性は欠けていると判断することになります。
もしAさんが職場満足度の測定結果を報告する際に、その測定には妥当性があることも伝えたいのであれば、具体的にどのような項目をどのような根拠で用いたかなども併せて報告する必要があるでしょう。
信頼性とは、測定した値(今回は上の4項目の点数)が一貫している程度や安定している程度です。
信頼性についての説明を進める前に、妥当性と信頼性の違いを明確にするためにダーツの例えを見てみましょう(図2)。上述の通り、妥当性がある状態とは、測定した値が測定したい概念を捉えている状態を指します。矢が的の真ん中あたりを射ているようなイメージです。
それに対して、信頼性がある状態とは、測定した値が安定している状態です。矢が的の同じような場所をいつも射ているようなイメージです。妥当性と信頼性が両方あってはじめて、いつも的の真ん中を射ていることになります(図2右下の状態)。
図2. 妥当性と信頼性のイメージ[3]
さて、信頼性の種類には様々ありますが、よく用いられるものに内的一貫性があります(他には再検査信頼性などもあります[4])。内的一貫性とは、項目間の内容が類似している程度を指します。ここで極端な例を挙げます。
上の4項目はどれも職場満足度に関する項目ですが、仮に項目4「この会社で働けて良かったと思う」が、項目4*「朝ごはんにはパンを食べることが多い」だったとします。項目1~3に対する社員の反応は一貫していそう(項目1に高い点数をつけた社員は他の項目にも比較的高い点数をつけそう)ですが、項目1~3と項目4*に対する社員の反応は一貫していそうでしょうか。
朝ごはんに何を食べていようと、職場での満足度が高い社員もいれば低い社員もいるでしょう。このとき、この4つの項目の値の平均値を求めて、職場満足度という一つの概念の値と見なしてもいいものでしょうか。このように4つの項目どうしで内容が類似していない状態は、内的一貫性が低い状態といえます。
ここでは極端な例を用いたので、他の項目と異なる内容を持つ項目を見極めるのは簡単に思えるかもしれません。しかし現実には、内的一貫性を確かめてみてはじめて、ある項目が他の項目と異なる内容であること(少なくとも回答者は異なる内容として捉えていたこと)が分かることも多々あります。
上の極端な例から分かる通り、内的一貫性が低いことは問題です。それでは、どうすれば内的一貫性が高いか低いかを判断できるでしょうか。内的一貫性の程度を評価する方法の一つに「α係数」を使うというものがあります。
話が長くなりましたが、ここでようやくα係数が再登場しました。本コラムの冒頭の言葉を繰り返すと、α係数とは、測定の信頼性(その中でも特に内的一貫性)を表す指標の一つです。
α係数の算出方法
一般的に使われる統計ソフトでは自動でα係数を算出してくれるため、α係数を算出するための式を知らなくても、α係数は簡単に得られます。しかしここでは、α係数に対する理解を深めるために、その式を紹介します。
この式のnは項目の数を表しています。今回は職場満足度を測定するために4項目を使っているのでn = 4です。
r‾[5] は項目間の相関係数の平均です。相関係数とは、簡単にいえば、2つの項目間の関連の強さを表す指標です[6]。相関係数の絶対値が1に近づくほど関連が強いことになり、絶対値が0に近づくほど関連が弱いことになります。
r‾(項目間の相関係数の平均)を求める上では、まず、4項目を用いたときにあり得るすべての組み合わせに関して相関係数を求めます。その結果、例えば表1の値が得られたとします。次に、そこで得られた相関係数の平均値を出し、r‾を求めます。表1の値をもとに計算すると、r‾= 0.51となります。
ここでα係数を求めると、α= 4×0.51/(1+3×0.51) = 0.81という値が得られます。
表1. 項目間の相関係数の例
α係数とは、内的一貫性が高いか低いかを判断するための指標でした。α係数がいくつ以上であれば内的一貫性があると言えるのでしょうか。絶対的基準はありませんが、学術的には、α係数は0.00~1.00の値をとる中で、最低でも0.70は必要で、0.80以上あることが望ましいと言われています。
今回はα= 0.81という値が得られたので、上の4項目で職場満足度を測定することには一定の信頼性(厳密には内的一貫性)があると言えそうです。
α係数が低い場合の対処方法
それでは、α係数が低く、内的一貫性がないと判断された場合はどうすればいいでしょうか。よく用いられる方法として、α係数を低めているような項目を削除するという方法があります。α係数を低めているような項目とは、他の項目との相関関係が小さい項目です。
表1では、項目1~3と項目4の相関係数は比較的高く表示されていますが、ここで仮に項目1~3と項目4の相関係数がすべて0だったとしましょう。このとき4項目のα係数は α= 0.57となります。
ここでは項目4がα係数を低めていることが明らかなので、項目4を削除します。項目4を削除して残った3項目のα係数を求めると、α= 0.75となります。つまり職場満足度を測定する上で、当初用意していた4項目を使うよりも、項目4を削除した3項目を使う方が、内的一貫性が高くなります。
ただし、項目を削除したからといって満足のいくα係数が得られるとは限りません。また、項目を削除してしまうことで、本来測定したかったものを測定できなくなる(妥当性を低めてしまう)可能性もあります。
そのような場合は、機械的に項目を削除するのではなく、当初用意していた項目を見直す(測定したかったものを過不足なく測定できていそうか、ワーディングに問題はないかなどを考える)必要があるでしょう。
α数が低いことで生じる問題
そもそもなぜ、α係数が低いことは望ましくないのでしょうか。上では、項目4「この会社で働けて良かったと思う」が項目4*「朝ごはんにはパンを食べることが多い」になるという極端な例を用いて、α係数が低いことの問題に触れました。具体的には、α係数が低いこと、つまり内的一貫性が低いことは、ある1つの概念を測定しているはずの項目どうしの内容がばらばらであることを意味していると確認しました。
ここでは、α係数が低いことで生じる他の問題について取り上げます。α係数が低い指標を用いると、指標間の関連を検討する際に問題が生じます。具体的には、主に指標間の関連の強さを検討する相関分析や回帰分析などにおいて、関連の強さの推定値が小さくなってしまうのです。この問題は、「相関の希薄化」と呼ばれています。
下の式は、2つの指標の間の相関係数を算出する際に得られる値と、指標のそれぞれのα係数の関係を表した式です。
「真値」とは、測定に際して必然的に含まれる回答値のブレ(誤差)を除いた、測定したい概念の本来の純粋な値を表します。データの測定では、質問内容のニュアンスの受け取り方の個人差や、回答時に偶然起きた出来事など、本来測定したい概念とは異なる要因で誤差が生じます。このような誤差を除いて得られる2指標の本来の値を用いて相関関係を求めると、本来の相関関係を表す値(上の式では「真値を用いて算出した相関係数」)を得ることができます。
上の式で示される通り、実際に測定した2つの指標を用いて算出される相関係数は、2つの指標の真値から算出される本来の相関係数に、2つの指標のα係数の積の平方根をとったものをかけ算した値になっています。
α係数は0.00~1.00の間の値をとるため、2指標それぞれのα係数をかけ算した値は必ず1より小さくなります。2指標それぞれのα係数の値が小さいほど、それらをかけ算した値√rxryも小さくなります。つまり、指標のα係数の値が小さいほど、誤差なく測定できた場合に算出される本来の相関係数と比べて、実際に算出される相関係数の値も小さくなってしまうのです。
回帰分析においても、この問題は見られます。2指標間の関連の強さを推定する回帰係数の計算には相関係数が含まれており、相関係数の値が小さくなると回帰係数の値も小さくなります。α係数が低い指標を用いてしまうと、相関係数のみならず、回帰係数も過小評価することになります。
このように、ある概念を測定する項目間のα係数が低いことは、それらの項目の内容が一貫していないという問題を示しているだけではありません。α係数が低いことで、それらの項目から成る指標を用いた相関分析や回帰分析において、指標間の関連の強さを正しく推測できないという問題が生じるのです。
α係数を扱う際の注意点
使用した項目の内的一貫性を示す上で、α係数は便利な指標です。冒頭の例で登場したAさんが職場満足度の測定結果を報告する際、単にその平均値を報告するのではなく、α係数も併せて報告する方が、説得力があります。ただし、α係数を用いる際にはいくつかの点に注意しなければいけません。ここでは注意点を紹介します。
1. α係数が高いからといって、信頼性が高いとは限らない
上で説明した通り、α係数は内的一貫性の指標です。内的一貫性はあくまで様々ある信頼性の一つに過ぎません。そのため、α係数が高いからといって、信頼性があると言い切ることはできないので、注意が必要です。
2. α係数が高いからといって、本当に内的一貫性が高いとは限らない
α係数は内的一貫性の指標だとお伝えしていたので、この点は混乱を招くかもしれません。正確にいうと、「α係数が高いからといって、項目間の内容が類似しているとは限らない」ということです。
上で紹介したα係数の式を見ていただくと分かりますが、α係数はr(項目間の相関係数の平均)だけでなくn(項目数)によっても規定されており、rが大きい場合だけでなくnが大きい場合もα係数は大きくなってしまうのです。
具体例で考えてみましょう。調査Xでは、職場満足度を4項目で測定し、項目間の相関係数が低め(r= 0.2)だったとします。この場合はα= 0.50となるので、その4項目を使って職場満足度について語ることは問題だと判断できます。
その一方で、調査Yでは、職場満足度を20項目で測定し、調査Xと同じく項目間の相関係数が低め(r= 0.2)だったとします。この場合もやはり、用意した20項目を使って職場満足度について語ることは問題になりそうです。しかしα係数を算出すると、α= 0.83という高い値が得られてしまいます。
調査Yのように項目数が多い場合、α係数だけを見て内的一貫性に問題がない(つまり項目間の内容が類似している)と安直に判断することは危険です。項目間の相関係数も見ながら内的一貫性を判断し、場合によっては不要そうな項目を削除する必要があります。
3. α係数は高ければ高いほど良いわけではない
上で、α係数は0.80以上であることが望ましいとされていると書きました。しかし、これは必ずしもα係数は高ければ高いほど良いという意味ではありません。α係数があまりに高いことも問題になり得るのです。
例えば職場満足度を4項目で測定し、項目間の相関係数が非常に高かった(r= 0.80)とします。このときα= 0.94となるので、内的一貫性が非常に高く、望ましい結果が得られたように見えるかもしれません。
しかし、項目間の相関係数が非常に高いということは、それらの項目がほぼ同じような反応を引き出していることになり、実質的には1つか2つの項目で職場満足度を測定しているようなものです。職場満足度のように曖昧な概念ほど、1つか2つといった限られた数の項目で測定することは困難です。
つまりα係数があまりに高いと、測定したい概念を測定できていない(妥当性を損なっている)可能性があるわけです[7]。非常に高いα係数が得られた場合には、本当にその項目で測定したい概念を測定できているかを見直す必要があるかもしれません。
以上で見てきたように、「α係数が○○以上あるから、今回使用している項目の信頼性は十分で、問題はない」とは言い切れない(α係数は様々ある信頼性のうちの一つの指標に過ぎず、また、α係数が高いからといって問題がないわけではない)点には注意が必要です。しかし、そういった注意点を念頭に置いておけば、ある概念を測定するために使用した項目に問題がないかを判断する上で、α係数は有用な指標となるでしょう。
参考文献
南風原 朝和 (2002). 心理統計学の基礎 統合的理解のために 有斐閣アルマ
Macdonald, S., & Maclntyre, P. (1997). The generic job satisfaction scale: Scale development and its correlates. Employee Assistance Quarterly, 13(2), 1-16.
三浦 麻子 (監修)・大竹 恵子 (編著) (2017). 心理学ベーシック第3巻 なるほど!心理学調査法 北大路書房
岡田 謙介 (2015). 心理学と心理測定における信頼性について―Cronbachのα係数とは何なのか、何でないのか― 教育心理学年報, 54, 71-83.
脚注
[1] Macdonald & Maclntyre (1997) が開発した職場満足度尺度(全10項目)の一部です。
[2] 一般に研究の文脈では5件法と呼びます。
[3] 図2の右上のイラストは、信頼性はないけれど妥当性はある状態として示していますが、厳密に言えば信頼性も妥当性もあまりない状態です。というのも、信頼性は妥当性の必要条件であり、信頼性が低いと妥当性も必然的に低くなるためです。しかし、ここでは分かりやすさを優先して図2を作成しています。
[4] 再検査信頼性とは、同一人物を対象に複数回測定を行い(測定と測定の間には一定の時間を置きます)、そこで得られた値が関連している程度を指します。例えば上の4項目を使って、社員Bさんの職場満足度を測定したとします。その3カ月後にまた同じ4項目を使って、Bさんの職場満足度を測定しました。このとき、4項目の点の平均値が1回目は4.5点、2回目は5点であれば、再検査信頼性は高いと言えそうです。その一方で、もし4項目の点の平均値が1回目は1.5点、2回目は5点であれば、再検査信頼性は低いと言えそうです。
[5] 正確にはrに上線がついた文字(アール・バー)を用いるべきですが、ここでは便宜的にr‾と記述します。
[7] このように妥当性を得るために信頼性をある程度犠牲にしなければいけないことは「帯域幅と忠実度のジレンマ」と呼ばれます。
執筆者
ターン 有加里ジェシカ
一橋大学商学部経営学科を卒業後、東京大学大学院人文社会系研究科の修士課程を修了。修士課程在学中、日本社会心理学会の若手研究者奨励賞などを受賞。現在は日本学術振興会の特別研究員(DC1)として、東京大学大学院人文社会系研究科の博士後期課程に在籍。主な研究テーマは、人々が所属集団のために行動する心的メカニズムであり、実験や調査など様々な手法を組み合わせて検討を行っている。その成果として執筆した論文は、『心理学研究』や『Personality and Individual Differences』などの学術雑誌に掲載されている。