【第28回】
統計家たちの仁義なき争い (4)
—「IQ」を生み出した心理統計学

あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。 どんな権威やロジックも吹き飛ばして正解を導き出す統計学の影響は、現代社会で強まる一方である。「ビッグデータ」などの言葉が流行ることもそうした状況の現れだが、はたしてどれだけの人がその本当の面白さを知っているだろうか。この連載では、cakesという新しいプラットフォームに相応しい、最新かつ最も刺激的な統計学の世界を紹介したい。(毎週火・金更新)

 IQすなわち知能指数という言葉は小学生の読む漫画の中にも登場するが、ほとんどの人はこの指標の意味をわかっていないのではないだろうか。

 フィクションの世界における「高いIQを持つキャラクター」の描かれ方は、「頭の切れる天才」であったり、一方で「頭は切れるが性格的な欠陥を持つ人間」であったりする。おそらくこれは現実におけるIQのイメージを反映しているのだろう。アインシュタインのIQはすごく高いらしい、といった話が話題になることもあれば、人間の価値はIQじゃ測れないとか、IQの測定は差別の源であるとかいう言説を耳にすることもある。一昔前にはIQよりもEQ(心の知能指数)が重要だなんていう本が売れたりもした。

 だが、身長や体重、血圧のように物理的に測定できるものと違って、知能というものは見たり触れたりできるものではない。知能とはそもそも何で、いったいどうすれば測れるというのだろうか。そしてなぜ、現在用いられているIQテストのようなもので知能は測定できたというのだろうか。こうしたことを理解せずにIQの高さをありがたがるのも、反対にIQという指標自体を攻撃するのも滑稽なことである。

 IQとは何かを理解しようとすれば、心理学者がこの100年で積み重ねてきた統計手法について学べばいい。それが今日のテーマだ。

「一般知能」の発見

 革命的な発明のすごさを理解したければ、試しに自分ならどう作るかという思考実験をしてみるというやり方がある。もしあなたが会社の人事部で新卒採用を担当していたとして、既存の知能テストを用いずに、「知能の高い学生を採用するやり方を考えてくれ」という仕事を割り振られたらどうするだろうか。

 ある人は「頭の回転速度」に着目して、簡単な指示に対する反応速度を測定しようとするかもしれない。またある人は記憶力に着目して、数字や文字の羅列を一定時間に何文字記憶して、それをどれだけの時間維持できるか測定しようとするかもしれない。あるいは単純に何らかの科目(算数なり国語なり)の抜き打ちテストを出すというやり方もある。実際に、統計学的な裏付けもなくただの思いつきでこうしたテストを採用基準に用いている企業も少なくない。

 じつはこうした試みは、19世紀の時点ですでにやり尽くされているようで、現在の知能研究の基礎を生み出した心理統計家であるスピアマンの1904年の論文において「イマイチな先行研究」として紹介されているのだ。

 なぜイマイチか、というと、結局のところこれらは知能を表すだろうという基準を何らかの形で定めて測定してみました、というだけの話にすぎないからだ。「そもそも知能とは何か」という問いには研究者の直感でしか答えていないのである。

 そこでスピアマンは、こうした先行研究で示されていた種々の知能の測定方法から有望そうなものを選び、研究参加者に対して片っ端から試してみた。そしてそれぞれの測定方法によって得られた「知能を表すはずの指標」の間の相関性を分析したのである。

 相関性とは「一方の値が大きいときに他方も大きいか/一方の値が小さいときに他方も小さいか」という関連性の強さである。ゴルトンは以前紹介した回帰分析を行なった際に、「直線の当てはまりが良い状態」と、「平均値への回帰が大きく直線の当てはまりが悪い状態」があることを発見した。この違いを相関性(Correlation)という言葉で表し、弟子のピアソンが相関係数という指標の計算方法を考えた。完全な直線で「一方の値が大きいときに他方も大きい」場合は1、逆に完全な直線で「一方の値が大きいときに他方は小さい」ときは-1、関連性がまったく見られない場合は0となるような指標である。

 なお、相関とは「一方の値が大きいときに他方も大きい」という傾向を示しているだけで、「一方の値が大きいから他方も大きい」かどうかという、因果関係とはまったく別の話であることには注意したい。

 そうした研究の結果スピアマンが発見したのは、異なる知能の側面同士がある程度相関しているという結果である。またさらに、それぞれの指標に一定の重みをつけて足し合わせると、すべての指標とよく相関するたった1個の合成変数が作り出せるということもわかった。

 まったく別々に考案された知能に関わる指標すべてと相関する合成変数が作り出せたのであれば、これこそが潜在的な知能を表しているのではないかと彼は考えた。何せこの変数だけがわかれば、考えうる限りほとんどの知能に関連したテストの成績がおおよそ予測できるのである。だとすれば、さまざまな項目を個別に考えるよりも、この潜在的な知能を示す指標だけを扱えばいい。ピアソンはこの指標のことを「一般知能」と呼んだ。

知能を7つに分けた多因子知能説

 彼の行なった分析方法は、今では因子分析と呼ばれている。お互いに相関している複数の値から、それらすべてとよく相関する新しい合成変数を生み出すのだ。この合成変数が因子(factor)と呼ばれるため、因子を抽出する分析だから因子分析というわけである。

 因子は「知能」などの抽象的な概念を示すと考えられる値であり、これ自体を直接測定することはできない。しかしながら、因子とよく相関する「測定できるもの」は存在するだろう。たとえば知能であれば、反応速度だとか記憶力だとか計算力だとかいったものは測定できるし、おそらく我々が抽象的に考える知能という因子と無関係ということはないはずだ。

 そして実際に測定されたものすべてと「よく相関する合成変数」が作り出せるのであれば、それはおそらく知りたかった因子をよく推定しているのではないかと、スピアマンや彼に影響を受けた心理学者たちは考えたのである。

図表1 「測定できるもの」から因子を推定する

 なお、因子は必ずしもスピアマンのいう一般知能のように「すべての測定項目と相関する1つの因子」だけとは限らない。測定した項目同士の間であまり相関しないものも含まれていれば、複数の因子が抽出されることもある。

 実際にスピアマンの研究に影響を受けた心理学者たちがさまざまなテストを組み合わせ、因子分析を行なったところ、一般知能のような形ではなく、複数の因子が抽出されることもしばしばである。

 そうした研究の中で有名なものの1つが、1938年に発表されたサーストンの多因子知能説である。サーストンがさまざまな知能に関わるテストの結果を因子分析した結果、

①空間や立体を知覚する空間的知能
②計算能力についての数的知能
③言葉や文章の意味を理解する言語的知能
④判断や反応の速さに繋がる知覚的知能
⑤論理的推論を行う推理的知能
⑥言葉を速く柔軟に使う流暢性知能
⑦暗記力を示す記憶知能

といった7つの知性を示す因子が抽出された。

 つまり、たとえば①の空間的知能なら、算数の図形問題やパズル、立体的に配置されたブロックを数えるようなテストの結果についてはほとんどすべての項目とよく相関する一方、文章問題や記憶に関わる問題とはほとんど相関しないような合成変数が作り出せた、ということである。

 近年の知能研究の中でもこの一般知能か多因子知能かという議論は繰り返されているが、多くの知能検査方法を分析すると、「分野ごとではなく検査項目全体と相関する因子」すなわち一般知能がだいたい全得点の30%~60%ほどの影響力を持つようである。ただし、この一般知能とはいったい何か、という問いに対しては脳科学的な研究などを含め未だ明確な答えは出せていない。

心理統計家の考え方と手法

 知能に限らず、心理統計家は「心」や「精神」といった目に見えない抽象的なものを測定することを目指す。測定することができれば行動や成果や精神疾患との関連性を分析することができるが、そうでなければたとえば「従業員の仕事へのモチベーションを左右するのは金銭的な報酬よりも仕事のやりがいである」といった、よく言われている単純な仮説すら実証することはできない。

 そのためには自分の測定したい「抽象的な概念」が何なのかを定義する。たとえば「仕事のやりがい」を「自分の仕事について社会に対する貢献や正統な社会評価がなされているという実感」と定義すれば、それと関連しそうな質問をいくつも考えられるだろう。

 だが、心理統計家たちは質問文を自分の思いつきだけで作るようなことはしない。あらかじめ「仕事にやりがいを感じている人」と「そうでない人」にインタビューして、彼らがどのような言葉で「やりがい」のことを表現するか確認したり、先行研究でどのような理論が提唱されているかを調べたり、同様な心理学的な調査が国内外でなされたことがなかったかを調べたりしてはじめて質問紙は作られる。

 そしてそうやって作られた質問紙は、ふつう本番の調査の前にプレテストにかけられる。事前のインタビューや文献調査に基づいて、いくつか微妙に表現を変えた質問項目を作り、数十名程度の人間に回答してもらうのだ。その結果、たとえばほぼ全員「Yes」と答えるだとか、無回答者が多いといった、役立たずの質問項目は削除する。

 次に因子分析の結果と照らしあわせて、事前に想定していた因子の構造になるように、複数の因子と相関を持つ項目や、どの因子とも相関しなかったような項目は削除する。さらには調査回答者が内容を忘れた頃にもう一度同じ項目を調査し、答えるたびにころころ回答結果が変わるような質問項目も削除する。

 こうして出来上がった質問紙は、科学的な測定を行なうための「尺度」と呼ばれる。因子の構造に基づき算出方法を決めた得点は、測定しようとしていた抽象概念を表しているはずである。あとはこの得点を用いて回帰分析なり何なり、興味のある他の変数とともに分析すればよいのだ。

 なお心理統計学の中でも回帰分析はよく用いられるが、それ以外に心理統計家が好みがちな手法の1つにパス解析と呼ばれるものがある。データマイニングのところで紹介したニューラルネットワークと背景はまったく異なるが、図表2に示すように心理的な因子を含む変数間の関係性(とその強さ)を、楕円(別に長方形でもいいが)と矢印で示すのだ。

 ちなみに開本浩矢著『研究開発の組織行動』(中央経済社刊)において実際にこうした実証研究が行なわれているのでその結果の一部を紹介しよう。開本らは企業の研究者のモチベーションプロセスを分析した結果、業績の高い研究者のモチベーションプロセスは次のような関係になっていたと報告している。

図表2 高業績グループの研究者におけるモチベーションプロセス

 この中の矢印に付随した数値は相関係数つまり-1~+1までの相関性を示す指標と同様のものだと思ってくれていい。また、アスタリスクのついている数値はその値がp<0.05となる「誤差とは考えにくい」と考えられるレベルでの関連性が示唆されているものである。

 彼らは「やりがい」、すなわち心理学的な理論において「内発的モチベーター」と呼ばれるものについてももちろん検討した。だが「社会に対する貢献」とか「正統な社会評価」とか「学習や成長の機会」といった「やりがい」と関係する因子は、高業績な研究者にとってはほとんど関係していなかった(誤差の範囲と考えられた)、という結果が得られたのである(ただし低業績なものでは関連のあるものもあった)。

 どうやら高業績な研究者は、そのほとんどがすでに十分仕事にやりがいを感じており、それ以上にモチベーションを高めたければ、給料や昇進という物質的な報酬を与えたほうがよいようだ、というのが開本らの考察である。

心理統計家は「質問紙」に命をかける

 このように心血を注いで自分が作った質問紙尺度を、他の統計家が「アンケート」扱いすると、心理統計家は本気で気分を害することもある。

 彼らの質問紙尺度はしばしば一般の人に変な気構えなく答えてもらうために、「健康と生活に関するアンケート」とか、「暮らしの不安に関するアンケート」といった人畜無害そうなタイトルが表紙に印刷されているというのに、である。

 だが、アンケートというのは聞きたい質問をそのまま書いて答えてもらう、というレベルのものであり、そこから抽象概念を科学的に測定しようというようなものではない。だから自分の作った尺度とそんなものを一緒にするな、というわけである。

 ちなみに以前自分が見せてもらった、ある企業が新卒採用のために作った「適性検査」はまさしく「ただのアンケート」だった。ストレスに強くて根性がある人がほしいんだろうなぁということだけはわかったが、それを直接尋ねたところで正直に「自分は根性ないです」と答える学生はいないだろう。実際にこの「適性検査」は、ほとんど採用の役には立たなかったそうだ。統計家としてはぜひ入社後の社員の業績と、この「適性検査」の相関を分析させてほしいところである。おそらくこの企業は、1人ぐらい根性がなくても心理統計学を勉強してきた学生を人事部に採用したほうがよいのではないか。

 一般に、マーケティングリサーチや社会調査、疫学研究を行なう統計家たちの多くは、調査において知りたいことをそのまま質問すればいいと楽観的に考えがちだ。彼らは、得られた答えはそのまま客観的事実を反映していると考えるし、そうでなかったとしても単純な誤差として扱えばいいと思っている。

 社会調査や疫学研究の質問紙に「あなたの親しい人にタバコを吸っている人はいますか?」と書いていた場合、単純に「受動喫煙してる人って何%いるんだろうか」とか、「受動喫煙してるかどうかと健康状態って関連してるんだろうか」という興味で質問しているだけだが、心理統計家たちはそう単純には考えない。

 質問に対する回答は必ず回答者の主観というフィルターと無関係ではないし、心理統計家たちは100年間人間の主観を含む心の扱いについて議論を重ねてきたのだ。

 「同じように喫煙者の友人がいる人の中にも、その存在を意識している人としていない人がいる」とか、「喫煙に嫌悪感のある人は、友人が喫煙者の場合『親しい』という単語に引っかかってNoと答えるのではないか」とかいった可能性を考え、同様の質問項目を何パターンか用意し、因子分析を行ない、そこから得られた何らかの因子に対して意味を見出すべき、というのが彼らのやり方だろう。

 マーケティングリサーチの中でも、「消費者行動論」という分野を学んできた者は心理統計学をバックグラウンドに持っており、社会調査系のマーケティングリサーチャーとの間で調査方法について侃々諤々の議論が重ねられることもある。

 ただしその一方で、因子分析というのはいくつの因子があると仮定するか、とか、因子間に相関があることを許容するか、とか、細かい計算方法の違いによって結果が大きく異なりうる手法でもある。自分の考える抽象概念を示すような因子の構造になるように試行錯誤を繰り返す心理統計家たちの作業は、疫学者や生物統計家たちから見れば恣意的なズルをしているようにも見える。

 さらにパス解析についても、それが最適なモデルなのかどうか保証されているわけではない。仮に7個の因子間でパス解析を行なったとすると、そこから2つを取り出す組み合わせは21(=7×6÷2)通りあり、それぞれに「A→B」「A←B」「A↔B」「AとBの間に矢印なし」という4パターンの関係性があったとすると、84通りのモデルの妥当性を検証しなければいけない。しかしながら、全パターンを試すといった解析方法を心理統計家が行なうことはない。彼らにとっては仮にデータの当てはまりがよかったとしても、心理学的に解釈不能なモデルには意味がないのだ。

 このような理由から、質問紙調査の項目や分析方法の取扱いに関して、心理統計家とそれ以外の統計家の間で意見の相違が見られるのである。

IQへの結論

 なお最初の問いに戻ると、こうして生みだされたものだからIQという指標は信頼できるものなのだろうか?

 その答えはNoである。少なくとも日本で一般的に用いられている知能テストは、いま紹介したような注意深い心理統計学的な検討を経たものではない。よく用いられる知能テストたちはお互いにIQの算出方法が異なっており、そもそも測ろうとしている知能の定義自体も異なっている。測定しようとしているものもその結果出てくる数値も違うのに、一緒くたに「IQがいくつ」と言われてもまったく意味はない。

 たとえば比較的日本でよく用いられる知能検査方法の1つである「田中ビネー式検査」は、もともと1905年にアルフレッド・ビネーが同年齢の子どもと一緒に勉強することについていけない子どもを探すために作ったものである。この尺度で高得点を出したから「天才児」というのは本来の使い方ではないし、仮にこのテスト結果に基づいてそう言われたことがあったとしても、いい年こいた大人が過去の栄光を自慢するようなものではないだろう。大人なら子ども向けのテストに頼らずとも自分の知性や能力を証明する機会などいくらでも見つけられるはずである。

 心理尺度だろうが物理的な尺度だろうが、そもそもの定義と尺度の使い道がかみ合っていなければ意味がないのは同じである。「体格のよい子どもを探したい」と思ったとき、バスケットボール選手を育てたいのか、相撲取りを育てたいのかによって身長を見るべきなのか体重を見るべきなのかは違うのだ。

 近年の欧米における知能研究では、統計学的な裏付けのあるよい尺度もいくつか開発されているが、それでも一般知能とは何か、という問いに対する答えが確立しているわけではない。また、我が国では一時期以降、あまり知能テストの研究や応用というのは好まれないようで、ずいぶん古臭い知能テストが未だに用いられている。 

 差別に繋がるような知能テストの使い方に意味はないが、なぜそうした差別が起こるのかというと、知能テストの中身をよくわからずに拡大解釈しているからだ。結果を解釈する前提となる仮定や限界も理解したうえで目的に合わせて用いる限り、知能テストであれ何であれ、心理尺度は大きな力を発揮するだろう。
 ただのアンケートや思いつきのテストを越えて、真に知りたい何かを知る力を、心理統計学は与えてくれるのである。

統計学が最強の学問である

西内 啓
ダイヤモンド社
2013-01-25

ケイクス

この連載について

初回を読む
統計学が最強の学問である

西内啓

あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。 どんな権威やロジックも吹き飛ばして正解を導き出す統計学の影響は、現代社会で強まる一方である。「ビッグデータ」などの言葉が流行ることもそうした状況の現れだが、はたして...もっと読む

この連載の人気記事

関連記事

関連キーワード

コメント

tomboy__7 (4)――「IQ」を生み出した心理統計学|統計学が最強の学問である|西内啓|cakes(ケイクス) https://t.co/Rv7liRDg0i 17日前 replyretweetfavorite

49sick89hack っぽい。TLに心理学とか統計学に興味ある人多いので放流しておきます。 17日前 replyretweetfavorite