【第23回】
重回帰分析とロジスティック回帰分析
—学者も多用する統計手法の主役

あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。 どんな権威やロジックも吹き飛ばして正解を導き出す統計学の影響は、現代社会で強まる一方である。「ビッグデータ」などの言葉が流行ることもそうした状況の現れだが、はたしてどれだけの人がその本当の面白さを知っているだろうか。この連載では、cakesという新しいプラットフォームに相応しい、最新かつ最も刺激的な統計学の世界を紹介したい。(毎週火・金更新)

 一般化線形モデルという枠組みによって、データ間の関連性を分析したり推測を行なったりする解析のほとんどは広義の重回帰分析の一部であると整理することができた。

 重回帰分析は、説明変数すなわち予測したい結果に影響する要因が複数ある状況へ拡張された回帰分析であるが(前回図表1)、これも統計学において重要な「フェアな比較」を行なううえで重要な役割を果たす統計解析手法である。

 そのため政府のレポートにおいても学者の論文においても、何らかのデータ分析を行なうもののほとんどは、重回帰分析やその拡張であるロジスティック回帰分析の結果が示されている。現代における統計手法の王道あるいは主役と言ってもよいかもしれない。これらの手法さえ理解し、読み解けるようになれば、あなたは学者たちとも対等に議論できるようになるだろう。

 では、なぜ重回帰分析やロジスティック回帰によって「フェアな比較」を行なうことができるのだろうか。それが今回のテーマである。

フェアな比較が崩れるシンプソンのパラドックス

 「フェアな比較」ができないことによってデータからの判断を誤りうる例の1つに、シンプソンのパラドックスと呼ばれるものがある。シンプソンとはこの問題の最初の提唱者だ(ただし彼に先んじて1899年にはすでにゴセットの後継者でありカイ二乗検定や重回帰分析の発明者であるカール・ピアソンによって同様の問題が考察されていたという指摘もある)。
 たとえば次のような問題を出された場合、あなたはどう答えるだろう?

【問題】
A高校とB高校の同じ学年の生徒に対して同じ模擬試験を受験させた。
男子生徒同士で比べるとA高校の平均点はB高校よりも5点高い。
女子生徒同士で比べるとA高校の平均点はB高校よりも5点高い。
ではA高校とB高校の平均点を男女全体で比較するとどちらが高いだろう?

 普通に論理的な思考を働かせれば、当然のようにA高校のほうが5点分平均点は高いと考えられる。だがここで「必ずしもそうとは限らない」と考えられるかどうかが統計リテラシーの力である。そうとは限らない状況の一例を具体的な数値で示すとすれば、図表1のような場合が該当するだろう。

図表1

 図表1のような状況において、A高校の男子全員の得点を合計すると9600点となり、これを160名という人数で割ると60点になる。また女子生徒の得点の合計は3000点でこれを40名という人数で割ると75点になる。故にA高校の男女合わせた全学年での平均点は(9600+3000)÷(160+40)で63点となる。一方で、同様の計算から得られるB高校の全学年での平均点は67点である。

 確かに表のそれぞれを見ると、A高校の男子平均点が60点に対しB高校では55点、A高校の女子平均点が75点に対しB高校では70点と、先ほど出した問題文との矛盾はない。だが男子と女子の平均点に差があり、またA高校とB高校の生徒の男女比が異なっているために、全校での平均点はB高校のほうが4点ほど高くなってしまっているのだ。

 このように、全集団同士での単純比較は、その内訳となる小集団同士との比較の結果と矛盾することもある、というのがシンプソンあるいはカール・ピアソンの指摘である。ランダム化を行なっていない疫学などの観察研究において、単純な比較で一見大きな差が生まれたとしても、それは単にA高校とB高校の男女比と同様の「内訳」の違いかもしれない。逆に、単純な比較ではまったく差が見られなくなってしまっているのも、やはり「内訳」の違いによって本来あるべき差が隠されているだけかもしれない。

 たとえば以前紹介した「暴力的なゲームのプレイと少年犯罪率」という因果関係の分析を思い出してほしい。家庭環境という「内訳」を揃えて比較すれば何の差もないのに、暴力的なゲームをプレイするグループのほうに家庭環境の悪い子どもがより多く含まれていれば、見かけ上は暴力的なゲームのプレイヤーのほうが犯罪率が高いということになってしまう。

この続きは有料会員登録をすると
読むことができます。
cakes・note会員の方はここからログイン

1週間無料のお試し購読する

cakesは定額読み放題のコンテンツ配信サイトです。簡単なお手続きで、サイト内のすべての記事を読むことができます。cakesには他にも以下のような記事があります。

人気の連載

おすすめ記事

ケイクス

この連載について

初回を読む
統計学が最強の学問である

西内啓

あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。 どんな権威やロジックも吹き飛ばして正解を導き出す統計学の影響は、現代社会で強まる一方である。「ビッグデータ」などの言葉が流行ることもそうした状況の現れだが、はたして...もっと読む

この連載の人気記事

関連記事

関連キーワード