【第24回】
統計学者が極めた因果の推論
—傾向スコアによる仮想的なランダム化

あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。 どんな権威やロジックも吹き飛ばして正解を導き出す統計学の影響は、現代社会で強まる一方である。「ビッグデータ」などの言葉が流行ることもそうした状況の現れだが、はたしてどれだけの人がその本当の面白さを知っているだろうか。この連載では、cakesという新しいプラットフォームに相応しい、最新かつ最も刺激的な統計学の世界を紹介したい。(毎週火・金更新)

 前回までの内容がしっかりわかれば、大学で教わるレベルの基礎統計学はほぼひと通りマスターできたと言っても過言ではない。学者やシンクタンクの研究員が書いた論文や報告書も読みとけるし、重回帰分析の結果1つ引用することもなくいい加減なことを述べる「知識人」に対して疑いの眼差しを向けることもできるだろう。それぐらい重回帰分析やロジスティック回帰のような手法を使った回帰モデルはデータの関連性を見るうえで現在最も頻繁に用いられる便利な手法である。

 なおこの「モデル」とは、プラモデルが現実にある自動車や飛行機の「よく表している代替物」をプラスチックで作るのと同様の意味だ。現実にある目に見えない因果関係の「よく表している代替物」を回帰分析によって作るから回帰モデルというわけである。

 しかしながら、回帰モデルによって必ずしも因果関係が適切に推定できるかというと、そういうわけにもいかない。もちろん回帰モデルが無価値なものだなんていうことはないが、どこまでのことが言えてどういった点に注意すべきか、ということがわかってこそ、誤りのないデータの解釈ができるようになる。
 今回はそうした回帰モデルの限界と、それを解決するために生みだされた現代的な手法について紹介しよう。

重回帰分析では変数が「互いに独立」していなければならない

 前回紹介した重回帰分析のやり方を思い出してみると、回帰係数の推定について重要な仮定をおいていることに気づくだろうか。

 すなわち、回帰係数の推定にあたっては「変数間はお互い影響しあってない状態で平均的にどういった違いが生じているか」を考えたというものだ。図で説明するにあたって用いた数値もわかりやすくするために、A高校だろうがB高校だろうがどちらにおいても男女間の平均点の差は「ちょうど15点」で、男子も女子もA高校の生徒はB高校に比べそれぞれ「ちょうど5点」高かった(図表1)。

図表1

 

 だが実際には、ここまで「ちょうど」ということはない。たとえば図表2のようになった場合はどうだろう。 

図表2


 A高校における5点の差とB高校における25点の差を単純平均するならば、確かに全体的に女子は男子と比べて15点ほど成績がいい。

 だが、実際にはB高校の男子のみが異常に成績が悪い一方、その例外的なサブグループを除くと男女間の差も高校間の差もそれほど見られない、という状況である。これが「お互いに影響し合ってない状態」つまり統計学の専門用語で言う「互いに独立」な状態だという仮定が崩れているということだ。もし互いに独立であれば、A高校においてもB高校においても同じように男女間の差が見られ、また男女それぞれで同じように高校間の違いが見られたはずなのだ。

 「互いに独立」でないとは、言い換えれば高校と性別という2つの要因の相乗効果によって大きな影響が見られるということである。なお、この相乗効果のことを英語ではインタラクションと呼び、統計学的な訳語として交互作用という言葉が与えられている。

 回帰モデルを使ううえで重要な注意点の1つが、このような交互作用が存在していないか、それによって見かけ上大きな回帰係数が得られてしまっていないか、というものである。しかし実際に交互作用が疑われるのであれば、それも回帰モデルに含めて回帰係数を推定してやることはできる。

 つまり、それぞれが連続値だろうが、ダミー変数だろうが、2つの説明変数それぞれの回帰係数だけでなく、2つの変数を掛けあわせた新しい説明変数を作り、その新しい説明変数(これを交互作用項と呼ぶ)の回帰係数についても同時に推定する、というだけでこの交互作用の影響は推定することができるのである。
 試しに表にまとめるとしたら次のような形になるだろう。

この続きは有料会員登録をすると
読むことができます。
cakes・note会員の方はここからログイン

1週間無料のお試し購読する

cakesは定額読み放題のコンテンツ配信サイトです。簡単なお手続きで、サイト内のすべての記事を読むことができます。cakesには他にも以下のような記事があります。

人気の連載

おすすめ記事

ケイクス

この連載について

初回を読む
統計学が最強の学問である

西内啓

あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。 どんな権威やロジックも吹き飛ばして正解を導き出す統計学の影響は、現代社会で強まる一方である。「ビッグデータ」などの言葉が流行ることもそうした状況の現れだが、はたして...もっと読む

この連載の人気記事

関連記事

関連キーワード