回帰分析とは何か
ランダム化比較実験が許されない状況であれば観察データのみを用いて疫学的な手法による推計を行なう。前回そのための方法の1つとして、ケースコントロール研究におけるマッチングというやり方を紹介したが、「フェアな比較」をするための手法はこれだけではない。より高度な手法を用いればわざわざデータの取り方を工夫しなくても、可能な限り条件を揃えた「フェアな比較」が可能になるのである。
そのための最も重要な枠組みの1つが回帰分析だ。
大学の統計学の教科書を読めば「t検定」だとか「カイ二乗検定」だとか「分散分析」だとか「回帰分析」だとかいう手法が必ず登場する。しかしながらこれらの統計手法はすべて、大きく言えば「一般化線形モデル」という広義の回帰分析の考え方で統一的に理解できることが1972年にネルダーとウェダーバーンという2人の統計学者によって示されている。データ間の関連性を示し、それが誤差と呼べる範囲なのかどうかを検定する手法はすべて、大きな枠組で言えば回帰分析の一種であると考えられるのだ。
だが、こうした回帰分析というものはなぜ必要なのだろうか。データを用いなくても我々は経験から傾向性や法則性を学びとることができる。それを「ジンクス」や「理論」や「成功の方程式」などと呼んでいる人もいるだろう。
じつは回帰分析がなぜ必要か、という質問に対する答えは、そもそもこの手法につけられた「回帰」とはどういう意味かということが関わってくる。そこで今日はこの「回帰」という現象が発見された歴史について説明しよう。
背の低い野村君の恋愛
私が世界で最初の回帰分析の話を聞いた時に思い出したのは、中高時代の友人である野村くんのことだった。
彼は当時、自分より背の低い女子としか付き合おうとしなかった。彼自身かなり小柄なので、相手の女子も必然的に限られてくる。当時一緒に遊んでいた友達の中には小林さんという170cm近い身長の女子もいたが、彼女のような女性は完璧に恋愛対象外である。
私は当時学校でチャールズ・ダーウィンの進化論を教わったこともあって、野村くんのような男のせいで人類は2種類に別れてしまうのではないかと危惧した。
cakesは定額読み放題のコンテンツ配信サイトです。簡単なお手続きで、サイト内のすべての記事を読むことができます。cakesには他にも以下のような記事があります。