ゴルトンの回帰分析の限界
ゴルトンは「平凡への回帰」という現象により理論上の予測が「それほどうまくはいかない」ことを発見し、また回帰分析という変数間の関係性を明らかにするための手法も考案した。
私が大学時代に受けた実験実習の授業でも「方眼紙上にプロットした点の中心を通る直線を引いてその直線の傾きを読み取りなさい」という100年前に頻繁に用いられたであろう技術の成果をレポートしなければいけなかった記憶があるが、このアナログなやり方に少し数学的な裏付けを与えたのがゴルトンたちの業績である。
だが逆に言えば、ゴルトンの回帰分析は「データの中心を通る直線とそれを表す数式」を導いただけのものである。
だから、たとえば以下の2つのグラフで示す状況を、ゴルトンの回帰分析だけでは区別することができないのだ。
図1
図2
図1、図2のグラフともに、回帰分析によって得られた中心を通る直線を表す数式、すなわち回帰式はy=18+0.8xとなっている。つまりx軸にとった値が1増えればy軸の値が0.8ずつ増える正の関係にあるということだ。なおこの18だとか0.8だとかいう回帰式を表現する数値はそれぞれ回帰係数と呼ばれる。また中学校の数学で習うように、この18を切片、0.8を傾きと呼んでもいい。
しかしながら、同じ回帰式あるいは回帰係数を持ちながらも、図1のグラフはあからさまに横軸と縦軸の値が左下から右上へと直線的な関係性を示している一方、図2のグラフはその関係性が左のグラフと比べてそれほどクリアというわけではない。
どうやら、バラバラな点の中心を通る直線がたまたま見つけられたからといって喜ぶわけにはいかないようである。
ではこの左右のグラフはどこが違うのだろうか?
試しに両者のグラフ中に20個ある点からランダムに3つほど取り除いてみたら、と考えてみるといいかもしれない。図1のグラフは仮にどの3点を取り除かれたとしてもほとんど得られる直線が異なることはないだろう。一方で、図2のグラフから取り除かれた3点がたまたま最も右上に位置する2点と、左下の1点だったとすると、その中心を通る直線は大きく様変わりすることになる。
cakesは定額読み放題のコンテンツ配信サイトです。簡単なお手続きで、サイト内のすべての記事を読むことができます。cakesには他にも以下のような記事があります。