【第21回】
天才フィッシャーのもう1つの偉業
—「真値」と回帰係数のバラつき

あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。 どんな権威やロジックも吹き飛ばして正解を導き出す統計学の影響は、現代社会で強まる一方である。「ビッグデータ」などの言葉が流行ることもそうした状況の現れだが、はたしてどれだけの人がその本当の面白さを知っているだろうか。この連載では、cakesという新しいプラットフォームに相応しい、最新かつ最も刺激的な統計学の世界を紹介したい。(毎週火・金更新)

ゴルトンの回帰分析の限界

 ゴルトンは「平凡への回帰」という現象により理論上の予測が「それほどうまくはいかない」ことを発見し、また回帰分析という変数間の関係性を明らかにするための手法も考案した。

 私が大学時代に受けた実験実習の授業でも「方眼紙上にプロットした点の中心を通る直線を引いてその直線の傾きを読み取りなさい」という100年前に頻繁に用いられたであろう技術の成果をレポートしなければいけなかった記憶があるが、このアナログなやり方に少し数学的な裏付けを与えたのがゴルトンたちの業績である。

 だが逆に言えば、ゴルトンの回帰分析は「データの中心を通る直線とそれを表す数式」を導いただけのものである。
 だから、たとえば以下の2つのグラフで示す状況を、ゴルトンの回帰分析だけでは区別することができないのだ。

図1

図2

 図1、図2のグラフともに、回帰分析によって得られた中心を通る直線を表す数式、すなわち回帰式はy=18+0.8xとなっている。つまりx軸にとった値が1増えればy軸の値が0.8ずつ増える正の関係にあるということだ。なおこの18だとか0.8だとかいう回帰式を表現する数値はそれぞれ回帰係数と呼ばれる。また中学校の数学で習うように、この18を切片、0.8を傾きと呼んでもいい。

 しかしながら、同じ回帰式あるいは回帰係数を持ちながらも、図1のグラフはあからさまに横軸と縦軸の値が左下から右上へと直線的な関係性を示している一方、図2のグラフはその関係性が左のグラフと比べてそれほどクリアというわけではない。
 どうやら、バラバラな点の中心を通る直線がたまたま見つけられたからといって喜ぶわけにはいかないようである。

 ではこの左右のグラフはどこが違うのだろうか?
 試しに両者のグラフ中に20個ある点からランダムに3つほど取り除いてみたら、と考えてみるといいかもしれない。図1のグラフは仮にどの3点を取り除かれたとしてもほとんど得られる直線が異なることはないだろう。一方で、図2のグラフから取り除かれた3点がたまたま最も右上に位置する2点と、左下の1点だったとすると、その中心を通る直線は大きく様変わりすることになる。

この続きは有料会員登録をすると
読むことができます。
cakes・note会員の方はここからログイン

1週間無料のお試し購読する

cakesは定額読み放題のコンテンツ配信サイトです。簡単なお手続きで、サイト内のすべての記事を読むことができます。cakesには他にも以下のような記事があります。

人気の連載

おすすめ記事

ケイクス

この連載について

初回を読む
統計学が最強の学問である

西内啓

あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。 どんな権威やロジックも吹き飛ばして正解を導き出す統計学の影響は、現代社会で強まる一方である。「ビッグデータ」などの言葉が流行ることもそうした状況の現れだが、はたして...もっと読む

この連載の人気記事

関連記事

関連キーワード