【第22回】
統計学の理解が劇的に進む1枚の表
—一般化線形モデルとは

あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。 どんな権威やロジックも吹き飛ばして正解を導き出す統計学の影響は、現代社会で強まる一方である。「ビッグデータ」などの言葉が流行ることもそうした状況の現れだが、はたしてどれだけの人がその本当の面白さを知っているだろうか。この連載では、cakesという新しいプラットフォームに相応しい、最新かつ最も刺激的な統計学の世界を紹介したい。(毎週火・金更新)

統計学の2種類の教科書

 前々回から前回にかけて紹介した回帰分析はそれ自体有用なツールでもあるが、そこから多くの統計学的手法を「広義の回帰分析」として統一的に理解すればさらにその応用範囲は広がるだろう。
 このような「広義の回帰分析」という考え方は、統計学者たちから「一般化線形モデル」という名で呼ばれている。線形とは回帰分析のように直線的な関係性のことを指し、「色々手法はあるけど結局回帰分析みたいなことしてるっていう点で一般化して整理できるよね?」というのが一般化線形モデルの意図するところだ。

 極端な表現をすれば、基礎統計学の教科書は大きく2つに分けられると私は考えている。一方は一般化線形モデルという視点を活かさないためにフィッシャーたちの時代に作られた手法を「別々のもの」として紹介している本、そしてもう一方は「基本的に同じ手法」として俯瞰した形で説明している本である。

 前者の書き方でしばしば起こる悲劇は以下のようなものだ。
 t検定だとか回帰分析だとか、呼び名の由来がわかるわけでも規則性があるわけでもない個別の手法をいちいち覚え、結局のところどういうときに何を使えばよいのか、という点についてはわからずじまい。何となく演習問題で解かされた手計算のやり方をテストで書けば単位はもらえたが、結局あれはいったい何だったのだろう、と社会人になってから統計学について思い返すたびに首をひねることになる—。

 これが「基本的に同じ手法」というコンセプトのもと、実用的にはたった1枚の表でどう使い分けるか、何を見ればよいのか整理できたとすればどうだろうか? 統計学の理解のために必要な手間は劇的に減少し、ずいぶん見通しがよくなると思う。
 そのたった1枚の表とは次のようなものだ。

図表1 統計学の理解が劇的に進む1枚の表

 本連載では統計学の目的として、フェアな比較に基づき違いを生む要因を見つけることを何度もあげているが、どのような分析軸で(これを説明変数と呼ぶ)どのような値を比較したいか(こちらは結果変数と呼ぶ)、ということさえ決まれば用いるべき手法は簡単に選べる。繰り返すが、この表に載せられたものはすべて同じ「一般化線形モデル」という広義の回帰分析なのである。

表の使い方

 たとえば、顧客の1人当たりの売上という変数は0円から1円刻みで増加する連続値であるから、これを結果変数として、2グループ間(たとえば男女別の違いなど)での比較を行なう際にはそれぞれの平均値を記述し、t検定によって得られた「この平均値の差は誤差の範囲と言えるかどうか」というp値や信頼区間を示せばいい。

 また、来店回数という値も連続値であるが、「来店回数が多い人ほど売上も高まるのだろうか」という比較を行ないたければ、来店回数を説明変数、売上金額を結果変数とする回帰分析を行ない、回帰係数の推定値や信頼区間、p値を示せばいい。

 同様に金額関係なく、「購買の有無」や「来店の有無」といった値は、たった2つの値、すなわち「あり」か「なし」かで表すことができるため二値である。このような結果変数を2グループ間あるいは3グループ以上の多グループ間(たとえば10歳刻みの年代カテゴリーなど)で比較したければ、集計表でそれぞれのグループの購買割合や来店割合などを記述したうえで、カイ二乗検定により「誤差の範囲と言えるかどうか」を示すp値を示せばよいのである。

 少しややこしいのは、連続値でもなく二値でもない、つまり「何カテゴリかに分類される」という結果変数を扱うにはどうすればいいかという話だが、これも実用上は二値もしくは連続値として扱うことが多い(ただし集計表を書いてカイ二乗検定というやり方に関してはそのまま使うことができる)。

  たとえば「1.まったくない」「2.あまりない」「3.たまにある」「4.よくある」といったようなアンケート項目には1→2→3→4というような順位や方向性が存在している。こうしたカテゴリーについては1~2か、それとも3~4か、といったように二分することで二値の変数として扱うというのが1つの手だ。なお別に中央で区切らなくても、「よくある」と「それ以外」というような分類で二値にしてもまったくかまわない。また、1~4の値をそのまま連続値の数値として分析してやる、ということも実用上とくに問題がないことも知られている。

 一方、日本人の支持政党などというカテゴリーについては、このようなアンケート結果ほど明確な順序性や方向性を持っているわけではない。
 「リベラル/保守っぽさ」といった尺度で直感的に並べることぐらいはできるかもしれないが、政策の領域によってその順序は容易に入れ替わるし、別にほとんどの日本人は支持政党を「リベラル/保守っぽさ」だけで決めているわけでもないだろう。そのため、こうした変数については「質的に異なるカテゴリー」と考え、「自民党を支持するか否か」「民主党を支持するか否か」と、それぞれの政党の支持有無という二値の変数に変換したうえで解析することが一般的である。

 3カテゴリー以上の変数に対しては少しややこしいかもしれないが、それでもこのたった1枚の表だけでほとんどのデータの関連性を分析したり、将来の結果を予測できたり、といったことができるのは、とてもシンプルかつパワフルな枠組みである。

どの方法でも同じp値が得られるわけ

 さらに言えば、一番右の「複数の軸で同時に比較」したいときに使う手法を、1つの説明変数しかない場合に使ってもかまわないし、その場合説明変数がグループ間の比較だろうが連続値の多寡だろうがまったく問題がない。つまりt検定をすべき場面で重回帰分析を行なおうとしても(ただしこの場合分析軸が1つしかないため重回帰分析とは呼ばれず回帰分析と呼ばれることになるが)、カイ二乗検定を行なうべき場面でロジスティック回帰分析をしてもまったく同じp値が得られるのである。だから関連性を分析する手法のほとんどが広義の回帰分析であると言っていいのだ。

 これらの結果が一致することは本来数学的な証明によって述べるべき事実だが、t検定と回帰分析の結果が一致するイメージぐらいなら数学を使わなくても伝えることはできる。

 図表2は、t検定すなわち2グループ間の平均値の差が果たして誤差の範囲と言えるかどうかのp値を算出するための統計手法の考え方を示したものである。例として、広告認知が「あったグループ」と「なかったグループ」の間で購買金額の平均値に違いがあったかどうかを分析するという想定で図中のデータは作成した。

2 t検定の考え方

 

 それぞれ黒い点が各グループに分類される顧客の購買金額を示しており、①②で示したのがそれぞれのグループの平均値である。t検定で分析したい平均値とはこの①②の「高さ」の違いであり、もしこれがデータのバラつきによる誤差の範囲を越えていると考えられるならば、この広告は効果があると考えていいかもしれない。

 では、このようなデータに対して回帰分析を行なった場合、どのようなことになるのだろうか? 図表3がその結果を示すものである。回帰分析を行なうためには両者ともに「数字」でなければならない。だから便宜的に「広告認知がない」を0、「広告認知がある」を1とすることにしておこう。

3 回帰分析の考え方

 

 以前も述べたように回帰直線とは「データの中心を通るもの」だ。だから当然両グループの平均値を通る直線が得られることになるのはいいだろう。そしてここから得られる傾きだが、中学校で習うようにグラフにおける直線の傾きとは「座標の縦に進む長さ÷座標の横に進む長さ」で示される。

 つまり、それぞれのグループの平均値間でこの回帰直線の傾きを考えると、「座標の縦に進む長さ」とはそのまま両グループ間の「平均値①②の差」である。そして「座標の横に進む長さ」とは言うまでもなく、1-0で1である。「平均値の差」÷1は当然そのまま「平均値の差」なわけで、このようにグループ間の違いを0か1かで表現しさえすれば「平均値の差」と「回帰係数」はまったく同じ値になるのである。

 このように本来数値というわけではない「2つのグループ」あるいは「二値の変数」を0か1かで表現するやり方のことをダミー変数と呼び、多くの論文でよく使われている。回帰分析の表に「男性ダミー」とか「高齢者ダミー」と書いてあれば、それはすなわち「男性なら1・女性なら0」とか「65才以上なら1・未満なら0」といった変数を回帰分析に使ったということである。もしその男性ダミーの回帰係数が5.2であると書いてあれば「女性に比べて男性は5.2だけ結果変数が大きい傾向」となるし、-4.1と書いてあれば「女性に比べて男性は4.1だけ結果変数が小さい傾向」と読み取ればいい。

 鋭い読者なら、「平均値の差」と「回帰係数」が一致するだけではなく、その誤差やバラつきについても考慮しなければダメだろう、という前回の内容を踏まえての指摘をしてくれるかもしれないが、こちらについてもまったく問題はない。

 なぜなら得られたデータから算出されたグループ間の平均値も、回帰係数も、まったく同じt分布という分布に従うバラつきを持つことがフィッシャーによって証明されているからだ。同じデータから本質的に同じ値(平均値の差と回帰係数)を推定し、しかもその推定値が従う分布、すなわち理論上のバラつきが同じとくれば、結果がまったく同じになるのも当たり前である。

 紛らわしい用語「一般線形モデル」

 今日の短い文章だけで、基礎統計学の教科書1冊分の手法を説明することができたのも一般化線形モデルという素晴らしい枠組みがあってのことである。

 このように学習者にとってわかりやすいコンセプトがネルダーとウェダーバーンによって提唱されてからもう40年ほど経つが、未だに一般的な教科書の記述に活かされていない、というのは個人的に残念である。

 以前、ハーバードの大学院生と私的な統計学の勉強会を催した際にこのような枠組みの話をすると、「なんで今まで誰もこんな風に教えてくれなかったの?」というリアクションをいただいたこともあるので、我が国の統計教育だけの問題というわけでもなさそうだ。

 一般化線形モデルという考え方に基づき「多くの関連性を分析するための手法は広義の回帰分析である」ということがわかったら、次回は重回帰とロジスティック回帰についてもう少し詳しく述べよう。

 ネルダーたちがそもそも一般化線形モデルというアイディアを形にできたのは、当時発明されていたさまざまな☓☓回帰という名の手法が同じ計算で実行できるのではないか? という思いつきからスタートしている。そのため重回帰とロジスティック回帰がどう同じでどう違うか、ということさえわかれば今後何か別の回帰分析手法を目にするときにも恐れることなくその意味を受け止められるはずだ。
 また実際の研究結果を読み解きながら、その考え方の説明と、これがなぜ「ランダム化のできない観察研究」において威力を発揮するのかについても説明する予定だ。

 なお余談だが、「一般化線形モデル」(Generalized linear model)の一部であるt検定・分散分析・回帰分析・重回帰分析といったもの(カイ二乗検定とロジスティック回帰は含まれない)を「一般線形モデル」(General linear mode)としてまとめるアイディアは、ネルダーとウェダーバーンに先んじて1968年にコーエンという名の統計学者によって提唱されている。

 ネルダーは、他の統計学者からの「名前紛らわしくないですか?」というツッコミに対して「正直もっといい名前つければ良かったと反省している」と認めている
 専門家以外はこの2つの違いについて敏感になる必要はないかもしれないが、今後もし「一般線形モデル」という表現を目にすることがあっても「一般化線形モデルの誤植じゃないの?」とつっこむ必要はないかもしれないということだけは覚えておいてもいいだろう。

【参考文献】
『一般化線形モデル入門 原著第2版』(Annette J.Dobson)

統計学が最強の学問である

西内 啓
ダイヤモンド社
2013-01-25

ケイクス

この連載について

初回を読む
統計学が最強の学問である

西内啓

あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。 どんな権威やロジックも吹き飛ばして正解を導き出す統計学の影響は、現代社会で強まる一方である。「ビッグデータ」などの言葉が流行ることもそうした状況の現れだが、はたして...もっと読む

この連載の人気記事

関連記事

関連キーワード