【第30回】
統計家たちの仁義なき争い (6)
—「確率」をめぐる頻度論派とベイズ派の対立

あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。 どんな権威やロジックも吹き飛ばして正解を導き出す統計学の影響は、現代社会で強まる一方である。「ビッグデータ」などの言葉が流行ることもそうした状況の現れだが、はたしてどれだけの人がその本当の面白さを知っているだろうか。この連載では、cakesという新しいプラットフォームに相応しい、最新かつ最も刺激的な統計学の世界を紹介したい。(毎週火・金更新)

 ここまでに社会調査や心理統計学、データマイニングや計量経済学といったさまざまな分野における統計学に対する考え方の違いを紹介したが、最後に分野をまたいで存在する「確率自体の考え方」についての対立を紹介しよう。

 それが「頻度論者」か「ベイズ論者」か、という対立軸である。両者の違いを一言で表すとするならば、「事前に何らかの確率を想定するか」「しないか」と言い換えてもいいかもしれない。

 両者の違いを理解するために、たとえばここに2種類のコインがあったとしよう。一方は表が出る確率も裏が出る確率も5分5分の「本物のコイン」で、もう一方は表が出る確率が8割、裏が出る確率が2割の「イカサマのコイン」だ。両者は見た目や重さなどからはまったく区別がつかないものだとするが、何回か投げた回数を集計・分析し、どちらのコインであるかをそれぞれの立場から判断するとどうなるだろうか。

頻度論はシンプルに「何回中の何回」と考える

 頻度論すなわちフィッシャーのような考え方に基づく統計家が、たとえば10回投げたうち10回とも表が出た、というデータを得たとする。このコインは本物のコインだと言えるだろうか? 彼はおそらく、まずこのコインが本物だと仮定する。そしてその仮定のもとで10回中全部が表になる確率を計算するだろう。すなわち、「2分の1の確率で出る表が偶然10回全部出る確率は2の10乗分の1、つまり0.10%しかない」ということだ。前に紹介したミルクティにうるさい夫人が「もしデタラメに答えていたとして10杯全部を当てる確率」とまったく同じ計算であり、この0.10%という確率はいわゆるp値と呼ぶものである。つまり、このような確率の奇跡が起こったと考えるよりは、そもそもの「このコインは本物」という仮定を「考えにくい」と捨て去ったほうが理にかなっているという判断を行なうのだ。

 次に「このコインはイカサマのコイン」だと仮定したらどうなるだろう? 先ほどと同様の計算を行なえば、「80%の確率で出る表が偶然10回全部出る確率は10.74%程度」ということになる。p値が10.74%程度なら別に奇跡的と言うほどではない。だからこの仮定を捨てきることはできない。

 一方の「本物のコイン」という仮定が捨て去られ、他方の「イカサマのコイン」という仮定は捨て去ることができないのであれば、すなわちこれはイカサマのコインだと考えたほうが妥当だということになる。もっと簡単に考えたければ、とりあえず1万回ほどコインを投げてみて、そのうち何回が表になるかをカウントしてみればいい。おそらく本物のコインなら5000回前後しか表が出ないし、イカサマのコインだったら8000回前後表が出る。
 頻度論とは確率をこうした「何回中の何回」といった「頻度」でとらえようという意味である。なお、このとき本物のコインで8000回前後の表が出るp値も、イカサマのコインで5000回前後しか表が出ないp値も著しく低い。

ベイズ統計は「事前確率」と「事後確率」を考える

 一方、ベイズ論者がこのコインを見分けようとすると、まず何の情報もない時点で、どの程度の確率でこのコインは本物かイカサマか、と考える。この確率のことを「データが得られる前に想定する確率」というような意味で「事前確率」と呼ぶ。事前確率は別にどのような値に設定してもかまわない。コインを持っている相手の人相が悪いから、7:3でイカサマの可能性が高いと考えることもベイズ的には何の問題もないのだが、ここではひとまず半々だったと想定し、先ほどと同じく「10回投げたうち10回とも表が出た」という結果から推測を行なおう。

この続きは有料会員登録をすると
読むことができます。
cakes・note会員の方はここからログイン

1週間無料のお試し購読する

cakesは定額読み放題のコンテンツ配信サイトです。簡単なお手続きで、サイト内のすべての記事を読むことができます。cakesには他にも以下のような記事があります。

人気の連載

おすすめ記事

ケイクス

この連載について

初回を読む
統計学が最強の学問である

西内啓

あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。 どんな権威やロジックも吹き飛ばして正解を導き出す統計学の影響は、現代社会で強まる一方である。「ビッグデータ」などの言葉が流行ることもそうした状況の現れだが、はたして...もっと読む

この連載の人気記事

関連記事

関連キーワード

コメント

Tweetがありません