【第7回】
「1%」の精度に数千万円をかけるべきか?
—サンプル数と誤差の値段

あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。 どんな権威やロジックも吹き飛ばして正解を導き出す統計学の影響は、現代社会で強まる一方である。「ビッグデータ」などの言葉が流行ることもそうした状況の現れだが、はたしてどれだけの人がその本当の面白さを知っているだろうか。この連載では、cakesという新しいプラットフォームに相応しい、最新かつ最も刺激的な統計学の世界を紹介したい。(毎週火・金更新)

サンプリング調査への「よくある反論」

 正確なことを知るためには全数調査をしなければいけない、という素朴な感覚は多くの人間に備わっている。前回の失業率調査の話で言えば、仮にランダムに選ばれた全人口の0.5%を調査してその100%が失業者だったとしても、残りの99.5%全員が失業していなければ全体の失業率はわずか0.5%にしかならないのに、なぜ全人口の100%が失業者だなんていうことが言えるんだ、といった反論がサンプリング調査に対する「よくある反論」だ。

 この「よくある反論」で挙げられるような状況があり得るのかどうか、と言われると、厳密には「あり得なくはない」。ただし統計家はただ「あり得なくはない」と答えるのではなく「それがどの程度あり得るのか」についても必ず答えるだろう。

 真の失業率が0.5%で、全人口1億2000万人の0.5%である60万人を調査した結果、その全員がたまたま失業者である確率はもちろん0ではない。なぜなら1という数を64兆という数で10万回以上割った数のことを数学で厳密には0とは呼ばないからだ。

 もしこの確率をここで正確に小数にして表そうとすれば、少なくとも100万文字以上0という文字が並んだ画面をひたすらスクロールし続けることになるだろう。そういう仕事でもし原稿料がもらえるなら喜んで可能な限り正確な数値を計算してみたい。

 なぜこんな数字が出てくるのか意味がわからない人もいるかもしれないが、こう考えてみるといいかもしれない。わずか0.5%の確率、つまり200回に1回しか当たりの出ないくじを引いて60万回一度も外れずに全部の当たりを引き続ける確率はどれほどだろう?

 当たりくじを引くたびに抽選箱に戻す、というやり方(統計学の専門用語では復元抽出と呼ばれる)は、戻さないやり方(こっちは非復元抽出)と比べてまだ確率が高いが、それでも「200分の1の60万乗」という奇跡が必要になる。これが先ほどの64兆の10万乗分の1という話である。

 ちなみに復元抽出では60万回のチャレンジの間ずっと「200分の1」という一定の当たり確率が維持されるが、実際の失業率調査は非復元抽出であり、最後60万回目のチャレンジにおける当たり確率は残り約1億1940万人中1人と、それだけで奇跡とも言える数字になる。実際にはこの64兆の10万乗分の1という天文学的な値ですら生ぬるいのである。

この続きは有料会員登録をすると
読むことができます。
cakes・note会員の方はここからログイン

1週間無料のお試し購読する

cakesは定額読み放題のコンテンツ配信サイトです。簡単なお手続きで、サイト内のすべての記事を読むことができます。cakesには他にも以下のような記事があります。

人気の連載

おすすめ記事

ケイクス

この連載について

初回を読む
統計学が最強の学問である

西内啓

あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。 どんな権威やロジックも吹き飛ばして正解を導き出す統計学の影響は、現代社会で強まる一方である。「ビッグデータ」などの言葉が流行ることもそうした状況の現れだが、はたして...もっと読む

この連載の人気記事

関連記事

関連キーワード