【第7回】
「1%」の精度に数千万円をかけるべきか?
—サンプル数と誤差の値段

あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。 どんな権威やロジックも吹き飛ばして正解を導き出す統計学の影響は、現代社会で強まる一方である。「ビッグデータ」などの言葉が流行ることもそうした状況の現れだが、はたしてどれだけの人がその本当の面白さを知っているだろうか。この連載では、cakesという新しいプラットフォームに相応しい、最新かつ最も刺激的な統計学の世界を紹介したい。(毎週火・金更新)

サンプリング調査への「よくある反論」

 正確なことを知るためには全数調査をしなければいけない、という素朴な感覚は多くの人間に備わっている。前回の失業率調査の話で言えば、仮にランダムに選ばれた全人口の0.5%を調査してその100%が失業者だったとしても、残りの99.5%全員が失業していなければ全体の失業率はわずか0.5%にしかならないのに、なぜ全人口の100%が失業者だなんていうことが言えるんだ、といった反論がサンプリング調査に対する「よくある反論」だ。

 この「よくある反論」で挙げられるような状況があり得るのかどうか、と言われると、厳密には「あり得なくはない」。ただし統計家はただ「あり得なくはない」と答えるのではなく「それがどの程度あり得るのか」についても必ず答えるだろう。

 真の失業率が0.5%で、全人口1億2000万人の0.5%である60万人を調査した結果、その全員がたまたま失業者である確率はもちろん0ではない。なぜなら1という数を64兆という数で10万回以上割った数のことを数学で厳密には0とは呼ばないからだ。

 もしこの確率をここで正確に小数にして表そうとすれば、少なくとも100万文字以上0という文字が並んだ画面をひたすらスクロールし続けることになるだろう。そういう仕事でもし原稿料がもらえるなら喜んで可能な限り正確な数値を計算してみたい。

 なぜこんな数字が出てくるのか意味がわからない人もいるかもしれないが、こう考えてみるといいかもしれない。わずか0.5%の確率、つまり200回に1回しか当たりの出ないくじを引いて60万回一度も外れずに全部の当たりを引き続ける確率はどれほどだろう?

 当たりくじを引くたびに抽選箱に戻す、というやり方(統計学の専門用語では復元抽出と呼ばれる)は、戻さないやり方(こっちは非復元抽出)と比べてまだ確率が高いが、それでも「200分の1の60万乗」という奇跡が必要になる。これが先ほどの64兆の10万乗分の1という話である。

 ちなみに復元抽出では60万回のチャレンジの間ずっと「200分の1」という一定の当たり確率が維持されるが、実際の失業率調査は非復元抽出であり、最後60万回目のチャレンジにおける当たり確率は残り約1億1940万人中1人と、それだけで奇跡とも言える数字になる。実際にはこの64兆の10万乗分の1という天文学的な値ですら生ぬるいのである。

 こう考えた上で、本気でこの奇跡の心配をして「よくある反論」をする人がいるのだとすれば、その人はよっぽど悲観的な人か、あるいは平然とイカサマをやってのける詐欺師と言えるだろう。ビジネスであろうが行政であろうが、まともな大人しか参加していない会議で「巨大隕石が今この瞬間ここに落ちてくるリスク」が心配されることはないのに、なぜ極端にサンプリングが偏って「調査が当てにならないものである確率」が心配されるのだろうか。

 さすがに0.5%の当たりを引き続けることは非現実的だと思うかもしれないが、仮にこの当たりの確率が99%だったとしても60万回当て続けるのは生易しいものではない。600回当て続ける確率ですら0.24%ほどの確率しかなく、60万回というとそのさらに1000乗という奇跡的な確率になるのである。

 計算過程を簡単にするために「調査した対象全員が当たりになる確率」という事例を例として見せたが、仮にそうでなかったとしても10万人も調査すれば真の値と調査結果から示された値の間にほんの1%の乖離が生じる確率すら奇跡的なものになる。

統計における誤差を計算する方法

  なお実際の誤差の計算は、こうした直接的な確率の計算ではなく次のような式で表される。

標準誤差を算出する式

 

 たとえば先ほどの例で言えば、全体の人数とは国民の全人口である1億2000万人という数が入り、真の割合には「真の失業率」の値が入る。もちろんこの値は実際にはわからないが、サンプル調査から得られた失業率の値を入れてもほぼ間違いではない。

 もし心配であれば、「標準誤差」は真の割合が50%の時に最大化するので、試しにその値を入れてみて「考えられる最大の標準誤差」を考えておくという慎重なやり方もある。

 ちなみになぜ割合が50%の時に標準誤差が最大となるかというと、0.5×(1-0.5)が0.6×(1-0.6)だとか0.3×(1--0.3)より大きい、という計算からなんとなくはわかってもらえると思う。

 この標準誤差というのがどういったものかというと、サンプルから得られた割合(たとえば失業率)に対して標準誤差の2倍を引いた値から標準誤差の2倍を足した値までの範囲に真の値が含まれている信頼性が約95%、という値である。

 たとえばサンプリング失業率が25%という調査結果が得られ、その標準誤差が0.5%だったとすれば、全数調査をした結果得られるであろう真の失業率も24%~26%の間にあると考えてほぼ間違いない、ということを統計学者たちは80年以上前に証明しているのだ。

サンプルを1万増やしても標準誤差は0.3%しか変わらない

  なお、数式なんて見たくもない、という人向けに実際どの程度標準誤差が変わるのか、という結果もお見せしておきたい。

 たとえば10万人の顧客のデータからその男女別割合を調べた結果、顧客に占める女性の割合が70%だったと仮定しよう。その標準誤差は、何人をサンプリングすればどの程度になるのか、を調べた結果を示すと次のグラフのようになる。

サンプル数による標準誤差の推移

  サンプリングデータの数が100名分しかなければその標準誤差は4.6%にもなり、得られた「顧客に占める女性の割合が70%」という結果が実際には「女性の割合が61%~79%と考えてほぼ間違いない」という解釈になってしまう。しかし、1000名いれば標準誤差は1.4%となり「女性の割合が67%~73%と考えてほぼ間違いない」、8000名を超えて標準誤差が0.5%となると「女性の割合が69%~71%と考えてほぼ間違いない」ということになる。

 そして逆に、このあたりから先は、「サンプル数を倍に増やしてもあまり誤差が小さくならない」ということになっている(なお、1万名分使っても標準誤差は0.4%で、2万名分でも0.3%にしかならない)。

 この結果と、高価なデータ処理サーバに投資して得られる「女性の割合がちょうど70%です」という結果を比べた時に、果たしてとるべき判断はどれほど異なってくるだろう。

 8000名分の顧客データをランダムに抽出してアウトプットするだけならデータベースを管理する技術者がちょっと調べればすぐに実現できるし、8000件分のデータの集計表をエクセルで書くぐらい、アルバイトの学生にだってものの数分でできることだ。技術者の残業代と学生のアルバイト代を合わせてもほんの数万円で済んでしまうかもしれない。そこからほんの1%やそこらの精度を改善することは、果たして数千万円も投資する価値のあるクリティカルな影響を持つのだろうか?

 もしその答えが「Yes」なら、その会社は間違いなく高価なビッグデータ技術に投資を惜しむべきではない。だが、もしその答えに「No」と答える会社なら、その数千万円分の投資のうちいくらか、あるいはそのすべてについて、お金をドブに捨てるようなものと言えるのかもしれない。

まずは、正しい判断に必要な最小十分のデータを

 ビッグデータ時代と呼ばれる考え方に逆行するようだが、私は誰からデータ分析の相談を受けても「まず正しい判断に必要な最小十分のデータを扱うこと」を推奨している。もし1%の誤差が今後数年積み重なって何千万円分もの売上やコストに繋がるのであれば、ビッグデータ解析技術は役に立つだろう。だがその場合においても、必ずしも最初からすべての解析を高価な分析用サーバを使って行なう必要はないのだ。

  データ分析という過程はしばしば探索的な作業を必要とする。元のデータが複雑であればあるほど、実際にやってみたら明らかに理屈と反する結果が出たから念のため違う解析手法を試してみる、とか、使用したデータの構造自体に何らかの問題があることがわかったためにその修正が必要になる、といったことは熟練した統計家であっても避けることができない。というか、むしろ熟練した統計家ほど誤りを犯さないためにこうした予備的解析の労を惜しまないと言っても過言ではない。

 結果を見ながら色々な手法やデータの切り口を試すという探索的解析においてはとくにトライ&エラーの回数が重要になる。そのため、特殊なツールを使ってトリッキーなプログラムを組まなければいけない事態も、解析のための操作からレスポンスまでに長時間待たされる事態も可能であれば避けたい。そうなると、たとえ最終的には全データを対象とした分析や検証が必要となるにしても、やはりまずは適切なサイズ・そして適切なサンプリング方法によって抽出されたデータを使って、探索的解析である程度仮説の目星をつけた後で全データの解析を行なったほうが効率的ということになるだろう。

 必要な仮説を見つけるための適切なサイズとサンプリング方法についてはそれなりに専門的な統計学の知識が必要になるが、とりあえずデータの外観を掴むだけならまず数千~1万件ほど抽出していじってみればいいし、それくらいならエクセルぐらいしか使えない人であっても十分にできる仕事である。

 もちろん莫大なデータから高速で一定条件のランダムサンプリングをする時にも、最終的な解析結果の妥当性を検証する際にも、ビッグデータ技術は活躍するだろう。だが果たしてその速度と精度にどの程度の価値があるのか? と聞かれれば、それは解析結果からどれだけの価値を得られるのかによる、としか答えられない。

 解析はそれ自体価値があるものではなく、それを活かして何を行ない、どれだけの価値を得られそうなのかによって異なるのである。この点がクリアになっていなければ、ビッグデータだろうがサンプリングデータだろうがどんな高度なデータマイニングツールを使おうが、「何がわかるかもわからない」という状態でお金と時間をドブに捨てる可能性が高くなる。

 どうすればその価値について考えることができるのだろうか? それが次回みなさんにお伝えしたい内容である。

統計学が最強の学問である

西内 啓
ダイヤモンド社
2013-01-25

ケイクス

この連載について

初回を読む
統計学が最強の学問である

西内啓

あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。 どんな権威やロジックも吹き飛ばして正解を導き出す統計学の影響は、現代社会で強まる一方である。「ビッグデータ」などの言葉が流行ることもそうした状況の現れだが、はたして...もっと読む

この連載の人気記事

関連記事

関連キーワード