【第1回】
統計リテラシーのない者がカモられる時代がやってきた

あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。
どんな権威やロジックも吹き飛ばして正解を導き出す統計学の影響は、現代社会で強まる一方である。「ビッグデータ」などの言葉が流行ることもその現れだが、はたしてどれだけの人がその本当の面白さと有用性を知っているだろうか。この連載では、cakesという新しいプラットフォームに相応しい、最新かつ最も刺激的な統計学の世界を紹介したい。

H.G.ウェルズの予言

 「1903年、H.G.ウェルズは将来、統計学的思考が読み書きと同じように良き社会人として必須の能力になる日が来ると予言した」

 ハーバード大学のメディカルスクールで使われている統計学の教科書の冒頭にはこんなことが書かれている。
 H.G.ウェルズはサイエンス・フィクションの父とも呼ばれる作家・思想家だ。タイムマシンや透明人間といったSF的なアイディアは彼の著作を通して有名になったし、彼の幅広い科学知識と先見性は、核兵器や国際連盟、それに今で言うWikipediaのような百科事典の登場すら予見したと言われる。

 現代的な統計学の黎明期である1903年当時になぜウェルズがそう予言できたのかは定かではないが、彼に遅れること100年ほど経った今、私たちは間違いなく読み書きやと同じレベルで、統計学的な思考方法を求められている。読み書きをする能力のことをリテラシーと呼ぶが、統計的なリテラシーすなわち「統計リテラシー」がないことは現代を生きる我々にとって思いのほかヤバい状態なのだ。

マンハッタン!マンハッタン!

 もし、それがどれだけヤバいことなのかイメージしにくければ、たとえば西部劇の時代のネイティブ・アメリカン(いわゆるインディアン)と白人の取引のことを考えてみればいい。

 もしあなたが文字の読めないネイティブアメリカン側であれば、ヨーロッパ人たちと約束を交わす時に契約書を持ち出されても内容が確認できない。せいぜい目の前にいる人間がサギ師かどうかの人柄を判断するしかないし、もし仮にその判断を誤れば契約書の効力で財産は不当に奪われてしまう。取り返そうとしても法律はおろか裁判所の書類にさえ何が書いてあるかわからないのだから、泣き寝入りするか、暴力で解決しようとして保安官や軍隊に撃ち殺されるかの選択を迫られることになるだろう。

 俗に「マンハッタン詐欺」と言われている話をご存知だろうか。

 マンハッタンとはニューヨーク市の中心となる島の名前であり、またウイスキーを使ったカクテルの名前でもあるが、その語源はかつてその島の周囲に住んでいたネイティブアメリカンの言葉で「酔っぱらい」という意味であったというものである。

 バーテンダーからしばしば聞く与太話によれば、17世紀にこの島にやってきたオランダ人たちは付近を仕切る酋長を接待し、いい感じに酔わせ、土地を譲渡する契約書にサインさせたそうだ。そうした後に、土地から締め出された酋長が「あの時は酔っ払っていた(だから契約は無効だ)!」と何度も叫んだために、その島の名前が彼の言葉でマンハッタンと名付けられたというのである。しかし、この場合彼にとって本当に問題だったのは、その時酔っ払っているかどうかよりも、中身を読むことのできない契約書にサインしてしまったことの方だと言えるだろう。

 このストーリーが本当なのか、バーで繰り広げられる俗説にすぎないのか私は知らないが、読み書きができないということは酔っぱらいの酋長と同じくらい危なっかしい状態であるし、統計リテラシーがない状態で現代を生きることも同じくらいヤバいことなのだ。
 だが逆に、まだ多くの人が身につけていない統計リテラシーを先んじてマスターすることは、マンハッタン島においてオランダ人側に回る、すなわちやろうと思えば合法的なサギ師にだってなれるというチャンスでもある。

あみだくじの必勝法

 たとえば私はかつて大学院生時代、研究室の友人としばしばコンビニへの買い出し役を賭けてあみだくじをした。
 あみだくじの形式はさまざまだが、ある日に行なったあみだくじは、私を含む参加者4名の倍の数である8本の縦線を引き、私が残りの参加者に見えないよう左から4番めの縦棒の下に星印をつけ、残り3人の友人には逆に私に見えないように4本ずつ横の線を引いてもらうといったルールで行なった。参加者はジャンケンで勝った順番に①~⑧の縦棒の中からまず1か所ずつを選び、ひと通り選び終わった後はその逆順で選ぶ。そして★印に当たったものがコンビニへと全員の使い走りに行くことになるのである(図1)。

図表1 あみだくじの一例

 もし何のためらいもなく直感のみを頼りにしてこのあみだくじに参加したとしたら、あなたは酔っぱらいの酋長と同じ目に合うことになるだろう。
 試しにこのルールで1000回繰り返したとして、縦棒ごとの当たる回数をシミュレーションしてみると図2のような結果になる。

図表2 あみだくじの当たりの分布

 一番当たる確率が高いのは当たりの真上である左から4番めで1000回中210回、つまり21.0%の確率で当たるという結果がシミュレーションの結果明らかになった。次いでその右隣では19.4%の確率で当たることになる。一方、最も低い確率の右端では3.3%の確率しかない。

 実際にこうしたルールであみだくじをやったところ、友人たちのクセなのか、人間心理の傾向なのか、両端の縦棒を先に選ばれたことはほとんどなかった。
 つまり、一見4分の1すなわち25%ずつの確率で公正に決めようとしてると思わせつつ、両端を選び続ける私がコンビニに行く確率は11.4%(=(81+33)÷1000)ほどしかない。一方で、なぜか中心付近の縦棒を直感的に選ぶ傾向にあった友人が左から4・5番めの選択肢を選ぶと40.4%(=(210+194)÷1000)もの確率で当たることになる。きっと彼はこうしたあみだくじのせいで何度も「なぜか最近運が悪いな」という感覚とともに買い出しを引き受けてくれていたことだろう。

 なお、ひょっとすると友人たちがこの文章を読んで酋長のように憤るのかもしれないが、ともに統計学を修めていた時期のことであるから、ある意味で勝負は公平だったということで許してもらおうと思っている。

統計学を制するものが世界を制する

 もちろん横棒を引く過程がシミュレーション通りに完全ランダムとはいかないし、いくら確率が低いとは言っても私が当たりを引くことがないわけではない。だが、統計学さえ知っていれば不確実性のある状況下においてちょっとしたズルを行なうことができるのは何もこうしたセコい話だけには留まらない。

 たとえば私がデータ分析に関わったある小売企業では、これまで漫然と送っていたダイレクトメールについて「どういった顧客には送りどういった顧客には送らないか」といった選択を最適化することによって売上をほんの6%ほど上げるやり方がわかった。1000億円ほどの売上のほんの6%だから、見込まれる売上の増加はほんの60億円ほどだ。
 DMを送る量自体は増やすのではないため特にコストがかかるわけでもなく、「DMを送ることで購買額を増やす顧客」と「そうでない顧客」をただ明らかにしただけで、あたかもあみだくじでズルをするかのように売上高にして6%ほどの「ズル」ができるのだ。

 こうした可能性はこの会社に留まらずありとあらゆる企業において今眠っていることだろう。この小売企業の事例については後述するが、本連載を最後まで読めば、どうすれば自社のデータからこうしたズルができるかを誰でも考えられるようになるはずである。
 そしてもしそうしたズルをあなたや、あなたの会社がやらなかったとすれば、競合他社が同じようなズルを使ってあなたの顧客や利益を奪うだけの話である。マンハッタン島に住んでいた酋長のように後で騒いでも遅いのだ。

 すでに統計学は21世紀に住む我々にとって必須スキルとなっているし、そして多くの人間にとって最強の武器となる可能性も秘めている。ビジネス領域における統計学を応用したソリューションのことをビジネス・インテリジェンスと呼ぶが、このインテリジェンスという言葉はスパイ映画に出てくるCIA(Central Intelligence Agency)の「I」の文字が示すものだ。それに、兵法の古典中の古典である孫子の時代から、戦いにおける情報の重要性はいくら強調してもしすぎるということはない。
 情報を制するものが世界を制する、という言葉を現代において言い換えるならば、統計学を制するものが世界を制するということなのである。

ケイクス

この連載について

統計学が最強の学問である

西内啓

あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。 どんな権威やロジックも吹き飛ばして正解を導き出す統計学の影響は、現代社会で強まる一方である。「ビッグデータ」などの言葉が流行ることもそうした状況の現れだが、はたして...もっと読む

この連載の人気記事

関連記事

関連キーワード