記述と推測:「67人中4人が陽性」の発表で先走らないために【特別編第1回】

あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。cakesで連載され、シリーズ累計52万部のベストセラーになった『統計学が最強の学問である』が7年半の時を経て復活します! 西内啓さんが、世界を未曾有の混乱に陥れている新型コロナウィルス問題を統計学の視点から解説します。復活第一回は「67人中4人が陽性」の受け止め方、「接触8割減」の理屈と根拠について考えます。また、連載再開にあわせて、『統計学が最強の学問である』を全文無料公開! どんな権威やロジックも吹き飛ばして正解を導き出す統計学で、この危機を乗り越えましょう。


現在無料公開中の『統計学が最強の学問である』はこちらから!


『統計学が最強の学問である』の無料公開と新規記事を執筆をしたわけ

今回の無料過去記事公開、およびここから全5回の新規記事は個人的な恩返しのつもりである。

誰の何の恩に対してかと言えば、1つにはcakesというプラットフォームが『統計学が最強の学問である』という拙著誕生のきっかけをくれたことに対してであり、もう1つは読者の皆様に、本作をシリーズ52万部というヒット作に育てていただいたことに対してでもある。

実のところ、連載当初はこれほどヒットするとは想定しておらず、ある種の社会貢献として、「ビッグデータ」というバズワードに踊らされている人たちにもう少し正しいことを知ってもらいたいというがために書き始めたものであった。

その後の7年間で統計学やデータ分析を取り巻く環境は大きく変わったが、それでも本作で言及したいくつかの考え方、たとえば、

・コレラのパンデミック下で生まれた疫学の発想
・サンプリング調査の意義 ・因果関係とランダム化比較実験
・文献データベースを用いた一次情報へのアクセス

は、新型コロナウィルスに関して様々な情報が行き交う今こそ重要なリテラシーになるだろう。

そんな想いからcakes連載時の記事を無料公開してはどうだろう?と考えたわけである。ただ、これらはどちらかというとビジネスマンが統計学を仕事でどう活かすか、という視点で書かれた記事であり、もともと自分は公衆衛生を専門としていたくせに、あまり「医療情報を正確に読み解くために」といった形では書かれていない。

であれば、より直接的に昨今のニュースを題材に統計学的なリテラシーに役立つ解説をした方が世のためなのではないか、というのが改めての執筆の理由である。

仮に今後新型コロナウィルスの感染が落ち着いたとしても、またいつ新しい感染症が大流行してもおかしくない。よって、早めにきちんと医療関係の統計データを理解できる人間が増えていれば、それだけ社会は安全で頑強なものになるのではないだろうか。そこで今回は次のような内容について解説していきたい。

・記述と推測 ~「67人中4人が陽性」の受け止め方
・感度と特異度 ~ムダな検査をやらない方がいい理由
・比較結果の解釈 ~BCGはコロナウィルスの予防になるか
・感染症の数理モデル ~「接触8割減」の理屈と根拠
・ロジスティック回帰と多重リスクファクター ~重症化と死亡のリスク予測

なお、今回無料公開するcakes版『統計学が最強の学問である』は書籍化にあたって校正や査読を受ける前の、かなり素の原稿に近い文章である。お読みいただくにあたって、その後最新の書籍版では修正されている細かい歴史的事実の誤認(たとえばルーズベルトの大統領の死因は心臓病ではなく脳卒中である)や計算ミスなどがそのままの状態になっている、ということについては注意してほしい。幸い当時よりも統計学に関するWeb上の情報は増えており、途中の数値例などに興味を持たれた方は具体的な計算方法などもご自身で調べてみるとよいだろう。

いずれにしても、ビジネスであれ健康であれ、統計的なリテラシーをもとにより適切な意思決定をできる人間が増えてくれることを、相変わらず私は願い続けている。

◇       ◇

2020年4月21日、慶應義塾大学病院が次のような情報を公開した。

「新型コロナウイルス感染症に関する当院の状況について」

4月13日から4月19日の期間に行われた術前および入院前PCR検査において、新型コロナウイルス感染症以外の治療を目的とした無症状の患者さんのうち5.97%の陽性者(4人/67人中)が確認されました。これは院外・市中で感染したものと考えられ、地域での感染の状況を反映している可能性があり、感染防止にむけてさらなる策を講じていく必要があると考えております。

67人中4人なら5.97%であるという計算は小学生でもできるだろう。新型コロナウィルス感染症と関係ない治療でたまたま来院したのだから、全く「地域での感染の状況を反映」してないとは考えにくい。慶應義塾大学病院は少なくとも事実として何一つ間違ったことを言っているわけではない。

しかしながら、この発表を受けた一部の方々の反応は統計学的には先走りも良いところである。いくつか先走りすぎた意見の例を挙げよう

・外出時には無症状な人でも、17人に1人が感染してると考えて気をつけるべき
・東京都の人口は927万人おりその6%なら、およそ56万人が感染している
・56万人もいるのに都内の4000人しか陽性が確認されてないのは、政府の怠慢や陰謀である
・むしろ56万人感染して死亡者がわずか100人足らずなら、感染リスクを気にしないほうが良い

なぜ慶應義塾大学病院の発表は間違いではないのに、これらの見解は「先走りすぎ」なのだろうか? それは統計学における「記述」と「推測」の違いに由来している。

病院で検査した67人中4名が陽性だった、という事実を整理するためにそれを「約6%」すなわち「割合」という指標にまとめることで「要するにこう」と説明することを記述統計と呼ぶ。他にも平均値だとか標準偏差だとか、様々な記述統計の指標は存在しており、「調査した対象においてこのような事実が確認されました」という慶應義塾大学病院の発表もこの記述統計という観点で何ら問題ない。

だがそこから「東京都民の何%が感染しているか」というのはデータからの「推測」である。こちらについては残念ながら小学生でもわかる掛け算や割り算だけでできるものではなく、推測統計という考え方が必要になってくる。

推測統計の考え方をごく簡単に言えば「考えられる限り全ての仮説を考えて、そのうち実際のデータが得られる確率からムリのある仮説とムリがあるとは言えない仮説を選別すること」と表現されるかもしれない。

たとえば、「実際に同じような状況下で無制限に検査をし続けたとして、ちょうど6%の確率で陽性になる」という仮説が正しかったとしよう。この場合67人の検査対象者のうち6%が実際に陽性となる、という可能性は大いにあるだろうということは直感的にわかる。「サイコロを6回ふってたまたま1回6の目が出る」というぐらい当たり前の話である。

だが、仮に今後無制限に検査をし続けた場合の陽性率が5%だろうと7%だろうと「たまたま67名検査したうち4名しか陽性者が含まれている」という可能性は考えられないだろうか? サイコロの例で言えば、もし6回ふってたまたま6の目が2回出たぐらいですぐに「1/3の確率で6の目が出るイカサマのサイコロだ!」と憤る人がいたら先走りすぎだと感じるはずである。「1/6ずつの正確なサイコロである」という仮説のもと、たまたま6回中2回同じ目が出る確率はそう低いものではないからだ。

ではこうした確率は具体的にどう計算したらよいのだろうか? 専門用語では二項分布とか二項確率と呼ぶが、計算自体は文系の高校生が習う知識だけでも考えることができる。なお、「二項」とは「陽性になるか陰性になるか」「6の目が出るか/出ないか」という2つの状況のいずれになるかを考えるというような意味である。

この続きは有料会員登録をすると
読むことができます。
cakes会員の方はここからログイン

1週間無料のお試し購読する

cakesは定額読み放題のコンテンツ配信サイトです。簡単なお手続きで、サイト内のすべての記事を読むことができます。cakesには他にも以下のような記事があります。

人気の連載

おすすめ記事

統計学が最強の学問である

西内 啓
ダイヤモンド社
2013-01-25

ケイクス

この連載について

初回を読む
統計学が最強の学問である

西内啓

あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。 どんな権威やロジックも吹き飛ばして正解を導き出す統計学の影響は、現代社会で強まる一方である。「ビッグデータ」などの言葉が流行ることもそうした状況の現れだが、はたして...もっと読む

この連載の人気記事

関連記事

関連キーワード

コメント

iyuusuke COVID-19対応で新規記事追加 全文無料公開は期間限定かな?? :: 5ヶ月前 replyretweetfavorite

wildcard_takagi 「統計学が最強の学問である」の西村さんの特集。ものごとを深く正しく解釈できるのがプロフェッショナル。こういう専門家の見立て記事もっと増えてほしい。 https://t.co/9eREgIvxdy 5ヶ月前 replyretweetfavorite

moscow1917 以下の統計学の記事を読めば、単純に神戸市民4万人に感染歴があるとは言い切れない ↓ 5ヶ月前 replyretweetfavorite

kiumtok 「神戸市民4万人に感染歴か?」の記事を読んだ人は、合わせてこちらも読んでほしい。 5ヶ月前 replyretweetfavorite