​ロジスティック回帰と多重リスクファクター:加齢と持病、どちらが重要なリスクか?【特別編最終回】

コロナ禍を受けて復活した「統計学が最強の学問である」は今回が最終回。100年ぶりに起きた疫病の世界的流行において、そこから発生するあらゆるリスクとどう向き合えばいいのでしょうか? いまだ解明されていないウィルスに対して適切な判断を取るためにも、最強の学問・統計学をぜひお試しください。


現在無料公開中の『統計学が最強の学問である』はこちらから!


さて前回、中国からの疫学的な報告について言及させてもらったが、こちらの「年代別」と「持病の有無別」のグラフを見たときに勘の良い読者の方はこう思ったかもしれない。「加齢と持病、どちらが本当に重要なリスク要因なのだろうか?」と。

年齢が上がるとともに持病は増える。年長者たちがやたら上がどうの下がどうのと血圧の話で盛り上がっているところを見かけることもあるし、健康診断でメタボリックシンドロームの基準に引っかかったと愚痴る年長者もちょくちょく見かける。メタボリックシンドロームは「放置すると糖尿病の発症や重症化を引き起こす」と考えられているので、年齢が上がるほど高血圧や糖尿病持ちの割合が高くなっていてもおかしくないことは、疫学の知識がなくても体感的に多くの人が想像できることであろう(わざわざ紹介しないが、厚労省の国民健康栄養調査などを確認すると実際にその推測は正しい)。

冒頭の問いに戻ろう。20~30代と比べて40代、50代、60代……と年代が上がるほどリスクが上がるわけだが、一方でこれらのグループは年齢以外にも高血圧や糖尿病の有病率が異なる。逆に、持病のないものと比べて高血圧のグループのリスクは高いが、一方で両者の間で平均年齢は異なるだろう(当然高血圧のほうが平均年齢が高い)。

では、純粋に年齢が上がることがリスクのもとなのだろうか? それとも持病の有無こそがリスクのもとなのだろうか?

より具体的に言うと、「60代の、とくに持病のない健康な人」はどれほどのリスクを考えたらよいのだろうか?

持病よりも年齢を気にしなければいけないのであれば、若者よりも注意しなければいけない。一方で、年齢はあまり影響しておらず持病の有無こそが重要なのであれば、20~30代の健康な若者と同程度の注意を払っておけばよいことになる。

さらに言えば、「持病の有無」だけでも個別にリスクを捉えにくい。たとえば糖尿病患者は高血圧である割合が高いし、高血圧であれば心臓病にもなりやすい。では「ほかの病気はないけど高血圧とは診断された60代」はリスクをどのように捉えればよいのだろうか? 糖尿病や心臓病でなければそれほど気にしなくてよいのか、それとも高血圧自体を気にしたほうがよいのではないのだろうか?

要するに、こうした単純集計だけでは第3回で「BCGを定期摂取するような国」と表現したのと同じ問題が拭いきれないのだ。「高血圧になるような人」のリスクが高いことは間違いなくても、それが「年齢の高い人」ということを意味しているのか、「糖尿病や心臓病を抱えている人」ということを意味しているのかを、単純集計だけで区別するのは不可能である。

こうした疑問は今に始まったことではない。数十年前に脳卒中、心筋梗塞やがんといった慢性疾患の原因を探索するための大規模な疫学調査において、健康状態や生活習慣に関する多様なデータが収集されるようになった頃から課題として見られていたようだ。なお、初代『統計学が最強の学問である』を読まれた方ならこの疫学調査に心当たりがあるはずだ。「フラミンガム研究」である。

フラミンガム研究において、一元的に、1人の健康な(あるいは不健康な)住民から多様な項目を取得できるようになると、互いに関わりあう様々な項目の組み合わせでどのようにリスクが生じるかに関心が寄せられた。なお、このようなリスク要因のことは「多重リスクファクター」と呼ばれる。そしてこの多重リスクファクターを考えるために生み出された手法が現在医療においてもビジネスにおいても頻繁に用いられるロジスティック回帰なのである。

ロジスティック回帰の説明に入る準備として、まずオッズ比という考え方を紹介しよう。この「オッズ」という言葉は競馬におけるそれと語源は同じだが、オッズ比は疫学の世界で「全数調査やランダムサンプリングによらずリスクファクターを考えるための指標」としてしばしば使われるものである。

まず仮に、日本全国から10,000人をランダムサンプリングして感度の高い抗体検査と過去1週間ほどの生活状況に関して様々なアンケートに答えてもらったとして、次のような集計結果が得られるとしよう。この場合、全体の感染率は2%(=200÷10000)と求められるが、「夜遊びあり」というグループに限定するとその感染率は4%(=40/1000)、一方で「夜遊びなし」の感染率は1.78%(=160÷9000)となる。

つまり、割り算をすると、「夜遊びあり」のグループは「夜遊びなし」のグループの2.25倍(=4%÷1.78%)リスクが高いことになり、こうした指標をリスク比と呼ぶ。

95%信頼区間で考えてもリスク比が明らかに1より大きいようであればリスクを増やすものではないかと疑い、逆にリスク比が明らかに1より小さいようであればリスクを減らす予防要因ではないかと検討する、というのが疫学的思考である。仮にこうしたデータが得られたとすれば、「とにかくいったん皆さん夜遊びを控えましょう」という警戒を呼びかけることになるだろう。

しかしながら、疫学的な調査を行う際に、必ずしも1万人ものデータが取得できるわけではない。ランダムサンプリングではあっても、予算や人員の都合で「抗体検査を1000人分しかできない」ということもあるかもしれない。その場合、運良くこの1000人から偏りなくデータが取得できたとしてもこのような集計表になる。

こちらもリスク比を計算すれば夜遊びありが4%、夜遊びなしが1.78%でリスク比が2.25であることに違いはないが、ずいぶんと心もとないデータからの計算になってしまう。「夜遊びあり」の感染者はたった4人しかいないのだ。仮に、たまたま「夜遊びあり」のグループの感染者が1人たまたま検査を拒否していただけでこのグループの発症リスクは約3%(=3÷99)と推計されていたかもしれないし、さらにもう1人拒否していたら約2%(=2÷98)になってしまう。この場合、リスク比はそれぞれ1.7あるいは1.15ということになってしまう。当然このように限られたデータから推計されたリスク比では信頼区間の幅も広く、それ故「1より明らかに大きい」「1より明らかに小さい」と判断できる可能性は低いのだ。

なぜこのようなことになってしまうのかといえば、基本的に疫学的な注意が払われるような病気の多くは思った以上に「まれ」だからである。たとえば「国民病」と呼ばれるがんでさえ、日本全体で年間100万人ほどしか罹患しないし、部位を限定すれば数万人しかいない(もちろん、がんが少ないこと自体は良いことである)。

多くて数%、場合によってはゼロコンマ数%、といった割合でしか存在しない疾患に対して推測統計の考え方で明確なリスク要因を探そうとすると、単純なランダムサンプリングではかなり大規模な調査が必要になってしまう。

2019年のがん統計予測:[国立がん研究センター がん登録・統計]

そこで疫学ではより迅速にリスク要因を探すために、ケースコントロール調査というものを行うことがしばしばある。ケースは「症例」、コントロールは「比較対照」のことであり、その名の通り、症例と比較対照を別々に調べてその間で「明確な違いはないか」と探索するのである。

社会全体へのランダムサンプリングではなかなか見つからない患者も、意図的に病院に行けばすぐに見つかる。そして見つかった患者と「性別や年代などは同様だが健康なもの」を意図的に集めて調査するのである。たとえば同じ1000人を調べるにしても、ケースである感染者500人と、コントロール500人を集めたとして、仮に10000人の時の結果から偏りなくデータが取得できたとすると次のようになる。

「偏りなく」というのはすなわち、この「感染者の20%(500人中100人)が夜遊びをしていた」「非感染者では9.8%(500人中49人)であった」という比率は、先程の10000人あるいは1000人のランダムサンプリングを想定した結果と同様であるという意味である。

ただし、ここで先ほどと同様に「夜遊びあり」の感染リスクは何%かと考えてはいけない。単純計算「夜遊びあり」という回答者は確かに合計149人いるが、これは調査者が「意図的に500人ずつ集めた」からであり、「コントロールは念のため1000人集めた」などとやればいくらでもその数値は変わってくるからだ。

だがここで代わりに「オッズ比」を使うと、ケースコントロール調査をしたくなる程度にはリスクが小さいものであれば(つまり、社会全体で何割もの人が気にするようなリスクでなければ)、リスク比の近似値を得ることができる。

オッズとは、「該当する割合」÷「該当しない割合」である。夜遊びをするグループしないグループのそれぞれの「感染する」というオッズはいくつで、「夜遊びあり」のグループのオッズは「夜遊びなし」グループのオッズと比べて何倍高いかを計算してみよう。

この続きは有料会員登録をすると
読むことができます。
cakes会員の方はここからログイン

1週間無料のお試し購読する

cakesは定額読み放題のコンテンツ配信サイトです。簡単なお手続きで、サイト内のすべての記事を読むことができます。cakesには他にも以下のような記事があります。

人気の連載

おすすめ記事

統計学が最強の学問である

西内 啓
ダイヤモンド社
2013-01-25

ケイクス

この連載について

初回を読む
統計学が最強の学問である

西内啓

あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。 どんな権威やロジックも吹き飛ばして正解を導き出す統計学の影響は、現代社会で強まる一方である。「ビッグデータ」などの言葉が流行ることもそうした状況の現れだが、はたして...もっと読む

この連載の人気記事

関連記事

関連キーワード

コメント

0kEt8YDnF0bv2my ロジスティック回帰と多重リスクファクター:加齢と持病、どちらが重要なリスクか?【特別編最終回】| 5ヶ月前 replyretweetfavorite

uni_uni222 ロジスティック回帰と多重リスクファクター:加齢と持病、どちらが重要なリスクか?【特別編最終回】|西内啓 @philomyu | 5ヶ月前 replyretweetfavorite

MaxHeart24 →ロジスティック回帰と多重リスクファクター:加齢と持病、どちらが重要なリスクか?【特別編最終回】|西内啓 @philomyu | 5ヶ月前 replyretweetfavorite