第130回 投げたコインの正体は(後編)

「やさしい統計」シリーズ第5章後編。二項分布の平均と分散から、大数の弱法則へ。
【お休みの予告】
結城浩です。いつもご愛読ありがとうございます。 おかげさまでこのWeb連載も今回で第130回を迎えることになりました! みなさまの応援に感謝します。

さて、たいへん恐れ入りますが、さらなるパワーアップをはかるため、 このWeb連載の更新を三週間分お休みさせてください。

日程は以下の通りです。ご迷惑をおかけしますが、よろしくお願いいたします。

Web連載「数学ガールの秘密ノート」予定

・2015年9月4日(金)第130回更新
・2015年9月11日(金)お休み
・2015年9月18日(金)お休み
・2015年9月25日(金)お休み
・2015年10月2日(金)第131回更新
・(以後、毎週金曜日更新)
登場人物紹介
:数学が好きな高校生。
テトラちゃんの後輩。好奇心旺盛で根気強い《元気少女》。
ミルカさん:数学が好きな高校生。のクラスメート。長い黒髪の《饒舌才媛》。
$ \newcommand{\HIRANO}{\unicode[sans-serif,STIXGeneral]{x306E}} % HIRAGANA LETTER NO (U+306E) $

高校の図書室

第129回からの続き)

テトラちゃんそれにミルカさんは《コインを$10$回投げるときに表が出る回数》について話している。 確率母関数で平均と分散を求めたところ。

ミルカ「ここまで出たら、さらに《次の一歩》が楽しみだな」

テトラ「さらに……次の一歩?」

「何?」

ミルカ「君なら《次の一歩》はどうする?」

「そうだなあ……そうか《変数の導入による一般化》がすぐにできそうだね」

テトラ「変数の導入による一般化……表が出る確率を$p$とする、とかでしょうか」

ミルカ「それもある」

「回数もあるね。コイン投げの回数を$n$とする」

ミルカ「ふうん……」

「だから、《次の一歩》はこの問題だよ」

問題1
表が出る確率が$p$になっているコインを$n$回投げたとする。
このとき、表が出る回数を表す確率変数$X$の平均$E(X)$と分散$V(X)$を求めよ。

テトラ「これも、確率母関数で?」

「うん、求められるよ。さっきは$p = \frac12$で$n = 10$だったわけだよね。そのときの考え方をそのまま使える(第129回参照)」

テトラ「なるほどです」

「表が出る確率が$\frac12$のコインを$1$回投げたときの確率母関数は、$\frac12 + \frac12x$で、最初の$\frac12$は裏が出る確率で、 二つ目の$\frac12$は表が出る確率」

テトラ「はい、そうですね。ということは表が出る確率が$p$なら、確率母関数はこうなる……んですよね?」

表が出る確率が$p$であるコインを$1$回投げたときの確率母関数 $$ (1-p) + px $$

「そうだね。裏が出る確率が$1-p$だから。そしてこれを$n$回投げるときの確率母関数$f(x)$は$n$乗すればいい」

表が出る確率が$p$であるコインを$n$回投げたときの確率母関数 $$ f(x) = \left((1-p) + px\right)^n $$

テトラ「平均と分散もさきほどと同じように確率母関数を微分して得られますね」

「そうだね。だから、$f'(x)$と$f''(x)$を求めておこう」

$$ \begin{align*} f'(x) &= n\left((1-p) + px\right)^{n-1} \cdot p \\ &= np\left((1-p) + px\right)^{n-1} \\ f''(x) &= n(n-1)p\left((1-p) + px\right)^{n-2} \cdot p \\ &= n(n-1)p^2\left((1-p) + px\right)^{n-2} \\ \end{align*} $$

テトラ「あとは公式のままですね」

$$ \begin{align*} E(X) &= f'(1) \\ &= np \\ V(X) &= f''(1) + f'(1) - f'(1)^2 \\ &= n(n-1)p^2 + np - n^2p^2 \\ &= -np^2 + np \\ &= np - np^2 \\ &= \text{えっと……} \\ \end{align*} $$

テトラ「えっと……これでいいんでしょうか。平均は$E(X) = np$で、分散は$V(X) = np - np^2$で」

「いいと思うけど?」

ミルカ「$np$でくくる」

テトラ「$np$でくくると、$np - np^2 = np(1-p)$となります」

「へえ、そうか。分散は、投げる回数×表が出る確率×裏が出る確率になるんだね」

解答1
表が出る確率が$p$であるコインを$n$回投げる。
表が出る回数を表す確率変数を$X$としたときの平均$E(X)$と分散$V(X)$は次の通り。
$$ \left\{\begin{array}{llll} E(X) &= np \\ V(X) &= np(1-p) \\ \end{array}\right. $$

「一般化できたね。平均が$np$というのは、直観的にもよくわかるなあ。回数$n$に、表が出る確率$p$を掛けた回数だけ、 表が出ることが期待できるということだから」

テトラ「分散の方はどう使うんでしょう」

ミルカ「標準偏差にした方が使いやすい」

「標準偏差$\sigma = \sqrt{V(X)}$だから、$n$回コインを投げたときに表が出る確率変数$X$の標準偏差は$\sqrt{np(1-p)}$だね」

表が出る確率が$p$であるコインを$n$回投げる
表が出る回数を表す確率変数を$X$としたときの標準偏差$\sigma$は次の通り。
$$ \sigma = \sqrt{np(1-p)} $$

テトラ「……」

「どうしたの?」

テトラ「……あのですね。確率母関数もだいぶ慣れましたし、$n$回投げたら$np$回表が出そうというのもわかるんですが、 でも、いまの$\sigma = \sqrt{np(1-p)}$はどう納得したらいいんでしょう」

ミルカ「テトラの納得とは?」

テトラ「す、すみません。変な話かもしれないんですが……式変形をずっとしてきました。 そして結果がわかりました。 そのとき《求められたなあ》とは思えるんですが、 《なるほど、そうなんだ》とは思えなくて……」

「でもさっきは納得してたみたいだけど」

テトラ「ええとですね……はい。確率$\frac12$のコインを$10$回投げたときは、 あたし、標準偏差を手で計算しましたよね。 その結果と一致したので、それで、納得できたんだと思います。 でも、一般化したあとの標準偏差が$\sqrt{np(1-p)}$と言われましても、何をどう考えればいいのか……」

ミルカ「ふむ」

「じゃ、具体的な値で計算してみようよ。たとえば、$n = 100$で$p = \frac12$だとしたらこうだよ」

$$ \left\{\begin{array}{llll} E(X) &= np = 50 \\ V(X) &= np(1-p) = 25 \\ \sigma &= \sqrt{np(1-p)} = \sqrt{25} = 5 \\ \end{array}\right. $$

「ね?」

テトラ「あ、はい」

ミルカ「テトラは、$\sigma$の使いどころがわかっていないのでは?」

テトラ「$\sigma$の使いどころ……標準偏差の使いどころ?」

ミルカ「そう」

テトラ「標準偏差は、散らばりの度合いである分散と同じですよね。ただ、分散は$2$乗したものの平均なので、標準偏差はルートを取っていますけれど。 でも、そこから何に使うのでしょう」

ミルカ「テトラは忘れてしまったようだな。分散を知ると何がうれしいのだろう。散らばりの度合いが大きいとか小さいとかを論じることにどんな意義があるのだろう。 標準偏差を知ることも同じ」

テトラ「……あっ! そうでした。平均からのずれがわかる……そうです、そうです。《驚きの度合い》がわかるんでしたっ!(第123回参照)」

「そういえば、チェビシェフの不等式があったね。《分布に寄らず、$\mu - 2\sigma < x < \mu + 2\sigma$を満たすデータ$x$は全体の$\frac34$より多い》(第124回参照)」

チェビシェフの不等式
いかなる分布でも、 $$ \mu - c\sigma < x < \mu + c\sigma $$ を満たすデータ$x$の個数の割合は、 $1 - \dfrac{1}{c^2}$より大きい。
ただし$\mu$は平均点、$\sigma$は標準偏差、$c$は任意の正の定数である。

テトラ「ということは、先ほどの先輩がおっしゃった例ですと、たとえば、$n = 100$で$p = \frac12$だとしたら、平均が$50$で標準偏差が$5$でしたから……」

コインを$100$回投げた例に、チェビシェフの不等式を適用
$$ \mu - c\sigma < x < \mu + c\sigma $$ すなわち、$100$回コインを投げたときコインが表になる回数$x$が、 $$ 50 - 5c < x < 50 + 5c $$ を満たす割合は、$1 - \dfrac{1}{c^2}$より大きい。
たとえば$c = 2$とすると、 $$ 40 < x < 60 $$ を満たす割合は、$\frac34$より大きい。

テトラ「なるほどです……平均がいくらというだけではなく、標準偏差$\sigma$がわかることで《幅》がわかる感じですね」

ミルカ「そう。二項分布を仮定すればもっと強い主張がいえるけれど、 チェビシェフの不等式だけでも味わい深い」

「確かに」

ミルカ「しかし、ここでもう一歩進めそうだ」

「というと?」

ミルカ「せっかく$n$と$p$で一般化したのだ。$n$が非常に大きいときにどうなるかが気になる……だろう?」

「$n$が非常に大きいとき?」

ミルカ「こんな問題を考えてみよう」

問題2
表が出る確率が$p$であるコインを$n$回投げる。
$n$回のうち表の出る回数をあらわす確率変数を$X$として、 新たな確率変数$Y$を $$ Y = \frac{X}{n} $$ として定義する。 このとき、$Y$の平均$E(Y)$と分散$V(Y)$を求めよ。
この続きは有料会員登録をすると
読むことができます。
cakes会員の方はここからログイン

1週間無料のお試し購読する

cakesは定額読み放題のコンテンツ配信サイトです。簡単なお手続きで、サイト内のすべての記事を読むことができます。cakesには他にも以下のような記事があります。

人気の連載

おすすめ記事

ケイクス

この連載について

初回を読む
数学ガールの秘密ノート

結城浩

数学青春物語「数学ガール」の中高生たちが数学トークをする楽しい読み物です。中学生や高校生の数学を題材に、 数学のおもしろさと学ぶよろこびを味わいましょう。本シリーズはすでに13巻以上も書籍化されている大人気連載です。 (毎週金曜日更新)

この連載の人気記事

関連記事

関連キーワード

コメント

aramisakihime 話に聞くだけで学んだことがない分野でした。勉強します! > 約5年前 replyretweetfavorite

chibio6 大数の弱法則のところが難しい。テトラ「あ、あたしはもう少し考えないとよくわかりません……」。私もです。 約5年前 replyretweetfavorite

shade0710 |数学ガールの秘密ノート|結城浩 @hyuki |cakes(ケイクス) ◆大数の弱法則や検定の話、懐かしいですね。面白かったです。https://t.co/iE0TJllQY1 約5年前 replyretweetfavorite

je6bmq コインがフェアではない可能性が高い(絶対そうではない)という解釈でいいのかな 約5年前 replyretweetfavorite