第124回 散らばりの驚き(後編)

「いや、そうではない。《必ず》とは《必ず》だ。証明しようか」とミルカさんは言った。
登場人物紹介
:数学が好きな高校生。

テトラちゃんの後輩。好奇心旺盛で根気強い《元気少女》。

ミルカさん:数学が好きな高校生。のクラスメート。長い黒髪の《饒舌才媛》。

$ \newcommand{\ABS}[1]{|#1|} \newcommand{\GEQ}{\geqq} \newcommand{\LEQ}{\leqq} \newcommand{\HIRANO}{\unicode[sans-serif,STIXGeneral]{x306E}} $

高校の図書室にて

テトラちゃんミルカさんは「分散」について話している。

ミルカ「いま彼が説明してくれた通りだ(第123回参照)。分散を知っていれば、 ある一つの数値をピックアップしたときにそれが《ありふれた数値》なのか、 《めずらしい数値》なのか、それがわかるのだ」

「なるほどなあ……」

テトラ「なるほどです。だから《すごさの度合い》《驚きの度合い》《めずらしさの度合い》がわかると……」

ミルカ「そう」

「分散が大きいとしたら、平均値から大きくずれた数値が選ばれても驚くことじゃないんだ。ありふれた数値なんだから。確かに、平均値だけからはその《驚きの度合い》はわからないね。なるほど!」

テトラ「自分が平均点よりもすごく大きな点数を取っても、分散がわからなければ、その点数のほんとうの価値はわからないんですね……」

ミルカ「その発想から一歩進めば偏差値へんさちに至る」

テトラ「偏差値?」

偏差値

ミルカ「うん? テトラは偏差値を知らないのか」

テトラ「いえいえっ! そんなことはありません。もちろん高校生として偏差値は知っていますが」

ミルカ「では、テトラは偏差値の定義を述べる」

ミルカさんは、そういってテトラちゃんを指さした。

テトラ「えっ、あっ、えっと、偏差値の定義……そういう意味ではなくてですね。偏差値という言葉は知っていますが、偏差値の定義は知りませんでした。すみません」

ミルカ「言葉は知っているが、定義は知らないと」

テトラ「えっと、あの……そうですね。考えてみると、変な話ですね。テストを受けるとき、受験を考えるとき、 いつも気にしている数値なのに定義を知らないなんて……」

ミルカ「代わりに、君が偏差値の定義を述べる」

ミルカさんは、今度はを指さした。

「確か、こうだったかな」

偏差値の定義
あるテストを受けた人が$n$人いて、 それぞれの得点を$x_1, x_2, \ldots, x_n$と表すことにする。
得点の平均値を$\mu$(ミュー)とする。
得点の標準偏差を$\sigma$(シグマ)とする。
そのとき、そのテストにおける得点$x_k$の偏差値を $$ 50 + 10 \times \dfrac{x_k - \mu}{\sigma} $$ と定義する。

テトラ「ええと……標準偏差?」

「標準偏差は分散のルートを取ったものだよ、テトラちゃん。つまり、平方根のうち正のもの……あ、$0$の場合もあるか……負でない平方根。 分散を$V$とすると標準偏差$\sigma$は$\sigma = \sqrt{V}$だね」

テトラ「標準偏差は……偏差とも、偏差値とも違うんですよね」

ミルカ「定義を再確認」

「そうだね」

平均値
$n$個の数値があるとしよう。この$n$個の数値のまとまりをデータと呼ぶ。 データに含まれている$n$個の数値を$x_1, x_2, \ldots, x_n$と表すことにする。
このとき、 $$ \mu = \dfrac{x_1 + x_2 + \cdots + x_n}{n} $$ を、このデータの平均値と呼ぶ。

テトラ「はい、すみません……」

分散
データ$x_1, x_2, \ldots, x_n$の平均値を$\mu$で表すことにする。
数値$x_1$と平均値$\mu$の差、すなわち、 $$ x_1 - \mu $$ を、$x_1$の偏差へんさと呼ぶ。 $x_1$の偏差と同様に、$x_2$の偏差、$x_3$の偏差などを考えることができる。
$x_1, x_2, \ldots, x_n$の偏差をそれぞれ$2$乗した値の平均値を分散と呼ぶ。 すなわち分散$V$は、
$$ V = \dfrac{(x_1 - \mu)^2 + (x_2 - \mu)^2 + \cdots + (x_n - \mu)^2}{n} $$
である。

テトラ「はい、これも大丈夫です。確認ですけれど、$x_k$の偏差は$x_k - \mu$でいいんですよね?」

「そうだね。それでいいよ。そして、標準偏差はこう」

標準偏差
分散が$V$のとき、平方根のうち負でないほうを標準偏差という。 標準偏差を$\sigma$で表すと、 $$ \sigma = \sqrt{V} $$ である。

テトラ「偏差、標準偏差……そして、偏差値ですね?」

「そうそう」

偏差値の定義
あるテストを受けた人が$n$人いて、 それぞれの得点を$x_1, x_2, \ldots, x_n$と表すことにする。
得点の平均値を$\mu$とする。
得点の標準偏差を$\sigma$とする。
そのとき、そのテストにおける得点$x_k$の偏差値を $$ 50 + 10 \times \dfrac{x_k - \mu}{\sigma} $$ と定義する。

テトラ「はい、偏差値の定義はわかりました。いえ、わかりましたというか、得点から平均点が計算できて、 得点と平均点から分散が計算できて、 分散から標準偏差が計算できて、 そして、そこから偏差値が計算できる……ということまではわかりました」

$$ \begin{align*} x_1, x_2, x_3, \ldots, x_n &\to \mu && \text{得点から平均値} \\ x_1, x_2, x_3, \ldots, x_n, \mu & \to V && \text{得点と平均値から分散} \\ V & \to \sigma && \text{分散から標準偏差} \\ x_k, \mu, \sigma & \to \text{$x_k\HIRANO$偏差値} && \text{得点$x_k$と平均値と標準偏差から$x_k\HIRANO$偏差値} \\ \end{align*} $$

「うん」

テトラ「でも、偏差値が何なのかはわかりません……」

「得点の偏差値は、平均値を$50$にそろえた場合の得点に相当するんだよ。ほら、テストって難しいとき・易しいとき、いろいろあるよね。 そういうときは、平均点が動いちゃう」

テトラ「それはそうですね。難しいテストは平均点が低くなります」

「あるとき《テストAで$70$点とった》として、しばらくして《テストBで$70$点とった》とする。 単純に得点を比較すると、実力は$70$点から変わっていないように見える」

テトラ「はい。テストAよりもテストBのほうが難しかったら、同じ$70$点でも実力はアップしていたかもしれない……ということですよね。 偏差値は《平均値を$50$点にそろえた》ものなので、 得点を比較するより偏差値を比較した方が、 実力アップしたかどうかはっきりわかる……?」

「そうだね」

ミルカ「付帯条件が付くからそう単純でもないが」

「え?」

偏差値の平均値

ミルカ「そもそも、偏差値の平均値が$50$になることを、テトラは納得したんだろうか」

テトラ「ええっと……いえ、まだです」

「証明は簡単だよ」

問題(偏差値の平均値)
あるテストを受けた人が$n$人いて、 得点がそれぞれ$x_1, x_2, \ldots, x_n$であるとする。
このテストにおける各人の偏差値を$y_1, y_2, \ldots, y_n$としたとき、 以下が成り立つことを示せ。
$$ \dfrac{y_1 + y_2 + \cdots + y_n}{n} = 50 $$

テトラ「$k$さんの偏差値を$y_k$とするのですね。はい、偏差値の定義を使って根気よく計算すれば、 きっと証明できるような気がします!」

「根気はそれほどいらないと思うよ」

(あなたは、気付きましたか?)

テトラ「ともかく、やってみます」

$$ \begin{align*} \dfrac{y_1 + y_2 + \cdots + y_n}{n} &= \dfrac{\left(50 + 10 \times \dfrac{x_1 - \mu}{\sigma}\right) + \text{うわわわ……}}{n} \end{align*} $$

テトラ「うわわわ……いっぺんに計算するのはさすがに大変ですので、得点が$x_k$になっている$k$さんの偏差値$y_k$をまず書いてみます」

$$ y_k = 50 + 10 \times \dfrac{x_k - \mu}{\sigma} \qquad \text{$x_k \HIRANO$偏差値} $$

テトラ「そして、平均値$\mu$は定義から$\dfrac{x_1 + \cdots + x_n}{n}$ですので……」

$$ y_k = 50 + 10 \times \dfrac{x_k - \frac{x_1 + x_2 + \cdots + x_n}{n}}{\sigma} $$

「いや、ここでは$\mu$のまま進んだ方がいいよ。まず、$y_k$の和を求めようよ。こうだね」

$$ \begin{align*} & y_1 + y_2 + \cdots + y_n \\ &= \left(50 + 10 \times \dfrac{x_1 - \mu}{\sigma} \right) + \left(50 + 10 \times \dfrac{x_2 - \mu}{\sigma} \right) \\ & \qquad \qquad + \cdots + \left(50 + 10 \times \dfrac{x_n - \mu}{\sigma} \right) \\ &= 50n + \dfrac{10}{\sigma}\times \left((x_1-\mu)+(x_2-\mu)+\cdots+(x_n-\mu)\right) \\ &= 50n + \dfrac{10}{\sigma}\times \left(x_1+x_2+\cdots+x_n - n\mu\right) \\ \end{align*} $$

「これをよく見ると、$n\mu$というのは《$n$倍した平均値》だから、これは得点の総和のこと。つまり$x_1 + x_2 + \cdots + x_n$に等しいよね。 つまり……」

$$ \begin{align*} y_1 + y_2 + \cdots + y_n & = 50n + \dfrac{10}{\sigma} \times \left(x_1+x_2+\cdots+x_n - n\mu\right) \\ & = 50n + \dfrac{10}{\sigma} \times 0 \\ & = 50n \\ \end{align*} $$

テトラ「すごいです! 一気に$50n$だけになりました」

「$y_1,\ldots,y_n$の総和が$50n$なんだから、平均値は$50$だね」

ミルカ偏差の総和を考えればいい」

「そうそう。ミルカさんのいう通り。《偏差値》の定義をよく見ると、定義の中に《偏差》が出てきているのに気付くよ」

$$ \text{$x_k \HIRANO$偏差値} = 50 + 10 \times \dfrac{\overbrace{x_k - \mu}^{\text{$x_k \HIRANO$偏差}}}{\sigma} $$

テトラ「ははあ……確かに$x_k - \mu$が偏差ですね。$x_k$から平均値を引いてますから」

「そして、偏差の総和は当然$0$だよね。さっきも出てきたけど」

偏差の総和は$0$に等しい
$$ \begin{align*} & (x_1 - \mu) + (x_2 - \mu) + \cdots + (x_n - \mu) \\ &= (x_1 + x_2 + \cdots + x_n) - n\mu \\ &= (x_1 + x_2 + \cdots + x_n) - (x_1 + x_2 + \cdots + x_n) \\ &= 0 \\ \end{align*} $$

テトラ「ああ! そういえばそうですね。だったら、偏差値の平均値が$50$になるのって当然じゃないですか!」

ミルカ「そうなるように定義」

「だから、偏差値の定義の$50 + \cdots$の部分は、偏差値の平均値を$50$にするという意図を表しているんだね」

テトラ「なるほどです」

「逆にいえば、《偏差値が$50$の人は平均点を取っている》ともいえるんだよ」

偏差値の分散

ミルカ「《偏差値の平均値》が$50$なのは、偏差値の定義からすぐわかる。では《偏差値の分散》は?」

「そういえば、どうなるんだろう」

ミルカ「その答えは驚きだな」

テトラ「偏差値の平均値は$50$で、分散は……何になるんですか?」

ミルカ「計算すればすぐにわかる」

テトラ「計算……」

問題(偏差値の分散)
あるテストを受けた人が$n$人いて、 得点がそれぞれ$x_1, x_2, \ldots, x_n$であるとする。
このテストにおける各人の偏差値を$y_1, y_2, \ldots, y_n$としたとき、 $y_1, y_2, \ldots, y_n$の分散を求めよ。
(あなたは、計算できますか?)

「これこそ、定義式から計算すればすぐ出そうだなあ」

テトラ「あ、あたしも計算します! まずは、定義から」

$$ \begin{align*} \text{《偏差値$\HIRANO$分散?》} &= \dfrac{(y_1 - \mu)^2 + (y_2 - \mu)^2 + \cdots + (y_n - \mu)^2}{n} \\ &= \cdots \\ \end{align*} $$

ミルカ「定義が違う」

テトラ「え? でも、分散は、平均値を引いて$2$乗した値を平均すればいいんですよね?」

ミルカ「省略しすぎ」

テトラ「?」

ミルカ「《何の平均値》なのかを意識する」

テトラ「何の平均値か……でも、平均値を$\mu$としたのですから……あっ、ちがいました。$\mu$は得点の平均値でした。偏差値の分散を考えるんですから、 偏差値の平均値を引くんですね。すみません。 偏差値の平均値は$50$ですから、こうですか」

$$ \begin{align*} \text{《偏差値$\HIRANO$分散》} &= \dfrac{(y_1 - 50)^2 + (y_2 - 50)^2 + \cdots + (y_n - 50)^2}{n} \\ &= \cdots \\ \end{align*} $$

テトラ「あれ? $y_1 - 50$って、$10\times\dfrac{x_1 - \mu}{\sigma}$ですか?」

「そうだね。あ、わかった」

テトラ「だめです、だめです! 先に暗算しないでくださいよう!」

$$ \begin{align*} \text{《偏差値$\HIRANO$分散》} &= \dfrac{(y_1 - 50)^2 + (y_2 - 50)^2 + \cdots + (y_n - 50)^2}{n} \\ &= \dfrac{\left(10\times\frac{x_1 - \mu}{\sigma}\right)^2 + \left(10\times\frac{x_2 - \mu}{\sigma}\right)^2 + \cdots + \left(10\times\frac{x_n - \mu}{\sigma}\right)^2}{n} \\ &= \dfrac{10^2}{n\sigma^2}\times\left((x_1 - \mu)^2 + (x_2 - \mu)^2 + \cdots + (x_n - \mu)^2\right) \\ &= \text{あとは$2$乗を展開して……} \\ \end{align*} $$

「そっちに進むんじゃないよ、テトラちゃん。そっちは沼地だよ」

テトラ「沼地?」

「計算の泥沼に入っちゃうってことだよ。いまの計算で、テトラちゃんは$\dfrac{10^2}{n\sigma^2}$をくくりだしたけど、 $n$は残しておいたほうがいいよ」

テトラ「ということは、こうですか?」

$$ \begin{align*} \text{《偏差値$\HIRANO$分散》} &= \cdots \\ &= \dfrac{10^2}{\sigma^2}\times\dfrac{(x_1 - \mu)^2 + (x_2 - \mu)^2 + \cdots + (x_n - \mu)^2}{n} \\ \end{align*} $$

ミルカ「一目瞭然」

テトラ「?」

この続きは有料会員登録をすると
読むことができます。
cakes会員の方はここからログイン

1週間無料のお試し購読する

cakesは定額読み放題のコンテンツ配信サイトです。簡単なお手続きで、サイト内のすべての記事を読むことができます。cakesには他にも以下のような記事があります。

人気の連載

おすすめ記事

オセロゲームを使って数列に親しむ?!数列のパターンを見抜けるか?

ケイクス

この連載について

初回を読む
数学ガールの秘密ノート

結城浩

数学青春物語「数学ガール」の中高生たちが数学トークをする楽しい読み物です。中学生や高校生の数学を題材に、 数学のおもしろさと学ぶよろこびを味わいましょう。本シリーズはすでに12巻も書籍化されている大人気連載です。 (毎週金曜日更新)

この連載の人気記事

関連記事

関連キーワード

コメント

ball2biscuit 面白かった ただ、経験値ではなく経験則では 2年弱前 replyretweetfavorite

hyuki 過去のWeb連載「数学ガールの秘密ノート」から「偏差値」の回をご案内。 4年以上前 replyretweetfavorite

hyuki @aii_nubilum こちらでしょうか? https://t.co/G1p5Y5omWi 4年以上前 replyretweetfavorite

hyuki 金曜日は『数学ガールの秘密ノート』の日。最新回はお休み。無料リンク2個をツイート。公式 5年弱前 replyretweetfavorite