分散と標準偏差

データのばらつき

ある部品を作成するときにその寸法が微妙にずれるとし、工程Aと工程Bでそれぞれ5つずつ作ったときにその寸法が、

工程A：6.6mm, 7.1mm, 7.1mm, 7.3mm, 7.4mm
工程B：4.5mm, 5.1mm, 7.9mm, 8.6mm, 9.4mm

であったとしましょう。平均値を計算してみると、

工程A：$ \dfrac{6.6+7.1+7.1+7.3+7.4}{5}=7.1$mm
工程B：$ \dfrac{4.5+5.1+7.9+8.6+9.4}{5}=7.1$mm

と同じであることが分かります。

しかし、寸法をよく見てみると、工程Bの結果はばらつきがあるようにみえます。もし同じ製品を繰り返しつくるのだとしたら、工程Bはかなり不安定な工程ですね。そこで、この不安定さを説明するために、何らかの方法でデータのばらつきを数値化したい、と考えます。

まだ「ばらつき」が正しく定義されていないので、どうやったらいいのか迷うところですが、ばらつきとは「平均値からどれだけ離れているか」ということと関連していそうなので、まずは「平均値からの差」に着目していきます。

「平均値からの差」を先に数式で表しておきましょう。データ $x_1,x_2,\cdots , x_n$ とその平均値 $\overline{x} = \dfrac{x_1+x_2+ \cdots + x_n}{n}$ があるとします。このとき、
\[ x_i-\overline{x} \]が「平均値からの差」ですが、これを偏差といいます。

この偏差をどうやって使うかですが、まずはこの偏差を足し合わせてみます。工程Aの場合で計算してみると、。平均値 $\overline{x}= 7.1$ でしたから、偏差の和は
\[ \begin{align*}&(6.6-7.1)+(7.1-7.1)+(7.1-7.1)+(7.3-7.1)+(7.4-7.1) \\&= -0.5+0+0+0.2+0.3 = 0 \end{align*} \]となります。工程Bも計算すると $0$ です。

一般に $n$ 個のデータの場合も同様のことが成り立ちます。考えてみると、偏差とは平均値より大きればプラス、平均値より小さいとマイナスになる数字で、それを足し合わせると結局0になってしまうということです。このことは計算で確認できます。

\[ \begin{align*} &(x_1 – \overline{x}) +(x_2- \overline{x}) + \cdots + (x_n- \overline{x}) \\ &=(x_1+x_2+\cdots+x_n)-n\overline{x} \\ &=(x_1+x_2+\cdots+x_n)-n \times \dfrac{x_1+x_2+\cdots+x_n}{5} \\ &= 0 \end{align*} \]

さて、本当に欲しいのは「平均値からどれだけ離れているか」というプラスの値なので、ちょっとした補正を考えます。

それぞれの偏差を正の値に変えて足し合わせればよいのではないか、と考えます。数学で、あらゆる数字を正の数にする方法といえば、絶対値を思いつくでしょう。偏差に絶対値をつけて、 $| x_i -\overline{x}|$ を足し合わせればよいのではないか、ということを考えます。

これは考え方としては正しいのですが、絶対値はその取り扱いが難しいため、天下り的ではあるが、同じく正の値に変えることができる「2乗する」という方法に乗り換えて考えてます。

分散

偏差の2乗を足し合わせてみると、

\[ \begin{align*} S_A &= (x_1 – \overline{x})^2 + \cdots + (x_5 – \overline{x})^2 \\ &= (-0.5)^2 +0^2 +0^2 + 0.2^2 + 0.3^2 \\ &= 0.38 \\ S_B &= (-2.6)^2 + (-2.0)^2 + 0.8^2 +1.5^2 + 2.3^2 \\ &=18.94 \end{align*} \]となり、見事にAの方が小さく、Bの方が大きい値になる。

このままでは、データの個数が多いほうが大きくなるのは当たり前なので、足し合わせた値をデータの個数で割った値として、
\[ s_A = \frac{0.38}{5} = 0.076 , \quad s_B = \frac{18.94}{5} = 3.788 \]で判断することにしましょう。

この考え方を拡張して、「ばらつき」を示す値として、分散を次のように定義しましょう。

■分散(定義)

データ $ x_1,x_2,\cdots,x_n$ に対し、平均値が $\overline{x}$ のとき、
\[ s^2 = \frac{1}{n} \{ (x_1 – \overline{x} )^2 +(x_2 – \overline{x} )^2 + \cdots + (x_n – \overline{x} )^2 \} \]を分散という。

この内容は数学B（数列）で学びます和を表す記号
\[ \sum_{k=1}^n x_k = x_1 + x_2 + \cdots + x_n \]を用いると、分散の公式は、
\[ s^2 = \sum_{k=1}^n \frac{1}{n} (x_k-\overline{x})^2 \]と表すことができます。

標準偏差

分散の定義が2乗の形になっていることが気になっている人もいるだろう。

今回の場合、もとのデータの単位は mm だったので、これを2乗したものを足し合わせた分散の単位は mm² となっています。しかし、「どれぐらいばらついているのか？」という質問にはもとのデータの単位を使って「○mmぐらいばらつきがある」という言い方をしたいものです。

そこで、もとのデータと単位（次元）を揃えるために、分散の正の平方根
\[ s = \sqrt{s^2} = \sqrt{\frac{1}{n} \sum_{i=1}^n (x_i – \overline{x} )^2} \]という値を考えることにする。これを標準偏差といいます。

■標準偏差(定義)

分散 s の正の平方根
\[ s = \sqrt{ s^2 } = \sqrt{\frac{1}{n} \{ (x_1 – \overline{x} )^2 +(x_2 – \overline{x} )^2 + \cdots + (x_n – \overline{x} )^2 \}} \]を標準偏差という。

高校数学では分散を $s^2$ 、標準偏差を $s$ で表しますが、大学の統計学の教科書では分散を $\sigma^2$ 、標準偏差を $\sigma$ と表すことも多い。どちらも定義は同じです。

分散の公式

分散には、もっと計算しやすい公式があるので、これを例題形式で確認しておこう。

変数 $x$ の $n$ 個のデータ $x_1, x_2, \cdots, x_n $ について、$x$ の平均値を $\overline{x}$ 、 $x^2$ の平均値を $\overline{x^2}$ とするとき、 $x$ の分散 $s^2$ は
\[ s^2 = \overline{x^2} – ( \overline{x})^2 \]と表されることを示せ。

解答

定義を変形していきます。

\[ \begin{align*} &\frac{1}{n} \{ (x_1 – \overline{x} )^2 +(x_2 – \overline{x} )^2 + \cdots + (x_n – \overline{x} )^2 \} \\ &= \frac{1}{n} \{ (x_1^2 + x_2^2 + \cdots + x_n^2) + 2 \overline{x} (x_1 + x_2 + \cdots + x_n) + n \cdot (\overline{x})^2 \} \\ &= \overline{x^2} – 2 (\overline{x})^2 + (\overline{x})^2 \\ &= \overline{x^2} – (\overline{x})^2 \end{align*} \]

■分散(公式)

データ $ x_1,x_2,\cdots,x_n$ に対し、データの平均値が $\overline{x}$ 、データの2乗の平均値が $\overline{x^2}$ のとき、分散は
\[ s^2 = \overline{x^2} – (\overline{x})^2 \]で求められる。