変量の変換

変量の変換

 

変数 $x$ に関するデータがあり、その平均値が $\overline{x}$ 、分散が $s_x^2$ 、標準偏差が $s_x$ であるとします。突然だが、\[ u=ax+b \]にて変換した変数 $u$ に関しての平均値、分散、標準偏差がどうなるかを考えてみよう。

いささか唐突なので、次の例でイメージしながら読み進めてください。「10点満点のテストを100点満点に直す。さらに全員に5点加算する」です。これは先ほどの変換で $a=10,b=5$とした場合です。

冒頭に挙げた問題の答えは、最後に計算で証明しますが、その前にこのイメージを使って、結果がどうなるか想像してみましょう

まずは平均を考えてみましょう。テストの例で、全員の点数が10倍されるのだから平均点も10倍されそうです。さらに全員に5点加算すると、平均点も5点上がりそうです。これを一般化すると、$u=ax+b$の変換によって、平均値はもとの $\overline{x}$ から $a$ 倍されて、 $b$ だけスライドされると想像がつきます。つまり、\[ \overline{u} = a\overline{x}+b \]となりそうです。

次に、分散の前に標準偏差について考えてみましょう。標準偏差とは「データのばらつき具合」を「元のデータと同じ単位で」表したものでした。いま、データを$a$倍して$b$だけスライドしたときを考えているわけですが、ここでデータをスライドさせても「ばらつき具合」とは関係ないはずです。全員のテスト結果に5点足しても全体の得点のばらつき具合は変わらないはずだからです。
ただし、全員の得点が10倍になれば、ばらつきも10倍になるはずです。よって、 変数 $u$ の標準偏差は、 $ s_u = as_x$ になりそうだな、と思います。 $b$ が関係ないということが理解できればよいでしょう。

これは考え方としてはほとんどあっていますが、正式には\[ s_u = |a|s_x \]となります。これは、「全員の得点を $-10$ 倍したとしても、「ばらつき具合」は正の値になるようにしないといけないから」と思っておくとよいでしょう。

最後に分散です。分散は標準偏差の2乗ですから、\[ s_u^2 = a^2s_x^2 \]となります。

教科書や参考書には、「平均」「分散」「標準偏差」の順で書かれ、その証明は数式でなされていますが、理解の仕方としてはこの順番でイメージできるようにしておけば、公式を覚えやすいでしょう。

では、これらをまとめて、そのあとに数式の証明も書きますので、みなさんも手を動かして計算しておいてください。

■変量の変換(公式)

変量 $x$ の平均値を $\overline{x}$ 、標準偏差を $s_x$ とする。
\[ u = ax + b \]で定められる変量 $u$ の平均値を $\overline{u}$ 、標準偏差を $s_u$ とすると、
\[ \overline{u} = a\overline{x}+b , \quad s_u^2 = a^2 s_x^2 \]が成り立つ。

証明

データの個数を $n$ として、変量 $x$ の値を $x_1,x_2,\cdots,x_n$ とし、$u_k = ax_k+b \ (k=1,2,\cdots,n)$とすると、
\[ \begin{align*} \overline{u} &= \frac{1}{n} (u_1 + u_2 +\cdots +u_n) \\ &=\frac{1}{n} \{ (ax_1+b)+(ax_2+b)+\cdots+(ax_n+b) \} \\ &=\frac{1}{n} \{ a(x_1+x_2+\cdots+x_n) +nb \} \\ &= a\overline{x} + b \end{align*} \]が成り立ち、分散については、
\[ \begin{align*} s_u^2 &= \frac{1}{n} \{ (u_1-\overline{u})^2+(u_2-\overline{u})^2+\cdots+(u_n-\overline{u})^2 \} \\ &= \frac{1}{n} [ \{ (ax_1+b)-(a\overline{x}+b) \}^2 +\cdots+\{ (ax_n+b)-(a\overline{x}+b) \}^2 ] \\ &= \frac{1}{n} [ a^2 \{(x_1-\overline{x})^2+(x_2-\overline{x})^2+\cdots+(x_n-\overline{x})^2\} ] \\ &=a^2s_x^2 \end{align*} \]が成り立つ。

この記事では直感的にわかりやすい説明にするために$u=ax+b$としましたが、高校で学ぶ変数の変換は(次の標準化のことも踏まえて)、\[ u = \frac{x-x_0}{c} \ (x=cu+x_0) \]となっています。両者は係数が違うだけで、 $a=\dfrac{1}{c},b=-\dfrac{x_0}{c}$ とすれば同じものになります。

標準化

特に、平均値を$0$、分散を$1$(すなわち標準偏差も$1$)とするような変換を標準化といいます。このときの係数 $a , b$ はどうなるか考えてみましょう。
\[ \begin{cases} a\overline{x} +b = 0 \\ a^2s_x^2 = 1 \end{cases} \]
という方程式を解けばよく、2つ目の式から $a= \pm \dfrac{1}{s_x}$ となり、これを1つ目の式に代入して、 $ b = \mp \dfrac{\overline{x}}{s_x}$ となります。まとめると、\[ u = \pm \frac{x – \overline{x}}{s_x} \]という変換だということが分かります。

■標準化(公式)

変量 $x$ の平均を $\overline{x}$ 、標準偏差を $s_x$ とするとき、
\[ u = \frac{x-\overline{x}}{s_x} \]とおいて得られる変量 $u$ の平均 $\overline{u}$ と標準偏差 $s_u$ について、
\[ \overline{u}=0, \quad s_u=1 \]
が成り立つ。

「標準化」においてはすべてのデータが、平均$0$、標準偏差$1$となります。単位(次元)もなくなっていることがポイントです。(2変数のデータの取り扱いはこの後学びますが、)国語のテストの点数と数学のテストの点数の相関性のようなときは点数のままでもよいかもしれませんが、前日の睡眠時間と国語のテスト点数のように単位の違うもの同士の分析のときなどには、それぞれを標準化してから分析するというのも一つの手法です。

偏差値

標準化したあとに、平均を50、標準偏差を10とするようにさらに変数の変換をしたデータを偏差値という。標準化した変数を10倍して50を足せばよいので、
\[ u = 10 \times \frac{x – \overline{x}}{s_x} + 50 \]
となります。

コメント

タイトルとURLをコピーしました