ガランガラのブログ

数学や好きな音楽について書くことが多いです。

相関係数

相関係数についてベクトルを用いて幾何的な解釈を紹介してみたいと思います.

「なんか高校の時にやったけど公式とかややこしかったなあ」 という人や

「なんで相関係数って  -1 から  1 なんやっけ」 という人は目を通してみてください.

 

相関係数とは何だったか, 定義を確認してみましょう.

 

定義 1.

 2 つのデータ  (x_1, x_2, \ldots, x_n), (y_1, y_2, \ldots, y_n) が与えられたとき,

この  2 つのデータの相関係数  r

 \displaystyle r= \dfrac{\dfrac{1}{n} \sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\dfrac{1}{n} \sum_{i=1}^{n}(x-\bar{x})^2} \sqrt{\dfrac{1}{n}\sum_{i=1}^{n}(y_i-\bar{y})^2}} = \dfrac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{ \sum_{i=1}^{n}(x-\bar{x})^2} \sqrt{\sum_{i=1}^{n}(y_i-\bar{y})^2}}

で定める. ここで,  \bar{x}, \bar{y} はそれぞれのデータの平均値である.

 

もしかしたらこの定義を見た時点でピンと来る人も多いかもしれませんが, ベクトルを用いた幾何的な解釈を考えてみましょう.

2つのベクトル

 \boldsymbol{x}=(x_1-\bar{x}, x_2-\bar{x}, \ldots, x_n-\bar{x}), \boldsymbol{y}=(y_1-\bar{y}, y_2-\bar{y}, \ldots, y_n-\bar{y})

を用意します. ちょうどデータを平均値の分だけ平行移動したものです.

このとき,  \boldsymbol{x} \boldsymbol{y}内積を考えると

 \boldsymbol{x} \cdot \boldsymbol{y}=\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})

となり, 相関係数の分子になっていることがわかります.

また, それぞれのベクトルの大きさを考えると

 \| \boldsymbol{x} \|=\sqrt{\sum_{i=1}^{n}(x-\bar{x})^2}, \| \boldsymbol{y} \|=\sqrt{\sum_{i=1}^{n}(y_i-\bar{y})^2}

というように, 相関係数の分母に出てきているものになっています. よって相関係数

 r= \dfrac{ \boldsymbol{x} \cdot \boldsymbol{y}}{ \| \boldsymbol{x} \| \| \boldsymbol{y} \|}

となり, これはよく考えると, 高校のベクトルの時に学習する

 \rm{cos}\  \theta=\dfrac{ \boldsymbol{x} \cdot \boldsymbol{y}}{ \| \boldsymbol{x} \| \| \boldsymbol{y} \|}

になっています. ただし  \theta は 2つのベクトルのなす角です. よって

 -1 \leq r \leq 1

となることも明らかです. 高校では成分表示のベクトルは  3 次元までしか扱わないのでこのような説明はされないと思うのですが, 僕はこのように考えるほうがわかりやすいし覚えるのも簡単だと思ってしまいます.

 

何か間違いなどあれば教えてください.