[小西ホームページ]   [目次・索引]   [前の授業]   [次の授業]

コンピュータIIJ(統計データ解析)第5回

目次
5.1 散布図
5.2 共分散と相関係数
5.2.1 共分散とは
5.2.2 相関係数とは
5.2.3 共分散と相関係数の注意点
5.3 散布図の作成
5.4 共分散と相関係数の計算
5.4.1 関数による計算
5.4.2 分析ツールによる計算
5.5 演習5
5.6 レポート課題
5.7 参考文献
索引

5.1 散布図

統計データの種類について話したとき、1次元データと2次元データの違いについて説明しました。 1次元データは1種類のデータのみに注目し、2次元データは2種類のデータの関係性に注目するということでした。 今日は、2次元データを取り上げます。

次のデータは、ある中学校の二年生男子10名の身長と体重です。

表 5.1  中二男子の身長と体重
生徒 1 2 3 4 5 6 7 8 9 10
身長(cm) 151.9 157.0 159.7 160.3 163.9 171.1 151.0 168.5 156.4 169.1
体重(kg) 41.5 47.2 47.9 46.0 50.5 61.1 38.0 51.8 43.8 58.1

身長と体重の関係に注目すると、身長が大きいほど体重が重いという関係性がありそうです。 量的データ同士の場合、散布図というものを作れば、このような関係性が一目で分かります。

散布図 とは、2次元データのデータの組を、平面座標とみなして点を打ったグラフです。 上記の例ならば、

(151.9, 41.5), (157.0, 47.2), ..., (169.1, 58.1)

という座標に点を打ちます。 すると、身長が大きいほど体重が重いという、強い関係性があることが分かります。

散布図の例(1)
図 5.1  散布図の例(1)

他の2次元データも見てみましょう。 以下は、ある中学校の二年生男子10名の50m走と持久走(1,500m)のタイムです。

表 5.2  中二男子の50m走と持久走(1,500m)
生徒 1 2 3 4 5 6 7 8 9 10
50m走(秒) 8.0 8.4 8.7 7.9 8.3 8.7 8.1 7.0 7.3 6.5
持久走(秒) 416 415 388 406 365 320 353 446 441 450

今度は、50m走が遅いほど持久走が速いという関係性がありそうです。 実際、散布図を作成すると、確かにそのような関係性があります。 ただし、身長と体重ほど強い関係性ではなさそうです。

散布図の例(2)
図 5.2  散布図の例(2)

5.2 共分散と相関係数

5.2.1 共分散とは

2次元データの関係性の強弱は、相関係数という数値で比較できます。 相関係数を定義する前に、共分散を定義します。

共分散 とは、2次元データの変数を以下のようにしたとき

表 5.3  2次元データの変数
番号 1 2 ... n
x x1 x2 ... xn
y y1 y2 ... yn
共分散の定義(1)

と定義されます。 (バーがついているのは平均です。) シグマ記号を使わなければ、

共分散の定義(2)

です。

分散や標準偏差のときと同様に、分母が n - 1 の共分散もあります。 つまり、

共分散の定義(3)

シグマ記号を使わなければ、

共分散の定義(4)

です。

分母が n の共分散 S xy は、データが全部(母集団)の場合に使い、分母が n - 1 の共分散 s xy は、データが一部(標本、サンプル)の場合に使います。

共分散の意図するところは、散布図が右上がりならプラス、右下がりならマイナスになることです。 以下の図で、もし散布図が右上がりなら、領域Iと領域III(灰色の領域)に点が集まるはずです。 そして共分散の定義を見ると、領域Iと領域IIIの点についてはプラスになります。 逆に、散布図が右下がりなら、領域IIと領域IV(白の領域)に点が集まるはずです。 再び共分散の定義を見ると、領域IIと領域IVの点についてはマイナスになります。

共分散の考え方
図 5.3  共分散の考え方

5.2.2 相関係数とは

身長と体重の関係性と、50m走と持久走の関係性の強弱を比較したかったわけですが、共分散を比べても無意味です。 なぜなら、身長と体重の共分散の単位はcm×kgで、50m走と持久走の共分散の単位は秒×秒で、単位が違うからです。 それぞれの標準偏差で割って、単位をなくすれば、関係性の強弱が比較できます。 これが相関係数です。

相関係数

相関係数の定義(1)

と定義されます。 ここで、 S xy は分母が n の場合の共分散、 S x は分母が n の場合の x の標準偏差、 S y は分母が n の場合の y の標準偏差です。

分母が n - 1 の場合の共分散と標準偏差でも、相関係数が定義できます。

相関係数の定義(2)

ただし、どちらで定義しても同じ値になるので、相関係数については、分母が n のものとか n - 1 のものとか区別する必要はありません。

相関係数 r は、-1≦ r ≦1 の範囲の値を取ります。

散布図と相関係数
図 5.4  散布図と相関係数

5.2.3 共分散と相関係数の注意点

共分散は、分母が n のものと分母が n - 1 のものが定義されます。 相関係数は、どちらで定義しても同じ値になりますので、分母を気にしなくてもよいです。

相関関係と因果関係は違うことに注意してください。 例えば、身長と体重には相関関係がありますが、どちらが原因でどちらが結果などとは言えません。


5.3 散布図の作成

それでは、Excelを利用して、散布図を作成しましょう。 次のExcelファイルをダウンロードしてください。

comp2j_05_data.xls
表 5.4  中二男子の身長と体重
生徒 身長(cm) 体重(kg)
1 151.9 41.5
2 157.0 47.2
3 159.7 47.9
... ... ...
10 169.1 58.1
表 5.5  中二男子の50m走と持久走(1,500m)
生徒 50m走(秒) 持久走(秒)
1 8.0 416
2 8.4 415
3 8.7 388
... ... ...
10 6.5 450

まず、表全体(B2からC12まで)をドラッグし、メニューバーで「挿入」→「グラフ」とクリックして、グラフウィザードを開きます。

「グラフの種類」は「散布図」、「形式」は「散布図」をクリックし、「次へ」ボタンをクリックします。

散布図の作成(1)
図 5.5  散布図の作成(1)

「系列」が「列」であることを確認して、「次へ」ボタンをクリックします。

散布図の作成(2)
図 5.6  散布図の作成(2)

「グラフタイトル」に「中二男子の身長と体重」と入力し、「X/項目軸」に「身長(cm)」と入力し、「Y/数値軸」に「体重(kg)」と入力します。

散布図の作成(3)
図 5.7  散布図の作成(3)

同じウィンドウで、「凡例」タブをクリックし、「凡例を表示する」のチェックを外して、「次へ」ボタンをクリックします。

散布図の作成(4)
図 5.8  散布図の作成(4)

「グラフの場所」が「オブジェクト」であることを確認して、「完了」ボタンをクリックします。

散布図の作成(5)
図 5.9  散布図の作成(5)

これで、散布図が表示されます。

散布図の作成(6)
図 5.10  散布図の作成(6)

ただし、体重の目盛が0から始まっているので、このままでは体重の差が分かりにくいです。 縦軸を右クリックし、「軸の書式設定」をクリックして、「軸の書式設定」ウィンドウを開いてください。

「目盛」タブをクリックし、「最小値」のチェックを外し、目盛の始まりの値(例えば30)を入力してください。

散布図の作成(7)
図 5.11  散布図の作成(7)

すると、体重の目盛が30から始まります。

散布図の例(1)
図 5.12  散布図の例(1)

5.4 共分散と相関係数の計算

5.4.1 関数による計算

散布図の次は、共分散と相関係数を求めます。 まず、セルE2以下に「共分散」、「相関係数」と入力します。

共分散と相関係数の計算(1)
図 5.13  共分散と相関係数の計算(1)

共分散を計算するには、ExcelのCOVAR関数を使うとできます。 (共分散は英語でcovarianceです。) この関数は、

COVAR( x の範囲, y の範囲)

という形式で、 x の範囲と y の範囲の間の共分散を計算します。 COVER関数は、分母が n のものです。 (分母を n - 1 にしたければ、COVAR(...)*10/9 のようにしてください。)

それでは、セルF2に=COVER(B3:B12,C3:C12)と入力してください。 身長と体重の共分散が計算されます。 小数点以下2桁の表示にしておいてください。

共分散と相関係数の計算(2)
図 5.14  共分散と相関係数の計算(2)

相関係数を計算するには、ExcelのCORREL関数を使います。 (相関係数は英語でcorrelation coefficientです。) この関数は、

CORREL( x の範囲, y の範囲)

という形式で、 x の範囲と y の範囲の間の相関係数を計算します。

それでは、セルF3に=CORREL(B3:B12,C3:C12)と入力してください。 身長と体重の相関係数が計算されます。 小数点以下2桁の表示にしておいてください。

共分散と相関係数の計算(3)
図 5.15  共分散と相関係数の計算(3)

5.4.2 分析ツールによる計算

Excelの分析ツールでも、共分散と相関係数が求められます。 今日の演習では使いませんが、一応説明します。

まず、メニューバーで「ツール」→「分析ツール」とクリックします。 分析ツールのウィンドウが開いたら、「共分散」をクリックします。

共分散と相関係数の計算(4)
図 5.16  共分散と相関係数の計算(4)

「共分散」ウィンドウの、「入力範囲」にはデータの範囲($B$2:$C$12)を入力し、「データ方向」の「列」をクリックし、「先頭行をラベルとして使用」のチェックを入れ、「出力先」をクリックし、出力先として余白(例えば$E$5)を入力し、「OK」ボタンをクリックします。 すると、出力先に共分散が表示されます。

共分散と相関係数の計算(5)
図 5.17  共分散と相関係数の計算(5)
共分散と相関係数の計算(6)
図 5.18  共分散と相関係数の計算(6)

再び、メニューバーで「ツール」→「分析ツール」とクリックします。 分析ツールのウィンドウが開いたら、「相関」をクリックします。

共分散と相関係数の計算(7)
図 5.19  共分散と相関係数の計算(7)

「相関」ウィンドウの、「入力範囲」にはデータの範囲($B$2:$C$12)を入力し、「データ方向」の「列」をクリックし、「先頭行をラベルとして使用」のチェックを入れ、「出力先」をクリックし、出力先として余白(例えば$E$9)を入力し、「OK」ボタンをクリックします。 すると、出力先に相関係数が表示されます。

共分散と相関係数の計算(8)
図 5.20  共分散と相関係数の計算(8)
共分散と相関係数の計算(9)
図 5.21  共分散と相関係数の計算(9)

以上より、身長と体重の相関係数は 0.95 です。 50m走と持久走についても同様に相関係数を求めると、-0.78 となります。 正負の違いはありますが、身長と体重のほうが、50mと持久走よりも関係性が強いことが分かります。


5.5 演習5

ある中学校で、二年生の女子10名に対して、身体測定と体力測定が行われたとします。 身長と体重、および、50m走と持久走(1,000m)の結果をまとめたExcelファイルをダウンロードしてください。

comp2j_05_report.xls
表 5.6  中二女子の身長と体重
生徒 身長(cm) 体重(kg)
1 157.5 49.6
2 152.0 44.7
3 159.3 49.4
... ... ...
10 149.4 44.6
表 5.7  中二女子の50m走と持久走(1,000m)
生徒 50m走(秒) 持久走(秒)
1 7.6 334
2 9.5 300
3 10.3 262
... ... ...
10 8.8 286

(1)身長と体重の散布図を作成してください。 軸の目盛は適宜調節してください。

散布図の例(3)
図 5.22  散布図の例(3)

(2)身長と体重の相関係数を求めてください。 数値の書式は、小数点以下2桁にしてください。

相関係数の計算(1)
図 5.23  相関係数の計算(1)

(3)50m走と持久走(1,000m)の散布図を作成してください。 軸の目盛は適宜調節してください。

散布図の例(4)
図 5.24  散布図の例(4)

(4)50m走と持久走(1,000m)の相関係数を求めてください。 数値の書式は、小数点以下2桁にしてください。

相関係数の計算(2)
図 5.25  相関係数の計算(2)

5.6 レポート課題

今日の演習5の答案(Excelファイル)をメールで提出してください。 差出人は学内のメール・アドレス(b08a001@cis.twcu.ac.jpなど)とし、宛先はkonishi@cis.twcu.ac.jpとします。 メールの本文には、学生番号、氏名、科目名、授業日(10月26日)を明記してください。


5.7 参考文献


[小西ホームページ]   [目次・索引]   [前の授業]   [次の授業]

2011年10月28日更新
小西 善二郎 <konishi@cis.twcu.ac.jp>
Copyright (C) 2011 Zenjiro Konishi. All rights reserved.