[小西ホームページ]   [目次・索引]   [前の授業]   [次の授業]

コンピュータIIJ(統計データ解析)第5回

目次
5.1 散布図
5.2 共分散と相関係数
5.2.1 共分散とは
5.2.2 相関係数とは
5.2.3 共分散と相関係数の注意点
5.3 Excelによる散布図
5.4 Excelによる共分散と相関係数
5.5 分析ツールによる共分散と相関係数
5.6 StatPlusによる共分散と相関係数
5.7 Rコマンダーによる散布図
5.8 Rコマンダーによる相関係数
5.9 演習5
5.10 レポート課題
5.11 参考文献
索引

5.1 散布図

統計データの種類について話したとき、1次元データと2次元データの違いについて説明しました。 1次元データは1種類のデータのみに注目し、2次元データは2種類のデータの関係性に注目するということでした。 今日は、2次元データを取り上げます。

次のデータは、ある中学校の二年生男子10名の身長と体重です。

表 5.1  中二男子生徒の身長と体重
生徒 1 2 3 4 5 6 7 8 9 10
身長(cm) 151.9 157.0 159.7 160.3 163.9 171.1 151.0 168.5 156.4 169.1
体重(kg) 41.5 47.2 47.9 46.0 50.5 61.1 38.0 51.8 43.8 58.1

身長と体重の関係に注目すると、身長が大きいほど体重が重いという関係性がありそうです。 量的データ同士の場合、散布図というものを作れば、このような関係性が一目で分かります。

散布図scattergram )とは、2次元データのデータの組を、平面座標とみなして点を打ったグラフです。 上記の例ならば、

(151.9, 41.5), (157.0, 47.2), ..., (169.1, 58.1)

という座標に点を打ちます。 すると、身長が大きいほど体重が重いという、強い関係性があることが分かります。

散布図(1)
図 5.1  散布図(1)

他の2次元データも見てみましょう。 以下は、ある中学校の二年生男子10名の50m走と1500m走のタイムです。

表 5.2  中二男子生徒の50m走と1500m走
生徒 1 2 3 4 5 6 7 8 9 10
50m走(秒) 8.0 8.4 8.7 7.9 8.3 8.7 8.1 7.0 7.3 6.5
1500m走(秒) 416 415 388 406 365 320 353 446 441 450

今度は、50m走が遅いほど1500m走が速いという関係性がありそうです。 実際、散布図を作成すると、確かにそのような関係性があります。 ただし、身長と体重ほど強い関係性ではなさそうです。

散布図(2)
図 5.2  散布図(2)

5.2 共分散と相関係数

5.2.1 共分散とは

2次元データの関係性の強弱は、相関係数という数値で比較できます。 相関係数を定義する前に、共分散を定義します。

共分散covariance )とは、2次元データの変数を以下のようにしたとき

表 5.3  2次元データの変数
番号 1 2 ... n
x x1 x2 ... xn
y y1 y2 ... yn
共分散の定義(1)

と定義されます。 ( xy は平均です。) シグマ記号を使わなければ、

共分散の定義(2)

です。

分散や標準偏差のときと同様に、分母が n −1の共分散もあります。 つまり、

共分散の定義(3)

シグマ記号を使わなければ、

共分散の定義(4)

です。

分母が n の共分散 S xy は、データが全部(母集団)の場合に使い、分母が n −1の共分散 s xy は、データが一部(標本、サンプル)の場合に使います。

共分散の意図するところは、散布図が右上がりならプラス、右下がりならマイナスになることです。 以下の図で、もし散布図が右上がりなら、領域Iと領域III(灰色の領域)に点が集まるはずです。 そして共分散の定義を見ると、領域Iと領域IIIの点についてはプラスになります。 逆に、散布図が右下がりなら、領域IIと領域IV(白の領域)に点が集まるはずです。 再び共分散の定義を見ると、領域IIと領域IVの点についてはマイナスになります。

共分散の考え方
図 5.3  共分散の考え方

5.2.2 相関係数とは

身長と体重の関係性と、50m走と1500m走の関係性の強弱を比較したかったわけですが、共分散を比べても無意味です。 なぜなら、身長と体重の共分散の単位はcm×kgで、50m走と1500m走の共分散の単位は秒×秒で、単位が違うからです。 それぞれの標準偏差で割って、単位をなくすれば、関係性の強弱が比較できます。 これが相関係数です。

相関係数correlation coefficient )は

相関係数の定義(1)

と定義されます。 ここで、 S xy は分母が n の場合の共分散、 S x は分母が n の場合の x の標準偏差、 S y は分母が n の場合の y の標準偏差です。

分母が n −1の場合の共分散と標準偏差でも、相関係数が定義できます。

相関係数の定義(2)

ただし、どちらで定義しても同じ値になるので、相関係数については、分母が n のものとか n −1のものとか区別する必要はありません。

相関係数 r は、−1≦ r ≦1の範囲の値を取ります。

散布図と相関係数
図 5.4  散布図と相関係数

5.2.3 共分散と相関係数の注意点

共分散は、分母が n のものと分母が n −1のものが定義されます。 相関係数は、どちらで定義しても同じ値になりますので、分母を気にしなくてもよいです。

相関関係と因果関係は違うことに注意してください。 例えば、身長と体重には相関関係がありますが、どちらが原因でどちらが結果などとは言えません。


5.3 Excelによる散布図

それでは、Excelを利用して、散布図を作成しましょう。 次のExcelファイルをダウンロードしてください。

comp2j_05_data.xlsx
表 5.4  中二男子生徒(student)の身長(height)と体重(weight)
student height weight
1 151.9 41.5
2 157.0 47.2
3 159.7 47.9
... ... ...
10 169.1 58.1
表 5.5  中二男子生徒(student)の50m走(dash)と1500m走(race)
student dash race
1 8.0 416
2 8.4 415
3 8.7 388
... ... ...
10 6.5 450

まず、表全体(B2からC12まで)をドラッグします。 リボンの「グラフ」(Windowsの場合は「挿入」)をクリックし、「グラフの挿入」項目で「散布図」→「散布図」とクリックします。 すると、散布図が表示されます。

散布図の作成(1)
図 5.5  散布図の作成(1)

上側のグラフ・タイトルをダブル・クリックし、「中二男子生徒の身長と体重」に変更します。 右側の凡例「weight」をクリックし、deleteキーを押して削除します。

散布図の作成(2)
図 5.6  散布図の作成(2)

リボンの「グラフ レイアウト」をクリックし、「ラベル」項目で「軸ラベル」→「横軸ラベル」→「軸ラベルを軸の下に配置」とクリックし、軸ラベルを「身長(cm)」に変更します。 「ラベル」項目で「軸ラベル」→「縦軸ラベル」→「軸ラベルを垂直に配置」とクリックし、軸ラベルを「体重(kg)」に変更します。

散布図の作成(3)
図 5.7  散布図の作成(3)

ただし、体重の目盛が0から始まっているので、このままでは体重の差が分かりにくいです。 縦軸をダブル・クリックすると、「軸の書式設定」ウィンドウを開くので、「目盛」タブ(Windowsの場合は「軸のオプション」タブ)をクリックし、「最小値」チェックボックスをオフにし、目盛の始まりの値(例えば30)を入力してください。

散布図の作成(4)
図 5.8  散布図の作成(4)

すると、体重の目盛が30から始まります。

散布図(1)
図 5.9  散布図(1)

5.4 Excelによる共分散と相関係数

散布図の次は、共分散と相関係数を求めます。 まず、セルE2以下に「共分散」、「相関係数」と入力します。

共分散の計算(1)
図 5.10  共分散の計算(1)

共分散を計算するには、ExcelのCOVAR関数を使うとできます。 (共分散は英語でcovarianceです。) この関数は、

COVAR( x の範囲, y の範囲)

という形式で、 x の範囲と y の範囲の間の共分散を計算します。 COVER関数は、分母が n のものです。 (分母を n −1にしたければ、COVAR(...)*10/9 のようにしてください。)

それでは、セルF2に=COVER(B3:B12,C3:C12)と入力してください。 身長と体重の共分散が計算されます。 小数点以下2桁の表示にしておいてください。

共分散の計算(2)
図 5.11  共分散の計算(2)

相関係数を計算するには、ExcelのCORREL関数を使います。 (相関係数は英語でcorrelation coefficientです。) この関数は、

CORREL( x の範囲, y の範囲)

という形式で、 x の範囲と y の範囲の間の相関係数を計算します。

それでは、セルF3に=CORREL(B3:B12,C3:C12)と入力してください。 身長と体重の相関係数が計算されます。 小数点以下2桁の表示にしておいてください。

相関係数の計算(1)
図 5.12  相関係数の計算(1)

以上より、身長と体重の相関係数は0.95です。 50m走と1500m走についても同様に相関係数を求めると、−0.78となります。 正負の違いはありますが、身長と体重のほうが、50mと1500m走よりも関係性が強いことが分かります。


5.5 分析ツールによる共分散と相関係数

Excelの分析ツールでも、共分散と相関係数が求められます。 今日の演習では使いませんが、一応説明します。

まず、リボンの「データ」をクリックし、「分析」項目の「データ分析」をクリックします。 分析ツールのウィンドウが開いたら、「共分散」をクリックします。

共分散の計算(1)
図 5.13  共分散の計算(1)

「共分散」ウィンドウの、「入力範囲」にはデータの範囲($B$2:$C$12)を入力し、「データ方向」の「列」をクリックし、「先頭行をラベルとして使用」チェックボックスをオンにし、「出力先」をクリックし、出力先として余白(例えば$E$5)を入力し、「OK」ボタンをクリックします。 すると、出力先に共分散が表示されます。

共分散と計算(2)
図 5.14  共分散の計算(2)
共分散(1)
図 5.15  共分散(1)

再び、「データ分析」をクリックします。 分析ツールのウィンドウが開いたら、「相関」をクリックします。

相関係数の計算(1)
図 5.16  相関係数の計算(1)

「相関」ウィンドウの、「入力範囲」にはデータの範囲($B$2:$C$12)を入力し、「データ方向」の「列」をクリックし、「先頭行をラベルとして使用」チェックボックスをオンにし、「出力先」をクリックし、出力先として余白(例えば$E$9)を入力し、「OK」ボタンをクリックします。 すると、出力先に相関係数が表示されます。

相関係数の計算(2)
図 5.17  相関係数の計算(2)
相関係数(1)
図 5.18  相関係数(1)

5.6 StatPlusによる共分散と相関係数

次に、「StatPlus」で共分散と相関係数を計算します。 「StatPlus」を起動し、メニューバーで「Statistics」→「Basic Statistics and Tables」→「Covariance」とクリックします。 すると、「Covariance」ウィンドウが開くので、「Variables」入力欄の右側のボタンをクリックし、Excelシートのデータの範囲(セルB2からC12まで)をドラッグします。 「Covariance」ウィンドウの「Labels in first row」チェックボックスをオンにして、「OK」ボタンをクリックします。

共分散の計算(1)
図 5.19  共分散の計算(1)

すると、新しくExcelのウィンドウが開き、この「height」と「weight」の交わる部分に、共分散が表示されます。

共分散(1)
図 5.20  共分散(1)

続いて、メニューバーで「Statistics」→「Basic Statistics and Tables」→「Linear Correlation(Pearson)」とクリックします。 すると、「Correlation」ウィンドウが開くので、「Variables」入力欄の右側のボタンをクリックし、Excelシートのデータの範囲(セルB2からC12まで)をドラッグします。 「Correlation」ウィンドウの「Labels in first row」チェックボックスをオンにして、「OK」ボタンをクリックします。

相関係数の計算(1)
図 5.21  相関係数の計算(1)

すると、新しくExcelのウィンドウが開き、この「height」と「weight」の交わる部分に、相関係数が表示されます。

相関係数(1)
図 5.22  相関係数(1)

5.7 Rコマンダーによる散布図

最後に、「Rコマンダー」で散布図を作成し、相関係数を計算します。 あらかじめ「Rコマンダー」を起動して、Excelシートのデータの範囲(セルB2からC12まで)をインポートしておいてください。 念のため、「Rコマンダー」ウィンドウの「データセットを表示」ボタンをクリックして、インポートしたデータを確認します。

散布図の作成(1)
図 5.23  散布図の作成(1)

「Rコマンダー」ウィンドウで、「グラフ」→「散布図」とクリックします。 すると、「散布図」ウィンドウが開くので、「x変数」項目で「height」をクリックし、「y変数」項目で「weight」をクリックし、すべてのチェックボックスをオフにして、「OK」ボタンをクリックします。

散布図の作成(2)
図 5.24  散布図の作成(2)

すると、散布図が表示されます。

散布図(1)
図 5.25  散布図(1)

5.8 Rコマンダーによる相関係数

続いて、相関係数を計算します。 「Rコマンダー」ウィンドウで、「統計量」→「要約」→「相関行列」とクリックします。 すると、「相関行列」ウィンドウが開くので、「変数」項目で(必要に応じでshiftキーを押しながら)「height」と「weight」をクリックし、「ピアソンの積率相関」ラジオ・ボタンをオンにして、「OK」ボタンをクリックします。

相関係数の計算(1)
図 5.26  相関係数の計算(1)

すると、「Rコマンダー」ウィンドウの「出力ウィンドウ」欄の、「height」と「weight」の交わる部分に、相関係数が表示されます。

相関係数(1)
図 5.27  相関係数(1)

5.9 演習5

ある中学校で、二年生の女子10名に対して、身体測定と体力測定が行われたとします。 身長と体重、および、50m走と1000m走の結果をまとめたExcelファイルをダウンロードしてください。

comp2j_05_report.xlsx
表 5.6  中二女子生徒(student)の身長(height)と体重(weight)
student height weight
1 157.5 49.6
2 152.0 44.7
3 159.3 49.4
... ... ...
10 149.4 44.6
表 5.7  中二女子生徒(student)の50m走(dash)と1000m走(race)
student dash race
1 7.6 334
2 9.5 300
3 10.3 262
... ... ...
10 8.8 286

(1)身長と体重の散布図を作成してください。 軸の目盛は適宜調節してください。

散布図(3)
図 5.28  散布図(3)

(2)身長と体重の相関係数を求めてください。 数値の書式は、小数点以下2桁にしてください。

相関係数(1)
図 5.29  相関係数(1)

(3)50m走と1000m走の散布図を作成してください。 軸の目盛は適宜調節してください。

散布図(4)
図 5.30  散布図(4)

(4)50m走と1000m走の相関係数を求めてください。 数値の書式は、小数点以下2桁にしてください。

相関係数(2)
図 5.31  相関係数(2)

5.10 レポート課題

今日の演習5の答案(Excelファイル)をメールで提出してください。 差出人は学内のメール・アドレス(k12x1001@cis.twcu.ac.jpなど)とし、宛先はkonishi@cis.twcu.ac.jpとします。 メールの本文には、学生番号、氏名、科目名、授業日(10月24日)を明記してください。


5.11 参考文献


[小西ホームページ]   [目次・索引]   [前の授業]   [次の授業]

2012年10月24日更新
小西 善二郎 <konishi@cis.twcu.ac.jp>
Copyright (C) 2012 Zenjiro Konishi. All rights reserved.