[小西ホームページ]   [目次・索引]   [前の授業]   [次の授業]

情報処理技法(統計解析)第5回

目次
索引

散布図

統計データの種類について話したとき、1次元データと2次元データの違いについて説明しました。 1次元データは1種類のデータのみに注目し、2次元データは2種類のデータの関係性に注目するということでした。 今日は、2次元データを取り上げます。

次のデータは、ある中学校の二年生男子10名の身長と体重です。

中二男子生徒の身長と体重
生徒 1 2 3 4 5 6 7 8 9 10
身長(cm) 151.9 157.0 159.7 160.3 163.9 171.1 151.0 168.5 156.4 169.1
体重(kg) 41.5 47.2 47.9 46.0 50.5 61.1 38.0 51.8 43.8 58.1

身長と体重の関係に注目すると、身長が大きいほど体重が重いという関係性がありそうです。 量的データ同士の場合、散布図というものを作れば、このような関係性が一目で分かります。

散布図 scattergram )とは、2次元データのデータの組を、平面座標とみなして点を打ったグラフです。 上記の例ならば、

(151.9, 41.5), (157.0, 47.2), ..., (169.1, 58.1)

という座標に点を打ちます。 すると、身長が大きいほど体重が重いという、強い関係性があることが分かります。

散布図(1)
散布図(1)

他の2次元データも見てみましょう。 以下は、ある中学校の二年生男子10名の50m走と1500m走のタイムです。

中二男子生徒の50m走と1500m走
生徒 1 2 3 4 5 6 7 8 9 10
50m走(秒) 8.0 8.4 8.7 7.9 8.3 8.7 8.1 7.0 7.3 6.5
1500m走(秒) 416 415 388 406 365 320 353 446 441 450

今度は、50m走が遅いほど1500m走が速いという関係性がありそうです。 実際、散布図を作成すると、確かにそのような関係性があります。 ただし、身長と体重ほど強い関係性ではなさそうです。

散布図(2)
散布図(2)

共分散と相関係数

共分散とは

2次元データの関係性の強弱は、相関係数という数値で比較できます。 相関係数を定義する前に、共分散を定義します。

共分散 covariance )とは、2次元データの変数を以下のようにしたとき

2次元データの変数
番号 1 2 ... n
x x 1 x 2 ... x n
y y 1 y 2 ... y n
共分散の定義(1)

と定義されます。 ( x y は平均です。) シグマ記号を使わなければ、

共分散の定義(2)

です。

分散や標準偏差のときと同様に、分母が n −1の共分散もあります。 つまり、

共分散の定義(3)

シグマ記号を使わなければ、

共分散の定義(4)

です。

分母が n の共分散 S xy は、データが全部(母集団)の場合に使い、分母が n −1の共分散 s xy は、データが一部(標本、サンプル)の場合に使います。

共分散の意図するところは、散布図が右上がりならプラス、右下がりならマイナスになることです。 以下の図で、もし散布図が右上がりなら、領域Iと領域III(灰色の領域)に点が集まるはずです。 そして共分散の定義を見ると、領域Iと領域IIIの点についてはプラスになります。 逆に、散布図が右下がりなら、領域IIと領域IV(白の領域)に点が集まるはずです。 再び共分散の定義を見ると、領域IIと領域IVの点についてはマイナスになります。

共分散の考え方
共分散の考え方

相関係数とは

身長と体重の関係性と、50m走と1500m走の関係性の強弱を比較したかったわけですが、共分散を比べても無意味です。 なぜなら、身長と体重の共分散の単位はcm×kgで、50m走と1500m走の共分散の単位は秒×秒で、単位が違うからです。 それぞれの標準偏差で割って、単位をなくすれば、関係性の強弱が比較できます。 これが相関係数です。

相関係数 correlation coefficient )は

相関係数の定義(1)

と定義されます。 ここで、 S xy は分母が n の場合の共分散、 S x は分母が n の場合の x の標準偏差、 S y は分母が n の場合の y の標準偏差です。

分母が n −1の場合の共分散と標準偏差でも、相関係数が定義できます。

相関係数の定義(2)

ただし、どちらで定義しても同じ値になるので、相関係数については、分母が n のものとか n −1のものとか区別する必要はありません。

相関係数 r は、−1≦ r ≦1の範囲の値を取ります。

散布図と相関係数
散布図と相関係数

共分散と相関係数の注意点

共分散は、分母が n のものと分母が n −1のものが定義されます。 相関係数は、どちらで定義しても同じ値になりますので、分母を気にしなくてもよいです。

相関関係と因果関係は違うことに注意してください。 例えば、身長と体重には相関関係がありますが、どちらが原因でどちらが結果などとは言えません。 統計学の有名な言葉に、

相関関係は因果関係を含意しない。 (Correlation does not imply causation.)

があります。


Excelによる散布図

それでは、Excelを利用して、散布図を作成しましょう。 次のExcelファイルをダウンロードしてください。

stat_05_data.xlsx
中二男子生徒(student)の身長(height)と体重(weight)
student height weight
1 151.9 41.5
2 157.0 47.2
3 159.7 47.9
... ... ...
10 169.1 58.1
中二男子生徒(student)の50m走(dash)と1500m走(race)
student dash race
1 8.0 416
2 8.4 415
3 8.7 388
... ... ...
10 6.5 450

まず、表全体(B2からC12まで)をドラッグします。 リボンの「グラフ」(Windowsの場合は「挿入」)をクリックし、「グラフの挿入」項目で「散布図」→「散布図」とクリックします。 すると、散布図が表示されます。

散布図の作成(1)
散布図の作成(1)

上側のグラフ・タイトルをダブル・クリックし、「中二男子生徒の身長と体重」に変更します。 右側の凡例「weight」をクリックし、deleteキーを押して削除します。

散布図の作成(2)
散布図の作成(2)

リボンの「グラフ レイアウト」をクリックし、「ラベル」項目で「軸ラベル」→「横軸ラベル」→「軸ラベルを軸の下に配置」とクリックし、軸ラベルを「身長(cm)」に変更します。 「ラベル」項目で「軸ラベル」→「縦軸ラベル」→「軸ラベルを垂直に配置」とクリックし、軸ラベルを「体重(kg)」に変更します。

散布図の作成(3)
散布図の作成(3)

ただし、体重の目盛が0から始まっているので、このままでは体重の差が分かりにくいです。 縦軸をダブル・クリックすると、「軸の書式設定」ウィンドウを開くので、「目盛」タブ(Windowsの場合は「軸のオプション」タブ)をクリックし、「最小値」チェックボックスをオフにし、目盛の始まりの値(例えば30)を入力してください。

散布図の作成(4)
散布図の作成(4)

すると、体重の目盛が30から始まります。

散布図(1)
散布図(1)

Excelによる共分散と相関係数

散布図の次は、共分散と相関係数を求めます。 まず、セルE2以下に「共分散」、「相関係数」と入力します。

共分散の計算(1)
共分散の計算(1)

共分散を計算するには、ExcelのCOVAR関数を使うとできます。 (共分散は英語でcovarianceです。) この関数は、

COVAR( x の範囲, y の範囲)

という形式で、 x の範囲と y の範囲の間の共分散を計算します。 COVAR関数は、分母が n のものです。 (分母を n −1にしたければ、COVAR(...)*10/9 のようにしてください。)

それでは、セルF2に=COVAR(B3:B12,C3:C12)と入力してください。 身長と体重の共分散が計算されます。 小数点以下2桁の表示にしておいてください。

共分散の計算(2)
共分散の計算(2)

相関係数を計算するには、ExcelのCORREL関数を使います。 (相関係数は英語でcorrelation coefficientです。) この関数は、

CORREL( x の範囲, y の範囲)

という形式で、 x の範囲と y の範囲の間の相関係数を計算します。

それでは、セルF3に=CORREL(B3:B12,C3:C12)と入力してください。 身長と体重の相関係数が計算されます。 小数点以下2桁の表示にしておいてください。

相関係数の計算(1)
相関係数の計算(1)

以上より、身長と体重の相関係数は0.95です。 50m走と1500m走についても同様に相関係数を求めると、−0.78となります。 正負の違いはありますが、身長と体重のほうが、50mと1500m走よりも関係性が強いことが分かります。


分析ツールによる共分散と相関係数

Excelの分析ツールでも、共分散と相関係数が求められます。 今日の演習では使いませんが、一応説明します。

まず、リボンの「データ」をクリックし、「分析」項目の「データ分析」をクリックします。 分析ツールのウィンドウが開いたら、「共分散」をクリックします。

共分散の計算(1)
共分散の計算(1)

「共分散」ウィンドウの、「入力範囲」にはデータの範囲($B$2:$C$12)を入力し、「データ方向」の「列」をクリックし、「先頭行をラベルとして使用」チェックボックスをオンにし、「出力先」をクリックし、出力先として余白(例えば$E$5)を入力し、「OK」ボタンをクリックします。 すると、出力先に共分散が表示されます。

共分散と計算(2)
共分散の計算(2)
共分散(1)
共分散(1)

再び、「データ分析」をクリックします。 分析ツールのウィンドウが開いたら、「相関」をクリックします。

相関係数の計算(1)
相関係数の計算(1)

「相関」ウィンドウの、「入力範囲」にはデータの範囲($B$2:$C$12)を入力し、「データ方向」の「列」をクリックし、「先頭行をラベルとして使用」チェックボックスをオンにし、「出力先」をクリックし、出力先として余白(例えば$E$9)を入力し、「OK」ボタンをクリックします。 すると、出力先に相関係数が表示されます。

相関係数の計算(2)
相関係数の計算(2)
相関係数(1)
相関係数(1)

StatPlusによる共分散と相関係数

次に、「StatPlus」で共分散と相関係数を計算します。 「StatPlus」を起動し、メニューバーで「Statistics」→「Basic Statistics and Tables」→「Covariance」とクリックします。 すると、「Covariance」ウィンドウが開くので、「Variables」入力欄の右側のボタンをクリックし、Excelシートのデータの範囲(セルB2からC12まで)をドラッグします。 「Covariance」ウィンドウの「Labels in first row」チェックボックスをオンにして、「OK」ボタンをクリックします。

共分散の計算(1)
共分散の計算(1)

すると、新しくExcelのウィンドウが開き、この「height」と「weight」の交わる部分に、共分散が表示されます。

共分散(1)
共分散(1)

続いて、メニューバーで「Statistics」→「Basic Statistics and Tables」→「Linear Correlation(Pearson)」とクリックします。 すると、「Correlation」ウィンドウが開くので、「Variables」入力欄の右側のボタンをクリックし、Excelシートのデータの範囲(セルB2からC12まで)をドラッグします。 「Correlation」ウィンドウの「Labels in first row」チェックボックスをオンにして、「OK」ボタンをクリックします。

相関係数の計算(1)
相関係数の計算(1)

すると、新しくExcelのウィンドウが開き、この「height」と「weight」の交わる部分に、相関係数が表示されます。

相関係数(1)
相関係数(1)

Rコマンダーによる散布図

最後に、「Rコマンダー」で散布図を作成し、相関係数を計算します。 あらかじめ「Rコマンダー」を起動して、Excelシートのデータの範囲(セルB2からC12まで)をインポートしておいてください。 念のため、「Rコマンダー」ウィンドウの「データセットを表示」ボタンをクリックして、インポートしたデータを確認します。

散布図の作成(1)
散布図の作成(1)

「Rコマンダー」ウィンドウで、「グラフ」→「散布図」とクリックします。 すると、「散布図」ウィンドウが開くので、「x変数」項目で「height」をクリックし、「y変数」項目で「weight」をクリックし、すべてのチェックボックスをオフにして、「OK」ボタンをクリックします。

散布図の作成(2)
散布図の作成(2)

すると、散布図が表示されます。

散布図(1)
散布図(1)

Rコマンダーによる相関係数

続いて、相関係数を計算します。 「Rコマンダー」ウィンドウで、「統計量」→「要約」→「相関行列」とクリックします。 すると、「相関行列」ウィンドウが開くので、「変数」項目で(必要に応じでshiftキーを押しながら)「height」と「weight」をクリックし、「ピアソンの積率相関」ラジオ・ボタンをオンにして、「OK」ボタンをクリックします。

相関係数の計算(1)
相関係数の計算(1)

すると、「Rコマンダー」ウィンドウの「出力ウィンドウ」欄の、「height」と「weight」の交わる部分に、相関係数が表示されます。

相関係数(1)
相関係数(1)

演習5

ある中学校で、二年生の女子10名に対して、身体測定と体力測定が行われたとします。 身長と体重、および、50m走と1000m走の結果をまとめたExcelファイルをダウンロードしてください。

stat_05_report.xlsx
中二女子生徒(student)の身長(height)と体重(weight)
student height weight
1 157.5 49.6
2 152.0 44.7
3 159.3 49.4
... ... ...
10 149.4 44.6
中二女子生徒(student)の50m走(dash)と1000m走(race)
student dash race
1 7.6 334
2 9.5 300
3 10.3 262
... ... ...
10 8.8 286

(1)身長と体重の散布図を作成してください。 軸の目盛は適宜調節してください。

散布図(3)
散布図(3)

(2)身長と体重の相関係数を求めてください。 数値の書式は、小数点以下2桁にしてください。

相関係数(1)
相関係数(1)

(3)50m走と1000m走の散布図を作成してください。 軸の目盛は適宜調節してください。

散布図(4)
散布図(4)

(4)50m走と1000m走の相関係数を求めてください。 数値の書式は、小数点以下2桁にしてください。

相関係数(2)
相関係数(2)

レポート課題

今日の演習5の答案(Excelファイル)をメールで提出してください。 差出人は学内のメール・アドレス(k12x1001@cis.twcu.ac.jpなど)とし、宛先はkonishi@cis.twcu.ac.jpとします。 メールの本文には、学生番号、氏名、科目名、授業日(10月29日)を明記してください。


参考文献


[小西ホームページ]   [目次・索引]   [前の授業]   [次の授業]

2014年10月29日更新
小西 善二郎 <konishi@cis.twcu.ac.jp>
Copyright (C) 2014 Zenjiro Konishi. All rights reserved.