[小西ホームページ]   [目次・索引]   [前の授業]   [次の授業]

情報処理技法(統計解析)第5回

目次
索引

散布図

統計データの種類について話したとき、1次元データと2次元データの違いについて説明しました。 1次元データは1種類のデータのみに注目し、2次元データは2種類のデータの関係性に注目するということでした。 今日は、2次元データを取り上げます。

次のデータは、ある中学校の二年生男子10名の身長と体重です。

中二男子生徒の身長と体重
生徒 1 2 3 4 5 6 7 8 9 10
身長(cm) 151.9 157.0 159.7 160.3 163.9 171.1 151.0 168.5 156.4 169.1
体重(kg) 41.5 47.2 47.9 46.0 50.5 61.1 38.0 51.8 43.8 58.1

身長と体重の関係に注目すると、身長が高いほど体重が重いという関係性がありそうです。 量的データ同士の場合、散布図というものを作れば、このような関係性が一目で分かります。

散布図 scattergram )とは、2次元データのデータの組を、平面座標とみなして点を打ったグラフです。 上記の例ならば、

(151.9, 41.5), (157.0, 47.2), ..., (169.1, 58.1)

という座標に点を打ちます。 すると、身長が高いほど体重が重いという、強い関係性があることが分かります。

散布図(1)
散布図(1)

他の2次元データも見てみましょう。 以下は、ある中学校の二年生男子10名の50m走と1500m走のタイムです。

中二男子生徒の50m走と1500m走
生徒 1 2 3 4 5 6 7 8 9 10
50m走(秒) 8.0 8.4 8.7 7.9 8.3 8.7 8.1 7.0 7.3 6.5
1500m走(秒) 416 415 388 406 365 320 353 446 441 450

今度は、50m走が遅いほど1500m走が速いという関係性がありそうです。 実際、散布図を作成すると、確かにそのような関係性があります。 ただし、身長と体重ほど強い関係性ではなさそうです。

散布図(2)
散布図(2)

共分散と相関係数

共分散とは

2次元データの関係性の強弱は、相関係数という数値で比較できます。 相関係数を定義する前に、共分散を定義します。

共分散 covariance )とは、2次元データの変数を以下のようにしたとき

2次元データの変数
番号 1 2 ... n
x x 1 x 2 ... x n
y y 1 y 2 ... y n
共分散の定義(1)

と定義されます。 ( x y は平均です。) シグマ記号を使わなければ、

共分散の定義(2)

です。

分散や標準偏差のときと同様に、分母が n −1の共分散もあります。 つまり、

共分散の定義(3)

シグマ記号を使わなければ、

共分散の定義(4)

です。

分母が n の共分散 S xy は、データが全部(母集団)の場合に使い、分母が n −1の共分散 s xy は、データが一部(標本、サンプル)の場合に使います。

共分散の意図するところは、散布図が右上がりならプラス、右下がりならマイナスになることです。 以下の図で、もし散布図が右上がりなら、領域Iと領域III(灰色の領域)に点が集まるはずです。 そして共分散の定義を見ると、領域Iと領域IIIの点についてはプラスになります。 逆に、散布図が右下がりなら、領域IIと領域IV(白の領域)に点が集まるはずです。 再び共分散の定義を見ると、領域IIと領域IVの点についてはマイナスになります。

共分散の考え方
共分散の考え方

相関係数とは

身長と体重の関係性と、50m走と1500m走の関係性の強弱を比較したかったわけですが、共分散を比べても無意味です。 なぜなら、身長と体重の共分散の単位はcm×kgで、50m走と1500m走の共分散の単位は秒×秒で、単位が違うからです。 それぞれの標準偏差で割って、単位をなくすれば、関係性の強弱が比較できます。 これが相関係数です。

相関係数 correlation coefficient )は

相関係数の定義(1)

と定義されます。 ここで、 S xy は分母が n の場合の共分散、 S x は分母が n の場合の x の標準偏差、 S y は分母が n の場合の y の標準偏差です。

分母が n −1の場合の共分散と標準偏差でも、相関係数が定義できます。

相関係数の定義(2)

ただし、どちらで定義しても同じ値になるので、相関係数については、分母が n のものとか n −1のものとか区別する必要はありません。

相関係数 r は、−1≦ r ≦1の範囲の値を取ります。

散布図と相関係数
散布図と相関係数

共分散と相関係数の注意点

共分散は、分母が n のものと分母が n −1のものが定義されます。 相関係数は、どちらで定義しても同じ値になりますので、分母を気にしなくてもよいです。

相関関係と因果関係は違うことに注意してください。 例えば、身長と体重には相関関係がありますが、どちらが原因でどちらが結果などとは言えません。 統計学の有名な言葉に、

相関関係は因果関係を含意しない。 (Correlation does not imply causation.)

があります。


Excelによる散布図

それでは、Excelを利用して、散布図を作成しましょう。 次のExcelファイルをダウンロードしてください。

stat_05_data.xlsx
中二男子生徒(student)の身長(height)と体重(weight)
student height weight
1 151.9 41.5
2 157.0 47.2
3 159.7 47.9
... ... ...
10 169.1 58.1
中二男子生徒(student)の50m走(dash)と1500m走(race)
student dash race
1 8.0 416
2 8.4 415
3 8.7 388
... ... ...
10 6.5 450

まず、表全体(B2からC12まで)をドラッグします。 リボンの「挿入」をクリックし、「散布図」→「散布図」とクリックします。 すると、散布図が表示されます。

散布図の作成(1)
散布図の作成(1)

上側のグラフ・タイトルをダブル・クリックし、「中二男子生徒の身長と体重」に変更します。 凡例を消すには、右側の凡例「weight」をクリックし、deleteキーを押して削除します。

散布図の作成(2)
散布図の作成(2)

リボンの「グラフのデザイン」をクリックし、「グラフ要素を追加」→「軸ラベル」→「第1横軸」とクリックして、(Windowsの場合は、リボンの「レイアウト」をクリックし、「ラベル」項目で「軸ラベル」→「主横軸ラベル」→「軸ラベルを軸の下に配置」とクリックして、)軸ラベルを「身長(cm)」に変更します。 同様に、「グラフ要素を追加」→「軸ラベル」→「第1縦軸」とクリックして、(Windowsの場合は、「ラベル」項目で「軸ラベル」→「主縦軸ラベル」→「軸ラベルを垂直に配置」とクリックして、)軸ラベルを「体重(kg)」に変更します。 軸ラベルを縦書きにするには、軸ラベルを右クリックし、「軸ラベルの書式設定」をクリックし、「タイトルのオプション」→「サイズとプロパティ」とクリックして、「テキストの方向」を「垂直」にします。

散布図の作成(3)
散布図の作成(3)

ただし、体重の目盛が0から始まっているので、このままでは体重の差が分かりにくいです。 縦軸をダブル・クリックすると、「軸の書式設定」ウィンドウを開くので、「軸のオプション」→「軸のオプション」とクリックし、(Windowsの場合は「最小値」の「固定」ラジオボタンをオンにして、)「最小値」に目盛の始まりの値(例えば30)を入力してください。

散布図の作成(4)
散布図の作成(4)

すると、体重の目盛が30から始まります。

散布図(1)
散布図(1)

Excelによる共分散と相関係数

散布図の次は、共分散と相関係数を求めます。 まず、セルE2以下に「共分散」、「相関係数」と入力します。

共分散の計算(1)
共分散の計算(1)

共分散を計算するには、ExcelのCOVAR関数を使うとできます。 (共分散は英語でcovarianceです。) この関数は、

COVAR( x の範囲, y の範囲)

という形式で、 x の範囲と y の範囲の間の共分散を計算します。 COVAR関数は、分母が n のものです。 (分母を n −1にしたければ、COVAR(...)*10/9 のようにしてください。)

それでは、セルF2に=COVAR(B3:B12,C3:C12)と入力してください。 身長と体重の共分散が計算されます。 小数点以下2桁の表示にしておいてください。

共分散の計算(2)
共分散の計算(2)

相関係数を計算するには、ExcelのCORREL関数を使います。 (相関係数は英語でcorrelation coefficientです。) この関数は、

CORREL( x の範囲, y の範囲)

という形式で、 x の範囲と y の範囲の間の相関係数を計算します。

それでは、セルF3に=CORREL(B3:B12,C3:C12)と入力してください。 身長と体重の相関係数が計算されます。 小数点以下2桁の表示にしておいてください。

相関係数の計算(1)
相関係数の計算(1)

以上より、身長と体重の相関係数は0.95です。 50m走と1500m走についても同様に相関係数を求めると、−0.78となります。 正負の違いはありますが、身長と体重のほうが、50mと1500m走よりも関係性が強いことが分かります。


演習5

ある中学校で、二年生の女子10名に対して、身体測定と体力測定が行われたとします。 身長と体重、および、50m走と1000m走の結果をまとめたExcelファイルをダウンロードしてください。

stat_05_report.xlsx
中二女子生徒(student)の身長(height)と体重(weight)
student height weight
1 157.5 49.6
2 152.0 44.7
3 159.3 49.4
... ... ...
10 149.4 44.6
中二女子生徒(student)の50m走(dash)と1000m走(race)
student dash race
1 7.6 334
2 9.5 300
3 10.3 262
... ... ...
10 8.8 286

(1)身長と体重の散布図を作成してください。 軸の目盛は適宜調節してください。

散布図(3)
散布図(3)

(2)身長と体重の相関係数を求めてください。 数値の書式は、小数点以下2桁にしてください。

相関係数(1)
相関係数(1)

(3)50m走と1000m走の散布図を作成してください。 軸の目盛は適宜調節してください。

散布図(4)
散布図(4)

(4)50m走と1000m走の相関係数を求めてください。 数値の書式は、小数点以下2桁にしてください。

相関係数(2)
相関係数(2)

レポート課題

今日の演習5の答案(Excelファイル)をメールで提出してください。 差出人は学内のメール・アドレス(学生番号@cis.twcu.ac.jp)とし、宛先はkonishi@cis.twcu.ac.jpとします。 メールの本文には、学生番号、氏名、科目名、授業日(10月25日)を明記してください。


付録

分析ツールによる共分散と相関係数

Excelの分析ツールでも、共分散と相関係数が求められます。 今日の演習では使いませんが、一応説明します。

まず、リボンの「データ」をクリックし、「データ分析」をクリックします。 分析ツールのウィンドウが開いたら、「共分散」をクリックします。

共分散の計算(1)
共分散の計算(1)

「共分散」ウィンドウの、「入力範囲」にはデータの範囲($B$2:$C$12)を入力し、「データ方向」の「列」ラジオボタンをオンにし、「先頭行をラベルとして使用」チェックボックスをオンにし、「出力先」ラジオボタンをオンにし、出力先として余白(例えば$E$5)を入力し、「OK」ボタンをクリックします。 すると、出力先に共分散が表示されます。

共分散と計算(2)
共分散の計算(2)
共分散(1)
共分散(1)

再び、「データ分析」をクリックします。 分析ツールのウィンドウが開いたら、「相関」をクリックします。

相関係数の計算(1)
相関係数の計算(1)

「相関」ウィンドウの、「入力範囲」にはデータの範囲($B$2:$C$12)を入力し、「データ方向」の「列」ラジオボタンをオンにし、「先頭行をラベルとして使用」チェックボックスをオンにし、「出力先」ラジオボタンをオンにし、出力先として余白(例えば$E$9)を入力し、「OK」ボタンをクリックします。 すると、出力先に相関係数が表示されます。

相関係数の計算(2)
相関係数の計算(2)
相関係数(1)
相関係数(1)

参考文献


[小西ホームページ]   [目次・索引]   [前の授業]   [次の授業]

2017年10月25日更新
小西 善二郎 <konishi@cis.twcu.ac.jp>
Copyright (C) 2017 Zenjiro Konishi. All rights reserved.