統計データの種類について話したとき、1次元データと2次元データの違いについて説明しました。 1次元データは1種類のデータのみに注目し、2次元データは2種類のデータの関係性に注目するということでした。 今日は、2次元データを取り上げます。
次のデータは、ある中学校の二年生男子10名の身長と体重です。
生徒 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
身長(cm) | 151.9 | 157.0 | 159.7 | 160.3 | 163.9 | 171.1 | 151.0 | 168.5 | 156.4 | 169.1 |
体重(kg) | 41.5 | 47.2 | 47.9 | 46.0 | 50.5 | 61.1 | 38.0 | 51.8 | 43.8 | 58.1 |
身長と体重の関係に注目すると、身長が大きいほど体重が重いという関係性がありそうです。 量的データ同士の場合、散布図というものを作れば、このような関係性が一目で分かります。
散布図 ( scattergram )とは、2次元データのデータの組を、平面座標とみなして点を打ったグラフです。 上記の例ならば、
という座標に点を打ちます。 すると、身長が大きいほど体重が重いという、強い関係性があることが分かります。
他の2次元データも見てみましょう。 以下は、ある中学校の二年生男子10名の50m走と1500m走のタイムです。
生徒 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
50m走(秒) | 8.0 | 8.4 | 8.7 | 7.9 | 8.3 | 8.7 | 8.1 | 7.0 | 7.3 | 6.5 |
1500m走(秒) | 416 | 415 | 388 | 406 | 365 | 320 | 353 | 446 | 441 | 450 |
今度は、50m走が遅いほど1500m走が速いという関係性がありそうです。 実際、散布図を作成すると、確かにそのような関係性があります。 ただし、身長と体重ほど強い関係性ではなさそうです。
2次元データの関係性の強弱は、相関係数という数値で比較できます。 相関係数を定義する前に、共分散を定義します。
共分散 ( covariance )とは、2次元データの変数を以下のようにしたとき
番号 | 1 | 2 | ... | n |
---|---|---|---|---|
x | x 1 | x 2 | ... | x n |
y | y 1 | y 2 | ... | y n |
と定義されます。 ( x と y は平均です。) シグマ記号を使わなければ、
です。
分散や標準偏差のときと同様に、分母が n −1の共分散もあります。 つまり、
シグマ記号を使わなければ、
です。
分母が n の共分散 S xy は、データが全部(母集団)の場合に使い、分母が n −1の共分散 s xy は、データが一部(標本、サンプル)の場合に使います。
共分散の意図するところは、散布図が右上がりならプラス、右下がりならマイナスになることです。 以下の図で、もし散布図が右上がりなら、領域Iと領域III(灰色の領域)に点が集まるはずです。 そして共分散の定義を見ると、領域Iと領域IIIの点についてはプラスになります。 逆に、散布図が右下がりなら、領域IIと領域IV(白の領域)に点が集まるはずです。 再び共分散の定義を見ると、領域IIと領域IVの点についてはマイナスになります。
身長と体重の関係性と、50m走と1500m走の関係性の強弱を比較したかったわけですが、共分散を比べても無意味です。 なぜなら、身長と体重の共分散の単位はcm×kgで、50m走と1500m走の共分散の単位は秒×秒で、単位が違うからです。 それぞれの標準偏差で割って、単位をなくすれば、関係性の強弱が比較できます。 これが相関係数です。
相関係数 ( correlation coefficient )は
と定義されます。 ここで、 S xy は分母が n の場合の共分散、 S x は分母が n の場合の x の標準偏差、 S y は分母が n の場合の y の標準偏差です。
分母が n −1の場合の共分散と標準偏差でも、相関係数が定義できます。
ただし、どちらで定義しても同じ値になるので、相関係数については、分母が n のものとか n −1のものとか区別する必要はありません。
相関係数 r は、−1≦ r ≦1の範囲の値を取ります。
共分散は、分母が n のものと分母が n −1のものが定義されます。 相関係数は、どちらで定義しても同じ値になりますので、分母を気にしなくてもよいです。
相関関係と因果関係は違うことに注意してください。 例えば、身長と体重には相関関係がありますが、どちらが原因でどちらが結果などとは言えません。 統計学の有名な言葉に、
相関関係は因果関係を含意しない。 (Correlation does not imply causation.)
があります。
それでは、Excelを利用して、散布図を作成しましょう。 次のExcelファイルをダウンロードしてください。
student | height | weight |
---|---|---|
1 | 151.9 | 41.5 |
2 | 157.0 | 47.2 |
3 | 159.7 | 47.9 |
... | ... | ... |
10 | 169.1 | 58.1 |
student | dash | race |
---|---|---|
1 | 8.0 | 416 |
2 | 8.4 | 415 |
3 | 8.7 | 388 |
... | ... | ... |
10 | 6.5 | 450 |
まず、表全体(B2からC12まで)をドラッグします。 リボンの「グラフ」(Windowsの場合は「挿入」)をクリックし、「グラフの挿入」項目で「散布図」→「散布図」とクリックします。 すると、散布図が表示されます。
上側のグラフ・タイトルをダブル・クリックし、「中二男子生徒の身長と体重」に変更します。 右側の凡例「weight」をクリックし、deleteキーを押して削除します。
リボンの「グラフ レイアウト」をクリックし、「ラベル」項目で「軸ラベル」→「横軸ラベル」→「軸ラベルを軸の下に配置」とクリックし、軸ラベルを「身長(cm)」に変更します。 「ラベル」項目で「軸ラベル」→「縦軸ラベル」→「軸ラベルを垂直に配置」とクリックし、軸ラベルを「体重(kg)」に変更します。
ただし、体重の目盛が0から始まっているので、このままでは体重の差が分かりにくいです。 縦軸をダブル・クリックすると、「軸の書式設定」ウィンドウを開くので、「目盛」タブ(Windowsの場合は「軸のオプション」タブ)をクリックし、「最小値」チェックボックスをオフにし、目盛の始まりの値(例えば30)を入力してください。
すると、体重の目盛が30から始まります。
散布図の次は、共分散と相関係数を求めます。 まず、セルE2以下に「共分散」、「相関係数」と入力します。
共分散を計算するには、ExcelのCOVAR関数を使うとできます。 (共分散は英語でcovarianceです。) この関数は、
という形式で、 x の範囲と y の範囲の間の共分散を計算します。 COVAR関数は、分母が n のものです。 (分母を n −1にしたければ、COVAR(...)*10/9 のようにしてください。)
それでは、セルF2に=COVAR(B3:B12,C3:C12)と入力してください。 身長と体重の共分散が計算されます。 小数点以下2桁の表示にしておいてください。
相関係数を計算するには、ExcelのCORREL関数を使います。 (相関係数は英語でcorrelation coefficientです。) この関数は、
という形式で、 x の範囲と y の範囲の間の相関係数を計算します。
それでは、セルF3に=CORREL(B3:B12,C3:C12)と入力してください。 身長と体重の相関係数が計算されます。 小数点以下2桁の表示にしておいてください。
以上より、身長と体重の相関係数は0.95です。 50m走と1500m走についても同様に相関係数を求めると、−0.78となります。 正負の違いはありますが、身長と体重のほうが、50mと1500m走よりも関係性が強いことが分かります。
ある中学校で、二年生の女子10名に対して、身体測定と体力測定が行われたとします。 身長と体重、および、50m走と1000m走の結果をまとめたExcelファイルをダウンロードしてください。
student | height | weight |
---|---|---|
1 | 157.5 | 49.6 |
2 | 152.0 | 44.7 |
3 | 159.3 | 49.4 |
... | ... | ... |
10 | 149.4 | 44.6 |
student | dash | race |
---|---|---|
1 | 7.6 | 334 |
2 | 9.5 | 300 |
3 | 10.3 | 262 |
... | ... | ... |
10 | 8.8 | 286 |
(1)身長と体重の散布図を作成してください。 軸の目盛は適宜調節してください。
(2)身長と体重の相関係数を求めてください。 数値の書式は、小数点以下2桁にしてください。
(3)50m走と1000m走の散布図を作成してください。 軸の目盛は適宜調節してください。
(4)50m走と1000m走の相関係数を求めてください。 数値の書式は、小数点以下2桁にしてください。
今日の演習5の答案(Excelファイル)をメールで提出してください。 差出人は学内のメール・アドレス(学生番号@cis.twcu.ac.jp)とし、宛先はkonishi@cis.twcu.ac.jpとします。 メールの本文には、学生番号、氏名、科目名、授業日(10月28日)を明記してください。
Excelの分析ツールでも、共分散と相関係数が求められます。 今日の演習では使いませんが、一応説明します。
まず、リボンの「データ」をクリックし、「分析」項目の「データ分析」をクリックします。 分析ツールのウィンドウが開いたら、「共分散」をクリックします。
「共分散」ウィンドウの、「入力範囲」にはデータの範囲($B$2:$C$12)を入力し、「データ方向」の「列」をクリックし、「先頭行をラベルとして使用」チェックボックスをオンにし、「出力先」をクリックし、出力先として余白(例えば$E$5)を入力し、「OK」ボタンをクリックします。 すると、出力先に共分散が表示されます。
再び、「データ分析」をクリックします。 分析ツールのウィンドウが開いたら、「相関」をクリックします。
「相関」ウィンドウの、「入力範囲」にはデータの範囲($B$2:$C$12)を入力し、「データ方向」の「列」をクリックし、「先頭行をラベルとして使用」チェックボックスをオンにし、「出力先」をクリックし、出力先として余白(例えば$E$9)を入力し、「OK」ボタンをクリックします。 すると、出力先に相関係数が表示されます。
次に、「StatPlus」で共分散と相関係数を計算します。 「StatPlus」を起動し、メニューバーで「Statistics」→「Basic Statistics and Tables」→「Covariance」とクリックします。 すると、「Covariance」ウィンドウが開くので、「Variables」入力欄の右側のボタンをクリックし、Excelシートのデータの範囲(セルB2からC12まで)をドラッグします。 「Covariance」ウィンドウの「Labels in first row」チェックボックスをオンにして、「OK」ボタンをクリックします。
すると、新しくExcelのウィンドウが開き、この「height」と「weight」の交わる部分に、共分散が表示されます。
続いて、メニューバーで「Statistics」→「Basic Statistics and Tables」→「Linear Correlation(Pearson)」とクリックします。 すると、「Correlation」ウィンドウが開くので、「Variables」入力欄の右側のボタンをクリックし、Excelシートのデータの範囲(セルB2からC12まで)をドラッグします。 「Correlation」ウィンドウの「Labels in first row」チェックボックスをオンにして、「OK」ボタンをクリックします。
すると、新しくExcelのウィンドウが開き、この「height」と「weight」の交わる部分に、相関係数が表示されます。
最後に、「Rコマンダー」で散布図を作成し、相関係数を計算します。 あらかじめ「Rコマンダー」を起動して、Excelシートのデータの範囲(セルB2からC12まで)をインポートしておいてください。 念のため、「Rコマンダー」ウィンドウの「データセットを表示」ボタンをクリックして、インポートしたデータを確認します。
「Rコマンダー」ウィンドウで、「グラフ」→「散布図」とクリックします。 すると、「散布図」ウィンドウが開くので、「x変数」項目で「height」をクリックし、「y変数」項目で「weight」をクリックし、すべてのチェックボックスをオフにして、「OK」ボタンをクリックします。
すると、散布図が表示されます。
続いて、相関係数を計算します。 「Rコマンダー」ウィンドウで、「統計量」→「要約」→「相関行列」とクリックします。 すると、「相関行列」ウィンドウが開くので、「変数」項目で(必要に応じでshiftキーを押しながら)「height」と「weight」をクリックし、「ピアソンの積率相関」ラジオ・ボタンをオンにして、「OK」ボタンをクリックします。
すると、「Rコマンダー」ウィンドウの「出力ウィンドウ」欄の、「height」と「weight」の交わる部分に、相関係数が表示されます。