統計データの種類について話したとき、1次元データと2次元データの違いについて説明しました。 1次元データは1種類のデータのみに注目し、2次元データは2種類のデータの関係性に注目するということでした。 今日は、2次元データを取り上げます。
次のデータは、ある中学校の二年生男子10名の身長と体重です。
生徒 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
身長(cm) | 151.9 | 157.0 | 159.7 | 160.3 | 163.9 | 171.1 | 151.0 | 168.5 | 156.4 | 169.1 |
体重(kg) | 41.5 | 47.2 | 47.9 | 46.0 | 50.5 | 61.1 | 38.0 | 51.8 | 43.8 | 58.1 |
身長と体重の関係に注目すると、身長が大きいほど体重が重いという関係性がありそうです。 量的データ同士の場合、散布図というものを作れば、このような関係性が一目で分かります。
散布図 とは、2次元データのデータの組を、平面座標とみなして点を打ったグラフです。 上記の例ならば、
という座標に点を打ちます。 すると、身長が大きいほど体重が重いという、強い関係性があることが分かります。
他の2次元データも見てみましょう。 以下は、ある中学校の二年生男子10名の50m走と持久走(1,500m)のタイムです。
生徒 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
50m走(秒) | 8.0 | 8.4 | 8.7 | 7.9 | 8.3 | 8.7 | 8.1 | 7.0 | 7.3 | 6.5 |
持久走(秒) | 416 | 415 | 388 | 406 | 365 | 320 | 353 | 446 | 441 | 450 |
今度は、50m走が遅いほど持久走が速いという関係性がありそうです。 実際、散布図を作成すると、確かにそのような関係性があります。 ただし、身長と体重ほど強い関係性ではなさそうです。
2次元データの関係性の強弱は、相関係数という数値で比較できます。 相関係数を定義する前に、共分散を定義します。
共分散 とは、2次元データの変数を以下のようにしたとき
番号 | 1 | 2 | ... | n |
---|---|---|---|---|
x | x1 | x2 | ... | xn |
y | y1 | y2 | ... | yn |
と定義されます。 (バーがついているのは平均です。) シグマ記号を使わなければ、
です。
分散や標準偏差のときと同様に、分母が n - 1 の共分散もあります。 つまり、
シグマ記号を使わなければ、
です。
分母が n の共分散 S xy は、データが全部(母集団)の場合に使い、分母が n - 1 の共分散 s xy は、データが一部(標本、サンプル)の場合に使います。
共分散の意図するところは、散布図が右上がりならプラス、右下がりならマイナスになることです。 以下の図で、もし散布図が右上がりなら、領域Iと領域III(灰色の領域)に点が集まるはずです。 そして共分散の定義を見ると、領域Iと領域IIIの点についてはプラスになります。 逆に、散布図が右下がりなら、領域IIと領域IV(白の領域)に点が集まるはずです。 再び共分散の定義を見ると、領域IIと領域IVの点についてはマイナスになります。
身長と体重の関係性と、50m走と持久走の関係性の強弱を比較したかったわけですが、共分散を比べても無意味です。 なぜなら、身長と体重の共分散の単位はcm×kgで、50m走と持久走の共分散の単位は秒×秒で、単位が違うからです。 それぞれの標準偏差で割って、単位をなくすれば、関係性の強弱が比較できます。 これが相関係数です。
相関係数 は
と定義されます。 ここで、 S xy は分母が n の場合の共分散、 S x は分母が n の場合の x の標準偏差、 S y は分母が n の場合の y の標準偏差です。
分母が n - 1 の場合の共分散と標準偏差でも、相関係数が定義できます。
ただし、どちらで定義しても同じ値になるので、相関係数については、分母が n のものとか n - 1 のものとか区別する必要はありません。
相関係数 r は、-1≦ r ≦1 の範囲の値を取ります。
共分散は、分母が n のものと分母が n - 1 のものが定義されます。 相関係数は、どちらで定義しても同じ値になりますので、分母を気にしなくてもよいです。
相関関係と因果関係は違うことに注意してください。 例えば、身長と体重には相関関係がありますが、どちらが原因でどちらが結果などとは言えません。
それでは、Excelを利用して、散布図を作成しましょう。 次のExcelファイルをダウンロードしてください。
生徒 | 身長(cm) | 体重(kg) |
---|---|---|
1 | 151.9 | 41.5 |
2 | 157.0 | 47.2 |
3 | 159.7 | 47.9 |
... | ... | ... |
10 | 169.1 | 58.1 |
生徒 | 50m走(秒) | 持久走(秒) |
---|---|---|
1 | 8.0 | 416 |
2 | 8.4 | 415 |
3 | 8.7 | 388 |
... | ... | ... |
10 | 6.5 | 450 |
まず、表全体(B2からC12まで)をドラッグし、メニューバーで「挿入」→「グラフ」とクリックして、グラフウィザードを開きます。
「グラフの種類」は「散布図」、「形式」は「散布図」をクリックし、「次へ」ボタンをクリックします。
「系列」が「列」であることを確認して、「次へ」ボタンをクリックします。
「グラフタイトル」に「中二男子の身長と体重」と入力し、「X/項目軸」に「身長(cm)」と入力し、「Y/数値軸」に「体重(kg)」と入力します。
同じウィンドウで、「凡例」タブをクリックし、「凡例を表示する」のチェックを外して、「次へ」ボタンをクリックします。
「グラフの場所」が「オブジェクト」であることを確認して、「完了」ボタンをクリックします。
これで、散布図が表示されます。
ただし、体重の目盛が0から始まっているので、このままでは体重の差が分かりにくいです。 縦軸を右クリックし、「軸の書式設定」をクリックして、「軸の書式設定」ウィンドウを開いてください。
「目盛」タブをクリックし、「最小値」のチェックを外し、目盛の始まりの値(例えば30)を入力してください。
すると、体重の目盛が30から始まります。
散布図の次は、共分散と相関係数を求めます。 まず、セルE2以下に「共分散」、「相関係数」と入力します。
共分散を計算するには、ExcelのCOVAR関数を使うとできます。 (共分散は英語でcovarianceです。) この関数は、
という形式で、 x の範囲と y の範囲の間の共分散を計算します。 COVER関数は、分母が n のものです。 (分母を n - 1 にしたければ、COVAR(...)*10/9 のようにしてください。)
それでは、セルF2に=COVER(B3:B12,C3:C12)と入力してください。 身長と体重の共分散が計算されます。 小数点以下2桁の表示にしておいてください。
相関係数を計算するには、ExcelのCORREL関数を使います。 (相関係数は英語でcorrelation coefficientです。) この関数は、
という形式で、 x の範囲と y の範囲の間の相関係数を計算します。
それでは、セルF3に=CORREL(B3:B12,C3:C12)と入力してください。 身長と体重の相関係数が計算されます。 小数点以下2桁の表示にしておいてください。
Excelの分析ツールでも、共分散と相関係数が求められます。 今日の演習では使いませんが、一応説明します。
まず、メニューバーで「ツール」→「分析ツール」とクリックします。 分析ツールのウィンドウが開いたら、「共分散」をクリックします。
「共分散」ウィンドウの、「入力範囲」にはデータの範囲($B$2:$C$12)を入力し、「データ方向」の「列」をクリックし、「先頭行をラベルとして使用」のチェックを入れ、「出力先」をクリックし、出力先として余白(例えば$E$5)を入力し、「OK」ボタンをクリックします。 すると、出力先に共分散が表示されます。
再び、メニューバーで「ツール」→「分析ツール」とクリックします。 分析ツールのウィンドウが開いたら、「相関」をクリックします。
「相関」ウィンドウの、「入力範囲」にはデータの範囲($B$2:$C$12)を入力し、「データ方向」の「列」をクリックし、「先頭行をラベルとして使用」のチェックを入れ、「出力先」をクリックし、出力先として余白(例えば$E$9)を入力し、「OK」ボタンをクリックします。 すると、出力先に相関係数が表示されます。
以上より、身長と体重の相関係数は 0.95 です。 50m走と持久走についても同様に相関係数を求めると、-0.78 となります。 正負の違いはありますが、身長と体重のほうが、50mと持久走よりも関係性が強いことが分かります。
ある中学校で、二年生の女子10名に対して、身体測定と体力測定が行われたとします。 身長と体重、および、50m走と持久走(1,000m)の結果をまとめたExcelファイルをダウンロードしてください。
生徒 | 身長(cm) | 体重(kg) |
---|---|---|
1 | 157.5 | 49.6 |
2 | 152.0 | 44.7 |
3 | 159.3 | 49.4 |
... | ... | ... |
10 | 149.4 | 44.6 |
生徒 | 50m走(秒) | 持久走(秒) |
---|---|---|
1 | 7.6 | 334 |
2 | 9.5 | 300 |
3 | 10.3 | 262 |
... | ... | ... |
10 | 8.8 | 286 |
(1)身長と体重の散布図を作成してください。 軸の目盛は適宜調節してください。
(2)身長と体重の相関係数を求めてください。 数値の書式は、小数点以下2桁にしてください。
(3)50m走と持久走(1,000m)の散布図を作成してください。 軸の目盛は適宜調節してください。
(4)50m走と持久走(1,000m)の相関係数を求めてください。 数値の書式は、小数点以下2桁にしてください。
今日の演習5の答案(Excelファイル)をメールで提出してください。 差出人は学内のメール・アドレス(b08a001@cis.twcu.ac.jpなど)とし、宛先はkonishi@cis.twcu.ac.jpとします。 メールの本文には、学生番号、氏名、科目名、授業日(10月26日)を明記してください。