統計データが集まったら、まずは表やグラフにまとめて、全体的に理解するべきと説明しました。 次にやることは、統計データを代表するような値を見つけることです。
統計データの代表値として、最も重要なのが平均です。 平均 は、データの合計をデータの個数で割ったものです。 つまり、データの個数が n で、データが x 1 , x 2 , ..., x n のとき、平均は、
と定義されます。 ( x の上に線を引いて、エックス・バーと読みます。) シグマ記号を使わなければ、
です。
ここで、例として、ある中学校で、10人の生徒に対して国語の漢字テストと英語の単語テストが行われたとします。
生徒 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
漢字 | 7 | 6 | 8 | 7 | 8 | 6 | 7 | 7 | 7 | 7 |
単語 | 4 | 8 | 2 | 6 | 5 | 4 | 5 | 2 | 5 | 8 |
漢字テストと単語テストを比べると、どちらが難しかったでしょうか。 これは、両方の平均を計算して、比較すると分かります。 漢字テストの平均は、
です。 同じように単語テストの平均を計算すると、4.9点となります。 したがって、漢字テストより単語テストのほうが難しかったことが分かります。
統計データそのものが無く、度数分布表しか与えられない場合も考えられます。 このときは、データの合計の代わりに、階級値×度数の合計を計算します。 ここで、 階級値 とは、階級を代表する値(普通は中間の値)です。
例えば、以下の度数分布表なら、
体重(kg) | 人数 |
---|---|
50〜60 | 6 |
60〜70 | 3 |
70〜80 | 1 |
合計 | 10 |
平均体重は、
です。
平均といっても、必ずしも「合計して個数で割る」ものばかりではありません。 統計データによっては、掛け算をするもの( 幾何平均 )や、逆数を合計するもの( 調和平均 )もあります。
平均は最も重要な代表値ですが、その他の代表値もあります。
メディアン ( メジアン )とは、 中央値 とも呼ばれ、データを小さい順に並べて中央にくる値のことです。 ただし、データの個数が偶数の場合、中央には2つの値がありますので、その2つの平均をとったものです。
例えば、データ
のメディアンは20です。 データ
のメディアンは (20+30)÷2=25 です。
モード とは、 最頻値 とも呼ばれ、度数分布表において最も度数が多い階級の階級値のことです。
例えば、上記の体重の度数分布表では、モードは55kgになります。
上記の漢字テストと単語テストの得点をもう一度見てみましょう。 漢字テストはあまり得点差がないのに対して、単語テストは得点差が大きいような気がします。 この得点差、つまりデータの散らばり具合を表すのが、分散と標準偏差です。
分散 は次のように定義されます。
シグマ記号を使わなければ、
です。
分散は、要するに平均との差を集めているのです。 ここで、平均との差を2乗しているのは、負の数にしないためです。
漢字テストの平均は7点だったので、分散は、
です。 同じように単語テストの分散を計算すると、3.89となります。 これらの分散の単位は、点の2乗です。
分散にはもう一つの定義があります。
シグマ記号を使わなければ、
です。
分母が n の分散 S 2 は、データが全部(母集団)である場合に使います。 分母が n -1 の分散 s 2 は、データが一部(標本、サンプル)である場合に使います。
標準偏差 とは、分散の平方根です。 すなわち、
または
と定義されます。
分散は、データの単位が2乗になっているので、標準偏差は、平方根をとって単位を元に戻しているのです。
さて、漢字テストと単語テストを比べると、どちらが得点差が大きかったでしょうか。 これは、両方の標準偏差を計算して、比較すると分かります。 漢字テストの標準偏差は、
です。 同じように単語テストの標準偏差を計算すると、1.97点となります。 したがって、漢字テストより単語テストのほうが得点差が大きかったことが分かります。
分散と標準偏差の両方で、分母が n のものと分母が n -1 のものが定義されます。 データの個数が大きい場合は、 n で割っても n -1 で割っても大体同じ値になるので、どちらを使ってもかまいません。 データの個数が小さい場合は、値がずれてしまうので、どちらを使うか注意する必要があります。
散らばりの尺度としては、分散と標準偏差が重要ですが、他にもあります。
レンジ とは、 範囲 とも呼ばれ、
と定義されます。 レンジはデータの幅を表していますが、あまり使われません。
標準偏差の定義で、2乗する代わりに絶対値をとるもの( 平均偏差 )もありますが、これもあまり使われません。
標準偏差は、データの散らばり具合の基準と考えられます。 個別のデータがどのくらい平均から離れているかを比べるとき、標準偏差の何倍離れているかを計算すれば、データの散らばり具合に関係のない比較ができます。 この計算をデータの 標準化 と言います。
データの標準化は
で計算します。
大学受験などでは、 偏差値 という尺度を利用します。 偏差値は、データの標準化をより身近な数値にしたものです。 具体的には、標準化 z に対して、偏差値 T は、
と定義されます。
それでは、Excelを利用して、平均、分散、標準偏差を計算しましょう。 同時に、標準化の表と偏差値の表も作成します。 次のExcelファイルをダウンロードしてください。
生徒 | 漢字 | 単語 |
---|---|---|
1 | 7 | 4 |
2 | 6 | 8 |
3 | 8 | 2 |
... | ... | ... |
10 | 7 | 8 |
まず、セルA12以下に「平均」、「分散」、「標準偏差」と入力します。
平均を計算するには、ExcelのAVERAGE関数を使うとできます。 この関数は、
という形式で、その範囲の平均を計算します。
それでは、セルB12に=AVERAGE(B2:B11)と入力してください。 漢字テストの平均が計算されます。 セルB12をC12にコピー・アンド・ペーストすると、単語テストの平均も計算されます。
計算結果を小数点以下2桁の表示するには、セルの範囲をドラッグし、右クリックして「セルの書式設定」をクリックし、「表示形式」タブをクリックし、「分類」の「数値」をクリックし、「小数点以下の桁数」を2にします。
分散を計算するには、ExcelのVAR関数かVARP関数を使います。 (分散は英語でvarianceです。) これらの関数は
という形式で、その範囲の分散を計算します。 VAR関数は分母が n -1 のもの、VARP関数は分母が n のものです。 ここでは、分母が n のものを使います。
では、セルB13に=VARP(B2:B11)と入力してください。 漢字テストの分散が計算されます。 セルB13をC13にコピー・アンド・ペーストすると、単語テストの分散も計算されます。
標準偏差を計算するには、定義通りなら分散の平方根を求めるのですが、Excelには標準偏差を直接計算するSTDEV関数とSTDEVP関数があります。 (標準偏差は英語でstandard deviationです。) これらの関数は
という形式で、その範囲の標準偏差を計算します。 STDEV関数は分母が n -1 のもの、STDEVP関数は分母が n のものです。 ここでは、分母が n のものを使います。
では、セルB14に=STDEVP(B2:B11)と入力してください。 漢字テストの標準偏差が計算されます。 セルB14をC14にコピー・アンド・ペーストすると、単語テストの標準偏差も計算されます。
Excelの分析ツールを利用すると、平均、分散、標準偏差など、基本的な統計量が一気に計算できます。 今日の演習では使いませんが、便利なので説明します。
まず、メニューバーで「ツール」→「分析ツール」とクリックします。 分析ツールのウィンドウが開いたら、「基本統計量」をクリックします。
「基本統計量」ウィンドウの、「入力範囲」にはデータの範囲($B$1:$C$11)を入力し、「データ方向」の「列」をクリックし、「先頭行をラベルとして使用」のチェックを入れ、「出力先」をクリックし、出力先として余白(例えば$A$16)を入力し、「統計情報」のチェックを入れて、「OK」ボタンをクリックします。 すると、出力先に基本的な統計量が一覧表示されます。
授業で説明していない統計量もありますが、気にしないでください。 ここで注目してほしいのは、分散と標準偏差が、VARP関数やSTDEVP関数の値より大きめになっていることです。 これは、分析ツールの基本統計量が、分母が n -1 のもの、すなわちVAR関数やSTDEV関数を使っているということです。
平均と標準偏差が計算できたので、続いて標準化の表を作成します。 まず、セルE1から、「生徒」、「漢字(標準化)」、「単語(標準化)」、および生徒番号を入力します。
標準化の定義を日本語で書くと
なので、セルF2には
と入力します。 「セルの書式設定」で、小数点以下2桁の表示にしておきます。
そして、セルF2をF2からG11までにコピー・アンド・ペーストします。 これで、標準化の表が完成します。
最後に、偏差値の表を作成します。 セルI1から、「生徒」、「漢字(偏差値)」、「単語(偏差値)」、および生徒番号を入力します。
偏差値の定義を日本語で書くと
なので、セルJ2には
と入力します。 「セルの書式設定」で、小数点以下0桁の表示にしておきます。
そして、セルJ2をJ2からK11までにコピー・アンド・ペーストします。 これで、偏差値の表が完成します。
偏差値の表を見ると、例えば、生徒2は漢字に比べて単語が得意、生徒3は漢字に比べて単語が苦手などということが分かります。
ある中学校で、10人の生徒に対して、英語、数学、国語の3科目の小テストを実施したとします。 得点をまとめたExcelファイルをダウンロードしてください。
生徒 | 英語 | 数学 | 国語 |
---|---|---|---|
1 | 7 | 6 | 8 |
2 | 7 | 7 | 8 |
3 | 8 | 9 | 9 |
... | ... | ... | ... |
10 | 8 | 7 | 9 |
(1)3科目の平均と標準偏差を求めてください。 標準偏差は、分母が n のものにしてください。 数値の書式は、小数点以下2桁にしてください。
(2)3科目の得点の標準化を求め、表を作成してください。 数値の書式は、小数点以下2桁にしてください。
(3)3科目の得点の偏差値を求め、表を作成してください。 数値の書式は、小数点以下0桁にしてください。
今日の演習4の答案(Excelファイル)をメールで提出してください。 差出人は学内のメール・アドレス(b08a001@cis.twcu.ac.jpなど)とし、宛先はkonishi@cis.twcu.ac.jpとします。 メールの本文には、学生番号、氏名、科目名、授業日(10月19日)を明記してください。