統計データには色々な種類があります。 例えば、ある高校で健康診断を行ったとします。 すると、学年、性別、身長、体重などのデータが集まります。 また、学力テストを行った場合は、英語の得点、数学の得点などのデータが得られます。
ここでは、統計データを量的データと質的データに分類します。 量的データ とは、身長や体重など、数量で表されるデータです。 以下は、量的データの例としての、身長データです。
生徒 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
身長(cm) | 155.7 | 179.4 | 171.9 | 161.0 | 162.8 | 168.2 | 163.0 | 153.2 | 153.6 | 173.4 |
質的データ とは、学年や性別など、所属や性質を表しているデータです。 例えば、学年は1年生、2年生、または3年生です。 また、性別は、男子または女子です。 以下は、質的データの例としての、学年データです。
生徒 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
学年 | 3年生 | 1年生 | 3年生 | 3年生 | 2年生 | 2年生 | 2年生 | 1年生 | 3年生 | 3年生 |
質的データは、データを解析する前に、番号に置き換えます。 学年なら、1年生を1, 2年生を2, 3年生を3とします。 性別なら、男子を1, 女子を2とします。
生徒 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
学年 | 3 | 1 | 3 | 3 | 2 | 2 | 2 | 1 | 3 | 3 |
量的データと質的データに関連して、連続型データと離散型データという分類もあります。 連続型データ は、12.345...のように、小数点以下何桁も値をとるデータです。 これに対して、1, 2, 3, ...のように、飛び飛びの値をとるデータが 離散型データ です。
一般的に、量的データは連続型データで、質的データは離散型データです。 ただし、この分類は絶対的ではなく、離散型データを連続型データとみなすこともあります。
例えば、得点データは、0点、1点、…、100点のように、飛び飛びの値をとるので離散型データですが、飛び飛びといっても101種類もの値をとるので、連続型データとみなしたほうがよいです。
先ほど、健康診断では身長と体重のデータが集まると言いました。 身長のみ、あるいは体重のみに注目した場合、これを 1次元のデータ と呼びます。
身長と体重の関係に注目する場合は、 2次元データ と言います。
生徒 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
身長(cm) | 155.7 | 179.4 | 171.9 | 161.0 | 162.8 | 168.2 | 163.0 | 153.2 | 153.6 | 173.4 |
体重(kg) | 51.0 | 71.1 | 67.2 | 56.1 | 55.1 | 61.0 | 57.6 | 50.5 | 50.1 | 68.0 |
3種類のデータの関係性に注目した、3次元データも考えられます。 一般的に、2次元以上のデータは 多次元データ と呼ばれます。
今日の授業では、1次元データを取り上げます。
統計データを集めたら、すぐに最大値、最小値、平均値などを計算したくなるかもしれません。 しかし、データ全体の傾向を把握することが、もっと重要です。 度数分布表を作成すると、データを全体的に理解できます。
度数分布表 とは、データの値をいくつかの 階級 (データの範囲)に区切り、それぞれの階級の 度数 (データが何件あるか)をまとめた表です。
以下は、学力テストにおける、英語の得点の度数分布表です。
階級 | 度数 |
---|---|
0点以上10点以下 | 0 |
11点以上20点以下 | 0 |
21点以上30点以下 | 0 |
31点以上40点以下 | 1 |
41点以上50点以下 | 0 |
51点以上60点以下 | 13 |
61点以上70点以下 | 34 |
71点以上80点以下 | 37 |
81点以上90点以下 | 13 |
91点以上100点以下 | 2 |
階級の個数を 階級数 と呼び、階級のきざみを 階級幅 と呼びます。 この場合は、階級数が10階級、階級幅が10点きざみです。
なお、離散型データの場合、度数分布表は度数の多い順に並べ替えたほうが、分かりやすくなります。
度数分布表が作成できたら、次にヒストグラムを作成します。 ヒストグラム とは、度数分布表の階級を横軸にし、度数を縦軸にしたグラフです。 ヒストグラムは、棒グラフに似ています。
以下は、英語の得点の度数分布表をヒストグラムにしたものです。
ヒストグラムは、棒が横にくっついた棒グラフに見えるかもしれません。 確かに、連続型データでは、棒を横にくっつけますが、離散型データでは、棒を横から離します。
度数分布表やヒストグラムを作成するとき、階級数と階級幅をどう決めるかが問題になります。 階級数を減らすと階級幅が広くなり、大雑把になってきます。 逆に、階級数を増やすと階級幅が狭くなり、細かい点が目立ってきます。
先ほどの英語の得点を、階級数2, 階級幅50にすると以下のようになります。
階級数50, 階級幅2にすると、以下のようになります。
どちらも、全体の傾向を見るのには不適切です。
それでは、Excelで度数分布表を作成しましょう。 次のExcelファイルをダウンロードしてください。
生徒 | 学年 | 性別 | 身長 | 体重 |
---|---|---|---|---|
1 | 3 | 2 | 155.7 | 51.0 |
2 | 1 | 1 | 179.4 | 71.1 |
3 | 3 | 1 | 171.9 | 67.2 |
... | ... | ... | ... | ... |
10 | 3 | 1 | 173.4 | 68.0 |
まず、離散型データの例として、学年の度数分布表を作成します。 離散型データの場合は、ExcelのCOUNTIF関数を使うとできます。 この関数は、
COUNTIF(範囲, 検索条件)
という形式で、範囲の中から検索条件に一致するデータの個数を数えます。
Excelシートの余白(例えばセルG1からH4まで)に、「学年」、「人数」、そして学年(1から3)を入力してください。
が入力できれば、人数が数えられます。
ここで、$B$2:$B$11やG2などのセル参照は、キー入力しなくても、セルをクリックやドラッグしても入力できます。 その際、絶対参照($B$2:$B$11)に変換するには、リンゴ・キーを押しながらTキーを押します。 (Windowsの場合はF4キーを押します。)
なお、絶対参照($B$2:$B$11)と相対参照(G2, G3, G4)を組み合わせたのは、数式をコピー・アンド・ペーストしたいからです。 実際、セルH2に入力した数式をセルH3, H4にコピー・アンド・ペーストすればでき上がります。
度数分布表としてはこれでもよいですが、仕上げとして、学年を詳しく書き、人数の多い順に並び替えます。
セルG1からH4までを、J1にコピー・アンド・ペーストします。 ただし、普通のペーストではなく、「形式を選択してペースト」をクリックし、「値」をクリックします。
値をペーストすることによって、数式の再計算を避けることができます。
セルJ1からK4までをドラッグし、メニューバーで「データ」→「並べ替え」とクリックします。 「最優先されるキー」を「人数」にし、降順をクリックします。 「範囲の先頭行」は「タイトル行」をクリックします。 すると、人数の多い順に並び変わります。
最後に、学年の列を詳しく書いて、完成です。
次に、連続型データの例として、身長の度数分布表を作成します。 連続型データの場合は、Excelの分析ツールを使った方がよいです。
分析ツールを起動する前に、境界値を入力しておきます。
という階級にするならば、Excelシートの余白(例えばG6からG9まで)に、身長(境界値)、160, 170, 180と入力します。
次に、分析ツールを起動します。 メニューバーで「ツール」→「分析ツール」とクリックしてください。 分析ツールのウィンドウが開いたら、「ヒストグラム」をクリックします。
「入力範囲」には、身長データの範囲($D$1:$D$11)を入力します。 右側の三角ボタンをクリックし、範囲をドラッグし、再び三角ボタンをクリックするのが簡単です。 「データ区間」には、境界値の範囲($G$6:$G$9)を入力します。 「ラベル」のチェックを入れます。 「出力先」をクリックし、Excelシートの余白(例えば$I$6)を入力します。
度数分布表としてはこれでもよいですが、仕上げとして、身長を詳しく書きます。 人数の多い順には並び替えません。
セルI6からJ9までを、L6にコピー・アンド・ペーストします。 学年のときと同様に、値をペーストします。 最後に、身長の列を詳しく書いて、完成です。
度数分布表が完成したので、これをヒストグラムにします。
なお、Excelのグラフの作成方法は、Excel 2007から大きく変わりました。 Excel 2004までは、質問に答えていくと、最後にグラフが作成されるものでした。 Excel 2007からは、いきなりグラフが表示され、必要に応じて修正するというものです。 この授業で使うのはExcel 2004なので、質問に答える(グラフウィザードと言います)作成方法です。
まず、度数分布表全体(セルJ1からK4)をドラッグします。 次に、メニューバーで「挿入」→「グラフ」とクリックすると、グラフウィザードが開きます。 「グラフの種類」は「縦棒」、「形式」は「集合縦棒グラフ」をクリックし、「次へ」をクリックします。
「系列」が「列」になっていることを確認して、「次へ」をクリックします。
「グラフタイトル」に「学年ごとの人数」と入力し、「X/項目軸」に「学年」と入力し、「Y/数値軸」に「人数」と入力し、「次へ」をクリックします。
「グラフの場所」が「オブジェクト」になっていることを確認して、「完了」をクリックします。
これで、ヒストグラムが完成しました。
身長のヒストグラムも、同じように作成できます。 ただし、身長は連続型データなので、棒を横にくっつける必要があります。
棒を横にくっつけるには、グラフの棒を右クリックして「データ系列の書式設定」をクリックし、「色と線」タブを開き、「線」の「色」を「自動」にします。
同じウィンドウで「オプション」タブを開き、「棒の間隔」を0にします。
これで、棒が横にくっつきます。
ある高校で、3年1組から3年5組までの希望者100人に対して、英語と数学の試験を実施したとします。 クラス、英語の得点、数学の得点をまとめたExcelファイルをダウンロードしてください。
生徒 | クラス | 英語 | 数学 |
---|---|---|---|
1 | 3 | 73 | 68 |
2 | 4 | 68 | 74 |
3 | 1 | 82 | 72 |
... | ... | ... | ... |
100 | 3 | 86 | 86 |
(1)クラスの人数の度数分布表を作成してください。
(2)クラスの人数のヒストグラムを作成してください。
(3)数学の得点の度数分布表を作成してください。 階級幅は10点きざみとします。
(4)数学の得点のヒストグラムを作成してください。 階級幅は10点きざみとします。
今日の演習2の答案(Excelファイル)をメールで提出してください。 差出人は学内のメール・アドレス(b08a001@cis.twcu.ac.jpなど)とし、宛先はkonishi@cis.twcu.ac.jpとします。 メールの本文には、学生番号、氏名、科目名、授業日(10月5日)を明記してください。