[小西ホームページ]   [目次・索引]   [前の授業]   [次の授業]

コンピュータIIJ(統計データ解析)第2回

目次
2.1 統計データの種類
2.1.1 量的データと質的データ
2.1.2 1次元データと多次元データ
2.2 度数分布表
2.3 ヒストグラム
2.4 度数分布表の作成
2.4.1 離散型データの度数分布表
2.4.2 連続型データの度数分布表
2.5 ヒストグラムの作成
2.6 演習2
2.7 レポート課題
2.8 参考文献
索引

2.1 統計データの種類

2.1.1 量的データと質的データ

統計データには色々な種類があります。 例えば、ある高校で健康診断を行ったとします。 すると、学年、性別、身長、体重などのデータが集まります。 また、学力テストを行った場合は、英語の得点、数学の得点などのデータが得られます。

ここでは、統計データを量的データと質的データに分類します。 量的データ とは、身長や体重など、数量で表されるデータです。 以下は、量的データの例としての、身長データです。

表 2.1  身長データ(量的データの例)
生徒 1 2 3 4 5 6 7 8 9 10
身長(cm) 155.7 179.4 171.9 161.0 162.8 168.2 163.0 153.2 153.6 173.4

質的データ とは、学年や性別など、所属や性質を表しているデータです。 例えば、学年は1年生、2年生、または3年生です。 また、性別は、男子または女子です。 以下は、質的データの例としての、学年データです。

表 2.2  学年データ(質的データの例)
生徒 1 2 3 4 5 6 7 8 9 10
学年 3年生 1年生 3年生 3年生 2年生 2年生 2年生 1年生 3年生 3年生

質的データは、データを解析する前に、番号に置き換えます。 学年なら、1年生を1, 2年生を2, 3年生を3とします。 性別なら、男子を1, 女子を2とします。

表 2.3  番号に置き換えた学年データ
生徒 1 2 3 4 5 6 7 8 9 10
学年 3 1 3 3 2 2 2 1 3 3

量的データと質的データに関連して、連続型データと離散型データという分類もあります。 連続型データ は、12.345...のように、小数点以下何桁も値をとるデータです。 これに対して、1, 2, 3, ...のように、飛び飛びの値をとるデータが 離散型データ です。

一般的に、量的データは連続型データで、質的データは離散型データです。 ただし、この分類は絶対的ではなく、離散型データを連続型データとみなすこともあります。

例えば、得点データは、0点、1点、…、100点のように、飛び飛びの値をとるので離散型データですが、飛び飛びといっても101種類もの値をとるので、連続型データとみなしたほうがよいです。

2.1.2 1次元データと多次元データ

先ほど、健康診断では身長と体重のデータが集まると言いました。 身長のみ、あるいは体重のみに注目した場合、これを 1次元のデータ と呼びます。

身長と体重の関係に注目する場合は、 2次元データ と言います。

表 2.4  身長データと体重データ(2次元データの例)
生徒 1 2 3 4 5 6 7 8 9 10
身長(cm) 155.7 179.4 171.9 161.0 162.8 168.2 163.0 153.2 153.6 173.4
体重(kg) 51.0 71.1 67.2 56.1 55.1 61.0 57.6 50.5 50.1 68.0

3種類のデータの関係性に注目した、3次元データも考えられます。 一般的に、2次元以上のデータは 多次元データ と呼ばれます。

今日の授業では、1次元データを取り上げます。


2.2 度数分布表

統計データを集めたら、すぐに最大値、最小値、平均値などを計算したくなるかもしれません。 しかし、データ全体の傾向を把握することが、もっと重要です。 度数分布表を作成すると、データを全体的に理解できます。

度数分布表 とは、データの値をいくつかの 階級 (データの範囲)に区切り、それぞれの階級の 度数 (データが何件あるか)をまとめた表です。

以下は、学力テストにおける、英語の得点の度数分布表です。

表 2.5  英語の得点の度数分布表
階級 度数
0点以上10点以下 0
11点以上20点以下 0
21点以上30点以下 0
31点以上40点以下 1
41点以上50点以下 0
51点以上60点以下 13
61点以上70点以下 34
71点以上80点以下 37
81点以上90点以下 13
91点以上100点以下 2

階級の個数を 階級数 と呼び、階級のきざみを 階級幅 と呼びます。 この場合は、階級数が10階級、階級幅が10点きざみです。

なお、離散型データの場合、度数分布表は度数の多い順に並べ替えたほうが、分かりやすくなります。


2.3 ヒストグラム

度数分布表が作成できたら、次にヒストグラムを作成します。 ヒストグラム とは、度数分布表の階級を横軸にし、度数を縦軸にしたグラフです。 ヒストグラムは、棒グラフに似ています。

以下は、英語の得点の度数分布表をヒストグラムにしたものです。

英語の得点のヒストグラム
図 2.1  英語の得点のヒストグラム

ヒストグラムは、棒が横にくっついた棒グラフに見えるかもしれません。 確かに、連続型データでは、棒を横にくっつけますが、離散型データでは、棒を横から離します。

度数分布表やヒストグラムを作成するとき、階級数と階級幅をどう決めるかが問題になります。 階級数を減らすと階級幅が広くなり、大雑把になってきます。 逆に、階級数を増やすと階級幅が狭くなり、細かい点が目立ってきます。

先ほどの英語の得点を、階級数2, 階級幅50にすると以下のようになります。

英語の得点のヒストグラム(階級数2)
図 2.2  英語の得点のヒストグラム(階級数2)

階級数50, 階級幅2にすると、以下のようになります。

英語の得点のヒストグラム(階級数50)
図 2.3  英語の得点のヒストグラム(階級数50)

どちらも、全体の傾向を見るのには不適切です。


2.4 度数分布表の作成

2.4.1 離散型データの度数分布表

それでは、Excelで度数分布表を作成しましょう。 次のExcelファイルをダウンロードしてください。

comp2j_02_data.xls

表 2.6  学年、性別、身長、および体重
生徒 学年 性別 身長 体重
1 3 2 155.7 51.0
2 1 1 179.4 71.1
3 3 1 171.9 67.2
... ... ... ... ...
10 3 1 173.4 68.0

まず、離散型データの例として、学年の度数分布表を作成します。 離散型データの場合は、ExcelのCOUNTIF関数を使うとできます。 この関数は、

COUNTIF(範囲, 検索条件)

という形式で、範囲の中から検索条件に一致するデータの個数を数えます。

Excelシートの余白(例えばセルG1からH4まで)に、「学年」、「人数」、そして学年(1から3)を入力してください。

度数分布表の作成(1)
図 2.4  度数分布表の作成(1)

が入力できれば、人数が数えられます。

ここで、$B$2:$B$11やG2などのセル参照は、キー入力しなくても、セルをクリックやドラッグしても入力できます。 その際、絶対参照($B$2:$B$11)に変換するには、リンゴ・キーを押しながらTキーを押します。 (Windowsの場合はF4キーを押します。)

なお、絶対参照($B$2:$B$11)と相対参照(G2, G3, G4)を組み合わせたのは、数式をコピー・アンド・ペーストしたいからです。 実際、セルH2に入力した数式をセルH3, H4にコピー・アンド・ペーストすればでき上がります。

度数分布表の作成(2)
図 2.5  度数分布表の作成(2)

度数分布表としてはこれでもよいですが、仕上げとして、学年を詳しく書き、人数の多い順に並び替えます。

セルG1からH4までを、J1にコピー・アンド・ペーストします。 ただし、普通のペーストではなく、「形式を選択してペースト」をクリックし、「値」をクリックします。

度数分布表の作成(3)
図 2.6  度数分布表の作成(3)

値をペーストすることによって、数式の再計算を避けることができます。

セルJ1からK4までをドラッグし、メニューバーで「データ」→「並べ替え」とクリックします。 「最優先されるキー」を「人数」にし、降順をクリックします。 「範囲の先頭行」は「タイトル行」をクリックします。 すると、人数の多い順に並び変わります。

度数分布表の作成(4)
図 2.7  度数分布表の作成(4)

最後に、学年の列を詳しく書いて、完成です。

度数分布表の作成(5)
図 2.8  度数分布表の作成(5)

2.4.2 連続型データの度数分布表

次に、連続型データの例として、身長の度数分布表を作成します。 連続型データの場合は、Excelの分析ツールを使った方がよいです。

分析ツールを起動する前に、境界値を入力しておきます。

という階級にするならば、Excelシートの余白(例えばG6からG9まで)に、身長(境界値)、160, 170, 180と入力します。

度数分布表の作成(6)
図 2.9  度数分布表の作成(6)

次に、分析ツールを起動します。 メニューバーで「ツール」→「分析ツール」とクリックしてください。 分析ツールのウィンドウが開いたら、「ヒストグラム」をクリックします。

度数分布表の作成(7)
図 2.10  度数分布表の作成(7)

「入力範囲」には、身長データの範囲($D$1:$D$11)を入力します。 右側の三角ボタンをクリックし、範囲をドラッグし、再び三角ボタンをクリックするのが簡単です。 「データ区間」には、境界値の範囲($G$6:$G$9)を入力します。 「ラベル」のチェックを入れます。 「出力先」をクリックし、Excelシートの余白(例えば$I$6)を入力します。

度数分布表の作成(8)
図 2.11  度数分布表の作成(8)
度数分布表の作成(9)
図 2.12  度数分布表の作成(9)

度数分布表としてはこれでもよいですが、仕上げとして、身長を詳しく書きます。 人数の多い順には並び替えません。

セルI6からJ9までを、L6にコピー・アンド・ペーストします。 学年のときと同様に、値をペーストします。 最後に、身長の列を詳しく書いて、完成です。

度数分布表の作成(10)
図 2.13  度数分布表の作成(10)

2.5 ヒストグラムの作成

度数分布表が完成したので、これをヒストグラムにします。

なお、Excelのグラフの作成方法は、Excel 2007から大きく変わりました。 Excel 2004までは、質問に答えていくと、最後にグラフが作成されるものでした。 Excel 2007からは、いきなりグラフが表示され、必要に応じて修正するというものです。 この授業で使うのはExcel 2004なので、質問に答える(グラフウィザードと言います)作成方法です。

まず、度数分布表全体(セルJ1からK4)をドラッグします。 次に、メニューバーで「挿入」→「グラフ」とクリックすると、グラフウィザードが開きます。 「グラフの種類」は「縦棒」、「形式」は「集合縦棒グラフ」をクリックし、「次へ」をクリックします。

ヒストグラムの作成(1)
図 2.14  ヒストグラムの作成(1)

「系列」が「列」になっていることを確認して、「次へ」をクリックします。

ヒストグラムの作成(2)
図 2.15  ヒストグラムの作成(2)

「グラフタイトル」に「学年ごとの人数」と入力し、「X/項目軸」に「学年」と入力し、「Y/数値軸」に「人数」と入力し、「次へ」をクリックします。

ヒストグラムの作成(3)
図 2.16  ヒストグラムの作成(3)

「グラフの場所」が「オブジェクト」になっていることを確認して、「完了」をクリックします。

ヒストグラムの作成(4)
図 2.17  ヒストグラムの作成(4)

これで、ヒストグラムが完成しました。

ヒストグラムの作成(5)
図 2.18  ヒストグラムの作成(5)

身長のヒストグラムも、同じように作成できます。 ただし、身長は連続型データなので、棒を横にくっつける必要があります。

棒を横にくっつけるには、グラフの棒を右クリックして「データ系列の書式設定」をクリックし、「色と線」タブを開き、「線」の「色」を「自動」にします。

ヒストグラムの作成(6)
図 2.19  ヒストグラムの作成(6)

同じウィンドウで「オプション」タブを開き、「棒の間隔」を0にします。

ヒストグラムの作成(7)
図 2.20  ヒストグラムの作成(7)

これで、棒が横にくっつきます。

ヒストグラムの作成(8)
図 2.21  ヒストグラムの作成(8)

2.6 演習2

ある高校で、3年1組から3年5組までの希望者100人に対して、英語と数学の試験を実施したとします。 クラス、英語の得点、数学の得点をまとめたExcelファイルをダウンロードしてください。

comp2j_02_report.xls

表 2.7  英語と数学の得点
生徒 クラス 英語 数学
1 3 73 68
2 4 68 74
3 1 82 72
... ... ... ...
100 3 86 86

(1)クラスの人数の度数分布表を作成してください。

クラスの人数の度数分布表
図 2.22  クラスの人数の度数分布表

(2)クラスの人数のヒストグラムを作成してください。

クラスの人数のヒストグラム
図 2.23  クラスの人数のヒストグラム

(3)数学の得点の度数分布表を作成してください。 階級幅は10点きざみとします。

数学の得点の度数分布表
図 2.24  数学の得点の度数分布表

(4)数学の得点のヒストグラムを作成してください。 階級幅は10点きざみとします。

数学の得点のヒストグラム
図 2.25  数学の得点のヒストグラム

2.7 レポート課題

今日の演習2の答案(Excelファイル)をメールで提出してください。 差出人は学内のメール・アドレス(b08a001@cis.twcu.ac.jpなど)とし、宛先はkonishi@cis.twcu.ac.jpとします。 メールの本文には、学生番号、氏名、科目名、授業日(10月5日)を明記してください。


2.8 参考文献


[小西ホームページ]   [目次・索引]   [前の授業]   [次の授業]

2011年10月8日更新
小西 善二郎 <konishi@cis.twcu.ac.jp>
Copyright (C) 2011 Zenjiro Konishi. All rights reserved.