[小西ホームページ]   [目次・索引]   [前の授業]   [次の授業]

コンピュータIIJ(統計データ解析)第7回

目次
7.1 確率分布
7.1.1 確率分布表
7.1.2 確率密度関数
7.2 正規分布
7.2.1 正規分布とは
7.2.2 正規分布の特徴
7.3 正規分布の表の作成
7.4 正規分布のグラフの作成
7.5 演習7
7.6 レポート課題
7.7 参考文献
索引

7.1 確率分布

7.1.1 確率分布表

今日は、記述統計学と統計的推測の中間的な話をします。 特に、確率に関する専門用語を定義します。

サイコロの目のように、確率的に決まる変数を 確率変数 と呼びます。 そして、確率変数の値とその確率との対応を、その確率変数の 確率分布 と呼びます。

以下は、サイコロを1つ振ったときの目の確率分布(表とグラフ)です。

表 7.1  サイコロの目の確率分布表(1)
1 2 3 4 5 6
確率 1/6 1/6 1/6 1/6 1/6 1/6
サイコロの目の確率分布(1)
図 7.1  サイコロの目の確率分布(1)

サイコロを2つ振ったときの、出た目の和の確率分布は次の通りです。

表 7.2  サイコロの目の確率分布表(2)
目の和 2 3 4 5 6 7 8 9 10 11 12
確率 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
サイコロの目の確率分布(2)
図 7.2  サイコロの目の確率分布(2)

7.1.2 確率密度関数

サイコロの目のように、離散型データなら確率分布の表は作成できますが、連続型データの場合、確率分布の表は作成できません。 例えば、身長は連続型データですが、身長が160.000000...cmピッタリとなる確率は0でしょう。 そこで、確率密度関数というものを考えます。

確率密度関数 とは、そのグラフの a から b までの面積が、x が a ≦ x ≦ b である確率と一致するような関数です。 確率密度関数 f(x) の x における値を、x の 確率密度 と呼びます。

確率分布の確率密度関数
図 7.3  確率分布の確率密度関数

7.2 正規分布

7.2.1 正規分布とは

正規分布 は、連続型データでは、最も代表的な確率分布です。 正規分布の確率密度関数は

正規分布の確率密度関数

と定義されます。 ここで、μは平均、σは標準偏差です。 図で表すと以下のようになります。

正規分布の概形
図 7.4  正規分布の概形

7.2.2 正規分布の特徴

正規分布には以下の特徴があります。

平均μのプラスマイナス標準偏差σの範囲(1シグマ範囲といいます)の面積は、約68%です。

正規分布の1シグマ範囲
図 7.5  正規分布の1シグマ範囲

μ±2σの範囲(2シグマ範囲といいます)の面積は、約95%です。

正規分布の2シグマ範囲
図 7.6  正規分布の2シグマ範囲

μ±3σの範囲(3シグマ範囲といいます)の面積は、約99.73%です。

正規分布の3シグマ範囲
図 7.7  正規分布の3シグマ範囲

7.3 正規分布の表の作成

Excelには正規分布に関する関数がいくつか用意されています。 今日利用するのはNORMDIST関数です。 (正規分布は英語でnormal distributionです。)

NORMDIST関数には2種類の形式があります。 変数x, 平均μ, 標準偏差σに対して、NORMDIST(x,μ,σ,TRUE)はx以下の面積を計算します。

NORMDIST関数(1)
図 7.8  NORMDIST関数(1)

NORMDIST(x,μ,σ,FALSE)はxの確率密度を計算します。

NORMDIST関数(2)
図 7.9  NORMDIST関数(2)

それでは、Excelを利用して、正規分布の図を作成しましょう。 厚生労働省の国民健康栄養調査(平成20年)によると、20歳以上の日本人の身長と体重は以下の通りです。 ここでは、身長と体重の確率分布が正規分布であると仮定します。 次のExcelファイルをダウンロードしてください。

comp2j_07_data.xls
表 7.3  20歳以上の日本人の身長(cm)
性別 男性 女性
平均 166.6 153.4
標準偏差 7.2 7.1
表 7.4  20歳以上の日本人の体重(kg)
性別 男性 女性
平均 65.3 52.7
標準偏差 10.7 8.8

まず、セルA6から右に「身長」、「男性」、「女性」と入力します。 セルA7から下に連続データ(140〜180)を入力するために、「140」と入力し、フィル・ハンドルをセルA47までドラッグします。

正規分布の表の作成(1)
図 7.10  正規分布の表の作成(1)

「オートフィルオプション」ボタンをクリックして、「連続データ」をクリックすれば、ドラッグした範囲が連続データになります。

正規分布の表の作成(2)
図 7.11  正規分布の表の作成(2)

セルB7に数式=NORMDIST($A7,B$3,B$4,FALSE)を入力し、セルの書式設定でパーセンテージ(小数点以下2桁)にし、セルC47までコピー・アンド・ペーストします。 これで、確率密度が計算できます。

正規分布の表の作成(3)
図 7.12  正規分布の表の作成(3)
正規分布の表の例(1)
図 7.13  正規分布の表の例(1)

7.4 正規分布のグラフの作成

続いて、この確率密度を折れ線グラフにします。 A列がデータのように見えるので、セルB6からC47までをドラッグして、メニューバーで「挿入」→「グラフ」とクリックします。

グラフウィザードが開いたら、「グラフの種類」の「折れ線」、「形式」の「折れ線グラフ」をクリックして、「次へ」ボタンをクリックします。

正規分布のグラフの作成(1)
図 7.14  正規分布のグラフの作成(1)

「系列」が「列」であることを確認します。

正規分布のグラフの作成(2)
図 7.15  正規分布のグラフの作成(2)

同じウィンドウで「系列」タブをクリックし、「項目軸ラベルに使用」に身長の範囲(セルA7からA47まで)を入力し、「次へ」ボタンをクリックします。

正規分布のグラフの作成(3)
図 7.16  正規分布のグラフの作成(3)

「グラフタイトル」に「20歳以上の日本人の身長」、「X/項目軸」に「身長(cm)」、「Y/数値軸」に「割合」と入力し、「次へ」ボタンをクリックします。

正規分布のグラフの作成(4)
図 7.17  正規分布のグラフの作成(4)

「グラフの場所」が「オブジェクト」であることを確認して、「完了」ボタンをクリックします。

正規分布のグラフの作成(5)
図 7.18  正規分布のグラフの作成(5)

これで、確率密度の折れ線グラフが完成します。

正規分布のグラフの例(1)
図 7.19  正規分布のグラフの例(1)

これを見ると、男性より女性のほうが身長が小さいものの、散らばりは同じくらいであることが分かります。

体重についても、同じように、確率密度を計算して表にまとめ、グラフにしてみます。 体重の範囲は、35kgから85kgまでとします。

正規分布の表の例(2)
図 7.20  正規分布の表の例(2)
正規分布のグラフの例(2)
図 7.21  正規分布のグラフの例(2)

これを見ると、男性より女性のほうが体重が軽く、散らばりも小さいことが分かります。


7.5 演習7

厚生労働省の国民健康栄養調査(平成20年)によると、日本人女性(11歳、14歳、17歳)の身長と体重は以下の通りです。 このデータをまとめたExcelファイルをダウンロードしてください。

comp2j_07_report.xls
表 7.5  日本人女性の身長(cm)
年齢 11歳 14歳 17歳
平均 148.0 157.0 158.9
標準偏差 6.0 6.1 5.5
表 7.6  日本人女性の体重(kg)
年齢 11歳 14歳 17歳
平均 40.6 48.8 50.7
標準偏差 7.1 6.3 5.3

(1)身長の確率分布を正規分布と仮定して、身長135cmから170cmまでの範囲で確率密度を計算し、表にまとめてください。

正規分布の表の例(3)
図 7.22  正規分布の表の例(3)

(2)身長の確率密度を折れ線グラフにしてください。

正規分布のグラフの例(3)
図 7.23  正規分布のグラフの例(3)

(3)体重の確率分布を正規分布と仮定して、体重25kgから65kgまでの範囲で確率密度を計算し、表にまとめてください。

正規分布の表の例(4)
図 7.24  正規分布の表の例(4)

(4)体重の確率密度を折れ線グラフにしてください。

正規分布のグラフの例(4)
図 7.25  正規分布のグラフの例(4)

7.6 レポート課題

今日の演習7の答案(Excelファイル)をメールで提出してください。 差出人は学内のメール・アドレス(b08a001@cis.twcu.ac.jpなど)とし、宛先はkonishi@cis.twcu.ac.jpとします。 メールの本文には、学生番号、氏名、科目名、授業日(11月9日)を明記してください。


7.7 参考文献


[小西ホームページ]   [目次・索引]   [前の授業]   [次の授業]

2011年11月9日更新
小西 善二郎 <konishi@cis.twcu.ac.jp>
Copyright (C) 2011 Zenjiro Konishi. All rights reserved.