[小西ホームページ]   [目次・索引]   [前の授業]   [次の授業]

コンピュータIIJ(統計データ解析)第7回

目次
7.1 確率分布
7.1.1 確率分布とは
7.1.2 確率密度関数
7.2 正規分布
7.2.1 正規分布とは
7.2.2 正規分布の特徴
7.3 Excelによる正規分布
7.4 Rコマンダーによる正規分布
7.5 演習7
7.6 レポート課題
7.7 参考文献
索引

7.1 確率分布

7.1.1 確率分布とは

今日は、記述統計学と統計的推測の中間的な話をします。 特に、確率に関する専門用語を定義します。

サイコロの目のように、確率的に決まる変数を、 確率変数random variable )と呼びます。 そして、確率変数の値とその確率との対応を、その確率変数の 確率分布probability distribution )と呼びます。

以下は、サイコロを1つ振ったときの目の確率分布(表とグラフ)です。

表 7.1  サイコロの目の確率分布(1)
1 2 3 4 5 6
確率 1/6 1/6 1/6 1/6 1/6 1/6
サイコロの目の確率分布(1)
図 7.1  サイコロの目の確率分布(1)

サイコロを2つ振ったときの、出た目の和の確率分布は次の通りです。

表 7.2  サイコロの目の確率分布(2)
目の和 2 3 4 5 6 7 8 9 10 11 12
確率 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
サイコロの目の確率分布(2)
図 7.2  サイコロの目の確率分布(2)

7.1.2 確率密度関数

サイコロの目のように、離散型データなら確率分布の表は作成できますが、連続型データの場合、確率分布の表は作成できません。 例えば、身長は連続型データですが、身長が160.000000...cmピッタリとなる確率は0でしょう。 そこで、確率密度関数というものを考えます。

確率密度関数probability density function )とは、そのグラフの a から b までの面積が、 xaxb である確率と一致するような関数です。 確率密度関数 f ( x )の x における値を、 x確率密度probability density )と呼びます。

確率分布の確率密度関数
図 7.3  確率分布の確率密度関数

7.2 正規分布

7.2.1 正規分布とは

正規分布normal distribution )は、連続型データでは、最も代表的な確率分布です。 正規分布の確率密度関数は

正規分布の確率密度関数

と定義されます。 ここで、μは平均、σは標準偏差で、exp( x )= e x です。 図で表すと以下のようになります。

正規分布の概形
図 7.4  正規分布の概形

特に、平均μ=0, 標準偏差σ=1である正規分布は、 標準正規分布standard normal distribution )と呼ばれます。 この確率密度関数は

標準正規分布の確率密度関数

となり、図は以下の通りです。

標準正規分布の概形
図 7.5  標準正規分布の概形

7.2.2 正規分布の特徴

正規分布には以下の特徴があります。

変数の値が、平均μのプラスマイナス標準偏差σの範囲(1シグマ範囲といいます)に入る確率は、0.6827(約68%)です。

正規分布の1シグマ範囲
図 7.6  正規分布の1シグマ範囲

μ±2σの範囲(2シグマ範囲といいます)に入る確率は、0.9545(約95%)です。

正規分布の2シグマ範囲
図 7.7  正規分布の2シグマ範囲

μ±3σの範囲(3シグマ範囲といいます)に入る確率は、0.9973(約100%)です。

正規分布の3シグマ範囲
図 7.8  正規分布の3シグマ範囲

次に、この逆を考えます。 つまり、切りのよい範囲に入る確率を考えるのではなく、切りのよい確率になるような範囲を考えます。

左右対称で、入る確率が95%(入らない確率が5%)となるような変数の値の範囲は、μ−1.960σ以上μ+1.960σ以下です。 この1.960を、両側5%点と言います。

正規分布の両側5%点
図 7.9  正規分布の両側5%点

変数の値が x 以下となる確率が95%(そうでない確率が5%)となるような範囲は、μ+1.645σ以下です。 この1.645を、上側5%点と言います。 確率分布が左右対称ならば、上側α%点=両側2α%点です。

正規分布の上側5%点
図 7.10  正規分布の上側5%点

変数の値が x 以上となる確率が95%(そうでない確率が5%)となるような範囲は、μ−1.645σ以上です。 この1.645を、下側5%点と言います。 確率分布が左右対称ならば、下側α%点=上側α%点です。

正規分布の下側5%点
図 7.11  正規分布の下側5%点

7.3 Excelによる正規分布

Excelには正規分布に関する関数がいくつか用意されています。 最初に利用するのはNORMDIST関数です。 (正規分布は英語でnormal distributionです。) 変数の値 x , 平均μ, 標準偏差σに対して、

NORMDIST( x ,μ,σ,TRUE)

で、変数の値が x 以下になる確率が計算されます。

例として、2シグマ範囲に入る確率が約95%であることを確認します。 平均μ=0, 標準偏差σ=1とすると、2シグマ範囲μ±2σは−2以上2以下となります。 したがって、変数の値が2以下になる確率 p を求めれば、分布が左右対称なので、−2以上2以下になる確率は2 p −1です。

では、Excelを起動してください。 すると、新しいウィンドウが開くので、セルA1に

=NORMDIST(2,0,1,TRUE)

と入力すると、0.977...と表示されます。

正規分布の確率
図 7.12  正規分布の確率

2×0.977−1=0.954なので、2シグマ範囲に入る確率が約95%であることが確かめられます。

次に利用するのはNORMINV関数です。 (INVは逆関数inverseから来ています。) 確率 p , 平均μ, 標準偏差σに対して、

NORMINV( p ,μ,σ)

で、変数の値が x 以下になる確率が p である x が計算されます。

例として、両側5%点が1.960であることを確認します。 両側5%点は、上側2.5%点なので、変数の値が x 以下になる確率が97.5%である x を求めます。

ExcelのウィンドウのセルA1に

=NORMINV(0.975,0,1)

と入力すると、(四捨五入して)1.960と表示されます。

正規分布の変数の値
図 7.13  正規分布の変数の値

正規分布のグラフを作成するときも、NORMDIST関数を用います。 変数の値 x , 平均μ, 標準偏差σに対して、

NORMDIST( x ,μ,σ,FALSE)

で、 x の確率密度が計算されます。

それでは、正規分布のグラフを作成しましょう。 厚生労働省の国民健康栄養調査(平成20年)によると、20歳以上の日本人の身長と体重は以下の通りです。 ここでは、身長と体重の確率分布が正規分布であると仮定します。 次のExcelファイルをダウンロードしてください。

comp2j_07_data.xlsx
表 7.3  20歳以上の日本人の身長(cm)
性別 男性 女性
平均 166.6 153.4
標準偏差 7.2 7.1
表 7.4  20歳以上の日本人の体重(kg)
性別 男性 女性
平均 65.3 52.7
標準偏差 10.7 8.8

まず、セルA6から右に「身長」、「男性」、「女性」と入力します。 セルA7から下に連続データ(140〜180)を入力するために、「140」と入力し、フィル・ハンドルをセルA47までドラッグします。

正規分布の表の作成(1)
図 7.14  正規分布の表の作成(1)

「オートフィルオプション」ボタンをクリックして、「連続データ」をクリックすれば、ドラッグした範囲が連続データになります。

正規分布の表の作成(2)
図 7.15  正規分布の表の作成(2)

セルB7に数式=NORMDIST($A7,B$3,B$4,FALSE)を入力し、セルの書式設定でパーセンテージ(小数点以下2桁)にし、セルC47までコピー・アンド・ペーストします。 これで、確率密度が計算できます。

正規分布の表の作成(3)
図 7.16  正規分布の表の作成(3)
正規分布の表(1)
図 7.17  正規分布の表(1)

続いて、この確率密度を折れ線グラフにします。 A列がデータのように見えるので、セルB6からC47までをドラッグし、リボンの「グラフ」(Windowsの場合は「挿入」)をクリックし、「グラフの挿入」項目で「折れ線」→「折れ線」とクリックします。 すると、折れ線グラフが表示されます。

正規分布のグラフの作成(1)
図 7.18  正規分布のグラフの作成(1)

リボンの「グラフ レイアウト」をクリックし、「グラフタイトル」項目の「グラフの上」をクリックし、グラフ・タイトルを「20歳以上の日本人の身長」に変更します。 「ラベル」項目で「軸ラベル」→「横軸ラベル」→「軸ラベルを軸の下に配置」とクリックし、軸ラベルを「身長(cm)」に変更します。 「ラベル」項目で「軸ラベル」→「縦軸ラベル」→「軸ラベルを垂直に配置」とクリックし、軸ラベルを「確率密度」に変更します。

正規分布のグラフの作成(2)
図 7.19  正規分布のグラフの作成(2)

プロット・エリアを右クリックし、「グラフ データの選択」(Windowsの場合は「データの選択」)をクリックして、「グラフデータの選択」ウィンドウを開きます。 (Windowsの場合は「データソースの選択」ウィンドウが開くので、「横(項目)軸ラベル」の「編集」ボタンをクリックして、「軸ラベル」ウィンドウを開きます。)

正規分布のグラフの作成(3)
図 7.20  正規分布のグラフの作成(3)

「X/項目軸のラベル」入力欄(Windowsの場合は「軸ラベルの範囲」入力欄)の右側のボタンをクリックし、身長の範囲(セルA7からA47まで)をドラッグし、同じボタンをクリックし、「OK」ボタンをクリックします。

正規分布のグラフの作成(4)
図 7.21  正規分布のグラフの作成(4)

(Windowsの場合は、再び「データソースの選択」ウィンドウが開くので、「OK」ボタンをクリックします。) すると、横軸のラベルが身長になります。

正規分布のグラフ(1)
図 7.22  正規分布のグラフ(1)

これを見ると、男性より女性のほうが身長が小さいものの、散らばりは同じくらいであることが分かります。

体重についても、同じように、確率密度を計算して表にまとめ、グラフにしてみます。 体重の範囲は、35kgから85kgまでとします。

正規分布の表(2)
図 7.23  正規分布の表(2)
正規分布のグラフ(2)
図 7.24  正規分布のグラフ(2)

これを見ると、男性より女性のほうが体重が軽く、散らばりも小さいことが分かります。


7.4 Rコマンダーによる正規分布

「Rコマンダー」なら、ExcelのNORMDIST関数やNORMINV関数が、マウスの操作で計算できます。

まず、「Rコマンダー」を起動します。 ExcelのNORMDIST関数の場合は、「Rコマンダー」ウィンドウで、「分布」→「連続分布」→「正規分布」→「正規分布の確率」とクリックします。 すると、「正規確率」ウィンドウが開くので、平均が0, 標準偏差が1で、変数の値が2以下になる確率を求めたければ、それぞれの値を入力し、「下側確率」ラジオ・ボタンをオンにして、「OK」ボタンをクリックします。

正規分布の確率の計算
図 7.25  正規分布の確率の計算

すると、「出力ウィンドウ」に確率が表示されます。

正規分布の確率
図 7.26  正規分布の確率

ExcelのNORMINV関数の場合は、「Rコマンダー」ウィンドウで、「分布」→「連続分布」→「正規分布」→「正規分布の分位点」とクリックします。 すると、「正規分布の分位点」ウィンドウが開くので、平均が0, 標準偏差が1で、変数の値が x 以下になる確率が0.975である x を求めたければ、それぞれの値を入力し、「下側確率」ラジオ・ボタンをオンにして、「OK」ボタンをクリックします。

正規分布の変数の値の計算
図 7.27  正規分布のグラフ(2)

すると、「出力ウィンドウ」に変数の値が表示されます。

正規分布の変数の値
図 7.28  正規分布の変数の値

「Rコマンダー」なら、正規分布のグラフも、マウスの操作で作成できます。

「Rコマンダー」ウィンドウで、「分布」→「連続分布」→「正規分布」→「正規分布を描く」とクリックします。 すると、「正規分布」ウィンドウが開くので、平均と標準偏差を入力し、「密度関数をプロット」ラジオ・ボタンをオンにして、「OK」ボタンをクリックします。

正規分布のグラフの作成
図 7.29  正規分布のグラフの作成

すると、正規分布のグラフが表示されます。

正規分布のグラフ
図 7.30  正規分布のグラフ

7.5 演習7

厚生労働省の国民健康栄養調査(平成20年)によると、日本人女性(11歳、14歳、17歳)の身長と体重は以下の通りです。 このデータをまとめたExcelファイルをダウンロードしてください。

comp2j_07_report.xlsx
表 7.5  日本人女性の身長(cm)
年齢 11歳 14歳 17歳
平均 148.0 157.0 158.9
標準偏差 6.0 6.1 5.5
表 7.6  日本人女性の体重(kg)
年齢 11歳 14歳 17歳
平均 40.6 48.8 50.7
標準偏差 7.1 6.3 5.3

(1)身長の確率分布を正規分布と仮定して、身長135cmから170cmまでの範囲で確率密度を計算し、表にまとめてください。

正規分布の表(3)
図 7.31  正規分布の表(3)

(2)身長の確率密度を折れ線グラフにしてください。

正規分布のグラフ(3)
図 7.32  正規分布のグラフの例(3)

(3)体重の確率分布を正規分布と仮定して、体重25kgから65kgまでの範囲で確率密度を計算し、表にまとめてください。

正規分布の表(4)
図 7.33  正規分布の表(4)

(4)体重の確率密度を折れ線グラフにしてください。

正規分布のグラフ(4)
図 7.34  正規分布のグラフ(4)

7.6 レポート課題

今日の演習7の答案(Excelファイル)をメールで提出してください。 差出人は学内のメール・アドレス(k12x1001@cis.twcu.ac.jpなど)とし、宛先はkonishi@cis.twcu.ac.jpとします。 メールの本文には、学生番号、氏名、科目名、授業日(11月7日)を明記してください。


7.7 参考文献


[小西ホームページ]   [目次・索引]   [前の授業]   [次の授業]

2012年11月7日更新
小西 善二郎 <konishi@cis.twcu.ac.jp>
Copyright (C) 2012 Zenjiro Konishi. All rights reserved.