[小西ホームページ]   [目次・索引]   [前の授業]   [次の授業]

情報処理技法(統計解析)第7回

目次
索引

確率分布

確率分布とは

今日は、記述統計学と統計的推測の中間的な話をします。 特に、確率に関する専門用語を定義します。

サイコロの目のように、確率的に決まる変数を、 確率変数 random variable )と呼びます。 そして、確率変数の値とその確率との対応を、その確率変数の 確率分布 probability distribution )と呼びます。

以下は、サイコロを1つ振ったときの目の確率分布(表とグラフ)です。

サイコロの目の確率分布(1)
1 2 3 4 5 6
確率 1/6 1/6 1/6 1/6 1/6 1/6
サイコロの目の確率分布(1)
サイコロの目の確率分布(1)

サイコロを2つ振ったときの、出た目の和の確率分布は次の通りです。

サイコロの目の確率分布(2)
目の和 2 3 4 5 6 7 8 9 10 11 12
確率 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
サイコロの目の確率分布(2)
サイコロの目の確率分布(2)

確率密度関数

サイコロの目のように、離散型データなら確率分布の表は作成できますが、連続型データの場合、確率分布の表は作成できません。 例えば、身長は連続型データですが、身長が160.000000...cmピッタリとなる確率は0でしょう。 そこで、確率密度関数というものを考えます。

確率密度関数 probability density function )とは、そのグラフの a から b までの面積が、 x a x b である確率と一致するような関数です。 確率密度関数 f ( x )の x における値を、 x 確率密度 probability density )と呼びます。

確率分布の確率密度関数
確率分布の確率密度関数

正規分布

正規分布とは

正規分布 normal distribution )は、連続型データでは、最も代表的な確率分布です。 正規分布の確率密度関数は

正規分布の確率密度関数

と定義されます。 ここで、μは平均、σは標準偏差で、exp( x )= e x です。 図で表すと以下のようになります。

正規分布の概形
正規分布の概形

特に、平均μ=0, 標準偏差σ=1である正規分布は、 標準正規分布 standard normal distribution )と呼ばれます。 この確率密度関数は

標準正規分布の確率密度関数

となり、図は以下の通りです。

標準正規分布の概形
標準正規分布の概形

正規分布の特徴

正規分布には以下の特徴があります。

平均をμ、標準偏差をσとして、変数の値がμ−σ以上μ+σ以下の範囲(1シグマ範囲といいます)に入る確率は、0.6827(約68%)です。

正規分布の1シグマ範囲
正規分布の1シグマ範囲

μ−2σ以上μ+2σ以下の範囲(2シグマ範囲といいます)に入る確率は、0.9545(約95%)です。

正規分布の2シグマ範囲
正規分布の2シグマ範囲

μ−3σ以上μ+3σ以下の範囲(3シグマ範囲といいます)に入る確率は、0.9973(約100%)です。

正規分布の3シグマ範囲
正規分布の3シグマ範囲

次に、この逆を考えます。 つまり、切りのよい範囲に入る確率を考えるのではなく、切りのよい確率になるような範囲を考えます。

左右対称で、入る確率が95%(入らない確率が5%)となるような変数の値の範囲は、μ−1.960σ以上μ+1.960σ以下です。 この1.960を、両側5%点と言います。

正規分布の両側5%点
正規分布の両側5%点

左を区切らないで、入る確率が95%(入らない確率が5%)となるような変数の値の範囲は、μ+1.645σ以下です。 この1.645を、上側5%点と言います。

正規分布の上側5%点
正規分布の上側5%点

右を区切らないで、入る確率が95%(入らない確率が5%)となるような変数の値の範囲は、μ−1.645σ以上です。 この1.645を、下側5%点と言います。

正規分布の下側5%点
正規分布の下側5%点

両側α%点、上側α%点、下側α%点(まとめてパーセント点と呼びます)については、次の関係があります。

したがって、確率分布が左右対称ならば、上側のパーセント点が分かれば、残りのパーセント点も計算できます。


Excelによる正規分布

Excelには正規分布に関する関数がいくつか用意されています。 最初に利用するのはNORMDIST関数です。 (正規分布は英語でnormal distributionです。) 変数の値 x , 平均μ, 標準偏差σに対して、

NORMDIST( x ,μ,σ,TRUE)

で、変数の値が x 以下になる確率が計算されます。

例として、2シグマ範囲に入る確率が約95%であることを確認します。 平均μ=0, 標準偏差σ=1とすると、2シグマ範囲は−2以上2以下となります。 変数の値が−2以上2以下になる確率は、直接は求められないので、まず2以下になる確率を求めます。

では、Excelを起動してください。 すると、新しいウィンドウが開くので、セルA1に

=NORMDIST(2,0,1,TRUE)

と入力すると、(四捨五入して)0.977と表示されます。

正規分布の確率
正規分布の確率

変数の値が2以下になる確率が0.977なので、2より大きくなる確率は1−0.977=0.023です。 標準正規分布は0を中心にして左右対称なので、−2より小さくなる確率も0.023です。 したがって、−2以上2以下になる確率は、1−0.023−0.023=0.954となり、2シグマ範囲に入る確率が約95%であることが確かめられます。

次に利用するのはNORMINV関数です。 (INVは逆関数inverseから来ています。) 確率 p , 平均μ, 標準偏差σに対して、

NORMINV( p ,μ,σ)

で、変数の値が x 以下になる確率が p である x が計算されます。

例として、両側5%点が1.960であることを確認します。 両側5%点=上側2.5%点なので、変数の値が x 以下になる確率が97.5%である x を求めます。 x =平均+上側2.5%点×標準偏差、ですが、平均を0, 標準偏差を1とすると、 x =上側2.5%点=両側5%点、となります。

ExcelのウィンドウのセルA1に

=NORMINV(0.975,0,1)

と入力すると、(四捨五入して)1.960と表示されます。

正規分布の変数の値
正規分布の変数の値

正規分布のグラフを作成するときも、NORMDIST関数を用います。 変数の値 x , 平均μ, 標準偏差σに対して、

NORMDIST( x ,μ,σ,FALSE)

で、 x の確率密度が計算されます。

それでは、正規分布のグラフを作成しましょう。 厚生労働省の国民健康栄養調査(平成20年)によると、20歳以上の日本人の身長と体重は以下の通りです。 ここでは、身長と体重の確率分布が正規分布であると仮定します。 次のExcelファイルをダウンロードしてください。

stat_07_data.xlsx
20歳以上の日本人の身長(cm)
性別 男性 女性
平均 166.6 153.4
標準偏差 7.2 7.1
20歳以上の日本人の体重(kg)
性別 男性 女性
平均 65.3 52.7
標準偏差 10.7 8.8

まず、セルA6から右に「身長」、「男性」、「女性」と入力します。 セルA7から下に連続データ(140〜180)を入力するために、「140」と入力し、フィル・ハンドルをセルA47までドラッグします。

正規分布の表の作成(1)
正規分布の表の作成(1)

「オートフィルオプション」ボタンをクリックして、「連続データ」をクリックすれば、ドラッグした範囲が連続データになります。

正規分布の表の作成(2)
正規分布の表の作成(2)

セルB7に数式=NORMDIST($A7,B$3,B$4,FALSE)を入力し、セルの書式設定でパーセンテージ(小数点以下2桁)にし、セルC47までコピー・アンド・ペーストします。 これで、確率密度が計算できます。

正規分布の表の作成(3)
正規分布の表の作成(3)
正規分布の表(1)
正規分布の表(1)

続いて、この確率密度を折れ線グラフにします。 A列がデータのように見えるので、セルB6からC47までをドラッグし、リボンの「グラフ」(Windowsの場合は「挿入」)をクリックし、「グラフの挿入」項目で「折れ線」→「折れ線」とクリックします。 すると、折れ線グラフが表示されます。

正規分布のグラフの作成(1)
正規分布のグラフの作成(1)

リボンの「グラフ レイアウト」をクリックし、「グラフタイトル」項目の「グラフの上」をクリックし、グラフ・タイトルを「20歳以上の日本人の身長」に変更します。 「ラベル」項目で「軸ラベル」→「横軸ラベル」→「軸ラベルを軸の下に配置」とクリックし、軸ラベルを「身長(cm)」に変更します。 「ラベル」項目で「軸ラベル」→「縦軸ラベル」→「軸ラベルを垂直に配置」とクリックし、軸ラベルを「確率密度」に変更します。

正規分布のグラフの作成(2)
正規分布のグラフの作成(2)

プロット・エリアを右クリックし、「グラフ データの選択」(Windowsの場合は「データの選択」)をクリックして、「グラフデータの選択」ウィンドウを開きます。 (Windowsの場合は「データソースの選択」ウィンドウが開くので、「横(項目)軸ラベル」の「編集」ボタンをクリックして、「軸ラベル」ウィンドウを開きます。)

正規分布のグラフの作成(3)
正規分布のグラフの作成(3)

「X/項目軸のラベル」入力欄(Windowsの場合は「軸ラベルの範囲」入力欄)の右側のボタンをクリックし、身長の範囲(セルA7からA47まで)をドラッグし、同じボタンをクリックし、「OK」ボタンをクリックします。

正規分布のグラフの作成(4)
正規分布のグラフの作成(4)

(Windowsの場合は、再び「データソースの選択」ウィンドウが開くので、「OK」ボタンをクリックします。) すると、横軸のラベルが身長になります。

正規分布のグラフ(1)
正規分布のグラフ(1)

これを見ると、女性は男性より身長が低いものの、散らばりは同じくらいであることが分かります。

体重についても、同じように、確率密度を計算して表にまとめ、グラフにしてみます。 体重の範囲は、35kgから85kgまでとします。

正規分布の表(2)
正規分布の表(2)
正規分布のグラフ(2)
正規分布のグラフ(2)

これを見ると、女性は男性より体重が軽く、散らばりも小さいことが分かります。


Rコマンダーによる正規分布

「Rコマンダー」なら、ExcelのNORMDIST関数やNORMINV関数が、マウスの操作で計算できます。

まず、「Rコマンダー」を起動します。 ExcelのNORMDIST関数の場合は、「Rコマンダー」ウィンドウで、「分布」→「連続分布」→「正規分布」→「正規分布の確率」とクリックします。 すると、「正規確率」ウィンドウが開くので、平均が0, 標準偏差が1で、変数の値が2以下になる確率を求めたければ、それぞれの値を入力し、「下側確率」ラジオ・ボタンをオンにして、「OK」ボタンをクリックします。

正規分布の確率の計算
正規分布の確率の計算

すると、「出力ウィンドウ」に確率が表示されます。

正規分布の確率
正規分布の確率

ExcelのNORMINV関数の場合は、「Rコマンダー」ウィンドウで、「分布」→「連続分布」→「正規分布」→「正規分布の分位点」とクリックします。 すると、「正規分布の分位点」ウィンドウが開くので、平均が0, 標準偏差が1で、変数の値が x 以下になる確率が0.975である x を求めたければ、それぞれの値を入力し、「下側確率」ラジオ・ボタンをオンにして、「OK」ボタンをクリックします。

正規分布の変数の値の計算
正規分布のグラフ(2)

すると、「出力ウィンドウ」に変数の値が表示されます。

正規分布の変数の値
正規分布の変数の値

「Rコマンダー」なら、正規分布のグラフも、マウスの操作で作成できます。

「Rコマンダー」ウィンドウで、「分布」→「連続分布」→「正規分布」→「正規分布を描く」とクリックします。 すると、「正規分布」ウィンドウが開くので、平均と標準偏差を入力し、「密度関数をプロット」ラジオ・ボタンをオンにして、「OK」ボタンをクリックします。

正規分布のグラフの作成
正規分布のグラフの作成

すると、正規分布のグラフが表示されます。

正規分布のグラフ
正規分布のグラフ

演習7

厚生労働省の国民健康栄養調査(平成20年)によると、日本人女性(11歳、14歳、17歳)の身長と体重は以下の通りです。 このデータをまとめたExcelファイルをダウンロードしてください。

stat_07_report.xlsx
日本人女性の身長(cm)
年齢 11歳 14歳 17歳
平均 148.0 157.0 158.9
標準偏差 6.0 6.1 5.5
日本人女性の体重(kg)
年齢 11歳 14歳 17歳
平均 40.6 48.8 50.7
標準偏差 7.1 6.3 5.3

(1)身長の確率分布を正規分布と仮定して、身長135cmから170cmまでの範囲で確率密度を計算し、表にまとめてください。

正規分布の表(3)
正規分布の表(3)

(2)身長の確率密度を折れ線グラフにしてください。

正規分布のグラフ(3)
正規分布のグラフの例(3)

(3)体重の確率分布を正規分布と仮定して、体重25kgから65kgまでの範囲で確率密度を計算し、表にまとめてください。

正規分布の表(4)
正規分布の表(4)

(4)体重の確率密度を折れ線グラフにしてください。

正規分布のグラフ(4)
正規分布のグラフ(4)

レポート課題

今日の演習7の答案(Excelファイル)をメールで提出してください。 差出人は学内のメール・アドレス(k12x1001@cis.twcu.ac.jpなど)とし、宛先はkonishi@cis.twcu.ac.jpとします。 メールの本文には、学生番号、氏名、科目名、授業日(11月12日)を明記してください。


参考文献


[小西ホームページ]   [目次・索引]   [前の授業]   [次の授業]

2014年11月12日更新
小西 善二郎 <konishi@cis.twcu.ac.jp>
Copyright (C) 2014 Zenjiro Konishi. All rights reserved.