今日は、記述統計学と統計的推測の中間的な話をします。 特に、確率に関する専門用語を定義します。
サイコロの目のように、確率的に決まる変数を 確率変数 と呼びます。 そして、確率変数の値とその確率との対応を、その確率変数の 確率分布 と呼びます。
以下は、サイコロを1つ振ったときの目の確率分布(表とグラフ)です。
目 | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
確率 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 |
サイコロを2つ振ったときの、出た目の和の確率分布は次の通りです。
目の和 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
---|---|---|---|---|---|---|---|---|---|---|---|
確率 | 1/36 | 2/36 | 3/36 | 4/36 | 5/36 | 6/36 | 5/36 | 4/36 | 3/36 | 2/36 | 1/36 |
サイコロの目のように、離散型データなら確率分布の表は作成できますが、連続型データの場合、確率分布の表は作成できません。 例えば、身長は連続型データですが、身長が160.000000...cmピッタリとなる確率は0でしょう。 そこで、確率密度関数というものを考えます。
確率密度関数 とは、そのグラフの a から b までの面積が、x が a ≦ x ≦ b である確率と一致するような関数です。 確率密度関数 f(x) の x における値を、x の 確率密度 と呼びます。
正規分布 は、連続型データでは、最も代表的な確率分布です。 正規分布の確率密度関数は
と定義されます。 ここで、μは平均、σは標準偏差です。 図で表すと以下のようになります。
正規分布には以下の特徴があります。
平均μのプラスマイナス標準偏差σの範囲(1シグマ範囲といいます)の面積は、約68%です。
μ±2σの範囲(2シグマ範囲といいます)の面積は、約95%です。
μ±3σの範囲(3シグマ範囲といいます)の面積は、約99.73%です。
Excelには正規分布に関する関数がいくつか用意されています。 今日利用するのはNORMDIST関数です。 (正規分布は英語でnormal distributionです。)
NORMDIST関数には2種類の形式があります。 変数x, 平均μ, 標準偏差σに対して、NORMDIST(x,μ,σ,TRUE)はx以下の面積を計算します。
NORMDIST(x,μ,σ,FALSE)はxの確率密度を計算します。
それでは、Excelを利用して、正規分布の図を作成しましょう。 厚生労働省の国民健康栄養調査(平成20年)によると、20歳以上の日本人の身長と体重は以下の通りです。 ここでは、身長と体重の確率分布が正規分布であると仮定します。 次のExcelファイルをダウンロードしてください。
性別 | 男性 | 女性 |
---|---|---|
平均 | 166.6 | 153.4 |
標準偏差 | 7.2 | 7.1 |
性別 | 男性 | 女性 |
---|---|---|
平均 | 65.3 | 52.7 |
標準偏差 | 10.7 | 8.8 |
まず、セルA6から右に「身長」、「男性」、「女性」と入力します。 セルA7から下に連続データ(140〜180)を入力するために、「140」と入力し、フィル・ハンドルをセルA47までドラッグします。
「オートフィルオプション」ボタンをクリックして、「連続データ」をクリックすれば、ドラッグした範囲が連続データになります。
セルB7に数式=NORMDIST($A7,B$3,B$4,FALSE)を入力し、セルの書式設定でパーセンテージ(小数点以下2桁)にし、セルC47までコピー・アンド・ペーストします。 これで、確率密度が計算できます。
続いて、この確率密度を折れ線グラフにします。 A列がデータのように見えるので、セルB6からC47までをドラッグして、メニューバーで「挿入」→「グラフ」とクリックします。
グラフウィザードが開いたら、「グラフの種類」の「折れ線」、「形式」の「折れ線グラフ」をクリックして、「次へ」ボタンをクリックします。
「系列」が「列」であることを確認します。
同じウィンドウで「系列」タブをクリックし、「項目軸ラベルに使用」に身長の範囲(セルA7からA47まで)を入力し、「次へ」ボタンをクリックします。
「グラフタイトル」に「20歳以上の日本人の身長」、「X/項目軸」に「身長(cm)」、「Y/数値軸」に「割合」と入力し、「次へ」ボタンをクリックします。
「グラフの場所」が「オブジェクト」であることを確認して、「完了」ボタンをクリックします。
これで、確率密度の折れ線グラフが完成します。
これを見ると、男性より女性のほうが身長が小さいものの、散らばりは同じくらいであることが分かります。
体重についても、同じように、確率密度を計算して表にまとめ、グラフにしてみます。 体重の範囲は、35kgから85kgまでとします。
これを見ると、男性より女性のほうが体重が軽く、散らばりも小さいことが分かります。
厚生労働省の国民健康栄養調査(平成20年)によると、日本人女性(11歳、14歳、17歳)の身長と体重は以下の通りです。 このデータをまとめたExcelファイルをダウンロードしてください。
年齢 | 11歳 | 14歳 | 17歳 |
---|---|---|---|
平均 | 148.0 | 157.0 | 158.9 |
標準偏差 | 6.0 | 6.1 | 5.5 |
年齢 | 11歳 | 14歳 | 17歳 |
---|---|---|---|
平均 | 40.6 | 48.8 | 50.7 |
標準偏差 | 7.1 | 6.3 | 5.3 |
(1)身長の確率分布を正規分布と仮定して、身長135cmから170cmまでの範囲で確率密度を計算し、表にまとめてください。
(2)身長の確率密度を折れ線グラフにしてください。
(3)体重の確率分布を正規分布と仮定して、体重25kgから65kgまでの範囲で確率密度を計算し、表にまとめてください。
(4)体重の確率密度を折れ線グラフにしてください。
今日の演習7の答案(Excelファイル)をメールで提出してください。 差出人は学内のメール・アドレス(b08a001@cis.twcu.ac.jpなど)とし、宛先はkonishi@cis.twcu.ac.jpとします。 メールの本文には、学生番号、氏名、科目名、授業日(11月9日)を明記してください。