前回の授業では、20歳以上の日本人の身長のデータを利用しました。 実はこのデータ、日本人全員の身長を測定したわけではありません。 測定した人数は、男性3,022人、女性3,734人となっています。
調査の目的となる集団(全部)を 母集団 と呼びます。 そして、実際に調査する要素(一部)を 標本 または サンプル と呼びます。 母集団から標本を選び出すことを、 標本抽出 または サンプリング と呼びます。
前回の授業の場合なら、20歳以上の日本人全員が母集団です。 そして、男性3千人余り、女性3千人余りが標本です。
本当は母集団(20歳以上の日本人全員)を調査したいけれど、それは時間的にも経済的にも不可能なので、代わりに標本(男性3千人余り、女性3千人余り)を調査したということです。
母集団の平均を 母平均 と呼び、母集団の分散を 母分散 と呼びます。 このように、母集団の統計的数量は母何とかと呼びます。 これに対して、標本の平均を 標本平均 と呼び、標本の分散を 標本分散 と呼びます。 このように、標本の統計的数量は標本何とかと呼びます。
記号で表すときは、母平均はμ、母分散はσ 2 で表します。 このように、母集団の場合にはギリシャ文字を使います。 これに対して、標本平均は m , 標本分散は s 2 で表します。 このように、標本の場合にはアルファベットを使います。
なお、分散には分母が n のものと n −1 のものがありますが、標本分散 s 2 の場合は分母が n −1 のものを使います。
統計的推測とは、一部(標本)から全部(母集団)を推測することでした。 母集団について最も推測したいのは、母集団の平均、すなわち母平均でしょう。 今日は、どのようにして標本から母平均を推測するかを考えます。 身長の例で言えば、数千人のデータから全国平均を推測しようということです。
取りあえず、標本の平均、すなわち標本平均 m を計算し、これがだいたい母平均μではないかと考えます。 この考え方自体はそれほど間違っていませんが、多少の 誤差 m −μがあるでしょう。 標本を選び直してみると、標本平均は多少異なる値になるはずで、再び誤差が出るでしょう。 標本を何度も選び直したと仮定し、その都度得られた標本平均を集めると、その分布(確率分布)については、中心極限定理と呼ばれる定理が成り立ちます。
中心極限定理 : 母平均μ、母分散σ 2 (母標準偏差σ)の母集団から大きさ n の標本を抽出すると、標本平均 m の確率分布は、平均μ、標準偏差σ/√ n の正規分布となる。
この定理から、母平均μに対する標本平均 m の誤差 m −μの確率分布は、平均0, 標準偏差σ/√ n の正規分布となります。 この誤差の標準偏差σ/√ n を 標準誤差 と呼び、s.e.(standard error)などと書きます。
標準誤差の式から、次のことが言えます。
標本をたくさん取れば誤差が減るだろうという直感は正しいのですが、標本を100倍にして、やっと誤差が10分の1になるのです。
推定 とは、標本から母集団の統計的数量を推測することです。 今日の目標である、標本から母平均を推測することも、推定の一つです。
母集団の統計的数量をズバリ言い当てることは難しいので、ある程度の幅を持って推定することにします。 これを 区間推定 といいます。 区間推定では確率を用います。 例えば、95%の確率でこの区間に入るということです。
区間推定における確率を 信頼度 と呼び、区間を 信頼区間 と呼びます。
ここで、正規分布の2シグマ範囲を思い出してください。 正規分布では平均のプラスマイナス2×標準偏差、の範囲に約95%のデータが入るということでした。 これと中心極限定理を組み合わせると、母平均μは、約95%の確率で、
[ m −2×s.e., m +2×s.e.]
の範囲に入ることになります。 これを区間推定の言葉で言えば、信頼度95%で母平均μは信頼区間
[ m −2×s.e., m +2×s.e.]
に入るということです。
上記の区間推定には2つの問題があります。
(1)母標準偏差σは分からない。
これについては、母標準偏差σの代わりに標本標準偏差 s を用い、 s /√ n を標準誤差とします。
(2)「約95%」ではなく、正確に95%にすべき。
2シグマ範囲の2を調節し、正確に95%になる x 軸上の点を両側5%点と呼びます。 (この専門用語のみ、区間の外側の確率を表します。) 正規分布の場合、両側5%点は1.96です。
以上より、信頼度95%の信頼区間は
[ m −1.96× s /√ n , m +1.96× s /√ n ]
となります。
それでは、20歳以上の日本人の平均身長を、区間推定しましょう。 男性の場合は、標本の大きさが3022, 標本平均が166.6, 標本標準偏差が7.2なので、
女性の場合は、標本の大きさが3734, 標本平均が153.4, 標本標準偏差が7.1なので、
となります。
標本が小さい場合、標本平均の確率分布は正規分布ではなく、 t 分布と呼ばれる分布になります。 t 分布は、自由度と呼ばれるパラメータを持ちますが、ここでは、標本の大きさ−1, だと思ってください。 t 分布については、次回、詳しく説明します。
t 分布の両側5%点は、1.96より少し大きくなります。 この値はExcelで計算できますので、以下の操作を参照してください。
比率とは、例えばある議題に100人中60人が賛成したら、賛成の比率は0.6です。 比率についても区間推定が可能です。 すなわち、100人中60人賛成する議題は、日本全国ではどのぐらい賛成するのかということです。 簡単に言うと、標本比率 p に対して、標本平均を p , 標本標準偏差を√( p ×(1− p )) とすると、標本が大きな場合の方法で区間推定ができます。 以下のExcelの操作を参照してください。
それでは、Excelを利用して、信頼区間(誤差範囲)を計算しましょう。 ある業者が、全国の小学五年生に対して学力試験を行う予定とします。 同時に、科目の好き嫌いに関するアンケートも予定しているとします。 その準備として、16人に国語の試験、8人に算数の試験を行いました。 また、160人に国語が好きか、80人に算数が好きかを聞きました。 次のExcelファイルをダウンロードしてください。
まず、セルA19から、「標本の大きさ」、「平均」、「標準偏差」、「標準誤差」、「自由度」、「両側5%点」、「95%下限」、「95%上限」と入力します。
標本の大きさは、ExcelのCOUNT関数で求められます。 COUNT関数は、データが入っているセルの個数を数えます。 セルB19に数式=COUNT(B3:B18)と入力してください。
平均は、ExcelのAVERAGE関数で求められます。 セルB20に=AVERAGE(B3:B18)と入力してください。 範囲に空のセルがあると読み飛ばしますので、そのままセルC20にコピー・アンド・ペーストできます。
標準偏差は、ExcelのSTDEV関数で求められます。 標本なので、分母が n - 1 のものを使います。 セルB21に=STDEV(B3:B18)と入力してください。 範囲に空のセルがあると読み飛ばしますので、そのままセルC21にコピー・アンド・ペーストできます。
標準誤差は、標準偏差/√標本の大きさ、なので、セルB22に=B21/SQRT(B19)と入力してください。 ここで、SQRTとは平方根を求める関数です。
自由度は、標本の大きさ−1 なので、セルB23に=B19-1と入力してください。
t 分布の両側5%点は、Excelの関数でTINV(1−0.95,自由度)で求められます。 セルB24に=TINV(0.05,B23)と入力してください。
信頼度95%の誤差範囲は、標準誤差×両側5%点、です。 セルB25に=B22*B24と入力してください。
信頼度95%の信頼区間の下限は、標本平均−信頼度95%の誤差範囲、です。 セルB26に=B20-B25と入力してください。
信頼度95%の信頼区間の上限は、標本平均+信頼度95%の誤差範囲、です。 セルB27に=B20+B25と入力してください。
これで信頼区間(誤差範囲)の表が完成しました。
次に、棒グラフを作成し、この信頼区間(誤差範囲)を棒グラフに付けましょう。
まず、セルA2からC2とA20からC20をドラッグするのですが、離れたセルについては、アップルキー(Windowsの場合はCtrlキー)を押しながらドラッグします。
メニューバーで「挿入」→「グラフ」とクリックします。
グラフウィザードが開いたら、「グラフの種類」の「縦棒」、「形式」の「集合縦棒グラフ」をクリックして、「次へ」ボタンをクリックします。
「系列」が「行」であることを確認して、「次へ」ボタンをクリックします。
「グラフタイトル」に「小五児童の試験の平均点の95%信頼区間」、「X/項目軸」に「科目」、「Y/数値軸」に「平均点」と入力します。
同じウィンドウで「凡例」タブをクリックし、「凡例を表示する」のチェックを外して、「次へ」ボタンをクリックします。
「グラフの場所」が「オブジェクト」であることを確認して、「完了」ボタンをクリックします。
これで、棒グラフは完成します。
棒グラフの棒を右クリックし、「データ系列の書式設定」をクリックします。
「Y誤差範囲」タブをクリックし、「表示」の「両方向」をクリックし、「誤差範囲」の「指定」をクリックし、+入力欄と−入力欄に「95%誤差」の部分(B25からC25)を入力してください。
これで、信頼区間(誤差範囲)付きの棒グラフが完成します。
母比率の信頼区間の計算も、本質的には母平均の場合と同じです。
まず、必要な項目を入力します。 両側5%点の1.96も入力します。
「比率」は、好きな人数/児童数、です。
「標準偏差」は、√(比率×(1−比率))、です。
「標準誤差」は、標準偏差/√児童数、です。
「95%誤差」は、標準誤差×1.96、です。
「95%下限」は、比率−95%誤差、です。
「95%上限」は、比率+95%誤差、です。
これで信頼区間(誤差範囲)の表が完成しました。
信頼区間(誤差範囲)付きの棒グラフも、同じように作成できます。
ある業者が、全国の中学二年生に対して学力試験を行う予定とします。 同時に、科目の好き嫌いに関するアンケートも予定しているとします。 その準備として、20人に英語の試験、14人に数学の試験、10人に国語の試験を行いました。 また、200人に英語が好きか、140人に数学が好きか、100人に国語が好きかを聞きました。 このデータをまとめたExcelファイルをダウンロードしてください。
(1)信頼度95%で、全国での試験の平均点の信頼区間(誤差範囲)を求めてください。 標本は小さいと考えてください。
(2)この信頼区間(誤差範囲)が付いた棒グラフを作成してください。
(3)信頼度95%で、全国での科目の好きな比率の信頼区間(誤差範囲)を求めてください。
(4)この信頼区間(誤差範囲)が付いた棒グラフを作成してください。
今日の演習8の答案(Excelファイル)をメールで提出してください。 差出人は学内のメール・アドレス(b08a001@cis.twcu.ac.jpなど)とし、宛先はkonishi@cis.twcu.ac.jpとします。 メールの本文には、学生番号、氏名、科目名、授業日(11月16日)を明記してください。