[小西ホームページ]   [目次・索引]   [前の授業]   [次の授業]

コンピュータIIJ(統計データ解析)第11回

目次
11.1 分散分析
11.1.1 分散分析とは
11.1.2 分散分析の考え方
11.2 分析ツールによる分散分析(1)
11.2.1 分析方法
11.2.2 出力の読み方
11.3 演習11
11.4 レポート課題
11.5 参考文献
索引

11.1 分散分析

11.1.1 分散分析とは

前回は、2標本の母平均の差の検定を行いました。 では、3標本ならどうなるでしょうか。

3標本の具体例として、大学生の生活に地域差があるかどうかを考えます。 全国すべてを調べるのは大変なので、東京23区、宮城県仙台市、および岩手県盛岡市の3つの地域を選んだとします。

表「大学生のアルバイト(家庭教師)の時給」は、東京、仙台、および盛岡に住み、家庭教師のアルバイトをしている大学生それぞれ8人に、時給を聞いたものです。

分散分析(1)
図 11.1  分散分析(1)

東京の平均は2,075円、仙台の平均は1,975円、盛岡の平均は2,038円です。 地域差があるような気もしますが、全体的に散らばりが大きいので、地域差に見えるのが誤差の範囲内かもしれません。

地域差を確かめるために、2標本の母平均の差の検定を、東京と仙台、仙台と盛岡、および盛岡と東京の3回行えば良いように思えますが、何度も検定を繰り返すと誤りが起こりやすくなることが知られています。

3標本以上の場合は、 分散分析 という手法を用います。 分散分析では、データに影響を与える要因を 因子 と呼び、因子の項目を 水準 と呼びます。 上記の例なら、因子は地域、水準は東京、仙台、盛岡です。 因子が1種類なら 一元配置 と言い、2種類なら 二元配置 と言います。 上記の例は、因子は地域だけなので、一元配置です。 分散分析は、水準の違いと統計的誤差を比較して、本当に因子の効果があるかどうかを判断する分析方法です。 上記の例なら、東京、仙台、盛岡の違いと統計的誤差を比較して、本当に地域の効果があるかどうかを判断します。

11.1.2 分散分析の考え方

分散分析の考え方を説明します。 簡単のため、3標本の場合のみ考えます。

標本 X の大きさを n 1 , 標本 Y の大きさを n 2 , 標本 Z の大きさを n 3 とします。 まず、各水準の平均を定義します。

分散分析の式(1)

全体の平均 m も定義します。

分散分析の式(2)

全体の変動 S は次のように定義されます。 ここで、 変動 とは、偏差(平均との差)の平方和です。

分散分析の式(3)

この全体の変動を、水準間の変動と水準内の変動に分解します。 水準間の変動 S 1 は、各水準の平均と全体の平均との差の平方和です。

分散分析の式(4)

水準内の変動 S 2 は、データとその水準の平均との差の平方和です。

分散分析の式(5)

実際、以下の等式が成り立ちます。

分散分析の式(6)

分解した変動から分散を求めます。 水準間の変動 S 1 の自由度は3−1なので、水準間の分散 V 1 は分母を3−1にします。

分散分析の式(7)

水準内の変動 S 2 の自由度は n 1n 2n 3 −3なので、水準内の分散 V 2 は分母を n 1n 2n 3 −3にします。

分散分析の式(8)

最後に分散比 F を定義します。

分散分析の式(9)

もし、分散比が大きな値であれば、分母より分子が大きいことになり、水準内の差(統計的誤差)より水準間の差(水準の違い)が大きいことになります。 逆に、分散比が小さな値であれば、分母より分子が小さいことになり、水準内の差(統計的誤差)より水準間の差(水準の違い)が小さいことになります。

この分散比は、自由度(3−1, n 1n 2n 3 −3)の F 分布に従うことが知られています。 したがって、帰無仮説 H 0 は水準間の差がないとし、対立仮説 H 1 は水準間の差があるとして、分散分析を行うのですが、分散分析の最後には F 検定が行われます。

上記の家庭教師のアルバイトの例なら、帰無仮説 H 0 は時給に地域差がないとし、対立仮説 H 1 は時給に地域差があるとして、分散分析を行います。 分散分析の最後には、 F 検定が行われます。


11.2 分析ツールによる分散分析(1)

11.2.1 分析方法

それでは、Excelを利用して、分散分析を行いましょう。 以下のファイルをダウンロードしてください。

comp2j_11_data.xls

まず、メニューバーで「ツール」→「分析ツール」とクリックして、分析ツールのウィンドウを開きます。 「分散分析: 一元配置」をクリックして、「OK」ボタンをクリックします。

分散分析(2)
図 11.2  分散分析(2)

「入力範囲」にはデータの範囲($B$2:$D$10)を入力し、「データ方向」が「列」であることを確認し、「先頭行をラベルとして使用」のチェックを入れ、「α」が「0.05」であることを確認し、「出力先」をクリックして、空いているセル(例えば$F$1)を入力します。

分散分析(3)
図 11.3  分散分析(3)

すると、分散分析の結果が出力されます。

分散分析(4)
図 11.4  分散分析(4)

11.2.2 出力の読み方

分析ツールの出力には色々な項目があります。 まず、「グループ」を「水準」と読み替えてください。 すると、分散分析表の中で、水準間の変動 S 1 , 水準内の変動 S 2 , 全体(合計)の変動 S , 水準間の分散 V 1 , 水準内の分散 V 2 が計算されているのが分かります。 「観測された分散比」が分散比 F を表し、「F 境界値」が上側5%点を表します。

分散比 F が上側5%点より小さいので、帰無仮説 H 0 は棄却できません。 したがって、家庭教師のアルバイトの時給には地域差があるとは言えないのです。

表「大学生のアルバイト(コンビニ)の時給」は、東京、仙台、および盛岡に住み、コンビニでアルバイトをしている大学生それぞれ8人に、時給を聞いたものです。

分散分析(5)
図 11.5  分散分析(5)

東京の平均は893円、仙台の平均は743円、盛岡の平均は714円です。 全体的に散らばりが小さいので、地域差がありそうです。 帰無仮説 H 0 は時給に地域差がないとし、対立仮説 H 1 は時給に地域差があるとします。 有意水準5%で分散分析を行います。 家庭教師のときと同じように操作してください。

分散分析(6)
図 11.6  分散分析(6)

分散比 F が上側5%点より大きいので、帰無仮説 H 0 は棄却できます。 したがって、コンビニのアルバイトの時給には地域差があると言えます。


11.3 演習11

以下のファイルをダウンロードしてください。

comp2j_11_report.xls

(1)表「大学生(下宿生)の1か月の食費」は、東京、仙台、および盛岡に住む大学生(下宿生)それぞれ8人に、1か月の食費を聞いたものです。 帰無仮説 H 0 は食費に地域差がないとし、対立仮説 H 1 は食費に地域差があるとします。 有意水準5%で分散分析を行い、帰無仮説 H 0 が棄却できるかどうかを答えてください。

分散分析(7)
図 11.7  分散分析(7)
分散分析(8)
図 11.8  分散分析(8)

(2)表「大学生(下宿生)の1か月の家賃」は、東京、仙台、および盛岡に住む大学生(下宿生)それぞれ8人に、1か月の家賃を聞いたものです。 帰無仮説 H 0 は家賃に地域差がないとし、対立仮説 H 1 は家賃に地域差があるとします。 有意水準5%で分散分析を行い、帰無仮説 H 0 が棄却できるかどうかを答えてください。

分散分析(9)
図 11.9  分散分析(9)
分散分析(10)
図 11.10  分散分析(10)

11.4 レポート課題

今日の演習11の答案(Excelファイル)をメールで提出してください。 差出人は学内のメール・アドレス(b08a001@cis.twcu.ac.jpなど)とし、宛先はkonishi@cis.twcu.ac.jpとします。 メールの本文には、学生番号、氏名、科目名、授業日(12月14日)を明記してください。


11.5 参考文献


[小西ホームページ]   [目次・索引]   [前の授業]   [次の授業]

2011年12月14日更新
小西 善二郎 <konishi@cis.twcu.ac.jp>
Copyright (C) 2011 Zenjiro Konishi. All rights reserved.