[小西ホームページ]   [目次・索引]   [前の授業]   [次の授業]

コンピュータIIJ(統計解析)第11回

目次
索引

分散分析

分散分析とは

前回は、2標本の母平均の差の検定を行いました。 では、3標本ならどうなるでしょうか。

3標本の具体例として、大学生の生活に地域差があるかどうかを考えます。 全国すべてを調べるのは大変なので、東京23区、宮城県仙台市、および岩手県盛岡市の3つの地域を選んだとします。

表「大学生のアルバイト(家庭教師)の時給」は、東京、仙台、および盛岡に住み、家庭教師のアルバイトをしている大学生それぞれ8人に、時給を聞いたものです。

分散分析の計算(1)
分散分析の計算(1)

東京の平均は2,075円、仙台の平均は1,975円、盛岡の平均は2,038円です。 地域差があるような気もしますが、全体的に散らばりが大きいので、地域差に見えるのが誤差の範囲内かもしれません。

表「大学生のアルバイト(コンビニ)の時給」は、東京、仙台、および盛岡に住み、コンビニでアルバイトをしている大学生それぞれ8人に、時給を聞いたものです。

分散分析の計算(2)
分散分析の計算(2)

東京の平均は893円、仙台の平均は743円、盛岡の平均は714円です。 全体的に散らばりが小さいので、地域差がありそうです。

地域差を確かめるために、2標本の母平均の差の検定を、東京と仙台、仙台と盛岡、および盛岡と東京の3回行えば良いように思えますが、何度も検定を繰り返すと誤りが起こりやすくなることが知られています。 (後述の「多重比較」で詳しく説明します。)

3標本以上の場合は、 分散分析 analysis of variance , ANOVA )という手法を用います。 分散分析では、データに影響を与える要因を 因子 factor )と呼び、因子の項目を 水準 level )と呼びます。 上記の例なら、因子は地域、水準は東京、仙台、盛岡です。 因子が1種類なら 一元配置 one-way layout )と言い、2種類なら 二元配置 two-way layout )と言います。 上記の例は、因子は地域だけなので、一元配置です。 分散分析は、水準の違いと統計的誤差を比較して、本当に因子の効果があるかどうかを判断する分析方法です。 上記の例なら、東京、仙台、盛岡の違いと統計的誤差を比較して、本当に地域の効果があるかどうかを判断します。

分散分析の考え方

分散分析の考え方を説明します。 簡単のため、3標本の場合のみ考えます。

標本 X の大きさを n 1 , 標本 Y の大きさを n 2 , 標本 Z の大きさを n 3 とします。 まず、各水準の平均を定義します。

分散分析の式(1)

全体の平均 m も定義します。

分散分析の式(2)

全体の変動 S は次のように定義されます。 ここで、 変動 とは 平方和 sum of squares , SS )とも呼ばれ、偏差(平均との差)の2乗の和です。

分散分析の式(3)

この全体の変動を、水準間の変動と水準内の変動に分解します。 水準間の変動 S 1 は、各水準の平均と全体の平均との差の2乗の和です。

分散分析の式(4)

水準内の変動 S 2 は、データとその水準の平均との差の2乗の和です。

分散分析の式(5)

実際、以下の等式が成り立ちます。

分散分析の式(6)

分解した変動から分散を求めます。 この分散は、偏差の2乗の平均なので、 平均平方 mean square , MS )と呼ばれることがあります。

水準間の変動 S 1 の自由度は3−1なので、水準間の分散 V 1 は分母を3−1にします。

分散分析の式(7)

水準内の変動 S 2 の自由度は n 1 n 2 n 3 −3なので、水準内の分散 V 2 は分母を n 1 n 2 n 3 −3にします。

分散分析の式(8)

最後に分散比 F を定義します。

分散分析の式(9)

もし、 F が大きな値であれば、分子は分母より大きいことになり、水準間の差(水準の違い)は水準内の差(統計的誤差)より大きいことになります。 逆に、 F が小さな値であれば、分子は分母より小さいことになり、水準間の差(水準の違い)は水準内の差(統計的誤差)より小さいことになります。

この分散比 F は、自由度(3−1, n 1 n 2 n 3 −3)の F 分布に従うことが知られています。

分散分析では、帰無仮説は水準間の差(水準の違い)がないとし、対立仮説は水準間の差(水準の違い)があるとして、 F 検定が行われます。 もし、分散比 F が非常に大きくて、有意水準未満の確率でしか発生しない場合(すなわち有意である場合)、水準間の差(水準の違い)がないという帰無仮説は棄却され、水準間の差(水準の違い)があるという対立仮説が採択されるのです。

上記の家庭教師やコンビニの例なら、帰無仮説は時給に地域差がないとし、対立仮説は時給に地域差があるとします。 分散比 F が非常に大きくて有意であるならば、時給に地域差がないという帰無仮説は棄却され、時給に地域差があるという対立仮説が採択されます。

多重比較

ここで、なぜ検定を繰り返してはいけないのかについて説明します。

有意水準5%で検定を行うことは、その検定は95%の確率で正しいということです。 もし3回検定を行うと、0.95×0.95×0.95=0.86なので、全体として86%の確率で正しいことになり、全体の有意水準が14%にもなってしまいます。 このため、本当は差がないのに、14%の確率で差があるという結論になってしまうのです。

人工的な例ですが、

とすると、分散分析では p 値が0.147となって差がないのですが、AとCで t 検定を行うと、 p 値が0.0486となって差があるという結論になってしまいます。

そうは言っても、分散分析で差があるという結論が出たら、次に、どれとどれに差があるかについて興味がわくでしょう。 これを調べるには、多重比較を行います。 多重比較 multiple comparison )とは、全体の有意水準が5%になるように、個別の有意水準を調節しながら検定を繰り返す方法です。 多重比較にはいくつか方法がありますが、「Rコマンダー」では テューキーの方法 Tukey method )と呼ばれる多重比較が利用できます。


Excelによる分散分析(1)

それでは、Excelを利用して、分散分析を行いましょう。 以下のExcelファイルをダウンロードしてください。

comp2j_11_data.xlsx

分散分析を行う前に、ドット・チャートを作成して、地域差があるかどうかを視覚的に把握します。 表「大学生のアルバイト(家庭教師)の時給」について、前回と同じように作成してください。 見たところ、地域差はなさそうです。

ドット・チャート(5)
ドット・チャート(5)

表「大学生のアルバイト(コンビニ)の時給」についても作成してください。 見たところ、地域差はありそうです。

ドット・チャート(6)
ドット・チャート(6)

分散分析の結果は、分散分析表と呼ばれる表にまとめられます。 分散分析の計算は、Excelの関数でもできなくはないですが、大変なので、統計解析ソフトを利用します。 そして、その出力をExcelのハテナの部分に入力してください。 今までのように、小数点以下2桁に統一する必要はなく、有効桁数3桁程度でよいです。 家庭教師についての分散分析表の完成予定図は以下の通りです。

分散分析(1)
分散分析(1)

p 値が0.05以上なので、有意水準5%で有意ではなく、時給に地域差がないという帰無仮説は棄却されず、時給に地域差があるという対立仮説も採択されません。

分析の結果: 家庭教師のアルバイトの時給には地域差があるとは言えない。

コンビニについての分散分析表の完成予定図は以下の通りです。

分散分析(2)
分散分析(2)

p 値の1.64E-11は1.64×10 -11 の意味で、小数で表すと0.0000000000164です。 p 値が0.05未満なので、有意水準5%で有意であり、時給に地域差がないという帰無仮説は棄却され、時給に地域差があるという対立仮説が採択されます。

分析の結果: コンビニのアルバイトの時給には地域差があると言える。


分析ツールによる分散分析(1)

「分析ツール」を利用すると、一元配置の分散分析が行えます。 ただし、多重比較はできません。

リボンの「データ」をクリックし、「分析」項目の「データ分析」をクリックします。 すると、「分析ツール」ウィンドウが開くので、「分散分析: 一元配置」をクリックして、「OK」ボタンをクリックします。

分散分析の計算(1)
分散分析の計算(1)

「入力範囲」にはデータの範囲($B$2:$D$10)を入力し、「データ方向」が「列」であることを確認し、「先頭行をラベルとして使用」チェックボックスをオンにし、「α」が「0.05」であることを確認し、「出力先」をクリックして、空いているセル(例えば$A$12)を入力します。

分散分析の計算(2)
分散分析の計算(2)

すると、分散分析の結果が出力されます。

分散分析(1)
分散分析(1)

「分析ツール」の出力の読み方ですが、「グループ」を「水準」と読み替えてください。 「観測された分散比」が分散比 F です。

コンビニのデータについても、同じように分散分析表が作成できます。 p 値の1.64E-11は1.64×10 -11 の意味で、小数で表すと0.0000000000164です。

分散分析(2)
分散分析(2)

StatPlusによる分散分析(1)

「StatPlus」を利用すると、一元配置の分散分析が行えます。 ただし、多重比較はできません。

「StatPlus」を起動し、メニューバーで「Statistics」→「Analysis of Variance (ANOVA)」→「One-way ANOVA (simple)」とクリックします。 すると、「ANOVA」ウィンドウが開くので、「Variables」入力欄の右のボタンをクリックし、データの範囲(セルB2からD10まで)をドラッグし、「ANOVA」ウィンドウをクリックします。 「Labels in first row」チェックボックスをオンにして、「OK」ボタンをクリックします。

分散分析の計算(1)
分散分析の計算(1)

すると、新しくExcelのウィンドウが開き、分散分析表(ANOVA)が表示されます。 表の列は、変動(SS)、自由度(df)、分散(MS)、分散比 F (F)、 p 値(p-level)で、表の行は、水準間(Between Groups)、水準内(Within Groups)、合計(Total)です。

分散分析(1)
分散分析(1)

コンビニのデータについても、同じように分散分析表が作成できます。 p 値の1.64E-11は1.64×10 -11 の意味で、小数で表すと0.0000000000164です。

分散分析(2)
分散分析(2)

Rコマンダーによる分散分析(1)

「Rコマンダー」を利用すると、ドット・チャートの作成と、一元配置の分散分析が行えます。 テューキーの方法による多重比較もできます。

まず、適宜コピー・アンド・ペーストして、Excelのデータを以下のような形式にします。 (areaは地域、paymentは時給です。)

ドット・チャートの作成(4)
ドット・チャートの作成(4)

このデータを「Rコマンダー」にインポートし、前回と同じようにして、ドット・チャートを作成します。 ドット・チャートを見ると、地域差はなさそうです。

ドット・チャート(3)
ドット・チャート(3)

地域差があるかどうか確かめるために、分散分析を行います。 「Rコマンダー」ウィンドウで、「統計量」→「平均」→「1元配置分散分析」とクリックします。 すると、「1元配置分散分析」ウィンドウが開くので、「グループ」欄で「area」をクリックし、「目的変数」欄で「payment」をクリックし、「OK」ボタンをクリックします。

分散分析の計算(1)
分散分析の計算(1)

すると、「出力ウィンドウ」欄に、分散分析表が表示されます。 表の列は、自由度(Df)、変動(Sum Sq)、分散(Mean Sq)、分散比 F (F value)、 p 値(Pr(>F))で、表の行は、水準間(area)と水準内(Residuals)です。 合計の行は自分で追加してください。

分散分析(1)
分散分析(1)

コンビニのデータについても、同じようにドット・チャートが作成できます。 ドット・チャートを見ると、地域差がありそうです。

ドット・チャート(4)
ドット・チャート(4)

分散分析表も、同じように作成できます。 p 値の1.64e-11は1.64×10 -11 の意味で、小数で表すと0.0000000000164です。

分散分析(2)
分散分析(2)

地域差があることが分かったので、次に多重比較を行います。 先ほどの「1元配置分散分析」ウィンドウをもう一度開き、「2組ずつの平均の比較(多重比較)」チェックボックスをオンにします。 すると、95%同時信頼区間と呼ばれる図が表示されます。

分散分析(3)
分散分析(3)

95%信頼区間にゼロが含まれなければ、差があると言えます。 この図によると、仙台と盛岡には差がなく、東京と盛岡には差があり、東京と仙台にも差があります。 要するに、東京だけ違うということです。


演習11

以下のファイルをダウンロードしてください。

comp2j_11_report.xlsx

(1)表「大学生(下宿生)の1か月の食費」は、東京、仙台、および盛岡に住む大学生(下宿生)それぞれ8人に、1か月の食費を聞いたものです。 このデータのドット・チャートを作成してください。

ドット・チャート(7)
ドット・チャート(7)

(2)食費のデータについて、帰無仮説は食費に地域差がないとし、対立仮説は食費に地域差があるとします。 有意水準5%で分散分析を行い、分析の結果を答えてください。 分析は「分析ツール」、「StatPlus」、「Rコマンダー」のいずれかで行い、その出力をExcelのハテナの部分に入力してください。 「Rコマンダー」を利用する場合は、地域を「area」、食費を「expense」などに置き換えてください。

分散分析(4)
分散分析(4)

(3)表「大学生(下宿生)の1か月の家賃」は、東京、仙台、および盛岡に住む大学生(下宿生)それぞれ8人に、1か月の家賃を聞いたものです。 このデータのドット・チャートを作成してください。

ドット・チャート(8)
ドット・チャート(8)

(4)家賃のデータについて、帰無仮説は家賃に地域差がないとし、対立仮説は家賃に地域差があるとします。 有意水準5%で分散分析を行い、分析の結果を答えてください。 分析は「分析ツール」、「StatPlus」、「Rコマンダー」のいずれかで行い、その出力をExcelのハテナの部分に入力してください。 「Rコマンダー」を利用する場合は、地域を「area」、家賃を「expense」などに置き換えてください。

分散分析(5)
分散分析(5)

レポート課題

今日の演習11の答案(Excelファイルと分析の結果)をメールで提出してください。 差出人は学内のメール・アドレス(k12x1001@cis.twcu.ac.jpなど)とし、宛先はkonishi@cis.twcu.ac.jpとします。 メールの本文には、学生番号、氏名、科目名、授業日(12月18日)を明記してください。


参考文献


[小西ホームページ]   [目次・索引]   [前の授業]   [次の授業]

2013年12月18日更新
小西 善二郎 <konishi@cis.twcu.ac.jp>
Copyright (C) 2013 Zenjiro Konishi. All rights reserved.