[小西ホームページ]   [目次・索引]   [前の授業]   [次の授業]

情報処理技法(統計解析)第12回

目次
索引

二元配置の分散分析

繰り返しのない場合

前回は、分散分析について説明しました。 その中で、因子(データに影響を与える要因)が2種類のときは、二元配置と呼ぶと言いました。 今日は、二元配置の分散分析を行います。

次の例を考えます。

あるパソコン・スクールでは、タイピング練習ソフトとして、A, B, C, Dの4種類を用意しています。 また、練習方法として、

  1. 毎回の授業で少しずつ練習する
  2. 2〜3回に1回の割合で練習する
  3. 1回の授業でまとめて練習する

の3種類を用意しています。 パソコン初心者12人を選び、ソフトと練習方法を変えて練習してもらい、その後、タイプ速度(1分間に打てる文字数)を測定したところ、以下のようになったとします。

分散分析の計算(3)
分散分析の計算(3)

この例は、ソフトと練習方法の違いが、タイプ速度に影響を与えるかどうかを考えています。 したがって、因子は2種類で、二元配置となります。

この例は、2因子(ソフトと練習方法)の組み合わせごとに、データが1つだけです。 このようなデータを、 繰り返しのない二元配置 two-way layout without replication )と呼びます。 2因子の組み合わせごとに、データが複数ある場合は、 繰り返しのある二元配置 two-way layout with replication )と呼ばれます。

分散分析は、まず一元配置か二元配置かで分かれますが、二元配置の場合も繰り返しがあるかないかで分かれます。 どの分散分析を利用するかは、以下のフローチャートに従ってください。

分散分析のフローチャート
分散分析のフローチャート

さて、上記の例で、平均を見てみましょう。 練習方法1の平均は132文字/分、練習方法2の平均は107文字/分、練習方法3の平均は86文字/分です。 練習方法の違いによる速度差は、多少ありそうです。 一方、ソフトAの平均は109文字/分、ソフトBの平均は96文字/分、ソフトCの平均は113文字/分、ソフトDの平均は115文字/分です。 ソフトの違いによる速度差は、あまりなさそうです。

一元配置の分散分析では、変動を

全体の変動=水準間の変動+水準内の変動

と分解しました。 ここで、変動(平方和とも呼ばれる)とは偏差(平均との差)の2乗の和のことで、水準とは因子の項目のことでした。

これに対して、二元配置の分散分析では、

全体の変動=因子1の水準間の変動+因子2の水準間の変動+統計的誤差による変動

と分解します。 分解した後は、一元配置と同じように、それぞれの変動から分散を求め、分散比 F を求めて F 検定を行います。 (詳細は省略します。)

繰り返しのある場合

繰り返しのある二元配置では、変動の分解がさらに複雑になります。

全体の変動=因子1の水準間の変動+因子2の水準間の変動+交互作用による変動+統計的誤差による変動

ここで、 交互作用 interaction )とは、一つ一つの因子ではなく、2因子の組み合わせによって、データに影響を与えることです。 もし交互作用が存在すると、個別の因子についての分散分析は無意味になってしまいます。

上記の例を、繰り返しのある二元配置にすると、次のようになります。

練習方法とソフトの組み合わせ(交互作用)による速度差があるかもしれないので、パソコン初心者24人を選び、練習方法とソフトを変えて練習してもらい、その後、タイプ速度を測定したところ、以下のようになったとします。

分散分析の計算(4)
分散分析の計算(4)

交互作用を理解するために、人工的な例を3種類考えます。

人工的な例(1)

ソフトA ソフトB
練習方法1 80 80
90 90
練習方法2 100 100
110 110

人工的な例(1)は、練習方法1の平均が85文字/分、練習方法2の平均が105文字/分なので、練習方法の違いによる速度差があると言えます。

人工的な例(2)

ソフトA ソフトB
練習方法1 80 100
90 110
練習方法2 80 100
90 110

人工的な例(2)は、ソフトAの平均が85文字/分、ソフトBの平均が105文字/分なので、ソフトの違いによる速度差があると言えます。

人工的な例(3)

ソフトA ソフトB
練習方法1 80 100
90 110
練習方法2 100 80
110 90

人工的な例(3)は、練習方法1とソフトBを組み合わせるとタイプ速度が速いですし、練習方法2とソフトAを組み合わせてもタイプ速度が速いです。 これが交互作用です。 つまり、組み合わせによってデータが影響を受けています。

交互作用があると、個別の分析が無意味になります。 実際、練習方法1も練習方法2も平均が95文字/分なので、練習方法の違いによる速度差があるとは言えません。 また、ソフトAもソフトBも平均が95文字/分なので、ソフトの違いによる速度差があるとも言えません。


Excelによる分散分析(2)

それでは、Excelを利用して、分散分析を行いましょう。 以下のExcelファイルをダウンロードしてください。

stat_12_data.xlsx

分散分析を行う前に、ドット・チャートを作成して、ソフトや練習方法の違いによる速度差があるかどうか、視覚的に把握します。 最初は「繰り返しなし」の表についてです。 表の形式から、ソフトについてなら前々回と同じように作成できます。 見たところ、ソフトの違いによる速度差はなさそうです。

ドット・チャート(9)
ドット・チャート(9)

練習方法についてのドット・チャートを作成するために、元の表の行と列を入れ替えたものが欲しいです。 そこで、表全体(セルA2からE5まで)をドラッグし、右クリックして「コピー」をクリックし、適当な余白(例えばセルA22)を右クリックして「形式を選択してペースト」をクリックし、「行列を入れ替える」チェックボックスをオンにします。

ドット・チャートの作成(6)
ドット・チャートの作成(6)

すると、行列を入れ替えた表がペーストされます。

ドット・チャートの作成(7)
ドット・チャートの作成(7)

後は、前々回と同じように、練習方法についてのドット・チャートを作成します。 見たところ、練習方法の違いによる速度差はありそうです。

ドット・チャート(10)
ドット・チャート(10)

次に、「繰り返しあり」の表についても、ドット・チャートを作成します。 やはり、ソフトの違いによる速度差はなさそうです。

ドット・チャート(11)
ドット・チャート(11)

同じように、行列を入れ替えた表を作り、同じ練習方法を一列にまとめて、練習方法についてのドット・チャートも作成します。 練習方法の違いによる速度差は、同じくありそうです。

ドット・チャート(12)
ドット・チャート(12)

それでは、「繰り返しなし」の表について、分散分析を行います。

前回と同様、統計解析ソフトを利用して、その出力をExcelのハテナの部分に入力します。 今までのように、小数点以下2桁に統一する必要はなく、有効桁数3桁程度でよいです。 分散分析表の完成予定図は以下の通りです。

分散分析(3)
分散分析(3)

練習方法については、 p 値が0.05未満なので、有意水準5%で有意であり、練習方法の違いによる速度差がないという帰無仮説 H 10 は棄却され、練習方法の違いによる速度差があるという対立仮説 H 11 が採択されます。

ソフトについては、 p 値が0.05以上なので、有意水準5%で有意ではなく、ソフトの違いによる速度差がないという帰無仮説 H 20 は棄却されず、ソフトの違いによる速度差があるという対立仮説 H 21 も採択されません。

分析の結果: タイピングには、練習方法の違いによる速度差があると言えるが、ソフトの違いによる速度差があるとは言えない。

次に、「繰り返しあり」の表について、分散分析を行います。

分散分析表の完成予定図は以下の通りです。

分散分析(4)
分散分析(4)

練習方法については、 p 値が0.05未満なので、有意水準5%で有意であり、練習方法の違いによる速度差がないという帰無仮説 H 10 は棄却され、練習方法の違いによる速度差があるという対立仮説 H 11 が採択されます。

ソフトについては、 p 値が0.05以上なので、有意水準5%で有意ではなく、ソフトの違いによる速度差がないという帰無仮説 H 20 は棄却されず、ソフトの違いによる速度差があるという対立仮説 H 21 も採択されません。

交互作用(練習方法とソフトの組み合わせ)については、 p 値が0.05以上なので、有意水準5%で有意ではなく、交互作用による速度差がないという帰無仮説 H 30 は棄却されず、交互作用による速度差があるという対立仮説 H 31 も採択されません。

分析の結果: タイピングには、練習方法の違いによる速度差があると言えるが、ソフトの違いによる速度差があるとは言えない。 また、練習方法とソフトに交互作用があるとは言えない。


Rコマンダーによる分散分析(2)

「Rコマンダー」を利用すると、ドット・チャートの作成と、二元配置の分散分析が行えます。

まず、適宜コピー・アンド・ペーストして、Excelのデータを以下のような形式にします。 (exerciseは練習方法、softwareはソフト、speedは速度です。)

ドット・チャートの作成(5)
ドット・チャートの作成(5)

このデータを「Rコマンダー」にインポートし、前回と同じようにドット・チャートを作成するのですが、「ドットチャート」ウィンドウの「因子」項目では「exercise」をクリックします。

ドット・チャートの作成(6)
ドット・チャートの作成(6)

すると、練習方法についてのドット・チャートが表示されます。 ドット・チャートを見ると、練習方法による速度差はありそうです。

ドット・チャート(5)
ドット・チャート(5)

「ドットチャート」ウィンドウの「因子」項目で「software」をクリックすると、ソフトについてのドット・チャートが表示されます。 ドット・チャートを見ると、ソフトによる速度差はなさそうです。

ドット・チャート(6)
ドット・チャート(6)

二元配置の分散分析を行うには、「Rコマンダー」ウィンドウで、「統計量」→「平均」→「多元配置分散分析」とクリックします。 ただし、繰り返しのない場合はエラーが発生します。 これは、繰り返しのない場合は交互作用が存在しないのに、初期設定では交互作用を含むからです。

交互作用を含まないようにするには、「Rコマンダー」ウィンドウで、「統計量」→「モデルへの適合」→「線形モデル」とクリックします。 すると、「線形モデル」ウィンドウが開きます。 この「モデル式」の「*」記号が、交互作用を含むという意味です。 これを「+」記号に置き換えると、交互作用を含まなくなります。 記号を置き換えたら、「OK」ボタンをクリックしてください。

分散分析の計算(2)
分散分析の計算(2)

続いて、「Rコマンダー」ウィンドウで、「モデル」→「仮説検定」→「分散分析表」とクリックします。 すると、「ANOVA Table」ウィンドウが表示されるので、「Type II」ラジオ・ボタンがオンになっていることを確認して、「OK」ボタンをクリックします。

分散分析の計算(3)
分散分析の計算(3)

すると、「出力ウィンドウ」欄に分散分析表が表示されます。 表の列は、変動(Sum Sq)、自由度(Df)、分散比 F (F value)、 p 値(Pr(>F))で、表の行は、練習方法(exercise)、ソフト(software)、誤差(Residuals)です。 分散の列が省略されていますが、分散=変動/自由度、なので、Excelの数式で計算してください。 また、合計の行も省略されていますが、これもExcelの数式で計算してください。

分散分析(6)
分散分析(6)

繰り返しのある場合は、交互作用を含んでよいので、「Rコマンダー」ウィンドウで、「統計量」→「平均」→「多元配置分散分析」とクリックします。 すると、「多元配置分散分析」ウィンドウが開くので、「因子」項目で「exercise」をクリックし、shiftキーを押しながら「software」をクリックし、「目的変数」項目で「speed」をクリックして、「OK」ボタンをクリックします。

分散分析の計算(4)
分散分析の計算(4)

分散分析表では、表の行に交互作用(exercise:software)が追加されます。

分散分析(7)
分散分析(7)

演習12

以下のExcelファイルをダウンロードしてください。

stat_12_report.xlsx

(1)ある資格取得スクールでは、ある資格試験のテキストとして、A, B, C, Dの4種類を用意しています。 また、時間割として、

  1. 1日1時間を20日間
  2. 1日2時間を10日間
  3. 1日4時間を5日間

の3種類を用意しています。 まだ資格試験の勉強をしていない12人を選び、テキストと時間割を変えて授業を受けてもらい、その後に模擬試験を実施したところ、「繰り返しなし」の表のようになりました。 テキストおよび時間割についてのドット・チャートを作成してください。

ドット・チャート(13)
ドット・チャート(13)
ドット・チャート(14)
ドット・チャート(14)

(2)「繰り返しなし」の表について、

有意水準5%で分散分析を行い、分析の結果を答えてください。 分析は「分析ツール」、「StatPlus」、「Rコマンダー」のいずれかで行い、その出力をExcelのハテナの部分に入力してください。 「Rコマンダー」を利用する場合は、時間割を「schedule」、テキストを「textbook」、得点を「score」などに置き換えてください。

分散分析(8)
分散分析(8)

(3)交互作用(時間割とテキストの組み合わせ)による得点差があるかもしれないので、まだ資格試験の勉強をしていない24人を選び、時間割とテキストを変えて授業を受けてもらい、その後に模擬試験を実施したところ、「繰り返しあり」の表のようになりました。 テキストおよび時間割についてのドット・チャートを作成してください。

ドット・チャート(15)
ドット・チャート(15)
ドット・チャート(16)
ドット・チャート(16)

(4)「繰り返しあり」の表について、

有意水準5%で分散分析を行い、分析の結果を答えてください。 分析は「分析ツール」、「StatPlus」、「Rコマンダー」のいずれかで行い、その出力をExcelのハテナの部分に入力してください。 「Rコマンダー」を利用する場合は、時間割を「schedule」、テキストを「textbook」、得点を「score」などに置き換えてください。

分散分析(9)
分散分析(9)

レポート課題

今日の演習12の答案(Excelファイルと分析の結果)をメールで提出してください。 差出人は学内のメール・アドレス(学生番号@cis.twcu.ac.jp)とし、宛先はkonishi@cis.twcu.ac.jpとします。 メールの本文には、学生番号、氏名、科目名、授業日(12月16日)を明記してください。


付録

分析ツールによる分散分析(2)

「分析ツール」を利用すると、二元配置の分散分析が行えます。

最初は「繰り返しなし」の表についてです。 リボンの「データ」をクリックし、「分析」項目の「データ分析」をクリックします。 すると、「分析ツール」ウィンドウが開くので、「分散分析: 繰り返しのない二元配置」をクリックして、「OK」ボタンをクリックします。

分散分析の計算(3)
分散分析の計算(3)

「入力範囲」にはデータの範囲($A$2:$E$5)を入力し、「ラベル」のチェックボックスをオンにし、「α」が「0.05」であることを確認し、「出力先」をクリックして、空いているセル(例えば$A$8)を入力します。

分散分析の計算(4)
分散分析の計算(4)

すると、分散分析表が出力されます。

分散分析(3)
分散分析(3)

練習方法については、「行」の部分を見ます。 また、ソフトについては、「列」の部分を見ます。

次は「繰り返しあり」の表についてです。 リボンの「データ」をクリックし、「分析」項目の「データ分析」をクリックします。 すると、「分析ツール」ウィンドウが開くので、「分散分析: 繰り返しのある二元配置」をクリックして、「OK」ボタンをクリックします。

分散分析の計算(5)
分散分析の計算(5)

「入力範囲」にはデータの範囲($N$2:$R$8)を入力し、「1標本あたりの行数」に「2」と入力し、「α」が「0.05」であることを確認し、「出力先」をクリックして、空いているセル(例えば$N$10)を入力します。

分散分析の計算(6)
分散分析の計算(6)

すると、分散分析表が出力されます。

分散分析(4)
分散分析(4)

練習方法については、「標本」の部分を見ます。 また、ソフトについては、「列」の部分を見ます。

StatPlusによる分散分析(2)

「StatPlus」を利用すると、二元配置の分散分析が行えます。 その前に、データの形式を以下のように変更します。 練習方法の列、ソフトの列、タイプ速度の列を指定するのですが、練習方法の列とソフトの列は数値化する必要があるのです。 (exerciseは練習方法、softwareはソフト、speedは速度です。)

分散分析の計算(2)
分散分析の計算(2)

「StatPlus」を起動し、メニューバーで「Statistics」→「Analysis of Variance (ANOVA)」→「Two-way ANOVA」とクリックします。 すると、「ANOVA」ウィンドウが開くので、「Response」入力欄の右のボタンをクリックし、目的変数(speed)の範囲(セルI8からI20まで)をドラッグし、「ANOVA」ウィンドウをクリックします。 「Factor #1」入力欄の右のボタンをクリックし、第1因子(exercise)の範囲(セルK8からK20まで)をドラッグし、「ANOVA」ウィンドウをクリックし、ポップアップ・メニューを「Fixed」にします。 同様に、「Factor #2」入力欄の右のボタンをクリックし、第2因子(software)の範囲(セルL8からL20まで)をドラッグし、「ANOVA」ウィンドウをクリックし、ポップアップ・メニューを「Fixed」にします。 「Labels in first row」チェックボックスをオンにして、「Advanced Options」ボタンをクリックします。

分散分析の計算(3)
分散分析の計算(3)

すると、「ANOVA - Advanced Options」ウィンドウが開くので、(繰り返しのない場合は交互作用がないので、)「No Interaction(s) (Randomized block design)」チェックボックスをオンにして、「OK」ボタンをクリックします。

分散分析の計算(4)
分散分析の計算(4)

最後に、「ANOVA」ウィンドウの「OK」ボタンをクリックします。 すると、新しくExcelのウィンドウが開き、分散分析表(ANOVA)が表示されます。 表の列は、変動(SS)、自由度(d.f.)、分散(MS)、分散比 F (F)、 p 値(p-level)で、表の行は、練習方法(exercise)、ソフト(software)、誤差(Within Groups)、合計(Total)です。

分散分析(3)
分散分析(3)

繰り返しのある二元配置についても、同じようにデータ形式を変更し、同じように操作します。 ただし、繰り返しのある場合は交互作用があるので、「ANOVA - Advanced Options」ウィンドウでは「No Interaction(s) (Randomized block design)」チェックボックスをオフにします。

分散分析の計算(5)
分散分析の計算(5)

分散分析表(ANOVA)では、表の行に交互作用(exercise x software)が追加されます。

分散分析(4)
分散分析(4)

参考文献


[小西ホームページ]   [目次・索引]   [前の授業]   [次の授業]

2015年12月16日更新
小西 善二郎 <konishi@cis.twcu.ac.jp>
Copyright (C) 2015 Zenjiro Konishi. All rights reserved.