前回は、分散分析について説明しました。 その中で、因子(データに影響を与える要因)が2種類のときは、二元配置と呼ぶと言いました。 今日は、二元配置の分散分析を行います。
次の例を考えます。
あるパソコン・スクールでは、タイピング練習ソフトとして、A, B, C, Dの4種類を用意しています。 また、練習方法として、
の3種類を用意しています。 パソコン初心者12人を選び、ソフトと練習方法を変えて練習してもらい、その後、タイプ速度(1分間に打てる文字数)を測定したところ、以下のようになったとします。
この例は、ソフトと練習方法の違いが、タイプ速度に影響を与えるかどうかを考えています。 したがって、因子は2種類で、二元配置となります。
この例は、2因子(ソフトと練習方法)の組み合わせごとに、データが1つだけです。 このようなデータを、 繰り返しのない二元配置 ( two-way layout without replication )と呼びます。 2因子の組み合わせごとに、データが複数ある場合は、 繰り返しのある二元配置 ( two-way layout with replication )と呼ばれます。
分散分析は、まず一元配置か二元配置かで分かれますが、二元配置の場合も繰り返しがあるかないかで分かれます。 どの分散分析を利用するかは、以下のフローチャートに従ってください。
さて、上記の例で、平均を見てみましょう。 練習方法1の平均は132文字/分、練習方法2の平均は107文字/分、練習方法3の平均は86文字/分です。 練習方法の違いによる速度差は、多少ありそうです。 一方、ソフトAの平均は109文字/分、ソフトBの平均は96文字/分、ソフトCの平均は113文字/分、ソフトDの平均は115文字/分です。 ソフトの違いによる速度差は、あまりなさそうです。
一元配置の分散分析では、変動を
全体の変動=水準間の変動+水準内の変動
と分解しました。 ここで、変動(平方和とも呼ばれる)とは偏差(平均との差)の2乗の和のことで、水準とは因子の項目のことでした。
これに対して、二元配置の分散分析では、
全体の変動=因子1の水準間の変動+因子2の水準間の変動+統計的誤差による変動
と分解します。 分解した後は、一元配置と同じように、それぞれの変動から分散を求め、分散比 F を求めて F 検定を行います。 (詳細は省略します。)
繰り返しのある二元配置では、変動の分解がさらに複雑になります。
全体の変動=因子1の水準間の変動+因子2の水準間の変動+交互作用による変動+統計的誤差による変動
ここで、 交互作用 ( interaction )とは、一つ一つの因子ではなく、2因子の組み合わせによって、データに影響を与えることです。 もし交互作用が存在すると、個別の因子についての分散分析は無意味になってしまいます。
上記の例を、繰り返しのある二元配置にすると、次のようになります。
練習方法とソフトの組み合わせ(交互作用)による速度差があるかもしれないので、パソコン初心者24人を選び、練習方法とソフトを変えて練習してもらい、その後、タイプ速度を測定したところ、以下のようになったとします。
交互作用を理解するために、人工的な例を3種類考えます。 また、交互作用プロットと呼ばれるグラフも紹介します。
交互作用プロット ( interaction plot )とは、 平均値プロット ( means plot )とも呼ばれ、2因子の組み合わせごとにデータの平均を計算し、それらを平行座標プロットで表したものです。 交互作用がなければ、交互作用プロットは平行線のようになります。 逆に、交互作用があれば、交互作用プロットは交わっているようになります。
人工的な例(1)は、練習方法1の平均が85文字/分、練習方法2の平均が105文字/分なので、練習方法の違いによる速度差があると言えます。 交互作用プロットは、平行線になっています。
人工的な例(2)は、ソフトAの平均が85文字/分、ソフトBの平均が105文字/分なので、ソフトの違いによる速度差があると言えます。 交互作用プロットは重なっていますが、これも平行線と考えます。
人工的な例(3)は、練習方法1とソフトBを組み合わせるとタイプ速度が速いですし、練習方法2とソフトAを組み合わせてもタイプ速度が速いです。 これが交互作用です。 つまり、組み合わせによってデータが影響を受けています。 交互作用プロットは、交互作用があるので交わっています。
交互作用があると、個別の分析が無意味になります。 実際、練習方法1も練習方法2も平均が95文字/分なので、練習方法の違いによる速度差があるとは言えません。 また、ソフトAもソフトBも平均が95文字/分なので、ソフトの違いによる速度差があるとも言えません。
さて、上記の24人のデータについて交互作用プロットを作成すると、次のようになります。 横軸をソフトにしたものと、練習方法にしたものの、2種類です。
どちらかと言うと、平行線のようなので、交互作用はなさそうです。
なお、交互作用プロットをExcelで作成するのは面倒なので、Rなど、他の統計解析ソフトを利用してください。
それでは、Excelを利用して、分散分析を行いましょう。 以下のExcelファイルをダウンロードしてください。
分散分析を行う前に、ドット・チャートを作成して、ソフトや練習方法の違いによる速度差があるかどうか、視覚的に把握します。 最初は「繰り返しなし」の表についてです。 表の形式から、ソフトについてなら前々回と同じように作成できます。 見たところ、ソフトの違いによる速度差はなさそうです。
練習方法についてのドット・チャートを作成するために、元の表の行と列を入れ替えたものが欲しいです。 そこで、表全体(セルA2からE5まで)をドラッグし、右クリックして「コピー」をクリックし、適当な余白(例えばセルA21)を右クリックして「形式を選択してペースト」をクリックし、「行列を入れ替える」チェックボックスをオンにします。
すると、行列を入れ替えた表がペーストされます。
後は、前々回と同じように、練習方法についてのドット・チャートを作成します。 見たところ、練習方法の違いによる速度差はありそうです。
次に、「繰り返しあり」の表についても、ドット・チャートを作成します。 やはり、ソフトの違いによる速度差はなさそうです。
同じように、行列を入れ替えた表を作り、同じ練習方法を一列にまとめて、練習方法についてのドット・チャートも作成します。 練習方法の違いによる速度差は、同じくありそうです。
それでは、「繰り返しなし」の表について、分散分析を行います。
「分析ツール」を利用すると、繰り返しのない二元配置の分散分析が行えます。
リボンの「データ」をクリックし、「データ分析」をクリックします。 すると、「データ分析」ウィンドウが開くので、「分散分析: 繰り返しのない二元配置」をクリックして、「OK」ボタンをクリックします。
「入力範囲」入力欄にデータの範囲($A$2:$E$5)を入力し、「ラベル」チェックボックスをオンにし、「α」入力欄が「0.05」であることを確認し、「出力先」ラジオボタンをオンにして、空いているセル(例えば$G$1)を入力します。
すると、分散分析表が出力されます。
練習方法については、「行」の部分を見ます。 また、ソフトについては、「列」の部分を見ます。
練習方法については、 p 値が0.05未満なので、有意水準5%で有意であり、練習方法の違いによる速度差がないという帰無仮説 H 10 は棄却され、練習方法の違いによる速度差があるという対立仮説 H 11 が採択されます。
ソフトについては、 p 値が0.05以上なので、有意水準5%で有意ではなく、ソフトの違いによる速度差がないという帰無仮説 H 20 は棄却されず、ソフトの違いによる速度差があるという対立仮説 H 21 も採択されません。
分析の結果: タイピングには、練習方法の違いによる速度差があると言えるが、ソフトの違いによる速度差があるとは言えない。
次に、「繰り返しあり」の表について、分散分析を行います。
「分析ツール」を利用すると、繰り返しのある二元配置の分散分析が行えます。
リボンの「データ」をクリックし、「データ分析」をクリックします。 すると、「データ分析」ウィンドウが開くので、「分散分析: 繰り返しのある二元配置」をクリックして、「OK」ボタンをクリックします。
「入力範囲」入力欄にデータの範囲($O$2:$S$8)を入力し、「1標本あたりの行数」入力欄に「2」と入力し、「α」入力欄が「0.05」であることを確認し、「出力先」ラジオボタンをオンにして、空いているセル(例えば$W$1)を入力します。
すると、分散分析表が出力されます。
練習方法については、「標本」の部分を見ます。 また、ソフトについては、「列」の部分を見ます。
練習方法については、 p 値が0.05未満なので、有意水準5%で有意であり、練習方法の違いによる速度差がないという帰無仮説 H 10 は棄却され、練習方法の違いによる速度差があるという対立仮説 H 11 が採択されます。
ソフトについては、 p 値が0.05以上なので、有意水準5%で有意ではなく、ソフトの違いによる速度差がないという帰無仮説 H 20 は棄却されず、ソフトの違いによる速度差があるという対立仮説 H 21 も採択されません。
交互作用(練習方法とソフトの組み合わせ)については、 p 値が0.05以上なので、有意水準5%で有意ではなく、交互作用による速度差がないという帰無仮説 H 30 は棄却されず、交互作用による速度差があるという対立仮説 H 31 も採択されません。
分析の結果: タイピングには、練習方法の違いによる速度差があると言えるが、ソフトの違いによる速度差があるとは言えない。 また、練習方法とソフトに交互作用があるとは言えない。
以下のExcelファイルをダウンロードしてください。
(1)ある資格取得スクールでは、ある資格試験のテキストとして、A, B, C, Dの4種類を用意しています。 また、時間割として、
の3種類を用意しています。 まだ資格試験の勉強をしていない12人を選び、テキストと時間割を変えて授業を受けてもらい、その後に模擬試験を実施したところ、「繰り返しなし」の表のようになりました。 テキストおよび時間割についてのドット・チャートを作成してください。
(2)「繰り返しなし」の表について、
有意水準5%で分散分析を行い、分析の結果を答えてください。
(3)交互作用(時間割とテキストの組み合わせ)による得点差があるかもしれないので、まだ資格試験の勉強をしていない24人を選び、時間割とテキストを変えて授業を受けてもらい、その後に模擬試験を実施したところ、「繰り返しあり」の表のようになりました。 テキストおよび時間割についてのドット・チャートを作成してください。
(4)「繰り返しあり」の表について、
有意水準5%で分散分析を行い、分析の結果を答えてください。
今日の演習12の答案(Excelファイルと分析の結果)をメールで提出してください。 差出人は学内のメール・アドレス(学生番号@cis.twcu.ac.jp)とし、宛先はkonishi@cis.twcu.ac.jpとします。 メールの本文には、学生番号、氏名、科目名、授業日(12月13日)を明記してください。
RStudioを利用すると、交互作用プロットが作成できます。
RStudioを使う前に、繰り返しのある二元配置のデータを、前回と同様に再構成します。
exercise | E1 | E1 | E2 | E2 | E3 | E3 | E1 | E1 | E2 | E2 | E3 | E3 | E1 | E1 | E2 | E2 | E3 | E3 | E1 | E1 | E2 | E2 | E3 | E3 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
software | SA | SA | SA | SA | SA | SA | SB | SB | SB | SB | SB | SB | SC | SC | SC | SC | SC | SC | SD | SD | SD | SD | SD | SD |
speed | 95 | 110 | 78 | 112 | 101 | 95 | 146 | 112 | 97 | 135 | 84 | 81 | 101 | 159 | 107 | 106 | 101 | 102 | 137 | 109 | 96 | 76 | 65 | 78 |
まず、練習方法(exercise)のデータを入力します。 次のコマンドをConsoleウィンドウにコピー・アンド・ペーストしてください。
exercise = c("E1", "E1", "E2", "E2", "E3", "E3", "E1", "E1", "E2", "E2", "E3", "E3", "E1", "E1", "E2", "E2", "E3", "E3", "E1", "E1", "E2", "E2", "E3", "E3")
続いて、ソフト(software)のデータを入力します。 次のコマンドをConsoleウィンドウにコピー・アンド・ペーストしてください。
software = c("SA", "SA", "SA", "SA", "SA", "SA", "SB", "SB", "SB", "SB", "SB", "SB", "SC", "SC", "SC", "SC", "SC", "SC", "SD", "SD", "SD", "SD", "SD", "SD")
最後に、タイプ速度(speed)のデータを入力します。 次のコマンドをConsoleウィンドウにコピー・アンド・ペーストしてください。
speed = c(95, 110, 78, 112, 101, 95, 146, 112, 97, 135, 84, 81, 101, 159, 107, 106, 101, 102, 137, 109, 96, 76, 65, 78)
これで、データの入力が終わります。
分散分析を行うには、次のコマンドをConsoleウィンドウにコピー・アンド・ペーストしてください。
summary(aov(speed ~ exercise * software))
ここで、 speed ~ exercise * software はタイプ速度(speed)を練習方法(exercise)とソフト(software)で説明するという意味です。 Pr(>F) が p 値です。 「分析ツール」と同じ結果になっています。
なお、 speed ~ exercise * software の記号 * は、交互作用を計算するという意味です。 繰り返しがない場合は、交互作用が計算できないので、記号 * を使うとエラーになります。 代わりに、交互作用を計算しないという意味の記号 + を使います。
交互作用プロットを作成するには、次のコマンドをConsoleウィンドウにコピー・アンド・ペーストしてください。
interaction.plot(software, exercise, speed)
このコマンドで、横軸がソフト(software)で、練習方法(exercise)ごとに線を引き、縦軸がタイプ速度(speed)となります。 横軸を練習方法にするには、次のコマンドをConsoleウィンドウにコピー・アンド・ペーストしてください。
interaction.plot(exercise, software, speed)