[小西ホームページ]   [目次・索引]   [前の授業]   [次の授業]

情報処理技法(統計解析)第12回

目次
索引

二元配置の分散分析

繰り返しのない場合

前回は、分散分析について説明しました。 その中で、因子(データに影響を与える要因)が2種類のときは、二元配置と呼ぶと言いました。 今日は、二元配置の分散分析を行います。

次の例を考えます。

あるパソコン・スクールでは、タイピング練習ソフトとして、A, B, C, Dの4種類を用意しています。 また、練習方法として、

  1. 毎回の授業で少しずつ練習する
  2. 2〜3回に1回の割合で練習する
  3. 1回の授業でまとめて練習する

の3種類を用意しています。 パソコン初心者12人を選び、ソフトと練習方法を変えて練習してもらい、その後、タイプ速度(1分間に打てる文字数)を測定したところ、以下のようになったとします。

分散分析の計算(3)
分散分析の計算(3)

この例は、ソフトと練習方法の違いが、タイプ速度に影響を与えるかどうかを考えています。 したがって、因子は2種類で、二元配置となります。

この例は、2因子(ソフトと練習方法)の組み合わせごとに、データが1つだけです。 このようなデータを、 繰り返しのない二元配置 two-way layout without replication )と呼びます。 2因子の組み合わせごとに、データが複数ある場合は、 繰り返しのある二元配置 two-way layout with replication )と呼ばれます。

分散分析は、まず一元配置か二元配置かで分かれますが、二元配置の場合も繰り返しがあるかないかで分かれます。 どの分散分析を利用するかは、以下のフローチャートに従ってください。

分散分析のフローチャート
分散分析のフローチャート

さて、上記の例で、平均を見てみましょう。 練習方法1の平均は132文字/分、練習方法2の平均は107文字/分、練習方法3の平均は86文字/分です。 練習方法の違いによる速度差は、多少ありそうです。 一方、ソフトAの平均は109文字/分、ソフトBの平均は96文字/分、ソフトCの平均は113文字/分、ソフトDの平均は115文字/分です。 ソフトの違いによる速度差は、あまりなさそうです。

一元配置の分散分析では、変動を

全体の変動=水準間の変動+水準内の変動

と分解しました。 ここで、変動(平方和とも呼ばれる)とは偏差(平均との差)の2乗の和のことで、水準とは因子の項目のことでした。

これに対して、二元配置の分散分析では、

全体の変動=因子1の水準間の変動+因子2の水準間の変動+統計的誤差による変動

と分解します。 分解した後は、一元配置と同じように、それぞれの変動から分散を求め、分散比 F を求めて F 検定を行います。 (詳細は省略します。)

繰り返しのある場合

繰り返しのある二元配置では、変動の分解がさらに複雑になります。

全体の変動=因子1の水準間の変動+因子2の水準間の変動+交互作用による変動+統計的誤差による変動

ここで、 交互作用 interaction )とは、一つ一つの因子ではなく、2因子の組み合わせによって、データに影響を与えることです。 もし交互作用が存在すると、個別の因子についての分散分析は無意味になってしまいます。

上記の例を、繰り返しのある二元配置にすると、次のようになります。

練習方法とソフトの組み合わせ(交互作用)による速度差があるかもしれないので、パソコン初心者24人を選び、練習方法とソフトを変えて練習してもらい、その後、タイプ速度を測定したところ、以下のようになったとします。

分散分析の計算(4)
分散分析の計算(4)

交互作用を理解するために、人工的な例を3種類考えます。 また、交互作用プロットと呼ばれるグラフも紹介します。

交互作用プロット interaction plot )とは、 平均値プロット means plot )とも呼ばれ、2因子の組み合わせごとにデータの平均を計算し、それらを平行座標プロットで表したものです。 交互作用がなければ、交互作用プロットは平行線のようになります。 逆に、交互作用があれば、交互作用プロットは交わっているようになります。

人工的な例(1)とその交互作用プロット
人工的な例(1)とその交互作用プロット

人工的な例(1)は、練習方法1の平均が85文字/分、練習方法2の平均が105文字/分なので、練習方法の違いによる速度差があると言えます。 交互作用プロットは、平行線になっています。

人工的な例(2)とその交互作用プロット
人工的な例(2)とその交互作用プロット

人工的な例(2)は、ソフトAの平均が85文字/分、ソフトBの平均が105文字/分なので、ソフトの違いによる速度差があると言えます。 交互作用プロットは重なっていますが、これも平行線と考えます。

人工的な例(3)とその交互作用プロット
人工的な例(3)とその交互作用プロット

人工的な例(3)は、練習方法1とソフトBを組み合わせるとタイプ速度が速いですし、練習方法2とソフトAを組み合わせてもタイプ速度が速いです。 これが交互作用です。 つまり、組み合わせによってデータが影響を受けています。 交互作用プロットは、交互作用があるので交わっています。

交互作用があると、個別の分析が無意味になります。 実際、練習方法1も練習方法2も平均が95文字/分なので、練習方法の違いによる速度差があるとは言えません。 また、ソフトAもソフトBも平均が95文字/分なので、ソフトの違いによる速度差があるとも言えません。

さて、上記の24人のデータについて交互作用プロットを作成すると、次のようになります。 横軸をソフトにしたものと、練習方法にしたものの、2種類です。

交互作用プロット(1)
交互作用プロット(1)(E=練習方法、S=ソフト)
交互作用プロット(2)
交互作用プロット(2)(E=練習方法、S=ソフト)

どちらかと言うと、平行線のようなので、交互作用はなさそうです。

なお、交互作用プロットをExcelで作成するのは面倒なので、Rなど、他の統計解析ソフトを利用してください。


Excelによる分散分析(2)

それでは、Excelを利用して、分散分析を行いましょう。 以下のExcelファイルをダウンロードしてください。

stat_12_data.xlsx

分散分析を行う前に、ドット・チャートを作成して、ソフトや練習方法の違いによる速度差があるかどうか、視覚的に把握します。 最初は「繰り返しなし」の表についてです。 表の形式から、ソフトについてなら前々回と同じように作成できます。 見たところ、ソフトの違いによる速度差はなさそうです。

ドット・チャート(9)
ドット・チャート(9)

練習方法についてのドット・チャートを作成するために、元の表の行と列を入れ替えたものが欲しいです。 そこで、表全体(セルA2からE5まで)をドラッグし、右クリックして「コピー」をクリックし、適当な余白(例えばセルA21)を右クリックして「形式を選択してペースト」をクリックし、「行列を入れ替える」チェックボックスをオンにします。

ドット・チャートの作成(6)
ドット・チャートの作成(6)

すると、行列を入れ替えた表がペーストされます。

ドット・チャートの作成(7)
ドット・チャートの作成(7)

後は、前々回と同じように、練習方法についてのドット・チャートを作成します。 見たところ、練習方法の違いによる速度差はありそうです。

ドット・チャート(10)
ドット・チャート(10)

次に、「繰り返しあり」の表についても、ドット・チャートを作成します。 やはり、ソフトの違いによる速度差はなさそうです。

ドット・チャート(11)
ドット・チャート(11)

同じように、行列を入れ替えた表を作り、同じ練習方法を一列にまとめて、練習方法についてのドット・チャートも作成します。 練習方法の違いによる速度差は、同じくありそうです。

ドット・チャート(12)
ドット・チャート(12)

分析ツールによる分散分析(2)

それでは、「繰り返しなし」の表について、分散分析を行います。

「分析ツール」を利用すると、繰り返しのない二元配置の分散分析が行えます。

リボンの「データ」をクリックし、「データ分析」をクリックします。 すると、「データ分析」ウィンドウが開くので、「分散分析: 繰り返しのない二元配置」をクリックして、「OK」ボタンをクリックします。

分散分析の計算(3)
分散分析の計算(3)

「入力範囲」入力欄にデータの範囲($A$2:$E$5)を入力し、「ラベル」チェックボックスをオンにし、「α」入力欄が「0.05」であることを確認し、「出力先」ラジオボタンをオンにして、空いているセル(例えば$G$1)を入力します。

分散分析の計算(4)
分散分析の計算(4)

すると、分散分析表が出力されます。

分散分析(5)
分散分析(5)

練習方法については、「行」の部分を見ます。 また、ソフトについては、「列」の部分を見ます。

練習方法については、 p 値が0.05未満なので、有意水準5%で有意であり、練習方法の違いによる速度差がないという帰無仮説 H 10 は棄却され、練習方法の違いによる速度差があるという対立仮説 H 11 が採択されます。

ソフトについては、 p 値が0.05以上なので、有意水準5%で有意ではなく、ソフトの違いによる速度差がないという帰無仮説 H 20 は棄却されず、ソフトの違いによる速度差があるという対立仮説 H 21 も採択されません。

分析の結果: タイピングには、練習方法の違いによる速度差があると言えるが、ソフトの違いによる速度差があるとは言えない。

次に、「繰り返しあり」の表について、分散分析を行います。

「分析ツール」を利用すると、繰り返しのある二元配置の分散分析が行えます。

リボンの「データ」をクリックし、「データ分析」をクリックします。 すると、「データ分析」ウィンドウが開くので、「分散分析: 繰り返しのある二元配置」をクリックして、「OK」ボタンをクリックします。

分散分析の計算(5)
分散分析の計算(5)

「入力範囲」入力欄にデータの範囲($O$2:$S$8)を入力し、「1標本あたりの行数」入力欄に「2」と入力し、「α」入力欄が「0.05」であることを確認し、「出力先」ラジオボタンをオンにして、空いているセル(例えば$W$1)を入力します。

分散分析の計算(6)
分散分析の計算(6)

すると、分散分析表が出力されます。

分散分析(6)
分散分析(6)

練習方法については、「標本」の部分を見ます。 また、ソフトについては、「列」の部分を見ます。

練習方法については、 p 値が0.05未満なので、有意水準5%で有意であり、練習方法の違いによる速度差がないという帰無仮説 H 10 は棄却され、練習方法の違いによる速度差があるという対立仮説 H 11 が採択されます。

ソフトについては、 p 値が0.05以上なので、有意水準5%で有意ではなく、ソフトの違いによる速度差がないという帰無仮説 H 20 は棄却されず、ソフトの違いによる速度差があるという対立仮説 H 21 も採択されません。

交互作用(練習方法とソフトの組み合わせ)については、 p 値が0.05以上なので、有意水準5%で有意ではなく、交互作用による速度差がないという帰無仮説 H 30 は棄却されず、交互作用による速度差があるという対立仮説 H 31 も採択されません。

分析の結果: タイピングには、練習方法の違いによる速度差があると言えるが、ソフトの違いによる速度差があるとは言えない。 また、練習方法とソフトに交互作用があるとは言えない。


演習12

以下のExcelファイルをダウンロードしてください。

stat_12_report.xlsx

(1)ある資格取得スクールでは、ある資格試験のテキストとして、A, B, C, Dの4種類を用意しています。 また、時間割として、

  1. 1日1時間を20日間
  2. 1日2時間を10日間
  3. 1日4時間を5日間

の3種類を用意しています。 まだ資格試験の勉強をしていない12人を選び、テキストと時間割を変えて授業を受けてもらい、その後に模擬試験を実施したところ、「繰り返しなし」の表のようになりました。 テキストおよび時間割についてのドット・チャートを作成してください。

ドット・チャート(13)
ドット・チャート(13)
ドット・チャート(14)
ドット・チャート(14)

(2)「繰り返しなし」の表について、

有意水準5%で分散分析を行い、分析の結果を答えてください。

分散分析(7)
分散分析(7)

(3)交互作用(時間割とテキストの組み合わせ)による得点差があるかもしれないので、まだ資格試験の勉強をしていない24人を選び、時間割とテキストを変えて授業を受けてもらい、その後に模擬試験を実施したところ、「繰り返しあり」の表のようになりました。 テキストおよび時間割についてのドット・チャートを作成してください。

ドット・チャート(15)
ドット・チャート(15)
ドット・チャート(16)
ドット・チャート(16)

(4)「繰り返しあり」の表について、

有意水準5%で分散分析を行い、分析の結果を答えてください。

分散分析(8)
分散分析(8)

レポート課題

今日の演習12の答案(Excelファイルと分析の結果)をメールで提出してください。 差出人は学内のメール・アドレス(学生番号@cis.twcu.ac.jp)とし、宛先はkonishi@cis.twcu.ac.jpとします。 メールの本文には、学生番号、氏名、科目名、授業日(12月13日)を明記してください。


付録

RStudioによる分散分析(2)

RStudioを利用すると、交互作用プロットが作成できます。

RStudioを使う前に、繰り返しのある二元配置のデータを、前回と同様に再構成します。

RStudio用のデータ(exercise=練習方法、software=ソフト、speed=タイプ速度、E=練習方法、S=ソフト)
exercise E1 E1 E2 E2 E3 E3 E1 E1 E2 E2 E3 E3 E1 E1 E2 E2 E3 E3 E1 E1 E2 E2 E3 E3
software SA SA SA SA SA SA SB SB SB SB SB SB SC SC SC SC SC SC SD SD SD SD SD SD
speed 95 110 78 112 101 95 146 112 97 135 84 81 101 159 107 106 101 102 137 109 96 76 65 78

まず、練習方法(exercise)のデータを入力します。 次のコマンドをConsoleウィンドウにコピー・アンド・ペーストしてください。

exercise = c("E1", "E1", "E2", "E2", "E3", "E3", "E1", "E1", "E2", "E2", "E3", "E3", "E1", "E1", "E2", "E2", "E3", "E3", "E1", "E1", "E2", "E2", "E3", "E3")

分散分析の計算(7)
分散分析の計算(7)

続いて、ソフト(software)のデータを入力します。 次のコマンドをConsoleウィンドウにコピー・アンド・ペーストしてください。

software = c("SA", "SA", "SA", "SA", "SA", "SA", "SB", "SB", "SB", "SB", "SB", "SB", "SC", "SC", "SC", "SC", "SC", "SC", "SD", "SD", "SD", "SD", "SD", "SD")

分散分析の計算(8)
分散分析の計算(8)

最後に、タイプ速度(speed)のデータを入力します。 次のコマンドをConsoleウィンドウにコピー・アンド・ペーストしてください。

speed = c(95, 110, 78, 112, 101, 95, 146, 112, 97, 135, 84, 81, 101, 159, 107, 106, 101, 102, 137, 109, 96, 76, 65, 78)

分散分析の計算(9)
分散分析の計算(9)

これで、データの入力が終わります。

分散分析を行うには、次のコマンドをConsoleウィンドウにコピー・アンド・ペーストしてください。

summary(aov(speed ~ exercise * software))

分散分析の計算(10)
分散分析の計算(10)

ここで、 speed ~ exercise * software はタイプ速度(speed)を練習方法(exercise)とソフト(software)で説明するという意味です。 Pr(>F) p 値です。 「分析ツール」と同じ結果になっています。

なお、 speed ~ exercise * software の記号 * は、交互作用を計算するという意味です。 繰り返しがない場合は、交互作用が計算できないので、記号 * を使うとエラーになります。 代わりに、交互作用を計算しないという意味の記号 + を使います。

交互作用プロットを作成するには、次のコマンドをConsoleウィンドウにコピー・アンド・ペーストしてください。

interaction.plot(software, exercise, speed)

交互作用プロットの作成(1)
交互作用プロットの作成(1)
交互作用プロット(1)
交互作用プロット(1)(E=練習方法、S=ソフト)

このコマンドで、横軸がソフト(software)で、練習方法(exercise)ごとに線を引き、縦軸がタイプ速度(speed)となります。 横軸を練習方法にするには、次のコマンドをConsoleウィンドウにコピー・アンド・ペーストしてください。

interaction.plot(exercise, software, speed)

交互作用プロットの作成(2)
交互作用プロットの作成(2)
交互作用プロット(2)
交互作用プロット(2)(E=練習方法、S=ソフト)

参考文献


[小西ホームページ]   [目次・索引]   [前の授業]   [次の授業]

2017年12月13日更新
小西 善二郎 <konishi@cis.twcu.ac.jp>
Copyright (C) 2017 Zenjiro Konishi. All rights reserved.