[小西ホームページ]   [目次・索引]   [前の授業]   [次の授業]

コンピュータIIJ(統計データ解析)第12回

目次
12.1 二元配置の分散分析
12.1.1 繰り返しのない場合
12.1.2 繰り返しのある場合
12.2 Excelによる分散分析(2)
12.3 分析ツールによる分散分析(2)
12.4 StatPlusによる分散分析(2)
12.5 Rコマンダーによる分散分析(2)
12.6 演習12
12.7 レポート課題
12.8 参考文献
索引

12.1 二元配置の分散分析

12.1.1 繰り返しのない場合

前回は、分散分析について説明しました。 その中で、因子(データに影響を与える要因)が2種類のときは、二元配置と呼ぶと言いました。 今日は、二元配置の分散分析を行います。

次の例を考えます。

あるパソコン・スクールでは、タイピング練習ソフトとして、A, B, C, Dの4種類を用意しています。 また、練習方法として、

  1. 毎回の授業で少しずつ練習する
  2. 2〜3回に1回の割合で練習する
  3. 1回の授業でまとめて練習する

の3種類を用意しています。 パソコン初心者12人を選び、ソフトと練習方法を変えて練習してもらい、その後、タイプ速度(1分間に打てる文字数)を測定したところ、以下のようになったとします。

分散分析の計算(3)
図 12.1  分散分析の計算(3)

この例は、ソフトと練習方法の違いが、タイプ速度に影響を与えるかどうかを考えています。 したがって、因子は2種類で、二元配置となります。

この例は、2因子(ソフトと練習方法)の組み合わせごとに、データが1つだけです。 このようなデータを、 繰り返しのない二元配置two-way layout without replication )と呼びます。 2因子の組み合わせごとに、データが複数ある場合は、 繰り返しのある二元配置two-way layout with replication )と呼ばれます。

分散分析は、まず一元配置か二元配置かで分かれますが、二元配置の場合も繰り返しがあるかないかで分かれます。 どの分散分析を利用するかは、以下のフローチャートに従ってください。

分散分析のフローチャート
図 12.2  分散分析のフローチャート

さて、上記の例で、平均を見てみましょう。 練習方法1の平均は132文字/分、練習方法2の平均は107文字/分、練習方法3の平均は86文字/分です。 練習方法の違いによる速度差は、多少ありそうです。 一方、ソフトAの平均は109文字/分、ソフトBの平均は96文字/分、ソフトCの平均は113文字/分、ソフトDの平均は115文字/分です。 ソフトの違いによる速度差は、あまり無さそうです。

一元配置の分散分析では、変動を

全体の変動=水準間の変動+水準内の変動

と分解しました。 ここで、変動(平方和とも呼ばれる)とは偏差(平均との差)の2乗の和のことで、水準とは因子の項目のことでした。

これに対して、二元配置の分散分析では、

全体の変動=因子1の水準間の変動+因子2の水準間の変動+統計的誤差による変動

と分解します。 分解した後は、一元配置と同じように、それぞれの変動から分散を求め、分散比 F を求めて F 検定を行います。 (詳細は省略します。)

12.1.2 繰り返しのある場合

繰り返しのある二元配置では、変動の分解がさらに複雑になります。

全体の変動=因子1の水準間の変動+因子2の水準間の変動+交互作用による変動+統計的誤差による変動

ここで、 交互作用interaction )とは、一つ一つの因子ではなく、2因子の組み合わせによって、データに影響を与えることです。 もし交互作用が存在すると、個別の因子についての分散分析は無意味になってしまいます。

上記の例を、繰り返しのある二元配置にすると、次のようになります。

ソフトと練習方法の組み合わせによる速度差(交互作用)があるかもしれないので、パソコン初心者24人を選び、ソフトと練習方法を変えて練習してもらい、その後、タイプ速度を測定したところ、以下のようになったとします。

分散分析の計算(4)
図 12.3  分散分析の計算(4)

12.2 Excelによる分散分析(2)

それでは、Excelを利用して、分散分析を行いましょう。 以下のExcelファイルをダウンロードしてください。

comp2j_12_data.xlsx

分散分析を行う前に、ドット・チャートを作成して、練習方法やソフトの違いによる速度差があるかどうか、視覚的に把握します。 最初は「繰り返しなし」の表についてです。 表の形式から、ソフトについてなら前々回と同じように作成できます。 見たところ、ソフトの違いによる速度差はなさそうです。

ドット・チャート(9)
図 12.4  ドット・チャート(9)

練習方法についてのドット・チャートを作成するために、元の表の行と列を入れ替えたものが欲しいです。 そこで、表全体(セルA2からE5まで)をドラッグし、右クリックして「コピー」をクリックし、適当な余白(例えばセルA22)を右クリックして「形式を選択してペースト」をクリックし、「行列を入れ替える」チェックボックスをオンにします。

ドット・チャートの作成(6)
図 12.5  ドット・チャートの作成(6)

すると、行列を入れ替えた表がペーストされます。

ドット・チャートの作成(7)
図 12.6  ドット・チャートの作成(7)

後は、前々回と同じように、練習方法についてのドット・チャートを作成します。 見たところ、練習方法の違いによる速度差はありそうです。

ドット・チャート(10)
図 12.7  ドット・チャート(10)

次に、「繰り返しあり」の表についても、ドット・チャートを作成します。 やはり、ソフトの違いによる速度差はなさそうです。

ドット・チャート(11)
図 12.8  ドット・チャート(11)

同じように、行列を入れ替えた表を作り、同じ練習方法を一列にまとめて、練習方法についてのドット・チャートも作成します。 練習方法の違いによる速度差は、同じくありそうです。

ドット・チャート(12)
図 12.9  ドット・チャート(12)

それでは、「繰り返しなし」の表について、分散分析を行います。

有意水準5%で分散分析を行い、帰無仮説 H 10 および H 20 が棄却されるかどうかを考えます。 前回と同様、統計解析ソフトを利用して、その出力をExcelのハテナの部分に入力します。 今までのように、小数点以下2桁に統一する必要はなく、有効桁数3桁程度でよいです。 分散分析表の完成予定図は以下の通りです。

分散分析(3)
図 12.10  分散分析(3)

練習方法の違いによる速度差については、 p 値が0.05未満なので、帰無仮説 H 10 は棄却されます。 したがって、タイピングには練習方法の違いによる速度差があると言えます。

ソフトの違いによる速度差については、 p 値が0.05以上なので、帰無仮説 H 20 は棄却されません。 したがって、タイピングにソフトの違いによる速度差があるとは言えません。

次に、「繰り返しあり」の表について、分散分析を行います。

有意水準5%で分散分析を行い、帰無仮説 H 10 , H 20 および H 30 が棄却されるかどうかを考えます。 分散分析表の完成予定図は以下の通りです。

分散分析(4)
図 12.11  分散分析(4)

練習方法の違いによる速度差については、 p 値が0.05未満なので、帰無仮説 H 10 は棄却されます。 したがって、タイピングには練習方法の違いによる速度差があると言えます。

ソフトの違いによる速度差については、 p 値が0.05以上なので、帰無仮説 H 20 は棄却されません。 したがって、タイピングにソフトの違いによる速度差があるとは言えません。

交互作用(ソフトと練習方法の組み合わせ)による速度差については、 p 値が0.05以上なので、帰無仮説 H 30 は棄却されません。 したがって、タイピングにソフトと練習方法の交互作用があるとは言えません。


12.3 分析ツールによる分散分析(2)

「分析ツール」を利用すると、二元配置の分散分析が行えます。

最初は「繰り返しなし」の表についてです。 リボンの「データ」をクリックし、「分析」項目の「データ分析」をクリックします。 すると、「分析ツール」ウィンドウが開くので、「分散分析: 繰り返しのない二元配置」をクリックして、「OK」ボタンをクリックします。

分散分析の計算(3)
図 12.12  分散分析の計算(3)

「入力範囲」にはデータの範囲($A$2:$E$5)を入力し、「ラベル」のチェックボックスをオンにし、「α」が「0.05」であることを確認し、「出力先」をクリックして、空いているセル(例えば$A$8)を入力します。

分散分析の計算(4)
図 12.13  分散分析の計算(4)

すると、分散分析表が出力されます。

分散分析(3)
図 12.14  分散分析(3)

練習方法については、「行」の部分を見ます。 p 値が0.05未満なので、練習方法の違いによる速度差があると言えます。 ソフトについては、「列」の部分を見ます。 p 値が0.05以上なので、ソフトの違いによる速度差があるとは言えません。

次は「繰り返しあり」の表についてです。 リボンの「データ」をクリックし、「分析」項目の「データ分析」をクリックします。 すると、「分析ツール」ウィンドウが開くので、「分散分析: 繰り返しのある二元配置」をクリックして、「OK」ボタンをクリックします。

分散分析の計算(5)
図 12.15  分散分析の計算(5)

「入力範囲」にはデータの範囲($N$2:$R$8)を入力し、「1標本あたりの行数」に「2」と入力し、「α」が「0.05」であることを確認し、「出力先」をクリックして、空いているセル(例えば$N$10)を入力します。

分散分析の計算(6)
図 12.16  分散分析の計算(6)

すると、分散分析表が出力されます。

分散分析(4)
図 12.17  分散分析(4)

練習方法については、「標本」の部分を見ます。 p 値が0.05未満なので、練習方法の違いによる速度差があると言えます。 ソフトについては、「列」の部分を見ます。 p 値が0.05以上なので、ソフトの違いによる速度差があるとは言えません。 交互作用(ソフトと練習方法の組み合わせ)については、 p 値が0.05以上なので、ソフトと練習方法の交互作用があるとは言えません。


12.4 StatPlusによる分散分析(2)

「StatPlus」を利用すると、二元配置の分散分析が行えます。 その前に、データの形式を以下のように変更します。 練習方法の列、ソフトの列、タイプ速度の列を指定するのですが、練習方法の列とソフトの列は数値化する必要があるのです。 (exerciseは練習方法、softwareはソフト、speedは速度です。)

分散分析の計算(2)
図 12.18  分散分析の計算(2)

「StatPlus」を起動し、メニューバーで「Statistics」→「Analysis of Variance (ANOVA)」→「Two-way ANOVA」とクリックします。 すると、「ANOVA」ウィンドウが開くので、「Response」入力欄の右のボタンをクリックし、目的変数(speed)の範囲(セルI8からI20まで)をドラッグし、「ANOVA」ウィンドウをクリックします。 「Factor #1」入力欄の右のボタンをクリックし、第1因子(exercise)の範囲(セルK8からK20まで)をドラッグし、「ANOVA」ウィンドウをクリックし、ポップアップ・メニューを「Fixed」にします。 同様に、「Factor #2」入力欄の右のボタンをクリックし、第2因子(software)の範囲(セルL8からL20まで)をドラッグし、「ANOVA」ウィンドウをクリックし、ポップアップ・メニューを「Fixed」にします。 「Labels in first row」チェックボックスをオンにして、「Advanced Options」ボタンをクリックします。

分散分析の計算(3)
図 12.19  分散分析の計算(3)

すると、「ANOVA - Advanced Options」ウィンドウが開くので、(繰り返しのない場合は交互作用がないので、)「No Interaction(s) (Randomized block design)」チェックボックスをオンにして、「OK」ボタンをクリックします。

分散分析の計算(4)
図 12.20  分散分析の計算(4)

最後に、「ANOVA」ウィンドウの「OK」ボタンをクリックします。 すると、新しくExcelのウィンドウが開き、分散分析表(ANOVA)が表示されます。 表の列は、変動(SS)、自由度(d.f.)、分散(MS)、分散比 F (F)、 p 値(p-level)で、表の行は、練習方法(exercise)、ソフト(software)、誤差(Within Groups)、合計(Total)です。

練習方法の p 値が0.05未満なので、練習方法の違いによる速度差があると言えます。 ソフトの p 値が0.05以上なので、ソフトの違いによる速度差があるとは言えません。

分散分析(3)
図 12.21  分散分析(3)

繰り返しのある二元配置についても、同じようにデータ形式を変更し、同じように操作します。 ただし、繰り返しのある場合は交互作用があるので、「ANOVA - Advanced Options」ウィンドウでは「No Interaction(s) (Randomized block design)」チェックボックスをオフにします。

分散分析の計算(5)
図 12.22  分散分析の計算(5)

分散分析表(ANOVA)では、表の行に交互作用(exercise x software)が追加されます。

練習方法の p 値が0.05未満なので、練習方法の違いによる速度差があると言えます。 ソフトの p 値が0.05以上なので、ソフトの違いによる速度差があるとは言えません。 交互作用の p 値が0.05以上なので、練習方法とソフトの交互作用があるとは言えません。

分散分析(4)
図 12.23  分散分析(4)

12.5 Rコマンダーによる分散分析(2)

「Rコマンダー」を利用すると、ドット・チャートの作成と、二元配置の分散分析が行えます。

まず、適宜コピー・アンド・ペーストして、Excelのデータを以下のような形式にします。 (exerciseは練習方法、softwareはソフト、speedは速度です。)

ドット・チャートの作成(5)
図 12.24  ドット・チャートの作成(5)

このデータを「Rコマンダー」にインポートし、前回と同じようにドット・チャートを作成するのですが、「ドットチャート」ウィンドウの「因子」項目では「exercise」をクリックします。

ドット・チャートの作成(6)
図 12.25  ドット・チャートの作成(6)

すると、練習方法についてのドット・チャートが表示されます。 ドット・チャートを見ると、練習方法による速度差はありそうです。

ドット・チャート(5)
図 12.26  ドット・チャート(5)

「ドットチャート」ウィンドウの「因子」項目で「software」をクリックすると、ソフトについてのドット・チャートが表示されます。 ドット・チャートを見ると、ソフトによる速度差はなさそうです。

ドット・チャート(6)
図 12.27  ドット・チャート(6)

二元配置の分散分析を行うには、「Rコマンダー」ウィンドウで、「統計量」→「平均」→「多元配置分散分析」とクリックします。 ただし、繰り返しのない場合はエラーが発生します。 これは、繰り返しのない場合は交互作用が存在しないのに、初期設定では交互作用を含むからです。

交互作用を含まないようにするには、「Rコマンダー」ウィンドウで、「統計量」→「モデルへの適合」→「線形モデル」とクリックします。 すると、「線形モデル」ウィンドウが開きます。 この「モデル式」の「*」記号が、交互作用を含むという意味です。 これを「+」記号に置き換えると、交互作用を含まなくなります。 記号を置き換えたら、「OK」ボタンをクリックしてください。

分散分析の計算(2)
図 12.28  分散分析の計算(2)

続いて、「Rコマンダー」ウィンドウで、「モデル」→「仮説検定」→「分散分析表」とクリックします。 すると、「ANOVA Table」ウィンドウが表示されるので、「Type II」ラジオ・ボタンがオンになっていることを確認して、「OK」ボタンをクリックします。

分散分析の計算(3)
図 12.29  分散分析の計算(3)

すると、「出力ウィンドウ」欄に分散分析表が表示されます。 表の列は、変動(Sum Sq)、自由度(Df)、分散比 F (F value)、 p 値(Pr(>F))で、表の行は、練習方法(exercise)、ソフト(software)、誤差(Residuals)です。 分散の列が省略されていますが、分散=変動/自由度、なので、Excelの数式で計算してください。 また、合計の行も省略されていますが、これもExcelの数式で計算してください。

練習方法の p 値が0.05未満なので、練習方法の違いによる速度差があると言えます。 ソフトの p 値が0.05以上なので、ソフトの違いによる速度差があるとは言えません。

分散分析(6)
図 12.30  分散分析(6)

繰り返しのある場合は、交互作用を含んでよいので、「Rコマンダー」ウィンドウで、「統計量」→「平均」→「多元配置分散分析」とクリックします。 すると、「多元配置分散分析」ウィンドウが開くので、「因子」項目で「exercise」をクリックし、shiftキーを押しながら「software」をクリックし、「目的変数」項目で「speed」をクリックして、「OK」ボタンをクリックします。

分散分析の計算(4)
図 12.31  分散分析の計算(4)

分散分析表では、表の行に交互作用(exercise:software)が追加されます。

練習方法の p 値が0.05未満なので、練習方法の違いによる速度差があると言えます。 ソフトの p 値が0.05以上なので、ソフトの違いによる速度差があるとは言えません。 交互作用の p 値が0.05以上なので、練習方法とソフトの交互作用があるとは言えません。

分散分析(7)
図 12.32  分散分析(7)

12.6 演習12

以下のExcelファイルをダウンロードしてください。

comp2j_12_report.xlsx

(1)ある資格取得スクールでは、ある資格試験のテキストとして、A, B, C, Dの4種類を用意しています。 また、時間割として、

  1. 1日1時間を20日間
  2. 1日2時間を10日間
  3. 1日4時間を5日間

の3種類を用意しています。 まだ資格試験の勉強をしていない12人を選び、テキストと時間割を変えて授業を受けてもらい、その後に模擬試験を実施したところ、「繰り返しなし」の表のようになりました。 テキストおよび時間割についてのドット・チャートを作成してください。

ドット・チャート(13)
図 12.33  ドット・チャート(13)
ドット・チャート(14)
図 12.34  ドット・チャート(14)

(2)「繰り返しなし」の表について、

有意水準5%で分散分析を行い、帰無仮説 H 10 および H 20 が棄却されるかどうかと、分析の結果を答えてください。 分析は「分析ツール」、「StatPlus」、「Rコマンダー」のいずれかで行い、その出力をExcelのハテナの部分に入力してください。 「Rコマンダー」を利用する場合は、時間割を「schedule」、テキストを「textbook」、得点を「score」などに置き換えてください。

分散分析(8)
図 12.35  分散分析(8)

(3)交互作用(テキストと時間割の組み合わせ)による得点差があるかもしれないので、まだ資格試験の勉強をしていない24人を選び、テキストと時間割を変えて授業を受けてもらい、その後に模擬試験を実施したところ、「繰り返しあり」の表のようになりました。 テキストおよび時間割についてのドット・チャートを作成してください。

ドット・チャート(15)
図 12.36  ドット・チャート(15)
ドット・チャート(16)
図 12.37  ドット・チャート(16)

(4)「繰り返しあり」の表について、

有意水準5%で分散分析を行い、帰無仮説 H 10 , H 20 および H 30 が棄却されるかどうかと、分析の結果を答えてください。 分析は「分析ツール」、「StatPlus」、「Rコマンダー」のいずれかで行い、その出力をExcelのハテナの部分に入力してください。 「Rコマンダー」を利用する場合は、時間割を「schedule」、テキストを「textbook」、得点を「score」などに置き換えてください。

分散分析(9)
図 12.38  分散分析(9)

12.7 レポート課題

今日の演習12の答案(Excelファイルと検定の結果)をメールで提出してください。 差出人は学内のメール・アドレス(k12x1001@cis.twcu.ac.jpなど)とし、宛先はkonishi@cis.twcu.ac.jpとします。 メールの本文には、学生番号、氏名、科目名、授業日(12月12日)を明記してください。


12.8 参考文献


[小西ホームページ]   [目次・索引]   [前の授業]   [次の授業]

2012年12月12日更新
小西 善二郎 <konishi@cis.twcu.ac.jp>
Copyright (C) 2012 Zenjiro Konishi. All rights reserved.