[小西ホームページ]   [目次・索引]   [前の授業]

情報処理技法(統計解析)第14回

目次
索引

目的に応じた分析手法の選択

分析手法の選択方法

これまでに、色々な検定や分析を行ってきました。 Excelに一つ一つ数式を入力したこともありましたが、本格的な検定や分析については「分析ツール」を利用しました。 この授業で扱った分析手法は以下の通りです。

それぞれの分析手法の操作方法はすでに説明しましたが、間違った分析手法を選んでしまうと、操作方法が正しくても意味のある結果は得られません。 最後の授業内容として、どのような目的のときに、どのような分析手法を選択すべきかということを考えます。

まず、変数の間の差異を見るか、関係を見るかを判断します。 差異を見る場合は、 t 検定か分散分析です。 関係を見る場合は、回帰分析になります。

次に、差異を見る場合、変数が2変数か3変数以上かを判断します。 2変数の場合は、 t 検定になります。 3変数以上の場合は、分散分析になります。

分析手法のフローチャート
分析手法のフローチャート

最後に、 t 検定の場合は、第10回のフローチャートの通りに判断します。 分散分析の場合も、第12回のフローチャートの通りに判断します。

分析手法の選択例

例題1. 中学2年生10名に対して、数学と理科の試験を実施した。 理科の得点を数学の得点で説明する方程式を知りたい。

解答: 数学の得点と理科の得点の関係を見るので、「回帰分析」を選択します。

例題2. 小学5年生の男子10名と女子10名に対して、身長を測定した。 性別によって身長に違いがあるか知りたい。 母分散は等しいと仮定する。

解答: 男子の身長と女子の身長の差異を見るので、 t 検定か分散分析です。 男子と女子で2変数なので、 t 検定です。 さらに、2標本であり、母分散が等しいと仮定されているので、「t 検定: 等分散を仮定した 2 標本による検定」を選択します。

例題3. 高校1年生、2年生、3年生それぞれ10名に対して、1日の勉強時間を調査した。 学年によって勉強時間に違いがあるか知りたい。

解答: 学年による勉強時間の差異を見るので、 t 検定か分散分析です。 1年生、2年生、3年生で3変数なので、分散分析です。 さらに、因子は学年だけなので一元配置となり、「分散分析: 一元配置」を選択します。


統計的推測のまとめ

この授業で紹介した確率分布は、正規分布、 t 分布、および F 分布です。 それぞれ、どこで使っているか、理解してください。

色々な確率分布
確率分布 説明 用途
正規分布 最も代表的な確率分布 (1)母分散が既知または標本が大きい場合の母平均の検定 (2)母比率の検定
t 分布 標本が小さい場合の正規分布の代用 母分散が未知かつ標本が小さい場合の母平均の検定
F 分布 分散の比の分布 (1)母分散の検定 (2)分散分析

仮説検定では、帰無仮説と対立仮説の2つの仮説を立ててから、有意かどうかを判定します。 有意かどうかが分かれば、検定結果が出ます。

仮説検定の流れ
有意である→帰無仮説が棄却される→対立仮説が採択される→対立仮説が言えるという結果
有意ではない→帰無仮説は棄却されない→対立仮説も採択されない→対立仮説は言えないという結果

基本的に、帰無仮説は「差がない」、対立仮説は「差がある」という意味です。 ただし、「より大きい」や「より小さい」という結論を得たい場合は、対立仮説をそれにします。

帰無仮説と対立仮説
問題 帰無仮説 対立仮説 検定方法
母平均が100かどうか 母平均=100 母平均≠100 両側検定
母平均が100より大きいか 母平均=100 母平均>100 片側検定
X の母平均と Y の母平均が等しいかどうか X の母平均= Y の母平均 X の母平均≠ Y の母平均 両側検定
X の母平均が Y の母平均より大きいか X の母平均= Y の母平均 X の母平均> Y の母平均 片側検定

有意かどうかを判定するには、有意水準を(例えば5%に)決めてから、信頼区間、検定統計量、または p 値を計算します。

信頼区間、検定統計量、 p
検定の基準 典型的な検定方法
信頼区間 95%信頼区間に100が入っていなければ、有意水準5%で有意である。 (100かどうかの検定)
検定統計量 t 統計量の絶対値が両側5%点より大きいならば、有意水準5%で有意である。 (両側検定)
p p 値が0.05未満ならば、有意水準5%で有意である。

今後の予定

今後の予定は以下の通りです。

1月25日(水)
定期試験を実施します。
1月27日(金)
この日までに、レポートの提出状況をメールで知らせます。
1月31日(火)
レポートの最終締切日です。 この日以後に提出されたレポートは採点しません。

試験について

試験会場は、学務課が配布する時間割で確認してください。

試験時間は30分間です。

試験の形式は、四者択一問題が10問です。

試験の内容は、記述統計学と統計的推測の基本についてです。 Excelや統計解析ソフトの操作方法は出題しません。

電卓、パソコンは使用不可です。 資料の持ち込みも不可です。

問1. 第3回から出題。 与えられた統計データを、どのような統計グラフ(棒グラフ、折れ線グラフ、円グラフ、帯グラフ)で表すのが適切かを選ぶ問題。

問2. 第4回から出題。 平均、中央値、分散を計算する問題。 公式を覚えておくこと。

問3. 第5回から出題。 散布図と相関係数の解釈に関する問題。

問4. 第6回から出題。 クロス集計表の解釈に関する問題。

問5. 第7回から出題。 正規分布のシグマ範囲に関する問題。

問6. 第9〜13回から出題。 適切な分析手法( t 検定、分散分析、回帰分析)を選択する問題。

問7. 第9〜13回から出題。 適切な分析手法( t 検定、分散分析、回帰分析)を選択する問題。

問8. 第9〜10回から出題。 「分析ツール」で t 検定を行ったとき、どの数値を見ればよいかを問う問題。

問9. 第11〜12回から出題。 「分析ツール」で分散分析を行ったとき、どの数値を見ればよいかを問う問題。

問10. 第13回から出題。 回帰分析において、 y 切片と回帰係数から、どのように回帰値を計算するかを問う問題。


成績評価について

この授業の成績は、レポートの提出が60%, 試験の得点が40%という割合で決まります。 レポートが未提出の場合、そのレポートは0点になりますので、レポートはすべて提出するようにしてください。


参考文献


[小西ホームページ]   [目次・索引]   [前の授業]

2017年1月11日更新
小西 善二郎 <konishi@cis.twcu.ac.jp>
Copyright (C) 2017 Zenjiro Konishi. All rights reserved.