本講義では、表計算ソフトと統計解析ソフト(Excelなど)を用いて統計解析を学ぶ。 統計解析の基本について解説しながら、具体的な統計解析の方法について実習を行う。 データの集計、グラフ化、仮説検定、統計的な分析などが行えることを目標とする。
確率の概念や統計的推定など、統計解析の基本を理解し、表計算ソフトなどを用いた、簡単な統計解析ができるようになる。
スケジュール欄を参照のこと
http://www.cis.twcu.ac.jp/~konishi/index-j.html
授業内容に応じて参考資料を紹介する。
毎回の課題60%と定期試験40%で成績を評価する。
以下の基準にしたがって成績を評価する。
課題はすべて提出すること。
メール・アドレス: konishi@cis.twcu.ac.jp
コンピュータの台数の関係により、履修希望者が定員(2限は40名、3限は80名)を越えた場合は抽選を行います。 抽選用紙には、時間割番号(2限はJJ610B, 3限はJJ610C)を記入してください。
この授業の題目は「統計解析」です。 この題目の意図は、統計学の基本を理解した上で、実際に統計データを解析するということです。
統計学は、「記述統計学」と「統計的推測」の大きく二つの学問分野に分けられます。
記述統計学 ( descriptive statistics )とは、「統計データをどうまとめるか」という学問分野です。 一般的に、統計データは大量の数の羅列です。 これをただ眺めていても、何が何だかよく分からないでしょう。
などの方法で統計データをまとめ、何らかの法則・規則を見つけ出す。 これが記述統計学です。
統計的推測 ( statistical inference )とは、「一部」を調べて「全部」を知る学問分野です。 「サンプル調査」という言葉を聞いたことがあれば、イメージが湧くでしょう。 統計的推測は、確率論が基礎になります。
例えば、血圧を下げると考えられる飲料の効果を調べたいとします。 日本人全員にこの飲料を飲んでもらえれば、効果があるかどうかが分かりますが、そんなことは不可能です。 そこで、ランダムに選んだ数十人に、一定期間この飲料を飲んでもらい、血圧の変化を調べます。 そして、確率論に基づいてこの統計データを解析し、日本人全員に効果があるかどうかを推測するというわけです。
飲料の効果を調べる場合、まず「この飲料に効果はない」と仮定します。 飲料を飲んだ数十人は、ある程度、血圧が下がっているかもしれませんが、偶然の範囲内のはずです。 しかし、偶然とは呼べない(=滅多に起こらない=確率が低い)ほど、数十人の血圧が下がっているならば、仮定が間違っていると考え、この飲料に血圧を下げる効果があると結論づけるのです。
なお、統計データを解析する前に、統計データを収集する必要があります。 データの集め方についての学問分野もあります( 実験計画法 ( design of experiment )や 社会調査法 ( social research )と呼ばれます)が、この授業の対象外です。
また、統計学の数学的理論についての学問分野もあります( 数理統計学 ( mathematical statistics )と呼ばれます)が、この授業では取り扱いません。
さて、実際に統計データを解析するわけですが、電卓をたたくのではなく、パソコンを使います。 この授業では、基本的にExcelを利用します。 Excel は表計算ソフトの一種ですが、統計用の機能もあります。 具体的には、
などの機能を利用して、統計データを解析します。
とは言っても、Excelだけでデータ解析を行うのには限界があります。 Excelの統計機能を補うために、「分析ツール」と呼ばれるソフトを使います。 「 分析ツール 」は、Excelに付属している統計機能です。 Excelを設定するだけで、「分析ツール」が利用できます。
なお、Mac用のExcelは、バージョン2008と2011では「分析ツール」が使えません。 もし自宅のパソコンがMacで、Excelのバージョンが2008か2011の場合は、「分析ツール」の代わりに「StatPlus」というソフトを利用してください。 「 StatPlus 」は、AnalystSoft社が開発・販売している統計解析ソフトです。 「StatPlus」には有料版と無料版があり、情報処理センターでは無料版がインストールされています。 メニューも出力もすべて英語で、日本語化されていませんが、興味のある人は試してみてください。
「分析ツール」を利用するには、最初の一回だけ、Excelの設定を行います。 Excelを起動したら、メニューバーで「ツール」→「Excel アドイン」とクリックして、「アドイン」ウィンドウを開きます。 そして、「分析ツール」チェックボックスをオンにして、「OK」ボタンをクリックします。
それでは、「分析ツール」の動作確認を行います。 最も身近な統計解析は、平均の計算でしょう、 ここでは、ある中学で5人の生徒(student)が数学のテストを受けたとして、以下の得点(score)だったとします。 Excelファイルをダウンロードしてください。
student | score |
---|---|
1 | 90 |
2 | 90 |
3 | 80 |
4 | 80 |
5 | 70 |
電卓なら、合計が90+90+80+80+70=410なので、平均は410÷5=82だと分かります。
「分析ツール」なら、次のようになります。
まず、Excelのウィンドウのリボンの「データ」をクリックし、「分析」の中の「データ分析」をクリックします。 すると、「データ分析」ウィンドウが開くので、「基本統計量」をクリックして、「OK」ボタンをクリックします。
すると、「基本統計量」ウィンドウが開くので、「入力範囲」入力欄の右側のボタンをクリックし、Excelの「score」と得点の範囲をドラッグし、同じボタンをクリックします。 そして、「列」ラジオ・ボタンをオンにし、「先頭行をラベルとして使用」チェックボックスをオンにし、「出力先」ラジオ・ボタンをオンにし、その入力欄の右のボタンをクリックし、Excelの余白をクリックし、同じボタンをクリックし、「統計情報」チェックボックスをオンにして、「OK」ボタンをクリックします。
すると、指定した余白に表が表示され、この「平均」という項目に平均が表示されます。
Excelの基本的な使い方は、1年のときの授業で習ったと思います。 ここでは、その復習をします。 Excelの特徴の一つは、セルに数式を入力すると、その数式を計算してくれることです。 Excelの 数式 ( formula )の書き方は、以下のとおりです。
(1)数式はイコール(
=
)から書き始めます。
(2)数式の中で、数値の代わりにセル参照(例えば
A1
)を書くと、セルA1の値が取り出されます。
例えば、セルA1の値が100ならば、数式
=A1+10
の値は110となります。
(3)足し算はプラス(
+
), 引き算はマイナス(
-
)ですが、掛け算はアスタリスク(
*
), 割り算はスラッシュ(
/
)です。
数式
=A1*B1
を
=A1B1
と省略することはできません。
また、分数は「
分子
/
分母
」という割り算にします。
(4)掛け算と割り算は、足し算と引き算より先に計算されます。
計算の順序を変えたいときは、括弧を使います。
例えば、数式
=A1+B1*C1
は、掛け算が先です。
足し算を先にしたければ、
=(A1+B1)*C1
と入力します。
(5)マイナス(
-
)は、引き算だけでなく、プラス・マイナスを入れ替えるときも使います。
例えば、セルA1の値が-3ならば、数式
=-A1
の値は3です。
Excelで2の平方根(√2)を計算したければ、ルート(√)を入力するのではなく、
=SQRT(2)
と入力します。
このSQRTは、平方根(ルート)を計算する関数です。
Excelには、このような関数がたくさん用意されています。
一般的に、 関数 ( function )の形式は
()
(
引数
)
(
第1引数
,
第2引数
)
(
第1引数
,
第2引数
,
第3引数
)
となります。
関数名の後に括弧を開き、
引数
(
argument
)(ひきすう)をコンマ(
,
)で区切って並べ、括弧を閉じます。
関数の引数には数式を書くことが多いですが、セル範囲を書くこともあります。
セル範囲
(
cell range
)は、左上のセル参照と右下のセル参照をコロン(
:
)で結んで表します。
例えば、ExcelにはSUMという、合計を計算する関数がありますが、
=SUM(A1:B3)
と入力すれば、セルA1からセルB3までの6つのセルの値を合計します。
セル参照
(
cell reference
)は、列記号(A, B, ...)と行番号(1, 2, ...)を並べたものですが、列記号や行番号の左側にドル(
$
)を付けることがあります。
ドル(
$
)が付いていない参照を
相対参照
(
relative reference
)、ドル(
$
)が付いている参照を
絶対参照
(
absolute reference
)と呼びます。
相対参照は、コピー・アンド・ペーストすると変化しますが、絶対参照は、コピー・アンド・ペーストしても変化しません。
(1)数式
=A1+10
が入力されたセルを、1つ右にコピー・アンド・ペーストすると、数式
=B1+10
が貼り付けられます。
(2)数式
=A1+10
が入力されたセルを、1つ下にコピー・アンド・ペーストすると、数式
=A2+10
が貼り付けられます。
(3)数式
=$A$1+10
が入力されたセルを、1つ右にコピー・アンド・ペーストすると、数式
=$A$1+10
が貼り付けられます。
(4)数式
=$A$1+10
が入力されたセルを、1つ下にコピー・アンド・ペーストすると、数式
=$A$1+10
が貼り付けられます。
(5)数式
=$A1+10
が入力されたセルを、1つ右にコピー・アンド・ペーストすると、数式
=$A1+10
が貼り付けられます。
(6)数式
=$A1+10
が入力されたセルを、1つ下にコピー・アンド・ペーストすると、数式
=$A2+10
が貼り付けられます。
(7)数式
=A$1+10
が入力されたセルを、1つ右にコピー・アンド・ペーストすると、数式
=B$1+10
が貼り付けられます。
(8)数式
=A$1+10
が入力されたセルを、1つ下にコピー・アンド・ペーストすると、数式
=A$1+10
が貼り付けられます。
履修者の予備知識を確認するため、アンケートを行います。 以下の質問に答え、回答をメールで提出してください。 差出人は学内のメール・アドレス(学生番号@cis.twcu.ac.jp)とし、宛先はkonishi@cis.twcu.ac.jpとします。 メールの本文には、学生番号、氏名、科目名、授業日(9月28日)を明記してください。
Windows用のExcelで「分析ツール」を利用するには、最初の一回だけ、「分析ツール」を登録する操作を行います。 Windowsのパソコンで「分析ツール」を使いたい人は、次のように操作してください。 (Excel 2010の場合です。)
まず、Excelを起動します。 リボンの「ファイル」をクリックし、「オプション」をクリックします。 すると、「Excelのオプション」ウィンドウが開くので、「アドイン」をクリックし、「管理」項目のプルダウン・メニューを「Excelアドイン」にして、「設定」ボタンをクリックします。
すると、「アドイン」ウィンドウが開くので、後はMacの場合と同様に、「分析ツール」チェックボックスをオンにして、「OK」ボタンをクリックします。