本講義では、表計算ソフトExcelを用いて統計データ解析を学ぶ。 記述統計学および統計的推測の基本について解説しながら、具体的なデータ解析の方法について実習を行う。 データの集計、グラフ化、仮説検定、統計的な分析などが行えることを目標とする。
なお、Excelの統計機能を補うために、統計ソフトStatPlusまたは統計ソフトRを併用することがある。
「スケジュール」の欄を参照
http://www.cis.twcu.ac.jp/~konishi/index-j.html
授業内容に応じて参考資料を紹介する。
毎回の課題60%と定期試験40%で成績を評価する。
以下の基準にしたがって成績を評価する。
なお、Excelの統計機能を補うために、統計ソフトStatPlusまたは統計ソフトRを併用することがある。
「コンピュータI」2単位を修得していること。
課題はすべて提出すること。
メール・アドレス: konishi@cis.twcu.ac.jp
コンピュータの台数の関係により、履修希望者が80名を越えた場合は抽選を行います。 抽選用紙には、時間割番号(2限はJJ207B, 3限はJJ207C)を記入してください。
この授業の題目は「統計データ解析」です。 この題目の意図は、統計学の基本を理解した上で、実際に統計データを解析するということです。
統計学は、「記述統計学」と「統計的推測」の大きく二つの学問分野に分けられます。
記述統計学 ( descriptive statistics )とは、「統計データをどうまとめるか」という学問分野です。 一般的に、統計データは大量の数の羅列です。 これをただ眺めていても、何が何だかよく分からないでしょう。
などの方法で統計データをまとめ、何らかの法則・規則を見つけ出す。 これが記述統計学です。
統計的推測 ( statistical inference )とは、「一部」を調べて「全部」を知る学問分野です。 「サンプル調査」という言葉を聞いたことがあれば、イメージが湧くでしょう。 統計的推測は、確率論が基礎になります。
例えば、血圧を下げると考えられる飲料の効果を調べたいとします。 日本人全員にこの飲料を飲んでもらえれば、効果があるかどうかが分かりますが、そんなことは不可能です。 そこで、ランダムに選んだ数十人に、一定期間この飲料を飲んでもらい、血圧の変化を調べます。 そして、確率論に基づいてこの統計データを解析し、日本人全員に効果があるかどうかを推測するというわけです。
なお、統計データを解析する前に、統計データを収集する必要があります。 データの集め方についての学問分野もあります( 実験計画法 ( design of experiment )や 社会調査法 ( social research ))が、この授業の対象外です。
また、統計学の数学的理論についての学問分野もあります( 数理統計学 ( mathematical statistics ))が、この授業では取り扱いません。
さて、実際に統計データを解析するわけですが、電卓をたたくのではなく、パソコンを使います。 この授業では、基本的にExcelを利用します。 Excel は表計算ソフトの一種ですが、統計用の機能もあります。 具体的には、
などの機能を利用して、統計データを解析します。
とは言っても、Excelだけでデータ解析を行うのには限界があります。 以下に、Excelの統計機能を補うためのソフトを紹介します。
「 分析ツール 」は、Windows用のExcelに付属している統計機能です。 Excelを設定するだけで、「分析ツール」が利用できます。 授業では、持ち込みのパソコンでデモを行うのみとし、課題にはしません。 もし、「分析ツール」に興味があり、Windowsのパソコンを持参できる人は、デモと同時に使ってみるのもよいでしょう。
「 StatPlus 」は、AnalystSoft社が開発・販売している統計解析ソフトです。 「StatPlus」は、Mac用のExcelと組み合わせて使います。 「StatPlus」には有料版と無料版があり、情報処理センターでは無料版がインストールされています。 欠点は、メニューも出力もすべて英語で、日本語化されていないことです。 授業では、デモを行うのみとし、課題にはしません。 自宅のパソコンがMacだという人は、参考にしてください。
「 Rコマンダー 」は、フリーの統計解析ソフトRを、マウスで操作できるようにしたパッケージです。 「Rコマンダー」は、WindowsでもMacでも動きます。 情報処理センターでは、「R」と「R64」の2種類がインストールされていて、「R64」のほうが字がきれいです。 「Rコマンダー」は、出力は英語ですが、メニューは日本語化されていますので、ある程度は使いやすいでしょう。 授業では、「Rコマンダー」を使った課題を出します。
Windows用のExcelで「分析ツール」を利用するには、最初の一回だけ、「分析ツール」を登録する操作を行います。 Windowsのパソコンで「分析ツール」を使いたい人は、次のように操作してください。 (Excel 2010の場合です。)
まず、Excelを起動します。 リボンの「ファイル」をクリックし、「オプション」をクリックします。 すると、「Excelのオプション」ウィンドウが開くので、「アドイン」をクリックし、「管理」項目のプルダウン・メニューを「Excelアドイン」にして、「設定」ボタンをクリックします。
すると、「アドイン」ウィンドウが開くので、「分析ツール」チェックボックスをオンにして、「OK」ボタンをクリックします。
「Rコマンダー」を利用するには、最初の一回だけ、「Rコマンダー」をインストールする操作を行います。 次のように操作してください。
まず、DockのFinderのアイコンをクリックし、「アプリケーション」をクリックし、「R64」をダブル・クリックします。 「R」が起動したら、メニューバーで「パッケージとデータ」→「パッケージインストーラ」とクリックします。 すると、「Rパッケージインストーラ」ウィンドウが開くので、「CRAN(バイナリ)」メニューを選び、「一覧を取得」ボタンをクリックします。
すると、「CRAN mirror」ウィンドウが開くので、「Japan(Tokyo)」をクリックし、「OK」ボタンをクリックします。 「デフォルトに設定しますか」と聞かれたら、「はい」ボタンをクリックします。
必要に応じてスクロールし、「Rパッケージインストーラ」ウィンドウのパッケージの列から「Rcmdr」を探して、その行をクリックします。 「インストールする場所」項目の「ユーザエリア」ラジオ・ボタンをオンにし、「依存パッケージも含める」チェックボックスをオンにして、「選択をインストール」ボタンをクリックします。
「Rコンソール」ウィンドウに記号「>」が表示されたらインストールは完了です。
インストールが完了したら、メニューバーで「R」→「Rを終了」とクリックします。 色々保存するか聞かれますが、保存しなくてもよいです。
自宅のパソコンがWindowsで、自宅でも「Rコマンダー」を使いたい人は、以下のようにして「R」と「Rコマンダー」をインストールしてください。
続いて、「R」を起動し、メニューバーで「パッケージ」→「パッケージのインストール」とクリックします。 「CRAN mirror」ウィンドウが開くので、最も近い国名や都市名をクリックし、「OK」ボタンをクリックします。
すると、「Packages」ウィンドウが開くので、「Rcmdr」をクリックして、「OK」ボタンをクリックします。
「Would you like to use ...」や「Would you like to create ...」と聞かれたら、「はい」ボタンをクリックします。
最後に、メニューバーで「パッケージ」→「パッケージの読み込み」とクリックします。 すると、「1つを選択してください」と聞かれるので、「Rcmdr」をクリックして、「OK」ボタンをクリックします。
「Rcmdrが利用する次のパッケージがありません」と聞かれたら、「はい」ボタンをクリックします。 すると、「無いパッケージをインストールする」ウィンドウが開くので、「CRAN」ラジオ・ボタンをオンにして、「OK」ボタンをクリックします。
必要なパッケージが次々とインストールされ、最後に「Rコマンダー」ウィンドウが開けばインストールは成功です。 インストールが完了したら、「Rコマンダー」ウィンドウで、「ファイル」→「終了」→「コマンダーとRを」とクリックします。 色々保存するか聞かれますが、保存しなくてもよいです。
それでは、ソフトの動作確認を行います。 最も身近な統計データ解析は、平均の計算でしょう、 ここでは、ある中学で5人の生徒(student)が数学のテストを受けたとして、以下の得点(score)だったとします。 Excelファイルをダウンロードしてください。
student | score |
---|---|
1 | 90 |
2 | 90 |
3 | 80 |
4 | 80 |
5 | 70 |
注意: Macの「Rコマンダー」は日本語が入力できないので、「student」や「score」としています。
電卓なら、合計が90+90+80+80+70=410なので、平均は410÷5=82だと分かります。
Windows用のExcelの「分析ツール」なら、次のようになります。
まず、Excelのウィンドウのリボンの「データ」をクリックし、「分析」の中の「データ分析」をクリックします。 すると、「データ分析」ウィンドウが開くので、「基本統計量」をクリックして、「OK」ボタンをクリックします。
すると、「基本統計量」ウィンドウが開くので、「入力範囲」入力欄の右側のボタンをクリックし、Excelの「score」と得点の範囲をドラッグし、同じボタンをクリックします。 そして、「列」ラジオ・ボタンをオンにし、「先頭行をラベルとして使用」チェックボックスをオンにし、「出力先」ラジオ・ボタンをオンにし、その入力欄の右のボタンをクリックし、Excelの余白をクリックし、同じボタンをクリックし、「統計情報」チェックボックスをオンにして、「OK」ボタンをクリックします。
すると、指定した余白に表が表示され、この「平均」という項目に平均が表示されます。
Mac用のExcelと「StatPlus」なら、次のようになります。
まず、DockのFinderのアイコンをクリックし、「アプリケーション」をクリックし、「StatPlus」をダブル・クリックします。 (ウィンドウは開きません。) 次に、メニューバーで「Statistics」→「Basic Statistics and Tables」→「Descriptive Statistics」とクリックします。 すると、「Descriptive Statistics」ウィンドウが開くので、「Variables」入力欄の右側のボタンをクリックし、Excelの「score」と得点の範囲をドラッグし、「Descriptive Statistics」ウィンドウをクリックします。 そして、「Labels in first row」チェックボックスをオンにして、「OK」ボタンをクリックします。
すると、新しくExcelのウィンドウが開き、この「Mean」という項目に平均が表示されます。
「StatPlus」を終了するには、Dockの「StatPlus」アイコンをクリックし、メニューバーで「StatPlus」→「Quit StatPlus:mac」とクリックします。
「Rコマンダー」なら、次のようになります。
最初に「Rコマンダー」ウィンドウを開きますが、MacとWindowsで開き方が違うので、個別に説明します。
Macの場合、まず、DockのFinderのアイコンをクリックし、「アプリケーション」をクリックし、「R64」をダブル・クリックします。 次に、メニューバーで「パッケージとデータ」→「パッケージマネージャ」とクリックします。 すると、「Rパッケージマネージャ」ウィンドウが開くので、必要に応じてスクロールし、パッケージの列から「Rcmdr」を探し、その左端のチェックボックスをオンにします。
しばらく待つと、「Rコマンダー」ウィンドウが開きます。
Windowsの場合、まず、スタート・メニューで「すべてのプログラム」→「R」→「R」とクリックします。 次に、メニューバーで「パッケージ」→「パッケージの読み込み」とクリックします。 すると、「1つを選択してください」ウィンドウが開くので、「Rcmdr」をクリックして、「OK」ボタンをクリックします。
しばらく待つと、「Rコマンダー」ウィンドウが開きます。
「Rコマンダー」ウィンドウが開いたら、後の操作はMacとWindowsで共通です。
Excelのウィンドウで、「score」と得点の範囲をドラッグし、右クリックして「コピー」をクリックします。 「Rコマンダー」ウィンドウをアクティブにして、「データ」→「データのインポート」→「テキストファイルまたはクリップボード, URLから」とクリックします。 すると、インポート用のウィンドウが開くので、「ファイル内に変数名あり」チェックボックスをオンにし、「クリップボード」ラジオ・ボタンをオンにして、「OK」ボタンをクリックします。
「Rコマンダー」ウィンドウの「データセットを表示」ボタンをクリックすると、データが確認できます。
「Rコマンダー」ウィンドウで、「統計量」→「要約」→「数値による要約」とクリックします。 すると、「数値による要約」ウィンドウが開くので、「平均」チェックボックスをオンにして、「OK」ボタンをクリックします。
すると、「Rコマンダー」ウィンドウの「出力ウィンドウ」欄の「mean」という項目に平均が表示されます。
「Rコマンダー」を終了するには、「Rコマンダー」ウィンドウで、「ファイル」→「終了」→「コマンダーとRを」とクリックします。 色々保存するか聞かれますが、保存しなくてもよいです。 DockにX11のアイコンが残った場合は、そのアイコンをクリックして、メニューバーで「X11」→「X11を終了」とクリックします。
注意: Macの「Rコマンダー」ウィンドウが他のウィンドウの後ろに隠れたときは、DockのX11のアイコンをクリックしてください。
履修者の予備知識を確認するため、アンケートを行います。 以下の質問に答え、回答をメールで提出してください。 差出人は学内のメール・アドレス(k12x1001@cis.twcu.ac.jpなど)とし、宛先はkonishi@cis.twcu.ac.jpとします。 メールの本文には、学生番号、氏名、科目名、授業日(9月26日)を明記してください。