SPSS の即席コース

小田浩一@東京女子大学、コンピュータスキルズ, 2003/12/2

SPSSのクラッシュコースです。SPSSとは、とても長い間社会科学の領域で使われてきた統計パッケージです。その名も、Statistical Package for Social Scienceで、そのまんまです。こういう名前がつけられた時代からの伝統あるソフトウェアです。

1. 起動

 Finderメニューの移動から、コンピュータを選択すると、 TWCUというネットワークディスク(フォルダ)がある。 その中に、SPSSという赤いアイコンがあるので、 それをdouble click する。良く使うと思う場合には、 Dockにdragして登録しておくと良い。SPSS Startup PreferencesというWindowが開くので、そのまま OK ボタンをclick する(あるいは、RETURN/ENTER キーを押す)。

もし、この操作でSPSSが正しく起動せず、スカな場合には、 もう一度SPSSを起動しなおし、SPSS Startup Preferenceの ウィンドウで、[File] $HOME/spss.jnl となっているところの Fileボタンを押し、別のウィンドウが開いたら何もせず、OKボタンを押す。すると、[File] /Users/学生番号/spss.jnlと表示が 変更になるので、ここでOKボタンを押す。それで正常に起動するはず(2003/12/1はそうだった)。

 !SPSS-Output1というWindowと、Newdata という Windowが開く。

 

2. 新しいデータの入力

 あらかじめ入力されているデータがなくて、最初から入力する場合。エクセルと同様に、入力しはじめるセルをマウスで選択し、数値を入力していく。ためしに以下の20個のデータを入力してみる。

* .00 以下は、入力せずに1とタイプして、エンターキーを押すと、.00 は、自動的に付加される。

1.00
1.00
2.00
1.00
2.00
1.00
2.00
2.00
1.00
1.00
2.00
1.00
2.00
2.00
2.00
1.00
1.00
1.00
2.00
1.00

3. 統計処理

 SPSSは、統計パッケージなので、いろいろな統計処理を自動的にこなしてくれる。今入力したデータWindowから、処理を選択して、オプションを設定していくと、結果がOutput Windowに表示される。

 ためしに、Statisticsメニューから、Summarize/Descriptivesを使って、記述統計、つまり平均・標準偏差などのデータに関する基礎統計量のサマリーを出してみよう。

 Descriptives を選ぶと、どの変数について処理するかを入力するWindowが表示される。そこで、今入力した var00001だけが左の欄にリストされているはずである。これを右の処理の対象をリストする欄に右向き三角ボタンを押して入れてやる。そして、OKボタンを押す。以下のように表示されたら成功である。


Number of valid observations (listwise) =        20.00
 
                                               Valid
Variable      Mean    Std Dev   Minimum   Maximum      N  Label
 
VAR00001      1.45        .51      1.00      2.00     20

4. 変数名の設定

 var00001 でも問題ないが、たくさんの変数を使う(数十の質問からなる調査をしたような場合)ようになると、中身の分かる名前をつけておいた方が混乱がなくて良い。

 その場合には、データWindowで、名前をつけたい変数のセルをdouble clickする。そうすると、変数を指定するWindowが開くので、名前を入力し、変 数のタイプなどを指定する。Yes/Noと言った文字をそのまま入力したりすること もできる(Type.. のボタンを押して、その変数のデータのタイプを変更するウィ ンドウを表示させ、Numeric;数値データになっているところを、String;文字デー タに変更する)。また、欠損値(Missing...)を何か指定する場合も、ここで行う。

 ここでは、借りに smoking という変数名にしておく(たとえば、Yes/No のデータを 1と2に置き換えて、1=non smoking, 2=smokingで入力したのだということにしておく)。

 

5. cross table:クロス集計

 クロス集計は、調査の分析でもっとも重宝するものだろう。その仕方を陳べる。3. の統計は、いわば、単純集計の結果である。クロス集計は、「質問1 でYesと答えた人とNo と答えた人で、質問2の答え方に違いがあったかどうか?」というような、2つのもの(質問に対する答え)の関係を調べるものである。

 smoking 欄の横に、次のデータを入力しよう。今度は、Yes/No をそのまま入力するために、変数名のセルを選択して、cancer と入力し、Type をString(文字)にしてから、入れよう(smoking 欄のデータも再録してあるが、これは入力の必要はない)。

    1.00        n
    1.00        y
    2.00        y
    1.00        n
    2.00        y
    1.00        n
    2.00        n
    2.00        y
    1.00        n
    1.00        n
    2.00        y
    1.00        y
    2.00        y
    2.00        y
    2.00        y
    1.00        n
    1.00        n
    1.00        y
    2.00        y
    1.00        n

 入力ミスがないか、単純集計をとって確認しよう。cancer 変数は、y/n の文字なので、平均や標準偏差は計算できないから、Statistics -> Summarize ->Frequencies を使う。Frequency とは、度数とか頻度と訳される、あたま数・個数のことである。以下のようになるはずである。

CANCER
 
                                                        Valid    
Cum
Value Label                 Value  Frequency  Percent  Percent 
Percent
 
                         n                9     45.0     45.0    
45.0
                         y               11     55.0     55.0   
100.0
                                     -------  -------  -------

                            Total        20    100.0    100.0
 
Valid cases      20      Missing cases      0

 

 このsmoking と cancer をクロス集計するには、Statistics -> Summarize ->Crosstabs... を使う。表の縦横にどちらの変数を指定するかを聞いてくるので、それをいつものように指定して、OK ボタンを押すとクロス集計表をOutput windowに出してくれる。

 ただし、そのままだと、クロス表を出すだけなので、この表が統計的に有意に関係があることを示しているのかどうかをついでに検定してもらうために、Statistics のオプションボタンを押して、カイ自乗(Chi square)などをチェックしてからOKボタンを押す。そうすると、以下のような結果が得られるはずである。

 
CANCER  by  SMOKING
 
                    SMOKING      Page 1 of 1
            Count  |
                   |
                   |                    Row
                   |    1.00|    2.00| Total
CANCER     --------+--------+--------+
         n         |     8  |     1  |     9
                   |        |        |  45.0
                   +--------+--------+
         y         |     3  |     8  |    11
                   |        |        |  55.0
                   +--------+--------+
            Column      11        9       20
             Total    55.0     45.0    100.0
 
      Chi-Square                  Value           DF              
Significance
--------------------          -----------        ----             ------------
 
Pearson                          7.59310           1                 .00586
Continuity Correction            5.30762           1                 .02123
Likelihood Ratio                 8.35562           1                 .00384
Fisher's Exact Test:
   One-Tail                                                       
   .00917
   Two-Tail                                                       
   .00976
 
Minimum Expected Frequency -    4.050
Cells with Expected Frequency < 5 -     3 OF     4 ( 75.0%)

 
 
                                                                  
 Approximate
     Statistic                    Value        ASE1      Val/ASE0 
 Significance
--------------------            ---------    --------    --------  ------------
 
Phi                               .61616                             .00586 *1
Cramer's V                        .61616                             .00586 *1
Contingency Coefficient           .52458                             .00586 *1
 
 
Lambda :
   symmetric                      .55556       .22495     2.08514

   with CANCER   dependent        .55556       .24568     1.60128

   with SMOKING  dependent        .55556       .24568     1.60128

Goodman & Kruskal Tau :
   with CANCER   dependent        .37966       .20578                .00724 *2
   with SMOKING  dependent        .37966       .20578                .00724 *2
 
 
*1 Pearson chi-square probability
*2 Based on chi-square approximation
 
Number of Missing Observations:  0
 

6. 統計的に有意かどうかの判定

 確率(Probability - SPSS の Output では、significance; significant は、日本語に翻訳すると有意であるという意味)が、0.05未満なら、5%水準で 有意、0.01未満ならば、1%水準で有意に関係があると言える。表のうち最上段 のPeasonの方法のところをみるのが普通である。この場合は、ただし、クロス 表のセルの中に、5よりも少ない頻度があるので、Peasonの方法では正しい 確率の計算ができない。その場合は、Fisher's Exact TestのTwo-tailのところの 確率を使う。p=.00976と0.05よりも、さらに1%よりも小さいので、Smokingと cancerの間には統計的に有意な関係があると考えてよいことになる。

 

7. 結果の印刷

 SPSS から直接印刷するのは、うまくいかない。そこで、Output Window から必要な部分を Copy & Paste で、Mailの 新規メッセージに貼付け、自分宛に送って、それを 印刷する。こうすると、誰が印刷したのかも分かるし、 結果がメールとして保存されるので、課題提出などにも 便利なはずである。1つ苦しいのは、この方法だと、 罫線が消えたり、文字の位置ずれが起こって結果が 見にくくなるところである。Jeditに貼付けると文字の 位置ずれはなくなるが、誰が印刷したものか分からない ので、上の方に必ず学生番号などを書き込んでおく。

このハンドアウトもそうしている。

 

8. ファイルの保存

 データファイルやOutputは、保存しておこう。とくに、データは何度も利用す るので、入力の手間が無駄にならないようにすることが大事である。File -> Saveを選んで、適当なファイル名をつけて保存する。

データファイルのファイル名の最後は、.savになる。sampleというファイル名を つけたい場合は、sample.savが、SPSSとして適切なデータファイル名になる。 Output file の場合は、ファイル名の最後が.lst になる。sample.sav というデー タファイルの出力ウィンドウの内容を保存するファイル名は、sample.lst が適 切であろう。同じデータについてのデータファイルと出力結果のファイルである ということが分かるからである。

こうして保存したファイルは、次回SPSSを使うと きに、File ->Open で呼び出して使うことができる。

 

課題

簡単なデータをE-mailでおくるので、(1). 記述統計や度数を しらべ、(2).クロス集計して、結果を k-oda@twcu.ac.jp までE-mail しなさい。
Koichi Oda