SPSSのクラッシュコースです。2かいで、かんたんなつかいかたをおぼえます。
GNUのサブメニューからSPSSをdouble click する。SPSS Startup PreferencesというWindowが開くので、そのまま OK ボタンをclick する(あるいは、RETURN/ENTER キーを押す)。
!SPSS-Output1というWindowと、Newdata という Windowが開く。
あらかじめ入力されているデータがなくて、最初から入力する場合。エクセルと同様に、入力しはじめるセルをマウスで選択し、数値を入力していく。ためしに以下の20個のデータを入力してみる。
* .00 以下は、入力せずに1とタイプして、エンターキーを押すと、.00 は、自動的に付加される。
1.00 1.00 2.00 1.00 2.00 1.00 2.00 2.00 1.00 1.00 2.00 1.00 2.00 2.00 2.00 1.00 1.00 1.00 2.00 1.00
SPSSは、統計パッケージなので、いろいろな統計処理を自動的にこなしてくれる。今入力したデータWindowから、処理を選択して、オプションを設定していくと、結果がOutput Windowに表示される。
ためしに、Statisticsメニューから、Summarize/Descriptivesを使って、記述統計、つまり平均・標準偏差などのデータに関する基礎統計量のサマリーを出してみよう。
Descriptives を選ぶと、どの変数について処理するかを入力するWindowが表示される。そこで、今入力した var00001だけが左の欄にリストされているはずである。これを右の処理の対象をリストする欄に右向き三角ボタンを押して入れてやる。そして、OKボタンを押す。以下のように表示されたら成功である。
Number of valid observations (listwise) = 20.00 Valid Variable Mean Std Dev Minimum Maximum N Label VAR00001 1.45 .51 1.00 2.00 20
var00001 でも問題ないが、たくさんの変数を使う(数十の質問からなる調査をしたような場合)ようになると、中身の分かる名前をつけておいた方が混乱がなくて良い。
その場合には、データWindowで、名前をつけたい変数のセルをdouble clickする。そうすると、変数を指定するWindowが開くので、名前を入力し、変 数のタイプなどを指定する。Yes/Noと言った文字をそのまま入力したりすること もできる(Type.. のボタンを押して、その変数のデータのタイプを変更するウィ ンドウを表示させ、Numeric;数値データになっているところを、String;文字デー タに変更する)。また、欠損値(Missing...)を何か指定する場合も、ここで行う。
ここでは、借りに smoking という変数名にしておく(たとえば、Yes/No のデータを 1と2に置き換えて、1=non smoking, 2=smokingで入力したのだということにしておく)。
クロス集計は、調査の分析でもっとも重宝するものだろう。その仕方を陳べる。3. の統計は、いわば、単純集計の結果である。クロス集計は、「質問1 でYesと答えた人とNo と答えた人で、質問2の答え方に違いがあったかどうか?」というような、2つのもの(質問に対する答え)の関係を調べるものである。
smoking 欄の横に、次のデータを入力しよう。今度は、Yes/No をそのまま入力するために、変数名のセルを選択して、cancer と入力し、Type をString(文字)にしてから、入れよう(smoking 欄のデータも再録してあるが、これは入力の必要はない)。
1.00 n 1.00 y 2.00 y 1.00 n 2.00 y 1.00 n 2.00 n 2.00 y 1.00 n 1.00 n 2.00 y 1.00 y 2.00 y 2.00 y 2.00 y 1.00 n 1.00 n 1.00 y 2.00 y 1.00 n
入力ミスがないか、単純集計をとって確認しよう。cancer 変数は、y/n の文字なので、平均や標準偏差は計算できないから、Statistics -> Summarize ->Frequencies を使う。Frequency とは、頻度つまり、数のことである。以下のようになるはずである。
CANCER Valid Cum Value Label Value Frequency Percent Percent Percent n 9 45.0 45.0 45.0 y 11 55.0 55.0 100.0 ------- ------- ------- Total 20 100.0 100.0 Valid cases 20 Missing cases 0
このsmoking と cancer をクロス集計するには、Statistics -> Summarize ->Crosstabs... を使う。表の縦横にどちらの変数を指定するかを聞いてくるので、それをいつものように指定して、OK ボタンを押すとクロス集計表をOutput windowに出してくれる。
ただし、そのままだと、クロス表を出すだけなので、この表が統計的に有意に関係があることを示しているのかどうかをついでに検定してもらうために、Statistics のオプションボタンを押して、カイ自乗(Chi square)などをチェックしてからOKボタンを押す。そうすると、以下のような結果が得られるはずである。
CANCER by SMOKING SMOKING Page 1 of 1 Count | | | Row | 1.00| 2.00| Total CANCER --------+--------+--------+ n | 8 | 1 | 9 | | | 45.0 +--------+--------+ y | 3 | 8 | 11 | | | 55.0 +--------+--------+ Column 11 9 20 Total 55.0 45.0 100.0 Chi-Square Value DF Significance -------------------- ----------- ---- ------------ Pearson 7.59310 1 .00586 Continuity Correction 5.30762 1 .02123 Likelihood Ratio 8.35562 1 .00384 Fisher's Exact Test: One-Tail .00917 Two-Tail .00976 Minimum Expected Frequency - 4.050 Cells with Expected Frequency < 5 - 3 OF 4 ( 75.0%) Approximate Statistic Value ASE1 Val/ASE0 Significance -------------------- --------- -------- -------- ------------ Phi .61616 .00586 *1 Cramer's V .61616 .00586 *1 Contingency Coefficient .52458 .00586 *1 Lambda : symmetric .55556 .22495 2.08514 with CANCER dependent .55556 .24568 1.60128 with SMOKING dependent .55556 .24568 1.60128 Goodman & Kruskal Tau : with CANCER dependent .37966 .20578 .00724 *2 with SMOKING dependent .37966 .20578 .00724 *2 *1 Pearson chi-square probability *2 Based on chi-square approximation Number of Missing Observations: 0
確率(Probability - SPSS の Output では、significance; significant は、日本語に翻訳すると有意であるという意味)が、0.05未満なら、5%水準で 有意、0.01未満ならば、1%水準で有意に関係があると言える。ただし、クロス 表のセルの中に、5よりも少ない頻度がある場合には、この計算は正しくでき ないので、ふつうのChisquareの値は参考にできない(どうすれば良いかにつ いては、統計書や別の講義を参考にして欲しい)。
SPSS から直接印刷することは、うまくいかない。そこで、Output Window から必要な部分を Copy & Paste で、mule で編集しているテキストファイルに貼付けてから、それを印刷するようにする。
このハンドアウトもそうしている。
データファイルやOutputは、保存しておこう。とくに、データは何度も利用す るので、入力の手間が無駄にならないようにすることが大事である。File -> Saveを選んで、適当なファイル名をつけて保存する。
データファイルのファイル名の最後は、.savになる。sampleというファイル名を つけたい場合は、sample.savが、SPSSとして適切なデータファイル名になる。 Output file の場合は、ファイル名の最後が.lst になる。sample.sav というデー タファイルの出力ウィンドウの内容を保存するファイル名は、sample.lst が適 切であろう。同じデータについてのデータファイルと出力結果のファイルである ということが分かるからである。
こうして保存したファイルは、次回SPSSを使うと きに、File ->Open で呼び出して使うことができる。