51
1 社会調査データの分析 社会調査論(石井) 目次 1 分析の基礎 2 2変数の分析(相関と関連) 3 t検定と分散分析 4 回帰分析とパス解析 5 ロジスティック回帰分析とログリニア分析 6 因子分析と数量化3類 1章 分析の基礎 分析の手順 調査データの入力と点検がおわると、次はデータの分析となる。データ分析は、通常、以下 のような手順で進める。 1変数の分析 2変数の分析 多変量解析 まず、一つ一つの変数を別々に分析する(1変数の分析) 。次に、変数を2つ組み合わせた場 合の変数間の関係を分析する(2変数の分析)。ここで分析を終えることもあるが、さらに発展 させて3変数以上の変数間の構造の分析(多変量解析)を行なうこともある。 分析の手順としては、最初から高度なモデルを適用するのではなく、単純集計や平均など1 変数の分析から始める方がよい。1変数の分析を行うことによって、しばしば入力ミスや質問 文の問題点などを発見できることがある。この段階を飛ばして、いきなり、2変数、多変量解 析をするとこうした点を見落としやすい。 分析の方法を説明する前に、データ分析に関連する基本的な概念をいくつか説明しよう。 ケース(case)と変数 SPSS のデータは、 変数×ケースの構造をとる 分析集団中の一つの個体をケースという。

社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

  • Upload
    lequynh

  • View
    225

  • Download
    5

Embed Size (px)

Citation preview

Page 1: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

1

社会調査データの分析 社会調査論(石井)

目次

1 分析の基礎

2 2変数の分析(相関と関連)

3 t検定と分散分析

4 回帰分析とパス解析

5 ロジスティック回帰分析とログリニア分析

6 因子分析と数量化3類

1章 分析の基礎

分析の手順

調査データの入力と点検がおわると、次はデータの分析となる。データ分析は、通常、以下

のような手順で進める。

1変数の分析

2変数の分析

多変量解析

まず、一つ一つの変数を別々に分析する(1変数の分析)。次に、変数を2つ組み合わせた場

合の変数間の関係を分析する(2変数の分析)。ここで分析を終えることもあるが、さらに発展

させて3変数以上の変数間の構造の分析(多変量解析)を行なうこともある。

分析の手順としては、最初から高度なモデルを適用するのではなく、単純集計や平均など1

変数の分析から始める方がよい。1変数の分析を行うことによって、しばしば入力ミスや質問

文の問題点などを発見できることがある。この段階を飛ばして、いきなり、2変数、多変量解

析をするとこうした点を見落としやすい。

分析の方法を説明する前に、データ分析に関連する基本的な概念をいくつか説明しよう。

ケース(case)と変数

SPSS のデータは、変数×ケースの構造をとる 分析集団中の一つの個体をケースという。

Page 2: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

2

ケースは、社会調査であれば調査対象者(個人または世帯)、都道府県を単位とした分析であれ

ば都道府県になる。各々のケースは、いくつかの変数について値をもつ。例えば、社会調査デ

ータであれば、各質問が変数である。このように、ケースと変数は、社会調査データにおける

行と列の関係にある(図 1.1.1.参照)。普通SPSSやSASなど統計パッケージで分析する

のは、このような[ケース×変数]という構造をなすデータである。

図 1.1.1 変数とケースの関係

変数

1 2 3 4 5 ……… m

↓ ↓ ↓ ↓ ↓ ↓

ケース1→ × × × × × ……… ×

ケース2→ × × × × × ……… ×

ケース3→ × × × × × ……… ×

ケース4→ × × × × × ……… ×

: :

: :

ケース n → × × × × × ……… ×

ケースは、各変数について必ず値をもつ(ただし、値がない=欠損値もSASでは値の一種

である)。ケースとは、アンケート調査ならば一人の回答者、都道府県データならば一つの都道

府県が対応する。変数とは、アンケート調査ならば、入力する一つの質問項目が対応する。

ある変数に対して処理(例えば、合成変数をつくるなど)すると、原則として全てのケースに

同様の処理がなされる。

プログラムを書くことも出来るが(パッチ処理)、インタラクティブなメニュー画面を用いた

分析が現在のバージョンでは一般的である。

値の水準

変数の値は、普通、4つの水準に分類することが多い。これを、名義尺度、順序尺度、間隔

尺度、比例尺度という。後者になるほど、より高度な分析モデルを適用できる。

(1) 名義尺度は、値がカテゴリーとしての意味しかもたないものを言う。つまり、変数の値

は単なるラベルであり、数としての意味はない。例えば、性別は、M、Fなどの文字で入力し

てもよいし、男性=1、女性=2という数字で入力してもよく、数字で入力した場合でも数値

としての意味はない。男性=5、女性=3などと入力しても同じことである。このような変数

には、他に職業、出身地などがある。

(2) 順序尺度は、値の順序だけが意味をもつものを言う。例えば、学歴を、中学卒=1、高

Page 3: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

3

校卒=2、大学卒=3と入力した場合、数字の絶対的な大きさは意味を持たないが、順序だけ

は意味がある。つまり、大学卒と中学卒の差(3-1=2)が高校卒と中学卒の差(2-1=

1)の2倍とは言えないが、値が大きい方が教育年数が長いという順序関係には意味がある。

このような順序尺度は、社会調査データには非常に多い。例えば、「~の意見をどう思いますか」

という質問への評定法の回答、「非常に賛成=1、やや賛成=2、どちらとも言えない=3、や

や反対=4、非常に反対=5」は順序尺度である。

(3) 間隔尺度は、値の順序に加えて変数の差が意味をもつものを言う。間隔尺度では尺度値

の差はどこでも等しいが、尺度値に絶対0点がなく、尺度値を適当に加算しても尺度値全体の

意味は変わらない。例えば、知能指数は、100と90の差10は、110と90の差と同じ

とみなせるが、知能指数100の知能は50の2倍であるということは言えない。つまり、知

能指数は値の絶対的な水準ではなく、互いの差だけが意味をもつのである。このような変数に

は、ほかに気温(摂氏)がある。

(4) 間隔尺度に加えて値の比率も意味をもつものを比例尺度という。これは、値0が尺度値

が「ない」という意味をもつことであるとも言い換えられる。例えば、年収は、差も比率も意

味をもつので比例尺度である。ただし、実際の統計分析では間隔尺度と比例尺度の区別は必要

でないことの方が多い。

上の4つの変数のうち、最初の二つを質的変数、最後の二つを量的変数とも言う。この二つ

の区別は、統計分析の場合には非常に重要である。分析する変数がどの尺度であるかによって

用いることのできるモデルが異なるからである。量的尺度にしか適用できないモデルを質的尺

度の変数に適用しても分析結果は意味をもたない。

平均の計算 可能な変換 意味 例

のあるもの

名義尺度 × 1対1変換 カテゴリー 性別、地域

順位尺度 × 単調関数 値の順序 順位

間隔尺度 ○ f(x)=ax+b 変数の差 温度(摂氏

a>0 )、知能指

比例尺度 ○ f(x)=ax 変数の差と比 所得(金額)、

テレビ視聴時間

Page 4: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

4

分析法の種類

ここで、社会調査データでよく使われる分析法を分類しよう。データ分析のモデルは、大き

く分けて、(1)分析する変数について、従属変数と独立変数の区別するもの、(2)そうした区別

をしないものに分けることができる。

(1)従属変数は被説明変数と言うこともあり、独立変数は説明変数ということもある。従属-

独立という区別は、必ずしも明示的に因果関係を前提としているわけではないが、多くは独立

変数から従属変数への影響という原因→結果の関係をモデルの中で暗黙のうちに想定している。

(2)これに対して、そうした区別をしないモデルもある。こうしたモデルは、多くの変数のパ

ターンを分類したり共通の構造を抽出したりすることを目的としている。

この分類に加えて、用いる従属変数と独立変数が量的か質的という分類を加え、2つの要因

で分析手法を分類する。

よく使われる分析手法の分類

(1)従属変数と独立変数の区別があるもの

従属変数 独立変数

質的 質的 クロス表、ログリニア分析、数量化2類、順位相関

質的 量的 判別分析、ロジスティック回帰分析

量的 質的 分散分析、t検定

量的 量的 相関係数、回帰分析、パス解析

量的 混在 共分散分析

(2)従属変数と独立変数の区別のないもの

質的変数 数量化3類、多次元尺度

量的変数 因子分析、主成分分析

本書で扱う分析方法は、扱う章節を括弧内に示してある。本書では、上の全てのモデルを扱

うことはできないので、詳しくはSASのマニュアルなどを参照されたい。

----------------------------------

統計解析パッケージプログラム

社会調査データの分析には、コンピュータと分析用のプログラムが必要である。理論的には

手計算も可能であるが、少数のデータの場合を除けばコンピュータは必要であり、少数のデー

タであっても因子分析のように計算が複雑すぎて手計算では殆ど計算が不可能なものさえある。

Page 5: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

5

一般に、分析には、統計解析用のプログラムが使われる。特殊な分析を除けば、汎用のプログ

ラム言語(FORTRAN など)を使うよりは、こうした統計解析プログラムを利用した方がよい。

統計解析用プログラムには、色々な種類が普及している。このうち、汎用機からパソコンま

で幅広く使われているのが、SAS、SPSS、S、BMDPなどである。本書では、PCS

ASの出力結果とプログラムを例として掲載しているが、必要がなければこの部分は読み飛ば

して構わない。なお、プログラム例については、付録を参照されたい。

----------------------------------

データの入力方法

エクセルにデータを入力して、それを SPSS に読み込むのが一般的である。エクセ

ルの一行目には、変数名を入れておくとよい。

エクセルデータの読み込み(変数名を一行目に入れた場合は、チェックを入れる)

変数とケース

Page 6: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

6

(1)まず、シンタックスファイルを新規作成する。

(2)プログラム例

一つのコマンドは一文字目から始まる 一文字目が空白の場合は、前のコマンドの続きである

Page 7: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

7

各行は 80 文字以内でなければいけない。80 文字以上になるコマンドは、適当に改行

して2行目以降は先頭を空白として前の行から続ければよい。 コマンドはピリオド(.)でおわる コマンドにおいて小文字と大文字は区別されない シンタックスファイルに、統計コマンド(メニュで「分析」に相当するもの)がない場

合は、execute コマンドを入れるか、何か統計コマンドを実行するまで実行されない。

その場合、変換は「保留」となる。

Page 8: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

8

データの分析法 まず、1変数の分析法について説明する。

単純集計表

質的変数(名義尺度、順位尺度)については、単純集計表を出力することから始めるとよい。

単純集計表は、SPS では frequencies プロシージャで出力することができる。この結果は、次

の例のようである。単純集計表を出力することで、結果の概要とともに範囲外の入力ミスをチ

ェックすることにも役立てることができる。

単純集計表のメニュ

単純集計表での変数指定(左のボックスから右のボックスへ変数を移す)

Page 9: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

9

出力結果(「パーセント」を単純集計表では報告する)

SPSS プログラムは、

FREQUENCIES VAR=変数リスト

以下、「変数リスト」という部分には、変数を一つ書いてもよいし、複数の変数を空白で並べて

指定してもよい。また、「TO 省記法」が使える。これを使うとコマンド入力が省力化できる。

たとえば、

X1 to X3 は、 X1 X2 X3 (3つの変数名 X1 X2 X3 を並べたものと同じ)

Q1S0 TO Q1S2 は、 Q1S0 Q1S1 Q1S2

と同じである。ただし、添え字は最後の文字でなければならない。つまり、"X1A TO X3A"のよ

うな表現は誤りである。

Page 10: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

10

----------------------------------

欠損値

社会調査のデータでは、無回答や記入漏れなどでデータの一部が欠けている場合がよくある。

上の学歴の単集での'Frequency Missing = 10'は、欠損値のサンプルが 10 件あったことを示し

ている。時には、こうした欠損値を、適当なデータ(平均値など)で補完することもある。通

常、SPSS やSASでは分析する変数について、欠損値でないケースを計算の対象とする。例え

ば、平均値の計算では欠損値以外のケースについて平均が計算され、欠損値のケースは無視さ

れる。ただし、欠損値のケースが多い場合は、注意が必要である。例えば、変数Aと変数Bの

平均値を比較するような場合、欠損値があまりにも多いと、二つの変数の平均値を計算の対象

となるケースが異なることになり、比較が無意味になることがある。このような場合は、変数

Aと変数Bがともに欠損値でないケースに限定して比較しなければならない。

欠損値の入力は SPSS では、データを空白にしておけばよい。空白のデータ(数字が書いてい

ない)は、読み込まれた時に自動的に欠損値に変換される。

----------------------------------

平均、標準偏差

量的変数(間隔尺度、比例尺度)の場合でも、単純集計表を出力することは可能であるが、

値の種類が多いときは、出力が膨大なものになるし、データチェックにもあまり役立たない。

例えば、個人収入の値がそのままデータとして入っている場合、単純集計を打ち出すと収入の

種類だけ件数が出力され、各々の件数は殆どが1件ということにもなりかねない。

そこで、このように量的変数で値の種類が多い場合は、DESCRIPTIVES を使う。平均値ととも

に標準偏差、最大値 最小値、欠損値でないデータ数なども計算してくれるのでデータのチェ

ックにも便利である。

対応する SPSS プログラムは、

DESCRIPTIVES VAR=変数リスト

Page 11: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

11

メニュでの記述統計の指定

尺度構成

社会調査データの分析では、いくつかの回答を加算して新しい変数をつくることがある(こ

れを尺度構成という)。例えば、ある問題についての態度や意見を調べる時は、一つの回答だけ

では信頼性の高い変数をつくることはできないが、複数の回答を加算することによって信頼性

を上げることができる(加算尺度)。この場合、各回答は、厳密には順序尺度であるが、実際に

は間隔尺度とみなして、加算して使うことが多い(注1)。

(注1) 正規化得点(得点に正規分布を仮定して行なう非線形変換の一つ)が使われるこ

ともあるが、使用には不便な点もあり、現実には正規化得点と単純得点(各カテゴリーに

1,2,3,4 などを割り当てた得点)の相関がかなり高いのであまり使われない。

リッカート尺度は、基本的に、評定法によって得られた複数の回答の加算尺度である。評定

法とは、「あなたは~の意見に賛成ですか」という質問に対して「非常に賛成」「賛成」「反対」

「非常に反対」などのように順序つけられた回答で答える方法である。ここでは、相関係数を

用いる方法と、α係数の方法の二つを紹介する。

以下の情報観に関わる 3つの回答でリッカート尺度が作れるかどうかの分析を示す。

*質問文*

(1)情報が簡単に手に入るようになった。

(2)情報が速く手に入るようになった。

(3)選択に迷うほど情報があふれている。

回答選択肢は、各々「そう思う」「どちらかと言えばそう思う」「どちらかと言えばそう思わな

い」「そう思わない」

手続き

Page 12: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

12

各々の回答に、例えば、「そう思う」=1,「どちらかと言えばそう思う」=2,「どちらかと言え

ばそう思わない」=3,「そう思わない」=4、のように順序つけた点を与える。ただし、質問の仕

方が他と比べて逆であるもの(逆転項目)については、点の与え方を逆にする。

① 相関係数を用いる方法

もし、尺度を構成する項目のほとんどが尺度として適切であるならば、互いの相関係数は値

が高くなるはずである。したがって、ある項目と総点からその項目の値を引いた値の相関係数

を検討することによって、ある項目の尺度としての妥当性を検討できる。

下のアウトプットで、例えば、Q6s12 は総点から Q6S4 を除いた点のことである(結果の見方

は、次節の相関の部分参照)。Q6s12 と Q6S4 の相関が低い場合は、Q6S4 は他の項目と異なる傾

向をもつということなので尺度から除外しなければいけない。相関係数の値をみていくと、殆

どの場合で相関係数の値は1%水準で有意となっているが、Q6S12 と Q6S4 はやや相関が低い。

ただし、相関分析の結果では、すべて加算尺度として使うことができることになる。

correlations var=q6s1 q6s2 q6s4 with q6s12 q6s14 q6s24.

Page 13: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

13

相関係数のプログラム

② α係数を用いる方法

単純加算値

SUM=Q6S1+Q6S2+Q6S4

の信頼性の推定値として、α係数はよく使われている。α係数の求め方は、

α=kr/(1+(k-1)r) (1)

ただし、rは、互いの相関係数の平均値(ただし、対角要素除く)、kは項目数

SPSS では、RELIABILITY で出力できる。出力結果をみると、Q6S4 の他の項目との相関が低く、

この項目を除いた場合にα係数の値も最も高くなることがわかる。

アルファ係数を求めるプロシージャ

Page 14: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

14

オプションで「項目を削除したときの尺度」を指定する

出力結果 →Q6S4 を除くとアルファ係数が増加することがわかる。

----------------------------------

α係数

α係数は、単純合成値の信頼性係数に相当するものであり、単純加算の尺度値の検討に使わ

れる。この値は、項目の互いの相関係数の値が大きいほど大きくなり、また項目数が多いほど

大きくなる(池田 1971)。

----------------------------------

対応する SPSS プログラムは、

reliability var=変数リスト /scale(尺度名)=変数リスト /summary=all

Page 15: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

15

リッカート尺度の基本的考え方は、一次元性のある項目(同じ現象を測定していると考えら

れる項目)だけを加算するということである。一次元性は、相関が高いかどうかでチエックさ

れる。一次元性の手続きを項目分析といい、上で紹介した以外にも色々な方法が提案されてい

る。さらに発展した方法をについては、Spector(1992)などを参照されたい。

2章 2変数の分析(相関と関連)

相関と関連

1章では、変数を一つずつ分析するやり方を示した。しかし、社会調査で検証する「仮説」

は、たいてい2つの変数の関係(相関関係または因果関係)として表される。例えば、

仮説 所得が高いほど書籍への出費も多い

これは、所得と書籍への出費の間に正の相関関係があることを述べている。このように一方

の変数の値が高く(低く)なると他方の変数の値も高く(低く)なるという関係を一般に相関

関係という。

こうした関係を量的変数の場合は相関と呼び、質的変数の場合は関連とよぶこともある。相

関 関連のいずれも、原因 結果という因果関係を必ずしも意味するものではない。例えば、

上の仮説で相関関係がデータから認められたとしても、所得が本への出費を増やしているのか、

逆に本への出費が所得を増やしているのか、あるいは別の第三の変数が二つの変数に影響を与

えて見かけ上の相関(これを疑似相関という)をつくりだしているのかはわからない。相関関

係から分かるのは、所得が多い人は少ない人に比べて本の出費が多いという表面上の関係だけ

である(ただし、常識的には所得から書籍出費という方向が推測できるが)。この場合、相関か

ら因果関係を決めることは、理論的にはデータだけではできない。

----------------------------------

疑似相関

二つの変数の間でそれとは別の変数が介在して見かけ状の相関をつくり出していることを疑

似相関という。例えば、学歴と政党支持の間に相関があっても、実は年齢による疑似相関であ

る、という場合がある。なぜなら、高学歴化は時代を追って進行してきたので、若い者ほど高

学歴の者が多いという関係があるからである。疑似相関を排除するための方法には、質的変数

の場合は3重クロス表、数量化3類やログリニア分析、量的変数の場合は、偏相関分析、回帰

分析などがある。

----------------------------------

Page 16: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

16

二つの変数がともに量的変数である場合、その関係の強さは普通ピアソンの積率相関係数に

よって表現される。ピアソンの積率相関係数は、-1から+1の範囲で表される。最も強い正

の相関関係は+1、最も強い負の相関関係は-1、両者に何の関係もない場合は0となる。

SPSS のプログラム

correlations var=変数リスト1 with 変数リスト2 .

変数リスト1と変数リスト2の相関係数が出力される。

correlations var=変数リスト.

変数リストの全ての組み合わせについて相関係数が出力される。

変数が二つとも質的変数(順位尺度または名義尺度)の場合には、また別の係数を使う。例

えば、順位尺度どうしの場合は、ケンドールの順位相関などがよく使われる。

NONPAR CORR /VARIABLES=変数リスト /PRINT=BOTH TWOTAIL NOSIG.

しかし、名義尺度を含む変数の関係については、こうした係数を計算することよりも、変数

の関連を組合せたクロス表を分析することが多い。質的変数と量的変数の関係は、分散分析に

よって分析することができる。ただし、分散分析は、多くの質的変数の効果を同時に分析でき

る多変量のモデルでもあるので、次節で扱うことにしたい。

偏相関分析

疑似相関を分析する場合、用いる変数が全て量的な変数であれば、偏相関係数を計算するこ

とができる。偏相関係数は、PARTIAL CORR で計算することができる。

PARTIAL CORR /VARIABLES= 変数リスト BY コントロール変数リスト.

この例は、収入と学歴について年齢をコントロールした偏相関係数を計算した例である。学

歴と収入の間に正の有意な相関が認められる。

Page 17: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

17

相関係数と偏相関係数の例

クロス表

図 1.2.1 のように二つの変数の値を組み合わせ、各々の組合せに属するケースの人数、比率

を表示した表をクロス表という。この表では、横(表頭)と縦(表側)の変数の全ての値(た

だし、欠損値は除くことがある)を組合せ、人数と%(全体に対する%、横の変数に対する%、

縦の変数に対する%)、縦の合計、横の合計、全体合計を表示している。これは、単純集計表を

2つの変数に拡張したものと言える。

CROSSTABS TABLES=変数リスト1 BY 変数リスト2 /CELLS=COUNT COLUMN ROW /STA=CHISQ.

上のプログラムは、縦%、横%、さらにχ2乗検定結果も含めて出力するものである。 図 1.2.1

Page 18: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

18

は、ある調査結果で性別(男性=1、女性=2)と未既婚(既婚=1、未婚=2)を組み合わ

せたクロス表である。この表を見ると女性の回答者の方が既婚者が多いことがわかる。横%(ROW

PERCENT)をみると、既婚率は、男性 65.33%、女性 73.45%である。つまり、性別と未既婚と

の間に関連が認められるようである。このような変数間の関係を分析するには大きく分けて二

つの方法がある。

図 1.2.1 F1A(性別)と F2(既婚・未婚)のクロス表

一つは関係の強さを統計的に検定することである。上の例では、χ2乗検定の結果が5%水

準で統計的に有意である。ただし、おなじ関係の強さであっても、データ数が多いと統計的に

有意になる。統計的に有意かどうかは、関連の強さとデータ数の二つの要因に依存している。

サンプル数が非常に多い調査の場合は、弱い関連でも統計的検定は有意になる。したがって、

データ数の異なる調査結果を比較する場合は、検定結果で結果を比較することはできない。

----------------------------------

統計的検定 有意水準、帰無仮説

統計的検定では、まず帰無仮説をたてる。下の例では、二つの変数が独立(無関係)である、

というのが帰無仮説である。有意水準とは、ある帰無仮説が真であるのに、それを棄却する確

Page 19: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

19

率(危険率)をいう。通常は、5%ないし1%の有意水準を用いて検定を行なうことが多い。

例えば、下の①の値は、.0023 であるから、二つの変数(性別と既未婚)が独立な場合に、こ

のクロス表以上の間連が得られる確率は、2.3%であることがわかる。したがって、有意水準が

5%の時は関連は有意であり、1%の時は有意ではない、という結果になる。

----------------------------------

対応する SPSS コマンドは、

CROSSTABS TABLES=F1A BY F2 /CELLS=COUNT COLUMN ROW /STA=CHISQ.

傾向性による類似度

.042 .026 1.551 .121

.068 .042 1.551 .121

.000 .000 .c .c

.008 .007 .023d

.008 .007 .023d

.006 .005 1.138 .023e

.006 .005 1.138 .023e

.006 .006 1.138 .023e

-.088 .039 -2.274 .023-.096 .042 -2.274 .023-.081 .036 -2.274 .023.088.088

対称F1A 従属変数F2 従属変数F1A 従属変数F2 従属変数対称F1A 従属変数F2 従属変数対称F1A 従属変数F2 従属変数F1A 従属変数F2 従属変数

ラムダ

Goodman と Kruskal の

不確定性係数

名義と名義

Somers の d順序と順序

イータ間隔と名義

値 漸近標準誤差a 近似 T 値b 近似有意確率

帰無仮説を仮定しません。a.

帰無仮説を仮定して漸近標準誤差を使用します。b.

漸近標準誤差がゼロなので計算できません。c.

カイ2乗近似に基づくd.

尤度比カイ2乗確率e.

対称性による類似度

-.088 .023.088 .023.088 .023

-.088 .039 -2.274 .023-.081 .036 -2.274 .023-.190 .082 -2.274 .023

-.088 .039 -2.275 .023c

-.088 .039 -2.275 .023c

-.080 .035 -2.270 .023662

ファイCramer の V分割係数

名義と名義

Kendallのタウ bKendallのタウ cガンマSpearmanの相関

順序と順序

Pearson の R間隔と間隔カッパ一致の測定方法

有効なケースの数

値 漸近標準誤差a 近似 T 値b 近似有意確率

帰無仮説を仮定しません。a.

帰無仮説を仮定して漸近標準誤差を使用します。b.

正規近似に基づくc.

Page 20: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

20

クロス表で出力される属性相関係数

もう一つは、関係の強さを属性相関係数で測定することである。属性相関係数とは、カテゴ

リーまたは順位変数に対して、2変数の関連の強さを表す指標であり、量的変数の場合の相関

係数に対応するものといえる。属性相関係数として範囲が0と1の間にあり、対称な係数とい

うことから、よく使われるのは、γ(ガンマ)係数とスピアマンの順位相関係数である。一般

にガンマ係数の値が高くなる。

3重クロス表

既に述べたように二つの変数の間に相関関係(あるいは関連)があっても、それは必ずしも

因果関係を意味するものではない。その場合の一つの可能性は、第三の変数が疑似的に相関係

数を生じさせているということである。そこで、相関関係を詳しく分析するために、影響のあ

りそうな第3変数を導入してその効果を分析するということが行われる(エラボレーション)。

エラボレーションは、2次元のクロス表にもう一つ変数を加えて3次元にして行われる。

3重クロス表と2重クロス表の結果には、単純な対応関係は存在しない。一般に、変数Aと

変数Bの全サンプルでの関連が正である場合に、性別でクロス表を分けて出した場合のAとB

のパターンは、

全体でのパターン 男子サンプル 女子サンプル

正関連 正関連 正関連

〃 正関連 負関連

〃 負関連 負関連

のように全ての可能性がありうる(全体のパターンが負の場合も同様である)。全体での関連が

Page 21: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

21

正で、下位のクロス表が両方とも負の関連になるということさえ、理論的にはありうる。例え

ば、下の図では、高学歴、低学歴のいずれも、男子の方が女子よりも反対の率が高いが、全体

でみると結果が逆転して女子の方が反対の率が高くなっている。これは、女子の方が反対者の

多い低学歴者が相対的に多いためである。つまり、全体でみられる性差(男子の方が賛成が多

い)は学歴を媒介にした疑似相関であり、現実の性差は逆の方向(女子の方が賛成が多い)と

いうことがわかる。

学歴(高 低)×性別×意見の3重クロス表 (数字は人数)

高学歴 低学歴 全体

性別 男子 女子 男子 女子 男子 女子

意見x 賛成 60 20 0 20 60 40

反対 20 0 20 60 40 60

3重クロス表の出力方法であるが、SPSS では2次元のクロス表を拡張して、

CROSSTABS TABLES=変数1 BY 変数2 BY 変数3 /CELLS=COUNT COLUMN ROW.

のように指定すればよい。ただし、3重クロス表といっても、<変数 1>の値ごとに、<変数 2

×変数 3>の2重クロス表が出力されるだけであり、あまり見やすくはない。また、3重クロ

ス表の分析ではあまり明確な結論が得られないので、こうした分析(従属変数と独立変数がと

もに質的変数)には、林の数量化理論2類やログリニア分析(5章)などの多変量解析の手法

を使うことが多い。

3.t検定、分散分析

この節では、従属変数が量的変数で独立変数が質的変数の場合の分析方法について説明する。

例えば、年収(量的変数)を性別(質的変数)で説明する場合がこれに該当する。

この代表的なモデルにt検定と分散分析がある。質的変数の値が2つだけの場合はt検定、

Page 22: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

22

3つ以上の場合(あるいは独立変数が2つ以上)は、分散分析を使う。例えば、男女で2つの

平均値を比較する場合はt検定、学歴別に中学卒、高校卒、大学卒の3つの平均値を比較する

場合は分散分析を使う(ただし、2グループを比較する場合でも分散分析は使える。)

t検定

t検定は、2つのグループ間の平均値の差を、2つのグループの平均値が等しいという帰無

仮説をたて検定する。

SPSS では、t検定には T-TEST というプロシージャを行う。このテストでは、最初に二つの

グループで得点の分散が等しいかどうかのF検定をおこなう。分散が二つのグループで等しい

場合と等しくない場合では、t検定の方法が異なるので、二つのt検定の結果が出力される。

下の例は、男女(F1A)で書籍への支出(Q14V1)が異なるかどうかをt検定で分析したもの

である。まず、F検定の結果をみると、0.1%水準で男女で書籍支出の分散が異なることがわか

る。したがって、t検定では、<UNEQUAL>という欄のt検定結果をみる。UNEQUAL の行をみる

と、0.1%水準で高度に有意である。この結果から、男性の方が女性よりも本への支出が有意に

多い(平均値に差がある)ことがわかる。

SPSS コマンドは、

T-TEST GROUPS=F1A(1,2) / VAR=Q14V1.

分散分析

Page 23: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

23

独立変数が一つだけで値が2つの場合にはt検定で平均値の差を検定するが、「大学卒」「高

校卒」「中学卒」のように変数の値が3つ以上の場合や、2つ以上の独立変数の効果を同時に分

析する場合は、分散分析を使う。なお、独立変数が一つの場合を一元配置、二つの場合を二元

配置という。また、分散分析では、独立変数のことを要因、各要因がとる値のことを水準(level)

という。つまり、一元配置で水準が二つの場合はt検定を使うことができるが、二元配置や一

元配置でも水準が3つ以上の場合は分散分析を使うことになる。

調査データに分散分析を適用する場合は、SAS では GLM というプロシージャを使うのが普通

である。ANOVA というプロシージャもあるが、各水準の組合せに属する人数が全て等しい場合

(釣り合い型)にしか適用することができないので、通常の調査データでは使うことはできな

い点に注意されたい。

下の例は書籍への出費を従属変数(Q14V1)、独立変数を学歴(F3)とした分散分析の結果で

ある。学歴の値(水準)は、4つあり、1=中学、2=高校、3=短大 高専、4=大学、と

なっている。独立変数の効果は、F検定によって検定されるが、F値は 19.03 で 0.1%水準で

有意である。つまり、学歴によって書籍への出費に差があると言える。

ただし、分散分析では、グループ間に差があることはわかるが、3つ以上のグループがある

場合は、具体的にどのグループ間で差があるのかは分からない。そこで、水準間で差を検定す

るダンカンの多重範囲検定を指定した。下の図で、同じサブグループに入っている水準間には

統計的に差がない。つまり、中学卒(=1)と高校卒(=2)の間には、統計的に差はないが、そ

の他の水準間では全ての組合せ(例えば、大学卒と短大卒など)で統計的に差があることが示

されている。この結果をみると、学歴が高くなるにつれて、出費が増加するという傾向がある

ことがわかる。

Page 24: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

24

分散分析とダンカンの多重範囲検定のプログラム

ONEWAY q14v1 BY f3 /MISSING ANALYSIS /POSTHOC = DUNCAN ALPHA(.05).

-----------------------------------

多重範囲検定

F検定では、いくつかの平均値が異なることはわかっても、具体的にどの値とどの値が異な

るのかはわからない。そこで、このために水準間の差の分析として多重比較が行なわれる。多

重比較には、あらかじめ何らかの仮説などに基づいてする比較(事前比較)と、そうした事前

の計画なしにする比較(事後比較)がある。社会調査データで広く使われるのは、事後比較で

ある。この方法として、下の例ではダンカンの多重範囲検定を用いているが、他にもシェフェ

やトゥーキーの方法などもある。これらの詳細については、Klockars & Sax (****)などを参考

にされたい。

Page 25: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

25

-----------------------------------

-----------------------------------

共分散分析

分散分析は、質的変数の効果だけを分析するが、量的な変数(共変量)を独立変数に加え、

あらかじめこの共変量の効果を除去してから分散分析を適用する方法を共分散分析という。た

だし、SASでは、共変量の効果を独立変数と同時に分析したり、独立変数の後から分析した

りすることもできる。

-----------------------------------

4.回帰分析

回帰分析

回帰分析は、従属変数と独立変数がともに量的変数の場合に使うモデルであり、統計分析で

は最もよく使われるモデルの一つであろう。独立変数が2個以上の場合を重回帰分析とも言う

が、SASではどちらの場合もおなじ REG というプロシージャで分析できる。

例えば、書籍への支出を収入、年齢、学歴という3変数の重みつけた和であらわすことを考

える(この場合、全ての説明変数は連続量と仮定する)。

Page 26: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

26

書籍への支出=P1×収入+P2×年齢+P3×学歴+C (1)

P1 から P3 の3つは回帰係数であり、Cは定数項(切片項)であり、これらの係数を最小2

乗法によって推定する。一般にこのような近似では、実際の書籍への支出とこうして重みつけ

た和を完全に一致させることはできない。そこで、最小2乗法が用いられる。つまり、なるべ

くデータと右辺の予測値が近くなるように4つの係数を推定するのである。こうして推定され

た回帰係数の値から、収入、年齢、学歴の各々の効果を知ることができる。

----------------------------------

ダミー変数

回帰分析の独立変数は、基本的には量的変数(間隔または比例尺度)でなければならないが、

0と1だけの2種類の値をとる特殊なカテゴリー変数(これをダミー変数という)の場合は使

うことが可能である。これを使って、カテゴリー変数を回帰分析に使うことができる(これは

数量理論1類に対応する)。

例えば、<出身地>を次のようにカテゴリー化したとする。

北海道=1、本州=2、四国=3、九州 その他=4

この変数は名義尺度なので、そのままでは回帰分析の独立変数としては使うことはできないが、

次のように3つの変数のダミー変数X1、X2、X3 を新たに定義すると、回帰分析で使うこと

ができる。

X1=(北海道のみ1、その他0)

X2=(本州のみ1、その他0)

X3=(四国のみ1、その他0)

これらX1~X3 は回帰分析の独立変数として使うことが可能である。例えばX1の回帰係数

は、北海道出身者を他の出身者と比較した場合の差の効果を表わす係数と解釈できる。

ここで、注意すべきなのは、

X4=(九州その他のみ1、その他0)

という4つめの変数は、用いてはいけないということである。カテゴリー数がn個の時は、必

ずそのうちの一つを除いてn-1個のカテゴリーのみについて、ダミー変数を定義しなければ

いけない。これは、数学的に言うとX1~X4 の4つは互いに線形従属関係にあり、このうち一

つは冗長であるからである。上では、4つめのカテゴリーを省いているが、4つめのカテゴリ

ーを入れて別のカテゴリーを省いてもよいのである。

下の例では、学歴を3つのダミー変数にして分析している。学歴の値(水準)は、4つあり、

1=中学、2=高校、3=短大 高専、4=大学、であるが、このうち最初の三つのカテゴリ

ーを F1D1,F1D2,F1D3 というダミー変数を定義した。

----------------------------------

Page 27: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

27

回帰係数の求め方

回帰係数(偏回帰係数)には2種類ある。一つは、上の式のように、データから直接得られ

るものでありこれを非標準化係数とよんでいる。ここで得られる係数は、もとの変数の単位に

依存している。もう一つは、独立変数 従属変数を全て標準化した時に得られる係数であり、

これを標準化係数という。標準化係数は、もとのデータの単位に依存しないので各係数を互い

に比較できるという利点がある。

回帰係数の値から、独立変数が従属変数に与える影響を知ることができる。 下の結果では、

まずモデルの全体の適合度がF値とその検定結果(有意水準)で示されている。次に、非標準

化回帰係数の値と標準誤差、標準化係数、t値、その有意水準などが示されている。結果は、

収入(INCOME)と性別(F1S1)が有意となっている。学歴のダミー変数は、有意であるが、そ

の解釈には注意しなくてはならない。この場合、大学卒のカテゴリーを除外している(つまり0

と置いている)ので、これらの検定結果は大学卒のカテゴリーと比較したものとして解釈すべき

である。

Page 28: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

28

-----------------------------------

標準化回帰係数と非標準化回帰係数

式(1)から直接推定される係数が非標準化回帰係数であり、(偏)回帰係数とも言う。しか

し、この係数は変数の単位に依存しており、分析結果を比較する場合に不便なことがある。例

えば、(1)でP1とP3の値を直接比較しても、収入と年齢では単位が異なるから無意味である。

こうした比較には、変数の単位に依存しない標準化回帰係数が有効である。これは、全ての変

数を平均0、標準偏差1に標準化した時に得られるものであり、変数の単位に依存しない係数

をえることができる。

-----------------------------------

パス解析

非実験データから因果関係を推定する方法にパス解析(Path Analysis)がある。パス解析と

は、回帰分析を発展させて、いくつかの回帰分析モデルを組み合わせて、因果的な体系を推定

しようとするものである。なお、本稿に関連したパス解析の方法に興味のある方は、Asher(1976)

などを参考にされたい。

パス解析では、回帰分析と同様に変数間の因果的影響を線形な加法モデルで表現する。例え

ば、図1のモデルは、以下のような連立方程式体系で表現される。

図1 モデル1

[モデルの1表現]

X2=p21X1+ε2 (1.1)

X3=p32X2+ε3 (1.2)

(1.1)や(1.2)のように回帰分析と同様の表現を誘導型モデルという。誘導型モデルでは、

パスが入って来る(影響を受ける)変数を従属変数(左辺)におき、影響を与える変数を独立

変数(右辺)におく。p21、p32 がこのモデルで推定すべきパス係数であり、ε2、ε3 は誤差

項である。

一般に、モデル内の他のいかなる変数からも影響を受けない変数を外生変数と言い、他の変

X3 X1 X2

Page 29: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

29

数から影響を受ける変数を内生変数という。つまり、誘導形で表現した時、いずれかの式で左

辺に現れる変数が内生変数であり、右辺だけにしか現れない変数が外生変数である。パス解析

で使われる変数は、全て内生変数か外生変数のどちらかに分類される。例えば、モデル1では、

X2とX3 が内生変数であり、X1 が外生変数である。

逐次型モデル

モデル1は、「逐次型」モデルである。逐次型とは、パスの中にフィードバックやループのな

いモデルであり、変数の影響がパスを経由して自分自身へ戻ることのないモデルである。モデ

ル1では、どの変数の影響も自分自身へ戻って来ることはない。逐次型モデルは、常に識別可

能(モデルがユニークな解をもつ)であり、通常の最小2乗法によってパス係数を推定できる。

図1にいくつの逐次型モデルの例を示した。

このように通常の回帰分析の解と同等になるのは、逐次型の場合だけである。非逐次型の場

合は、通常の最小2乗解では偏りのあることが知られており、2段階最小2乗法など別の方法

で係数が推定される(ただし、この点については本書では省略する)。

図1 逐次型モデルの例

逐次型の場合、誘導型モデルで表現した方程式を一つずつ通常の最小2乗法(回帰分析)に

よって推定すればパス係数が推定できる。例えばモデル1について言えば、(1.1)式と(1.2)

式を通常の回帰分析で解けばよく、これはSASだけでなくほとんどの統計パッケージで計算

できる。本稿では、パス解析のうち、「逐次型」モデルのみを説明する。

----------------------------------

非逐次型モデル

変数間のフィードバックやループ(下図参照)があるモデルを非逐次型と呼ぶが、このモデ

親の学歴

親の収入

本人の学歴

本人の収入

Page 30: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

30

ルの推定には、通常の最小2乗法を用いることはできず、2段階最小2乗法などが使われる(S

ASでは、SYSREG というプロシージャがある)。ただし、非逐次型の場合、モデルが識別可能

かどうか(解をもつかどうか)の判定をしなければならない(逐次型の場合は、全て識別可能

である)。この点については、Asher(1976)などを参照されたい。

Asher (1976) Causal Modeling, Sage 『因果分析法』朝倉書店

図 フィードバックとループ

----------------------------------

5.ログリニアモデルとロジスティック回帰分析

Log-linear model Logistic Regression

多変数のカテゴリー変数の分析は困難が伴う。ここでは、そうしたタイプの分析に使うモデ

ルを二つ紹介する。ログリニアモデルは、変数が全てカテゴリー(名義尺度)の場合に使われ

るモデルである。従来は、クロス表でχ2 検定などが使われていたが、このモデルでは多くの

変数を使うことができ、交互作用の大きさも評価できる。ロジスティック回帰は、独立変数は

通常の回帰分析と同じ量的な変数であるが、従属変数が0-1型の2値変数である。

(1).ログリニアモデルの適用例

性別*学歴*PCの有無(全て2値変数にしている)の分析

PROC CATMOD ;

MODEL GENDER * EDUC * PC =_RESPONSE_ /FREQ PRED=FREQ ;LOGLIN GENDER ! EDUC ! PC ;

CATMOD PROCEDURE

RESPONSE: GENDER*EDUC*PC RESPONSE LEVELS (R)= 8

WEIGHT VARIABLE: NONE POPULATIONS (S)= 1

DATA SET: ALL TOTAL FREQUENCY (N)= 427

健康状態

労働時間

+ -

TVCM の接触

商品の購買

その商品への

関心度

Page 31: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

31

FREQUENCY MISSING: 23 OBSERVATIONS (OBS)= 427

途中省略

MAXIMUM-LIKELIHOOD ANALYSIS-OF-VARIANCE TABLE

SOURCE DF CHI-SQUARE PROB

--------------------------------------------------

GENDER 1 4.94 0.0262

EDUC 1 37.17 0.0000

GENDER*EDUC 1 24.91 0.0000

PC 1 96.98 0.0000

GENDER*PC 1 0.18 0.6677

EDUC*PC 1 0.06 0.8016

GENDER*EDUC*PC 1 1.42 0.2340

LIKELIHOOD RATIO 0 . .

ANALYSIS OF MAXIMUM-LIKELIHOOD ESTIMATES

STANDARD CHI-

EFFECT PARAMETER ESTIMATE ERROR SQUARE PROB

----------------------------------------------------------------

GENDER 1 0.1893 0.0851 4.94 0.0262

EDUC 2 0.5190 0.0851 37.17 0.0000

GENDER*EDUC 3 -0.4249 0.0851 24.91 0.0000

PC 4 0.8383 0.0851 96.98 0.0000

GENDER*PC 5 -0.0365 0.0851 0.18 0.6677

EDUC*PC 6 0.0214 0.0851 0.06 0.8016

GENDER*EDUC*PC 7 0.1013 0.0851 1.42 0.2340

上のモデルでは、3次の交互作用項まで全て指定しているので(飽和モデル)、データとモデ

ルの予測値が完全に一致し、モデルのあてはまりに関する評価はできない。

Page 32: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

32

参考書:松田紀之(1988)質的情報の多変量解析、朝倉書店

(2).ロジスティック回帰分析の適用例

PCの所有(Q3D5)を所得、学歴、年齢で説明するモデルの例を示すことにする。従属変数の

パソコン所有は、所有=1,非所有=2 とカテゴリー化されているが、ロジスティック回帰分析で

は、値の大きい方のカテゴリーの確率を説明するようにモデル化されるので、下の係数でパソ

コン所有への影響を論じる場合には、符号を反転して解釈する必要がある。

LOGISTIC REGRESSION VAR=q3d5 /METHOD=ENTER income age f3.

方程式中の変数

-.001 .000 22.843 1 .000 .999-.006 .009 .446 1 .504 .994-.163 .119 1.899 1 .168 .8493.197 .593 29.025 1 .000 24.450

INCOMEAGEF3定数

ステップ 1

a

B 標準誤差 Wald 自由度 有意確率 Exp(B)

ステップ 1: 投入された変数 INCOME, AGE, F3a.

参考書: Menard (1995) Applied Logitic Regression Analysis, Sage

6.因子分析と数量化3類

6.1 因子分析の目的

4のモデル(回帰分析や分散分析)には、従属変数と独立変数の区別があった。しかし、こ

のような区別をせずに多くの変数の関係を同時に分析したい場合もある。例えば、メディアを

使った情報行動に関する次のような質問を分析することを考える(注1)。

問 あなたは以下のことをどのくらいの頻度でしていますか。あてはまる番号にひとつだけ

○をつけて下さい。

(各質問は、6段階の頻度[ほぼ毎日、週に数回、週に1回、月に数回、月に1回以下、全

くしない]から選択して回答する)

Page 33: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

33

(1)新聞を読む

(2)テレビを見る

(3)ビデオを見る

(4)ビデオカメラで撮影をする

(5)ラジオを聞く

(6)雑誌を読む

(7)書籍(マンガ除く)を読む

(8)マンガを読む

(9)ステレオ、ラジカセで音楽を聞く

(注1) 1991 年6-7月に東京大学新聞研究所が中心になって実施した(情報行動に関する

住民アンケート)を用いている。なお、調査対象者は、20-69歳の東京都在住の男女 1000

人で、有効回答数は、664 人である。

これらの行動について従属変数-独立変数の関係を予想することは困難であり、分散分析や

回帰分析は用いることはできない。しかし、こうした情報行動全体が、どのような構造によっ

て説明できるかは、情報行動を考える場合に重要であろう。

そこで、最初に考えられるのは、二つずつ変数を組み合わせて相関関係を分析することであ

る。結果の①は、縦横に変数を組合わせた相関係数の表である(相関行列)。しかし、相関係数

が16×15÷2=120個もあり必ずしも全体の構造を把握することは容易でない。こうし

た場合に、互いの相関関係をうまく縮約して全体の構造を見通しよくまとめることが必要にな

る。

因子分析は、このような変数の縮約的記述に有効な方法である。因子分析では、多くの変数

間の関係を<因子>という潜在的な変数を設定することによって、理解しやすい縮約的記述を

可能にすることが多い。

6.2 因子分析の考え方

因子分析には特殊な用語がいくつかある。因子分析の理解のためには、それらを理解する必

要がある。

(1)因子、因子負荷量、因子得点 因子とは、変数間の関係を説明するために仮定された潜在

的な変数である(図 6.1)。因子は直接には測定できないが、観察された変数(分析に用いる変

数)と因子の相関係数(因子負荷量)がモデルによって推定できる。因子負荷量は相関係数で

あるから-1から1の範囲をとる。因子得点は、各サンプルがもつ因子の得点であり、平均0、

標準偏差1になるように標準化されている。

Page 34: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

34

図 6.1 因子と変数の関係 (例)

(2)固有値 固有値は、因子と各変数の因子負荷量の2乗和に等しい。固有値(eigenvalue)

は、ここでは各々の因子で変数間の関係をどの程度説明できる程度を意味する(固有値の値が

その因子の説明率となる)。通常は、この固有値の値によって抽出する因子の個数を決めること

が多い。よく用いられている基準は、固有値が1以上の因子を抽出するというものである。

(3)直交解と斜交解 複数の因子を抽出する方法には、大きく分けて直交解と斜交解の二つが

ある。前者は、各因子が互いに直交(相関0)にするように抽出するのに対し、後者はそのよ

うな制約をおかない。通常は、前者の解を用いるのが普通である。

(4)軸の回転 因子を複数個抽出した後に、解を解釈しやすいようにするためにされるのが軸

の回転である。最もよく使われている方法がバリマックス回転である。

-----------------------------------

軸の回転

因子分析では、得られた解を回転することによってより解釈しやすい解を求めることが多い。

これを軸の回転と呼ぶ。

軸の回転で基準となるのが、「単純構造」という考え方である。単純構造とは、各因子につい

て特定の変数だけが高い因子負荷量をもち、残りの変数は0に近い因子負荷量をもつ、構造を

さす。多くの変数が中程度の因子負荷量をもつ場合よりも、このように少数の変数だけが高い

因子負荷量をもつ場合の方が解釈しやすくなる。

軸の回転には次のような方法がある。

①バリマックス法 直交解で単純構造を求める方法で、最もよく使われている方法である。

②オブリミン法 因子間の相関を許す斜交解で単純構造を求める方法である。

③プロクラステス法 あらかじめ与えた解に最も近くなるように軸を回転する方法である。

若者メディア

因子

伝統的メディ

ア因子

ビデオ

ステレオ・ラジカセ

雑誌

新聞

ラジオ

Page 35: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

35

-----------------------------------

6.3 因子分析の例

下は、因子分析で最もよく使われている、主因子法とバリマックス回転による分析例である。

プログラム中の PC は、主成分因子法による因子の抽出、ROTATE VARIMAX はバリマックス回転

を指示している。対応する SPSS コマンドは、

FACTOR /VARIABLES q5v1 to q5v9 /MISSING LISTWISE

/ANALYSIS q5v1 to q5v9 /PRINT INITIAL EXTRACTION ROTATION

/FORMAT SORT /EXTRACTION PC /ROTATION VARIMAX.

まず、共通性の推定後に主成分分析の結果が示されている。/FORMAT SORT を指定している

ので、変数は因子負荷量によって並べ替えられている。さらに、3つの因子について解釈しや

すいようにバリマックス回転をした結果が「回転後の成分行列」である。これを見ると、第1

因子は、Q5S9(音楽)、Q5S5(マンガ)、Q5S6(雑誌)、Q5S7(書籍)に高い因子負荷量を示して

おり、若者特有の情報行動に関連した因子と考えられる。第2因子は、Q5S1(新聞)、Q52(テ

レビ)、などに高い因子負荷量を示しており的なマスメディア接触に関連する因子と考えられる。

第3因子は、Q5S2(テレビ)、Q5S3(ビデオ)、Q5S4(ビデオカメラ)に高い因子負荷量があり、

テレビ画面を利用した情報行動の因子と考えられる。このように因子分析の場合、得られた因

子を解釈することが多いが、実際は他の変数との関係などを分析して、因子の意味を考察しな

ければいけない。

共通性

1.000 .6181.000 .6611.000 .5681.000 .1851.000 .3691.000 .6051.000 .4961.000 .5671.000 .422

Q5V1Q5V2Q5V3Q5V4Q5V5Q5V6Q5V7Q5V8Q5V9

初期 因子抽出後

因子抽出法: 主成分分析

Page 36: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

36

説明された分散の合計

2.121 23.567 23.567 2.121 23.567 23.567 1.961 21.787 21.7871.291 14.345 37.912 1.291 14.345 37.912 1.274 14.159 35.9461.081 12.013 49.925 1.081 12.013 49.925 1.258 13.978 49.9251.000 11.108 61.033.959 10.654 71.687.757 8.406 80.093.686 7.620 87.713.652 7.240 94.953.454 5.047 100.000

成分123456789

合計 分散の % 累積 % 合計 分散の % 累積 % 合計 分散の % 累積 %初期の固有値 抽出後の負荷量平方和 回転後の負荷量平方和

因子抽出法: 主成分分析

成分行列a

.774 6.622E-02 -3.761E-02

.675 -.202 .267

.597 -.229 -.116

.582 .212 -.335

.396 .354 -.296

.105 .779 8.050E-03-7.206E-02 .619 .522

.444 -.174 .5841.906E-02 -5.160E-02 .427

Q5V6Q5V8Q5V9Q5V7Q5V5Q5V1Q5V2Q5V3Q5V4

1 2 3成分

因子抽出法: 主成分分析

3 個の成分が抽出されましたa.

回転後の成分行列 a

.734 1.431E-02 .257

.691 7.338E-02 -.119

.553 -.282 .193

.528 .230 -.195-.157 .749 .273.218 .740 -.151.166 -1.364E-02 .735.489 -.145 .554

-.147 7.732E-02 .397

Q5V6Q5V7Q5V9Q5V5Q5V2Q5V1Q5V3Q5V8Q5V4

1 2 3成分

因子抽出法: 主成分分析 回転法: Kaiser の正規化を伴わないバリマックス法

10 回の反復で回転が収束しました。a.

Page 37: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

37

成分変換行列

.917 -.049 .396

.161 .953 -.256-.365 .298 .882

成分123

1 2 3

因子抽出法: 主成分分析 回転法: Kaiser の正規化を伴わないバリマックス法

6.4 林の数量化3類のプログラム例

林の数量化3類は、カテゴリーデータのパターン分類の手法であり、質的データに対する因

子分析と言えるものである。このプログラム自体はSASにはないが、数量化3類は

correspondence analysis と数学的に同等であり、proc corresp を使って計算することができ

る。なお、双対尺度法と言われるモデルの行と列が等しい変数の場合もまた、数量化3類に相

当する。

15 の情報機器の所有/非所有データに適用してみた。各変数には、文字型で例えば、'BS'=

衛星放送あり、'NO BS'=衛星放送なしのように値が入っている。

PROC CORRESP DIMENS=3 ALL ;

TABLES Y3D2 Y3D4-Y3D15 Y3D17 Y3D18 ;

(途中の出力省略)

INERTIA AND CHI-SQUARE DECOMPOSITION

SINGULAR PRINCIPAL CHI-

VALUES INERTIAS SQUARES PERCENTS 8 16 24 32 40

----+----+----+----+----+---

0.19022 0.03619 3248.51 40.02% *************************

0.10932 0.01195 1072.83 13.22% ********

0.09117 0.00831 746.19 9.19% ******

0.08138 0.00662 594.55 7.32% *****

Page 38: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

38

0.06949 0.00483 433.50 5.34% ***

0.06492 0.00421 378.39 4.66% ***

0.06122 0.00375 336.46 4.14% ***

0.05516 0.00304 273.14 3.36% **

0.05049 0.00255 228.88 2.82% **

0.04699 0.00221 198.21 2.44% **

0.04476 0.00200 179.86 2.22% *

0.04164 0.00173 155.68 1.92% *

0.03758 0.00141 126.76 1.56% *

0.03334 0.00111 99.79 1.23% *

0.02232 0.00050 44.74 0.55%

------- -------

0.09042 8117.48 (DEGREES OF FREEDOM = 841)

(↓column coordinates も同じ値になる)

ROW COORDINATES

(各変数の値) DIM1 DIM2 DIM3

衛星放送あり BS 0.317721 -.086836 -.049182

なし NO BS -.096562 0.026391 0.014947

CD あり CD 0.115897 -.076952 0.025450

なし NO CD -.448041 0.297484 -.098386

レーザーディスクあり LD 0.326684 -.204595 0.088523

なし NO LD -.060102 0.037641 -.016286

ヘッドホンステレオあり HS 0.164023 -.161199 -.018529

なし NO HS -.189735 0.186468 0.021434

ビデオなし NO VTR -.704784 0.313612 -.132028

あり VTR 0.089591 -.039866 0.016783

PCなし NO PC -.070476 0.032905 0.065713

あり PC 0.337057 -.157370 -.314280

ワープロなし NO WP -.188504 0.022718 0.094742

あり WP 0.259193 -.031237 -.130270

テレビゲームなし NO VG -.170137 0.038267 -.075809

あり VG 0.224541 -.050504 0.100050

ビデオカメラあり CC 0.274402 0.061740 0.121362

Page 39: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

39

なし NO CC -.131103 -.029498 -.057984

ポケットベルなし NO PB -.057632 -.039333 -.025037

あり PB 0.421437 0.287626 0.183080

コードレスホンあり CT 0.193330 0.074491 0.127837

なし NO CT -.128081 -.049350 -.084692

携帯電話あり MT 0.604612 0.329845 0.249528

なし NO MT -.050932 -.027786 -.021020

一般電話なし NO TEL -.015766 0.136289 0.389193

あり TEL 0.003354 -.028998 -.082807

FAXあり FAX 0.476878 0.363058 -.191417

なし NO FAX -.112207 -.085426 0.045039

コピー機あり COP 0.656776 0.478317 -.232240

なし NO COP -.100604 -.073268 0.035574

同様の分析は SPSS でも可能である。「最適尺度法」の中の「等質性分析」がこれに該当する。

Page 40: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

40

補足 SASによるプログラムの例

以下、社会調査データでよく見られる、複数回答データの処理について説明する。

複数回答データとは、例えば、

例)あなたがとりたい授業科目を、次の中から3つ選んで下さい。

(1)社会調査、(2)政治学、(3)経営学、(4)情報処理、‥‥ (20)体育

のように複数の選択肢から複数の回答を選ぶものである。この場合、データの入力方法でよく

使われるのは、選択された回答の番号を入力するという方法である。例えば、3,5,10 が選択さ

れた場合は、' 3 510'と2カラムずつ入力する、という方法である。この方法だと、6カラム

で入力できる。

しかし、こうした方法では特定のカラムにある選択肢が対応しているわけではないので、例

えば経営学を選択した人の人数を求めることが簡単にはできない。そこでデータを 20 個の変数

に変換して、各項目の選択の有無を表わすようにした方が集計には便利である。例えば、変数

3は(3)を選択した場合は1、しなかった場合は0のようにする(これをダミー変数と言う)。

例えば、3,5,10 を回答した場合は、 '00101000010000000000' ということになる。はじめから

このように入力することもできるが、それでは 20 カラムも入力しなくてはならない。そこで、

6カラムから20カラムへの変換をSASで行なえば効率的である。

ここで、3カラムのデータをまず、順にQ1、Q2、Q3という変数に読む(例えば、デー

タが' 3 5 6'の場合は、Q1=3、Q2=5、Q3=6 となるように読み込む)。これを20個の変数 X1-X20

に変換するプログラムは、次のようになる。

ARRAY Q(3) Q1-Q3 ; 入力のカラムに対応した配列

ARRAY X(20) X1-X20 ; 回答選択肢に対応した配列

DO I=1 TO 20 ;

X(I)=0 ; ①代入する配列の初期化

END ;

DO I=1 TO 3 ; ②配列Q→Xの変換

V=Q(I) ;

Page 41: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

41

IF 1<=V<=20 THEN X(V)=1 ;

END ;

まず、元の配列Qと変換後の配列Xを宣言する(これはデータステップの前の方で宣言すれ

ばよい)。次に、①Xの 20 個の要素をすべて0に初期化してから、②QからXへの変換を行な

う。上の DO~END は、ループ(繰り返し)であり、I は繰り返しのためのカウンター変数であ

る。

同様のことをSPSSですることもできる。vector 文で配列を定義し、loop 及び end loop

でループを回せばよい。

vector X(20)/q3=q3s1 to q3s3/

loop #i=1 to 22

compute X(#i)=0

end loop

loop #i=1 to 22

compute #j=q3(#i)

if (#j>=1 and #j<=22) X(#j)=1

end loop

SASによるプログラム例(PCSAS用)

OPTIONS PS=66 LS=90 ; 1

TITLE " ** 東京都民の情報行動調査 1991 ** " ; 2

DATA ; 3

INFILE "A:¥HANDBOOK¥HANDB.DAT"; 4

INPUT #1 CODE1 4. L1 1. MONTH 1. DT 2. 5

(Q1S1 Q1S2 Q2 Q3S1-Q3S14 ) (1.) ( Q3SQ1 Q3SQ2 ) (2.) 6

(Q4S1-Q4S4 Q5S1-Q5S16) (1.) (Q5SQ1-Q5SQ5) (2.) 7

(Q6S1-Q6S6 Q14S1-Q14S4 Q17S1-Q17S7 ) (1.) 8

#2 CODE2 4. L2 1. (SEIBETU AGE MARRIAGE EDUC) (1.) 9

F4 2. F5 3. F6 3. LIFEST 1. F8 2. (F9 JOBA JOBSQ) (1.) 10

JOBB 2. JOBC 1. F11 1. ; 11

/* */ 12

Page 42: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

42

Q17AL=Q17S1+Q17S2+Q17S3+Q17S4+Q17S5 ; 13

S17S1=Q17AL-Q17S1 ; 14

S17S2=Q17AL-Q17S2 ; 15

S17S3=Q17AL-Q17S3 ; 16

S17S4=Q17AL-Q17S4 ; 17

S17S5=Q17AL-Q17S5 ; 18

INNOV=Q17S1+Q17S2+Q17S3+Q17S4 ; 19

SELECT (F11); 20

WHEN (1) INCOME=100 ; 21

WHEN (2) INCOME=300 ; 22

WHEN (3) INCOME=500 ; 23

WHEN (4) INCOME=700 ; 24

WHEN (5) INCOME=900 ; 25

WHEN (6) INCOME=1100 ; 26

OTHERWISE INCOME=. ; 27

END ; 28

SELECT (Q14S1); 29

WHEN (1) BOOK=0 ; 30

WHEN (2) BOOK=500 ; 31

WHEN (3) BOOK=2000 ; 32

WHEN (4) BOOK=4000 ; 33

WHEN (5) BOOK=7500 ; 34

WHEN (6) BOOK=15000 ; 35

WHEN (7) BOOK=25000 ; 36

OTHERWISE BOOK=. ; 37

END ; 38

SELECT (AGE); 39

WHEN (1) AGE=25 ; 40

WHEN (2) AGE=35 ; 41

WHEN (3) AGE=45 ; 42

WHEN (4) AGE=55 ; 43

WHEN (5) AGE=65 ; 44

WHEN (6) AGE=70 ; 45

OTHERWISE AGE=. ; 46

END ; 47

IF EDUC=1 THEN M_SCHOOL=1 ; ELSE M_SCHOOL=0 ; 48

Page 43: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

43

IF EDUC=2 THEN H_SCHOOL=1 ; ELSE H_SCHOOL=0 ; 49

IF EDUC=3 THEN J_COLLEG=1 ; ELSE J_COLLEG=0 ; 50

IF 3<=Q1S1<=5 THEN TV=1 ; ELSE IF Q1S1 NE . THEN TV=0 ; 51

LABEL SEIBETU="性別" 52

AGE="年齢" 53

EDUC="学歴" 54

MARRIAGE="結婚" 55

BOOK="書籍への支出" 56

INCOME="世帯収入" 57

Q1S1="平日のテレビ視聴時間" 58

Q1S2="休日のテレビ視聴時間" ; 59

RUN ; 60

/* PROC STEP */ 61

PROC FORMAT ; 62

VALUE EDU 1="中学" 2="高校" 3="短大 高専" 4="大学" ; 63

VALUE MAR 1="既婚" 2="未婚" ; 64

VALUE SEI 1="男" 2="女" ; 65

PROC FREQ ; 66

TABLES SEIBETU EDUC ; 67

FORMAT SEIBETU SEI. EDUC EDU. ; 68

PROC MEANS ; 69

VAR BOOK INCOME ; 70

PROC CORR ; 71

VAR BOOK INCOME ; 72

PROC CORR ; 73

VAR Q17S1-Q17S5 ; WITH S17S1-S17S5 ; 74

PROC CORR ; 75

VAR Q17S1-Q17S5 ; 76

PROC FREQ ; 77

TABLES SEIBETU*MARRIAGE /CHISQ MEASURES ; 78

FORMAT SEIBETU SEI. MARRIAGE MAR. ; 79

PROC FREQ ; 80

TABLES SEIBETU*MARRIAGE*AGE ; 81

PROC TTEST ; 82

CLASS SEIBETU ; VAR BOOK ; 83

PROC GLM ; 84

Page 44: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

44

CLASS EDUC ; 85

MODEL BOOK=EDUC ; 86

MEANS EDUC /DUNCAN ; 87

PROC GLM ; 88

CLASS LIFEST ; 89

MODEL BOOK=LIFEST ; 90

MEANS LIFEST/DUNCAN ; 91

PROC GLM ; 92

CLASS AGE ; 93

MODEL INCOME=AGE ; 94

MEANS AGE /DUNCAN ; 95

PROC GLM ; 96

CLASS EDUC ; 97

MODEL INCOME=EDUC ; 98

MEANS EDUC /DUNCAN ; 99

100

PROC REG ; 101

MODEL BOOK = INCOME SEIBETU AGE MARRIAGE M_SCHOOL H_SCHOOL 102

J_COLLEG /STB ; RUN; 103

PROC FACTOR METHOD=PRIN ROTATE=VARIMAX CORR PLOT ; 104

VAR Q5S1-Q5S9 ; RUN; 105

注 右側の行番号は説明用のものであり、実際のプログラムには含まれない。

1-2行目は、データ処理の前段階の処理をいくつか行なっている。

3-60行目はデータステップであり、データを読み込み、変数の定義を行なっている。

62-最終行では、統計分析を行なっている。上のプログラムでは多くのプロシージャを使

っているが、これはこの本の説明用のプログラムを全部一つにまとめたからである。

経政のシステムでは、ファイル名の指定が異なるだけで後は同じプログラムでよいようであ

る。実行の仕方は、プログラム名.sas と sas の拡張子をつけたファイルにプログラムをテキス

トファイルで作り、

sas プログラム名

とすると、.lst の拡張子のついた同名のファイルにアウトプットが、.log の拡張子のファイル

にはログ(エラーメッセージなども含む)が出力される。

Page 45: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

45

◎SASの参考書

SASによるデータ解析入門 市川伸一 大橋靖雄著 東京大学出版会

SASによるデータ解析 中山和彦監修 丸善

東京大学出版会から SAS で学ぶ統計的データ解析シリーズが刊行されている。

その他多数

SAS Institute のマニュアルが一番詳しく、複雑なプログラムや機能をフルに使いたい場

合は入門書だけでは不十分かもしれない。このマニュアルは、英文で何冊か出ているが、主要

なものは翻訳もされている。

=========================================

SPSS の対応するプログラム

TITLE 'Tokyo Tomin Jouhou Koudou Chousa'

SET LENGTH=NONE/width=80/

DATA LIST FIXED FILE='handb.dat' RECORDS=2

/1 code 1-4 l1 5 month 6 dt 7-8

q1s1 q1s2 q2 q3s1 to q3s14 9-25 q3sq1 q3sq2 26-29

q4s1 to q4s4 q5s1 to q5s16 30-49 q5sq1 to q5sq5 50-59

q6s1 to q6s6 q14s1 to q14s4 q17s1 to q17s7 60-76

/2 code2 1-4 l2 5 seibetu age marriage educ 6-9

f4 10-11 f5 12-14 f6 15-17 lifest 18 f8 19-20 f9 joba jobsq 21-23

jobb 24-25 jobc 26 f11 27

compute q17al=q17s1+q17s2+q17s3+q17s4+q17s5

compute s17s1=q17al-q17s1

compute s17s2=q17al-q17s2

compute s17s3=q17al-q17s3

compute s17s4=q17al-q17s4

compute s17s5=q17al-q17s5

recode f11 (1=100)(2=300)(3=500)(4=700)(5=900)(6=1100)(else=sysmis)

into income

recode q14s1 (1=0)(2=500)(3=2000)(4=4000)(5=7500)(6=15000)(7=25000)

(else=sysmis) into book

recode age (1=25)(3=35)(4=45)(5=55)(6=70)(else=sysmis)

Page 46: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

46

compute m_school=0

compute h_school=0

compute j_colleg=0

if(educ=1) m_school=1

if(educ=2) h_school=1

if(educ=3) j_colleg=1

if (not sysmis(q1s1)) tv=0

if (q1s1<=5 and q1s1>=3) tv=1

frequencies var=seibetu educ

descriptives var=book income

correlations var=book income

correlations var=q17s1 to q17s5 with s17s1 to s17s5

correlations var=q17s1 to q17s5

reliability var=q17s1 to q17s5 /scale(Q17)=q17s1 to q17s5 /summary=all

crosstabs tables=seibetu by marriage /cells=count column row

/sta=chisquare all

crosstabs tables=seibetu by marriage by age /cells=count column row

t-test groups=seibetu /var=book

means tables=book by educ /sta=anova

means tables=book by lifest /sta=anova

means tables=income by age /sta=anova

means tables=income by educ /sta=anova

regression var=book income seibetu age marriage m_school h_school j_colleg

/dependent=book /method=enter

factor var=q5s1 to q5s9 /extraction=pc /rotation=varimax

注意:Windows SPSS-X の場合、各コマンドの最後に.(ピリオド)が必要である。

Page 47: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

47

SPSS における変数の定義

recode (値の再割り当て)の例

例1 欠損値を0に置き換えた別の変数を hour1→hour1x、min1→min1x、hour2

→hour2x のように6つ同時につくる。

変換→値の再割り当て→他の変数へ

「値の再割り当て」の画面

Page 48: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

48

変換元の変数と変換先の変数のペアを全て指定したら、「今までの値と新しい値」で変換

の規則を指定する。

システム欠損値(またはシステムまたはユーザー欠損値)と、新しい値の値に 0、

その他の全ての値と、新しい値に「今までの値をコピー」を指定する。指定するたび「追

加」を押していくと、「旧→新」のボックスに変換の規則が追加されていく。

Page 49: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

49

割り当ての組み合わせが全て指定されたら「続行」を押し、元の画面では「OK」を押す。

新しい変数が6つ右側の列に作られた。

例2 compute 分数と時間から総合時間(分数)を計算する。

Page 50: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

50

今度は、Internet= hour1x*60+min1x の計算をする。ただし、hour1 と min1 の両方が欠

損値の場合は、Internet も欠損値にする。そのために、このボックスの IF で条件を指定

する(IF 条件が成立しないケースについては、Internet の値は欠損値となる)。

IF を押して条件の指定

IF 条件も指定されたので「OK」を押すと Internet が定義される。

Page 51: 社会調査データの分析 社会調査論(石井)infoshako.sk.tsukuba.ac.jp/~ishii/SPSS2003.pdf · 4 回帰分析とパス解析 ... 行と列の関係にある(図1.1.1.参照

51

テレビについても同様に定義する(IF 条件も書き換えることに注意)。