Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
INTRODUKSJON TIL SPSS 10.0Jan Fredrik Hovden ([email protected]) Dette er ein enkel introduksjon til statistikkprogrammet SPSS 10, med vekt på programmet sine basisfunksjonar. Dette er ikkje ei lærebok i statistikk, men tenkt som eit praktisk oppslagsverk for dei med liten erfaring med programmet.
Det finst langt betre introduksjonar til SPSS i bokform og på nettet. Eg har likevel ikkje funne nokon gode grunnleggjande (praktiske) introduksjonar på norsk på nettet, og har sakna dette (til hjelp for mine studentar ved ulike statistikkkurs). Difor dette dokumentet. Nettutgåva finn du på: http://www.hivolda.no/amf/tilsette/hovden/dok/Hovden(2002)IntroSPSS10.htm
Nettutgåva av dokumentet vert oppdatert ved behov. Som gjennomgåande døme vert brukt ei eksempelfil frå NOVA om ungdoms rusvanar (I602 - Ungdata – rus og kriminalitet 1995 – 97). Fila er offentleg tilgjengeleg på NSD sin Skolevev (www.nsd.uib.no/skoleveven/materiell/) .
Jan Fredrik HovdenAvdeling for Mediefag, HVO, Volda, 10. juli 2002
1. GRUNNLEGGJANDE OPERASJONAR..............................................................................................................................21.1 Starte opp SPSS.....................................................................................................................................................................................21.2 Hente inn datafil....................................................................................................................................................................................21.3 Dei 3 hovudvindauga.............................................................................................................................................................................4
2. KONSTRUKSJON AV DATAFIL.........................................................................................................................................72.1 Forarbeid................................................................................................................................................................................................72.2 Variabelnamn, variabeltypar, verdiar og manglande verdiar................................................................................................................72.3 Konstruksjon av variablar......................................................................................................................................................................82.4 Legge inn data.......................................................................................................................................................................................9
3. ANALYSER.........................................................................................................................................................................113.1 Kvifor statistikk?.................................................................................................................................................................................113.2. UNIVARIATE ANALYSER – Kategoriske data (Nominal/Ordinal)...............................................................................................113.3 UNIVARIATE ANALYSER – Metriske data (Intervall)...................................................................................................................143.4 BIVARIATE ANALYSER – Kategoriske data (Nominal/Ordinal)...................................................................................................163.5 BIVARIATE ANALYSER – Metriske data (Intervall)......................................................................................................................203.6 MULTIVARIATE ANALYSER.........................................................................................................................................................23
4. GRAFAR.............................................................................................................................................................................264.1 Grafar i SPSS.......................................................................................................................................................................................264.2 Stolpediagram......................................................................................................................................................................................264.3 Boxplot................................................................................................................................................................................................294.4 Error bar (Konfidensintervall).............................................................................................................................................................304.5 Spreiingsdiagram og regresjonslinje...................................................................................................................................................31
5. KOSMETIKK – GRAFAR OG TABELLAR I EXCEL/WORD BASERT PÅ DATA FRÅ SPSS..........................................325.1 Grafar i Excel......................................................................................................................................................................................325.1 Tabellar i Excel....................................................................................................................................................................................33
6. DIVERSE EMNER..............................................................................................................................................................346.1 Rekoding..............................................................................................................................................................................................346.2 Utvalg..................................................................................................................................................................................................426.3 Vekting................................................................................................................................................................................................436.4 Import av data (frå Excel)....................................................................................................................................................................45
7. RESSURSAR.......................................................................................................................................................................517.1 SPSS si heimeside...............................................................................................................................................................................517.2 Andre introduksjonar til SPSS............................................................................................................................................................517.3 Alternativ til SPSS...............................................................................................................................................................................517.4 Statistikk på nettet...............................................................................................................................................................................51
1. GRUNNLEGGJANDE OPERASJONAR1.1 Starte opp SPSSGå på START-Programmer og velg ”SPSS 10.0 for Windows”. Du vil då få eit slikt vindauge:
Velg Cancel.
1.2 Hente inn datafilVelg Open-Data
2
Finn fila du skal ha. Som døme skal eg bruke eit datasett frå NOVA om ungdoms rusvanar, med det kryptiske namnet I602_F1_10296.
Velg Åpne. Datasettet vert no lasta inn.
1.3 Dei 3 hovudvindaugaNår du arbeidar i SPSS er det 3 ulike vindauge som du treng å veksle i mellom. Det fyrste er
1.3.1 Variabelvindauget (”Variables”)Når du lastar inn ei ny fil, går SPSS vanlegvis rett inni variabelvindauget. Då har du eit skjermbilete som ser ut noko ala dette:
3
Det me ser her er ei liste over alle variablane i datasettet (22 tilsaman). Me kan sjå kort på den fyrste variabelen:
Me skal ikkje bry oss om alle felta no, men kan registrere at variabelen har namnet ”v1” (NAME), det er variabel av talltypen(TYPE ”numeric” – meir om dette seinare), og beskrivinga (LABEL) fortel oss at denne variabelen registrerer respondenten sitt kjønn. På VALUES kan me sjå kva verdiar variabelen kan ha. Me ser at 1=Gut, og trykker me på feltet får me opp den komplette lista:
1.3.2 Verdi-vindauget (”Data view”)Legg merke til at heilt neden til venstre i vindauget står ”Data view” og ”Variable View”.
For å skifte til Data View (ev. tilbake til Variable View så trykker du her. Me trykker no Data view, og får fylgjande vindauge.
4
For å få dette litt meir meinigsfullt, så velg View på menyen og slå på Value Labes. Då vil du få noko slikt:
5
Dette vindauget er ofte forvirrande på nye brukarar av statistikkprogram. Det me no ser er svara for kvar enkelt person som har svart på spørreundersøkinga. Nedover (vertikalt) ligg personane (me ser person 1-22 her i skjermen, totalt har 5984 svart), svara deira ligg bortover (horisontalt).
Ser me td. på person nummer 9, så ser me at dette er ei jente (v1), ho er 13 år (v2), og ho går i 8. klasse (v3).
Me kan bevege oss i datasettet ved hjelp av pilene og rullemenyen.
1.3.3 Resultat-vindauget (”Output”)Når ein gjer analyser i SPSS, så kjem resultata opp i eit eige vindauge. Dette vert behandla nærmare i delen om univariat analyse her.
Eg skal no ta føre meg korleis ein bygger ei analysefil frå botnen av i SPSS, og korleis ein rekodar variablar. For å gå rett til analyser trykk her.
6
2. KONSTRUKSJON AV DATAFIL2.1 ForarbeidSom basis for å lage ei ny datafil, skal eg bruke dette enkle spørreskjemaet:
1. Er du mann eller kvinne? Mann Kvinne
2. Når er du føydd? Svar: 19____
3. Kva er di haldning til at Norge vil søke medlemskap i EU? Svært positiv Positiv Verken positiv eller negativ Negativ Svært negativ Veit ikkje
Fyrst må me lage ein plan over korleis variablane skal kodast. Planen må inkludere det nye variabelnamnet, variabeltypen, kva verdiar som skal vere med og korleis manglande verdiar skal kodast. Her er eit forslag:
VARIABELNAMN VARIABELTYPE VERDIAR Manglande verdiar
Respnr Numerisk (ingen) (ingen)Kjonn Numerisk 1 = Mann
2 = Kvinne9
Fodtaar Numerisk (ingen) 9999Hald_EU Numerisk 1 = Svært positiv
2 = Positiv3 = Verken positiv
eller neg.4 = Negativ
5 = Svært negativ6 = Veit ikkje
9
2.2 Variabelnamn, variabeltypar, verdiar og manglande verdiarVariabelnamnet kan vere maksimum 8 teikn, og kan ikkje innehalde æ,ø,å, mellomrom eller spesialteikn som % (_ kan brukast). Difor ”kjonn” og ikkje ”kjønn”. Variabelnamnet kan heller ikkje starte på eit tal.
Variabeltype: Dei vanlegaste variabeltypane er numerisk (tal) og streng (tekst).
Verdiar: Dette er ei tildeling av tal og tekst til kvar verdi. Legg merke til at me ikkje treng verditekst til fødselsåret, me skriv berre inn året direkte.
Manglande verdiar. Ein må alltid angje kva verdiar som manglar. Som standard brukar eg talet 9 for dette. I henhald til fødselsår (der verdiane vil variere frå 1900-1980 har eg vald å bruke 9999). Ein variabel med verdiar frå 1-15 ville eg hatt 99 som manglande verdi.
”Ikkje relevant”. Ikkje aktuelt her, men nokre gongar har ein eit spørreskjema som er konstruert slik at nokre spørsmål er berre for visse grupper. Dersom me td. hadde eit eige spørsmål her som berre jentene skulle svare på, ville eg koda
7
desse med talet 8,98,998,9998 osb. alt ettersom antal verdiar. Både ”Manglar” og ”Ikkje relevant”-verdiar vert koda som ”Missing” (sjå nedanfor).
2.3 Konstruksjon av variablarMe er no klar til å starte konstruksjonen av skjemaet. Fyrst lagar me ei ny fil på File-New-Data. Me startar då med eit tomt vindauge.
Den fyrste variabelen RESPNR er rett og slett nummeret til respondenten. Vanlegvis nummerer ein spørreskjemaet frå 1 og oppover.
Me kan syne den fyrste variabelen i skjemaet, Kjønn.
Trykk på ”Name”-cella, og skriv ”kjonn”. Flytt vidare med tabulatoren. Type er numerisk (dette er standardalternativet), Width er 8 (ok), desimalar skal vere 0, label (merkelapp) er rett og slett ”kjønn”. Verdiar spesifiserer du ved å trykke på …
Dei manglande verdiane kodar me slik:
8
Resten av alternativa treng du vanlegvis ikkje bry deg med.
Den ferdige fila ser slik ut:
Lagre fila (trykk på diskettikonet).
2.4 Legge inn dataMe skal no legge inn nokre data i fila me har laga. Trykk på Data View. Du får då eit skjermbilete ala dette:
Me legg inn ein person (flytt med tabulatoren) som har respondentnummer 1, kjønn mann (1), føydd i 1969, og er svært positiv til EU (1).
9
Me kan også sjå verditeksta, ved å slå på View-Value Labels.
Hugs å lagre ofte!
10
3. ANALYSER3.1 Kvifor statistikk?Eit av hovudgrunnane til å bruke eit statistikkprogram er at ved store datasett (med mange personar og variablar i) vil det kreve enormt med arbeid å få svar på dei enklaste spørsmål. For eksempel er det eit spørsmål i spørreskjemaet som spør (v9) : ”Har du noen gang drukket øl, vin eller brennevin?”. Dersom me er interessert i å finne ut kor mange av ungdomane som har svart ja, så kunne me ha telt i gjennom dei 5984 svarskjemane som ungdomane har levert – ein jobb som ville teke minst ein dag. Når datane no ligg i programmet, så er dette ein enkel sak å finne ut av.
I dette tilfellet så lurer me på korleis svara på EIN variabel (”smakt alkohol”) fordeler seg. Det er det ein kallar ein UNIVARIAT analyse. Dersom me ville studere samanhengen mellom TO variablar (td. om fleire gutar enn jenter har prøvd alkohol) er det ein BIVARIAT analyse.
3.2. UNIVARIATE ANALYSER – Kategoriske data (Nominal/Ordinal)3.2.1 FrekvensfordelingarKor mange av ungdomane har smakt alkohol? For å finne ut dette må me gjere ei frekvensfordeling for variabelen. Det får me ved å velje Analyze-Descriptive Statistics-Frequencies: [merk: det er det samme om du står i variabel- eller data-visning når du velger analyser]
Me får då opp eit vindauge der me må velje kva variabel me skal studere.
11
Velg ”Bruk av alkohol”, og trykk på pila for å velge den. Trykk OK. Eit nytt vindauge (Output1) vil då opne seg med svaret på din forespurdnad:
Output-vindauget er resultat-vindauget i SPSS. Her kjem resultatet frå alle dine analyser.
Den fyrste tabellen gjev deg opplysningar om datasettet. Viktigast her er kor mange som ikkje har svart på spørsmålet (om dette er mange, er det eit teikn om at du må vere forsiktig med tolkingane).
Av hovudtabellen (nedanfor) ser me at 25% seier dei aldri har smakt alkohol.
3.2.2 Ekstra statistikk i univariate analyser av kategoriske dataDet er mogleg å spesifisere kva statistikk SPSS viser i resultat-vindauget. Dersom me velger Analyze-Descriptive Statistics-Frequencies så får me opp det samme vindauget med muligheit til å velje variablar. Legg merke til at SPSS hugsar dine sisteval. Me vil fjerne desse, og trykker på Reset-knappen. Deretter vel me
12
For å velge kva statistikk du vil ha med, så velg Statistics…-knappen. Då får du opp eit nytt vindauge med ei mengde valg:
Legg merke til at knappane er organisert i fire delar: prosentverdiar, spreiing (dispersion), sentral tendens og distribusjon. Sidan vår variabel er på ordinalnivå, vil diverre verken standardavviket (std. Deviation) eller gjennomsnittet (mean) gje særleg meining. Me vel rett og slett modus (mode), og køyrer analysen på nytt. Me ser då at statistikk-tabellen har fått med opplysningar om dette:
Statistics
BRUK AV ALKOHOL: Har du noengang drukket øl, vin eller brennevin
5784200
2
ValidMissing
N
Mode
Dei fleste ungdommane plasserer seg slik i kategorien 2, ”Smakt alkohol, men drikker sjelden” (41%).
13
3.2.3 Frekvensar, prosent, valide prosent og kumulative prosentErfaringsmessig har mange problem med å forstå dei mange kolonnene i slike utskrifter. Dersom me hentar inn den forrige tabellen, så ser me at det er fire hovudkolonner: frekvensar, prosent, valide prosent og kumulative prosent:
BRUK AV ALKOHOL: Har du noen gang drukket øl, vin eller brennevin
1457 24,3 25,2 25,2
2501 41,8 43,2 68,4
810 13,5 14,0 82,4
627 10,5 10,8 93,3
275 4,6 4,8 98,0
114 1,9 2,0 100,0
5784 96,7 100,0200 3,3
5984 100,0
Jeg har aldri smaktalkoholSmakt alkohol, mendrikker sjeldenDrikker ca. 1 gang pr.månedDrikker 2-3 ganger pr.månedDrikker ca. 1 gang pr. ukeDrikker mer enn en gangpr. ukeTotal
Valid
Mangler dataMissingTotal
Frequency Percent Valid PercentCumulative
Percent
Frekvensar er antallet som har ein eigenskap – 1457 personar seier dei aldri har smakt alkohol.Prosent er andelen som har ein eigenskap. 24,3% seier dei aldri har smakt alkohol (=1457/5984).Valide prosent er andelen dersom ein ser vekk frå dei ein manglar data for. Vanlegvis er det denne kolonna me er interesserte i.Kumulative prosent er ei kolonne til hjelp for å summere prosentar. Dersom me td. er interessert i å sjå kor mange som seier dei drikk sjeldnare enn 1 gang i månaden eller sjeldnare, ser me raskt av kolonna at dette er 82,4%. Me kunne også ha rekna dette ut ved å legge saman dei valide prosentane: 25,2% + 43,2% + 14%=82,4%. [Merk: kolonna gjev ingen meining ved variablar på nominalnivå]
3.3 UNIVARIATE ANALYSER – Metriske data (Intervall)Når me har metriske data (data på høvetalsnivå) er frekvensfordelingar vanlegvis av mindre interesse. I staden ynskjer me å få ut ulike mål på gjennomsnitt, standardavvik, konfidensintervall m.m.
Sidan datasettet manglar metriske variablar, må me lage ein ved å rekode aldersvariabelen, der verdiane 1-7 vert erstatta med den faktiske alderen (12-18).
Velg Analyze-Descriptive Statistics-Frequencies (på same måten som for krysstabellar). På Statistics kryssar me av for ynskte mål på sentraltendens og spreiing :
14
Me får då ut fylgjande statistikktabell:Statistics
Alder REKODA5888
6914,3337
1,554E-0214,00001,1928
13,000014,000015,0000
ValidMissing
N
MeanStd. Error of MeanMedianStd. Deviation
255075
Percentiles
Me ser her at gjennomsnittleg alder er 14,3 år, og standardavviket er 1,2 år. Standardfeilen (Std. Error of Mean) er 1,554E-02, altså 0,0155. Med andre ord: me er 95% sikre på at alderssnittet i populasjonen er 14,33 ± 0,02 år.
15
3.4 BIVARIATE ANALYSER – Kategoriske data (Nominal/Ordinal)Me har no eit visst oversyn over hovudtendensen – det er ganske få som drikk alkohol ofte. Men me er interesserte i om dette varierer i ulike grupper. I fyrste omgang skal me sjå på skilnadane mellom gutar og jenter. Fordi me her er interessert i samanhengen mellom to variblar, kallar me dette ein bivariat analyse. Det er fleire måtar å gjere dette på, men me skal konsentrere oss om krysstabellar.
3.4.1 (Bivariate) KrysstabellarMe velg som sist Analyze-Descriptive Statistics, men i staden for frequencies vel me crosstabs.
Som i vindauget for frekvensfordelingar, kan me her velge variablar me vil inkludere i analysen. Viktig her er at me må tenke i gjennom kva som er avhengig og uavhengig variablar. I vårt tilfelle trur me at det er kjønn som påverkar alkoholbruk – det omvendte er absurd. I dette tilfellet vert då kjønn den uavhengige variabelen som verkar på den avhengige (alkoholbruk). Vanlegvis vil me ha den avhengige variabelen i radene og den uavhengige i kolonnene, slik:
16
Trykker me på Ok, så får me eit resultat ala dette:BRUK AV ALKOHOL: Har du noen gang drukket øl, vin eller brennevin * KJØNN: Er
du gutt eller jente Crosstabulation
Count
704 751 1455
1293 1203 2496
379 430 809
291 335 626
148 127 275
74 40 114
2889 2886 5775
Jeg har aldri smaktalkoholSmakt alkohol, mendrikker sjeldenDrikker ca. 1 gang pr.månedDrikker 2-3 ganger pr.månedDrikker ca. 1 gang pr. ukeDrikker mer enn en gangpr. uke
BRUK AVALKOHOL:Har du noengang drukketøl, vin ellerbrennevin
Total
Gutt Jente
KJØNN: Er du gutt ellerjente
Total
Dette er det me kallar ein råtabell. Den syner ikkje prosentar, men kor mange personar som finst i kvar kombinasjon av dei to variablane. Td. ser me at 704 jenter seier dei aldri har smakt alkohol, mot 751 gutar.
Når me skal samanlikne variablar, så vil me vanlegvis ha ein prosenttabell. Det får me ved å køyre analysen på nytt, men velge tabellen sin utsjånad ved å trykke på Cells.
17
Her ser me at kun råfrekvensar (observed) er avkryssa. Ta vekk dette alternativet (trykk på ruta slik avhukinga forsvinn) og velg kolonneprosent (column, under percentages). Trykk Continue. Når du no køyrer analysen på nytt, vil du få ein tabell ala dette:
BRUK AV ALKOHOL: Har du noen gang drukket øl, vin eller brennevin * KJØNN: Erdu gutt eller jente Crosstabulation
% within KJØNN: Er du gutt eller jente
24,4% 26,0% 25,2%
44,8% 41,7% 43,2%
13,1% 14,9% 14,0%
10,1% 11,6% 10,8%
5,1% 4,4% 4,8%
2,6% 1,4% 2,0%
100,0% 100,0% 100,0%
Jeg har aldri smaktalkoholSmakt alkohol, mendrikker sjeldenDrikker ca. 1 gang pr.månedDrikker 2-3 ganger pr.månedDrikker ca. 1 gang pr. ukeDrikker mer enn en gangpr. uke
BRUK AVALKOHOL:Har du noengang drukketøl, vin ellerbrennevin
Total
Gutt Jente
KJØNN: Er du gutt ellerjente
Total
Dette er akkurat samme tabellen som ovanfor, men prosentuert for å lette samanlikninga. Her ser me at skilnadene mellom jenter og gutar er eigentleg små, men jentene er kanskje noko meir nøkterne (fleire av gutane ligg i gruppene med størst alkoholforbruk).
18
3.4.2 Val av mål på bivariat samanhengDet finst mange statistiske mål og prosedyrer for å studere samanhengen mellom to variablar og deira signifikans. Tabellen nedanfor syner nokre av dei mest utbreidde.
Variablane er: Mål på samanheng Mål på signifikans
SPSS-prosedyre
Begge nominale Phi, Cramers V, Lambda Kji-kvadratet (Chi-square)
Crosstabs
Begge ordinale Gamma, Somers D, Kendall’s tau-b og tau-c
Kji-kvadradet (Chi-square)
Crosstabs
Ein nominal/ordinal og ein kontinuerleg
Eta F-test (ANOVA) Compare means / means
Beggje kontinuerlege Pearsons korrlesjonskoeffisient
Test for signifikans for r
Correlate / bivariate
Som ein ser er valet av statistisk mål i fyrste rekkje bestemt av variablane sitt målenivå. I tillegg er det også andre avvegingar som spelar inn, som antallet kategoriar for kvar variabel, antakingar om fordelinga og preferansar knytt til om ein vil ha eit mål som måler lineær samanheng (eller ikkje-linjær) mm1.
3.4.3 Statistikk i tabellarSom for frekvensfordelinga kan me velje å få ut ulike typar statistikk for tabellen, ved å velje Statistics:
Her skal me berre sjå på gamma, som er eit mål på samanhengen mellom to ordinale variablar, og kji-kvadratet (chi-square) som er eit mål på signifikans: kan mønstera me ser i tabellen skuldast naturlege variasjonar i utvalet? Fyrst gamma:
1 Ei grei oversikt over ein del bivariate korrelasjonsmål og råd for deira anvending finst i D. A. de Vaus (1996:194): Surveys in Social Research.
19
Symmetric Measures
-,011 ,020 -,545 ,5865775
GammaOrdinal by OrdinalN of Valid Cases
ValueAsymp.
Std. Errora Approx. Tb Approx. Sig.
Not assuming the null hypothesis.a.
Using the asymptotic standard error assuming the null hypothesis.b.
Gamma fortel oss at samanhengen mellom dei to variablane ikkje er særleg sterk: –0.11.
Men skuldast samanhengen tilfeldigheiter i utvalet? Kji-kvadrat-tabellen antyder at dette ikkje er tilfelle:
Chi-Square Tests
22,814a 5 ,00022,977 5 ,000
1,330 1 ,249
5775
Pearson Chi-SquareLikelihood RatioLinear-by-LinearAssociationN of Valid Cases
Value dfAsymp. Sig.
(2-sided)
0 cells (,0%) have expected count less than 5. Theminimum expected count is 56,97.
a.
Dersom me ser på Pearson Chi-Square, ser me at tabellen har ein signifikans på .000, med andre ord: det er under 0.1% sjanse for at mønsteret me ser i tabellen berre skuldast utvalet. Så me kan gå utifrå at det faktisk er ein samanheng mellom alkoholbruk og kjønn – sjølv om den er ganske svak.
3.5 BIVARIATE ANALYSER – Metriske data (Intervall)3.5.1 Samanlikning av gjennomsnittKva er snittalderen forungdomane som ikkje seier dei ikkje har smakt alkohol? Er dei yngre enn enn dei som seier at dei har smakt, men drikk sjeldan? Einenkelt måte å studere dette på er å samanlikne snittalderen for kvart svar. Dette kan ein gjere ved å gå på Compare Means-Means.
20
Vel me Options, kan me velje kva statistikk me ynskjer. Me legg til standardfeil.
Resultattabellen vert slik:Report
Alder REKODA
13,8226 1443 1,0554 2,778E-0214,1347 2456 1,0813 2,182E-0214,8943 805 1,1092 3,908E-0215,0949 625 1,0271 4,109E-0215,3621 270 1,2743 7,762E-0214,8635 106 1,2699 ,123114,3397 5705 1,1942 1,581E-02
BRUK AV ALKOHOL: Har du noen gangdrukket øl, vin eller brennevinJeg har aldri smakt alkoholSmakt alkohol, men drikker sjeldenDrikker ca. 1 gang pr. månedDrikker 2-3 ganger pr. månedDrikker ca. 1 gang pr. ukeDrikker mer enn en gang pr. ukeTotal
Mean NStd.
DeviationStd. Errorof Mean
Her ser me at snittaldern for dei som seier at dei aldri har smakt alkohol er 13,8 år, for dei som drikk sjeldan 14,1 år. Er det ein skilnad? Det kan me finne ut ved å studere standardfeilen for kvar kategori. Slik er det korrekte talet 13,8±0,03 og 14,1±0,02. Med andre ord: me kan vere 95% sikre på at den aldersskilnaden me finn i vårt utval også finnest i populasjonen.
Standardavviket fortel oss om spreeing. Slik ser me at den største alderspreiinga finn me i dei ”tyngste” gruppene.
3.5.2 Korrelasjonar (Pearsons R)Diverre inneheld ikkje datasettet så mange metriske variablar, så for å demonstrere bruk av Pearsons R skal eg bruke eit datasett om Bergensstudentane sine kulturvanar frå 1998 (Jostein Gripsrud/Jan Fredrik
21
Hovden)2. Utgangspunktet kan vere eit ynskje om å sjå samanhengen mellom den metriske variabelen FØDSELSÅR og dei to metriske variablane TIMAR HØYRER PÅ RADIO (pr. veke) og TIMAR SER PÅ TV (pr. veke).
Me går fyrst på Correlate-Bivariate og vel variablane.
Trykk OK. Me får då fylgjande tabell:Correlations
1,000 ,074* -,087**, ,014 ,005
1098 1082 1064,074* 1,000 ,070*,014 , ,0221082 1089 1058-,087** ,070* 1,000,005 ,022 ,
1064 1058 1071
Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N
v2 Fødselsår
Timar fjernsynsett pr. veke
Timar radiohøyrer på pr. veke
v2 FødselsårTimar fjernsynsett pr. veke
Timar radiohøyrer påpr. veke
Correlation is significant at the 0.05 level (2-tailed).*.
Correlation is significant at the 0.01 level (2-tailed).**.
Tabellen lesast på fylgjande måte: Pearsons Correlation er eit mål på bivariat samanheng som varierer mellom 1 og –1. At fødselsår har ein korrlasjon på +.074 for timar fjernsyn og -.087 timar radio, kan tolkast som at dei yngre studentane ser MEIR fjernsyn enn dei eldre, men dei eldre ser MEIR på radio. Ein skulle kanskje tru at det var omvendt, men her må ein hugse på at jo høgare verdi på variabelen ”Fødselsår”, di yngre er respondenten. Eit anna interessant tal i tabellen er Sig. (2-tailed), som fortel signifikansen til samanhengen (mao. i kva grad kan me vere sikre på at samanhengen me ser i utvalet også er truleg til å 2 Hovden (2002): Bergensstudentar og kultur 1998. Dokumentasjon og hovudtall. Upublisert.
22
vere ein samanheng i populasjonen). Her ser me at det er berre 1,4% sjanse for at samanhengen alder/tvbruk skuldast utvalet – med andre ord: ein signifikant samanheng (den vanlege grensa går ved 5%). Legg merke til at SPSS markerar signifikante resultat med *, ** eller ! (sistnemnde ikkje vist her).
23
3.6 MULTIVARIATE ANALYSERMe skal kort berre sjå på nokre enkle teknikkar for multivariate analyser med SPSS.
3.6.1 Trivariate krysstabellarDet er mogleg å sjå på samanhengen mellom tre eller fleire variablar via krysstabellar. Me vil sjå på samahengen mellom kjønn, alkoholbruk og deira tilgang til hasj: Er det skilnadar i samanhengen mellom alkoholbruk og tilgangen til hasj for jenter og gutar?
MARIHUANA OG HASJ: Ville du klart å skaffe marihuana eller hasj i løpet av to til tre dager? * BRUK AV ALKOHOL: Har du noen gang drukket øl, vin ellerbrennevin * KJØNN: Er du gutt eller jente Crosstabulation
% within BRUK AV ALKOHOL: Har du noen gang drukket øl, vin eller brennevin
16,9% 33,9% 61,3% 71,4% 77,6% 83,8% 40,8%
45,6% 29,4% 20,2% 12,8% 10,9% 8,1% 28,9%
37,5% 36,7% 18,6% 15,9% 11,6% 8,1% 30,3%
100,0% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0%
9,6% 25,5% 52,7% 63,8% 78,0% 77,5% 33,1%
46,8% 31,2% 15,2% 11,1% 4,7% 7,5% 28,9%
43,5% 43,3% 32,1% 25,1% 17,3% 15,0% 38,0%
100,0% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0%
Ja
Nei
Vet ikke
MARIHUANA OG HASJ:Ville du klart å skaffemarihuana eller hasj iløpet av to til tre dager?
TotalJa
Nei
Vet ikke
MARIHUANA OG HASJ:Ville du klart å skaffemarihuana eller hasj iløpet av to til tre dager?
Total
KJØNN: Er dugutt eller jenteGutt
Jente
Jeg har aldrismakt alkohol
Smaktalkohol,
men drikkersjelden
Drikker ca.1 gang pr.
måned
Drikker 2-3ganger pr.
månedDrikker ca. 1gang pr. uke
Drikker merenn en gang
pr. uke
BRUK AV ALKOHOL: Har du noen gang drukket øl, vin eller brennevin
Total
Ser me på totalen fyrste (til høgre), så ser me at fleire gutar enn jenter meiner dei kunne skaffe hasj (41% kontra 33%). Me ser og at for både gutar og jenter stig andelen som meinar dei kan få tak i hasj klart med alkoholbruken. Av tabellen ser me også at skilnadane er større blant gutar og jenter i ”små-forbruks”-gruppene, og mindre blant ”stor-forbruks”-gruppene. Så tilgangen til hasj kan ikkje forklarast åleine med kjønn eller alkoholbruk – her er ein samanheng mellom dei tre variablane.
24
3.6.2 Multivariat regresjonFor å gjere regresjon så må me fyrst kode om variablane til dummy-variablel (for rekoding til dummy-variablar sjå her). Eg vil her bruke dei same variablane som laga i dummy-rekodinga ovanfor: Kjønn, Alder og alkoholbruk.
I dette tilfellet ser me alkoholbruken som den uavhengige variabelen, og kjønn og alder som uavhengige (prediktorar).
Me får då fylgjande resultattabellar:
Model Summary
,300a ,090 ,089 ,4436Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), ALDER_V, KJONN_Ma.
R Square seiar noko om modellen sin forklaringsemne, med verdiar frå 0 til 1 (=100%). Her: at variablane kjønn og alder berre forklarar 9% av variasjonen i alkoholbruken. Med andre ord er det andre ting som spelar inn.
ANOVAb
110,720 2 55,360 281,302 ,000a
1123,529 5709 ,1971234,249 5711
RegressionResidualTotal
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), ALDER_V, KJONN_Ma.
Dependent Variable: ALKO_JAb.
25
ANOVA tabellen gjev oss regresjonsdatane, den er ikkje veldig interessant, men unntak av Sig. – som antyder at det verkeleg er ein samanheng mellom kjønn+alder og alkoholbruk.
Coefficientsa
,238 ,019 12,688 ,0009,498E-03 ,012 ,010 ,809 ,419
,366 ,015 ,299 23,685 ,000
(Constant)KJONN_MALDER_V
Model1
B Std. Error
UnstandardizedCoefficients
Beta
Standardized
Coefficients
t Sig.
Dependent Variable: ALKO_JAa.
Koeffisientane angjev styrken på samanhengane i vår modell. Beta-koffisientane (B) syner at alder i vår modell forklarar meir av alkoholbruken enn kjønn (.366 kontra .238).
Alternativt kan me bruke dei standardiserte Beta-koeffisientane, som utrykker styrken i Z-Scores (i antall standardavvik). Dette gjev eit meir reellt bilete av styrken på samanhengen.
Legg merke til at samanhengen alder-alkoholbruk er signifikant, men ikkje kjønn-alkoholbruk (41,9% sjanse for at sistnemnde skuldast tilfeldigheiter i utvalet).
Merk at statistikken avheng av måten me kodar datane på. Ei meir nyansert koding av aldersvariabelen ville td. gjeve sterkare samanheng.
26
4. GRAFAR4.1 Grafar i SPSSSPSS tilbyr ei rekkje grafiske muligheiter under Graphs. Her skal eg berre syne nokre dømer. Erfaringsmessig har mange problem med å lage stolpediagram av typen dei ynskjar (SPSS er ikkje særleg pedagogisk på dette punktet).
Logikken for stolpediagram, linjediagram og kakediagram er den same. Her er stolpediagram synt.
4.2 Stolpediagram4.2.1 Stolpediagram – for enkeltvariabelVelg Graphs-bar-simple-summaries for groups of cases
Cases weighted by VEKT
KJØNN: Er du gutt eller jente
JenteGutt
Perc
ent
60
50
40
30
20
10
0
27
4.2.2 Stolpediagram – samanlikning av to kategoriske variablarVelg Graphs-bar-clustered-summaries for groups of cases
BRUK AV ALKOHOL: Har du noen gang drukket øl, vin eller brennevin
Drikker mer enn en g
Drikker ca. 1 gang p
Drikker 2-3 ganger p
Drikker ca. 1 gang p
Smakt alkohol, men d
Jeg har aldri smakt
Missing
Cou
nt
1400
1200
1000
800
600
400
200
0
KJØNN: Er du gutt el
Missing
Gutt
Jente
28
4.2.3 Stolpediagram – samanlikning av to kategoriske variablar (via ein metrisk)
Velg Graphs-bar-simple-summaries for groups of cases
Cases weighted by VEKT
KJØNN: Er du gutt eller jente
JenteGutt
Mea
n A
lder
RE
KO
DA
15,0
14,8
14,6
14,4
14,2
14,0
13,8
29
4.3 BoxplotBoxplot er ein type graf som oppsummerar ein del informasjon om sentraltendensar og spreeing.
Graphs-Boxplot-Simple-Summaries for groups of cases
31772589N =
Analysis weighted by VEKT
KJØNN: Er du gutt eller jente
JenteGutt
BR
UK
AV
ALK
OH
OL:
Har
du
noen
gan
g dr
ukke
t øl,
vin
elle
r br
enne
vin
7
6
5
4
3
2
1
0
586755254557756429214301897837296132705593256925110871704863495455963241374294749678481533486718137314455003275253429296715619833337102030633386
1388936273870843611614705202111348542733504339654832924885292457542647932298517471946127113417695507558712141524220533512439621947907204026738524955341267931565394390848212112156123028801531262087554912867101348801216140203711732261569716731390560720915581174126532781113624320052903550810552748301257435333288290027915482980935278555435652287421622034281266719762825606504433545599264056223290430071000203132952951564647927351129179430911331564893744871522108631134221721122934373320173586443211187314791479014155570401628712656128629633415747216422275586
61310882955499257056171766157417333912472635257215124815290670744015952023346619564788874280361137827311389125050422522641378203255821411454511709140955762775258280415623316395580101144933292780139538156007052443272156363827424527379133605335504550391420335501337
30
4.4 Error bar (Konfidensintervall)Ein fin måte å studere grafisk om det er signifikante skilje mellom kategoriar er å bruke ”Error bar”-funksjonen i SPSS.
Graphs-Error Bar-Simple-Summaries for groups of cases
11027262280124691442186N =
BRUK AV ALKOHOL: Har du noen gang drukket øl, vin eller brennevin
Drikker mer enn en g
Drikker ca. 1 gang p
Drikker 2-3 ganger p
Drikker ca. 1 gang p
Smakt alkohol, men d
Jeg har aldri smakt
Missing
95%
CI A
lder
RE
KO
DA
16,0
15,5
15,0
14,5
14,0
13,5
Her ser me td. at me kan vere 95% sikre på at dei som drikk 1 gong i månaden er yngre enn dei som drikk 2-3 gongar i månaden, men me kan ikkje vere sikre på at dei som drikk meir enn ein gong i veka er eldre eller yngre enn desse to gruppene. At sistnemnde kategori har større feilmarginar heng saman med at det er få personar i denne kategorien.
31
4.5 Spreiingsdiagram og regresjonslinjeFor å studere samanhengen mellom to metriske variablar kan ein lage eit spreiingsdiagram. Datafila me brukar her har diverre dårleg med slike variablar, men for dømet si skuld kan me bruke den rekoda aldersvariabelen og ”versting”-indeksen me laga i indekskonstruksjonen.
Graph-Scatterplot-Simple
32
Linja i figuren er regresjonslinja. Den kan du få fram ved å HØGREtrykke på grafen, og velje SPSS Chart Object-Open. Velg Chart-Options og kryss av for ”Fit line” total.
33
5. KOSMETIKK – GRAFAR OG TABELLAR I EXCEL/WORD BASERT PÅ DATA FRÅ SPSSDet er mogleg å flikke på grafane og tabellane i SPSS ved å dobbeltrykke på dei.
I tabellar kan du då redigere td. endre størrelsen på cellene og endre fontstørrelse (dersom teksta ikkje passar), og formatere tala (td. tek eg vanlegvis vekk desimalane ved prosentar).
Når du dobbeltrykker på grafane så opnar du dei i ein eigen grafisk editor, der du kan gjere både kosmetiske endringar og styre kva informasjon som skal vere i grafen.
Personleg foretrekk eg å lage grafane og tabellane i Excel, som har fleire muligheiter enn SPSS. Og vert langt penare.
5.1 Grafar i Excel La oss seie at du vil lage ein graf på basis av ein enkel krysstabell, td. BRUK AV ALKOHOL: Har du noen gang drukket øl, vin eller brennevin * KJØNN: Er
du gutt eller jente Crosstabulation
% within KJØNN: Er du gutt eller jente
24,4% 26,0% 25,3%
44,7% 41,7% 43,1%
13,1% 14,9% 14,1%
10,1% 11,6% 10,9%
5,1% 4,4% 4,7%
2,5% 1,4% 1,9%
100,0% 100,0% 100,0%
Jeg har aldri smaktalkoholSmakt alkohol, mendrikker sjeldenDrikker ca. 1 gang pr.månedDrikker 2-3 ganger pr.månedDrikker ca. 1 gang pr. ukeDrikker mer enn en gangpr. uke
BRUK AVALKOHOL:Har du noengang drukketøl, vin ellerbrennevin
Total
Gutt Jente
KJØNN: Er du gutt ellerjente
Total
Det du gjer er å trykke på tabellen med HØGRE mustast. Velg ”Copy”. Opne Excel. Velg “Lim inn”.
34
For å lage grafen, merkar du området (b4:d10) og velgar graf. Td. kan du lage ein graf som ser slik ut.
Drikker mer enn en gang pr. uke
Drikker ca. 1 gang pr. uke
Drikker 2-3 ganger pr. måned
Drikker ca. 1 gang pr. måned
Smakt alkohol, men drikker sjelden
Jeg har aldri smakt alkohol
0 5 10 15 20 25 30 35 40 45
GuttJente
5.1 Tabellar i ExcelPå same måten som for grafen kan du kopiere tabellen til Excel, og så bruke Excel sin Autoformat. Både grafane og tabellane frå Excel kan du kopiere inn i Word med kopier-lim inn funksjonen.
Gutt JenteJeg har aldri smakt alkohol 24 26Smakt alkohol, men drikker sjelden 45 42Drikker ca. 1 gang pr. måned 13 15Drikker 2-3 ganger pr. måned 10 12Drikker ca. 1 gang pr. uke 5 4Drikker mer enn en gang pr. uke 3 1 100 100
35
6. DIVERSE EMNER6.1 RekodingOfte i analyser av datamatriser har me eit behov for å forandre på ein variabel. Her er nokre måtar å gjere det på.
6.1.1 Oversikter over variablar og verdiarFor å rekode variablar treng me å skaffe oss informasjon om variablane. Dette kan du gjere på fleire måtar i SPSS.
File Info (Utilities-File Info)Dette gjev ei komplett tekstfil med alle variablar og deira koding, som kan skrivast ut eller kopierast inn I Word.
Variabellista (Utilities-Variables)Oversikt over verdiane (på den orginale variabelen) får du ved å velge Variabellista i Utilities-Variables.
Variabelinformasjon ved analyserEin alternativ måte å få fram verdiane på ein variabel er å høgretrykke på variabelen i lista (når du veljer variablar til ei analyse), og velg ”Variable information”:
Obs!Ikkje ta målenivået (her Ordinal) du finn i SPSS sine datafiler for god fisk – dette er felt som sjeldan vert brukt, og difor vanlegvis er feil.
36
6.1.2 Enkel rekodingVanlegaste måten å forandre variablar på i SPSS er enkel rekoding. Her skal eg vise eit døme: på basis av aldersvariabelen (7 kategoriar) skal me lage ein forenkla versjon med tre kategoriar. Når ein jobbar med slike rekodingar er det lurt å sette opp ein plan med dei gamle og dei nye verdiane.
Verider på orginal variabel (v2 Alder)
Verdier på ny Variabel (Alder_R)
1,2 13,4,5 26,7 3
9 (manglar) 9 (manglar) Her rekodar me aldersgruppene 12-13 til kategorien 1, 14-16 til ein kategori (2) og 17-18 til kategorien 3. Dei som manglar aldersopplysningar på vert rekoda til ein ny MISSING-variabel.
Velg: Transform-Recode-Into Different Variables
Fyrst velger me variabelen me vil rekode – her alder v2 (gjort). Deretter må me gje den nye variabelen eit nytt namn og ein merkelapp. Me veljer namnet Alder_R. Trykk Change for å sette denne inn. Spørsmålsteiknet vert då erstatta med Alder_R.
Trykk så på Old and New Values.
37
Til venstre i menyen skriv du inn den gamle verdien du vil endre – ”1”. Den skal no ha den nye verdien ”1”. Trykk på Add for å legge det til kodelista nedanfor. Sameleis skal verdien ”2” ha den nye verdien ”1” osb. Fylg kodelista ovanfor.
Du kan også rekode fleire (samanhengane) verdier på ein gong ved å bruke ”Range”. For å rekode verdiane 1-2 til den nye verdien 1, kan me gjere det slik:
Når du er ferdig med å angje dei nye verdiane trykker du Continue. Du kjem då ut i forrige vindauge. Trykk Ok.
Ein ny variabel vert lagt til i variabellista. Endre variabeldefinisjonen til ingen desimalar og 9 som missing:
38
Verditeksten skal vere 1 = 12-13 år2 = 14-16 år3 = 17-18 år9 = manglar
Den nye variabelen er klar. For å vere sikker på at den er rett, samanlikn frekvensfordelingane for den nye og den gamle variabelen (det er fort gjort å gjere feil).
6.1.3 Dummy-variablarDummy-variablar er variablar som har verdien 0 eller 1 – anten så har ein eigenskapen eller så har ein den ikkje. Ei rekoding av variabelen kjønn (1=mann, 2=kvinne, 9=ikkje svart) ville slik gje opphav til 3 variablar: Kjønn_m (0,1), Kjønn_k (0,1), Kjønn_9 (0,1).
Mange statistiske analyseteknikkar krev at variablane er metriske (1,2,3,4,5,6,7,… osb.), td. regresjon og korrelasjonar. For å kunne inkludere variablar som er ordinale er nominale, kan ein omgjere dei til metriske ved å dummy-rekoding.
For å gjere ei regresjonsanalyse av samanhengen mellom kjønn, alder og alkoholbruk må me gjere alle variablane om til dummies. For å gjere dette rekodar me på vanleg måte (jfr. ovanfor) variablane etter fylgjande plan.
V1 (kjønn) 1 (mann) = Kjonn_M (1,0)
Me treng berre denne (1= mann, 0=ikkje mann, mao. kvinne)
V2 (alder) 1-4 (16-18) = Alder_V
Altså: Alder_V 1=16-18 år, 0=12-15 år. (V står for Videregåande)
V9 (alkoholbruk) 3-6 = Alko_Ja 0 = ”aldri smakt” + ”smakt, men drikker
39
Alko_Ja sjelden”. Slik deler variabelen elevane som drikk lite/ingenting kontra dei andre.
Her er synt kodinga for aldersvariabelen:
Ferdig med rekodinga, kan me køyre ut ein tabell over korrelasjonane. Velg Correlate-Bivariate. Velg dei tre nye variablane.
Correlations
1,000 ,022 ,015, ,094 ,246
5970 5898 5775,022 1,000 ,299**,094 , ,0005898 5902 5716,015 ,299** 1,000,246 ,000 ,5775 5716 5784
Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N
KJONN_M
ALDER_V
ALKO_JA
KJONN_M ALDER_V ALKO_JA
Correlation is significant at the 0.01 level (2-tailed).**.
Tolking av korrelasjonar ved dummyvariablar krever at ein hugsar logikken bak rekodingane. Som me ser er det berre eit variabelpar som har ein signifikant samanheng (markert ved **), nemleg Alko_Ja og Alder_V. Samanhengen er positiv (0,299). Det betyr at lave verdiar på Alko_Ja går saman med lave verdiar på Alder_V. Med andre ord: dei som drikk lite/ingenting har også låg alder.
Derimot er det ingen eigentleg samanheng mellom kjønn og alkoholbruk (utifrå korrelasjonane).
Metodelitteraturen angjev ofte 0,20 som grensa for ein sterk samanheng. Men denne verdien heng saman med måten variabelen er koda på. Eit betre tips er å konsentrere seg om dei samanhengane som er signifikante (merka med *), og studere dei nøyare i krysstabellar.
40
6.1.4 MassekodingDersom du har mange variablar som skal rekodast likt, så finst det tidsbesparande måtar å gjere dette på.
La oss ta som eksempel variabel 13-19 i fila, som er ulike spørsmål om risikoåtferd (sloss med og utan våpen, gjort innbrot osb.), som alle er koda på same måte:
1 0 ganger 2 1 gang 3 2-5 ganger 4 6-10 ganger 5 10-50 ganger 6 Mer enn 50 ganger 9 M Mangler data
La oss seie at me vil lage ein ny versjon av alle variablane med berre 3 kategoriar:
1 0-1 ganger 2 2-10 ganger 3 10 ganger eller mer 9 M Mangler data
Me kan sjølvsagt gjere dette ved å kode kvar av dei sju variablane for seg. Men fordi alle variablane skal rekodast etter samme mal, kan dette gjerast raskare: Fyrst, ved val av rekodingsvariablar legg du til ALLE variablane du skal rekode etter samme mal, slik:
Når du har spesifisert dei gamle og dei nye verdiane, og trykker på OK, vil ALLE variablane i lista verte rekoda etter samme mal.
Vidare er det nok at du skriv inn verdiane (values) på ein av dei nye variablane (i variabelvindauget). Velg deretter cella med dei nye verdiane, trykk CTRL-C og velg cella du vil kopiere verdiane til. Trykk CTRL-V. Gjenta på alle variablane.
6.1.5 Konstruksjon av indeksarAv og til ynskjer ein å slå saman informasjonen i fleire variablar til ein enkelt variabel – såkalla indeksar. I statistikkfila me brukar ligg td. fleire spørsmål om
41
vold og ulovlege handlingar. Td. kan me ynskje å lage ein indeks som plasserer ungdom i ulike grader av ”problematferd” basert på fleire variablar. Me kan td. velje desse tre variablane som utgangspunkt for indeksen:
V13 SLOSSKAMP MED VÅPEN: Vært i slåsskamp hvor du har brukt våpen (f. eks. kniv)V17 INNBRUDD: Brutt deg inn for å stjele noeV19 ANNEN NARKOTIKA: Brukt narkotiske stoffer som kokain, LSD, ecstasy, amfetamin eller heroin
Variabel 13, 17 og 19 omhandlar alle relativt alvorlige lovbrot, men likevel forskjellige.
Deretter må me lage ein ”konverteringstabell” som seier oss kva korleis ein verdi på variabelen skal bidra til indeksen. Her har alle variablane samme format, det gjer det noko enklare:
1 0 ganger 2 1 gang 3 2-5 ganger 4 6-10 ganger 5 10-50 ganger 6 Mer enn 50 ganger 9 M Mangler data
Spørsmålet er no korleis verdiane på kvar variabel skal telle i høve vår indeks. Eit forslag til indekskonstruksjon er:
1 2 3V13 SLOSSKAMP MED VÅPEN
1 2,3 4,5,6
V17 INNBRUDD 1 2,3,4 5,6V19 ANNEN NARKOTIKA 1 2,3 4,5,6
Variablane vert omkoda til eit felles format med 3 verdiar: 1=svak, 2=middels, 3=sterk. Av tabellen ser ein at eg reknar 6-10 innbrot som ”2”, men 2-5 slosskampar med våpen som ”3” – med andre ord reknar eg innbrota som mindre alvorlege enn slosskampane med våpen.
Fyrst rekodar me variablane til dei nye variablane som skal brukast til utgangspunkt for indeksane. Eg syner her berre rekodinga av slosskamp med våpen, v13:
42
Køyrer me ein frekvensfordeling på denne, finn me at 57 personar utmerker seg i sterkaste kategori 3:
V13IND
5460 91,7 95,5 95,5198 3,3 3,5 99,057 1,0 1,0 100,0
5716 95,9 100,0241 4,1
5957 100,0
1,002,003,00Total
Valid
SystemMissingTotal
Frequency Percent Valid PercentCumulative
Percent
No har me rekoda variablane me vil bruke i indeksen til eit felles format. Neste steg er å slå desse saman. Fordi me berre vil legge saman tale, kan me gjere dette med Transform-Compute.
I sum gjev desse tre variablane ein skala frå 3 (minste moglege score, 1x3) til 9 (3x3), som me ser av frekvensfordelinga:
43
VOLDINDX
4624 77,6 92,0 92,0250 4,2 5,0 96,982 1,4 1,6 98,630 ,5 ,6 99,217 ,3 ,3 99,54 ,1 ,1 99,6
21 ,3 ,4 100,05027 84,4 100,0930 15,6
5957 100,0
3,004,005,006,007,008,009,00Total
Valid
SystemMissingTotal
Frequency Percent Valid PercentCumulative
Percent
Me har no laga ein indeksvariabel. For å bruke denne informasjonen i krysstabellar er det ynskjeleg å rekode denne variabelen til færre kategoriar. Valget vert 3=1 (ingen), 4-5 (noko), 6-9 (mykje). Den nye variabelen vert slik:
VOLDIDX3
4624 77,6 92,0 92,0332 5,6 6,6 98,671 1,2 1,4 100,0
5027 84,4 100,0930 15,6
5957 100,0
IngenNokoMykjeTotal
Valid
SystemMissingTotal
Frequency Percent Valid PercentCumulative
Percent
Så tilbake til vårt innleiande spørsmål: i kva aldersgruppe er ”verstingane”? Me kryssar vår nye variabel opp mot aldersgrupper:
VOLDIDX3 * Rekoda aldersvariabel Crosstabulation
% within Rekoda aldersvariabel
95,4% 91,4% 76,6% 92,0%3,9% 7,2% 17,4% 6,6%,7% 1,4% 6,0% 1,3%
100,0% 100,0% 100,0% 100,0%
IngenNokoMykje
VOLDIDX3
Total
12-13 år 14-16 år 17-18 årRekoda aldersvariabel
Total
Resultatet er ikkje uventa at me finn svært få ”verstingar” i dei lavaste aldersgruppene.
6.2 UtvalgAv og til vil ein gjerre analyser berre på ein del av datasettet. Td. kan me velje ut å gjere analyser på berre jentene på denne måten. Velg Data-Select Cases:
44
Velg: ”If condition is satisfied”, og trukk på If.
Utvalget føreset at du veit kva som er variabelnamnet og verdiane. Her har me vald kjønn og trykt på .I vindauget dukkar då variabelnamnet ”v1” opp. V1=1 betyr at utvalget skal bestå av alle som oppfyller kriteriet variabel 1 (kjønn) = verdi 2 (kvinne). Trykk Continue. Og deretter Ok.
Om du går til datavindauget, kan du sjå at du jobbar med eit utvalg:
45
Alle respondentar som ikkje er med i analysen har ein strek over seg.
For å inkludere alle i analysen igjen, velg Data-Select Cases, velg ”Select all cases” og trykk Ok.
6.3 VektingForfattaren av denne teksten er vanlegvis ikkje begeistra for vekting av datane, utan i heilt spesielle tilfeller. Kort sagt går vekting ut på å tilskrive visse personar meir vekt enn andre i utvalet på basis av visse eigenskapar. I valanalyser – der ein er interessert i å gje eit anslag av stemmefordelinga i heile populasjonen - vert data vekta for å vege opp for at visse grupper ofte er underrepresenterte, td. gamle og distriktsbuande.
La oss seie at me vert klar over eit problem med utvalet vårt – td. at det er for få jenter. Frekvensfordelinga vår er:
KJØNN: Er du gutt eller jente
3004 50,2 50,3 50,32966 49,6 49,7 100,05970 99,8 100,0
14 ,25984 100,0
GuttJenteTotal
Valid
Mangler dataMissingTotal
Frequency Percent Valid PercentCumulative
Percent
La oss seie at me veit (gjennom andre kjelder) at det skal vere 55% jenter og 45% gutar. For å justere misforholdet, kan me velge å la dei jentene som er der telle litt meir. Meir nøyaktig, jentene skal telle 55/49.6= 1.101 og gutane 45/50.2=0.896.
Fyrste steg er å lage ein vektingsvariabel.
46
Me kan studere skiljet mellom det vekta og det uvekta utvalet ved å fyrst studere andelen som har brukt alkohol UTAN vekting:MARIHUANA OG HASJ: Ville du klart å skaffe marihuana eller hasj i løpet av to til
tre dager?
2144 35,8 37,1 37,11667 27,9 28,8 65,91971 32,9 34,1 100,05782 96,6 100,0202 3,4
5984 100,0
JaNeiVet ikkeTotal
Valid
Mangler dataMissingTotal
Frequency Percent Valid PercentCumulative
Percent
Så MED vekting. Gå på Data-Weight Cases. Velg vektingsvariabelen.
Gjer frekvensfordelinga igjen:
47
MARIHUANA OG HASJ: Ville du klart å skaffe marihuana eller hasj i løpet av to tiltre dager?
2114 35,5 36,7 36,71661 27,9 28,8 65,51990 33,4 34,5 100,05764 96,8 100,0193 3,2
5957 100,0
JaNeiVet ikkeTotal
Valid
Mangler dataMissingTotal
Frequency Percent Valid PercentCumulative
Percent
Skilnadane i dette tilfellet er små: Andelen som seier dei kunne klare å skaffe hasj på 2-3 dagar går frå 35,8% (uvekta utval) til 35,5% (vekta utval).
6.4 Import av data (frå Excel)Mykje statistikk ligg i andre format enn SPSS-dataformatet. Vanlegvis vil andre statistikkprogram (td. NSD Win) kunne konvertere til og lese SPSS sine .sav- eller .por-filer utan særleg problem.
I visse tilfeller kan ein imidlertid finne interessante data i tabellform som ein ynskjer å bruke til statistikk. Td. legg SPSS ut mange tabellar på sine sider. Me skal her praktisk sjå korleis slike data kan importerast i SPSS.
Td. kan me sjå korleis giftemålsratene har endra seg siste 20 åra på Søre Sunnmøre.
Fyrst går me inn på SSB sine sider - www.ssb.no. I ”Statistikkbanken” kan du finne mange tabellar. Me vel ein tabell om sivilstand i Møre og Romsdal dei siste 20 åra, og spesifiserer våre val.
48
Velg Excel, deretter lagre som…
Fila treng litt frisering før me konverterer den til SPSS.
Fyrst må me passe på at fyrste linja har variabeloverskrifter, ala slik:
49
Deretter må me passe på at ingen av cellene er tomme. For å gjere ein litt arbeidssom jobb litt enklare, kan me konsentrere oss om kommunane på Sunnmøre og giftemålsratene (andelen gifte). Litt triksing i Excel gjev:
50
Lagre fila som Excel 2.1-rekneark. Lukk Excel. Opne SPSS. Velg Open-Data, og spesifiser filtypen til Excel.
Du får då eit spørsmål om du vil ta med variablnamna eller ikkje. Kryss av for den.
51
Om alt går bra skal dei nye variablane dukke opp i SpSS.
52
Dette kan me bruke til å produsere ulike typar statistikk. Td. kan me studere om variasjonen mellom kommunene i giftemålsraten har endra seg:
Descriptive Statistics
17 ,74 ,90 ,8317 4,551E-0217 ,70 ,84 ,7694 3,699E-0217 ,61 ,79 ,7017 4,690E-0217 ,55 ,74 ,6677 4,844E-0217
1986199119962001Valid N (listwise)
N Minimum Maximum Mean Std. Deviation
Som me ser av tabellen har giftemålsratene gått jamt ned heile perioda, men samstundes har skilnadane mellom kommunene vorte noko større.
53
7. RESSURSAR7.1 SPSS si heimesidewww.spss.com
7.2 Andre introduksjonar til SPSSSPSS har ein heilt grei opplæringsmodul innebygd i programmet (Help-Tutorial).
Nokre meir omfattande introduksjonar til SPSS (engelsk) finn du her:SPSS for Windows, Version 9: A Brief Tutorial www.csubak.edu/ssric/Modules/SPSS/SPSFirst.htm
The Basics: SPSS 8.0 for Windowswww.boun.edu.tr/support/bucc/spss/spss.htm
Statistical Package for the Social Sciences: SPSS Version 10.0s9000.furman.edu/mellonj/spss1.htm
7.3 Alternativ til SPSSNorske NSD-Win (www.nsd.uib.no)er eit glimrande alternativ til SPSS på norsk. Det er billig, langt enklare enn SPSS, det les SPSS-filer og har dei grunnleggjande operasjonane dei aller fleste treng. SPSS har langt fleire avanserte funksjonar, men NSD Win har eit langt meir fleksibelt system for å rekode data enn SPSS.
NSD har også ein glimrande vev - Skolevev (www.nsd.uib.no/skoleveven)- med gratis data og ressursar knytt til statistikk.
7.4 Statistikk på nettetEi god kjelde til norsk statistikk på nettet er eller NSD sin Nesstar Light (nesstar.nsd.uib.no/nesstarlight) og SSB si heimeside (www.ssb.no).
Til toppen
54