Upload
cassandra-murphy
View
69
Download
7
Embed Size (px)
DESCRIPTION
Töötamine erinevate andmeallikatega. Ene-Margit Tiit Küsitlusuuringute metodoloogia seminar, Tartu, 18.10.2013. Kuidas ühendada andmestikke?. Andmestikud võivad olla: Register, st kõikne andmekogu Uuring, st valimipõhine andmekogu. Eeldame , et valimi disain on teada. - PowerPoint PPT Presentation
Citation preview
Töötamine erinevate andmeallikatega
Ene-Margit Tiit
Küsitlusuuringute metodoloogia seminar, Tartu, 18.10.2013
Kuidas ühendada andmestikke?
Andmestikud võivad olla:– Register, st kõikne andmekogu– Uuring, st valimipõhine andmekogu. Eeldame, et
valimi disain on teada.
Ühendamiseks vajalikud eeldused: 1. Kirjed on identifitseeritavad2. Andmestikkudel on ühine üldkogum.Ülesanne on lahendatav ka siis, kui ühe
andmestiku üldkogum sisaldub teise üldkogumis.
Ülesande tüübid
• Register + register register• Register + valim valim• Register + valim register• Valim + valim valimKüsimused:Millal on need ülesanded lahenduvad?Missugused on nende ülesannete lahendamisega
seotud põhimõttelised ja tehnoloogilised raskused?
REGISTER + REGISTER REGISTER
Register + register register
• Eeldused– kõik objektid on identifitseeritud – üldkogum on sama (vrdl üldkogumi objektide
definitsioone).Eestis on isikuregistrite puhul enamasti 1. eeldus
täidetud (isikukoodid). Teine tingimus vajab kontrollimist.
• Näide: RR ja REL rahvastik. – Väike erisus II eelduse osas: püsielaniku
definitsioon – REL puhul viitaeg
Kahe registri ühendamine
Selgitus
• Enamasti leidub objekte, mis (kes) on olemas ühes, aga puuduvad teises registris (ja vastupidi).
• Kui neid ei ole palju, ei põhjusta see suuri ebatäpsusi andmestiku edasisel kasutamisel.
• Saadud uuest registrist on võimalik moodustada agregeeritud väljundeid (tabeleid) nii, et osa tunnuseid pärineb ühest, osa – teisest algsest registrist. Tulemus on põhimõtteliselt täpne.
REGISTER + VALIM VALIM
Register + valim valim
• Eeldused– kõik objektid on identifitseeritud – üldkogum on sama või valimi üldkogum sisaldub
registri üldkogumis ja on registri tunnuste abil defineeritav.
• Väga sageli rakendatav. • Põhimõttelisi probleeme ei ole, kui eeldused
on täidetud.
Registri andmete lisamine valimile
Selgitus• Registritunnuste väärtused lisatakse
identifikaatori abil.• Registrist lisatud tunnused vastavad
põhimõtteliselt valimi disainile. • Registritunnustega täiendatud valimist võimalik
moodustada agregeeritud väljundeid (tabeleid) nii, et osa tunnuseid pärineb valimist, osa – registrist. Tulemus on põhimõtteliselt korrektne, täpsus on disaini põhjal hinnatav.
REGISTER + VALIM REGISTER
Register + valim register• Registri täiendamine valimuuringu abil?• Üldjuhul põhimõtteliselt võimatu. – On võimalik saada korrektseid agregeeritud tulemusi
(tabeleid), piirangud tulenevad valimist.– Seda kasutatakse praktikas, lubatud protseduur ka
rahvaloenduse korral.– On võimalik simuleerida valimi tasemel mõõdetud tunnuse
väärtused ülejäänud registriobjektidele nii, et jaotusparameetrid vastavad valimi omadele.
– Seda kasutatakse uuringutes. – Simuleeritud väärtused võivad tegelikest oluliselt erineda,
seetõttu ei sobi need registrisse.
Registri täiendamine valimi abil
Seletus
• Kuna valimis on üldjuhul objekte palju vähem kui registris, jääb suur osa registriobjekte ilma valimi põhjal lisatavast väärtusest.
• Üks võimalus on leida igale registriobjektile võimalikult sarnane valimi objekt ja omistada registriobjektidele puuduvad väärtused sarnasuse põhjal.
• Teine võimalus on vältimaks ühesuguseid väärtusi lisada neile juhuslik müra, mis aga täpsust vähendab.
Mida siiski on võimalik saada?
• On võimalik saada korrektseid agregeeritud tulemusi (tabeleid), piirangud tulenevad valimist.
• See ülesanne on sisuliselt samaväärne eelmise ülesandega – registriandmed lisatakse valimiandmetele ja moodustatakse tabel, arvestades valimi disaini.
• Seda kasutati ka REL andmete puhul (töötundide arv nädalas).
VALIM + VALIM VALIMÜHISOSATA VALIMITE JUHTUM
Valim + valim valim
• Erinevad ülesanded sõltuvalt sellest, kas valimitel on ühisosa või mitte.
• Kuigi kõik valimiobjektid on identifitseeritud ja valimitel on ühine üldkogum, kui
• valimitel ei ole ühisosa, – on see ülesanne põhimõtteliselt mittelahenduv.
Puudub teave erinevates valimites mõõdetud tunnuste omavaheliste seoste kohta.
Kaks ühisosata valimit
KorrelatsioonimaatriksV1 V2 W1 W2
V1 1 Rv12 Rvw11 Rvw12
V2 Rv12 1 Rvw21 Rvw22
W1 Rvw11 Rvw21 1 Rw12
W2 Rvw12 Rvw22 Rw12 1
Sõltumatute tunnuserühmade erijuht
• Mõnikord on alust eeldada, et kahe valimi tunnused on sõltumatud, st et seosekordajate maatriksis oleksid kõik punased kordajad nullid (statistiliselt mitteolulised).
• Sel juhul on võimalik ühisjaotuse jaoks kasutada eeskirja
P12 = P1xP2,kus P1 tähistab esimese valimi ja P2 teise valimi
tõenäosusjaotusi.
Kahe sõltumatute tunnustega valimi ühendamine
Seletus
Kasutades sõltumatuse eeldust on võimalik moodustada agregeeritud väljundeid (tabeleid) nii, et osa tunnuseid pärineb ühest, osa – teisest valimist. Tulemuse täpsus on disaini põhjal hinnatav juhul kui sõltumatuse eeldus paika peab, kui mitte, siis põhjustab see täiendava vea.
Näide: kui suurt ebatäpsust põhjustab oletus, et Eesti rahvastikus on sugu ja vanus sõltumatud tunnused.
Näide: naiste vanusejaotus: tegelik ning arvutatud soo ja vanuse järgi sõltuvust arvestamata
0 1--4 5--9 10--14
15--19
20--24
25--29
30--34
35--39
40--44
45--49
50--54
55--59
60--64
65--69
70--74
75--79
80--84
85+0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
N_tegelikN_arvut
Kahe sõltuvate tunnustega valimi ühendamine
Seletus• Oletame, et kahe valimi korral on eelnevast teada, et
ühe valimi teatavate väärtuste puhul on eelistatud teise valimi teatavad konkreetsed väärtused (tähistagu neid skeemil tumedamad sinised ja tumedamad punased väärtused).
• Ühendatud valimi (mida saab kasutada üksnes tabelite moodustamiseks) jaotus peaks seda siis ka vastavalt kajastama.
• Üldjuhul pole ühisjaotuse genereerimine sel juhul lihtne, selleks puudub üldsobiv metoodika ja tehnoloogia.
VALIM + VALIM VALIMÜHISOSAGA VALIMITE JUHTUM
Kahel valimil on ühiseid objekte ja/või ühiseid tunnuseid
Põhimõtteliselt on siin kolm erinevat ülesannet:Samadele objektidele täiendavate tunnuste
lisamine;Samade tunnuste mõõtmine uutel objektidel;Uues valimis on niihästi uusi objekte kui ka uusi
tunnuseid.
tüüp 1 tüüp 2 tüüp 3
1.Esimene ülesande tüüp on tavaline paneeluuringutes.
• Enamasti on probleemiks objektide arvu kahanemine, mis tähendab, et muuta tuleb laiendustegureid.
2. Teine tüüp on lahendatav laiendustegurite ühitamise teel.
Kolmas tüüp
• Sobiv on laiendustegurite arvutamiseks kasutada valimite ühiseid tunnuseid.
• Mida suurem on ühiste tunnuste osa, seda väiksem on määramatus tunnustevaheliste seoste osas.
• Kuid teadaolevad seosed (alljärgnevas maatriksis mustad arvud) ei määra üheselt mitteteadaolevaid (punaseid) seoseid.
• Seega sellise ülesande lahendamisel jääb paratamatult tulemustesse teatav ebatäpsus.
Seosekordajate maatriksV1 V2 Ü1 Ü2 W1 W2
V1 1 rv1v2 rü1v1 rü2v1 rv1w1 rv1w2
V2 rv1v2 1 rü1v2 rü2v2 rv2w1 rv2w2
Ü1 rü1v1 rü1v2 1 rü1ü2 rü1w1 rü1w2
Ü2 rü2v1 rü2v2 rü1ü2 1 rü1w1 rü1w2
W1 rv1w1 rv2w1 rü1w1 rü2w1 1 rw1w2
W2 rv1w2 rv2w2 rü1w2 rü2w2 rw1w2 1
Sõltuvuste genereerimine?
• Teoreetiline uurimistöö – võimalik teatavate jaotuse tüüpide korral (nt normaaljaotus, selle üldistused jne).
• Praktiliselt teostatav pigem lähendusmeetodite abil (nt lineaarne planeerimine – sihifunktsiooniks on eeldatav ühisjaotuse seosemaatriks).