26
Prezentace byla vytvořena v rámci Strategie Akademie věd AV21, výzkumného programu "Paměť v digitálním věku" Český sociálněvědní datový archiv Sociologického ústavu AV ČR, v.v.i. Jilská 1, 110 00 Praha 1, Česká republika; http://archiv.soc.cas.cz Datové archivy a jejich využití pro sekundární analýzu dat v sociálních vědách (se zaměřením na Český sociálněvědní datový archiv a jeho online databázi Nesstar) Martin Vávra [email protected]

analýzu dat v sociálních v ědách (se zam ěř ením na Český ...archiv.soc.cas.cz/sites/default/files/csda_nesstar_av21.pdf · Zdroje dat pro sekundární analýzu a pro č

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: analýzu dat v sociálních v ědách (se zam ěř ením na Český ...archiv.soc.cas.cz/sites/default/files/csda_nesstar_av21.pdf · Zdroje dat pro sekundární analýzu a pro č

Prezentace byla vytvořena v rámci Strategie Akademie věd AV21, výzkumného programu "Paměť v digitálním věku"

Český sociálněvědní datový archiv Sociologického ústavu AV ČR, v.v.i.Jilská 1, 110 00 Praha 1, Česká republika; http://archiv.soc.cas.cz

Datové archivy a jejich využití pro sekundární analýzu dat v sociálních vědách(se zaměřením na Český sociálněvědnídatový archiv a jeho online databázi Nesstar)Martin Vávra

[email protected]

Page 2: analýzu dat v sociálních v ědách (se zam ěř ením na Český ...archiv.soc.cas.cz/sites/default/files/csda_nesstar_av21.pdf · Zdroje dat pro sekundární analýzu a pro č

Zdroje dat pro sekundární analýzu a proč je využívat

Provedení vlastního výzkumu je obtížné (u některých témat prakticky nemožné)► Vysoké finanční náklady► Čas potřebný pro primární výzkum► Aktuální nedostupnost subjektů/objektů pro výzkum

Záchranou může být využití dat, která sebral někdo jiný (tj. sekundární analýza)

Nalezení a získání vhodných dat je usnadněno vytvářením příslušné infrastruktury (datové archivy) a pravidel archivování dat (zejména systematické vytváření metadat, která data popisují)

Page 3: analýzu dat v sociálních v ědách (se zam ěř ením na Český ...archiv.soc.cas.cz/sites/default/files/csda_nesstar_av21.pdf · Zdroje dat pro sekundární analýzu a pro č

Přínosy sekundární analýzy a dostupnosti dat pro tuto analýzu

Usnadňuje přenos a kumulativní vytváření poznání (archivace -> zabezpečení, zachování)

Skrze možnosti kombinovat různé datové zdroje napomáhá zvyšování informační hodnoty, komparace v čase, mezinárodní komparace

Dostupnost dat pro sekundární analýzu -> zdokonalování metod analýzy

► metodologický výzkum, testování nástrojů, vytváření nových projektů

► systematičnost, prosazování kvality

Ustavuje lepší prostředí pro spolupráci týmů (zejména mezinárodních)

Usnadňuje dostupnost dat pro výuku a zvyšuje množství sekundárních analýz prováděných studenty

Napomáhá ověřování výsledků a obecně transparentnosti výzkumu

Z hlediska vědní politiky: efektivita veřejných investic - maximalizace využití

Page 4: analýzu dat v sociálních v ědách (se zam ěř ením na Český ...archiv.soc.cas.cz/sites/default/files/csda_nesstar_av21.pdf · Zdroje dat pro sekundární analýzu a pro č

Rizika sekundární analýzy

Rizika plynou z oddělení fází produkce a analýzy dat. ► Známe dostatečně původní koncept a kontext výzkumu? Máme

dost informací o průběhu sběru dat? Rozumíme modifikacím provedeným v datech?

Při nedostupnosti „vhodných dat“ dat hrozí vynucená modifikace výzkumných záměrů

Kvalita dat je u sekundání analýzy méně transparentní – a pokud nemáme o kvalitu dat zájem a/nebo nejsme schopni ji vyhodnotit, riziko chyby či dezinterpretace je značné

Koncepty výzkumu či jednotlivé proměnné nemusí být zcela srovnatelné s těmi našimi (nebo pokud používáme více zdrojů dat, nemusí být srovnatelné mezi sebou)

Riziko chyby vyplývá i z nekompatibility formátů a s nimi spojených technických problémů zpracování

Page 5: analýzu dat v sociálních v ědách (se zam ěř ením na Český ...archiv.soc.cas.cz/sites/default/files/csda_nesstar_av21.pdf · Zdroje dat pro sekundární analýzu a pro č

Sekundární analýza není rutinní úloha !

koncepce výzkumu

vyhledání a identifikace dat

studium metadat a širšího kontextu původního výzkumu

prozkoumání dat, zhodnocení a verifikace

úpravy, transformace dat

analýza, interpretace

dokumentace použitých dat v publikované práci

systematický management dat s ohledem na sekundární využití při realizaci šetření i při sekundární analýze

Page 6: analýzu dat v sociálních v ědách (se zam ěř ením na Český ...archiv.soc.cas.cz/sites/default/files/csda_nesstar_av21.pdf · Zdroje dat pro sekundární analýzu a pro č

Co je datový archiv

Page 7: analýzu dat v sociálních v ědách (se zam ěř ením na Český ...archiv.soc.cas.cz/sites/default/files/csda_nesstar_av21.pdf · Zdroje dat pro sekundární analýzu a pro č

Sdílení výzkumných dat - standard

výměna znalostí -> rozvoj vědy

kombinování databází, komparace

(mezinárodní) spolupráce

odpovědnost k veřejným financím: hodnota zpět až s použitím dat => požadavek maximálního využití

OTEVŘENÝ PŘÍSTUP K VÝZKUMNÝM DATŮM► “otevřenost znamená přístup za rovných podmínek pro mezinárodní

vědeckou komunitu za nejnižší možnou cenu, nejlépe nepřesahující

mezní náklady distribuce. Otevřený přístup k výzkumným datům z

veřejného financování by měl být snadný, časově nenáročný,

uživatelsky přívětivý a nejlépe založený na Internetu.”

(OECD Principles and Guidelines for Access to Research Data ...

http://www.oecd.org/dataoecd/9/61/38500813.pdf)

Page 8: analýzu dat v sociálních v ědách (se zam ěř ením na Český ...archiv.soc.cas.cz/sites/default/files/csda_nesstar_av21.pdf · Zdroje dat pro sekundární analýzu a pro č

Vývoj zdrojů dat, Olomouc 17.-19.10.2013 Snímek 8

Consortium of European Social Science Data Archives

AustriaCzech RepublicDenmarkFinlandFranceGermanyLithuania

NetherlandsNorwaySloveniaSwedenSwitzerlandUnited Kingdom

Zapojení Českého sociálněvědního archivu do mezinárodní spolupráce – sdružení datových archivů CESSDA http://www.cessda.org

Nyní se tato spolupráce dostává na vyšší úroveň a v rámci CESSDA vzniká skutečná celoevropská datová infrastruktura► Jednotný přístup do národních datových úložišť, standardizace

dat a metadat

Page 9: analýzu dat v sociálních v ědách (se zam ěř ením na Český ...archiv.soc.cas.cz/sites/default/files/csda_nesstar_av21.pdf · Zdroje dat pro sekundární analýzu a pro č

V ČSDA používané standardy a nástroje

Pro zápis metadat používáme standard DDI (více informací na http://www.ddialliance.org/)Pro zápis klíčových slov používáme European Language Social Science Thesaurus (ELSST)K datových souborům nově připojujeme DOI (Digital Object Identifier), na základě registrace u organizace da|ra (součást německého institutu GESIS)Dokumenty k datům ukládáme v databázovém systému DSpaceZískali jsme Data Seal of Approval – certifikaci „důvěryhodnosti“ digitálního archivu

Page 10: analýzu dat v sociálních v ědách (se zam ěř ením na Český ...archiv.soc.cas.cz/sites/default/files/csda_nesstar_av21.pdf · Zdroje dat pro sekundární analýzu a pro č

Co je Nesstar a jak jej ČSDA a další datové archivy využívají

Nesstar je software pro webové publikování dat a jejich on-line analýzu. Uživatelé mohou prostřednictvím Nesstaru data prohledávat, on-line analyzovat a stahovat si je do svého počítače.Nesstar využívají všechny archivy sdružené v organizaci CESSDA i některé další. v roce 2016 bylo v systému Nesstar (on-line systém pro prezentaci, analýzu a stahování dat), který ČSDA používá, dostupných 741 datových souborů (v drtivé většině z dotazníkových šetření), došlo k 1535 stažení dat (75% pro účely výuky), měli jsme 2210 registrovaných uživatelů (9,1% zahraničních)

Page 11: analýzu dat v sociálních v ědách (se zam ěř ením na Český ...archiv.soc.cas.cz/sites/default/files/csda_nesstar_av21.pdf · Zdroje dat pro sekundární analýzu a pro č

K datům se lze dostat z hlavní stránky ČSDAhttp://archiv.soc.cas.cz/

Page 12: analýzu dat v sociálních v ědách (se zam ěř ením na Český ...archiv.soc.cas.cz/sites/default/files/csda_nesstar_av21.pdf · Zdroje dat pro sekundární analýzu a pro č

Dostaneme se tak do databáze Nesstar ČSDA (http://nesstar.soc.cas.cz/webview/)

Page 13: analýzu dat v sociálních v ědách (se zam ěř ením na Český ...archiv.soc.cas.cz/sites/default/files/csda_nesstar_av21.pdf · Zdroje dat pro sekundární analýzu a pro č

ČSDA archivuje i publikuje nejen primární data ze současnosti ale i data ze vzdálenější minulosti ve formě agregovaných dat (tabulek)

V roce 1946 zahájil činnost Ústav pro výzkum veřejného mínění. Primární data nemáme, ale pokoušíme se na základě dostupných zpráv z výzkumů publikovat tabulky s důležitými výsledky

Page 14: analýzu dat v sociálních v ědách (se zam ěř ením na Český ...archiv.soc.cas.cz/sites/default/files/csda_nesstar_av21.pdf · Zdroje dat pro sekundární analýzu a pro č

Medard - digitální archiv "měkkých", kvalitativních, dat

Samostatná knihovna kvalitativních dat částečně dostupná také přes rozhraní NesstarKvalitativní data: skoro všechny typy datových souborůArchivace kvalitativních dat vázne►Problém ochrany osobních údajů

Page 15: analýzu dat v sociálních v ědách (se zam ěř ením na Český ...archiv.soc.cas.cz/sites/default/files/csda_nesstar_av21.pdf · Zdroje dat pro sekundární analýzu a pro č

Stejný systém sloužící pro on-line prezentaci dat výzkumu European Social Survey (http://nesstar.ess.nsd.uib.no/webview/)

Page 16: analýzu dat v sociálních v ědách (se zam ěř ením na Český ...archiv.soc.cas.cz/sites/default/files/csda_nesstar_av21.pdf · Zdroje dat pro sekundární analýzu a pro č

Také německý datový archiv (součást institutu GESIS) využívá pro zpřístupňování dat Nesstar

http://zacat.gesis.org/webview/index.jsp

Tento archiv je z hlediska českého výzkumníka významný proto, že zpřístupňuje mezinárodní datové soubory –například z výzkumů ISSP nebo EVS

Page 17: analýzu dat v sociálních v ědách (se zam ěř ením na Český ...archiv.soc.cas.cz/sites/default/files/csda_nesstar_av21.pdf · Zdroje dat pro sekundární analýzu a pro č

Jak s daty v databázi Nesstar pracovat

Poté co se dostanete na stránku http://nesstar.soc.cas.cz/webview/už stačí jen postupně rozbalovat nabídku klikáním na názvy sekcí (popřípadě na čtverce vedle těchto názvů). Dostanete se tak až na úroveň konkrétních výzkumů a v rámci zvoleného výzkumu po kliknutí na „Popis proměnných“ (případně na „Variable description“ – v závislosti na nastavení jazyků ve vašem prohlížeči) na jednotlivé proměnné. V sekci „Metadata“ můžete procházet informace o výzkumu.

Page 18: analýzu dat v sociálních v ědách (se zam ěř ením na Český ...archiv.soc.cas.cz/sites/default/files/csda_nesstar_av21.pdf · Zdroje dat pro sekundární analýzu a pro č

Vyhledávání dat

V informacích o výzkumu i v informacích, které se vztahují ke konkrétním proměnným je možno vyhledávat prostřednictvím nástroje na horní liště (podrobnější nabídka vyhledávání pod tlačítkem s lupou a symbolem +).

Page 19: analýzu dat v sociálních v ědách (se zam ěř ením na Český ...archiv.soc.cas.cz/sites/default/files/csda_nesstar_av21.pdf · Zdroje dat pro sekundární analýzu a pro č

Další funkce Nesstaru

Kromě prohlížení metadat a proměnných Nesstar umožňuje:Vytváření kontingenčních tabulekProvádění korelační a regresní analýzyVýsledky analýz lze zobrazit mnoha typy grafůVytváření nových a rekódování starých proměnných ►K využívání těchto funkcí je nutná registrace

Stahování datových souborů do počítače uživatele► I pro to je nutná registrace

Page 20: analýzu dat v sociálních v ědách (se zam ěř ením na Český ...archiv.soc.cas.cz/sites/default/files/csda_nesstar_av21.pdf · Zdroje dat pro sekundární analýzu a pro č

Registrace - http://archivreg.soc.cas.cz/registrace

Po odsouhlasení podmínek využívání dat uživatel již pouze vyplní krátký online formulář – login a heslo mu pak přijdou na email

Page 21: analýzu dat v sociálních v ědách (se zam ěř ením na Český ...archiv.soc.cas.cz/sites/default/files/csda_nesstar_av21.pdf · Zdroje dat pro sekundární analýzu a pro č

On-line analýza vztahu dvou proměnných

Na horní liště Nesstaru se uživatel přepne do sekce tabulkyPoté již zvolí konkrétní proměnné a to tak, že klikne levým tlačítkem myši nad labelem dané proměnné

Page 22: analýzu dat v sociálních v ědách (se zam ěř ením na Český ...archiv.soc.cas.cz/sites/default/files/csda_nesstar_av21.pdf · Zdroje dat pro sekundární analýzu a pro č

Korelační analýza v Nesstaru

Uživatel přejde na liště do „analýzy“, poté zvolí „korelaci“Do korelační matice se proměnné přidávají znovu pomocí levého tlačítka myši Kromě hodnot samotného koeficientu je možno zobrazit i významnosti a počet jednotek, které do daného korelačního vztahu vstupují

Page 23: analýzu dat v sociálních v ědách (se zam ěř ením na Český ...archiv.soc.cas.cz/sites/default/files/csda_nesstar_av21.pdf · Zdroje dat pro sekundární analýzu a pro č

Regresní analýza v Nesstaru

Práce s proměnnými je stejná jako u korelací, pouze je pochopitelně nutno zvolit závisle proměnnou a ostatní proměnné jako nezávislé

Page 24: analýzu dat v sociálních v ědách (se zam ěř ením na Český ...archiv.soc.cas.cz/sites/default/files/csda_nesstar_av21.pdf · Zdroje dat pro sekundární analýzu a pro č

Stahování datPokud se uživatel zaregistroval, ČSDA mu přidělí práva ke stahování všech souborůSamotné stažení souboru je pak velice jednoduché

► Nejprve si uživatel soubor vybere a rozklikne jej► Poté stačí kliknout na tlačítko s disketou► V nabídce si vybere formát dat► Poté dá „stáhnout“, zadá uživatelské jméno a heslo a soubor se začne stahovat

Page 25: analýzu dat v sociálních v ědách (se zam ěř ením na Český ...archiv.soc.cas.cz/sites/default/files/csda_nesstar_av21.pdf · Zdroje dat pro sekundární analýzu a pro č

Ikony důležitých funkcí Nesstaru

Zobrazení tabulek

Zobrazení grafů

Vymazat – tato funkce „vyčistí“ okno s analýzami

Váha – uložené soubory mohou obsahovat váhy, tato funkce umožňuje jejich použití

Podsoubor - tato možnost dovoluje uživateli provádět analýzy nebo zobrazení grafů na podsouboru kategorií proměnných (například pouze za osoby mužského pohlaví)

Page 26: analýzu dat v sociálních v ědách (se zam ěř ením na Český ...archiv.soc.cas.cz/sites/default/files/csda_nesstar_av21.pdf · Zdroje dat pro sekundární analýzu a pro č

Ikony důležitých funkcí Nesstaru

Stáhnout - systém umožňuje stažení datového souboru do většiny používaných statistických formátů.

Export vytvořených objektů (tabulek) do formátu .xls

Export vytvořených objektů (tabulek, grafů) do formátu .pdf

Kontextuální nápověda