Upload
maria-magdalena-d
View
256
Download
9
Embed Size (px)
Citation preview
Cristian Opariuc-Dan
Măsurarea în științele socio-umane
CONCEPTE ȘI TEME NOI
• Ce legătură există între statistică, analiză de date, IBM SPSS Statistics și R; • Ce înțeles are conceptul „a măsura” și care este specificul acestuia în domeniul socio-uman; • Ce sunt variabilele și cum le putem clasifica; • La ce niveluri putem măsura și care este precizia fiecărui nivel de măsură; • Ce înseamnă IBM SPSS Statistics, cum îl putem obține și cum începem să lucrăm cu acest program; • Cum se definesc variabilele și cum se proiectează corect o
bază de date în IBM SPSS Statistics; • Ce este R, cum se obține și cum începem să lucrăm cu el; • Cum se definesc variabilele și cum se proiectează corect o bază de date în R;
CE CONȚINE ACEST CAPITOL?
Capitolul urmărește o introducere în analiza de
date și cuprinde trei părți. Prima parte este una
teoretică, în care vom încerca să clarificăm o serie de
concepte fundamentale înțelegerii principiilor analizei
de date. A doua parte vizează prezentarea unor
principii de proiectare a bazelor de date, apoi o scurtă
introducere în IBM SPSS Statistics în care se relevă câteva noțiuni de proiectare
corectă a unor variabile și de construire a unei baze de date. În cea de-a treia
parte vă vom iniția în R și vom vedea cum putem construi o bază de date folosind
acest program. Tehnicianul Sandu va face un efort și va demonstra cum se pot
crea baze de date cu foarte multe variabile în doar câteva minute. Capitolul se
încheie cu o recapitulare, urmată de o serie de întrebări de verificare și teme de
reflecție.
4
Măsurarea în științele socio-umane
Noțiuni teoretice Analiza de date se bazează, evident, pe date. Ce sunt însă datele, cum se
clasifică ele, ce putem face cu ele și cum le utilizăm în mod corect, toate acestea
sunt probleme pe care vom încerca să le lămurim pe parcursul întregii lucrări.
Într-o primă instanță, vom studia ce sunt datele, de unde le putem culege, cum
se împart, cum se pot organiza și, în definitiv, care este disciplina științifică ce se
ocupă de asemenea lucruri. Nu în ultimul rând, vom vedea ce înseamnă, de fapt,
a măsura. Este posibil ca acest cuvânt să semnifice și altceva față de ceea ce
știați.
I.1 Statistică, analiză de date sau SPSS? Majoritatea programelor de studiu ale facultăților socio-umane includ,
ca disciplină, statistica, fie că vorbim despre cea psihologică, sociologică,
economică și așa mai departe. Este și nu este corect, iar pentru a vedea exact
de ce, vom porni de la definiția dată de dicționare.
Conform DEX, termenul are mai multe înțelesuri, putând însemna: (1) Evidență numerică, situație cifrică referitoare la diverse fenomene (izolate sau generale), numărătoare; (2) Culegere, prelucrare și valorificare a unor date legate de fenomene generale; (3) Știință care culege, sintetizează, descrie și interpretează date referitoare la fenomene generale; (4) Ramură a matematicii care elaborează
noțiunile și metodele folosite în statistică; (5) Știință care, folosind calculul probabilităților, studiază fenomenele de masă din punct de vedere cantitativ (Academia Română, 2012).
Ultimele două accepțiuni (4 și 5) sunt cele mai apropiate de sensul real
al statisticii, ca disciplină matematică axată pe studiul probabilităților. Din acest
punct de vedere, statistica este o „perlă” a matematicii, sintetizând mai multe
domenii, cum ar fi: probabilități, calcul matriceal, combinatorică, analiză
matematică, inclusiv calcul diferențial și integral. Dacă am studia o asemenea
5
Cristian Opariuc-Dan
știință în cadrul unei facultăți de psihologie, sociologie, științe economice sau
științe ale administrației, în mod aproape sigur ar reprezenta un „cui” atât de
mare pentru studenți, încât ar limita drastic numărul absolvenților. De fapt, nici
facultățile de matematică nu studiază statistica decât în cadrul unor programe
masterale, unii preferând studiul avansat al statisticii în cadrul programelor de
doctorat.
În științele socio-umane avem în vedere mai curând înțelesurile 2 și 3 ale
definiției, chiar dacă putem observa redundanța acestora. Așadar, am putea
spune că statistica este, în această accepție, o modalitate de „culegere,
prelucrare și valorificare a unor date legate de fenomene generale”, sens care
ne apropie mai mult de cel al termenului de analiză de date.
În fine, primul sens al statisticii este cel comun, de evidență numerică.
Atunci când jurnalele de știri spun că „statisticile demonstrează o reducere a
natalității”, avem în vedere, iată, sensul comun, popular al termenului. Dacă ne
referim la modalitățile de prelucrarea statistică a datelor în vederea realizării
unui raport de cercetare, avem în vedere sensul analizei de date, iar dacă vorbim
despre demonstrarea teoremei limitei centrale sau a asumpției normalității
reziduurilor, ne referim la adevăratul sens al statisticii, acela de statistică
matematică.
Așadar, în sens comun, statistica înseamnă o numărătoare, o evidență numerică, situație cifrică referitoare la diverse fenomene. În sensul analizei de date, statistica are în vedere culegerea, sintetizarea, descrierea și interpretarea datelor referitoare la fenomene iar în sensul său propriu, de știință, statistica este o ramură a matematicii, care folosind calculul probabilităților, studiază fenomenele de masă
din punct de vedere cantitativ.
6
Măsurarea în științele socio-umane
Pornind de la cele trei definiții, putem observa cu ușurință faptul că în
domeniul socio-uman nu studiem, în niciun caz, statistică, ci analiză de date,
văzută ca „instrument, parte a metodologiei cercetării științifice, care permite
utilizarea principiilor și a legilor statisticii în sintetizarea, descrierea și
interpretarea datelor colectate din cercetări”.
Pentru a ne lămuri că avem dreptate, să discutăm două dintre definițiile analizei, așa cum le prezintă dicționarul: (1) metodă științifică de cercetare care se bazează pe studiul sistematic al fiecărui element în parte; examinare amănunțită a unei probleme și (2) ramură a matematicii care studiază funcțiile, limitele, derivatele și aplicațiile lor. Există, desigur, mai multe sensuri (de exemplu analiza
substanțelor chimice), dar care nu prezintă interes pentru domeniul nostru.
Dacă excludem înțelesul analizei ca analiză matematică, prima definiție
sprijină întrutotul ce-a de-a doua definiție a statisticii. Iată și motivele pentru
care preferăm să spunem că în științele socio-umane nu studiem statistică
(încetățenită ca disciplină matematică), ci analiză de date (aplicații ale
principiilor statistice în activitatea de cercetare). Prin analogie, atunci când
faceți școala de șoferi, nu studiați ingineria construcției autovehiculelor (analog
statisticii), nu vă interesează să știți din ce aliaj este făcut arborele cotit. Dacă
sunteți însă un șofer cu pretenții de profesionist, atunci veți fi interesat de
modul cum funcționează ambreiajul sau de faptul că mașina dumneavoastră
funcționează cu benzină (analog analizei de date). Asta ca să nu riscați să
alimentați cu motorină și să vă distrugeți motorul.
Cuvântul „statistică” are o etimologie interesantă, și
merită să prezentăm, pe scurt, evoluția acestui termen. În forma
actuală, a fost folosit de către filosoful german Gottfried
Aschenwall (1719-1772), în lucrarea „Vorbereitung zur
7
Cristian Opariuc-Dan
Staatswissenschaft”, apărută în 1748, în care apare cuvântul „Statistik”, având
înțelesul de „știință ce vizează studiul datelor referitoare la condiția unui stat
sau a unei comunități” (Harper, 2015). Părintele statisticii nu a fost doar filosof,
ci a avut preocupări și în domeniul istoriei și economiei, fiind de profesie jurist,
predând dreptul în cadrul Universității din Göttingen.
În limba engleză, cuvântul a fost introdus în 1829 de către
un politician scoțian, Sir John Sinclair (1754-1835), având înțelesul
de „date numerice colectate și clasificate”, rafinând și
particularizând sensul dat de profesorul german. Gânditorul
scoțian a avut, și el, formație economică, fiind preocupat de finanțe și
agricultură, dar și de drept.
Pare surprinzător faptul că ceea ce astăzi atribuim aproape exclusiv
matematicii, a avut originea în domenii destul de diferite de matematică: drept,
economie, filozofie. În realitate, „rădăcina” statisticii, în înțelesul modern al
termenului, se regăsește în scrierile economice, în activitatea de optimizare a
taxelor și de monitorizare a producției. Originea termenului este, totuși, mult
mai veche și ar proveni din latinescul „status”, având înțelesul de rang, poziție,
organizare a comunității, ordine publică. Cuvântul latin a fost preluat în italiana
veche, rezultând „statista”, ceea ce înseamnă persoană specializată în treburile
statului, ce ajută statul să gestioneze politica de taxe, costurile războaielor,
evidența populației și alte sarcini de acest tip (Lungu, 2001). Înțelesul este cel
mai apropiat de sensul modern al termenului, afacerile statului din acea
perioadă numindu-se și „statisticum”. Cunoscând aceste elemente, devine
evidentă originea cuvântului și faptul că, în prezent, chiar dacă are o importantă
încărcătură matematică, statistica provine din economie și din administrația
publică.
8
Măsurarea în științele socio-umane
Dacă am lămurit că în domeniul socio-uman nu studiem statistică, în
sensul actual al termenului, ci analiză de date, vom continua cu o altă marotă,
cea a înlocuirii studiului analizei de date cu SPSS. Revenind la analogia cu școala
de șoferi, este ca și cum am spune că învățăm să conducem Dacia Logan. Asta
ar însemna, oare, că dacă ne luăm permisul de conducere, nu știm să conducem
BMW, Mercedes, Lamborghini sau Tico? Bineînțeles că odată ce avem
deprinderile necesare conducerii, le putem transfera, cu un minim efort, pe
orice automobil din acea clasă, ba chiar și din clase diferite. În definitiv, de ce nu
am putea să conducem un microbuz sau chiar un camion?
Ideea centrală nu este să ne concentrăm pe utilizarea unui anumit
produs, ci pe însușirea principiilor, metodelor și tehnicilor de analiză de date.
Din moment ce cunoaștem analiză de date, utilizarea unui produs informatic
este doar o chestiune de preferințe.
I.2 Sensul și semnificația termenului de măsurare Contactul nemijlocit al ființei umane cu lumea înconjurătoare se
realizează prin simțuri. Cu ajutorul acestora percepem obiectele, fenomenele,
persoanele, evenimentele. Observăm în mod direct culoarea biroului la care ne
desfășurăm activitatea, distanța dintre scaunul dumneavoastră și cel al
colegului, faptul că muzica pe care o ascultă vecinul este prea tare sau timpul
rămas până la terminarea programului de lucru. Toate acestea formează un
mediu în care ne aflăm și pe care îl putem caracteriza la un moment dat, mediu
populat, generic, de obiecte.
Să ne imaginăm camera în care învățați sau lucrați. Ce obiecte puteți
remarca? Biroul, scaunul, televizorul, filtrul de cafea, bunica ce tricotează sau
colegul care joacă Solitaire. Toate acestea le vom denumi „obiecte”. Dacă vă veți
gândi la biroul la care vă redactați referatele, dumneavoastră, cititorul, veți avea
9
Cristian Opariuc-Dan
o imagine extrem de personalizată și care diferă radical de imaginea pe care o
am eu față de același obiect. Așadar, oricât ar părea de ciudat, conceptul de
birou reprezintă o abstracțiune, care vehiculează imagini diferite la diferite
persoane. Eu am o imagine mintală a biroului, dumneavoastră aveți o altă
imagine a biroului, alții au imagini mai mult sau mai puțin diferite când se
gândesc la același obiect. Dacă aș dori să cunosc și să înțeleg biroul
dumneavoastră, v-aș ruga să-l descrieți. Aș afla, de exemplu, că are o lungime
cam de 2 metri, o lățime de un metru și are culoarea albastră. Deja cunosc mai
bine obiectul la care vă referiți. Descriindu-l, practic, ce ați făcut? În primul rând,
ați precizat o serie de caracteristici ale sale: lungimea, lățimea și culoarea. Apoi
ați specificat ce valori au caracteristicile în cazul obiectului dumneavoastră: 2, 1
și albastru. În fine, ați stabilit o regulă în baza căreia ați atribuit valori acestor
caracteristici, specificând unitatea de măsură – metrul.
Totuși, albastru, roșu sau galben, un birou are întotdeauna un obiect fizic
drept corespondent. Nu întotdeauna lucrurile stau așa. Folosind rațiunea și
capacitatea de abstractizare, putem anticipa sau cunoaște elemente care nu au
o corespondență în lumea fizică. Ce-ar fi să descriem gradul de satisfacție pe
care îl avem față de perceperea taxelor locale? Sau anxietatea, ori
comportamentul prosocial? Aceste elemente sunt cât se poate de reale, însă nu
au drept corespondent obiecte fizice. Unii pot înțelege, atunci când vorbesc
despre taxe, fața acră a funcționarului de la birou, alții faptul că a fost plimbat
pe la 20 de ghișee pentru a achita 10 lei, alții au scăpat în 30 de secunde datorită
unui funcționar extrem de competent și eficient care știa ce să facă, în fine,
anumite voci sunt foarte mulțumite pentru că-și achită impozitele prin Internet.
Anxietatea, la rândul ei, poate avea semnificații diferite pentru diferite
10
Măsurarea în științele socio-umane
persoane, asta ca să nu mai vorbim de comportamentul prosocial, patriotism,
integritate sau iubire.
Astfel de „obiecte” sunt prea generale pentru a fi cunoscute în mod
direct; ele vor trebui particularizate în cadrul unui proces specific, numit
operaționalizare. Această lungă introducere a fost făcută pentru a înțelege
faptul că măsurarea reprezintă, de fapt, o abstracțiune și că nu putem cunoaște
obiectele, decât dacă stabilim o serie de caracteristici ale acestora. Rezumând,
am putea spune că, la modul general, obiectele, fenomenele, evenimentele pot
fi măsurate doar dacă precizăm o serie caracteristici (atribute),
prin caracteristică înțelegând o particularitate, o însușire a
obiectului, fenomenului sau evenimentului ce urmează a fi
măsurată. În cazul în care aceste atribute nu sunt specificate, un
obiect nu poate fi cunoscut. Cu cât există mai multe atribute ce definesc un
obiect, cu atât acel obiect este cunoscut mai bine. Dacă am spune că biroul este
lung de 2 metri, cunoașterea obiectului se poate realiza strict pe baza acestui
atribut. În mod cert, este mai lung sau mai scurt comparativ cu alte birouri. Însă
nu vom putea ști dacă este mai greu, mai lat, mai înalt, dacă are culoarea verde
cu roșie sau dacă este pătat de la vin. Pe măsură ce crește numărul atributelor
specificate, cunoașterea obiectelor devine tot mai precisă.
Faptul că am precizat caracteristica, nu este suficient pentru a vorbi
despre o măsurare. Cum am putea, de exemplu, să măsurăm iubirea? Ce
caracteristici definitorii am putea găsi? Suma disponibilă spre a fi cheltuită pe
care o pune la dispoziție iubitul (mai rar iubita) poate fi o caracteristică a iubirii?
Foarte discutabil. Emoția, fiorul, „fluturii” din stomac? Posibil, dar cum îi putem
remarca? Avem aceeași problemă dacă ne propunem să măsurăm patriotismul,
integritatea, moralitatea sau sentimentele superioare.
11
Cristian Opariuc-Dan
Iată că, pentru a vorbi despre măsurare, acele caracteristici
definite trebuie să fie cuantificabile, măsurabile. În ciuda părerii
unora, există obiecte, fenomene sau evenimente care nu pot fi
măsurate. Se punea, la un moment dat, problema evaluării psihologice a unor
funcționari publici în vederea stabilirii integrității. Au apărut chiar și metodologii
de evaluare, s-au construit chestionare și alte instrumente în acest sens,
psihologii au început să oferteze servicii de evaluare psihologică pentru
integritate, ignorându-se un lucru esențial – acest concept nu este măsurabil.
Dacă am putea măsura integritatea unor persoane, probabil că nu am mai avea
nevoie de o întreagă categorie de procurori, decizia de integru sau corupt fiind
dată imediat de către psiholog. Una este să vorbim despre opinia unor persoane
față de comportamente care țin de integritate, și cu totul altceva să măsurăm
„nivelul” de integritate al unei persoane. Orice am face, persoanele evaluate nu
vor răspunde la întrebări decât în sensul unor oameni integri, indiferent dacă
este sau nu este în joc serviciul lor.
Chiar dacă un atribut poate fi măsurat, acest concept se concretizează în
momentul în care, pentru un anumit obiect, atributul dobândește o anumită
valoare, în termeni de specialitate valoarea pe care o are atributul pentru un
anumit obiect numindu-se și scor. Dacă am spune că atributul „lățime” al unei
mese are scorul 20, am concretizat o operație de măsurare doar dacă am
menționa și ce înseamnă acel scor. Ne referim la centimetri, la inch, la picioare
sau la alte unități de măsură? Pentru a măsura în adevăratul sens
al cuvântului, trebuie să stabilim o regulă sau un set de reguli pe
baza cărora putem atribui valori caracteristicilor măsurate. Iată că,
am măsurat cu adevărat atributul „lățime” al mesei atunci când am spus că are
20 de centimetri, stabilind și regula de atribuire, în cazul nostru o subdiviziune
12
Măsurarea în științele socio-umane
a scalei metrice. Dacă nu precizăm regula, riscăm ca scorul să aibă o anumită
semnificație pentru un chinez, o alta pentru un englez și o cu totul altă
semnificație pentru un american.
În acest moment, am putea prezenta una dintre cele mai cunoscute definiții a măsurării ca „atribuire de numere evenimentelor sau obiectelor în concordanță cu o anumită regulă” (Stevens, 1959). Conform acestei abordări, măsurarea dobândește un sens extrem de larg și extinde semnificația conceptului de număr dincolo de operațiile matematice tradiționale, în funcție de modul de stabilire a regulii.
Se poate observa destul de ușor că măsurarea poate fi considerată o
funcție, prin care unui atribut al unui obiect îi poate fi acordat un număr și numai
unul, la o anumită măsurare. Această funcție se face pe baza unei anumite
reguli, suficient de clară pentru a fi înțeleasă și suficient de simplă pentru a fi
aplicată (Vasilescu, 1992), regulile determinând ceea ce numim niveluri (scale)
de măsură. Problematica măsurării, deși considerată ca fiind baza analizei de
date, nu este studiată de statistică, nici de matematică, ci de o altă știință,
numită metrologie.
I.2.1 Specificul măsurării în științele socio-umane În domeniul științelor fizice, măsurarea este destul de precisă. De obicei,
regula este simplă și clară, instrumentele sunt puternic standardizate, valorile
sunt relativ stabile. Ați putea crede că atunci când măsurăm lățimea unei mese
și spunem că aceasta este de 20 de centimetri, între două măsurători valoarea
se conservă perfect, deoarece ne aflăm în zona măsurătorilor fizice, precise. De
fapt, între două măsurători ar putea exista diferențe determinate de
instrument, de clasa de precizie, de condițiile de mediu, ba chiar și de persoana
care face măsurătoarea. Dacă nea Costică este puțin miop, atunci sunt șanse
mari ca cei 20 de centimetri să fie, de fapt, 20,5 centimetri sau 19,5 centimetri.
13
Cristian Opariuc-Dan
Dacă în loc să măsoare cu ruleta, măsoară cu metrul de stofă, atunci s-ar putea
ca dimensiunea reală să fie de 19,75 centimetri, chiar dacă nea Costică nu are
probleme cu vederea. În fine, chiar dacă folosește un instrument de măsură
precis, lățimea mesei ar putea fi 20,00545 centimetri, situându-ne, după cum
intuiți, la o clasă de precizie diferită. Dacă tot am vorbit despre metru, ar fi bine
să precizăm că acesta reprezintă, conform definiției metrologice, distanța
parcursă de lumină într-un interval de timp de 1/299.792.458 dintr-o secundă, prin
urmare nivelurile de precizie sunt, practic, infinite.
În științele socio-umane lucrurile nu mai sunt atât de limpezi. Cum am
putea măsura, spre exemplu, inteligența? Nu avem la dispoziție, în acest caz,
nici ruleta și nici măcar o unitate de măsură, nu putem spune că avem 20 de
kilograme sau 20 de centimetri de inteligență. Poate vă gândiți că măsurăm
inteligența în IQ, însă coeficientul de inteligență nu este o unitate de măsură, ci
un raport între vârsta mintală și vârsta cronologică (𝐼𝐼𝐼𝐼 = 𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉
× 100). Cu alte
cuvinte, dacă o persoană de 15 de ani (VC=15) rezolvă probleme pe care le pot
rezolva cei de 23 de ani (VM=23), atunci are un coeficient de inteligență de 2315
×
100 = 153, un geniu. Problema, în acest caz, nu ar fi vârsta cronologică, ci
vârsta mintală. Cum decidem asupra vârstei mintale, cum aflăm această
valoare? Cum selectăm acele probleme pe care le rezolvă persoanele de 23 de
ani și nu le pot rezolva cele de 15 ani? Răspunsul la acest gen de întrebări
depășește specificul analizei de date și ține de o altă disciplină științifică, numită
psihometrie.
Dacă în cazul inteligenței, unde putem propune, în definitiv, o serie de
probleme, lucrurile sunt destul de complicate, cum am putea măsura
anxietatea, depresia sau alte asemenea trăsături, mult mai vagi? Cert este faptul
că, în cazul anxietății de exemplu, oamenii au diferite grade de intensitate a 14
Măsurarea în științele socio-umane
acesteia, putem spune că o persoană este mai anxioasă, o alta mai puțin
anxioasă, chiar și că o persoană este mai anxioasă în comparație cu alta, însă nu
avem de unde ști ce cantitate de anxietate posedă un om. Din acest motiv, vom
aprecia că factorii psihici, dar și alte „obiecte” de acest tip, au un caracter latent,
și îi vom putea denumi factori (caracteristici) latente, în sensul că
există într-o anumită cantitate, doar că această cantitate nu poate
fi observată și măsurată în mod direct. Orice persoană are, la un
moment dat, o anumită „cantitate” de anxietate sau de depresie, un anumit
nivel de trai sau o anumită încredere în clasa politică. Toată chestiunea este că
nu avem unități de măsură pentru aceste „cantități” și nici instrumente precise
pentru a le măsura. Putem presupune că orice caracteristică latentă, din punct
de vedere al cantității, poate lua orice valoare între minus și plus infinit, de la
valori infinit de mici la valori infinit de mari. Acest concept îl întâlnim sub numele
de continuum al factorului latent, înțelegerea sa condiționând înțelegerea
măsurării în științele socio-umane.
Dacă acești factori latenți nu pot fi cunoscuți în mod direct, cum ar putea
fi, totuși, măsurați? Să presupunem că vom întreba persoanele cărora dorim să
le cunoaștem anxietatea dacă le-ar fi teamă atunci când ar sta pe un câmp de
luptă sub focul mitralierelor. Un asemenea comportament ar presupune o
„cantitate” foarte mică de anxietate la răspunsul pozitiv. Tuturor ne este teamă
de război, de armele de foc, prin urmare răspunsul „da” ar fi perfect normal. Din
contra, un răspuns negativ ar putea fi indicatorul unei patologii psihice. În
termeni tehnici, această întrebare s-ar situa undeva spre polul negativ al
continuumului factorului latent, comportamentul vizat saturând foarte puțin
anxietatea. Acelorași persoane le punem și o a doua întrebare, dacă le este frică
să stea în casă pe întuneric atunci când se întrerupe curentul electric. De data
aceasta, răspunsul normal ar fi negativ, un răspuns eventual pozitiv indicând o
15
Cristian Opariuc-Dan
„cantitate” mare de anxietate. Dacă se întrerupe seara curentul, te poți cel mult
enerva în cazul în care ai ceva de făcut, în niciun caz nu îți va genera o senzație
de teamă. Un astfel de comportament îl putem considera saturat în anxietate,
situându-se înspre polul pozitiv al continuumului factorului latent. În fine,
întrebând persoanele dacă le place pizza cu ton, măsurăm orice altceva, numai
anxietatea nu. Asta deoarece preferința către un sortiment de pizza nu are nicio
legătură cu anxietatea, în termeni tehnici întrebarea fiind situată în afara
continuumului factorului latent.
Astfel de întrebări se numesc eșantioane de comportamente. Deoarece
nu putem observa direct factorul latent, îl vom observa indirect, prin
intermediul unor eșantioane de comportamente extrase dintr-un univers
practic nelimitat de comportamente specifice. Pe baza modului în care
persoanele ar reacționa la aceste comportamente și cunoscând zona în care
acestea se situează în continuumul factorului latent, se poate aprecia, subiectiv,
nivelul factorului latent al persoanei, fără a spune că măsurăm exact cantitatea
de factor latent. Acesta este modul în care efectuăm măsurători în domeniul
socio-uman, iar trecerea de la o dimensiune latentă generală, abstractă, la
indicatori, componente concrete ale dimensiunii și apoi la eșantioane de
comportamente (numite și itemi în literatura de specialitate) poartă numele de
operaționalizare a constructelor latente.
Chiar dacă am operaționalizat foarte bine constructele și am conceput
un instrument de măsură foarte bun, măsurarea în științele sociale rămâne
inexactă și limitată, din mai multe motive. În primul rând, nu putem construi
instrumente de măsură care să acopere întregul continuum al factorului latent.
Un test de inteligență, de exemplu, se adresează zonei medii a inteligenței.
Acesta va putea diferenția destul de bine persoanele cu o inteligență de la
16
Măsurarea în științele socio-umane
mediu-inferior la mediu-superior, însă va fi inexact și aproape inutil în cazul
persoanelor foarte inteligente sau foarte puțin inteligente. În asemenea cazuri,
va trebui să apelam la alte instrumente, demers mare consumator de resurse,
în special de timp. Pe de altă parte, cu cât crește timpul unei evaluări, cu atât
scade precizia măsurătorii, indiferent de calitatea instrumentului folosit, asta
deoarece intervin și alți factori, precum plictiseala și oboseala. Chiar dacă există
și alte modele de măsurare care pot evalua pe întregul continuum al factorului
latent (numite modele de răspuns la item), astfel de instrumente sunt dificil de
construit iar evaluarea se face de obicei computerizat, apărând, în plus, și alte
surse de eroare.
Multe instrumente de măsură specifice domeniului socio-uman, în
special psihologiei și sociologiei, numite incorect teste, fac apel la auto-evaluare.
Persoana se auto-analizează înainte de a da un răspuns, neavând aproape nicio
posibilitate de a controla dacă acel răspuns este sau nu este reprezentativ
pentru persoana evaluată. În cazul în care miza evaluării este benefică pentru
individ, acesta va avea tendința să se pună într-o lumină favorabilă sau, din
contra, nefavorabilă dacă urmărește să evite scopul evaluării. În cazul unui
studiu privind nivelul de trai, o persoană va răspunde în sensul unui nivel de trai
scăzut dacă scopul perceput este stabilirea cuantumului taxelor, ori în sensul
unui nivel de trai ridicat dacă scopul ar fi obținerea unui anumit credit. Această
abordare, numită tendință de fațadă, este comună tuturor instrumentelor
bazate pe auto-evaluare. Chiar dacă există anumite mecanisme de control, așa-
numitele scale de minciună, eficiența lor este discutabilă.
Dacă în științele naturii putem vorbi de un zero absolut, în domeniul
socio-uman nu avem o inteligență zero, o anxietate zero, o depresie zero sau
opinii zero. Din acest motiv, nu putem raporta cantități, nu putem spune că o
17
Cristian Opariuc-Dan
persoană este de două ori mai anxioasă sau mai inteligentă decât o altă
persoană, că are un nivel de trai de trei ori mai bun sau mai slab. Convențional,
valoarea zero în științele socio-umane este media, faptul că o persoană nu se
distinge de majoritatea oamenilor privind caracteristica măsurată.
Imposibilitatea de raportare permite doar să spunem că o persoană este mai
mult sau mai puțin inteligentă sau anxioasă în comparație cu o altă persoană
sau în comparație cu majoritatea persoanelor, și nu de câte ori și nici cu cât. O
asemenea limitare nu oferă o putere prea mare măsurătorilor socio-umane, ele
situându-se departe de specificul măsurătorilor fizice, chiar dacă prin forțarea
matematicii se tinde către o apropiere de acestea.
Construind un instrument de măsură, decidem asupra
comportamentelor pe care le selectăm din universul infinit de comportamente
posibile, relaționate factorului latent. Această selecție poate induce noi surse de
eroare pentru că ceea ce pare relevant pentru un grup de persoane, poate să
nu fie relevant pentru un alt grup. Un instrument construit pentru militari s-ar
putea să nu aibă o valoare prea mare în cazul agenților de vânzări, chiar dacă
dorim să măsurăm același factor latent, asta ca să nu mai spunem că anumite
comportamente alese pentru populația din America aproape sigur vor avea o
altă relevanță pentru populația din România sau din China. Astfel, dependența
culturală a instrumentelor impune revizii importante ale acestora ori de câte ori
urmează să le folosim pe alte populații decât cele pe care au fost construite
inițial. Mai mult, majoritatea atributelor suferă modificări în timp, unele fiind
mai sensibile, altele mai puțin sensibile la acest factor. Anxietatea, de exemplu,
ar putea fi o stare, diminuându-se relativ rapid după dispariția evenimentului
anxiogen, sau o trăsătură, persistând mai mult timp, uneori accentuându-se cu
trecerea timpului. Mai mult, unele comportamente saturate în factorul latent
18
Măsurarea în științele socio-umane
într-o anumită perioadă de timp îți pierd saturația în prezent și trebuie înlocuite.
Imaginați-vă doar că foarte multe dintre comportamentele normale ale tinerilor
din prezent ar fi atras cu siguranță internarea într-un ospiciu dacă s-ar fi
manifestat în anii ’30 ai secolului XX.
Iată că măsurarea în științele socio-umane este posibilă, însă nu are
caracteristicile unei măsurări fizice, fiind imprecisă, indirectă, puternic limitată
atât ca posibilitate de abordare a atributului, cât și ca semnificație generală.
I.2.2 Noțiunea de variabilă Știm bine de acum că obiectele, în sensul general al termenului, pot fi
măsurate pe baza atributelor cuantificabile. Înălțimea este un atribut
cuantificabil al tuturor persoanelor, însă nu are aceleași valori. Vasile poate avea
înălțimea de 178 centimetri, Ion poate avea o înălțime de 192 centimetri iar
Maria poate avea 168 de centimetri la această caracteristică.
Iată că, această particularitate, comună tuturor ființelor umane, prezintă diferențe inter-individuale, în termeni tehnici afirmând că exprimă variația caracteristicii măsurate. Am ajuns la a defini conceptul de variabilă ca fiind particularitatea, însușirea unui fenomen care constituie obiectul măsurării și care exprima variația inter-individuală a acestei caracteristici.
Înălțimea oamenilor reprezintă o variabilă deoarece exprimă modul în
care variază această caracteristică, de la cel mai scund om din lume, la cel mai
înalt. La fel putem spune și despre greutate, ritm cardiac, nivel de venit, culoarea
ochilor, gen biologic și așa mai departe, toate aceste atribute având în comun o
mulțime de valori, numită și mulțime (domeniu) de definiție sau
categorii. Domeniul de definiție, la rândul său, poate fi teoretic și
empiric, iar când categoriile se pot ordona, poartă numele de
amplitudine (teoretică și empirică).
19
Cristian Opariuc-Dan
Variabila „gen biologic”, de exemplu, poate avea doar două valori,
domeniul de definiție teoretic fiind format din categoriile „masculin” și
„feminin”. Variabila „culoarea ochilor” poate avea patru categorii, vorbind
despre „ochi căprui”, „ochi albaștri”, „ochi negri” și „ochi verzi”. Prin urmare,
domeniul de definiție teoretic are patru valori, iar dacă nu se află nicio persoană
cu ochi albaștri în lotul de studiu, spunem că domeniul empiric de definiție are
doar trei categorii.
O altă variabilă exemplu „titlul universitar”, are tot patru categorii –
„asistent”, „lector”, „conferențiar” și „profesor” –, însă acestea pot fi ordonate
de la asistent la profesor. Astfel, putem vorbi despre o amplitudine teoretică de
patru valori, cuprinsă între valoarea minimă „asistent” și valoarea maximă,
„profesor”.
Valorile unei variabile, știm deja, se numesc și scoruri, iar atribuirea de
scoruri fiecărui element (în cazul de față, fiecărei persoane) al variabilei poartă
numele, știm și asta, de modalitatea de realizare a variabilei.
Definiția măsurării susține că este vorba despre atribuirea de numere
obiectelor și fenomenelor, însă, în exemplele de mai sus, observăm că mulțimile
de valori nu se exprimă prin numere, ci prin anumite „calități”. Nu putem spune
că titlul universitar al unui cadru didactic universitar este 3, ci conferențiar.
Culoarea ochilor 2 nu are niciun sens, preferând menționarea categoriei „ochi
albaștri”, dar la fel de bine am putea să includem orice altă categorie. Unele
variabile nu se exprimă natural sub formă numerică, acestea fiind
denumite variabile calitative. Altele, precum înălțimea, greutatea,
vârsta, au valori natural numerice, din acest motiv numindu-se
variabile cantitative, aceasta fiind prima și cea mai simplă
clasificare a variabilelor.
20
Măsurarea în științele socio-umane
I.3 Niveluri de măsură Dincolo de distincția calitativ-cantitativ, desigur foarte importantă,
există o clasificare și mai importantă, de fapt baza ierarhizării și a puterii
procesului de măsurare. Vorbim despre nivelurile de măsură, numite și scale de
măsură, însă vom prefera utilizarea termenului de nivel și nu de scală pentru a
nu se crea confuzie, chiar dacă, în analiza de date, sunt sinonime.
I.3.1 Variabile discrete (discontinui, neparametrice) Am înțeles deja că orice variabilă posedă un domeniu teoretic de
definiție. Uneori, această mulțime de definiție a valorilor este una finită, în
sensul că se pot număra categoriile, iar între două categorii nu se
poate interpune, la nesfârșit, o categorie intermediară. Convenim
astfel să denumim variabilele discrete acele variabile pentru care
mulțimea de definiția a valorilor este una discontinuă, finită (Vasilescu, 1992).
Dacă luăm, spre exemplu, „genul
biologic”, observăm că mulțimea de valori
conține doar două categorii, „masculin” și
„feminin”, fiind, prin urmare, o mulțime
numărabilă, finită, discontinuă. Între cele două
categorii am putea include, cel mult, categoria
„hermafrodit”, însă nu am putea continua incluzând, la nesfârșit, noi categorii.
Lucrurile stau la fel și în cazul variabilei „titlul universitar”. Mulțimea de
valori conține doar patru categorii fiind, din nou, numărabilă, finită. Între
„lector” și „profesor” am putea include categoria „conferențiar”, însă nu putem
vorbi, la infinit, despre categorii intermediare între „conferențiar” și „profesor”.
Nu există categoriile „conferențiaro-profesor” și „conferențiaro-conferențiaro-
profesor” și așa, la infinit. Iată de ce spunem că asemenea variabile sunt
discontinui, discrete, la rândul lor situându-se pe două niveluri de măsură.
Figura I-1 Variabila discretă „gen biologic”
21
Cristian Opariuc-Dan
I.3.1.1 Nivelul nominal (de clasificare sau topologic) Reprezintă nivelul de bază, cea mai „slabă” scală de măsură și presupune
construcția unui set omogen de categorii disjuncte pe baza atributului care
urmează să fie măsurat, acordarea de numere fiecărei categorii și includerea
subiecților în categorii pe bază de apartenență (Opariuc-Dan, 2009). Avem de a
face cu o simplă operațiune ce clasificare, în absența oricărei posibilități de a
pune o relație de ordine între categorii, de aceea nivelul se mai numește și nivel
categorial sau de clasificare.
Există o serie de caracteristici ale acestui
nivel de măsură. În primul rând, exhaustivitatea.
Categoriile create trebuie să permită includerea
oricărui subiect, să nu existe situații în care unii
subiecți nu și-ar găsi locul într-o anumită
categorie. Recent, în Germania, s-a dat o lege
conform căreia genul biologic nu mai are două
categorii, ci 3 – „masculin”, „feminin” și „nedeterminat”. Astfel, clasificarea
permite și includerea celor „nemulțumiți” de sexul lor. Chiar dacă biologic o
asemenea clasificare nu-și are rostul decât în cazul hermafrodiților, social s-a
considerat că este utilă.
Singura regulă de atribuire o reprezintă apartenența la categorie. Ești
bărbat, vei fi clasificat în categoria „masculin”; ești femeie, vei fi inclusă în
categoria „feminin”; habar nu ai ce ești sau vrei sa fii altceva, te incluzi în
„nedeterminat”. Această regulă este una mutual exclusivă, adică un subiect își
poate găsi locul într-o singură categorie și numai în una. Nu poți încadra
subiectul și la masculin și la feminin.
Figura I-2 Variabilă discretă nominală „gen biologic”
22
Măsurarea în științele socio-umane
Cât despre relația de ordine, nici nu poate fi vorba. Încercați doar să
puneți pe primul loc unul dintre genurile biologice și veți vedea ce reacție
declanșați la sexul opus. Categoriile calitative ale unei variabile nominale trebuie
să primească valori numerice, pentru a respecta sensul definiției măsurării, doar
că acestea se acordă pe baza unei atribuiri arbitrare. Putem da valoarea 1
categoriei „masculin”, valoarea 2 categoriei „feminin” și valoarea 3 categoriei
„nedeterminat”. La fel de bine putem spune 1 – nedeterminat, 2 – masculin și 3
– feminin fără ca acest lucru să influențeze în vreun fel includerea subiecților în
categorii. Bineînțeles, pentru a vorbi despre o variabilă va trebui să avem cel
puțin două categorii, altminteri avem de a face cu o constantă. Dacă într-un
studiu am utiliza doar bărbați, atunci genul biologic nu ar mai avea sens să-l
includem ca variabilă deoarece nu mai exprimă variația acestei caracteristici.
La acest nivel de măsură se situează, de exemplu, sondajele de opinie
politice. Avem categoriile determinate de candidați sau de partide și am putea
analiza câte persoane preferă un anumit candidat sau ce candidat este cel mai
bine plasat.
I.3.1.2 Nivelul ordinal (de rang sau ierarhic) Acest nivel se bazează pe cel descris
anterior, cu toate caracteristicile sale, doar
că putem vorbi, în acest caz, de o relație de
ordine între categorii, în baza
caracteristicilor atributului măsurat. Dacă
la nivelul nominal puteam pune „pe primul
loc” orice categorie, fără ca acest lucru să
aibă vreo semnificație, aici nu mai putem proceda la fel, deoarece ordinea
categoriilor contează. Regula de bază este aceea conform căreia o categorie
Figura I-3 Variabilă discretă ordinală „titlul didactic”
23
Cristian Opariuc-Dan
este superioară sau inferioară alteia, fără însă a se putea specifica nici cu cât,
nici de câte ori.
Să luăm, de exemplu, titlurile didactice universitare. Acestea pot fi puse
într-o ordine: asistent, lector, conferențiar și profesor. Este foarte clar faptul că
asistentul reprezintă cel mai mic grad, iar profesorul cel mai mare grad deoarece
are vechime și experiență. Dar nu putem spune că un profesor face cât 4
asistenți, deoarece nu există un interval fix, constant între aceste grade. La acest
nivel de măsură funcția de atribuire a persoanelor în categorii este o funcție
crescătoare.
Majoritatea cercetărilor în care sunt măsurați factori latenți, în special
cele psihologice, folosesc acest nivel de măsură, fapt care ne permite să
apreciem că măsurarea în psihologie are caracterul unei scale ordinale. Chiar
dacă probele psihologice au pretenția unui nivel de interval, în realitate, dacă
este să fim stricți, ele nu depășesc scala ordinală.
I.3.2 Variabile continui (scalare, parametrice) În cazul altor variabile, mulțimea de
definiție a valorilor nu este una finită,
numărabilă. Să luam cazul variabilei „înălțime”
și vom observa că mulțimea de valori este
infinită. Amplitudinea teoretică este cuprinsă
între 0 centimetri, deoarece nu poate exista
vreun om cu înălțime negativă și întotdeauna există posibilitatea identificării
unei persoane mai scunde decât cel mai scund om din lume și infinit, deoarece
oricând putem găsi pe cineva mai înalt decât cel mai înalt om din lume.
Amplitudinea empirică s-ar putea situa, spre exemplu, între 100 de centimetri
și 210 centimetri, în funcție de persoanele incluse în cercetare.
Figura I-4 Variabila continuă „înălțimea”
24
Măsurarea în științele socio-umane
Totodată, între două valori succesive putem găsi, oricând, o valoare
intermediară. De exemplu, între o persoană cu înălțimea de 179 centimetri și
una de 178 centimetri, putem găsi o persoană de 178,5 centimetri, apoi una de
178,25 centimetri și, tot așa, la infinit. Iată de ce vom spune că o
variabilă continuă este aceea la care mulțimea de definiție a
valorilor este nenumărabilă, infinită (Vasilescu, 1992). Și aceste
variabile, la rândul lor, se pot măsura pe două niveluri.
I.3.2.1 Nivelul de interval (al intervalelor egale) De această dată, categoriile nu numai că sunt ordonate, ca în cazul
nivelului ordinal, dar intervalele dintre categorii sunt constante. Astfel, la acest
nivel putem spune nu numai că A este mai mare decât B, ci și cu cât este mai
mare. Un exemplu clasic îl reprezintă scala de temperatură Celsius. Între 0 și 100
de grade Celsius există un număr de 100 de intervale egale, corespunzătoare
unui grad Celsius. Un grad Celsius înseamnă același lucru, fie că ne referim la
distanța dintre gradul 3 și gradul 4, fie la distanța dintre gradul 90 și gradul 91.
Prin extensie, unii consideră că scorurile standardizate ale probelor psihologice
au această caracteristică. Matematic au dreptate, însă psihologic nu este chiar
așa. Să considerăm, de exemplu, scala IQ. Intervalele sunt egale, putem spune
că un subiect este cu 2 puncte IQ mai inteligent decât un alt subiect. Toată
problema constă în faptul că semnificația nu are o constanță pe întreaga scală,
așa cum se întâmplă la scala Celsius. Diferența dintre un IQ de 55 și unul de 56
are o anumită semnificație, în timp ce diferența dintre un IQ de 100 și un IQ de
101 are o altă semnificație. Este ca în vorba aceea: toți oamenii sunt egali, însă
unii oameni sunt „mai egali” decât alții. Practic, scala IQ este tot o scală ordinală,
puțin forțată și îmbunătățită.
25
Cristian Opariuc-Dan
Figura I-5 Variabilă continuă de interval, „temperatura”
Folosind acest nivel de măsură, putem spune cu cât o cantitate este mai
mare sau mai mică în comparație cu o altă cantitate, însă nu și de câte ori, asta
deoarece nu avem de a face cu un zero absolut ci cu un zero convențional. Ca să
înțelegem, să facem o comparație între scala Celsius și scala Fahrenheit. Scala
Celsius știm cum s-a construit; zero grade Celsius înseamnă temperatura de
îngheț a apei la presiunea atmosferică de la nivelul mării iar 100 de grade Celsius
reprezintă temperatura de fierbere a apei la aceeași presiune atmosferică. Se
crede că scala Fahrenheit este bazată pe temperatura la care un amestec masic
echivalent de gheață și sare se topește (0 grade Fahrenheit), respectiv
temperatura internă a corpului uman (100 de grade Fahrenheit). Pornind de la
aceste informații, zero grade Celsius corespund la aproximativ 38 de grade
Fahrenheit iar 100 de grade Celsius înseamnă cam 212 grade Fahrenheit. O
găleată cu apă având temperatura de 10 grade Celsius înseamnă o temperatură
a apei de 50 de grade Fahrenheit iar o găleată cu apă având temperatura de 20
de grade Celsius nu înseamnă o temperatură a apei de 100 de grade Fahrenheit
ci doar de 68 de grade Fahrenheit. Așadar, temperatura apei din prima găleată
nu este de două ori mai rece ci doar cu 10 grade Celsius, respectiv cu 18 grade
Fahrenheit mai rece. Absența acestui zero absolut nu ne permite să raportăm
cantitățile.
26
Măsurarea în științele socio-umane
Faptul că poate fi atribuit un zero arbitrar a fost speculat de psihologi,
astfel încât instrumentele de diagnostic psihologic ridică pretenția unui nivel de
interval. Valoarea zero este, în general, cea a unui nivel mediu al factorului
latent în conformitate cu tip special de distribuție a datelor, valorile mai mici de
zero fiind caracteristice unui nivel mai scăzut iar cele mai mari de zero unui nivel
mai ridicat. După cum știți, zero în psihologie nu înseamnă absența cantității
factorului latent (cine ar putea să definească inteligența zero), ci valoarea medie
a acesteia la nivelul populației, amplitudinea domeniului factorului latent fiind
extinsă la infinit. Chiar dacă nivelul de măsură permite acest lucru, fundamentul
tehnicilor psihometrice clasice este reprezentat tot de comparație și de relații
de ordine
I.3.2.2 Nivelul de raport Reprezintă cel mai înalt nivel de măsură, în
acest caz putem spune nu numai cu cât o cantitate
este mai mare, ci și de câte ori. Este cazul
măsurătorilor fizice, cum ar fi lungimea, greutatea,
volumul sau temperatura exprimată în grade
Kelvin. O persoană cu înălțimea de 105 centimetri
este cu 105 centimetri mai scundă în comparație
cu una având înălțimea de 210 centimetri, dar și de două ori mai scundă, pentru
că dacă luăm două persoane înalte de 105 centimetri și le punem una în capul
celeilalte, ajungem să măsoare exact cât persoana cu înălțimea de 210 de
centimetri. În psihologie nu atingem acest nivel de măsură în mod curent, rar se
întâmplă să măsurăm la acest nivel în alte domenii socio-umane, poate doar în
științele economice. Psihofiziologia mai operează cu asemenea scale, iar în
domeniul instrumentelor de diagnostic psihologic putem „forța” nivelul de
raport în teoria răspunsului la item.
Figura I-6 Variabilă continuă de interval, „înălțimea”
27
Cristian Opariuc-Dan
Aplicații I.4 Obținerea programelor de analiză de date
Efectuarea calculelor necesare analizei de date prin aplicarea formulelor
statistice este interesantă în scop didactic, dacă doriți să pătrundeți
mecanismele interne ale principiilor, să vă apropiați de adevăratul înțeles al
statisticii. În activitatea concretă, de cercetare, ar fi extrem de neproductiv să
procedați în așa fel, deoarece v-ar lua foarte mult timp și, în mod sigur, veți
comite nenumărate erori de calcul. Ceea ce ați lucra în zile sau săptămâni, ați
putea face în doar câteva clipe, utilizând o aplicație computerizată.
Vom folosi două aplicații specializate în efectuarea calculelor pentru
analiza de date, una prietenoasă și ușor de utilizat, însă destul de scumpă, IBM
SPSS Statistics, alta gratuită, foarte puternică, însă ceva mai greu de folosit,
adresabilă adevăraților profesioniști și numită, simplu, R. Pentru început, să
vedem cum le obținem.
I.4.1 Obținerea programului IBM SPSS Statistics Versiunea de încercare a aplicației se poate obține de la adresa http://www-
01.ibm.com/software/analytics/spss/products/statistics/downloads.html, compania IBM
cumpărând, cu ceva timp în urmă, acest pachet de aplicații, dezvoltându-l
ulterior pe parcursul unui număr de 3 sau 4 versiuni. Desigur, pe pagina de
descărcare a programelor de încercare există mai multe aplicații. Suntem
interesați de IBM SPSS Statistics și nu de altceva, prin urmare vom efectua click
pe legătura „SPSS Statistics”.
Poate unul dintre principalele avantaje ale preluării acestor programe de
către IBM, este faptul că acum există variante pentru mai multe sisteme de
operare. Inițial, programul rula doar pe sistemul de operare Windows de la
Microsoft. Acum avem și varianta pentru Mac OS de la Apple, dar și varianta
28
Măsurarea în științele socio-umane
pentru Linux. Vom alege sistemul de operare instalat pe computer și apăsăm
apoi butonul „Continue”.
În acest moment, vă puteți face un cont pe site-ul IBM sau vă puteți
autentifica în cazul în care aveți deja un cont. De obicei, veți folosi această
variantă dacă aveți o licență validă. Astfel, folosind contul, veți putea actualiza
licența atunci când expiră, veți putea descărca actualizări ale programului și
multe altele. În cazul în care nu doriți să vă autentificați, puteți apăsa butonul
„Proceed without an IBM ID”. Politica firmei IBM este de a colecta datele
personale ale celor care descarcă versiunea de încercare. Nu aveți ce să faceți,
toate câmpurile marcate cu un asterisc roșu trebuie completate, altfel nu veți
putea trece mai departe. După completarea tuturor informațiilor obligatorii, va
trebui să apăsați butonul „Submit” pentru următoarea etapă.
Ați ajuns, după acest
efort, la posibilitatea de
descărcare a programului de
instalare. Implicit, pentru a
descărca, se va folosi o aplicație
specială, numită „Download
director”. Chiar dacă are anumite
avantaje, pentru a nu vă încărca
inutil calculatorul, dacă tot aveți o
conexiune rapidă la Internet, vă
recomandăm să apăsați
„Download using http” pentru a
descărca direct ceea ce doriți. Alegeți pachetul de instalare în funcție de tipul
sistemului de operare (pe 32 de biți sau pe 64 de biți – dacă nu știți, alegeți
Figura I-7 Descărcarea programului IBM SPSS Statistics
29
Cristian Opariuc-Dan
versiunea pe 32 de biți. Aceasta funcționează pe 64 de biți, nu însă și invers) și
apăsați butonul „I agree” pentru a iniția descărcarea. În câteva clipe, browserul
dumneavoastră de Internet va iniția descărcarea programului și este posibil să
așteptați ceva vreme până când se va obține copia. Programul de instalare este
destul de mare, aproape 1GB, iar serverele de descărcare sunt în Statele Unite
ale Americii, prin urmare este posibil să dureze ceva timp. După descărcare, veți
instala programul făcând dublu click pe kitul de instalare, în cazul în care folosiți
sistemul de operare Microsoft Windows. Nu vom intra în detalii, deoarece
presupunem că știți să instalați un program în Windows. Nu trebuie decât să
urmați instrucțiunile de pe ecran, alegând, atunci când vi de solicită, licența de
încercare de 30 de zile.
I.4.2 Obținerea și instalarea programului R Din fericire, obținerea aplicației R este mult mai simplă. În primul rând,
vom naviga la http://cran.r-project.org/bin/windows/base în cazul în care aveți
sistemul de operare
Microsoft Windows. Pentru
alte sisteme de operare sunt
procedee specifice de
instalare. Puteți citi
informațiile relevante de pe pagina oficială a produsului, iar pentru a descărca
programul de instalare, efectuați click pe legătura „Download R 3.1.0 for
Windows”1. Se va iniția imediat descărcarea aplicației, fără a vi se solicita alte
informații. Kitul de instalare este destul de redus ca dimensiune, din acest motiv
și durata descărcării va fi mai mică. Similar altor programe pe care le-ați mai
1 Numele legăturii sau aspectul paginii sunt preluate de la adresa oficială a paginii proiectului. Aceste elemente pot să aibă o altă prezentare sau o versiune diferită.
Figura I-8 Descărcarea aplicației R pentru Windows
30
Măsurarea în științele socio-umane
folosit, puteți instala R efectuând dublu click pe numele pachetului de instalare
descărcat și urmați instrucțiunile de pe ecran.
După instalare, pe suprafața de lucru veți putea găsi pictograma de
lansare a programului R for Windows, pe care vom efectua dublu click în
vederea lansării în execuție.
Figura I-9 Fereastra principală R
Iată cum, în Figura I-9, puteți observa întreaga aplicație R, programul
oferindu-ne doar o linie de comandă în care tastăm text. Desigur, putem lucra
și aici fără nicio problemă, în cazul în care știm foarte bine R. Dacă nu ne
descurcăm, putem instala, suplimentar, o interfață vizuală, indiferent dacă
suntem programatori sau simpli utilizatori. Fiind o aplicație gratuită și dezvoltată
voluntar de o comunitate internațională de programatori pasionați, R are destul
de multe variante de interfață vizuală, recomandate fiind Deducer
(http://www.deducer.org), o interfață vizuală destul de complexă, dar care
funcționează doar după ce ați instalat în prealabil Java, R Commander
31
Cristian Opariuc-Dan
(http://socserv.mcmaster.ca/jfox/Misc/Rcmdr), o interfață puternică, foarte ușor de
instalat și configurat, care nu necesită nimic suplimentar pe computer și RGtk
(http://www.omegahat.org/RGtk), interfață complexă, intuitivă și ușor de folosit, însă
disponibilă doar pentru sistemele Linux sau alte sisteme bazate pe UNIX.
Mediul R se poate dezvolta aproape nelimitat, instalând diferite module,
cunoscute sub numele de pachete, toate interfețele vizuale menționate, dar și
alte funcții mai complexe, fiind cuprinse în acestea. Pentru a putea folosi un
pachet, acesta trebuie mai întâi instalat, apoi încărcat în mediul R, instalarea
pachetelor R făcându-se prin intermediul comenzii:
install.packages(”nume pachet”)
Pentru a instala, spre exemplu, R Commander, vom tasta comanda:
install.packages(”Rcmdr”)
Apăsăm apoi tasta „Enter”, pentru a valida execuția comenzii, moment
în care pachetele R se descarcă și se instalează automat într-o bibliotecă situată
pe calculatorul dumneavoastră. Deoarece acesta este primul pachet instalat,
biblioteca de pachete nu este configurată. Prin urmare, programul vă întreabă
dacă doriți să vă personalizați biblioteca de pachete („Would you like to use a
personal library instead?”). Vă recomandăm să apăsați butonul „Yes” pentru a
defini propria dumneavoastră bibliotecă, situată în directorul personal al
documentelor. Dacă apăsați „No”, se va
folosi biblioteca implicită a programului.
Nu vă sugerăm a doua variantă, deoarece
s-ar putea să aveți probleme cu drepturile
de scriere pe disc. După apăsarea
butonului „Yes”, programul va afișa
locația în care se vor scrie fișierele în biblioteca personală de pachete, implicit
Figura I-10 Alegerea bibliotecii personale de pachete
32
Măsurarea în științele socio-umane
în directorul personal de documente. Va trebui să apăsăm, din nou, butonul
„Yes”, pentru a confirma această opțiune.
Pachetele R sunt disponibile în diferite locații din Internet, aceste locații
fiind cunoscute sub denumirea de CRAN – Comprehensive R Archive Network.
Cu cât aceste locații sunt mai apropiate de dumneavoastră, cu atât descărcarea
pachetelor va dura mai puțin. După instalare, programul nu știe unde vă aflați,
din acest motiv invitându-vă să alegeți locația CRAN optimă.
În Figura I-11 apar și locații CRAN din
România, însă există o mare probabilitate ca
actualizările să se facă întârziat, astfel încât
unele pachete să fie învechite, nefuncționând
corespunzător. Deoarece la momentul actual
viteza conexiunii nu prea pune probleme, vă
recomandăm să alegeți opțiunea de cloud
(cea prestabilită, 0-Cloud) și să apăsați butonul
„OK”.
Instalarea pachetului durează destul
de puțin, în fereastra de comenzi R afișându-
se o serie de mesaje informative, care arată ce
pachete se descarcă și se instalează, precum și alte lucruri importante, cum ar fi
apariția unor erori. Configurarea librăriei personale se face doar în momentul
instalării primului pachet, modificarea locației acesteia făcându-se, ulterior, din
setările programului. Alegerea serverului CRAN se face o singură dată per
sesiune (la pornirea programului R), atunci când instalați un pachet.
Instalarea unui pachet înseamnă doar că programul R s-a conectat la
serverul CRAN specificat, a căutat ultima versiune disponibilă și a descărcat
Figura I-11 Alegerea locației CRAN
33
Cristian Opariuc-Dan
fișierele necesare în biblioteca specificată. Este suficient să instalați o singură
dată un pachet pe computer, nu trebuie să repetați operațiunea de fiecare dată
când doriți să-l utilizați. Totuși, instalarea unui pachet nu presupune automat și
utilizarea sa. Pentru a-l folosi, trebuie ca orice pachet să fie mai întâi încărcat în
R. Încărcarea pachetelor în R se face cu ajutorul comenzii:
library(nume_pachet)
Înlocuind numele pachetului cu ceea ce am descărcat anterior, rezultă
că va trebui să scriem:
library(Rcmdr)
Este posibil ca la încercarea de încărcare în memorie și lansare a unui
pachet, să apară un alt mesaj, prin care să vi se solicite instalarea altor pachete
suplimentare, care nu au fost descărcate și instalate inițial. Acceptați acest lucru
prin apăsarea butonului „Yes”, așteptați ca procesul să se finalizeze și veți obține
rezultatul dorit.
Figura I-12 Interfața vizuală R Commander
34
Măsurarea în științele socio-umane
Am văzut că, uneori, pentru a lansa în execuție un pachet R este nevoie
să instalăm și alte pachete suplimentare, numite pachete suport. Nu vă
impacientați, procesul se desfășoară automat. Aplicația va solicita unele
informații suplimentare din timp în timp, va căuta pachetele de care are nevoie
și le va instala. Nu este nevoie decât să urmăriți mesajele de pe ecran, fiind
necesară apăsarea, din timp în timp, a butonului „Yes”. Este
important să rețineți că în comenzile R, literele mici diferă de
majuscule. Dacă în loc să scrieți „Rcmdr” ați fi scris „rcmdr”, s-ar
obține un mesaj de eroare, deoarece cele două texte diferă.
Interfața R Commander este suficient de puternică pentru a efectua
majoritatea operațiunilor de analiză de date, pentru a importa sau pentru a
exporta baze de date din sau în alte programe, inclusiv IBM SPSS Statistics, are
chiar și comenzi în limba română, însă nu se descurcă prea bine la definirea
variabilelor și la introducerea datelor. Dacă aveți instalată în computer mașina
virtuală Java (Java SE Runtime Environment), puteți iniția descărcarea și
instalarea pachetelor pentru Deducer. În caz contrar, vă recomandăm să
descărcați și apoi să instalați mașina virtuală Java de pe site-ul Oracle2.
Inițial, va trebui să instalăm interfața grafică unificată Java pentru R, așa-
numitul pachet JGR (Java GUI for R), cunoscut și sub numele de „Jaguar”. În
fereastra de comenzi R, vom tasta:
install.packages(”JGR”)
După descărcarea și instalarea pachetelor „Jaguar”, vom repeta
operațiunea pentru a instala pachetele „Deducer”, tastând în fereastra R,
succesiv, comenzile prezentate în continuare, în acest caz fiind necesară o
2 http://www.oracle.com/technetwork/java/javase/downloads/jre8-downloads-2133155.html
35
Cristian Opariuc-Dan
așteptare ceva mai lungă, programul descărcând și instalând un număr destul
de mare de pachete:
install.packages(”Deducer”) install.packages(”DeducerExtras”)
Încărcarea în memorie a interfeței grafice unice „Jaguar” se face prin
comanda cunoscută, dar de această dată va fi necesară o comandă suplimentară
pentru a porni programul. Așadar, pentru a porni Jaguar, a vom tasta succesiv,
în fereastra de comenzi R, următoarele:
library(JGR) JGR()
Figura I-13 Interfața grafică „Jaguar”
36
Măsurarea în științele socio-umane
Am obținut o fereastră de comenzi R ceva mai prietenoasă, cu mai multe
posibilități de definire a variabilelor și de introducere a datelor, însă destul de
rudimentară în raport cu pretențiile noastre. Pentru a încărca „Deducer”, va
trebui să accesăm meniul „Packages & Data”, apoi să alegem opțiunea „Package
Manager”.
În fereastra de configurare
a pachetelor ce vor fi încărcate în
Jaguar, vom căuta pachetele
„Deducer” și „DeducerExtras”,
apoi vom bifa cele două casete din
coloana „loaded” pentru a
comunica aplicației R să le încarce.
Dacă dorim ca cele două pachete
să se încarce automat atunci când
pornim Jaguar, bifăm și cele două
casete corespunzătoare din a
doua coloană, cea numită
„default”. Astfel, putem încărca sau elimina orice alt pachet în această interfață
grafică, iar atunci când am terminat lucrul cu pachetele putem apăsa butonul
„Close” pentru a ieși din procedura de gestiune a pachetelor R.
Figura I-15 Interfața Jaguar cu pachetele Deducer
Faptul că pachetele Deducer au fost încărcate este reflectat în noul
meniu Jaguar. După cum se poate observa, au apărut elemente noi, specifice
Figura I-14 Configurarea pachetelor încărcate în Jaguar
37
Cristian Opariuc-Dan
analize de date și reprezentărilor grafice, precum și funcții noi, avansate, inclusiv
pentru definirea variabilelor și introducerea datelor. Atât Deducer, cât și R
Commander, permit importul/exportul bazelor de date, operațiunea putând fi
efectuată și în line de comandă. Au fost instalate ambele interfețe, deoarece vă
va permite familiarizarea cu două stiluri de lucru relativ diferite.
I.5 Proiectarea unei baze de date
Am crede, în mod greșit, că putem deschide imediat o aplicație de analiză
de date și începem să configurăm variabilele. În realitate, structura unei baze de
date trebuie mai întâi gândită, proiectată pe hârtie, apoi vom trece la
implementarea acesteia într-un program. Să presupunem că desfășurăm un
studiu folosind un test de inteligență și dorim să colectăm datele necesare. Ce
variabile am putea reține? În mod evident, rezultatele persoanelor la testul de
inteligență, exprimate, spre a ușura înțelegerea, sub forma coeficientului de
inteligență. Iată și o primă variabilă. Apoi, căror persoane le va fi administrat
testul de inteligență? Elevilor de liceu, studenților, elevilor din școala generală
sau unei categorii de populație mai largi? Ne interesează educația acestor
persoane? Dacă da, ne putem gândi la o altă variabilă, pe care am numi-o „nivel
de educație”. Indivizii care vor rezolva problemele testului, cel mai probabil, vor
avea vârste diferite, vom folosi atât bărbați, cât și femei, asta dacă nu cumva
preferăm să administrăm testul doar fetelor dintr-o singură clasă. Iată că putem
avea în vedere alte două variabile, „vârsta subiecților” și „genul biologic”.
Orice studiu trebuie gândit înainte de a fi implementat și
de a trece la definirea variabilelor. În mod normal, acest demers
are loc în momentul în care construim planul de cercetare, vizează
o analiză a tuturor variabilelor care ar putea afecta ceea ce măsurăm, reținerea
38
Măsurarea în științele socio-umane
celor relevante și includerea unor variabile demografice, de caracterizare a
lotului de cercetare.
După ce am stabilit ce anume vom măsura, adică în urma reținerii
variabilelor ce vor fi folosite în studiu, este recomandat să le centralizați într-un
tabel, numit tabelul meta-datelor3.
Tabel I-1 Meta-datele variabilelor
Etichetă Nume Tip Nivel Codare dummy Scop Vârsta subiecților varsta N(3) Scalar - Demografică, posibil
independentă Genul biologic gen N(1) Nominal 1 – Masculin
2 - Feminin Demografică, posibil independentă
Nivelul educațional niv_edu N(1) Ordinal
1 – Fără studii 2 – Primare (1-4)
3 – Gimnaziu (5-8) 4 – Liceu (9-12) 5 – Bacalaureat 6 – Universitare
(Licență) 7 – Universitare
(Master) 8 – Doctorat
9 - Postdoctorale
Demografică, independentă
Coeficient de inteligență iq N(3) Scalar - Dependentă
O primă informație despre variabile se referă la eticheta acestora, prin
etichetă înțelegând denumirea lor, așa cum o percep și cum o înțeleg oamenii.
În cazul de față, ceea ce am decis să reținem mai sus, reprezintă exact etichetele
unor variabile, denumirea acestora în limbajul uman. Numele variabilei se
referă tot la denumire, însă nu așa cum o înțelege omul, ci computerul. Unele
programe ne permit să definim numele variabilei la fel cum definim eticheta
acesteia, altele impun condiții speciale. Deoarece nu dorim să fim dependenți
de un singur program, mai ales atunci când colaborăm cu alți cercetători, vom
prefera să respectăm regulile de denumire a variabilelor.
3 Meta-datele se referă la informațiile despre variabile, a caracteristicile acestora
39
Cristian Opariuc-Dan
În primul rând, orice nume de variabilă poate conține doar
litere și cifre, și va începe, în mod obligatoriu, cu o literă. În cazul
în care doriți ca numele variabilei să înceapă cu o cifră, va trebui
să folosiți liniuța de subliniere (de exemplu, corect este „_18ani” și nu „18ani”).
Dacă variabila conține spații (de exemplu „nivel educațional”), aveți mai multe
metode pe care le puteți utiliza, cea mai frecventă fiind aceea în care apelați tot
la liniuța de subliniere (puteți denumi, de exemplu, „niv_edu”), modalitate
cunoscută sub numele de notație „underscore_case”. Singura problemă a
acestei notații este includerea unui caracter suplimentar (liniuța de subliniere),
care ar putea genera, după cum vom vedea, unele dificultăți. Dacă preferați,
puteți folosi una dintre notațiile cunoscute sub denumirea de „Camel Case”, în
care fiecare cuvânt începe cu literă mare („UpperCamelCase”) sau în care doar
primul cuvânt începe cu literă mică, celelalte cu majuscule („lowerCamelCase”).
În cazul de față, am putea numi variabila fie „NivEdu” (în stilul
UpperCamelCase), fie „nivEdu” (în stilul lowerCamelCase). Toate cele trei
convenții de notare constituie standarde de definire a variabilelor folosite în
programare, și este bine să vă obișnuiți cu ele, pentru a înțelege lumea
aplicațiilor computerizate dincolo de utilizarea programelor de analiză de date.
Este inutil să insistăm asupra faptului că în denumirea unei variabile nu au ce
căuta diacriticele românești (ș, ț, ă, î etc.), și nici alte caractere speciale,
exceptând liniuța de subliniere („_”).
O a doua regulă ține de respectarea numărului maxim de 8
caractere în denumirea unei variabile. Această condiție provine de
pe vremea sistemului de operare MS-DOS, atunci când denumirea
fișierelor nu putea să depășească 8 caractere, fiind rar impusă de vreo aplicație
din zilele noastre. Versiunile vechi de SPSS for Windows (înainte de versiunea
40
Măsurarea în științele socio-umane
10) solicitau acest lucru, dar cum nu putem ști ce fel de program ar folosi un
eventual colaborator, vă recomand să țineți cont de această regulă. Nu vom
numi o variabilă „nivel_educational”, și nici „NivelEducational” sau
„nivelEducational”, deoarece am depăși limita celor 8 caractere; vom prefera să
scriem, ca mai sus, „niv_edu” (7 caractere), „NivEdu” sau „nivEdu” (6 caractere).
O altă regulă importantă spune că fiecare variabilă trebuie
să ocupe o coloană distinctă în baza de date, iar fiecare subiect va
ocupa un singur rând (va avea o singură înregistrare) (Field, 2005).
Dacă ar trebui, de exemplu, să măsurăm coeficientul de inteligență,
având, astfel, o testare inițială, apoi să aplicăm o tehnică de dezvoltare a
inteligenței și, după 6 luni sau un an, să realizăm o testare finală, cum am
proceda? Există o singură variabilă, coeficientul de inteligență, măsurată în două
momente diferite de timp, situație foarte bine cunoscută în cazul cercetărilor cu
măsurări repetate. Pentru a nu încălca această regulă, vom crea două variabile
în baza de date, și nu una singură, de exemplu „iq_ini” pentru măsurarea inițială
și „iq_fin” pentru cea finală, respectând astfel prima parte a regulii, dar și cea
de-a doua parte, în care o persoană ocupă un singur rând.
Tipul și nivelul de măsură a variabilelor sunt alte informații, foarte
importante, atunci când proiectăm baza de date. Pentru a putea vorbi despre
măsurare, în adevăratul sens al definiției, știm că trebuie să asociem numere
atributelor obiectelor și fenomenelor studiate. De aceea, încă de la început,
trebuie să decidem care dintre variabile exprimă calități și care exprimă
cantități, adică să stabilim nivelul lor de măsură. Variabilele „iq” și „varsta” se
referă, evident, la cantități, și se exprimă, în mod natural, prin numere. În primul
caz vorbim despre coeficientul de inteligență, un număr situat la un nivel de
măsură de interval, iar în al doilea caz tot despre un număr, vârsta, exprimată
41
Cristian Opariuc-Dan
în ani împliniți, variabila fiind situată chiar la un nivel de raport. În analiza de
date nu facem o distincție atât fină între variabilele parametrice (continui), prin
urmare atât cele situate la un nivel de interval, cât și cele ale nivelului de raport,
sunt tratate unitar, ca variabile scalare, cele mai puternice variabile cu care
putem lucra.
În acest moment, putem discuta despre o nouă regulă
foarte importantă și mult ignorată, și anume că fiecare variabilă
trebuie codată astfel încât să se obțină maximum de informații
(Opariuc-Dan, 2009). Să luăm cazul vârstei, o variabilă pe care o putem exprima
în ani, luni, zile, minute sau secunde, cum dorim, având un punct zero
convențional în momentul nașterii, ba chiar și un zero absolut în momentul
concepției. Altfel spus, o variabilă scalară în adevăratul sens al cuvântului, și ar
fi o mare greșeală să o tratăm, spre exemplu, ca pe o variabilă ordinală. Atunci
când o vom proiecta, ne vom gândi să stocăm vârsta în ani sau luni, și nu să
creăm categorii de vârstă (de exemplu, „între 10 și 15 ani”, „între 15 și 20 de
ani” și așa mai departe), transformând-o într-o variabilă ordinală, mult mai
slabă. Idealul oricărui cercetător este să măsoare la un nivel cât mai puternic,
de preferință cu zero absolut. Dacă variabila este natural scalară, o vom folosi
exact așa, la cel mai înalt nivel de precizie, garantând obținerea maximului
posibil de informație. Ulterior, dacă dorim, putem transforma foarte ușor o
variabilă continuă într-una discretă, ordinală sau nominală, mult mai slabă din
punct de vedere al informațiilor și al puterii analizelor permise; invers, ca să
ajungem de la o variabilă discretă la una continuă, este însă imposibil (Opariuc-
Dan, 2009).
Din moment ce am stabilit nivelul de măsură ca fiind cel scalar, în
următoarea etapă vom urmări să identificăm tipul variabilei. Este limpede, cele
42
Măsurarea în științele socio-umane
două variabile exprimă cantități, măsurate prin numere, așadar vor fi definite ca
numerice (N), însă de câte cifre vom avea nevoie pentru a stoca toate valorile
posibile? În cazul vârstei, exprimată în ani, cu o singură cifră vom putea memora
scoruri de la 0 la 9 ani, total insuficient având în vedere persoanele pe care
urmează să le evaluăm. Stăm mult mai bine dacă am folosi două cifre, deoarece
am putea înregistra persoane cu vârsta cuprinsă între 0 și 99 de ani, dar ce ne
facem dacă includem în studiu și bunicii? Mai bine am proiecta variabila folosind
trei cifre, deoarece niciun bunic nu va putea depăși 999 de ani, cât este
maximum teoretic al amplitudinii valorilor. În cazul în care variabila nu comportă
numere zecimale, am putea nota acest lucru de forma „N(3)”, adică o variabilă
de tip număr întreg, format din 3 cifre, cu o amplitudine de la 0 la 999. În cazul
în care am fi proiectat un studiu specific științelor economice și administrative
și am fi avut o variabilă în care să stocăm, spre exemplu, prețul unor produse,
am fi preferat o reprezentare zecimală, notând tipul variabilei cu „N(4.3)”, adică
o variabilă de tip număr zecimal, format din 4 cifre pentru a reprezenta întregii
și 3 cifre zecimale, cu o amplitudine de la 0.000 la 9999.999.
În cazul coeficientului de inteligență, putem proiecta variabila tot de tip
N(3), asigurând o amplitudine suficientă pentru a permite înregistrarea scorului
oricărei persoane, deoarece am stoca valori ale coeficientului de inteligență
cuprinse între 0 și 999. Iată că am ajuns la o nouă regulă, și anume
aceea conform căreia categoriile create trebuie să fie exhaustive,
adică suficiente pentru a permite oricărui caz particular să poată
fi inclus într-o categorie.
Dacă în cazul celor două variabile discutate lucrurile sunt destul de clare,
deoarece exprimă, natural, cantități, variabilele „gen” și „niv_edu” exprimă
calități. Genul biologic se situează la un nivel nominal (categorial) de măsurare,
43
Cristian Opariuc-Dan
deoarece nu puteți pune, nici măcar în glumă, o relație de ordine între cele două
categorii, iar nivelul de educație poate fi tratat ca o variabilă situată la un nivel
de măsură ordinal, deoarece o persoană care a terminat doar gimnaziul are un
nivel de educație inferior celeia care a absolvit liceul.
Toată problema este că orice program de analiză de date preferă să
„ronțăie” numere și nu litere. Din acest motiv, am ajuns la o nouă
regulă foarte importantă, aceea că toate categoriile sunt fie
numere, fie trebuie codate numeric (Field, 2005). Nu putem scrie,
în baza de date, textul „masculin” și „feminin”, nici măcar „M” și „F” atunci când
înregistrăm scorurile persoanelor la variabila „gen”. În primul rând, nu am
respecta definiția măsurării, motiv suficient pentru a renunța la orice analiză de
date. În al doilea rând, am pierde enorm de mult timp dacă am scrie, de fiecare
dată, unul dintre cele două texte, pentru fiecare persoană, ca să nu mai punem
la socoteală riscul crescut de a comite erori. Dacă în loc de „masculin” am omite
o literă, spre exemplu am scrie „masclin”, fapt extrem de probabil, atunci nu am
mai avea două categorii ale variabilei, ci trei: „masculin”, „masclin” și „feminin”.
Folosind litere, putem calcula, cel mult, de câte ori apare un cuvânt, fapt care ar
limita puterea analizei de date la cea dată de numărarea scorurilor din fiecare
categorie. Dar nu ne oprește nimeni să notăm cu 1 categoria „masculin” și cu 2
categoria „feminin”, sau invers. Astfel, respectăm definiția măsurătorii,
reducem riscul de a comite o eroare și creăm posibilitatea unor analize de date
mai puternice. O asemenea atribuire poartă numele de codare dummy, pentru
a arăta că numerele alocate au doar o valoare de etichetă, nu îndeplinesc funcția
lor normală. Pur și simplu, în loc de „masculin” vom tasta 1 (sau 2, 7, 5, după
cum dorim), iar în loc de „feminin” vom tasta 2 (sau 1, 6, 9 etc.), asta deoarece
relația de ordine între categorii nu există.
44
Măsurarea în științele socio-umane
Pe de altă parte, variabila „niv_edu” comportă o altfel de abordare, fiind
ordinală. De această dată vom acorda numere în ordine, acestea reprezentând
tot etichete ale categoriilor, dar au, în plus, calitatea de a indica poziția
categoriei. Vom ști ce categorie este superioară sau inferioară alteia, dar nu vom
putea vorbi despre cantități, doar despre ordine. Așadar, orice proces de codare
dummy presupune două elemente: un număr, denumit valoare, care va fi
introdus în baza de date, precum și o etichetă, ce nu va fi introdusă în baza de
date, dar care reprezintă, de fapt, proprietatea calitativă măsurată.
Legat de procesul de codare dummy, apar reguli noi. Una
dintre acestea susține că toate codurile categoriilor unei variabile
trebuie să fie mutual exclusive (Field, 2005). Trebuie găsite nu doar
suficiente categorii pentru a include orice caz posibil, ci trebuie și respectată
regula ca o valoare, pentru o persoană, să poată fi încadrată într-o singură
categorie și numai în una, cu alte cuvinte să nu se suprapună categoriile. Nu
putem defini, spre exemplu, o variabilă în care să stocăm categoria de vârstă,
una dintre categorii fiind 10-15 ani, iar cealaltă 15-20 de ani. O persoană, care
are exact 15 ani, unde va fi inclusă, mai ales dacă împlinește acea vârstă fix în
ziua evaluării? Ar fi mai corect să construim categorii de genul 10-15 ani, 16-20
de ani si așa mai departe, în care limita inferioară a unei categorii este strict mai
mare decât limita superioară a categoriei anterioare.
Uneori, la proiectarea unei variabile, este mai dificil să respectăm
această regulă. Să presupunem că desfășurăm un sondaj de opinii politice, în
care avem următoarea întrebare: „Dacă duminică ar fi alegeri parlamentare, cu
care dintre următoarele partide în mod sigur NU veți vota?”. Ca variante de
răspuns, am putea avea „PX”, „PY”, „PZ”, „NS/NR” și varianta deschisă, „Altul.
Care?”. Un respondent poate bifa un partid, două, le poate bifa pe toate, poate
45
Cristian Opariuc-Dan
să nu bifeze niciunul sau să scrie un alt partid, neinclus în lista standard. Cum
am putea proiecta o asemenea variabilă deoarece, așa cum observați, codarea
dummy prezentată anterior permite alegerea doar a unei singure variante de
răspuns. Într-o astfel de situație, am putea regândi itemul unic, l-am putea privi
ca fiind format din mai mulți itemi dihotomici, atâția câte variante de răspuns
există. De exemplu, „Dacă duminică ar fi alegeri parlamentare, în mod sigur NU
veți vota cu PX?”; „Dacă duminică ar fi alegeri parlamentare, în mod sigur NU
veți vota cu PY?” și așa mai departe. Ar rezulta un număr de variabile
dihotomice, de tipul „nu_PX”, „nu_PY”, „nu_PZ”, „nu_NSNR” și o variabilă de tip
text, de genul „nu_P_Alt”, în ultimul caz stocând ceea ce va scrie respondentul
și procedând, ulterior, la o analiză calitativă (Opariuc-Dan, 2009). Exceptând
variabila calitativă, în celelalte cazuri putem proceda la o codare dummy de
genul „1 – Adevărat” și „0 – Fals”, sau putem folosi orice alt sistem de codare
dummy dihotomică dorim, rezolvând, astfel, problema.
O altă regulă, destul de importantă, susține prezența
scorurilor la nivelul tuturor variabilelor (Field, 2005). Cu alte
cuvinte, la modul ideal, fiecare persoană ar trebui să aibă valori la
toate variabilele din baza de date. În situația în care unele persoane nu au
scoruri la una sau la mai multe variabile, acest lucru este cunoscut sub numele
de cazuri lipsă, prezența lor putând avea consecințe serioase asupra unor
categorii de tehnici de analiză de date (spre exemplu, modelele de ecuații
structurale). Nu este întotdeauna posibil să evităm apariția cazurilor lipsă,
deoarece persoanele pot refuza sau pot omite să furnizeze unele răspunsuri.
Majoritatea programelor de analiză de date au proceduri puternice de gestiune
a cazurilor lipsă, unele dintre ele urmând să le discutăm și noi; tot ceea ce va
trebui să rețineți în acest moment, este că un caz lipsă va fi reprezentat prin
46
Măsurarea în științele socio-umane
absența datelor din celula respectivă, nu prin introducerea valorii zero. Dacă veți
scrie (sau transforma) zero acolo unde lipsesc date, programul le va considera
date valide și le va include în analiză, fapt ce ar putea să conducă la rezultate
profund eronate.
În fine, ultima regulă pe care o vom comenta se referă la
codarea variabilelor în concordanță cu sensul scalei (Field, 2005).
Anumite întrebări pot avea o scală de răspuns inversată. De
exemplu, răspunsul întrebarea „Cât de mulțumit sunteți de nivelul
dumneavoastră de venit?” poate fi dat pe o scală de la 1 la 5, unde 1 înseamnă
„foarte puțin mulțumit” și 5 înseamnă „foarte mulțumit”. Acesta este sensul
natural al scalei, deoarece numerele mari corespund semnificației de „mai
mult”. La fel de bine am putea spune că 1 înseamnă „foarte mulțumit” și 5
„foarte puțin mulțumit”, dacă ne gândim că 1 ar avea semnificația primului loc,
iar 5 semnificația ultimului loc. Știm deja că rareori măsurăm o variabilă prin
intermediul unui singur item; de multe ori sunt necesare mai multe întrebări,
unele fiind operaționalizate astfel încât 5 să reprezinte „mult”, altele ca 1 să
reprezinte „mult”, aceasta fiind și o tehnică de păstrare a atenției, folosită destul
de des în psihologie. Programul de analiză de date știe doar că 5 este mai mare
ca 1, neavând habar și nefiind interesat de modul în care am construit noi scala
de răspuns. Vă dați seama că dacă am măsura o variabilă prin intermediul unui
număr de 10 itemi, 5 având scale de răspuns crescătoare, 5 descrescătoare, din
punct de vedere al analizei de date tendințele s-ar anula reciproc (cei care
răspund cu 4 la primii 5 itemi, adică în sensul de „mult”, vor răspunde cu 2 la
ultimii cinci, tot în sensul de „mult”). De obicei, atunci când efectuăm codarea
dummy la definirea variabilelor, respectăm modul în care au fost proiectați
itemii, pentru a nu crea confuzie la introducerea datelor. Când inițiem însă
analiza de date, vom avea grijă să aducem toți itemii în sensul natural al scalei,
47
Cristian Opariuc-Dan
în cazul nostru transformând, prin inversare, scorurile a 5 dintre ei, operațiune
cunoscută sub numele de recodare, astfel încât variabila finală să aibă același
sens.
Dacă vom proceda inteligent, planificând și proiectând baza de date în
conformitate cu regulile menționate în acest capitol, vom obține, la final, un
tabel al meta-datelor clar, logic și consistent, făcând implementarea definițiilor
o plăcere, indiferent de programul în care lucrați. Dacă ne vom grăbi, am obține,
în cel mai fericit caz, o bază de date greu de înțeles, „murdară”, dezorganizată
și dezordonată, care pune probleme, de multe ori, chiar și persoanei care a
creat-o. În situația cea mai neplăcută, am putea constata că, după ce am
introdus foarte multe date, unele variabile au fost proiectate greșit. Abia atunci
ați putea avea motive serioase de frustrare, deoarece ați muncit degeaba.
I.5.1 Definirea variabilelor și introducerea datelor în IBM SPSS Statistics
Figura I-16 Fereastra principală IBM SPSS Statistics
IBM SPSS Statistics a ajuns la versiunea 22 în momentul în care scriem
aceste rânduri și oferă facilități avansate de procesare statistică a datelor,
folosind o interfață grafică foarte prietenoasă, relativ ușor de învățat, elemente
care au stat la baza popularității sale. 48
Măsurarea în științele socio-umane
Pentru început, vom observa asemănarea cu un alt program, mult mai
bine cunoscut, și anume Microsoft Excel. Chiar dacă se pot face analize de date
suficient de elaborate folosind Microsoft Excel, utilizarea unei aplicații
specializate în analiza de date oferă o mai mare flexibilitatea și o mai bună
claritate. Microsoft Excel este, totuși, un program pentru foi de calcul tabelar și
nu o aplicație dedicată analizei de date.
În IBM SPSS Statistics, ca în orice altă aplicație de analiză de date,
variabilele sunt reprezentate pe coloane iar datele se introduc pe rânduri.
Numele variabilelor se afișează în capul de
tabel, fiind, implicit, „var”. Primul lucru pe
care va trebui să-l remarcăm este tabulatorul
de comutare între modul de vizualizare a
datelor și modul de definire a variabilelor,
situat în colțul din dreapta jos al ferestrei
principale (vezi Figura I-17). Butonul „Data View” comută în secțiunea destinată
introducerii datelor, aceasta fiind secțiunea implicită, activă atunci când porniți
programul. Doar că, pentru a putea introduce datele, va trebui să fi definit în
prealabil variabilele. Nu este cazul nostru, din acest motiv va trebui să efectuăm
click pe butonul „Variable View” pentru a comuta în secțiunea de definire a
variabilelor, practic o implementare computerizată a tabelului meta-datelor
discutat mai sus.
Figura I-18 Structura tabelului meta-datelor în IBM SPSS Statistics
Prima coloană a tabelului meta-datelor, „Name”, se referă la numele
variabilei, acel nume inteligibil pentru computer, nu pentru om. În conformitate
Figura I-17 Tabulatorul de comutare a modului de vizualizare
49
Cristian Opariuc-Dan
cu specificațiile prevăzute în tabelul meta-datelor proiectat (vezi Tabel I-1), aici
vom introduce „varsta” pentru a denumi variabila „Vârsta subiecților”, „gen”
pentru a denumi variabila „Gen biologic”, „niv_edu” pentru nivelul educațional,
și așa mai departe.
Următoarele trei coloane („Type”, „Width” și „Decimals”) permit, toate
trei, stabilirea tipului acesteia. Ne
reamintim că variabila „varsta” a fost
definită ca numerică, fără zecimale,
compusă din trei cifre – N(3). După ce am terminat de introdus numele variabilei
și am părăsit celula, IBM SPSS Statistics a completat automat tipul variabilei, în
funcție de configurația sa, definind-o drept N(8.2). Adică, o variabilă numerică,
având 8 caractere întregi și două caractere zecimale. Dimensiunea este mult
prea mare față de ce avem noi nevoie, prin urmare vom scrie, în celula
„Decimals”, în loc de 2 cifra 0, iar în celula „Width”, în loc de 8 cifra 3.
Rareori vom avea nevoie să
schimbăm tipul variabilei, deoarece,
așa cum știm, în analiza de date se
impune codarea numerică a
acestora. Dacă dorim, putem
efectua click în celula „Type” din
dreptul variabilei pe care o definim,
moment în care, în partea dreaptă,
se va afișa un buton ce conține trei puncte de suspensie ( ), pe care
putem apăsă pentru a se afișa fereastra din Figura I-20. Primele patru opțiuni
reprezintă diferite moduri de definire a numerelor, în partea dreaptă putând
Figura I-19 Definirea tipului unei variabile
Figura I-20 Modificarea tipului de variabilă
50
Măsurarea în științele socio-umane
stabili numărul de cifre ale întregilor și numărul de cifre ale zecimalelor, la fel ca
mai sus.
Opțiunea „Date” are în
vedere date de tip calendaristic.
Dacă o alegem, în partea dreaptă
dispar elementele „Width” și
„Decimals” și apare o listă din care
puteți selecta formatul de dată
calendaristică solicitat pentru
introducerea scorurilor. Tipul de
dată calendaristică se poate folosi, de exemplu, dacă dorim să stocăm data
nașterii, pentru ca ulterior, la analiza datelor, să putem calcula vârsta exactă a
persoanelor în ani, luni, zile și ore, în funcție de nivelul de precizie solicitat.
Datele calendaristice se utilizează mai mult în medicină sau acolo unde putem
vorbi despre analiza seriilor temporare, ori în cercetările experimentale de
supraviețuire din industria farmaceutică.
Opțiunile „Dollar” și Custom
currency” intuiți la ce se referă; în
mod cert la monede. Dacă alegeți
dolar, sumele vor fi exprimate în
moneda americană, fiind precedate
de simbolul „$”. În definitiv, o
monedă este tot un număr, așa că, la
configurarea opțiunii, alături de lista
de alegere a modului de reprezentare, reapar elementele „Width” și „Decimal
Places”. Cealaltă opțiune permite definirea unei alte monede, exceptând
Figura I-21 Configurarea tipului calendaristic de date
Figura I-22 Configurarea tipului monetar de date
51
Cristian Opariuc-Dan
dolarul. Putem alege formatul de reprezentare, numărul de întregi și numărul
de zecimale, la fel ca în cazul monedei americane.
Opțiunea „String” definește
șiruri de caractere, texte, fiind
folosită atunci când avem itemi cu
răspunsuri deschise, de genul
„Altceva. Ce?” sau „Altcineva.
Care?” și permite introducerea de
text brut. Singura modalitate de
configurare ține de numărul de
caractere acceptate, valoare pe care o putem introduce în caseta „Characters”.
După cum știți deja, un astfel de tip de date este nerecomandat în analiză, din
acest motiv fiind foarte rar folosit. Singura utilizare oarecum pertinentă ar fi
aceea în care am stoca numele persoanelor, în vederea unei identificări
ulterioare.
Ultimul tip de date, „Restricted Numeric”, este un număr întreg, fără
zecimale, dar la care se completează cu zero valorile din față. De exemplu, dacă
l-am defini ca N(3), atunci valoarea 9 va fi reprezentată ca „009” și nu simplu,
„9”.
După ce am terminat configurarea tipului variabilei, putem apăsa
butonul „OK” pentru a memora aceste setări, sau butonul „Cancel” dacă dorim
să părăsim formularul și să revenim la configurația inițială, fără a reține noua
configurație.
Dacă numele variabilei, așa cum îl recunoaște computerul, a fost
introdus în celula coloanei „Name”, denumirea acesteia, inteligibilă pentru om,
se va introduce în celula coloanei „Label”. În cazul nostru, acolo vom scrie,
Figura I-23 Configurarea tipului text de date
52
Măsurarea în științele socio-umane
pentru variabila „varsta”, eticheta „Vârsta subiecților”. Dacă lăsăm
necompletată această celulă, în rapoartele generate de IBM SPSS Statistic se va
folosi numele variabilei. Acesta va fi înlocuit dacă există informații despre
etichetă, fapt care permite o afișare mult mai elegantă și mai comprehensibilă
a informațiilor. Iată de ce vă recomandăm să completați întotdeauna celula
„Label”.
Coloanele „Columns” și „Align” nu afectează definiția variabilelor, ci
felul în care sunt afișate datele. În celula „Align” putem specifica modul în care
se aliniază textul: la dreapta (Right) în cazul numerelor, la stânga (Left) sau
centrat (Center) în cazul textelor, însă această convenție poate fi ignorată. În
definitiv, puteți configura aspectul după preferințele dumneavoastră. Celula
„Columns” permite stabilirea lățimii coloanei de date. Cu cât numărul este mai
mare, cu atât lățimea coloanei variabilei respective va fi, și ea, mai mare. Nu ar
trebui să vă faceți probleme privind această valoare, deoarece puteți să
modificați lățimea unei coloane „trăgând” cu mausul de linia de separație dintre
două coloane, ca la orice tabel.
Coloana „Measure” permite definirea unei caracteristici foarte
importante pentru o variabilă, și anume nivelul de măsură. La crearea unei
variabile, nivelul de măsură nu este precizat („Unknown”). Putem alege nivelul
de interval sau de raport în cazul variabilelor continui, parametrice, alegând
opțiunea „Scale”. Dacă variabila este una discretă și are categorii ordonate, vom
alege opțiunea „Ordinal”, iar dacă avem în vedere o variabilă categorială,
opțiunea ce va trebui aleasă este „Nominal”.
Ultima coloană, „Role”, corespunde oarecum scopului variabilei din
tabelul meta-datelor (Tabel I-1). Opțiunea implicită este „Input” și vizează o
variabilă ale cărei valori sunt introduse manual. Vorbim, astfel, de variabile
53
Cristian Opariuc-Dan
realizate prin observare directă, din surse externe de date, aceasta fiind situația
tuturor variabilelor din exemplul nostru. Opțiunea „Target” are în vedere
realizarea variabilei din alte variabile, prin transformări sau calcule. De exemplu,
dacă din variabila „varsta” construim o nouă variabilă, numită „grup_varsta”,
această nouă variabilă este considerată de acest tip. Atunci când o variabilă se
poate realiza și direct, și prin calcul, opțiunea aleasă va fi „Both”. De exemplu,
variabila „varsta” poate fi de acest tip, dacă inițial am introdus manual datele,
apoi am decis să eliminăm valorile vârstei pentru toți subiecții minori, acest
lucru fiind obținut în urma unei operațiuni de transformare. Opțiunea „None”
arată că variabilei nu i-a fost atribuit niciun rol sau că rolul său nu este bine
cunoscut. De obicei, se folosește atunci când datele sunt importate dintr-un alt
program sau am preluat o bază de date de la o persoană nefamiliarizată suficient
cu această aplicație, și nu știm cum s-au obținut, astfel, datele. Opțiunile
„Partition” și „Split” se folosesc în cazul variabilelor pe baza cărora se scindează,
logic, fișierul de date, diferența dintre ele ținând doar de modul în care s-au
împărțit datele. Dacă scindarea bazei de date s-a realizat folosind un criteriu de
selecție a cazurilor în care s-a inclus variabila, atunci aceasta are un rol de
partiționare. Dacă este vorba despre o variabilă categorială, pe baza categoriilor
acesteia împărțindu-se fișierul, atunci avem de a face cu o variabilă „Split”. Spre
exemplu, putem alege una dintre cele două opțiuni dacă facem analize de date
separat pentru bărbați și separat pentru femei (variabila „gen” fiind o variabilă
cu rol de „Split”), sau dacă alegem spre analiză doar bărbații cu vârsta peste 20
de ani (variabilele „gen” și „varsta” sunt variabile de partiționare).
Declararea rolului unei variabile nu are vreun efect asupra analizei de
date, așa cum știm, însă poate comunica unui alt cercetător modul în care au
fost obținute și prelucrate datele, fapt ce arată o tratare profesională și serioasă
54
Măsurarea în științele socio-umane
a acestor sarcini. Iată cum am reușit să definim prima variabilă, vârsta
subiecților:
Figura I-24 Definirea completă a variabilei „varsta”
I.5.1.1 Definirea valorilor ce vor fi tratate drept cazuri lipsă Au rămas doar două coloane pe care nu le-am discutat, una dintre
acestea fiind coloana „Missing”, ce nu se referă la tratarea situațiilor în care
lipsesc valori din baza de date, ci la momentele când anumite valori ar trebui
tratate drept cazuri lipsă. Pentru a defini asemenea situații, vom apăsa pe
același buton cu puncte de suspensie, ce va putea fi observat atunci când
efectuăm click în celula variabilei, din coloana „Missing”.
Implicit, IBM SPSS Statistics
presupune că nu dorim să definim valori ce
vor fi tratate drept cazuri lipsă, asemenea
situații ținând doar de absența efectivă a
scorurilor. Din acest motiv, opțiunea
selectată atunci când deschideți formularul
este „No missing values”. Am putea, spre
exemplu, desfășura un sondaj de opinie, în care anumite întrebări să aibă
variantele de răspuns „Nu știu” și „Nu răspund”. De multe ori, studiile
sociologice, mai ales în cazul opiniilor politice, presupun excluderea variantelor
de tip „Nu știu/Nu răspund”, tocmai pentru a se putea sesiza distribuția
preferințelor persoanelor hotărâte. Iată de ce asemenea variante de răspuns
primesc, de obicei, coduri numerice 99 sau 98, pentru o asemenea codare
optând și în exemplul de față. Nu putem renunța de tot la cele două variante,
lăsând celulele necompletate, deoarece situația nehotărâților ar putea fi
Figura I-25 Definirea valorilor tratate drept cazuri lipsă
55
Cristian Opariuc-Dan
solicitată în vederea unei alte analize, însă putem alege opțiunea „Discrete
missing values”. Se activează cele trei casete, corespunzătoare introducerii unui
număr maxim de trei valori unice, acestea fiind tratate drept cazuri lipsă.
În situația în care am dori ca ambele
categorii, atât „Nu știu (98)” cât și „Nu răspund
(99)”, să fie tratate drept cazuri lipsă, computerul
ignorându-le ca și când ar fi celule necompletate, am include codurile acestora
în două dintre cele trei caste de text, ca în Figura I-26. Dacă am mai avea o
variantă de răspuns, de exemplu „Niciunul (9)”, am putea include și această
valoare în cea de-a treia casetă. IBM SPSS Statistics nu permite introducerea a
mai mult de trei valori care să fie tratate drept cazuri lipsă, însă sunt foarte rare
situațiile în care chiar am avea nevoie de așa ceva.
Un alt scenariu ar fi acela în care ni s-ar
solicita să tratăm minorii și persoanele care nu
au vrut, în mod explicit, să declare vârsta, ca și
când nu ar fi completat celulele acestei
variabile, adică să tratăm aceste situații drept cazuri lipsă. Minore sunt toate
persoanele cu vârsta cuprinsă între 0 și 18 ani, iar pentru persoanele care au
refuzat explicit să comunice vârsta, am ales codul 999. Realizați că într-o
asemenea situație, în mod obligatoriu ar trebui să includem valoarea 999 ca
valoare discretă pentru cazuri lipsă, altminteri ar rezulta o medie de vârstă
matusalemică. Problema nu ține de această valoare unică, ci de intervalul de
vârstă cuprins între 0 și 17 ani, prin urmare vom alege ultima opțiune, „Range
plus one optional discrete missing value”. În primele două casete putem stabili
intervalul de valori, specificând 0 ani drept limită inferioară („Low”) și 17 ani
drept limită superioară („High”) iar în a treia casetă („Discrete value”) putem
Figura I-26 Tratarea unor valori unice drept cazuri lipsă
Figura I-27 Tratarea unui interval de valori și a unei valori unice drept
cazuri lipsă
56
Măsurarea în științele socio-umane
introduce 999 ani, codul pentru situația în care persoanele refuză să declare
vârsta. Problema a fost rezolvată, nu rămâne decât să apăsăm butonul „OK”
pentru a memora configurația sau „Cancel” pentru a părăsi fereastra fără a
reține setările.
I.5.1.2 Definirea categoriilor variabilelor calitative. Din moment ce am terminat definirea variabilei „varsta”, vom trece la
următoarea variabilă, și anume „gen”. Avem deja cunoștințele necesare pentru
a face acest lucru, prin urmare nu vom relua toate operațiunile.
Figura I-28 Definirea meta-datelor pentru variabila „gen”
Tipul variabilei este, în mod cert, numeric, având nevoie de o singură
cifră pentru a stoca cele două categorii, convenind să notăm cu „1” genul
masculin și cu „2” genul feminin (vezi Tabel I-1). Nu uităm, desigur, să specificăm
nivelul de măsură, în cazul de față cel nominal.
Toată chestiunea este că
această codare dummy am realizat-
o noi, în tabelul meta-datelor, iar
IBM SPSS Statistics habar nu are că
bărbații sunt notați cu „1” și femeile
cu „2”, atâta vreme cât nu găsim o
cale prin care să-i putem comunica
asta. Această cale chiar există, iar pentru a o accesa este suficient să apăsați
butonul cu punctele de suspensie ce apare dacă veți da click pe celula variabilei
„gen”, în dreptul coloanei „Values”, ultima coloană nediscutată.
Figura I-29 Codarea dummy a unei categorii
57
Cristian Opariuc-Dan
O codare dummy presupune, așa cum am menționat mai sus, stabilirea
valorii (un număr) și a etichetei (calitatea). Pentru genul masculin, valoarea este
„1”, acest număr urmând a fi introdus în caseta „Value”. Eticheta acestei valori
(calitatea) este, în mod evident, „Masculin”, textul urmând a fi introdus în caseta
„Label”. Pentru a memora această codare, va trebui să apăsăm butonul „Add”,
care, între timp, s-a activat. Vom observa cum informațiile din cele două casete
se șterg, iar asocierea valoare-etichetă a fost înregistrată în lista centrală.
Operațiunea se repetă și
pentru asocierea 2 – Feminin,
introducând și o asociere
suplimentară, 3 – Nedeterminat,
însă observăm că, din neatenție, am
comis o greșeală la denumirea
genului feminin. Pentru a o corecta,
vom selecta asocierea făcând click pe elementul corespunzător din listă. În acel
moment, se vor încărca, în cele două casete de sus, valoarea și eticheta codării
selectate. Vom opera modificările dorite, apoi vom apăsa butonul „Change”
pentru a le memora.
În cazul în care după selecție
nu se modifică nimic în cele două
casete, se activează butonul
„Remove”, apăsarea acestuia având
ca efect ștergerea categoriei
selectate. Dacă am considera că
includerea celei de-a treia categorii,
„Nedeterminat”, nu reprezintă o idee prea bună, am putea selecta acest
Figura I-30 Modificarea codării unei categorii
Figura I-31 Ștergerea unei categorii
58
Măsurarea în științele socio-umane
element și apăsa butonul menționat. Imediat, asocierea va fi eliminată din listă,
categoria fiind, și ea, ștearsă.
Desigur, toate aceste operațiuni, pe care le-am efectuat până în acest
moment, au un caracter temporar. Ele devin permanente numai după apăsarea
butonului „OK”. În cazul în care apăsați butonul „Cancel”, codarea dummy va fi
ignorată.
În acest fel veți defini și
variabila „niv_edu”, inclusiv codarea
dummy, ținând cont că acesta are
categorii ordonate, prin urmare veți
alege nivelul de măsură ordinal.
A mai rămas o singură
variabilă de definit, „iq”, variabila în
care vom memora scorurile pentru
coeficientul de inteligență și care nu pune niciun fel de probleme dacă ați înțeles
cele prezentate până în acest moment. Prin urmare, ne putem acum bucura de
tabelul meta-datelor, implementat în IBM SPSS Statistics.
Figura I-33 Tabelul complet al meta-datelor variabilelor, implementat în IBM SPSS Statistics
I.5.1.3 Realizarea variabilelor și salvarea bazei de date Am ajuns la jumătatea drumului, însă avem satisfacția de a fi creat o bază
de date cu variabile foarte bine definite și care respectă exigențele oricărui nivel
de cercetare. Nu rămâne decât să trecem la cea de a doua etapă, la realizarea
acestor variabile, adică la introducerea scorurilor. Folosind tabulatorul de
Figura I-32 Codarea dummy în cazul variabilei „niv_edu”
59
Cristian Opariuc-Dan
comutare a modului de vizualizare, acela situat în colțul din stânga-jos al
ferestrei principale, vom apăsa pe „Data View” pentru a părăsi modul de
configurare a variabilelor și a intra în modul de introducere a datelor.
Baza de date este goală, doar
nu v-ați fi așteptat să se populeze
singură. Capul de tabel conține
numele variabilelor, iar dacă veți ține
mausul circa 2 secunde deasupra unui nume, veți putea afla, într-o etichetă
ajutătoare, și denumirea sa.
În acest moment, ne vom
deplasa în celula primului rând din
prima coloană și vom introduce
vârsta primei persoane, în cazul
nostru, 23 de ani. Apăsăm apoi tasta „Tab” sau săgeata orientată înspre dreapta
pentru a introduce genul biologic. Cum acea persoană este bărbat, vom scrie
cifra 1, iar în următoarea coloană vom scrie cifra 3, deoarece subiectul a absolvit
doar gimnaziul. În fine, acesta pare a fi un geniu, chiar dacă nu a mai urmat
liceul, deoarece coeficientul său de inteligență este 125. O nouă apăsare a tastei
„Tab” ne va conduce la prima coloană a celui de-al doilea rând, pregătind
introducerea unui al doilea subiect.
Acest mod de vizualizare și introducere a datelor poartă numele de
vizualizare bazată pe valori, deoarece se afișează, în cazul
variabilelor discrete, valorile categoriilor, exprimate numeric.
Pe bara de instrumente, în zona din dreapta, se află butonul
de comutare între modul de vizualizare bazată pe valori (cazul
în care butonul nu este apăsat) și modul de vizualizare bazată pe etichete (cazul
Figura I-34 Structura bazei de date în modul de vizualizare a datelor
Figura I-35 Bază de date completată cu scoruri în modul de afișare al valorilor
Figura I-36 Mod de vizualizare bazată
pe valori
60
Măsurarea în științele socio-umane
în care butonul apare ca fiind apăsat), acționarea succesivă a acestuia
comutând, în mod repetat, între cele două moduri.
În vizualizarea bazată pe
etichete, variabilele discrete nu mai
sunt prezentate sub formă
numerică, ci direct în varianta
calitativă, conform codării dummy. Chiar dacă dumneavoastră veți tasta numere
în continuare, acestea vor fi prezentate ca etichete asociate. Puteți alege orice
variantă doriți, fiecare are avantaje și dezavantaje, însă modul de vizualizare
bazată pe valori este considerat a fi mai rapid.
După ce ați creat o bază de date, vă recomandăm să o
salvați într-un fișier pe disc. Puteți face acest lucru foarte
simplu, apăsând butonul de forma unei dischete albastre,
situat pe bara de instrumente sau accesând opțiunea „Save”
ori „Save As…” din meniul „File”. Dacă baza de date este nou creată, vi se va
solicita numele fișierului, toate bazele de date IBM SPSS Statistics, indiferent de
versiune, având extensia „sav”. Încărcarea unei baze de date IBM SPSS Statistics
se poate face apăsând butonul sub forma unui dosar galben sau accesând
meniul „File”, submeniul „Open” și opțiunea „Data”. Nu intrăm în detalii,
deoarece operațiunile de salvare și încărcare a fișierelor reprezintă lucruri
cunoscute, sarcinii curente ale utilizatorilor de computere.
În continuare, ați putea petrece un timp cu baza de date nou creată și să
o completați cu date, astfel încât să reușiți să strângeți circa 30-40 de
înregistrări. Nu uitați să salvați, din când în când, deoarece riscați să pierdeți tot
ce ați lucrat în cazul în care vi se blochează computerul sau se întrerupe curentul
electric.
Figura I-37 Bază de date completată cu scoruri în modul de afișare al etichetelor
Figura I-38 Salvarea și încărcarea bazei
de date
61
Cristian Opariuc-Dan
I.5.1.4 Utilizarea sintaxei pentru crearea unei baze de date Procedeele descrise anterior sunt foarte bune atunci când avem de
definit un număr relativ redus de variabile. Există și cercetări în care putem lucra
cu sute sau mii de variabile, mai ales în domeniul psihometriei, la construcția
sau adaptarea instrumentelor de diagnostic psihologic. În cazul în care am lucra
cu un chestionar având 400 sau 500 de itemi, ne-ar lua foarte mult timp pentru
a defini, urmând etapele de mai sus, toate aceste variabile.
Ne putem pune problema dacă nu cumva ar exista o modalitate mai
rapidă, mai eficientă de a face acest lucru, iar răspunsul îl vom găsi doar dacă
apelăm la limbajul de script al IBM SPSS Statistic și învățăm să lucrăm cu fișierele
de sintaxă.
Să considerăm cazul în care am avea de studiat proprietățile unei scale de anxietate formată din 420 de întrebări dihotomice (cu răspuns de tip Da/Nu), urmând, de asemenea, să stocăm vârsta subiecților, genul biologic și nivelul educațional. Pe lângă variabilele „gen”, „varsta” și „niv_edu”, definite deja, vom avea alte 420 de variabile, de la „anx001” la „anx420”. În total, un număr de 423 de variabile pe
care va trebui să le definim pentru a construi o bază de date, iar dacă ne-am apuca să o facem folosind modul „Variable View”, este posibil să dureze cel puțin o zi întreagă.
Ar fi mai simplu și mai rapid dacă am accesa meniul „File”, am alege submeniul „New” și opțiunea „Syntax” pentru a crea un nou fișier de sintaxă, în care să putem scrie comenzi fără a trebui să învățăm programare.
Cea mai mare parte a ferestrei este destinată
introducerii codului SPSS, aplicația beneficiind și de o bară de instrumente cu
Figura I-39 Aplicația IBM SPSS Statistics destinată introducerii de sintaxă
62
Măsurarea în științele socio-umane
ajutorul căreia se pot efectua diferite acțiuni. O parte a sintaxei este nativă SPSS, provenind de la versiunile mai vechi, o altă parte putând reprezenta cod în adevăratul sens al cuvântului, deoarece versiunile noi IBM SPSS Statistics au implementat și limbajul de programare Python, pe care îl puteți accesa doar dacă ați optat și pentru instalarea acestuia atunci când a fost instalat IBM SPSS Statistics.
Pentru ceea ce ne interesează, sintaza nativă SPSS este suficientă, prin urmare nu vom lungi expunerea cu alte limbaje de programare. Vom da click în fereastra de editare a codului și vom încerca să definim prima variabilă, genul biologic.
* DEFINIRE VARIABILA "gen".
În mod sigur v-ați fi așteptat la altceva mai complicat. În realitate nu am scris nicio linie de sintază, doar am introdus un comentariu. În SPSS, comentariile încep cu o steluță (*) și țin până când întâlnim semnul punct (.).
NUMERIC gen (F1.0).
Iată prima comandă reală în SPSS, pe care o scriem pe următoarea linie. În acest moment am definit o variabilă numită „gen” (este numele știut de computer, echivalentul coloanei „Name”), am definit tipul numeric (echivalentul coloanei „Type”) și am precizat numărul de cifre (1) și numărul de zecimale (0), folosind expresia „(F1.0)”, litera „F” provenind de la „Format”. Evident, comanda se încheie cu semnul punct (.).
VARIABLE LABELS gen 'Genul biologic al subiecților'.
A venit momentul să stabilim denumirea, echivalentul coloanei „Label”. Pe a treia linie, vom scrie comanda de mai sus, urmată de numele variabilei căreia dorim să-i atribuim o etichetă (variabila „gen”) și de textul etichetei, între ghilimele simple, sintaxa terminându-se, din nou, cu semnul punct (.). Astfel, am stabilit și denumirea variabilei în limbaj inteligibil pentru om.
VALUE LABELS gen 1 'Masculin' 2 'Feminin'.
Desigur, urmează codarea dummy, echivalentul coloanei „Values”. Lucrurile par a fi chiar mai simple în comparație cu metoda descrisă anterior. Observăm că trebuie să scriem comanda, urmată de numele variabilei pe care o vom coda, apoi categoriile, una după alta, întâi valoarea, apoi eticheta între ghilimele simple. Nu uităm să scriem această comandă pe o linie nouă și să o încheiem cu semnul punct (.).
VARIABLE LEVEL gen (NOMINAL).
63
Cristian Opariuc-Dan
Ultimul lucru pe care îl mai avem de făcut este să stabilim nivelul de măsură. Astfel, vom scrie pe o linie nouă comanda specificată mai sus, urmată de numele variabilei și de precizarea, între paranteze, a nivelului de măsură, în cazul de față fiind vorba despre nivelul nominal. Nu uităm să închidem comanda folosind semnul punct (.).
Dacă au fost respectate toate cele expuse mai sus, în fișierul dumneavoastră de sintaxă va trebui să aveți următoarele comenzi pentru a defini variabila „gen”:
Figura I-40 Comenzi necesare definirii variabilei „gen”
Definirea variabilei „varsta” este chiar mai simplă, aceasta fiind o variabilă continuă, fără codare, și nu ar trebui să vă pună niciun fel de probleme.
* DEFINIRE VARIABILA "varsta". NUMERIC varsta (F3.0).
VARIABLE LABELS varsta 'Vârsta subiecților în ani împliniți'. VARIABLE LEVEL varsta (SCALE).
În cazul variabilei „niv_edu”, să urmărim o situație interesantă și care ne va clarifica rolul semnului punct (.):
Codarea dummy, în cazul acestei variabile, implică destul de multe
categorii. Dacă le-am pune pe o singură linie, am risca să pierdem șirul și să ne încurcăm. Iată că, sintaxa SPSS permite scrierea unei comenzi pe mai multe linii, programul considerând o comandă încheiată atunci când întâlnește punctul.
64
Măsurarea în științele socio-umane
Până în acest moment lucrurile sunt destul de clare și suficient de simple. Urmează partea cea mai mare consumatoare de timp, aceea în care va trebui să creăm cele 420 de variabile dihotomice, corespunzătoare celor 420 de itemi ai scalei de anxietate.
* DEFINIRE ITEMI SCALA DE ANXIETATE. NUMERIC anx001 TO anx420 (F1.0).
VARIABLE LEVEL anx001 TO anx420 (SCALE).
Doar atât? Exact! Sunt suficiente două linii pentru a crea 420 de variabile, linii pe care le putem scrie în 20 de secunde, dar care ne pot salva cel puțin o zi de muncă. Și ca să sintetizăm, întregul cod necesar pentru a crea baza de date este scris astfel:
* DEFINIRE VARIABILA "gen". NUMERIC gen (F1.0).
VARIABLE LABELS gen 'Genul biologic al subiecților'. VALUE LABELS gen 1 'Masculin' 2 'Feminin'.
VARIABLE LEVEL gen (NOMINAL).
* DEFINIRE VARIABILA "varsta". NUMERIC varsta (F3.0).
VARIABLE LABELS varsta 'Vârsta subiecților în ani împliniți'. VARIABLE LEVEL varsta (SCALE).
* DEFINIRE VARIABILA „niv_edu”.
NUMERIC niv_edu (F1.0). VARIABLE LABELS niv_edu 'Nivelul educațional'.
VALUE LABELS niv_edu 1 'Fără studii' 2 'Primare (1-4)' 3 'Gimnaziu (5-8)' 4 'Liceu (9-12)' 5 'Bacalaureat' 6
'Universitate (Licență)' 7 'Universitate (Master)' 8 'Doctorat' 9 'Postdoctorale'.
VARIABLE LEVEL niv_edu (ORDINAL).
* DEFINIRE ITEMI SCALA DE ANXIETATE. NUMERIC anx001 TO anx420 (F1.0).
VARIABLE LEVEL anx001 TO anx420 (SCALE).
Acest cod poate fi salvat într-un fișier (având extensia „sps”) și poate fi executat în totalitate alegând, din meniul „Run”, comanda „All”. Această acțiune ar trebui să funcționeze cel puțin teoretic, doar că generează erori la încercarea de creare a unei baze de date noi. Din acest motiv, înainte de a rula codul, vom crea o variabilă oarecare în baza de date, folosind modul tradițional, „Variable View”, chiar dacă ulterior o vom șterge:
Figura I-41 Prezența unei variabile oarecare înainte de rularea sintaxei
65
Cristian Opariuc-Dan
Acum putem rula liniști sintaxa, accesând comanda de mai sus, și în doar câteva fracțiuni de secundă toate cele 423 de variabile ale bazei de date vor fi create.
Figura I-42 Bază de date cu 423 de variabile creată prin sintaxă SPSS
Mai rămâne un singur lucru de făcut: să dăm click pe primul rând al tabelului meta-datelor pentru a selecta variabila creată manual (în cazul de față variabila numită „de_sters”, apoi să apăsăm tasta „Delete” pentru a o șterge. Iată că am reușit cu un efort minim, de doar câteva minute, că creăm o bază de date cu foarte multe variabile, apelând la puterea ascunsă în sintaxa programului IBM SPSS Statistics.
Sintagma „nu contează cât muncești, ci cum muncești” își arată
veridicitatea și în acest caz. Am fi putut petrece ore sau zile definind variabilele
bazei de date, sau am fi apelat la sintază, întregul proces durând doar câteva
minute. Din acest motiv, pare a fi o idee bună să includem, acolo unde va fi cazul,
și sintaza SPSS, dumneavoastră alegând stilul de lucru care vă convine cel mai
mult.
I.5.2 Definirea variabilelor și introducerea datelor în R cu Deducer După lansarea mediului R, va trebui să introducem secvența de comenzi
pe care o cunoașteți deja pentru a porni Jaguar. Desigur, există și o modalitate
prin care putem iniția automat Jaguar, atunci când lansăm R, însă pe aceasta o
vom discuta într-un alt curs.
library(JGR) JGR()
66
Măsurarea în științele socio-umane
Dacă ați ales să pornească automat cele două pachete Deducer, așa cum
am prezentat în capitolul I.4.2, interfața Jaguar va lansa ecranul de pornire:
Figura I-43 Ecranul de pornire al interfeței Jaguar cu Deducer
Am putea începe prin a apăsa butonul
„New Data”, pentru a crea o nouă bază de
date R, tehnic numită set de date („Data Set”).
În prima etapă nu avem prea multe de făcut,
decât să dăm un nume bazei de date, optând,
de exemplu, pentru denumirea „Laborator01”, apoi vom confirma acest lucru
apăsând butonul „OK”.
Jaguar va lansa fereastra
de vizualizare a setului de date,
în care putem remarca cele două
butoane de comutare a modului
de vizualizare, „Data View” și
„Variable View”. Se pare că
Markus Helbig, creatorul acestei
interfeței, nu este străin de IBM SPSS Statistics.
Figura I-44 Denumirea setului de date în Jaguar
Figura I-45 Modul de definire a variabilelor în Jaguar
67
Cristian Opariuc-Dan
Mediul R este gândit mai mult ca un mediu de programare, adresabil
profesioniștilor, fiind axat pe putere și flexibilitate și nu pe interfețe frumoase și
prietenoase. Având în vedere faptul că este mult mai puternic decât IBM SPSS
Statistic la analiza datelor și, ceea ce este cel mai important, este absolut gratuit,
merită efortul de a-l învăța. În cazul în care doriți să creați un set de date fără a
mai face click pe butoane, puteți lansa comanda:
Laborator01 <- data.frame()
În partea din stânga a formulei ați
introdus numele setului de date,
respectând convențiile de notare
specificate în capitolul I.5, iar în partea
dreaptă am specificat tipul obiectului ce va fi creat sub acel nume. În limbaj
uman, e ca și cum am spune mediului R „creează-mi un obiect nou de tip set de
date (data.frame) și denumește-l (stochează-l în) Laborator01”, săgeata la
stânga și semnul minus (<-) făcând legătură dintre cele două părți, arătând,
practic, sensul.
Proiectarea variabilelor este mult mai simplă comparativ cu procedura
descrisă anterior. În coloana „Variable” va trebui să introducem numele
variabilei, acel nume inteligibil pentru computer. Nu avem posibilitatea de a
stabili o etichetă, un rol sau un nivel de măsură, așa cum am procedat în cazul
aplicației anterioare.
Coloana „Type” permite selectarea tipului variabilei. Atunci când nu
avem zecimale, putem alege tipul „Integer”, iar dacă variabila are zecimale, vom
alege tipul „Double”. În cazul unei variabile dihotomice, cu valori 0 și 1, am putea
alege tipul „Logical”, iar datele calendaristice și timpul sunt reprezentate de
variabile de tip „Date”, respectiv „Time”. Desigur, dacă dorim să introducem un
Figura I-46 Crearea unui set de date în linia de comandă
68
Măsurarea în științele socio-umane
text, putem alege tipul „Character”, variabilele discrete (nominale sau ordinale)
fiind reprezentate de tipul de date „Factor”.
În cazul variabilei „varsta”, lucrurile sunt foarte simple. Tot ceea ce avem
de făcut este să scriem numele acesteia și să alegem tipul întreg de date. Nu mai
stabilim numărul de cifre și/sau de zecimale, așa cum am fi procedat în IBM SPSS
Statistics. Pentru început, vom defini toate cele patru variabile și vom stabili
tipul de date al variabilelor „varsta” și „iq” la numere întregi („Integer”), iar tipul
de date al variabilelor „gen” și „niv_edu” la factori („Factor”).
Figura I-47 Definirea numelui variabilelor și a tipului de date folosind Jaguar
Spre deosebire de IBM SPSS Statistics, în R toate variabilele
discrete se vor declara ca factori. În cazul în care avem de a face
cu o variabilă ordinală, aceasta se va numi factor ordonat. În
situația noastră, variabila „gen” este un factor, iar variabila „niv_edu” este un
factor ordonat. Singura problemă pe care va
trebui să o rezolvăm este aceea a realizării
codărilor dummy. Folosind o variabila definită ca
factor, spre exemplu „niv_edu”, vom efectua
click în celula din coloana „Factor Levels” a
acelei variabile pentru a deschide formularul de
codare. Fiind o variabilă ordinală, în primul rând
va trebui să specificăm acest lucru prin bifarea
casetei „Ordered”. Apoi, vom putea folosi
butonul plus (+) de culoare verde pentru a Figura I-48 Codarea dummy
folosind Jaguar
69
Cristian Opariuc-Dan
introduce, pe rând, toate asocierile, așa cum au fost ele precizate în tabelul
meta-datelor.
Adăugarea unui categorii se realizează
foarte simplu, prin scrierea etichetei calitative
și apăsarea butonului „OK”. În cazul nostru,
prima categorie este „Fără studii”. Am scris
acest text în caseta „Please enter the new
factor level” și apoi apăsăm „OK” fără a face vreo altă specificare. Nu este bine
să introduceți diacritice sau alte caractere speciale. Vom prefera, în mediul R, să
folosim alfabetul latin standard, deoarece prin utilizarea de caractere speciale
riscăm să apară erori destul de greu de identificat și tratat.
După apăsarea butonului „OK”,
formularul de introducere a noii categorii se
închide, aceasta fiind adăugată în lista „Levels”.
Apăsând din nou butonul plus (+), vom putea
adăuga cea de-a doua categorie, în cazul nostru
vorbind despre cei cu studii primare. În
momentul în care am adăugat această etichetă,
observăm că Jaguar a trecut-o pe primul loc.
Fiind o variabilă ordinală, acest lucru ne poate
pune probleme. Putem selecta categoria, făcând
click pe numele ei în lista „Levels”, apoi o putem muta în sus sau în jos, folosind
butoanele de tip săgeată albastră. În fine, o putem elimina, apăsând butonul
minus (-) de culoare roșie.
Deoarece avem destul de multe categorii, vom proceda în alt fel.
Selectăm cele două categorii incluse până acum și le eliminăm, folosind butonul
Figura I-49 Adăugarea unei categorii în codarea dummy
Figura I-50 Lista categoriilor unei variabile discrete
70
Măsurarea în științele socio-umane
minus (-) de culoare roșie, apoi apăsăm butonul plus (+) de culoare verde și
introducem ultima categorie („Postdoctorale”). Continuăm la fel, descrescător,
până la prima categorie („Fără studii”).
Mai mult ca sigur, problema descrisă
anterior este o eroare de programare, însă acum
aveți și metoda prin care o puteți evita.
Introducând descrescător categoriile unei
variabile ordinale, veți renunța să faceți, mai
apoi, alte modificări. Iată, din nou, utilitatea unei
bune proiectări a bazei de date. Fără să avem în
față tabelul meta-datelor, ne-ar fi fost mult mai
greu să realizăm aceste operațiuni, mai ales că
lucrăm descrescător cu un număr destul de mare de categorii. Pentru a memora
toate aceste modificări, vom apăsa butonul „OK” și putem observa, în tabelul
meta-datelor, cum s-a operat codarea dummy.
Figura I-52 Codarea dummy operată în tabelul meta-datelor.
În mod similar vom proceda și pentru a coda variabila „gen”, având grijă
să nu mai bifăm caseta „Ordered”, deoarece variabila este una categorială, astfel
încât nu mai contează nici ordinea în care introducem datele.
Tabelul meta-datelor este acum complet (vezi Figura I-53), rămâne doar
să apăsați butonul de forma unei dischete negre de pe bara de instrumente sau
să alegeți opțiunea „Save Data”, din meniul „File”, pentru a-l salva într-un fișier.
Figura I-51 Codarea categoriilor în cazul unei variabile ordinale
71
Cristian Opariuc-Dan
Figura I-53 Tabelul complet al meta-datelor implementat în Jaguar
Seturile de date în R au extensia „rda” sau „rdata”, astfel încât va trebui
să alegeți opțiunea corectă („R (*.rda, *.rdata)”) atunci când selectați tipul
fișierului ce va fi salvat.
I.5.2.1 Realizarea variabilelor în Jaguar
Figura I-54 Baza de date completă în R
Modul de introducere a datelor în baza de date nou proiectată nu diferă
față de cele specificate în capitolul anterior. Putem folosi tasta „Tab” sau
săgețile pentru a naviga prin celule și a introduce date, asta după ce, în prealabil,
am comutat în modul „Data View”. Ne putem da seama dacă o variabilă este
continuă sau discretă după modul în care se aliniază datele în celule. În cazul
variabilelor „varsta” și „iq”, numerele se aliniază la dreapta, în timp ce pentru
variabilele „gen” și „niv_edu”, acestea au o aliniere la stânga, specifică literelor.
72
Măsurarea în științele socio-umane
I.5.2.2 Crearea unei baze de date în R folosind limbajul de programare Am văzut deja beneficiile însușii unei sintaxe și am demonstrat
convingător că, fără să ne speriem prea tare de comenzi, folosind sintaxa, ne
putem face treaba mult mai repede, mai eficient și, mai ales, în condiții ideale
de control. Dacă am căzut de acord asupra acestui lucru, de ce să nu facem un
pas mai departe, în direcția însușirii unui limbaj.
Vom relua situația în care dorim construcția bazei de date cu 423 de variabile, solicitată în procesul de adaptare a scalei de anxietate. De data aceasta nu mai avem la dispoziție IBM SPSS Statistics și va trebui să ne mulțumim cu R. Din păcate, orice interfață vizuală am utiliza, rezultatul ar fi același – enorm de mult timp consumat. Pentru eficiență, va trebui să apelăm la limbajul R. Într-adevăr, R nu mai este un
limbaj de scripturi, o „sintaxă” în sensul celei pe care o are IBM SPSS Statistics, ci un adevărat limbaj de programare, specializat în analiza de date.
Primul pas ar fi să creăm un set de date, partea bună fiind aceea că deja știți cum se face. Nu avem nevoie de Jaguar pentru asta, din acest motiv este recomandat să închideți complet R, apoi să-l reporniți doar în fereastra sa de comenzi (vezi Figura I-9), în care vom tasta o comandă deja știută:
Laborator01<- data.frame(t(rep(NA, 423)))
De această dată, nu mai dorim să creăm un set gol, ci un set cu un număr de 423 de variabile. Am comunicat mediului R să construiască un tabel, adică să adauge coloane, nu rânduri (folosind funcția „t”), repetând un număr de 423 de variabile neconfigurate (folosind funcția „rep”) și fără a se inițializa cu date, adică fără nicio înregistrare (specificând „NA”). Este chiar mai simplu decât în sintaxa SPSS, dar după apăsarea tastei Enter, pentru a executa comanda, mediul R pare să nu reacționeze, să nu facă nimic. În realitate, setul de date numit „Laborator01” a fost deja creat, iar dacă vreți să vă convingeți, tastați numele său:
Laborator01
73
Cristian Opariuc-Dan
Într-adevăr, s-au creat 423 de variabile, notate de la „X1” la „X423”, variabile pe care va trebui acum să le configurăm în conformitate cu specificațiile tabelului meta-datelor. Pentru început, va trebui să stabilim numele acestora, deoarece ne va fi extrem de incomod să lucrăm cu denumirile date de R. Primele trei variabile sunt „varsta”, „gen” și, „niv_edu”, celelalte fiind denumite de la „anx_1” la „anx_420”, preferând utilizarea liniei de subliniere pentru a spori lizibilitatea. Deși pare o sarcină dificilă, am putea să o facem cu doar două instrucțiuni:
colnames(Laborator01)[1:3]<-c('varsta', 'gen', 'niv_edu') colnames(Laborator01)[4:423]<-paste('anx', 1:420, sep='_')
În prima instrucțiune am comunicat mediului R să redenumească primele trei variabile ale setului de date „Laborator01”, folosind etichetele furnizate între parantezele funcției „c” (se referă la un vector de caractere). După apăsarea tastei Enter și executarea instrucțiunii, putem tasta, din nou, numele setului de date, pentru a vedea ce s-a întâmplat:
Observăm că primele trei variabile au fost redenumite, în timp ce toate
celelalte au rămas neschimbate. A doua instrucțiune este ceva mai complexă. Am comunicat mediului R să redenumească toate variabile, de la a patra la a 423-a, construind, prin lipire (funcția „paste”), numele variabilei format din cuvântul „anx”, și un număr succesiv, între 1 și 420, între cuvânt și număr existând separatorul liniuță de subliniere, definit cu ajutorul parametrului „sep”. După ce executăm instrucțiunea și tastăm numele setului de date, observăm că toate variabilele au fost redenumite în conformitate cu specificațiile noastre:
În momentul în care le-a creat automat, mediul R le-a stabilit ca fiind de
tipul logic (0 sau 1). Suntem interesați să le redefinim pe toate de tipul întreg, două dintre ele urmând să fie făcute factori („gen” și „niv_edu”). Acest proces de redefinire se face cu ajutorul unei singure instrucțiuni:
Laborator01[,1:423]<-as.integer(Laborator01[,1:423])
Modalitatea în care referim o celulă într-un set de date R se face prin specificarea, între paranteze pătrate, a rândurilor și coloanelor. De exemplu, dacă scriem „Laborator01[5,4]”, înseamnă că ne referim la scorul obținut de către persoana de pe al cincilea rând, la variabila situată în cea de-a patra
74
Măsurarea în științele socio-umane
coloană. Similar, în instrucțiunea de mai sus, am comunicat programului R să schimbe tipul de date stocat în coloanele de la 1 la 423, din tipul de date existent (logic), în tipul de date numeric. Faptul că în fața virgulei nu se află nicio altă valoare ne spune că nu ne referim la vreun rând, doar la coloane.
Știm că două dintre variabile vor trebui definite ca factori, fiind supuse, după cum probabil v-ați dat seama, operațiunii de codare dummy. Pentru a putea să accepte această operațiune de codare, cele două variabile vor fi transformate din numere întregi, în factori:
Laborator01$gen<-as.factor(Laborator01$gen) Laborator01$niv_edu<-as.factor(Laborator01$niv_edu)
Referirea unei variabile dintr-un set de date se face precizând setul de date, apoi numele variabilei, precedat de semnul dolar ($). Atunci când scriem „Laborator01$gen”, am comunicat mediului R că avem în vedere variabila „gen” din setul de date „Laborator01”. Codul de mai sus spune mediului R să preia o variabilă existentă, să o transforme în variabilă discretă (factor) și să o memoreze sub același nume. Am pregătit cele două variabile, însă nu am definit categoriile, nu am efectuat codarea dummy. În cazul variabilei „gen”, am putea scrie:
Laborator01$gen<-factor(Laborator01$gen, levels=c("Masculin", "Feminin"), ordered=FALSE)
Chiar dacă este o comandă ceva mai lungă, asta nu înseamnă că poate fi considerată și complicată. Practic, am spus mediului R să preia variabila existentă „gen”, să includă categoriile „Masculin” și „Feminin”, fără a crea o relație de ordine între ele, apoi să memoreze rezultatul în variabila cu același nume, adică tot în variabila „gen”.
Indiferent că variabila este nominală sau ordinală, ordinea în care vom introduce etichetele va da ordinea de atribuire automată a valorilor. În cazul prezentat, valoarea pentru masculin va fi 1, iar cea pentru feminin va fi doi. Dacă doriți ca femininul să fie codat cu 1 și masculinul cu 2, atunci va trebui să inversați ordinea celor două etichete dintre parantezele comenzii „levels”. În R, faptul că am scris „c(…)”, arată că întregul conținut cuprins între cele două paranteze va fi tratat ca șir de caractere, ca text.
Sarcina dumneavoastră va fi să implementați codarea dummy în cazul ultimei variabile, „niv_edu”. Veți avea nouă categorii și va trebui să fiți atenți la ordinea în care le scrieți, deoarece, de această dată, avem de a face cu o variabilă ordinală. Nu trebuie să uităm, în final, să înlocuim „ordered=FALSE” cu „ordered=TRUE”, pentru a comunica mediului R că are de a face cu un factor ordonat.
75
Cristian Opariuc-Dan
Nu ar exista motive să nu reușiți. În acest moment, ar trebui să aveți bine definite cele patru variabile și setul de date. Pentru a vedea ce obiecte există, la un moment dat, în spațiul de memorie al mediului R, puteți folosi o nouă comandă:
ls()
Într-adevăr, obiectele create există, dar a apărut și ceva în plus, un nou
obiect cu care ne-am jucat și am uitat de el, este vorba despre „sterge_ma”. Dacă ne ordonă mediul R să o facem, atunci ar trebui să ne conformăm. Vom folosi, pentru a elimina obiecte, comanda:
rm(sterge_ma)
Între paranteze vom scrie numele obiectului pe care dorim să-l ștergem, după care executăm comanda prin apăsarea tastei Enter. Pentru a verifica, folosiți, din nou, comanda ls(). Veți putea reține mai ușor aceste comenzi dacă veți ști că „ls” provine de la „list structure” iar „rm” de la „remove”; deja pare să aibă alt sens.
Am cam terminat de configurat baza de date. Pentru a rezuma, vom prezenta întregul cod, scris în R, pentru a crea o bază de date cu 423 de variabile, dintre care doi factori codați dummy:
• Laborator01<- data.frame(t(rep(NA, 423))) • colnames(Laborator01)[1:3]<-c('varsta', 'gen', 'niv_edu') • colnames(Laborator01)[4:423]<-paste('anx', 1:420, sep='_') • Laborator01[,1:423]<-as.integer(Laborator01[,1:423]) • Laborator01$gen<-as.factor(Laborator01$gen) • Laborator01$niv_edu<-as.factor(Laborator01$niv_edu) • Laborator01$gen<-factor(Laborator01$gen, levels=c("Masculin",
"Feminin"), ordered=FALSE) • Laborator01$ niv_edu <-factor(Laborator01$ niv_edu, levels=
c("Fara studii", "Primare (1-4)", "Gimnaziu (5-8)", "Liceu (9-12)", "Bacalaureat", "Universitare (Licenta)", "Universitare (Master)", "Doctorat", "Postdoctorale"), ordered=TRUE)
Pare simplu, pare complicat, dumneavoastră veți decide. În orice caz, atunci când avem de a face cu foarte multe variabile, utilizarea interfeței grafice este cea mai proastă alegere, deoarece vă consumă enorm de mult timp. Prin sintaxă sau prin cod, puteți rezolva problema eficient. De fapt, poate ați fi surprins să aflați că linia de comandă reprezintă, de multe ori, metoda preferată
76
Măsurarea în științele socio-umane
a profesioniștilor în analiza de date, mai ales atunci când au de rezolvat sarcini complexe.
Ultimul lucru rămas este să salvăm baza de date într-un fișier pe disc. Nu cred că ați fi surprinși dacă ați afla că și această operațiune se realizează tot prin intermediul unei singure linii:
save(Laborator01, file='D:/Set date R.Rda')
Mediul R a salvat baza de date în fișierul numit „Set de date R”, stocat pe discul D. Pentru a vedea cum arată tabelul meta-datelor pe care tocmai l-am creat, vom lansa interfața grafică Jaguar și vom încărca fișierul salvat.
Figura I-55 Tabelul meta-datelor pentru baza de date creată în cod R
Chiar dacă unii consideră că programul R este neprietenos, greu de
folosit, ați putut constata și singuri că lucrurile nu stau chiar așa. Cu toate că nu
are ușurința în utilizare pe care ne-o oferă IBM SPSS Statistics și se apropie mai
mult de un limbaj de programare (ceea ce și este de fapt), R merită învățat
datorită puterii pe care o are și a faptului că este disponibil gratuit.
I.6 Concluzii, exerciții și probleme Nu am putea să încheiem acest capitol fără o
sinteză a ceea ce am aflat, asta pentru a vă ajuta să vă
reamintiți cele parcurse și, de asemenea, fără a vă
propune o serie de exerciții, probleme și teme de
meditație.
77
Cristian Opariuc-Dan
• Am văzut că termenii de statistică și analiză de date sunt sinonimi până la un punct, după care semnificația lor este puțin diferită, iar în domeniul științelor socio-umane studiem mai curând analiză de date decât statistică.
• IBM SPSS Statistics, R, STATA, SAS, Statistica și alte programe de acest tip sunt instrumente, nu reprezintă nici statistica, nici analiza de date. Utilizarea acestor instrumente este condiționată de însușirea principiilor analizei de date, altminteri se poate ajunge la situații delicate sub aspectul corectitudinii demersului cercetării științifice.
• Obiectele și fenomenele pot fi cunoscute prin menționarea caracteristicilor acestora, fiind particularizate în momentul în care aceste caracteristici dobândesc valori, acordate în baza unor reguli.
• În domeniul socio-uman, obiectele și fenomenele nu pot fi cunoscute în mod direct, ci prin intermediul unor comportamente manifeste asociate acestora. Trecerea de la o dimensiune generală, la indicatori ai dimensiunii și apoi la comportamente directe, observabile, poartă numele de operaționalizare a constructului
• Pentru a vorbi despre o măsurare, trebuie ca acel construct să poată fi cuantificat, să se specifice caracteristice ce urmează a fi măsurate (indicatorii) și să se găsească o regulă pe baza căreia să se poată atribui un număr caracteristicii măsurate.
• În științele socio-umane nu putem măsura în mod direct, nu putem afla cantitatea de construct, din acest motiv astfel de caracteristici numindu-se factori latenți;
• În analiza de date, caracteristica măsurată poartă numele de variabilă, definită printr-o mulțime de valori teoretică și o mulțime de valori empirică, variabilele putând fi calitative sau cantitative, discrete, atunci când mulțimea de valori este finită, numărabilă și continui, atunci când mulțimea de valori este infinită, nenumărabilă.
• Variabilele discrete se mai numesc și neparametrice sau calitative și pot fi nominale (categoriale) atunci când nu se poate pune o relație de ordine între categoriile lor și ordinale (ierarhice) atunci când categoriile finite pot fi ordonate.
• Variabilele continui se mai numesc și parametrice sau cantitative și pot fi de interval, atunci când intervalele dintre două categorii sunt egale dar nu există un zero absolut și de raport când există un zero absolut.
• IBM SPSS Statistics este o aplicație de analiză de date puternică și prietenoasă, cu o interfață grafică ușor de folosit, dar comercială și, prin urmare, costisitoare, în timp ce R este un mediu foarte puternic de programare și de analiză de date, mai puțin prietenos, chiar dacă acceptă mai multe interfețe grafice, însă gratuit.
• Analiza datelor nu începe cu definirea variabilelor într-un program, ci cu proiectarea bazei de date și specificarea tabelului meta-datelor.
78
Măsurarea în științele socio-umane
• Proiectarea corectă a unei baze de date se face în conformitate cu anumite reguli: (a) denumirea variabilelor și distincția între nume și etichetă; (b) numărul maxim de caractere în numele variabilei; (c) rânduri și coloane unice; (d) codarea pentru obținerea maximului de informație; (e) exhaustivitatea categoriilor; (f) codarea numerică a categoriilor (g) exclusivitatea mutuală a codurilor; (h) absența cazurilor lipsă; (i) codarea în sensul scalei.
• Definirea variabilelor, indiferent că vorbim despre IBM SPSS Statistics sau R, reprezintă implementarea tabelului meta-datelor în aplicația computerizată și se poate realiza fie prin intermediul interfeței grafice, fie folosind codul.
• În IBM SPSS Statistics nu avem un limbaj de programare, ci doar unul de script, spre deosebire de R, unde vorbim despre un adevărat limbaj de programare.
• Indiferent de aplicație, implementarea unei baze de date se face mai rapid și mai ușor folosit codul, mai ales atunci când aceasta conține un număr mare de variabile.
I.6.1 Exerciții și probleme
79