Capitolul I - Masurarea in stiintele socio-umane.pdf

Cristian Opariuc-Dan

Măsurarea în științele socio-umane

CONCEPTE ȘI TEME NOI

• Ce legătură există între statistică, analiză de date, IBM SPSS Statistics și R; • Ce înțeles are conceptul „a măsura” și care este specificul acestuia în domeniul socio-uman; • Ce sunt variabilele și cum le putem clasifica; • La ce niveluri putem măsura și care este precizia fiecărui nivel de măsură; • Ce înseamnă IBM SPSS Statistics, cum îl putem obține și cum începem să lucrăm cu acest program; • Cum se definesc variabilele și cum se proiectează corect o

bază de date în IBM SPSS Statistics; • Ce este R, cum se obține și cum începem să lucrăm cu el; • Cum se definesc variabilele și cum se proiectează corect o bază de date în R;

CE CONȚINE ACEST CAPITOL?

Capitolul urmărește o introducere în analiza de

date și cuprinde trei părți. Prima parte este una

teoretică, în care vom încerca să clarificăm o serie de

concepte fundamentale înțelegerii principiilor analizei

de date. A doua parte vizează prezentarea unor

principii de proiectare a bazelor de date, apoi o scurtă

introducere în IBM SPSS Statistics în care se relevă câteva noțiuni de proiectare

corectă a unor variabile și de construire a unei baze de date. În cea de-a treia

parte vă vom iniția în R și vom vedea cum putem construi o bază de date folosind

acest program. Tehnicianul Sandu va face un efort și va demonstra cum se pot

crea baze de date cu foarte multe variabile în doar câteva minute. Capitolul se

încheie cu o recapitulare, urmată de o serie de întrebări de verificare și teme de

reflecție.

4


Noțiuni teoretice Analiza de date se bazează, evident, pe date. Ce sunt însă datele, cum se

clasifică ele, ce putem face cu ele și cum le utilizăm în mod corect, toate acestea

sunt probleme pe care vom încerca să le lămurim pe parcursul întregii lucrări.

Într-o primă instanță, vom studia ce sunt datele, de unde le putem culege, cum

se împart, cum se pot organiza și, în definitiv, care este disciplina științifică ce se

ocupă de asemenea lucruri. Nu în ultimul rând, vom vedea ce înseamnă, de fapt,

a măsura. Este posibil ca acest cuvânt să semnifice și altceva față de ceea ce

știați.

I.1 Statistică, analiză de date sau SPSS? Majoritatea programelor de studiu ale facultăților socio-umane includ,

ca disciplină, statistica, fie că vorbim despre cea psihologică, sociologică,

economică și așa mai departe. Este și nu este corect, iar pentru a vedea exact

de ce, vom porni de la definiția dată de dicționare.

Conform DEX, termenul are mai multe înțelesuri, putând însemna: (1) Evidență numerică, situație cifrică referitoare la diverse fenomene (izolate sau generale), numărătoare; (2) Culegere, prelucrare și valorificare a unor date legate de fenomene generale; (3) Știință care culege, sintetizează, descrie și interpretează date referitoare la fenomene generale; (4) Ramură a matematicii care elaborează

noțiunile și metodele folosite în statistică; (5) Știință care, folosind calculul probabilităților, studiază fenomenele de masă din punct de vedere cantitativ (Academia Română, 2012).

Ultimele două accepțiuni (4 și 5) sunt cele mai apropiate de sensul real

al statisticii, ca disciplină matematică axată pe studiul probabilităților. Din acest

punct de vedere, statistica este o „perlă” a matematicii, sintetizând mai multe

domenii, cum ar fi: probabilități, calcul matriceal, combinatorică, analiză

matematică, inclusiv calcul diferențial și integral. Dacă am studia o asemenea

5


știință în cadrul unei facultăți de psihologie, sociologie, științe economice sau

științe ale administrației, în mod aproape sigur ar reprezenta un „cui” atât de

mare pentru studenți, încât ar limita drastic numărul absolvenților. De fapt, nici

facultățile de matematică nu studiază statistica decât în cadrul unor programe

masterale, unii preferând studiul avansat al statisticii în cadrul programelor de

doctorat.

În științele socio-umane avem în vedere mai curând înțelesurile 2 și 3 ale

definiției, chiar dacă putem observa redundanța acestora. Așadar, am putea

spune că statistica este, în această accepție, o modalitate de „culegere,

prelucrare și valorificare a unor date legate de fenomene generale”, sens care

ne apropie mai mult de cel al termenului de analiză de date.

În fine, primul sens al statisticii este cel comun, de evidență numerică.

Atunci când jurnalele de știri spun că „statisticile demonstrează o reducere a

natalității”, avem în vedere, iată, sensul comun, popular al termenului. Dacă ne

referim la modalitățile de prelucrarea statistică a datelor în vederea realizării

unui raport de cercetare, avem în vedere sensul analizei de date, iar dacă vorbim

despre demonstrarea teoremei limitei centrale sau a asumpției normalității

reziduurilor, ne referim la adevăratul sens al statisticii, acela de statistică

matematică.

Așadar, în sens comun, statistica înseamnă o numărătoare, o evidență numerică, situație cifrică referitoare la diverse fenomene. În sensul analizei de date, statistica are în vedere culegerea, sintetizarea, descrierea și interpretarea datelor referitoare la fenomene iar în sensul său propriu, de știință, statistica este o ramură a matematicii, care folosind calculul probabilităților, studiază fenomenele de masă

din punct de vedere cantitativ.

6


Pornind de la cele trei definiții, putem observa cu ușurință faptul că în

domeniul socio-uman nu studiem, în niciun caz, statistică, ci analiză de date,

văzută ca „instrument, parte a metodologiei cercetării științifice, care permite

utilizarea principiilor și a legilor statisticii în sintetizarea, descrierea și

interpretarea datelor colectate din cercetări”.

Pentru a ne lămuri că avem dreptate, să discutăm două dintre definițiile analizei, așa cum le prezintă dicționarul: (1) metodă științifică de cercetare care se bazează pe studiul sistematic al fiecărui element în parte; examinare amănunțită a unei probleme și (2) ramură a matematicii care studiază funcțiile, limitele, derivatele și aplicațiile lor. Există, desigur, mai multe sensuri (de exemplu analiza

substanțelor chimice), dar care nu prezintă interes pentru domeniul nostru.

Dacă excludem înțelesul analizei ca analiză matematică, prima definiție

sprijină întrutotul ce-a de-a doua definiție a statisticii. Iată și motivele pentru

care preferăm să spunem că în științele socio-umane nu studiem statistică

(încetățenită ca disciplină matematică), ci analiză de date (aplicații ale

principiilor statistice în activitatea de cercetare). Prin analogie, atunci când

faceți școala de șoferi, nu studiați ingineria construcției autovehiculelor (analog

statisticii), nu vă interesează să știți din ce aliaj este făcut arborele cotit. Dacă

sunteți însă un șofer cu pretenții de profesionist, atunci veți fi interesat de

modul cum funcționează ambreiajul sau de faptul că mașina dumneavoastră

funcționează cu benzină (analog analizei de date). Asta ca să nu riscați să

alimentați cu motorină și să vă distrugeți motorul.

Cuvântul „statistică” are o etimologie interesantă, și

merită să prezentăm, pe scurt, evoluția acestui termen. În forma

actuală, a fost folosit de către filosoful german Gottfried

Aschenwall (1719-1772), în lucrarea „Vorbereitung zur

7


Staatswissenschaft”, apărută în 1748, în care apare cuvântul „Statistik”, având

înțelesul de „știință ce vizează studiul datelor referitoare la condiția unui stat

sau a unei comunități” (Harper, 2015). Părintele statisticii nu a fost doar filosof,

ci a avut preocupări și în domeniul istoriei și economiei, fiind de profesie jurist,

predând dreptul în cadrul Universității din Göttingen.

În limba engleză, cuvântul a fost introdus în 1829 de către

un politician scoțian, Sir John Sinclair (1754-1835), având înțelesul

de „date numerice colectate și clasificate”, rafinând și

particularizând sensul dat de profesorul german. Gânditorul

scoțian a avut, și el, formație economică, fiind preocupat de finanțe și

agricultură, dar și de drept.

Pare surprinzător faptul că ceea ce astăzi atribuim aproape exclusiv

matematicii, a avut originea în domenii destul de diferite de matematică: drept,

economie, filozofie. În realitate, „rădăcina” statisticii, în înțelesul modern al

termenului, se regăsește în scrierile economice, în activitatea de optimizare a

taxelor și de monitorizare a producției. Originea termenului este, totuși, mult

mai veche și ar proveni din latinescul „status”, având înțelesul de rang, poziție,

organizare a comunității, ordine publică. Cuvântul latin a fost preluat în italiana

veche, rezultând „statista”, ceea ce înseamnă persoană specializată în treburile

statului, ce ajută statul să gestioneze politica de taxe, costurile războaielor,

evidența populației și alte sarcini de acest tip (Lungu, 2001). Înțelesul este cel

mai apropiat de sensul modern al termenului, afacerile statului din acea

perioadă numindu-se și „statisticum”. Cunoscând aceste elemente, devine

evidentă originea cuvântului și faptul că, în prezent, chiar dacă are o importantă

încărcătură matematică, statistica provine din economie și din administrația

publică.

8


Dacă am lămurit că în domeniul socio-uman nu studiem statistică, în

sensul actual al termenului, ci analiză de date, vom continua cu o altă marotă,

cea a înlocuirii studiului analizei de date cu SPSS. Revenind la analogia cu școala

de șoferi, este ca și cum am spune că învățăm să conducem Dacia Logan. Asta

ar însemna, oare, că dacă ne luăm permisul de conducere, nu știm să conducem

BMW, Mercedes, Lamborghini sau Tico? Bineînțeles că odată ce avem

deprinderile necesare conducerii, le putem transfera, cu un minim efort, pe

orice automobil din acea clasă, ba chiar și din clase diferite. În definitiv, de ce nu

am putea să conducem un microbuz sau chiar un camion?

Ideea centrală nu este să ne concentrăm pe utilizarea unui anumit

produs, ci pe însușirea principiilor, metodelor și tehnicilor de analiză de date.

Din moment ce cunoaștem analiză de date, utilizarea unui produs informatic

este doar o chestiune de preferințe.

I.2 Sensul și semnificația termenului de măsurare Contactul nemijlocit al ființei umane cu lumea înconjurătoare se

realizează prin simțuri. Cu ajutorul acestora percepem obiectele, fenomenele,

persoanele, evenimentele. Observăm în mod direct culoarea biroului la care ne

desfășurăm activitatea, distanța dintre scaunul dumneavoastră și cel al

colegului, faptul că muzica pe care o ascultă vecinul este prea tare sau timpul

rămas până la terminarea programului de lucru. Toate acestea formează un

mediu în care ne aflăm și pe care îl putem caracteriza la un moment dat, mediu

populat, generic, de obiecte.

Să ne imaginăm camera în care învățați sau lucrați. Ce obiecte puteți

remarca? Biroul, scaunul, televizorul, filtrul de cafea, bunica ce tricotează sau

colegul care joacă Solitaire. Toate acestea le vom denumi „obiecte”. Dacă vă veți

gândi la biroul la care vă redactați referatele, dumneavoastră, cititorul, veți avea

9


o imagine extrem de personalizată și care diferă radical de imaginea pe care o

am eu față de același obiect. Așadar, oricât ar părea de ciudat, conceptul de

birou reprezintă o abstracțiune, care vehiculează imagini diferite la diferite

persoane. Eu am o imagine mintală a biroului, dumneavoastră aveți o altă

imagine a biroului, alții au imagini mai mult sau mai puțin diferite când se

gândesc la același obiect. Dacă aș dori să cunosc și să înțeleg biroul

dumneavoastră, v-aș ruga să-l descrieți. Aș afla, de exemplu, că are o lungime

cam de 2 metri, o lățime de un metru și are culoarea albastră. Deja cunosc mai

bine obiectul la care vă referiți. Descriindu-l, practic, ce ați făcut? În primul rând,

ați precizat o serie de caracteristici ale sale: lungimea, lățimea și culoarea. Apoi

ați specificat ce valori au caracteristicile în cazul obiectului dumneavoastră: 2, 1

și albastru. În fine, ați stabilit o regulă în baza căreia ați atribuit valori acestor

caracteristici, specificând unitatea de măsură – metrul.

Totuși, albastru, roșu sau galben, un birou are întotdeauna un obiect fizic

drept corespondent. Nu întotdeauna lucrurile stau așa. Folosind rațiunea și

capacitatea de abstractizare, putem anticipa sau cunoaște elemente care nu au

o corespondență în lumea fizică. Ce-ar fi să descriem gradul de satisfacție pe

care îl avem față de perceperea taxelor locale? Sau anxietatea, ori

comportamentul prosocial? Aceste elemente sunt cât se poate de reale, însă nu

au drept corespondent obiecte fizice. Unii pot înțelege, atunci când vorbesc

despre taxe, fața acră a funcționarului de la birou, alții faptul că a fost plimbat

pe la 20 de ghișee pentru a achita 10 lei, alții au scăpat în 30 de secunde datorită

unui funcționar extrem de competent și eficient care știa ce să facă, în fine,

anumite voci sunt foarte mulțumite pentru că-și achită impozitele prin Internet.

Anxietatea, la rândul ei, poate avea semnificații diferite pentru diferite

10


persoane, asta ca să nu mai vorbim de comportamentul prosocial, patriotism,

integritate sau iubire.

Astfel de „obiecte” sunt prea generale pentru a fi cunoscute în mod

direct; ele vor trebui particularizate în cadrul unui proces specific, numit

operaționalizare. Această lungă introducere a fost făcută pentru a înțelege

faptul că măsurarea reprezintă, de fapt, o abstracțiune și că nu putem cunoaște

obiectele, decât dacă stabilim o serie de caracteristici ale acestora. Rezumând,

am putea spune că, la modul general, obiectele, fenomenele, evenimentele pot

fi măsurate doar dacă precizăm o serie caracteristici (atribute),

prin caracteristică înțelegând o particularitate, o însușire a

obiectului, fenomenului sau evenimentului ce urmează a fi

măsurată. În cazul în care aceste atribute nu sunt specificate, un

obiect nu poate fi cunoscut. Cu cât există mai multe atribute ce definesc un

obiect, cu atât acel obiect este cunoscut mai bine. Dacă am spune că biroul este

lung de 2 metri, cunoașterea obiectului se poate realiza strict pe baza acestui

atribut. În mod cert, este mai lung sau mai scurt comparativ cu alte birouri. Însă

nu vom putea ști dacă este mai greu, mai lat, mai înalt, dacă are culoarea verde

cu roșie sau dacă este pătat de la vin. Pe măsură ce crește numărul atributelor

specificate, cunoașterea obiectelor devine tot mai precisă.

Faptul că am precizat caracteristica, nu este suficient pentru a vorbi

despre o măsurare. Cum am putea, de exemplu, să măsurăm iubirea? Ce

caracteristici definitorii am putea găsi? Suma disponibilă spre a fi cheltuită pe

care o pune la dispoziție iubitul (mai rar iubita) poate fi o caracteristică a iubirii?

Foarte discutabil. Emoția, fiorul, „fluturii” din stomac? Posibil, dar cum îi putem

remarca? Avem aceeași problemă dacă ne propunem să măsurăm patriotismul,

integritatea, moralitatea sau sentimentele superioare.

11


Iată că, pentru a vorbi despre măsurare, acele caracteristici

definite trebuie să fie cuantificabile, măsurabile. În ciuda părerii

unora, există obiecte, fenomene sau evenimente care nu pot fi

măsurate. Se punea, la un moment dat, problema evaluării psihologice a unor

funcționari publici în vederea stabilirii integrității. Au apărut chiar și metodologii

de evaluare, s-au construit chestionare și alte instrumente în acest sens,

psihologii au început să oferteze servicii de evaluare psihologică pentru

integritate, ignorându-se un lucru esențial – acest concept nu este măsurabil.

Dacă am putea măsura integritatea unor persoane, probabil că nu am mai avea

nevoie de o întreagă categorie de procurori, decizia de integru sau corupt fiind

dată imediat de către psiholog. Una este să vorbim despre opinia unor persoane

față de comportamente care țin de integritate, și cu totul altceva să măsurăm

„nivelul” de integritate al unei persoane. Orice am face, persoanele evaluate nu

vor răspunde la întrebări decât în sensul unor oameni integri, indiferent dacă

este sau nu este în joc serviciul lor.

Chiar dacă un atribut poate fi măsurat, acest concept se concretizează în

momentul în care, pentru un anumit obiect, atributul dobândește o anumită

valoare, în termeni de specialitate valoarea pe care o are atributul pentru un

anumit obiect numindu-se și scor. Dacă am spune că atributul „lățime” al unei

mese are scorul 20, am concretizat o operație de măsurare doar dacă am

menționa și ce înseamnă acel scor. Ne referim la centimetri, la inch, la picioare

sau la alte unități de măsură? Pentru a măsura în adevăratul sens

al cuvântului, trebuie să stabilim o regulă sau un set de reguli pe

baza cărora putem atribui valori caracteristicilor măsurate. Iată că,

am măsurat cu adevărat atributul „lățime” al mesei atunci când am spus că are

20 de centimetri, stabilind și regula de atribuire, în cazul nostru o subdiviziune

12


a scalei metrice. Dacă nu precizăm regula, riscăm ca scorul să aibă o anumită

semnificație pentru un chinez, o alta pentru un englez și o cu totul altă

semnificație pentru un american.

În acest moment, am putea prezenta una dintre cele mai cunoscute definiții a măsurării ca „atribuire de numere evenimentelor sau obiectelor în concordanță cu o anumită regulă” (Stevens, 1959). Conform acestei abordări, măsurarea dobândește un sens extrem de larg și extinde semnificația conceptului de număr dincolo de operațiile matematice tradiționale, în funcție de modul de stabilire a regulii.

Se poate observa destul de ușor că măsurarea poate fi considerată o

funcție, prin care unui atribut al unui obiect îi poate fi acordat un număr și numai

unul, la o anumită măsurare. Această funcție se face pe baza unei anumite

reguli, suficient de clară pentru a fi înțeleasă și suficient de simplă pentru a fi

aplicată (Vasilescu, 1992), regulile determinând ceea ce numim niveluri (scale)

de măsură. Problematica măsurării, deși considerată ca fiind baza analizei de

date, nu este studiată de statistică, nici de matematică, ci de o altă știință,

numită metrologie.

I.2.1 Specificul măsurării în științele socio-umane În domeniul științelor fizice, măsurarea este destul de precisă. De obicei,

regula este simplă și clară, instrumentele sunt puternic standardizate, valorile

sunt relativ stabile. Ați putea crede că atunci când măsurăm lățimea unei mese

și spunem că aceasta este de 20 de centimetri, între două măsurători valoarea

se conservă perfect, deoarece ne aflăm în zona măsurătorilor fizice, precise. De

fapt, între două măsurători ar putea exista diferențe determinate de

instrument, de clasa de precizie, de condițiile de mediu, ba chiar și de persoana

care face măsurătoarea. Dacă nea Costică este puțin miop, atunci sunt șanse

mari ca cei 20 de centimetri să fie, de fapt, 20,5 centimetri sau 19,5 centimetri.

13


Dacă în loc să măsoare cu ruleta, măsoară cu metrul de stofă, atunci s-ar putea

ca dimensiunea reală să fie de 19,75 centimetri, chiar dacă nea Costică nu are

probleme cu vederea. În fine, chiar dacă folosește un instrument de măsură

precis, lățimea mesei ar putea fi 20,00545 centimetri, situându-ne, după cum

intuiți, la o clasă de precizie diferită. Dacă tot am vorbit despre metru, ar fi bine

să precizăm că acesta reprezintă, conform definiției metrologice, distanța

parcursă de lumină într-un interval de timp de 1/299.792.458 dintr-o secundă, prin

urmare nivelurile de precizie sunt, practic, infinite.

În științele socio-umane lucrurile nu mai sunt atât de limpezi. Cum am

putea măsura, spre exemplu, inteligența? Nu avem la dispoziție, în acest caz,

nici ruleta și nici măcar o unitate de măsură, nu putem spune că avem 20 de

kilograme sau 20 de centimetri de inteligență. Poate vă gândiți că măsurăm

inteligența în IQ, însă coeficientul de inteligență nu este o unitate de măsură, ci

un raport între vârsta mintală și vârsta cronologică (𝐼𝐼𝐼𝐼 = 𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉

× 100). Cu alte

cuvinte, dacă o persoană de 15 de ani (VC=15) rezolvă probleme pe care le pot

rezolva cei de 23 de ani (VM=23), atunci are un coeficient de inteligență de 2315

×

100 = 153, un geniu. Problema, în acest caz, nu ar fi vârsta cronologică, ci

vârsta mintală. Cum decidem asupra vârstei mintale, cum aflăm această

valoare? Cum selectăm acele probleme pe care le rezolvă persoanele de 23 de

ani și nu le pot rezolva cele de 15 ani? Răspunsul la acest gen de întrebări

depășește specificul analizei de date și ține de o altă disciplină științifică, numită

psihometrie.

Dacă în cazul inteligenței, unde putem propune, în definitiv, o serie de

probleme, lucrurile sunt destul de complicate, cum am putea măsura

anxietatea, depresia sau alte asemenea trăsături, mult mai vagi? Cert este faptul

că, în cazul anxietății de exemplu, oamenii au diferite grade de intensitate a 14


acesteia, putem spune că o persoană este mai anxioasă, o alta mai puțin

anxioasă, chiar și că o persoană este mai anxioasă în comparație cu alta, însă nu

avem de unde ști ce cantitate de anxietate posedă un om. Din acest motiv, vom

aprecia că factorii psihici, dar și alte „obiecte” de acest tip, au un caracter latent,

și îi vom putea denumi factori (caracteristici) latente, în sensul că

există într-o anumită cantitate, doar că această cantitate nu poate

fi observată și măsurată în mod direct. Orice persoană are, la un

moment dat, o anumită „cantitate” de anxietate sau de depresie, un anumit

nivel de trai sau o anumită încredere în clasa politică. Toată chestiunea este că

nu avem unități de măsură pentru aceste „cantități” și nici instrumente precise

pentru a le măsura. Putem presupune că orice caracteristică latentă, din punct

de vedere al cantității, poate lua orice valoare între minus și plus infinit, de la

valori infinit de mici la valori infinit de mari. Acest concept îl întâlnim sub numele

de continuum al factorului latent, înțelegerea sa condiționând înțelegerea

măsurării în științele socio-umane.

Dacă acești factori latenți nu pot fi cunoscuți în mod direct, cum ar putea

fi, totuși, măsurați? Să presupunem că vom întreba persoanele cărora dorim să

le cunoaștem anxietatea dacă le-ar fi teamă atunci când ar sta pe un câmp de

luptă sub focul mitralierelor. Un asemenea comportament ar presupune o

„cantitate” foarte mică de anxietate la răspunsul pozitiv. Tuturor ne este teamă

de război, de armele de foc, prin urmare răspunsul „da” ar fi perfect normal. Din

contra, un răspuns negativ ar putea fi indicatorul unei patologii psihice. În

termeni tehnici, această întrebare s-ar situa undeva spre polul negativ al

continuumului factorului latent, comportamentul vizat saturând foarte puțin

anxietatea. Acelorași persoane le punem și o a doua întrebare, dacă le este frică

să stea în casă pe întuneric atunci când se întrerupe curentul electric. De data

aceasta, răspunsul normal ar fi negativ, un răspuns eventual pozitiv indicând o

15


„cantitate” mare de anxietate. Dacă se întrerupe seara curentul, te poți cel mult

enerva în cazul în care ai ceva de făcut, în niciun caz nu îți va genera o senzație

de teamă. Un astfel de comportament îl putem considera saturat în anxietate,

situându-se înspre polul pozitiv al continuumului factorului latent. În fine,

întrebând persoanele dacă le place pizza cu ton, măsurăm orice altceva, numai

anxietatea nu. Asta deoarece preferința către un sortiment de pizza nu are nicio

legătură cu anxietatea, în termeni tehnici întrebarea fiind situată în afara

continuumului factorului latent.

Astfel de întrebări se numesc eșantioane de comportamente. Deoarece

nu putem observa direct factorul latent, îl vom observa indirect, prin

intermediul unor eșantioane de comportamente extrase dintr-un univers

practic nelimitat de comportamente specifice. Pe baza modului în care

persoanele ar reacționa la aceste comportamente și cunoscând zona în care

acestea se situează în continuumul factorului latent, se poate aprecia, subiectiv,

nivelul factorului latent al persoanei, fără a spune că măsurăm exact cantitatea

de factor latent. Acesta este modul în care efectuăm măsurători în domeniul

socio-uman, iar trecerea de la o dimensiune latentă generală, abstractă, la

indicatori, componente concrete ale dimensiunii și apoi la eșantioane de

comportamente (numite și itemi în literatura de specialitate) poartă numele de

operaționalizare a constructelor latente.

Chiar dacă am operaționalizat foarte bine constructele și am conceput

un instrument de măsură foarte bun, măsurarea în științele sociale rămâne

inexactă și limitată, din mai multe motive. În primul rând, nu putem construi

instrumente de măsură care să acopere întregul continuum al factorului latent.

Un test de inteligență, de exemplu, se adresează zonei medii a inteligenței.

Acesta va putea diferenția destul de bine persoanele cu o inteligență de la

16


mediu-inferior la mediu-superior, însă va fi inexact și aproape inutil în cazul

persoanelor foarte inteligente sau foarte puțin inteligente. În asemenea cazuri,

va trebui să apelam la alte instrumente, demers mare consumator de resurse,

în special de timp. Pe de altă parte, cu cât crește timpul unei evaluări, cu atât

scade precizia măsurătorii, indiferent de calitatea instrumentului folosit, asta

deoarece intervin și alți factori, precum plictiseala și oboseala. Chiar dacă există

și alte modele de măsurare care pot evalua pe întregul continuum al factorului

latent (numite modele de răspuns la item), astfel de instrumente sunt dificil de

construit iar evaluarea se face de obicei computerizat, apărând, în plus, și alte

surse de eroare.

Multe instrumente de măsură specifice domeniului socio-uman, în

special psihologiei și sociologiei, numite incorect teste, fac apel la auto-evaluare.

Persoana se auto-analizează înainte de a da un răspuns, neavând aproape nicio

posibilitate de a controla dacă acel răspuns este sau nu este reprezentativ

pentru persoana evaluată. În cazul în care miza evaluării este benefică pentru

individ, acesta va avea tendința să se pună într-o lumină favorabilă sau, din

contra, nefavorabilă dacă urmărește să evite scopul evaluării. În cazul unui

studiu privind nivelul de trai, o persoană va răspunde în sensul unui nivel de trai

scăzut dacă scopul perceput este stabilirea cuantumului taxelor, ori în sensul

unui nivel de trai ridicat dacă scopul ar fi obținerea unui anumit credit. Această

abordare, numită tendință de fațadă, este comună tuturor instrumentelor

bazate pe auto-evaluare. Chiar dacă există anumite mecanisme de control, așa-

numitele scale de minciună, eficiența lor este discutabilă.

Dacă în științele naturii putem vorbi de un zero absolut, în domeniul

socio-uman nu avem o inteligență zero, o anxietate zero, o depresie zero sau

opinii zero. Din acest motiv, nu putem raporta cantități, nu putem spune că o

17


persoană este de două ori mai anxioasă sau mai inteligentă decât o altă

persoană, că are un nivel de trai de trei ori mai bun sau mai slab. Convențional,

valoarea zero în științele socio-umane este media, faptul că o persoană nu se

distinge de majoritatea oamenilor privind caracteristica măsurată.

Imposibilitatea de raportare permite doar să spunem că o persoană este mai

mult sau mai puțin inteligentă sau anxioasă în comparație cu o altă persoană

sau în comparație cu majoritatea persoanelor, și nu de câte ori și nici cu cât. O

asemenea limitare nu oferă o putere prea mare măsurătorilor socio-umane, ele

situându-se departe de specificul măsurătorilor fizice, chiar dacă prin forțarea

matematicii se tinde către o apropiere de acestea.

Construind un instrument de măsură, decidem asupra

comportamentelor pe care le selectăm din universul infinit de comportamente

posibile, relaționate factorului latent. Această selecție poate induce noi surse de

eroare pentru că ceea ce pare relevant pentru un grup de persoane, poate să

nu fie relevant pentru un alt grup. Un instrument construit pentru militari s-ar

putea să nu aibă o valoare prea mare în cazul agenților de vânzări, chiar dacă

dorim să măsurăm același factor latent, asta ca să nu mai spunem că anumite

comportamente alese pentru populația din America aproape sigur vor avea o

altă relevanță pentru populația din România sau din China. Astfel, dependența

culturală a instrumentelor impune revizii importante ale acestora ori de câte ori

urmează să le folosim pe alte populații decât cele pe care au fost construite

inițial. Mai mult, majoritatea atributelor suferă modificări în timp, unele fiind

mai sensibile, altele mai puțin sensibile la acest factor. Anxietatea, de exemplu,

ar putea fi o stare, diminuându-se relativ rapid după dispariția evenimentului

anxiogen, sau o trăsătură, persistând mai mult timp, uneori accentuându-se cu

trecerea timpului. Mai mult, unele comportamente saturate în factorul latent

18


într-o anumită perioadă de timp îți pierd saturația în prezent și trebuie înlocuite.

Imaginați-vă doar că foarte multe dintre comportamentele normale ale tinerilor

din prezent ar fi atras cu siguranță internarea într-un ospiciu dacă s-ar fi

manifestat în anii ’30 ai secolului XX.

Iată că măsurarea în științele socio-umane este posibilă, însă nu are

caracteristicile unei măsurări fizice, fiind imprecisă, indirectă, puternic limitată

atât ca posibilitate de abordare a atributului, cât și ca semnificație generală.

I.2.2 Noțiunea de variabilă Știm bine de acum că obiectele, în sensul general al termenului, pot fi

măsurate pe baza atributelor cuantificabile. Înălțimea este un atribut

cuantificabil al tuturor persoanelor, însă nu are aceleași valori. Vasile poate avea

înălțimea de 178 centimetri, Ion poate avea o înălțime de 192 centimetri iar

Maria poate avea 168 de centimetri la această caracteristică.

Iată că, această particularitate, comună tuturor ființelor umane, prezintă diferențe inter-individuale, în termeni tehnici afirmând că exprimă variația caracteristicii măsurate. Am ajuns la a defini conceptul de variabilă ca fiind particularitatea, însușirea unui fenomen care constituie obiectul măsurării și care exprima variația inter-individuală a acestei caracteristici.

Înălțimea oamenilor reprezintă o variabilă deoarece exprimă modul în

care variază această caracteristică, de la cel mai scund om din lume, la cel mai

înalt. La fel putem spune și despre greutate, ritm cardiac, nivel de venit, culoarea

ochilor, gen biologic și așa mai departe, toate aceste atribute având în comun o

mulțime de valori, numită și mulțime (domeniu) de definiție sau

categorii. Domeniul de definiție, la rândul său, poate fi teoretic și

empiric, iar când categoriile se pot ordona, poartă numele de

amplitudine (teoretică și empirică).

19


Variabila „gen biologic”, de exemplu, poate avea doar două valori,

domeniul de definiție teoretic fiind format din categoriile „masculin” și

„feminin”. Variabila „culoarea ochilor” poate avea patru categorii, vorbind

despre „ochi căprui”, „ochi albaștri”, „ochi negri” și „ochi verzi”. Prin urmare,

domeniul de definiție teoretic are patru valori, iar dacă nu se află nicio persoană

cu ochi albaștri în lotul de studiu, spunem că domeniul empiric de definiție are

doar trei categorii.

O altă variabilă exemplu „titlul universitar”, are tot patru categorii –

„asistent”, „lector”, „conferențiar” și „profesor” –, însă acestea pot fi ordonate

de la asistent la profesor. Astfel, putem vorbi despre o amplitudine teoretică de

patru valori, cuprinsă între valoarea minimă „asistent” și valoarea maximă,

„profesor”.

Valorile unei variabile, știm deja, se numesc și scoruri, iar atribuirea de

scoruri fiecărui element (în cazul de față, fiecărei persoane) al variabilei poartă

numele, știm și asta, de modalitatea de realizare a variabilei.

Definiția măsurării susține că este vorba despre atribuirea de numere

obiectelor și fenomenelor, însă, în exemplele de mai sus, observăm că mulțimile

de valori nu se exprimă prin numere, ci prin anumite „calități”. Nu putem spune

că titlul universitar al unui cadru didactic universitar este 3, ci conferențiar.

Culoarea ochilor 2 nu are niciun sens, preferând menționarea categoriei „ochi

albaștri”, dar la fel de bine am putea să includem orice altă categorie. Unele

variabile nu se exprimă natural sub formă numerică, acestea fiind

denumite variabile calitative. Altele, precum înălțimea, greutatea,

vârsta, au valori natural numerice, din acest motiv numindu-se

variabile cantitative, aceasta fiind prima și cea mai simplă

clasificare a variabilelor.

20


I.3 Niveluri de măsură Dincolo de distincția calitativ-cantitativ, desigur foarte importantă,

există o clasificare și mai importantă, de fapt baza ierarhizării și a puterii

procesului de măsurare. Vorbim despre nivelurile de măsură, numite și scale de

măsură, însă vom prefera utilizarea termenului de nivel și nu de scală pentru a

nu se crea confuzie, chiar dacă, în analiza de date, sunt sinonime.

I.3.1 Variabile discrete (discontinui, neparametrice) Am înțeles deja că orice variabilă posedă un domeniu teoretic de

definiție. Uneori, această mulțime de definiție a valorilor este una finită, în

sensul că se pot număra categoriile, iar între două categorii nu se

poate interpune, la nesfârșit, o categorie intermediară. Convenim

astfel să denumim variabilele discrete acele variabile pentru care

mulțimea de definiția a valorilor este una discontinuă, finită (Vasilescu, 1992).

Dacă luăm, spre exemplu, „genul

biologic”, observăm că mulțimea de valori

conține doar două categorii, „masculin” și

„feminin”, fiind, prin urmare, o mulțime

numărabilă, finită, discontinuă. Între cele două

categorii am putea include, cel mult, categoria

„hermafrodit”, însă nu am putea continua incluzând, la nesfârșit, noi categorii.

Lucrurile stau la fel și în cazul variabilei „titlul universitar”. Mulțimea de

valori conține doar patru categorii fiind, din nou, numărabilă, finită. Între

„lector” și „profesor” am putea include categoria „conferențiar”, însă nu putem

vorbi, la infinit, despre categorii intermediare între „conferențiar” și „profesor”.

Nu există categoriile „conferențiaro-profesor” și „conferențiaro-conferențiaro-

profesor” și așa, la infinit. Iată de ce spunem că asemenea variabile sunt

discontinui, discrete, la rândul lor situându-se pe două niveluri de măsură.

Figura I-1 Variabila discretă „gen biologic”

21


I.3.1.1 Nivelul nominal (de clasificare sau topologic) Reprezintă nivelul de bază, cea mai „slabă” scală de măsură și presupune

construcția unui set omogen de categorii disjuncte pe baza atributului care

urmează să fie măsurat, acordarea de numere fiecărei categorii și includerea

subiecților în categorii pe bază de apartenență (Opariuc-Dan, 2009). Avem de a

face cu o simplă operațiune ce clasificare, în absența oricărei posibilități de a

pune o relație de ordine între categorii, de aceea nivelul se mai numește și nivel

categorial sau de clasificare.

Există o serie de caracteristici ale acestui

nivel de măsură. În primul rând, exhaustivitatea.

Categoriile create trebuie să permită includerea

oricărui subiect, să nu existe situații în care unii

subiecți nu și-ar găsi locul într-o anumită

categorie. Recent, în Germania, s-a dat o lege

conform căreia genul biologic nu mai are două

categorii, ci 3 – „masculin”, „feminin” și „nedeterminat”. Astfel, clasificarea

permite și includerea celor „nemulțumiți” de sexul lor. Chiar dacă biologic o

asemenea clasificare nu-și are rostul decât în cazul hermafrodiților, social s-a

considerat că este utilă.

Singura regulă de atribuire o reprezintă apartenența la categorie. Ești

bărbat, vei fi clasificat în categoria „masculin”; ești femeie, vei fi inclusă în

categoria „feminin”; habar nu ai ce ești sau vrei sa fii altceva, te incluzi în

„nedeterminat”. Această regulă este una mutual exclusivă, adică un subiect își

poate găsi locul într-o singură categorie și numai în una. Nu poți încadra

subiectul și la masculin și la feminin.

Figura I-2 Variabilă discretă nominală „gen biologic”

22


Cât despre relația de ordine, nici nu poate fi vorba. Încercați doar să

puneți pe primul loc unul dintre genurile biologice și veți vedea ce reacție

declanșați la sexul opus. Categoriile calitative ale unei variabile nominale trebuie

să primească valori numerice, pentru a respecta sensul definiției măsurării, doar

că acestea se acordă pe baza unei atribuiri arbitrare. Putem da valoarea 1

categoriei „masculin”, valoarea 2 categoriei „feminin” și valoarea 3 categoriei

„nedeterminat”. La fel de bine putem spune 1 – nedeterminat, 2 – masculin și 3

– feminin fără ca acest lucru să influențeze în vreun fel includerea subiecților în

categorii. Bineînțeles, pentru a vorbi despre o variabilă va trebui să avem cel

puțin două categorii, altminteri avem de a face cu o constantă. Dacă într-un

studiu am utiliza doar bărbați, atunci genul biologic nu ar mai avea sens să-l

includem ca variabilă deoarece nu mai exprimă variația acestei caracteristici.

La acest nivel de măsură se situează, de exemplu, sondajele de opinie

politice. Avem categoriile determinate de candidați sau de partide și am putea

analiza câte persoane preferă un anumit candidat sau ce candidat este cel mai

bine plasat.

I.3.1.2 Nivelul ordinal (de rang sau ierarhic) Acest nivel se bazează pe cel descris

anterior, cu toate caracteristicile sale, doar

că putem vorbi, în acest caz, de o relație de

ordine între categorii, în baza

caracteristicilor atributului măsurat. Dacă

la nivelul nominal puteam pune „pe primul

loc” orice categorie, fără ca acest lucru să

aibă vreo semnificație, aici nu mai putem proceda la fel, deoarece ordinea

categoriilor contează. Regula de bază este aceea conform căreia o categorie

Figura I-3 Variabilă discretă ordinală „titlul didactic”

23


este superioară sau inferioară alteia, fără însă a se putea specifica nici cu cât,

nici de câte ori.

Să luăm, de exemplu, titlurile didactice universitare. Acestea pot fi puse

într-o ordine: asistent, lector, conferențiar și profesor. Este foarte clar faptul că

asistentul reprezintă cel mai mic grad, iar profesorul cel mai mare grad deoarece

are vechime și experiență. Dar nu putem spune că un profesor face cât 4

asistenți, deoarece nu există un interval fix, constant între aceste grade. La acest

nivel de măsură funcția de atribuire a persoanelor în categorii este o funcție

crescătoare.

Majoritatea cercetărilor în care sunt măsurați factori latenți, în special

cele psihologice, folosesc acest nivel de măsură, fapt care ne permite să

apreciem că măsurarea în psihologie are caracterul unei scale ordinale. Chiar

dacă probele psihologice au pretenția unui nivel de interval, în realitate, dacă

este să fim stricți, ele nu depășesc scala ordinală.

I.3.2 Variabile continui (scalare, parametrice) În cazul altor variabile, mulțimea de

definiție a valorilor nu este una finită,

numărabilă. Să luam cazul variabilei „înălțime”

și vom observa că mulțimea de valori este

infinită. Amplitudinea teoretică este cuprinsă

între 0 centimetri, deoarece nu poate exista

vreun om cu înălțime negativă și întotdeauna există posibilitatea identificării

unei persoane mai scunde decât cel mai scund om din lume și infinit, deoarece

oricând putem găsi pe cineva mai înalt decât cel mai înalt om din lume.

Amplitudinea empirică s-ar putea situa, spre exemplu, între 100 de centimetri

și 210 centimetri, în funcție de persoanele incluse în cercetare.

Figura I-4 Variabila continuă „înălțimea”

24


Totodată, între două valori succesive putem găsi, oricând, o valoare

intermediară. De exemplu, între o persoană cu înălțimea de 179 centimetri și

una de 178 centimetri, putem găsi o persoană de 178,5 centimetri, apoi una de

178,25 centimetri și, tot așa, la infinit. Iată de ce vom spune că o

variabilă continuă este aceea la care mulțimea de definiție a

valorilor este nenumărabilă, infinită (Vasilescu, 1992). Și aceste

variabile, la rândul lor, se pot măsura pe două niveluri.

I.3.2.1 Nivelul de interval (al intervalelor egale) De această dată, categoriile nu numai că sunt ordonate, ca în cazul

nivelului ordinal, dar intervalele dintre categorii sunt constante. Astfel, la acest

nivel putem spune nu numai că A este mai mare decât B, ci și cu cât este mai

mare. Un exemplu clasic îl reprezintă scala de temperatură Celsius. Între 0 și 100

de grade Celsius există un număr de 100 de intervale egale, corespunzătoare

unui grad Celsius. Un grad Celsius înseamnă același lucru, fie că ne referim la

distanța dintre gradul 3 și gradul 4, fie la distanța dintre gradul 90 și gradul 91.

Prin extensie, unii consideră că scorurile standardizate ale probelor psihologice

au această caracteristică. Matematic au dreptate, însă psihologic nu este chiar

așa. Să considerăm, de exemplu, scala IQ. Intervalele sunt egale, putem spune

că un subiect este cu 2 puncte IQ mai inteligent decât un alt subiect. Toată

problema constă în faptul că semnificația nu are o constanță pe întreaga scală,

așa cum se întâmplă la scala Celsius. Diferența dintre un IQ de 55 și unul de 56

are o anumită semnificație, în timp ce diferența dintre un IQ de 100 și un IQ de

101 are o altă semnificație. Este ca în vorba aceea: toți oamenii sunt egali, însă

unii oameni sunt „mai egali” decât alții. Practic, scala IQ este tot o scală ordinală,

puțin forțată și îmbunătățită.

25


Figura I-5 Variabilă continuă de interval, „temperatura”

Folosind acest nivel de măsură, putem spune cu cât o cantitate este mai

mare sau mai mică în comparație cu o altă cantitate, însă nu și de câte ori, asta

deoarece nu avem de a face cu un zero absolut ci cu un zero convențional. Ca să

înțelegem, să facem o comparație între scala Celsius și scala Fahrenheit. Scala

Celsius știm cum s-a construit; zero grade Celsius înseamnă temperatura de

îngheț a apei la presiunea atmosferică de la nivelul mării iar 100 de grade Celsius

reprezintă temperatura de fierbere a apei la aceeași presiune atmosferică. Se

crede că scala Fahrenheit este bazată pe temperatura la care un amestec masic

echivalent de gheață și sare se topește (0 grade Fahrenheit), respectiv

temperatura internă a corpului uman (100 de grade Fahrenheit). Pornind de la

aceste informații, zero grade Celsius corespund la aproximativ 38 de grade

Fahrenheit iar 100 de grade Celsius înseamnă cam 212 grade Fahrenheit. O

găleată cu apă având temperatura de 10 grade Celsius înseamnă o temperatură

a apei de 50 de grade Fahrenheit iar o găleată cu apă având temperatura de 20

de grade Celsius nu înseamnă o temperatură a apei de 100 de grade Fahrenheit

ci doar de 68 de grade Fahrenheit. Așadar, temperatura apei din prima găleată

nu este de două ori mai rece ci doar cu 10 grade Celsius, respectiv cu 18 grade

Fahrenheit mai rece. Absența acestui zero absolut nu ne permite să raportăm

cantitățile.

26


Faptul că poate fi atribuit un zero arbitrar a fost speculat de psihologi,

astfel încât instrumentele de diagnostic psihologic ridică pretenția unui nivel de

interval. Valoarea zero este, în general, cea a unui nivel mediu al factorului

latent în conformitate cu tip special de distribuție a datelor, valorile mai mici de

zero fiind caracteristice unui nivel mai scăzut iar cele mai mari de zero unui nivel

mai ridicat. După cum știți, zero în psihologie nu înseamnă absența cantității

factorului latent (cine ar putea să definească inteligența zero), ci valoarea medie

a acesteia la nivelul populației, amplitudinea domeniului factorului latent fiind

extinsă la infinit. Chiar dacă nivelul de măsură permite acest lucru, fundamentul

tehnicilor psihometrice clasice este reprezentat tot de comparație și de relații

de ordine

I.3.2.2 Nivelul de raport Reprezintă cel mai înalt nivel de măsură, în

acest caz putem spune nu numai cu cât o cantitate

este mai mare, ci și de câte ori. Este cazul

măsurătorilor fizice, cum ar fi lungimea, greutatea,

volumul sau temperatura exprimată în grade

Kelvin. O persoană cu înălțimea de 105 centimetri

este cu 105 centimetri mai scundă în comparație

cu una având înălțimea de 210 centimetri, dar și de două ori mai scundă, pentru

că dacă luăm două persoane înalte de 105 centimetri și le punem una în capul

celeilalte, ajungem să măsoare exact cât persoana cu înălțimea de 210 de

centimetri. În psihologie nu atingem acest nivel de măsură în mod curent, rar se

întâmplă să măsurăm la acest nivel în alte domenii socio-umane, poate doar în

științele economice. Psihofiziologia mai operează cu asemenea scale, iar în

domeniul instrumentelor de diagnostic psihologic putem „forța” nivelul de

raport în teoria răspunsului la item.

Figura I-6 Variabilă continuă de interval, „înălțimea”

27


Aplicații I.4 Obținerea programelor de analiză de date

Efectuarea calculelor necesare analizei de date prin aplicarea formulelor

statistice este interesantă în scop didactic, dacă doriți să pătrundeți

mecanismele interne ale principiilor, să vă apropiați de adevăratul înțeles al

statisticii. În activitatea concretă, de cercetare, ar fi extrem de neproductiv să

procedați în așa fel, deoarece v-ar lua foarte mult timp și, în mod sigur, veți

comite nenumărate erori de calcul. Ceea ce ați lucra în zile sau săptămâni, ați

putea face în doar câteva clipe, utilizând o aplicație computerizată.

Vom folosi două aplicații specializate în efectuarea calculelor pentru

analiza de date, una prietenoasă și ușor de utilizat, însă destul de scumpă, IBM

SPSS Statistics, alta gratuită, foarte puternică, însă ceva mai greu de folosit,

adresabilă adevăraților profesioniști și numită, simplu, R. Pentru început, să

vedem cum le obținem.

I.4.1 Obținerea programului IBM SPSS Statistics Versiunea de încercare a aplicației se poate obține de la adresa http://www-

01.ibm.com/software/analytics/spss/products/statistics/downloads.html, compania IBM

cumpărând, cu ceva timp în urmă, acest pachet de aplicații, dezvoltându-l

ulterior pe parcursul unui număr de 3 sau 4 versiuni. Desigur, pe pagina de

descărcare a programelor de încercare există mai multe aplicații. Suntem

interesați de IBM SPSS Statistics și nu de altceva, prin urmare vom efectua click

pe legătura „SPSS Statistics”.

Poate unul dintre principalele avantaje ale preluării acestor programe de

către IBM, este faptul că acum există variante pentru mai multe sisteme de

operare. Inițial, programul rula doar pe sistemul de operare Windows de la

Microsoft. Acum avem și varianta pentru Mac OS de la Apple, dar și varianta

28

http://www-01.ibm.com/software/analytics/spss/products/statistics/downloads.html

http://www-01.ibm.com/software/analytics/spss/products/statistics/downloads.html


pentru Linux. Vom alege sistemul de operare instalat pe computer și apăsăm

apoi butonul „Continue”.

În acest moment, vă puteți face un cont pe site-ul IBM sau vă puteți

autentifica în cazul în care aveți deja un cont. De obicei, veți folosi această

variantă dacă aveți o licență validă. Astfel, folosind contul, veți putea actualiza

licența atunci când expiră, veți putea descărca actualizări ale programului și

multe altele. În cazul în care nu doriți să vă autentificați, puteți apăsa butonul

„Proceed without an IBM ID”. Politica firmei IBM este de a colecta datele

personale ale celor care descarcă versiunea de încercare. Nu aveți ce să faceți,

toate câmpurile marcate cu un asterisc roșu trebuie completate, altfel nu veți

putea trece mai departe. După completarea tuturor informațiilor obligatorii, va

trebui să apăsați butonul „Submit” pentru următoarea etapă.

Ați ajuns, după acest

efort, la posibilitatea de

descărcare a programului de

instalare. Implicit, pentru a

descărca, se va folosi o aplicație

specială, numită „Download

director”. Chiar dacă are anumite

avantaje, pentru a nu vă încărca

inutil calculatorul, dacă tot aveți o

conexiune rapidă la Internet, vă

recomandăm să apăsați

„Download using http” pentru a

descărca direct ceea ce doriți. Alegeți pachetul de instalare în funcție de tipul

sistemului de operare (pe 32 de biți sau pe 64 de biți – dacă nu știți, alegeți

Figura I-7 Descărcarea programului IBM SPSS Statistics

29


versiunea pe 32 de biți. Aceasta funcționează pe 64 de biți, nu însă și invers) și

apăsați butonul „I agree” pentru a iniția descărcarea. În câteva clipe, browserul

dumneavoastră de Internet va iniția descărcarea programului și este posibil să

așteptați ceva vreme până când se va obține copia. Programul de instalare este

destul de mare, aproape 1GB, iar serverele de descărcare sunt în Statele Unite

ale Americii, prin urmare este posibil să dureze ceva timp. După descărcare, veți

instala programul făcând dublu click pe kitul de instalare, în cazul în care folosiți

sistemul de operare Microsoft Windows. Nu vom intra în detalii, deoarece

presupunem că știți să instalați un program în Windows. Nu trebuie decât să

urmați instrucțiunile de pe ecran, alegând, atunci când vi de solicită, licența de

încercare de 30 de zile.

I.4.2 Obținerea și instalarea programului R Din fericire, obținerea aplicației R este mult mai simplă. În primul rând,

vom naviga la http://cran.r-project.org/bin/windows/base în cazul în care aveți

sistemul de operare

Microsoft Windows. Pentru

alte sisteme de operare sunt

procedee specifice de

instalare. Puteți citi

informațiile relevante de pe pagina oficială a produsului, iar pentru a descărca

programul de instalare, efectuați click pe legătura „Download R 3.1.0 for

Windows”1. Se va iniția imediat descărcarea aplicației, fără a vi se solicita alte

informații. Kitul de instalare este destul de redus ca dimensiune, din acest motiv

și durata descărcării va fi mai mică. Similar altor programe pe care le-ați mai

1 Numele legăturii sau aspectul paginii sunt preluate de la adresa oficială a paginii proiectului. Aceste elemente pot să aibă o altă prezentare sau o versiune diferită.

Figura I-8 Descărcarea aplicației R pentru Windows

30

http://cran.r-project.org/bin/windows/base


folosit, puteți instala R efectuând dublu click pe numele pachetului de instalare

descărcat și urmați instrucțiunile de pe ecran.

După instalare, pe suprafața de lucru veți putea găsi pictograma de

lansare a programului R for Windows, pe care vom efectua dublu click în

vederea lansării în execuție.

Figura I-9 Fereastra principală R

Iată cum, în Figura I-9, puteți observa întreaga aplicație R, programul

oferindu-ne doar o linie de comandă în care tastăm text. Desigur, putem lucra

și aici fără nicio problemă, în cazul în care știm foarte bine R. Dacă nu ne

descurcăm, putem instala, suplimentar, o interfață vizuală, indiferent dacă

suntem programatori sau simpli utilizatori. Fiind o aplicație gratuită și dezvoltată

voluntar de o comunitate internațională de programatori pasionați, R are destul

de multe variante de interfață vizuală, recomandate fiind Deducer

(http://www.deducer.org), o interfață vizuală destul de complexă, dar care

funcționează doar după ce ați instalat în prealabil Java, R Commander

31

http://www.deducer.org/


(http://socserv.mcmaster.ca/jfox/Misc/Rcmdr), o interfață puternică, foarte ușor de

instalat și configurat, care nu necesită nimic suplimentar pe computer și RGtk

(http://www.omegahat.org/RGtk), interfață complexă, intuitivă și ușor de folosit, însă

disponibilă doar pentru sistemele Linux sau alte sisteme bazate pe UNIX.

Mediul R se poate dezvolta aproape nelimitat, instalând diferite module,

cunoscute sub numele de pachete, toate interfețele vizuale menționate, dar și

alte funcții mai complexe, fiind cuprinse în acestea. Pentru a putea folosi un

pachet, acesta trebuie mai întâi instalat, apoi încărcat în mediul R, instalarea

pachetelor R făcându-se prin intermediul comenzii:

install.packages(”nume pachet”)

Pentru a instala, spre exemplu, R Commander, vom tasta comanda:

install.packages(”Rcmdr”)

Apăsăm apoi tasta „Enter”, pentru a valida execuția comenzii, moment

în care pachetele R se descarcă și se instalează automat într-o bibliotecă situată

pe calculatorul dumneavoastră. Deoarece acesta este primul pachet instalat,

biblioteca de pachete nu este configurată. Prin urmare, programul vă întreabă

dacă doriți să vă personalizați biblioteca de pachete („Would you like to use a

personal library instead?”). Vă recomandăm să apăsați butonul „Yes” pentru a

defini propria dumneavoastră bibliotecă, situată în directorul personal al

documentelor. Dacă apăsați „No”, se va

folosi biblioteca implicită a programului.

Nu vă sugerăm a doua variantă, deoarece

s-ar putea să aveți probleme cu drepturile

de scriere pe disc. După apăsarea

butonului „Yes”, programul va afișa

locația în care se vor scrie fișierele în biblioteca personală de pachete, implicit

Figura I-10 Alegerea bibliotecii personale de pachete

32

http://socserv.mcmaster.ca/jfox/Misc/Rcmdr

http://www.omegahat.org/RGtk


în directorul personal de documente. Va trebui să apăsăm, din nou, butonul

„Yes”, pentru a confirma această opțiune.

Pachetele R sunt disponibile în diferite locații din Internet, aceste locații

fiind cunoscute sub denumirea de CRAN – Comprehensive R Archive Network.

Cu cât aceste locații sunt mai apropiate de dumneavoastră, cu atât descărcarea

pachetelor va dura mai puțin. După instalare, programul nu știe unde vă aflați,

din acest motiv invitându-vă să alegeți locația CRAN optimă.

În Figura I-11 apar și locații CRAN din

România, însă există o mare probabilitate ca

actualizările să se facă întârziat, astfel încât

unele pachete să fie învechite, nefuncționând

corespunzător. Deoarece la momentul actual

viteza conexiunii nu prea pune probleme, vă

recomandăm să alegeți opțiunea de cloud

(cea prestabilită, 0-Cloud) și să apăsați butonul

„OK”.

Instalarea pachetului durează destul

de puțin, în fereastra de comenzi R afișându-

se o serie de mesaje informative, care arată ce

pachete se descarcă și se instalează, precum și alte lucruri importante, cum ar fi

apariția unor erori. Configurarea librăriei personale se face doar în momentul

instalării primului pachet, modificarea locației acesteia făcându-se, ulterior, din

setările programului. Alegerea serverului CRAN se face o singură dată per

sesiune (la pornirea programului R), atunci când instalați un pachet.

Instalarea unui pachet înseamnă doar că programul R s-a conectat la

serverul CRAN specificat, a căutat ultima versiune disponibilă și a descărcat

Figura I-11 Alegerea locației CRAN

33


fișierele necesare în biblioteca specificată. Este suficient să instalați o singură

dată un pachet pe computer, nu trebuie să repetați operațiunea de fiecare dată

când doriți să-l utilizați. Totuși, instalarea unui pachet nu presupune automat și

utilizarea sa. Pentru a-l folosi, trebuie ca orice pachet să fie mai întâi încărcat în

R. Încărcarea pachetelor în R se face cu ajutorul comenzii:

library(nume_pachet)

Înlocuind numele pachetului cu ceea ce am descărcat anterior, rezultă

că va trebui să scriem:

library(Rcmdr)

Este posibil ca la încercarea de încărcare în memorie și lansare a unui

pachet, să apară un alt mesaj, prin care să vi se solicite instalarea altor pachete

suplimentare, care nu au fost descărcate și instalate inițial. Acceptați acest lucru

prin apăsarea butonului „Yes”, așteptați ca procesul să se finalizeze și veți obține

rezultatul dorit.

Figura I-12 Interfața vizuală R Commander

34


Am văzut că, uneori, pentru a lansa în execuție un pachet R este nevoie

să instalăm și alte pachete suplimentare, numite pachete suport. Nu vă

impacientați, procesul se desfășoară automat. Aplicația va solicita unele

informații suplimentare din timp în timp, va căuta pachetele de care are nevoie

și le va instala. Nu este nevoie decât să urmăriți mesajele de pe ecran, fiind

necesară apăsarea, din timp în timp, a butonului „Yes”. Este

important să rețineți că în comenzile R, literele mici diferă de

majuscule. Dacă în loc să scrieți „Rcmdr” ați fi scris „rcmdr”, s-ar

obține un mesaj de eroare, deoarece cele două texte diferă.

Interfața R Commander este suficient de puternică pentru a efectua

majoritatea operațiunilor de analiză de date, pentru a importa sau pentru a

exporta baze de date din sau în alte programe, inclusiv IBM SPSS Statistics, are

chiar și comenzi în limba română, însă nu se descurcă prea bine la definirea

variabilelor și la introducerea datelor. Dacă aveți instalată în computer mașina

virtuală Java (Java SE Runtime Environment), puteți iniția descărcarea și

instalarea pachetelor pentru Deducer. În caz contrar, vă recomandăm să

descărcați și apoi să instalați mașina virtuală Java de pe site-ul Oracle2.

Inițial, va trebui să instalăm interfața grafică unificată Java pentru R, așa-

numitul pachet JGR (Java GUI for R), cunoscut și sub numele de „Jaguar”. În

fereastra de comenzi R, vom tasta:

install.packages(”JGR”)

După descărcarea și instalarea pachetelor „Jaguar”, vom repeta

operațiunea pentru a instala pachetele „Deducer”, tastând în fereastra R,

succesiv, comenzile prezentate în continuare, în acest caz fiind necesară o

2 http://www.oracle.com/technetwork/java/javase/downloads/jre8-downloads-2133155.html

35

http://www.oracle.com/technetwork/java/javase/downloads/jre8-downloads-2133155.html


așteptare ceva mai lungă, programul descărcând și instalând un număr destul

de mare de pachete:

install.packages(”Deducer”) install.packages(”DeducerExtras”)

Încărcarea în memorie a interfeței grafice unice „Jaguar” se face prin

comanda cunoscută, dar de această dată va fi necesară o comandă suplimentară

pentru a porni programul. Așadar, pentru a porni Jaguar, a vom tasta succesiv,

în fereastra de comenzi R, următoarele:

library(JGR) JGR()

Figura I-13 Interfața grafică „Jaguar”

36


Am obținut o fereastră de comenzi R ceva mai prietenoasă, cu mai multe

posibilități de definire a variabilelor și de introducere a datelor, însă destul de

rudimentară în raport cu pretențiile noastre. Pentru a încărca „Deducer”, va

trebui să accesăm meniul „Packages & Data”, apoi să alegem opțiunea „Package

Manager”.

În fereastra de configurare

a pachetelor ce vor fi încărcate în

Jaguar, vom căuta pachetele

„Deducer” și „DeducerExtras”,

apoi vom bifa cele două casete din

coloana „loaded” pentru a

comunica aplicației R să le încarce.

Dacă dorim ca cele două pachete

să se încarce automat atunci când

pornim Jaguar, bifăm și cele două

casete corespunzătoare din a

doua coloană, cea numită

„default”. Astfel, putem încărca sau elimina orice alt pachet în această interfață

grafică, iar atunci când am terminat lucrul cu pachetele putem apăsa butonul

„Close” pentru a ieși din procedura de gestiune a pachetelor R.

Figura I-15 Interfața Jaguar cu pachetele Deducer

Faptul că pachetele Deducer au fost încărcate este reflectat în noul

meniu Jaguar. După cum se poate observa, au apărut elemente noi, specifice

Figura I-14 Configurarea pachetelor încărcate în Jaguar

37


analize de date și reprezentărilor grafice, precum și funcții noi, avansate, inclusiv

pentru definirea variabilelor și introducerea datelor. Atât Deducer, cât și R

Commander, permit importul/exportul bazelor de date, operațiunea putând fi

efectuată și în line de comandă. Au fost instalate ambele interfețe, deoarece vă

va permite familiarizarea cu două stiluri de lucru relativ diferite.

I.5 Proiectarea unei baze de date

Am crede, în mod greșit, că putem deschide imediat o aplicație de analiză

de date și începem să configurăm variabilele. În realitate, structura unei baze de

date trebuie mai întâi gândită, proiectată pe hârtie, apoi vom trece la

implementarea acesteia într-un program. Să presupunem că desfășurăm un

studiu folosind un test de inteligență și dorim să colectăm datele necesare. Ce

variabile am putea reține? În mod evident, rezultatele persoanelor la testul de

inteligență, exprimate, spre a ușura înțelegerea, sub forma coeficientului de

inteligență. Iată și o primă variabilă. Apoi, căror persoane le va fi administrat

testul de inteligență? Elevilor de liceu, studenților, elevilor din școala generală

sau unei categorii de populație mai largi? Ne interesează educația acestor

persoane? Dacă da, ne putem gândi la o altă variabilă, pe care am numi-o „nivel

de educație”. Indivizii care vor rezolva problemele testului, cel mai probabil, vor

avea vârste diferite, vom folosi atât bărbați, cât și femei, asta dacă nu cumva

preferăm să administrăm testul doar fetelor dintr-o singură clasă. Iată că putem

avea în vedere alte două variabile, „vârsta subiecților” și „genul biologic”.

Orice studiu trebuie gândit înainte de a fi implementat și

de a trece la definirea variabilelor. În mod normal, acest demers

are loc în momentul în care construim planul de cercetare, vizează

o analiză a tuturor variabilelor care ar putea afecta ceea ce măsurăm, reținerea

38


celor relevante și includerea unor variabile demografice, de caracterizare a

lotului de cercetare.

După ce am stabilit ce anume vom măsura, adică în urma reținerii

variabilelor ce vor fi folosite în studiu, este recomandat să le centralizați într-un

tabel, numit tabelul meta-datelor3.

Tabel I-1 Meta-datele variabilelor

Etichetă Nume Tip Nivel Codare dummy Scop Vârsta subiecților varsta N(3) Scalar - Demografică, posibil

independentă Genul biologic gen N(1) Nominal 1 – Masculin

2 - Feminin Demografică, posibil independentă

Nivelul educațional niv_edu N(1) Ordinal

1 – Fără studii 2 – Primare (1-4)

3 – Gimnaziu (5-8) 4 – Liceu (9-12) 5 – Bacalaureat 6 – Universitare

(Licență) 7 – Universitare

(Master) 8 – Doctorat

9 - Postdoctorale

Demografică, independentă

Coeficient de inteligență iq N(3) Scalar - Dependentă

O primă informație despre variabile se referă la eticheta acestora, prin

etichetă înțelegând denumirea lor, așa cum o percep și cum o înțeleg oamenii.

În cazul de față, ceea ce am decis să reținem mai sus, reprezintă exact etichetele

unor variabile, denumirea acestora în limbajul uman. Numele variabilei se

referă tot la denumire, însă nu așa cum o înțelege omul, ci computerul. Unele

programe ne permit să definim numele variabilei la fel cum definim eticheta

acesteia, altele impun condiții speciale. Deoarece nu dorim să fim dependenți

de un singur program, mai ales atunci când colaborăm cu alți cercetători, vom

prefera să respectăm regulile de denumire a variabilelor.

3 Meta-datele se referă la informațiile despre variabile, a caracteristicile acestora

39


În primul rând, orice nume de variabilă poate conține doar

litere și cifre, și va începe, în mod obligatoriu, cu o literă. În cazul

în care doriți ca numele variabilei să înceapă cu o cifră, va trebui

să folosiți liniuța de subliniere (de exemplu, corect este „_18ani” și nu „18ani”).

Dacă variabila conține spații (de exemplu „nivel educațional”), aveți mai multe

metode pe care le puteți utiliza, cea mai frecventă fiind aceea în care apelați tot

la liniuța de subliniere (puteți denumi, de exemplu, „niv_edu”), modalitate

cunoscută sub numele de notație „underscore_case”. Singura problemă a

acestei notații este includerea unui caracter suplimentar (liniuța de subliniere),

care ar putea genera, după cum vom vedea, unele dificultăți. Dacă preferați,

puteți folosi una dintre notațiile cunoscute sub denumirea de „Camel Case”, în

care fiecare cuvânt începe cu literă mare („UpperCamelCase”) sau în care doar

primul cuvânt începe cu literă mică, celelalte cu majuscule („lowerCamelCase”).

În cazul de față, am putea numi variabila fie „NivEdu” (în stilul

UpperCamelCase), fie „nivEdu” (în stilul lowerCamelCase). Toate cele trei

convenții de notare constituie standarde de definire a variabilelor folosite în

programare, și este bine să vă obișnuiți cu ele, pentru a înțelege lumea

aplicațiilor computerizate dincolo de utilizarea programelor de analiză de date.

Este inutil să insistăm asupra faptului că în denumirea unei variabile nu au ce

căuta diacriticele românești (ș, ț, ă, î etc.), și nici alte caractere speciale,

exceptând liniuța de subliniere („_”).

O a doua regulă ține de respectarea numărului maxim de 8

caractere în denumirea unei variabile. Această condiție provine de

pe vremea sistemului de operare MS-DOS, atunci când denumirea

fișierelor nu putea să depășească 8 caractere, fiind rar impusă de vreo aplicație

din zilele noastre. Versiunile vechi de SPSS for Windows (înainte de versiunea

40


10) solicitau acest lucru, dar cum nu putem ști ce fel de program ar folosi un

eventual colaborator, vă recomand să țineți cont de această regulă. Nu vom

numi o variabilă „nivel_educational”, și nici „NivelEducational” sau

„nivelEducational”, deoarece am depăși limita celor 8 caractere; vom prefera să

scriem, ca mai sus, „niv_edu” (7 caractere), „NivEdu” sau „nivEdu” (6 caractere).

O altă regulă importantă spune că fiecare variabilă trebuie

să ocupe o coloană distinctă în baza de date, iar fiecare subiect va

ocupa un singur rând (va avea o singură înregistrare) (Field, 2005).

Dacă ar trebui, de exemplu, să măsurăm coeficientul de inteligență,

având, astfel, o testare inițială, apoi să aplicăm o tehnică de dezvoltare a

inteligenței și, după 6 luni sau un an, să realizăm o testare finală, cum am

proceda? Există o singură variabilă, coeficientul de inteligență, măsurată în două

momente diferite de timp, situație foarte bine cunoscută în cazul cercetărilor cu

măsurări repetate. Pentru a nu încălca această regulă, vom crea două variabile

în baza de date, și nu una singură, de exemplu „iq_ini” pentru măsurarea inițială

și „iq_fin” pentru cea finală, respectând astfel prima parte a regulii, dar și cea

de-a doua parte, în care o persoană ocupă un singur rând.

Tipul și nivelul de măsură a variabilelor sunt alte informații, foarte

importante, atunci când proiectăm baza de date. Pentru a putea vorbi despre

măsurare, în adevăratul sens al definiției, știm că trebuie să asociem numere

atributelor obiectelor și fenomenelor studiate. De aceea, încă de la început,

trebuie să decidem care dintre variabile exprimă calități și care exprimă

cantități, adică să stabilim nivelul lor de măsură. Variabilele „iq” și „varsta” se

referă, evident, la cantități, și se exprimă, în mod natural, prin numere. În primul

caz vorbim despre coeficientul de inteligență, un număr situat la un nivel de

măsură de interval, iar în al doilea caz tot despre un număr, vârsta, exprimată

41


în ani împliniți, variabila fiind situată chiar la un nivel de raport. În analiza de

date nu facem o distincție atât fină între variabilele parametrice (continui), prin

urmare atât cele situate la un nivel de interval, cât și cele ale nivelului de raport,

sunt tratate unitar, ca variabile scalare, cele mai puternice variabile cu care

putem lucra.

În acest moment, putem discuta despre o nouă regulă

foarte importantă și mult ignorată, și anume că fiecare variabilă

trebuie codată astfel încât să se obțină maximum de informații

(Opariuc-Dan, 2009). Să luăm cazul vârstei, o variabilă pe care o putem exprima

în ani, luni, zile, minute sau secunde, cum dorim, având un punct zero

convențional în momentul nașterii, ba chiar și un zero absolut în momentul

concepției. Altfel spus, o variabilă scalară în adevăratul sens al cuvântului, și ar

fi o mare greșeală să o tratăm, spre exemplu, ca pe o variabilă ordinală. Atunci

când o vom proiecta, ne vom gândi să stocăm vârsta în ani sau luni, și nu să

creăm categorii de vârstă (de exemplu, „între 10 și 15 ani”, „între 15 și 20 de

ani” și așa mai departe), transformând-o într-o variabilă ordinală, mult mai

slabă. Idealul oricărui cercetător este să măsoare la un nivel cât mai puternic,

de preferință cu zero absolut. Dacă variabila este natural scalară, o vom folosi

exact așa, la cel mai înalt nivel de precizie, garantând obținerea maximului

posibil de informație. Ulterior, dacă dorim, putem transforma foarte ușor o

variabilă continuă într-una discretă, ordinală sau nominală, mult mai slabă din

punct de vedere al informațiilor și al puterii analizelor permise; invers, ca să

ajungem de la o variabilă discretă la una continuă, este însă imposibil (Opariuc-

Dan, 2009).

Din moment ce am stabilit nivelul de măsură ca fiind cel scalar, în

următoarea etapă vom urmări să identificăm tipul variabilei. Este limpede, cele

42


două variabile exprimă cantități, măsurate prin numere, așadar vor fi definite ca

numerice (N), însă de câte cifre vom avea nevoie pentru a stoca toate valorile

posibile? În cazul vârstei, exprimată în ani, cu o singură cifră vom putea memora

scoruri de la 0 la 9 ani, total insuficient având în vedere persoanele pe care

urmează să le evaluăm. Stăm mult mai bine dacă am folosi două cifre, deoarece

am putea înregistra persoane cu vârsta cuprinsă între 0 și 99 de ani, dar ce ne

facem dacă includem în studiu și bunicii? Mai bine am proiecta variabila folosind

trei cifre, deoarece niciun bunic nu va putea depăși 999 de ani, cât este

maximum teoretic al amplitudinii valorilor. În cazul în care variabila nu comportă

numere zecimale, am putea nota acest lucru de forma „N(3)”, adică o variabilă

de tip număr întreg, format din 3 cifre, cu o amplitudine de la 0 la 999. În cazul

în care am fi proiectat un studiu specific științelor economice și administrative

și am fi avut o variabilă în care să stocăm, spre exemplu, prețul unor produse,

am fi preferat o reprezentare zecimală, notând tipul variabilei cu „N(4.3)”, adică

o variabilă de tip număr zecimal, format din 4 cifre pentru a reprezenta întregii

și 3 cifre zecimale, cu o amplitudine de la 0.000 la 9999.999.

În cazul coeficientului de inteligență, putem proiecta variabila tot de tip

N(3), asigurând o amplitudine suficientă pentru a permite înregistrarea scorului

oricărei persoane, deoarece am stoca valori ale coeficientului de inteligență

cuprinse între 0 și 999. Iată că am ajuns la o nouă regulă, și anume

aceea conform căreia categoriile create trebuie să fie exhaustive,

adică suficiente pentru a permite oricărui caz particular să poată

fi inclus într-o categorie.

Dacă în cazul celor două variabile discutate lucrurile sunt destul de clare,

deoarece exprimă, natural, cantități, variabilele „gen” și „niv_edu” exprimă

calități. Genul biologic se situează la un nivel nominal (categorial) de măsurare,

43


deoarece nu puteți pune, nici măcar în glumă, o relație de ordine între cele două

categorii, iar nivelul de educație poate fi tratat ca o variabilă situată la un nivel

de măsură ordinal, deoarece o persoană care a terminat doar gimnaziul are un

nivel de educație inferior celeia care a absolvit liceul.

Toată problema este că orice program de analiză de date preferă să

„ronțăie” numere și nu litere. Din acest motiv, am ajuns la o nouă

regulă foarte importantă, aceea că toate categoriile sunt fie

numere, fie trebuie codate numeric (Field, 2005). Nu putem scrie,

în baza de date, textul „masculin” și „feminin”, nici măcar „M” și „F” atunci când

înregistrăm scorurile persoanelor la variabila „gen”. În primul rând, nu am

respecta definiția măsurării, motiv suficient pentru a renunța la orice analiză de

date. În al doilea rând, am pierde enorm de mult timp dacă am scrie, de fiecare

dată, unul dintre cele două texte, pentru fiecare persoană, ca să nu mai punem

la socoteală riscul crescut de a comite erori. Dacă în loc de „masculin” am omite

o literă, spre exemplu am scrie „masclin”, fapt extrem de probabil, atunci nu am

mai avea două categorii ale variabilei, ci trei: „masculin”, „masclin” și „feminin”.

Folosind litere, putem calcula, cel mult, de câte ori apare un cuvânt, fapt care ar

limita puterea analizei de date la cea dată de numărarea scorurilor din fiecare

categorie. Dar nu ne oprește nimeni să notăm cu 1 categoria „masculin” și cu 2

categoria „feminin”, sau invers. Astfel, respectăm definiția măsurătorii,

reducem riscul de a comite o eroare și creăm posibilitatea unor analize de date

mai puternice. O asemenea atribuire poartă numele de codare dummy, pentru

a arăta că numerele alocate au doar o valoare de etichetă, nu îndeplinesc funcția

lor normală. Pur și simplu, în loc de „masculin” vom tasta 1 (sau 2, 7, 5, după

cum dorim), iar în loc de „feminin” vom tasta 2 (sau 1, 6, 9 etc.), asta deoarece

relația de ordine între categorii nu există.

44


Pe de altă parte, variabila „niv_edu” comportă o altfel de abordare, fiind

ordinală. De această dată vom acorda numere în ordine, acestea reprezentând

tot etichete ale categoriilor, dar au, în plus, calitatea de a indica poziția

categoriei. Vom ști ce categorie este superioară sau inferioară alteia, dar nu vom

putea vorbi despre cantități, doar despre ordine. Așadar, orice proces de codare

dummy presupune două elemente: un număr, denumit valoare, care va fi

introdus în baza de date, precum și o etichetă, ce nu va fi introdusă în baza de

date, dar care reprezintă, de fapt, proprietatea calitativă măsurată.

Legat de procesul de codare dummy, apar reguli noi. Una

dintre acestea susține că toate codurile categoriilor unei variabile

trebuie să fie mutual exclusive (Field, 2005). Trebuie găsite nu doar

suficiente categorii pentru a include orice caz posibil, ci trebuie și respectată

regula ca o valoare, pentru o persoană, să poată fi încadrată într-o singură

categorie și numai în una, cu alte cuvinte să nu se suprapună categoriile. Nu

putem defini, spre exemplu, o variabilă în care să stocăm categoria de vârstă,

una dintre categorii fiind 10-15 ani, iar cealaltă 15-20 de ani. O persoană, care

are exact 15 ani, unde va fi inclusă, mai ales dacă împlinește acea vârstă fix în

ziua evaluării? Ar fi mai corect să construim categorii de genul 10-15 ani, 16-20

de ani si așa mai departe, în care limita inferioară a unei categorii este strict mai

mare decât limita superioară a categoriei anterioare.

Uneori, la proiectarea unei variabile, este mai dificil să respectăm

această regulă. Să presupunem că desfășurăm un sondaj de opinii politice, în

care avem următoarea întrebare: „Dacă duminică ar fi alegeri parlamentare, cu

care dintre următoarele partide în mod sigur NU veți vota?”. Ca variante de

răspuns, am putea avea „PX”, „PY”, „PZ”, „NS/NR” și varianta deschisă, „Altul.

Care?”. Un respondent poate bifa un partid, două, le poate bifa pe toate, poate

45


să nu bifeze niciunul sau să scrie un alt partid, neinclus în lista standard. Cum

am putea proiecta o asemenea variabilă deoarece, așa cum observați, codarea

dummy prezentată anterior permite alegerea doar a unei singure variante de

răspuns. Într-o astfel de situație, am putea regândi itemul unic, l-am putea privi

ca fiind format din mai mulți itemi dihotomici, atâția câte variante de răspuns

există. De exemplu, „Dacă duminică ar fi alegeri parlamentare, în mod sigur NU

veți vota cu PX?”; „Dacă duminică ar fi alegeri parlamentare, în mod sigur NU

veți vota cu PY?” și așa mai departe. Ar rezulta un număr de variabile

dihotomice, de tipul „nu_PX”, „nu_PY”, „nu_PZ”, „nu_NSNR” și o variabilă de tip

text, de genul „nu_P_Alt”, în ultimul caz stocând ceea ce va scrie respondentul

și procedând, ulterior, la o analiză calitativă (Opariuc-Dan, 2009). Exceptând

variabila calitativă, în celelalte cazuri putem proceda la o codare dummy de

genul „1 – Adevărat” și „0 – Fals”, sau putem folosi orice alt sistem de codare

dummy dihotomică dorim, rezolvând, astfel, problema.

O altă regulă, destul de importantă, susține prezența

scorurilor la nivelul tuturor variabilelor (Field, 2005). Cu alte

cuvinte, la modul ideal, fiecare persoană ar trebui să aibă valori la

toate variabilele din baza de date. În situația în care unele persoane nu au

scoruri la una sau la mai multe variabile, acest lucru este cunoscut sub numele

de cazuri lipsă, prezența lor putând avea consecințe serioase asupra unor

categorii de tehnici de analiză de date (spre exemplu, modelele de ecuații

structurale). Nu este întotdeauna posibil să evităm apariția cazurilor lipsă,

deoarece persoanele pot refuza sau pot omite să furnizeze unele răspunsuri.

Majoritatea programelor de analiză de date au proceduri puternice de gestiune

a cazurilor lipsă, unele dintre ele urmând să le discutăm și noi; tot ceea ce va

trebui să rețineți în acest moment, este că un caz lipsă va fi reprezentat prin

46


absența datelor din celula respectivă, nu prin introducerea valorii zero. Dacă veți

scrie (sau transforma) zero acolo unde lipsesc date, programul le va considera

date valide și le va include în analiză, fapt ce ar putea să conducă la rezultate

profund eronate.

În fine, ultima regulă pe care o vom comenta se referă la

codarea variabilelor în concordanță cu sensul scalei (Field, 2005).

Anumite întrebări pot avea o scală de răspuns inversată. De

exemplu, răspunsul întrebarea „Cât de mulțumit sunteți de nivelul

dumneavoastră de venit?” poate fi dat pe o scală de la 1 la 5, unde 1 înseamnă

„foarte puțin mulțumit” și 5 înseamnă „foarte mulțumit”. Acesta este sensul

natural al scalei, deoarece numerele mari corespund semnificației de „mai

mult”. La fel de bine am putea spune că 1 înseamnă „foarte mulțumit” și 5

„foarte puțin mulțumit”, dacă ne gândim că 1 ar avea semnificația primului loc,

iar 5 semnificația ultimului loc. Știm deja că rareori măsurăm o variabilă prin

intermediul unui singur item; de multe ori sunt necesare mai multe întrebări,

unele fiind operaționalizate astfel încât 5 să reprezinte „mult”, altele ca 1 să

reprezinte „mult”, aceasta fiind și o tehnică de păstrare a atenției, folosită destul

de des în psihologie. Programul de analiză de date știe doar că 5 este mai mare

ca 1, neavând habar și nefiind interesat de modul în care am construit noi scala

de răspuns. Vă dați seama că dacă am măsura o variabilă prin intermediul unui

număr de 10 itemi, 5 având scale de răspuns crescătoare, 5 descrescătoare, din

punct de vedere al analizei de date tendințele s-ar anula reciproc (cei care

răspund cu 4 la primii 5 itemi, adică în sensul de „mult”, vor răspunde cu 2 la

ultimii cinci, tot în sensul de „mult”). De obicei, atunci când efectuăm codarea

dummy la definirea variabilelor, respectăm modul în care au fost proiectați

itemii, pentru a nu crea confuzie la introducerea datelor. Când inițiem însă

analiza de date, vom avea grijă să aducem toți itemii în sensul natural al scalei,

47


în cazul nostru transformând, prin inversare, scorurile a 5 dintre ei, operațiune

cunoscută sub numele de recodare, astfel încât variabila finală să aibă același

sens.

Dacă vom proceda inteligent, planificând și proiectând baza de date în

conformitate cu regulile menționate în acest capitol, vom obține, la final, un

tabel al meta-datelor clar, logic și consistent, făcând implementarea definițiilor

o plăcere, indiferent de programul în care lucrați. Dacă ne vom grăbi, am obține,

în cel mai fericit caz, o bază de date greu de înțeles, „murdară”, dezorganizată

și dezordonată, care pune probleme, de multe ori, chiar și persoanei care a

creat-o. În situația cea mai neplăcută, am putea constata că, după ce am

introdus foarte multe date, unele variabile au fost proiectate greșit. Abia atunci

ați putea avea motive serioase de frustrare, deoarece ați muncit degeaba.

I.5.1 Definirea variabilelor și introducerea datelor în IBM SPSS Statistics

Figura I-16 Fereastra principală IBM SPSS Statistics

IBM SPSS Statistics a ajuns la versiunea 22 în momentul în care scriem

aceste rânduri și oferă facilități avansate de procesare statistică a datelor,

folosind o interfață grafică foarte prietenoasă, relativ ușor de învățat, elemente

care au stat la baza popularității sale. 48


Pentru început, vom observa asemănarea cu un alt program, mult mai

bine cunoscut, și anume Microsoft Excel. Chiar dacă se pot face analize de date

suficient de elaborate folosind Microsoft Excel, utilizarea unei aplicații

specializate în analiza de date oferă o mai mare flexibilitatea și o mai bună

claritate. Microsoft Excel este, totuși, un program pentru foi de calcul tabelar și

nu o aplicație dedicată analizei de date.

În IBM SPSS Statistics, ca în orice altă aplicație de analiză de date,

variabilele sunt reprezentate pe coloane iar datele se introduc pe rânduri.

Numele variabilelor se afișează în capul de

tabel, fiind, implicit, „var”. Primul lucru pe

care va trebui să-l remarcăm este tabulatorul

de comutare între modul de vizualizare a

datelor și modul de definire a variabilelor,

situat în colțul din dreapta jos al ferestrei

principale (vezi Figura I-17). Butonul „Data View” comută în secțiunea destinată

introducerii datelor, aceasta fiind secțiunea implicită, activă atunci când porniți

programul. Doar că, pentru a putea introduce datele, va trebui să fi definit în

prealabil variabilele. Nu este cazul nostru, din acest motiv va trebui să efectuăm

click pe butonul „Variable View” pentru a comuta în secțiunea de definire a

variabilelor, practic o implementare computerizată a tabelului meta-datelor

discutat mai sus.

Figura I-18 Structura tabelului meta-datelor în IBM SPSS Statistics

Prima coloană a tabelului meta-datelor, „Name”, se referă la numele

variabilei, acel nume inteligibil pentru computer, nu pentru om. În conformitate

Figura I-17 Tabulatorul de comutare a modului de vizualizare

49


cu specificațiile prevăzute în tabelul meta-datelor proiectat (vezi Tabel I-1), aici

vom introduce „varsta” pentru a denumi variabila „Vârsta subiecților”, „gen”

pentru a denumi variabila „Gen biologic”, „niv_edu” pentru nivelul educațional,

și așa mai departe.

Următoarele trei coloane („Type”, „Width” și „Decimals”) permit, toate

trei, stabilirea tipului acesteia. Ne

reamintim că variabila „varsta” a fost

definită ca numerică, fără zecimale,

compusă din trei cifre – N(3). După ce am terminat de introdus numele variabilei

și am părăsit celula, IBM SPSS Statistics a completat automat tipul variabilei, în

funcție de configurația sa, definind-o drept N(8.2). Adică, o variabilă numerică,

având 8 caractere întregi și două caractere zecimale. Dimensiunea este mult

prea mare față de ce avem noi nevoie, prin urmare vom scrie, în celula

„Decimals”, în loc de 2 cifra 0, iar în celula „Width”, în loc de 8 cifra 3.

Rareori vom avea nevoie să

schimbăm tipul variabilei, deoarece,

așa cum știm, în analiza de date se

impune codarea numerică a

acestora. Dacă dorim, putem

efectua click în celula „Type” din

dreptul variabilei pe care o definim,

moment în care, în partea dreaptă,

se va afișa un buton ce conține trei puncte de suspensie ( ), pe care

putem apăsă pentru a se afișa fereastra din Figura I-20. Primele patru opțiuni

reprezintă diferite moduri de definire a numerelor, în partea dreaptă putând

Figura I-19 Definirea tipului unei variabile

Figura I-20 Modificarea tipului de variabilă

50


stabili numărul de cifre ale întregilor și numărul de cifre ale zecimalelor, la fel ca

mai sus.

Opțiunea „Date” are în

vedere date de tip calendaristic.

Dacă o alegem, în partea dreaptă

dispar elementele „Width” și

„Decimals” și apare o listă din care

puteți selecta formatul de dată

calendaristică solicitat pentru

introducerea scorurilor. Tipul de

dată calendaristică se poate folosi, de exemplu, dacă dorim să stocăm data

nașterii, pentru ca ulterior, la analiza datelor, să putem calcula vârsta exactă a

persoanelor în ani, luni, zile și ore, în funcție de nivelul de precizie solicitat.

Datele calendaristice se utilizează mai mult în medicină sau acolo unde putem

vorbi despre analiza seriilor temporare, ori în cercetările experimentale de

supraviețuire din industria farmaceutică.

Opțiunile „Dollar” și Custom

currency” intuiți la ce se referă; în

mod cert la monede. Dacă alegeți

dolar, sumele vor fi exprimate în

moneda americană, fiind precedate

de simbolul „$”. În definitiv, o

monedă este tot un număr, așa că, la

configurarea opțiunii, alături de lista

de alegere a modului de reprezentare, reapar elementele „Width” și „Decimal

Places”. Cealaltă opțiune permite definirea unei alte monede, exceptând

Figura I-21 Configurarea tipului calendaristic de date

Figura I-22 Configurarea tipului monetar de date

51


dolarul. Putem alege formatul de reprezentare, numărul de întregi și numărul

de zecimale, la fel ca în cazul monedei americane.

Opțiunea „String” definește

șiruri de caractere, texte, fiind

folosită atunci când avem itemi cu

răspunsuri deschise, de genul

„Altceva. Ce?” sau „Altcineva.

Care?” și permite introducerea de

text brut. Singura modalitate de

configurare ține de numărul de

caractere acceptate, valoare pe care o putem introduce în caseta „Characters”.

După cum știți deja, un astfel de tip de date este nerecomandat în analiză, din

acest motiv fiind foarte rar folosit. Singura utilizare oarecum pertinentă ar fi

aceea în care am stoca numele persoanelor, în vederea unei identificări

ulterioare.

Ultimul tip de date, „Restricted Numeric”, este un număr întreg, fără

zecimale, dar la care se completează cu zero valorile din față. De exemplu, dacă

l-am defini ca N(3), atunci valoarea 9 va fi reprezentată ca „009” și nu simplu,

„9”.

După ce am terminat configurarea tipului variabilei, putem apăsa

butonul „OK” pentru a memora aceste setări, sau butonul „Cancel” dacă dorim

să părăsim formularul și să revenim la configurația inițială, fără a reține noua

configurație.

Dacă numele variabilei, așa cum îl recunoaște computerul, a fost

introdus în celula coloanei „Name”, denumirea acesteia, inteligibilă pentru om,

se va introduce în celula coloanei „Label”. În cazul nostru, acolo vom scrie,

Figura I-23 Configurarea tipului text de date

52


pentru variabila „varsta”, eticheta „Vârsta subiecților”. Dacă lăsăm

necompletată această celulă, în rapoartele generate de IBM SPSS Statistic se va

folosi numele variabilei. Acesta va fi înlocuit dacă există informații despre

etichetă, fapt care permite o afișare mult mai elegantă și mai comprehensibilă

a informațiilor. Iată de ce vă recomandăm să completați întotdeauna celula

„Label”.

Coloanele „Columns” și „Align” nu afectează definiția variabilelor, ci

felul în care sunt afișate datele. În celula „Align” putem specifica modul în care

se aliniază textul: la dreapta (Right) în cazul numerelor, la stânga (Left) sau

centrat (Center) în cazul textelor, însă această convenție poate fi ignorată. În

definitiv, puteți configura aspectul după preferințele dumneavoastră. Celula

„Columns” permite stabilirea lățimii coloanei de date. Cu cât numărul este mai

mare, cu atât lățimea coloanei variabilei respective va fi, și ea, mai mare. Nu ar

trebui să vă faceți probleme privind această valoare, deoarece puteți să

modificați lățimea unei coloane „trăgând” cu mausul de linia de separație dintre

două coloane, ca la orice tabel.

Coloana „Measure” permite definirea unei caracteristici foarte

importante pentru o variabilă, și anume nivelul de măsură. La crearea unei

variabile, nivelul de măsură nu este precizat („Unknown”). Putem alege nivelul

de interval sau de raport în cazul variabilelor continui, parametrice, alegând

opțiunea „Scale”. Dacă variabila este una discretă și are categorii ordonate, vom

alege opțiunea „Ordinal”, iar dacă avem în vedere o variabilă categorială,

opțiunea ce va trebui aleasă este „Nominal”.

Ultima coloană, „Role”, corespunde oarecum scopului variabilei din

tabelul meta-datelor (Tabel I-1). Opțiunea implicită este „Input” și vizează o

variabilă ale cărei valori sunt introduse manual. Vorbim, astfel, de variabile

53


realizate prin observare directă, din surse externe de date, aceasta fiind situația

tuturor variabilelor din exemplul nostru. Opțiunea „Target” are în vedere

realizarea variabilei din alte variabile, prin transformări sau calcule. De exemplu,

dacă din variabila „varsta” construim o nouă variabilă, numită „grup_varsta”,

această nouă variabilă este considerată de acest tip. Atunci când o variabilă se

poate realiza și direct, și prin calcul, opțiunea aleasă va fi „Both”. De exemplu,

variabila „varsta” poate fi de acest tip, dacă inițial am introdus manual datele,

apoi am decis să eliminăm valorile vârstei pentru toți subiecții minori, acest

lucru fiind obținut în urma unei operațiuni de transformare. Opțiunea „None”

arată că variabilei nu i-a fost atribuit niciun rol sau că rolul său nu este bine

cunoscut. De obicei, se folosește atunci când datele sunt importate dintr-un alt

program sau am preluat o bază de date de la o persoană nefamiliarizată suficient

cu această aplicație, și nu știm cum s-au obținut, astfel, datele. Opțiunile

„Partition” și „Split” se folosesc în cazul variabilelor pe baza cărora se scindează,

logic, fișierul de date, diferența dintre ele ținând doar de modul în care s-au

împărțit datele. Dacă scindarea bazei de date s-a realizat folosind un criteriu de

selecție a cazurilor în care s-a inclus variabila, atunci aceasta are un rol de

partiționare. Dacă este vorba despre o variabilă categorială, pe baza categoriilor

acesteia împărțindu-se fișierul, atunci avem de a face cu o variabilă „Split”. Spre

exemplu, putem alege una dintre cele două opțiuni dacă facem analize de date

separat pentru bărbați și separat pentru femei (variabila „gen” fiind o variabilă

cu rol de „Split”), sau dacă alegem spre analiză doar bărbații cu vârsta peste 20

de ani (variabilele „gen” și „varsta” sunt variabile de partiționare).

Declararea rolului unei variabile nu are vreun efect asupra analizei de

date, așa cum știm, însă poate comunica unui alt cercetător modul în care au

fost obținute și prelucrate datele, fapt ce arată o tratare profesională și serioasă

54


a acestor sarcini. Iată cum am reușit să definim prima variabilă, vârsta

subiecților:

Figura I-24 Definirea completă a variabilei „varsta”

I.5.1.1 Definirea valorilor ce vor fi tratate drept cazuri lipsă Au rămas doar două coloane pe care nu le-am discutat, una dintre

acestea fiind coloana „Missing”, ce nu se referă la tratarea situațiilor în care

lipsesc valori din baza de date, ci la momentele când anumite valori ar trebui

tratate drept cazuri lipsă. Pentru a defini asemenea situații, vom apăsa pe

același buton cu puncte de suspensie, ce va putea fi observat atunci când

efectuăm click în celula variabilei, din coloana „Missing”.

Implicit, IBM SPSS Statistics

presupune că nu dorim să definim valori ce

vor fi tratate drept cazuri lipsă, asemenea

situații ținând doar de absența efectivă a

scorurilor. Din acest motiv, opțiunea

selectată atunci când deschideți formularul

este „No missing values”. Am putea, spre

exemplu, desfășura un sondaj de opinie, în care anumite întrebări să aibă

variantele de răspuns „Nu știu” și „Nu răspund”. De multe ori, studiile

sociologice, mai ales în cazul opiniilor politice, presupun excluderea variantelor

de tip „Nu știu/Nu răspund”, tocmai pentru a se putea sesiza distribuția

preferințelor persoanelor hotărâte. Iată de ce asemenea variante de răspuns

primesc, de obicei, coduri numerice 99 sau 98, pentru o asemenea codare

optând și în exemplul de față. Nu putem renunța de tot la cele două variante,

lăsând celulele necompletate, deoarece situația nehotărâților ar putea fi

Figura I-25 Definirea valorilor tratate drept cazuri lipsă

55


solicitată în vederea unei alte analize, însă putem alege opțiunea „Discrete

missing values”. Se activează cele trei casete, corespunzătoare introducerii unui

număr maxim de trei valori unice, acestea fiind tratate drept cazuri lipsă.

În situația în care am dori ca ambele

categorii, atât „Nu știu (98)” cât și „Nu răspund

(99)”, să fie tratate drept cazuri lipsă, computerul

ignorându-le ca și când ar fi celule necompletate, am include codurile acestora

în două dintre cele trei caste de text, ca în Figura I-26. Dacă am mai avea o

variantă de răspuns, de exemplu „Niciunul (9)”, am putea include și această

valoare în cea de-a treia casetă. IBM SPSS Statistics nu permite introducerea a

mai mult de trei valori care să fie tratate drept cazuri lipsă, însă sunt foarte rare

situațiile în care chiar am avea nevoie de așa ceva.

Un alt scenariu ar fi acela în care ni s-ar

solicita să tratăm minorii și persoanele care nu

au vrut, în mod explicit, să declare vârsta, ca și

când nu ar fi completat celulele acestei

variabile, adică să tratăm aceste situații drept cazuri lipsă. Minore sunt toate

persoanele cu vârsta cuprinsă între 0 și 18 ani, iar pentru persoanele care au

refuzat explicit să comunice vârsta, am ales codul 999. Realizați că într-o

asemenea situație, în mod obligatoriu ar trebui să includem valoarea 999 ca

valoare discretă pentru cazuri lipsă, altminteri ar rezulta o medie de vârstă

matusalemică. Problema nu ține de această valoare unică, ci de intervalul de

vârstă cuprins între 0 și 17 ani, prin urmare vom alege ultima opțiune, „Range

plus one optional discrete missing value”. În primele două casete putem stabili

intervalul de valori, specificând 0 ani drept limită inferioară („Low”) și 17 ani

drept limită superioară („High”) iar în a treia casetă („Discrete value”) putem

Figura I-26 Tratarea unor valori unice drept cazuri lipsă

Figura I-27 Tratarea unui interval de valori și a unei valori unice drept

cazuri lipsă

56


introduce 999 ani, codul pentru situația în care persoanele refuză să declare

vârsta. Problema a fost rezolvată, nu rămâne decât să apăsăm butonul „OK”

pentru a memora configurația sau „Cancel” pentru a părăsi fereastra fără a

reține setările.

I.5.1.2 Definirea categoriilor variabilelor calitative. Din moment ce am terminat definirea variabilei „varsta”, vom trece la

următoarea variabilă, și anume „gen”. Avem deja cunoștințele necesare pentru

a face acest lucru, prin urmare nu vom relua toate operațiunile.

Figura I-28 Definirea meta-datelor pentru variabila „gen”

Tipul variabilei este, în mod cert, numeric, având nevoie de o singură

cifră pentru a stoca cele două categorii, convenind să notăm cu „1” genul

masculin și cu „2” genul feminin (vezi Tabel I-1). Nu uităm, desigur, să specificăm

nivelul de măsură, în cazul de față cel nominal.

Toată chestiunea este că

această codare dummy am realizat-

o noi, în tabelul meta-datelor, iar

IBM SPSS Statistics habar nu are că

bărbații sunt notați cu „1” și femeile

cu „2”, atâta vreme cât nu găsim o

cale prin care să-i putem comunica

asta. Această cale chiar există, iar pentru a o accesa este suficient să apăsați

butonul cu punctele de suspensie ce apare dacă veți da click pe celula variabilei

„gen”, în dreptul coloanei „Values”, ultima coloană nediscutată.

Figura I-29 Codarea dummy a unei categorii

57


O codare dummy presupune, așa cum am menționat mai sus, stabilirea

valorii (un număr) și a etichetei (calitatea). Pentru genul masculin, valoarea este

„1”, acest număr urmând a fi introdus în caseta „Value”. Eticheta acestei valori

(calitatea) este, în mod evident, „Masculin”, textul urmând a fi introdus în caseta

„Label”. Pentru a memora această codare, va trebui să apăsăm butonul „Add”,

care, între timp, s-a activat. Vom observa cum informațiile din cele două casete

se șterg, iar asocierea valoare-etichetă a fost înregistrată în lista centrală.

Operațiunea se repetă și

pentru asocierea 2 – Feminin,

introducând și o asociere

suplimentară, 3 – Nedeterminat,

însă observăm că, din neatenție, am

comis o greșeală la denumirea

genului feminin. Pentru a o corecta,

vom selecta asocierea făcând click pe elementul corespunzător din listă. În acel

moment, se vor încărca, în cele două casete de sus, valoarea și eticheta codării

selectate. Vom opera modificările dorite, apoi vom apăsa butonul „Change”

pentru a le memora.

În cazul în care după selecție

nu se modifică nimic în cele două

casete, se activează butonul

„Remove”, apăsarea acestuia având

ca efect ștergerea categoriei

selectate. Dacă am considera că

includerea celei de-a treia categorii,

„Nedeterminat”, nu reprezintă o idee prea bună, am putea selecta acest

Figura I-30 Modificarea codării unei categorii

Figura I-31 Ștergerea unei categorii

58


element și apăsa butonul menționat. Imediat, asocierea va fi eliminată din listă,

categoria fiind, și ea, ștearsă.

Desigur, toate aceste operațiuni, pe care le-am efectuat până în acest

moment, au un caracter temporar. Ele devin permanente numai după apăsarea

butonului „OK”. În cazul în care apăsați butonul „Cancel”, codarea dummy va fi

ignorată.

În acest fel veți defini și

variabila „niv_edu”, inclusiv codarea

dummy, ținând cont că acesta are

categorii ordonate, prin urmare veți

alege nivelul de măsură ordinal.

A mai rămas o singură

variabilă de definit, „iq”, variabila în

care vom memora scorurile pentru

coeficientul de inteligență și care nu pune niciun fel de probleme dacă ați înțeles

cele prezentate până în acest moment. Prin urmare, ne putem acum bucura de

tabelul meta-datelor, implementat în IBM SPSS Statistics.

Figura I-33 Tabelul complet al meta-datelor variabilelor, implementat în IBM SPSS Statistics

I.5.1.3 Realizarea variabilelor și salvarea bazei de date Am ajuns la jumătatea drumului, însă avem satisfacția de a fi creat o bază

de date cu variabile foarte bine definite și care respectă exigențele oricărui nivel

de cercetare. Nu rămâne decât să trecem la cea de a doua etapă, la realizarea

acestor variabile, adică la introducerea scorurilor. Folosind tabulatorul de

Figura I-32 Codarea dummy în cazul variabilei „niv_edu”

59


comutare a modului de vizualizare, acela situat în colțul din stânga-jos al

ferestrei principale, vom apăsa pe „Data View” pentru a părăsi modul de

configurare a variabilelor și a intra în modul de introducere a datelor.

Baza de date este goală, doar

nu v-ați fi așteptat să se populeze

singură. Capul de tabel conține

numele variabilelor, iar dacă veți ține

mausul circa 2 secunde deasupra unui nume, veți putea afla, într-o etichetă

ajutătoare, și denumirea sa.

În acest moment, ne vom

deplasa în celula primului rând din

prima coloană și vom introduce

vârsta primei persoane, în cazul

nostru, 23 de ani. Apăsăm apoi tasta „Tab” sau săgeata orientată înspre dreapta

pentru a introduce genul biologic. Cum acea persoană este bărbat, vom scrie

cifra 1, iar în următoarea coloană vom scrie cifra 3, deoarece subiectul a absolvit

doar gimnaziul. În fine, acesta pare a fi un geniu, chiar dacă nu a mai urmat

liceul, deoarece coeficientul său de inteligență este 125. O nouă apăsare a tastei

„Tab” ne va conduce la prima coloană a celui de-al doilea rând, pregătind

introducerea unui al doilea subiect.

Acest mod de vizualizare și introducere a datelor poartă numele de

vizualizare bazată pe valori, deoarece se afișează, în cazul

variabilelor discrete, valorile categoriilor, exprimate numeric.

Pe bara de instrumente, în zona din dreapta, se află butonul

de comutare între modul de vizualizare bazată pe valori (cazul

în care butonul nu este apăsat) și modul de vizualizare bazată pe etichete (cazul

Figura I-34 Structura bazei de date în modul de vizualizare a datelor

Figura I-35 Bază de date completată cu scoruri în modul de afișare al valorilor

Figura I-36 Mod de vizualizare bazată

pe valori

60


în care butonul apare ca fiind apăsat), acționarea succesivă a acestuia

comutând, în mod repetat, între cele două moduri.

În vizualizarea bazată pe

etichete, variabilele discrete nu mai

sunt prezentate sub formă

numerică, ci direct în varianta

calitativă, conform codării dummy. Chiar dacă dumneavoastră veți tasta numere

în continuare, acestea vor fi prezentate ca etichete asociate. Puteți alege orice

variantă doriți, fiecare are avantaje și dezavantaje, însă modul de vizualizare

bazată pe valori este considerat a fi mai rapid.

După ce ați creat o bază de date, vă recomandăm să o

salvați într-un fișier pe disc. Puteți face acest lucru foarte

simplu, apăsând butonul de forma unei dischete albastre,

situat pe bara de instrumente sau accesând opțiunea „Save”

ori „Save As…” din meniul „File”. Dacă baza de date este nou creată, vi se va

solicita numele fișierului, toate bazele de date IBM SPSS Statistics, indiferent de

versiune, având extensia „sav”. Încărcarea unei baze de date IBM SPSS Statistics

se poate face apăsând butonul sub forma unui dosar galben sau accesând

meniul „File”, submeniul „Open” și opțiunea „Data”. Nu intrăm în detalii,

deoarece operațiunile de salvare și încărcare a fișierelor reprezintă lucruri

cunoscute, sarcinii curente ale utilizatorilor de computere.

În continuare, ați putea petrece un timp cu baza de date nou creată și să

o completați cu date, astfel încât să reușiți să strângeți circa 30-40 de

înregistrări. Nu uitați să salvați, din când în când, deoarece riscați să pierdeți tot

ce ați lucrat în cazul în care vi se blochează computerul sau se întrerupe curentul

electric.

Figura I-37 Bază de date completată cu scoruri în modul de afișare al etichetelor

Figura I-38 Salvarea și încărcarea bazei

de date

61


I.5.1.4 Utilizarea sintaxei pentru crearea unei baze de date Procedeele descrise anterior sunt foarte bune atunci când avem de

definit un număr relativ redus de variabile. Există și cercetări în care putem lucra

cu sute sau mii de variabile, mai ales în domeniul psihometriei, la construcția

sau adaptarea instrumentelor de diagnostic psihologic. În cazul în care am lucra

cu un chestionar având 400 sau 500 de itemi, ne-ar lua foarte mult timp pentru

a defini, urmând etapele de mai sus, toate aceste variabile.

Ne putem pune problema dacă nu cumva ar exista o modalitate mai

rapidă, mai eficientă de a face acest lucru, iar răspunsul îl vom găsi doar dacă

apelăm la limbajul de script al IBM SPSS Statistic și învățăm să lucrăm cu fișierele

de sintaxă.

Să considerăm cazul în care am avea de studiat proprietățile unei scale de anxietate formată din 420 de întrebări dihotomice (cu răspuns de tip Da/Nu), urmând, de asemenea, să stocăm vârsta subiecților, genul biologic și nivelul educațional. Pe lângă variabilele „gen”, „varsta” și „niv_edu”, definite deja, vom avea alte 420 de variabile, de la „anx001” la „anx420”. În total, un număr de 423 de variabile pe

care va trebui să le definim pentru a construi o bază de date, iar dacă ne-am apuca să o facem folosind modul „Variable View”, este posibil să dureze cel puțin o zi întreagă.

Ar fi mai simplu și mai rapid dacă am accesa meniul „File”, am alege submeniul „New” și opțiunea „Syntax” pentru a crea un nou fișier de sintaxă, în care să putem scrie comenzi fără a trebui să învățăm programare.

Cea mai mare parte a ferestrei este destinată

introducerii codului SPSS, aplicația beneficiind și de o bară de instrumente cu

Figura I-39 Aplicația IBM SPSS Statistics destinată introducerii de sintaxă

62


ajutorul căreia se pot efectua diferite acțiuni. O parte a sintaxei este nativă SPSS, provenind de la versiunile mai vechi, o altă parte putând reprezenta cod în adevăratul sens al cuvântului, deoarece versiunile noi IBM SPSS Statistics au implementat și limbajul de programare Python, pe care îl puteți accesa doar dacă ați optat și pentru instalarea acestuia atunci când a fost instalat IBM SPSS Statistics.

Pentru ceea ce ne interesează, sintaza nativă SPSS este suficientă, prin urmare nu vom lungi expunerea cu alte limbaje de programare. Vom da click în fereastra de editare a codului și vom încerca să definim prima variabilă, genul biologic.

* DEFINIRE VARIABILA "gen".

În mod sigur v-ați fi așteptat la altceva mai complicat. În realitate nu am scris nicio linie de sintază, doar am introdus un comentariu. În SPSS, comentariile încep cu o steluță (*) și țin până când întâlnim semnul punct (.).

NUMERIC gen (F1.0).

Iată prima comandă reală în SPSS, pe care o scriem pe următoarea linie. În acest moment am definit o variabilă numită „gen” (este numele știut de computer, echivalentul coloanei „Name”), am definit tipul numeric (echivalentul coloanei „Type”) și am precizat numărul de cifre (1) și numărul de zecimale (0), folosind expresia „(F1.0)”, litera „F” provenind de la „Format”. Evident, comanda se încheie cu semnul punct (.).

VARIABLE LABELS gen 'Genul biologic al subiecților'.

A venit momentul să stabilim denumirea, echivalentul coloanei „Label”. Pe a treia linie, vom scrie comanda de mai sus, urmată de numele variabilei căreia dorim să-i atribuim o etichetă (variabila „gen”) și de textul etichetei, între ghilimele simple, sintaxa terminându-se, din nou, cu semnul punct (.). Astfel, am stabilit și denumirea variabilei în limbaj inteligibil pentru om.

VALUE LABELS gen 1 'Masculin' 2 'Feminin'.

Desigur, urmează codarea dummy, echivalentul coloanei „Values”. Lucrurile par a fi chiar mai simple în comparație cu metoda descrisă anterior. Observăm că trebuie să scriem comanda, urmată de numele variabilei pe care o vom coda, apoi categoriile, una după alta, întâi valoarea, apoi eticheta între ghilimele simple. Nu uităm să scriem această comandă pe o linie nouă și să o încheiem cu semnul punct (.).

VARIABLE LEVEL gen (NOMINAL).

63


Ultimul lucru pe care îl mai avem de făcut este să stabilim nivelul de măsură. Astfel, vom scrie pe o linie nouă comanda specificată mai sus, urmată de numele variabilei și de precizarea, între paranteze, a nivelului de măsură, în cazul de față fiind vorba despre nivelul nominal. Nu uităm să închidem comanda folosind semnul punct (.).

Dacă au fost respectate toate cele expuse mai sus, în fișierul dumneavoastră de sintaxă va trebui să aveți următoarele comenzi pentru a defini variabila „gen”:

Figura I-40 Comenzi necesare definirii variabilei „gen”

Definirea variabilei „varsta” este chiar mai simplă, aceasta fiind o variabilă continuă, fără codare, și nu ar trebui să vă pună niciun fel de probleme.

* DEFINIRE VARIABILA "varsta". NUMERIC varsta (F3.0).

VARIABLE LABELS varsta 'Vârsta subiecților în ani împliniți'. VARIABLE LEVEL varsta (SCALE).

În cazul variabilei „niv_edu”, să urmărim o situație interesantă și care ne va clarifica rolul semnului punct (.):

Codarea dummy, în cazul acestei variabile, implică destul de multe

categorii. Dacă le-am pune pe o singură linie, am risca să pierdem șirul și să ne încurcăm. Iată că, sintaxa SPSS permite scrierea unei comenzi pe mai multe linii, programul considerând o comandă încheiată atunci când întâlnește punctul.

64


Până în acest moment lucrurile sunt destul de clare și suficient de simple. Urmează partea cea mai mare consumatoare de timp, aceea în care va trebui să creăm cele 420 de variabile dihotomice, corespunzătoare celor 420 de itemi ai scalei de anxietate.

* DEFINIRE ITEMI SCALA DE ANXIETATE. NUMERIC anx001 TO anx420 (F1.0).

VARIABLE LEVEL anx001 TO anx420 (SCALE).

Doar atât? Exact! Sunt suficiente două linii pentru a crea 420 de variabile, linii pe care le putem scrie în 20 de secunde, dar care ne pot salva cel puțin o zi de muncă. Și ca să sintetizăm, întregul cod necesar pentru a crea baza de date este scris astfel:

* DEFINIRE VARIABILA "gen". NUMERIC gen (F1.0).

VARIABLE LABELS gen 'Genul biologic al subiecților'. VALUE LABELS gen 1 'Masculin' 2 'Feminin'.

VARIABLE LEVEL gen (NOMINAL).

* DEFINIRE VARIABILA "varsta". NUMERIC varsta (F3.0).

VARIABLE LABELS varsta 'Vârsta subiecților în ani împliniți'. VARIABLE LEVEL varsta (SCALE).

* DEFINIRE VARIABILA „niv_edu”.

NUMERIC niv_edu (F1.0). VARIABLE LABELS niv_edu 'Nivelul educațional'.

VALUE LABELS niv_edu 1 'Fără studii' 2 'Primare (1-4)' 3 'Gimnaziu (5-8)' 4 'Liceu (9-12)' 5 'Bacalaureat' 6

'Universitate (Licență)' 7 'Universitate (Master)' 8 'Doctorat' 9 'Postdoctorale'.

VARIABLE LEVEL niv_edu (ORDINAL).

* DEFINIRE ITEMI SCALA DE ANXIETATE. NUMERIC anx001 TO anx420 (F1.0).

VARIABLE LEVEL anx001 TO anx420 (SCALE).

Acest cod poate fi salvat într-un fișier (având extensia „sps”) și poate fi executat în totalitate alegând, din meniul „Run”, comanda „All”. Această acțiune ar trebui să funcționeze cel puțin teoretic, doar că generează erori la încercarea de creare a unei baze de date noi. Din acest motiv, înainte de a rula codul, vom crea o variabilă oarecare în baza de date, folosind modul tradițional, „Variable View”, chiar dacă ulterior o vom șterge:

Figura I-41 Prezența unei variabile oarecare înainte de rularea sintaxei

65


Acum putem rula liniști sintaxa, accesând comanda de mai sus, și în doar câteva fracțiuni de secundă toate cele 423 de variabile ale bazei de date vor fi create.

Figura I-42 Bază de date cu 423 de variabile creată prin sintaxă SPSS

Mai rămâne un singur lucru de făcut: să dăm click pe primul rând al tabelului meta-datelor pentru a selecta variabila creată manual (în cazul de față variabila numită „de_sters”, apoi să apăsăm tasta „Delete” pentru a o șterge. Iată că am reușit cu un efort minim, de doar câteva minute, că creăm o bază de date cu foarte multe variabile, apelând la puterea ascunsă în sintaxa programului IBM SPSS Statistics.

Sintagma „nu contează cât muncești, ci cum muncești” își arată

veridicitatea și în acest caz. Am fi putut petrece ore sau zile definind variabilele

bazei de date, sau am fi apelat la sintază, întregul proces durând doar câteva

minute. Din acest motiv, pare a fi o idee bună să includem, acolo unde va fi cazul,

și sintaza SPSS, dumneavoastră alegând stilul de lucru care vă convine cel mai

mult.

I.5.2 Definirea variabilelor și introducerea datelor în R cu Deducer După lansarea mediului R, va trebui să introducem secvența de comenzi

pe care o cunoașteți deja pentru a porni Jaguar. Desigur, există și o modalitate

prin care putem iniția automat Jaguar, atunci când lansăm R, însă pe aceasta o

vom discuta într-un alt curs.

library(JGR) JGR()

66


Dacă ați ales să pornească automat cele două pachete Deducer, așa cum

am prezentat în capitolul I.4.2, interfața Jaguar va lansa ecranul de pornire:

Figura I-43 Ecranul de pornire al interfeței Jaguar cu Deducer

Am putea începe prin a apăsa butonul

„New Data”, pentru a crea o nouă bază de

date R, tehnic numită set de date („Data Set”).

În prima etapă nu avem prea multe de făcut,

decât să dăm un nume bazei de date, optând,

de exemplu, pentru denumirea „Laborator01”, apoi vom confirma acest lucru

apăsând butonul „OK”.

Jaguar va lansa fereastra

de vizualizare a setului de date,

în care putem remarca cele două

butoane de comutare a modului

de vizualizare, „Data View” și

„Variable View”. Se pare că

Markus Helbig, creatorul acestei

interfeței, nu este străin de IBM SPSS Statistics.

Figura I-44 Denumirea setului de date în Jaguar

Figura I-45 Modul de definire a variabilelor în Jaguar

67


Mediul R este gândit mai mult ca un mediu de programare, adresabil

profesioniștilor, fiind axat pe putere și flexibilitate și nu pe interfețe frumoase și

prietenoase. Având în vedere faptul că este mult mai puternic decât IBM SPSS

Statistic la analiza datelor și, ceea ce este cel mai important, este absolut gratuit,

merită efortul de a-l învăța. În cazul în care doriți să creați un set de date fără a

mai face click pe butoane, puteți lansa comanda:

Laborator01 <- data.frame()

În partea din stânga a formulei ați

introdus numele setului de date,

respectând convențiile de notare

specificate în capitolul I.5, iar în partea

dreaptă am specificat tipul obiectului ce va fi creat sub acel nume. În limbaj

uman, e ca și cum am spune mediului R „creează-mi un obiect nou de tip set de

date (data.frame) și denumește-l (stochează-l în) Laborator01”, săgeata la

stânga și semnul minus (<-) făcând legătură dintre cele două părți, arătând,

practic, sensul.

Proiectarea variabilelor este mult mai simplă comparativ cu procedura

descrisă anterior. În coloana „Variable” va trebui să introducem numele

variabilei, acel nume inteligibil pentru computer. Nu avem posibilitatea de a

stabili o etichetă, un rol sau un nivel de măsură, așa cum am procedat în cazul

aplicației anterioare.

Coloana „Type” permite selectarea tipului variabilei. Atunci când nu

avem zecimale, putem alege tipul „Integer”, iar dacă variabila are zecimale, vom

alege tipul „Double”. În cazul unei variabile dihotomice, cu valori 0 și 1, am putea

alege tipul „Logical”, iar datele calendaristice și timpul sunt reprezentate de

variabile de tip „Date”, respectiv „Time”. Desigur, dacă dorim să introducem un

Figura I-46 Crearea unui set de date în linia de comandă

68


text, putem alege tipul „Character”, variabilele discrete (nominale sau ordinale)

fiind reprezentate de tipul de date „Factor”.

În cazul variabilei „varsta”, lucrurile sunt foarte simple. Tot ceea ce avem

de făcut este să scriem numele acesteia și să alegem tipul întreg de date. Nu mai

stabilim numărul de cifre și/sau de zecimale, așa cum am fi procedat în IBM SPSS

Statistics. Pentru început, vom defini toate cele patru variabile și vom stabili

tipul de date al variabilelor „varsta” și „iq” la numere întregi („Integer”), iar tipul

de date al variabilelor „gen” și „niv_edu” la factori („Factor”).

Figura I-47 Definirea numelui variabilelor și a tipului de date folosind Jaguar

Spre deosebire de IBM SPSS Statistics, în R toate variabilele

discrete se vor declara ca factori. În cazul în care avem de a face

cu o variabilă ordinală, aceasta se va numi factor ordonat. În

situația noastră, variabila „gen” este un factor, iar variabila „niv_edu” este un

factor ordonat. Singura problemă pe care va

trebui să o rezolvăm este aceea a realizării

codărilor dummy. Folosind o variabila definită ca

factor, spre exemplu „niv_edu”, vom efectua

click în celula din coloana „Factor Levels” a

acelei variabile pentru a deschide formularul de

codare. Fiind o variabilă ordinală, în primul rând

va trebui să specificăm acest lucru prin bifarea

casetei „Ordered”. Apoi, vom putea folosi

butonul plus (+) de culoare verde pentru a Figura I-48 Codarea dummy

folosind Jaguar

69


introduce, pe rând, toate asocierile, așa cum au fost ele precizate în tabelul

meta-datelor.

Adăugarea unui categorii se realizează

foarte simplu, prin scrierea etichetei calitative

și apăsarea butonului „OK”. În cazul nostru,

prima categorie este „Fără studii”. Am scris

acest text în caseta „Please enter the new

factor level” și apoi apăsăm „OK” fără a face vreo altă specificare. Nu este bine

să introduceți diacritice sau alte caractere speciale. Vom prefera, în mediul R, să

folosim alfabetul latin standard, deoarece prin utilizarea de caractere speciale

riscăm să apară erori destul de greu de identificat și tratat.

După apăsarea butonului „OK”,

formularul de introducere a noii categorii se

închide, aceasta fiind adăugată în lista „Levels”.

Apăsând din nou butonul plus (+), vom putea

adăuga cea de-a doua categorie, în cazul nostru

vorbind despre cei cu studii primare. În

momentul în care am adăugat această etichetă,

observăm că Jaguar a trecut-o pe primul loc.

Fiind o variabilă ordinală, acest lucru ne poate

pune probleme. Putem selecta categoria, făcând

click pe numele ei în lista „Levels”, apoi o putem muta în sus sau în jos, folosind

butoanele de tip săgeată albastră. În fine, o putem elimina, apăsând butonul

minus (-) de culoare roșie.

Deoarece avem destul de multe categorii, vom proceda în alt fel.

Selectăm cele două categorii incluse până acum și le eliminăm, folosind butonul

Figura I-49 Adăugarea unei categorii în codarea dummy

Figura I-50 Lista categoriilor unei variabile discrete

70


minus (-) de culoare roșie, apoi apăsăm butonul plus (+) de culoare verde și

introducem ultima categorie („Postdoctorale”). Continuăm la fel, descrescător,

până la prima categorie („Fără studii”).

Mai mult ca sigur, problema descrisă

anterior este o eroare de programare, însă acum

aveți și metoda prin care o puteți evita.

Introducând descrescător categoriile unei

variabile ordinale, veți renunța să faceți, mai

apoi, alte modificări. Iată, din nou, utilitatea unei

bune proiectări a bazei de date. Fără să avem în

față tabelul meta-datelor, ne-ar fi fost mult mai

greu să realizăm aceste operațiuni, mai ales că

lucrăm descrescător cu un număr destul de mare de categorii. Pentru a memora

toate aceste modificări, vom apăsa butonul „OK” și putem observa, în tabelul

meta-datelor, cum s-a operat codarea dummy.

Figura I-52 Codarea dummy operată în tabelul meta-datelor.

În mod similar vom proceda și pentru a coda variabila „gen”, având grijă

să nu mai bifăm caseta „Ordered”, deoarece variabila este una categorială, astfel

încât nu mai contează nici ordinea în care introducem datele.

Tabelul meta-datelor este acum complet (vezi Figura I-53), rămâne doar

să apăsați butonul de forma unei dischete negre de pe bara de instrumente sau

să alegeți opțiunea „Save Data”, din meniul „File”, pentru a-l salva într-un fișier.

Figura I-51 Codarea categoriilor în cazul unei variabile ordinale

71


Figura I-53 Tabelul complet al meta-datelor implementat în Jaguar

Seturile de date în R au extensia „rda” sau „rdata”, astfel încât va trebui

să alegeți opțiunea corectă („R (*.rda, *.rdata)”) atunci când selectați tipul

fișierului ce va fi salvat.

I.5.2.1 Realizarea variabilelor în Jaguar

Figura I-54 Baza de date completă în R

Modul de introducere a datelor în baza de date nou proiectată nu diferă

față de cele specificate în capitolul anterior. Putem folosi tasta „Tab” sau

săgețile pentru a naviga prin celule și a introduce date, asta după ce, în prealabil,

am comutat în modul „Data View”. Ne putem da seama dacă o variabilă este

continuă sau discretă după modul în care se aliniază datele în celule. În cazul

variabilelor „varsta” și „iq”, numerele se aliniază la dreapta, în timp ce pentru

variabilele „gen” și „niv_edu”, acestea au o aliniere la stânga, specifică literelor.

72


I.5.2.2 Crearea unei baze de date în R folosind limbajul de programare Am văzut deja beneficiile însușii unei sintaxe și am demonstrat

convingător că, fără să ne speriem prea tare de comenzi, folosind sintaxa, ne

putem face treaba mult mai repede, mai eficient și, mai ales, în condiții ideale

de control. Dacă am căzut de acord asupra acestui lucru, de ce să nu facem un

pas mai departe, în direcția însușirii unui limbaj.

Vom relua situația în care dorim construcția bazei de date cu 423 de variabile, solicitată în procesul de adaptare a scalei de anxietate. De data aceasta nu mai avem la dispoziție IBM SPSS Statistics și va trebui să ne mulțumim cu R. Din păcate, orice interfață vizuală am utiliza, rezultatul ar fi același – enorm de mult timp consumat. Pentru eficiență, va trebui să apelăm la limbajul R. Într-adevăr, R nu mai este un

limbaj de scripturi, o „sintaxă” în sensul celei pe care o are IBM SPSS Statistics, ci un adevărat limbaj de programare, specializat în analiza de date.

Primul pas ar fi să creăm un set de date, partea bună fiind aceea că deja știți cum se face. Nu avem nevoie de Jaguar pentru asta, din acest motiv este recomandat să închideți complet R, apoi să-l reporniți doar în fereastra sa de comenzi (vezi Figura I-9), în care vom tasta o comandă deja știută:

Laborator01<- data.frame(t(rep(NA, 423)))

De această dată, nu mai dorim să creăm un set gol, ci un set cu un număr de 423 de variabile. Am comunicat mediului R să construiască un tabel, adică să adauge coloane, nu rânduri (folosind funcția „t”), repetând un număr de 423 de variabile neconfigurate (folosind funcția „rep”) și fără a se inițializa cu date, adică fără nicio înregistrare (specificând „NA”). Este chiar mai simplu decât în sintaxa SPSS, dar după apăsarea tastei Enter, pentru a executa comanda, mediul R pare să nu reacționeze, să nu facă nimic. În realitate, setul de date numit „Laborator01” a fost deja creat, iar dacă vreți să vă convingeți, tastați numele său:

Laborator01

73


Într-adevăr, s-au creat 423 de variabile, notate de la „X1” la „X423”, variabile pe care va trebui acum să le configurăm în conformitate cu specificațiile tabelului meta-datelor. Pentru început, va trebui să stabilim numele acestora, deoarece ne va fi extrem de incomod să lucrăm cu denumirile date de R. Primele trei variabile sunt „varsta”, „gen” și, „niv_edu”, celelalte fiind denumite de la „anx_1” la „anx_420”, preferând utilizarea liniei de subliniere pentru a spori lizibilitatea. Deși pare o sarcină dificilă, am putea să o facem cu doar două instrucțiuni:

colnames(Laborator01)[1:3]<-c('varsta', 'gen', 'niv_edu') colnames(Laborator01)[4:423]<-paste('anx', 1:420, sep='_')

În prima instrucțiune am comunicat mediului R să redenumească primele trei variabile ale setului de date „Laborator01”, folosind etichetele furnizate între parantezele funcției „c” (se referă la un vector de caractere). După apăsarea tastei Enter și executarea instrucțiunii, putem tasta, din nou, numele setului de date, pentru a vedea ce s-a întâmplat:

Observăm că primele trei variabile au fost redenumite, în timp ce toate

celelalte au rămas neschimbate. A doua instrucțiune este ceva mai complexă. Am comunicat mediului R să redenumească toate variabile, de la a patra la a 423-a, construind, prin lipire (funcția „paste”), numele variabilei format din cuvântul „anx”, și un număr succesiv, între 1 și 420, între cuvânt și număr existând separatorul liniuță de subliniere, definit cu ajutorul parametrului „sep”. După ce executăm instrucțiunea și tastăm numele setului de date, observăm că toate variabilele au fost redenumite în conformitate cu specificațiile noastre:

În momentul în care le-a creat automat, mediul R le-a stabilit ca fiind de

tipul logic (0 sau 1). Suntem interesați să le redefinim pe toate de tipul întreg, două dintre ele urmând să fie făcute factori („gen” și „niv_edu”). Acest proces de redefinire se face cu ajutorul unei singure instrucțiuni:

Laborator01[,1:423]<-as.integer(Laborator01[,1:423])

Modalitatea în care referim o celulă într-un set de date R se face prin specificarea, între paranteze pătrate, a rândurilor și coloanelor. De exemplu, dacă scriem „Laborator01[5,4]”, înseamnă că ne referim la scorul obținut de către persoana de pe al cincilea rând, la variabila situată în cea de-a patra

74


coloană. Similar, în instrucțiunea de mai sus, am comunicat programului R să schimbe tipul de date stocat în coloanele de la 1 la 423, din tipul de date existent (logic), în tipul de date numeric. Faptul că în fața virgulei nu se află nicio altă valoare ne spune că nu ne referim la vreun rând, doar la coloane.

Știm că două dintre variabile vor trebui definite ca factori, fiind supuse, după cum probabil v-ați dat seama, operațiunii de codare dummy. Pentru a putea să accepte această operațiune de codare, cele două variabile vor fi transformate din numere întregi, în factori:

Laborator01$gen<-as.factor(Laborator01$gen) Laborator01$niv_edu<-as.factor(Laborator01$niv_edu)

Referirea unei variabile dintr-un set de date se face precizând setul de date, apoi numele variabilei, precedat de semnul dolar ($). Atunci când scriem „Laborator01$gen”, am comunicat mediului R că avem în vedere variabila „gen” din setul de date „Laborator01”. Codul de mai sus spune mediului R să preia o variabilă existentă, să o transforme în variabilă discretă (factor) și să o memoreze sub același nume. Am pregătit cele două variabile, însă nu am definit categoriile, nu am efectuat codarea dummy. În cazul variabilei „gen”, am putea scrie:

Laborator01$gen<-factor(Laborator01$gen, levels=c("Masculin", "Feminin"), ordered=FALSE)

Chiar dacă este o comandă ceva mai lungă, asta nu înseamnă că poate fi considerată și complicată. Practic, am spus mediului R să preia variabila existentă „gen”, să includă categoriile „Masculin” și „Feminin”, fără a crea o relație de ordine între ele, apoi să memoreze rezultatul în variabila cu același nume, adică tot în variabila „gen”.

Indiferent că variabila este nominală sau ordinală, ordinea în care vom introduce etichetele va da ordinea de atribuire automată a valorilor. În cazul prezentat, valoarea pentru masculin va fi 1, iar cea pentru feminin va fi doi. Dacă doriți ca femininul să fie codat cu 1 și masculinul cu 2, atunci va trebui să inversați ordinea celor două etichete dintre parantezele comenzii „levels”. În R, faptul că am scris „c(…)”, arată că întregul conținut cuprins între cele două paranteze va fi tratat ca șir de caractere, ca text.

Sarcina dumneavoastră va fi să implementați codarea dummy în cazul ultimei variabile, „niv_edu”. Veți avea nouă categorii și va trebui să fiți atenți la ordinea în care le scrieți, deoarece, de această dată, avem de a face cu o variabilă ordinală. Nu trebuie să uităm, în final, să înlocuim „ordered=FALSE” cu „ordered=TRUE”, pentru a comunica mediului R că are de a face cu un factor ordonat.

75


Nu ar exista motive să nu reușiți. În acest moment, ar trebui să aveți bine definite cele patru variabile și setul de date. Pentru a vedea ce obiecte există, la un moment dat, în spațiul de memorie al mediului R, puteți folosi o nouă comandă:

ls()

Într-adevăr, obiectele create există, dar a apărut și ceva în plus, un nou

obiect cu care ne-am jucat și am uitat de el, este vorba despre „sterge_ma”. Dacă ne ordonă mediul R să o facem, atunci ar trebui să ne conformăm. Vom folosi, pentru a elimina obiecte, comanda:

rm(sterge_ma)

Între paranteze vom scrie numele obiectului pe care dorim să-l ștergem, după care executăm comanda prin apăsarea tastei Enter. Pentru a verifica, folosiți, din nou, comanda ls(). Veți putea reține mai ușor aceste comenzi dacă veți ști că „ls” provine de la „list structure” iar „rm” de la „remove”; deja pare să aibă alt sens.

Am cam terminat de configurat baza de date. Pentru a rezuma, vom prezenta întregul cod, scris în R, pentru a crea o bază de date cu 423 de variabile, dintre care doi factori codați dummy:

• Laborator01<- data.frame(t(rep(NA, 423))) • colnames(Laborator01)[1:3]<-c('varsta', 'gen', 'niv_edu') • colnames(Laborator01)[4:423]<-paste('anx', 1:420, sep='_') • Laborator01[,1:423]<-as.integer(Laborator01[,1:423]) • Laborator01$gen<-as.factor(Laborator01$gen) • Laborator01$niv_edu<-as.factor(Laborator01$niv_edu) • Laborator01$gen<-factor(Laborator01$gen, levels=c("Masculin",

"Feminin"), ordered=FALSE) • Laborator01$ niv_edu <-factor(Laborator01$ niv_edu, levels=

c("Fara studii", "Primare (1-4)", "Gimnaziu (5-8)", "Liceu (9-12)", "Bacalaureat", "Universitare (Licenta)", "Universitare (Master)", "Doctorat", "Postdoctorale"), ordered=TRUE)

Pare simplu, pare complicat, dumneavoastră veți decide. În orice caz, atunci când avem de a face cu foarte multe variabile, utilizarea interfeței grafice este cea mai proastă alegere, deoarece vă consumă enorm de mult timp. Prin sintaxă sau prin cod, puteți rezolva problema eficient. De fapt, poate ați fi surprins să aflați că linia de comandă reprezintă, de multe ori, metoda preferată

76


a profesioniștilor în analiza de date, mai ales atunci când au de rezolvat sarcini complexe.

Ultimul lucru rămas este să salvăm baza de date într-un fișier pe disc. Nu cred că ați fi surprinși dacă ați afla că și această operațiune se realizează tot prin intermediul unei singure linii:

save(Laborator01, file='D:/Set date R.Rda')

Mediul R a salvat baza de date în fișierul numit „Set de date R”, stocat pe discul D. Pentru a vedea cum arată tabelul meta-datelor pe care tocmai l-am creat, vom lansa interfața grafică Jaguar și vom încărca fișierul salvat.

Figura I-55 Tabelul meta-datelor pentru baza de date creată în cod R

Chiar dacă unii consideră că programul R este neprietenos, greu de

folosit, ați putut constata și singuri că lucrurile nu stau chiar așa. Cu toate că nu

are ușurința în utilizare pe care ne-o oferă IBM SPSS Statistics și se apropie mai

mult de un limbaj de programare (ceea ce și este de fapt), R merită învățat

datorită puterii pe care o are și a faptului că este disponibil gratuit.

I.6 Concluzii, exerciții și probleme Nu am putea să încheiem acest capitol fără o

sinteză a ceea ce am aflat, asta pentru a vă ajuta să vă

reamintiți cele parcurse și, de asemenea, fără a vă

propune o serie de exerciții, probleme și teme de

meditație.

77


• Am văzut că termenii de statistică și analiză de date sunt sinonimi până la un punct, după care semnificația lor este puțin diferită, iar în domeniul științelor socio-umane studiem mai curând analiză de date decât statistică.

• IBM SPSS Statistics, R, STATA, SAS, Statistica și alte programe de acest tip sunt instrumente, nu reprezintă nici statistica, nici analiza de date. Utilizarea acestor instrumente este condiționată de însușirea principiilor analizei de date, altminteri se poate ajunge la situații delicate sub aspectul corectitudinii demersului cercetării științifice.

• Obiectele și fenomenele pot fi cunoscute prin menționarea caracteristicilor acestora, fiind particularizate în momentul în care aceste caracteristici dobândesc valori, acordate în baza unor reguli.

• În domeniul socio-uman, obiectele și fenomenele nu pot fi cunoscute în mod direct, ci prin intermediul unor comportamente manifeste asociate acestora. Trecerea de la o dimensiune generală, la indicatori ai dimensiunii și apoi la comportamente directe, observabile, poartă numele de operaționalizare a constructului

• Pentru a vorbi despre o măsurare, trebuie ca acel construct să poată fi cuantificat, să se specifice caracteristice ce urmează a fi măsurate (indicatorii) și să se găsească o regulă pe baza căreia să se poată atribui un număr caracteristicii măsurate.

• În științele socio-umane nu putem măsura în mod direct, nu putem afla cantitatea de construct, din acest motiv astfel de caracteristici numindu-se factori latenți;

• În analiza de date, caracteristica măsurată poartă numele de variabilă, definită printr-o mulțime de valori teoretică și o mulțime de valori empirică, variabilele putând fi calitative sau cantitative, discrete, atunci când mulțimea de valori este finită, numărabilă și continui, atunci când mulțimea de valori este infinită, nenumărabilă.

• Variabilele discrete se mai numesc și neparametrice sau calitative și pot fi nominale (categoriale) atunci când nu se poate pune o relație de ordine între categoriile lor și ordinale (ierarhice) atunci când categoriile finite pot fi ordonate.

• Variabilele continui se mai numesc și parametrice sau cantitative și pot fi de interval, atunci când intervalele dintre două categorii sunt egale dar nu există un zero absolut și de raport când există un zero absolut.

• IBM SPSS Statistics este o aplicație de analiză de date puternică și prietenoasă, cu o interfață grafică ușor de folosit, dar comercială și, prin urmare, costisitoare, în timp ce R este un mediu foarte puternic de programare și de analiză de date, mai puțin prietenos, chiar dacă acceptă mai multe interfețe grafice, însă gratuit.

• Analiza datelor nu începe cu definirea variabilelor într-un program, ci cu proiectarea bazei de date și specificarea tabelului meta-datelor.

78


• Proiectarea corectă a unei baze de date se face în conformitate cu anumite reguli: (a) denumirea variabilelor și distincția între nume și etichetă; (b) numărul maxim de caractere în numele variabilei; (c) rânduri și coloane unice; (d) codarea pentru obținerea maximului de informație; (e) exhaustivitatea categoriilor; (f) codarea numerică a categoriilor (g) exclusivitatea mutuală a codurilor; (h) absența cazurilor lipsă; (i) codarea în sensul scalei.

• Definirea variabilelor, indiferent că vorbim despre IBM SPSS Statistics sau R, reprezintă implementarea tabelului meta-datelor în aplicația computerizată și se poate realiza fie prin intermediul interfeței grafice, fie folosind codul.

• În IBM SPSS Statistics nu avem un limbaj de programare, ci doar unul de script, spre deosebire de R, unde vorbim despre un adevărat limbaj de programare.

• Indiferent de aplicație, implementarea unei baze de date se face mai rapid și mai ușor folosit codul, mai ales atunci când aceasta conține un număr mare de variabile.

I.6.1 Exerciții și probleme

79

Documents

Capitolul I - Masurarea in stiintele socio-umane.pdf