Note de Curs Modele Si Programe de Analiza a Datelor

7/30/2019 Note de Curs Modele Si Programe de Analiza a Datelor

1/30

UNIVERSITATEA ANDREI AGUNA CONSTANA

MODELE SI PROGRAME DE ANALIZ A DATELOR

Note de curs

LECT.UNIV.DR. NICU IONEL SAVA

CONSTANA

2012


2/30

1. ELEMENTE DE STATISTIC DESCRIPTIV I1.1. Modaliti de msurare a variabilelor

Thorndike afirma c "tot ceea ce exist se gsete ntr-o anumit cantitate".

McCall merge mai departe afirmnd ca "tot ce se gsete ntr-o anumit cantitate

poate fi msurat".

Prin variabil se nelege o anumit categorie care a fost cuantificat sau

msurat. Cea mai ntlnit clasificare a lor, mparte variabilele n patru tipuri:

nominale (categoriale), ordinale, de tip interval i de tip raport. Primele dou tipurisunt calitative, ultimele dou cantitative (numerice).

Scalele nominale reprezint un prim mod de msurare a variabilelor.

Presupune o categorizare a variabilei fr a indica o anumit ordine ori cantitate.

Variabila sex: masculin vs. feminin; Starea civil: cstorit, divorat, vduv,

necstorit; reprezint exemple de scal nominal. Ele pot fi notate cu cifre (0-

feminin; 1-masculin) ns acestea nu pot fi procesate n termeni de cantitate sauordine.

Scalele ordinale sunt tot calitative. n acest caz, numerele sunt ierarhii i

exprim locul sau ordinea ntr-un ir de date. Un exemplu banal este locul ocupat

de cineva la o competiie anumit (primul, al doilea, , ultimul). n acest caz,

numerele pot fi comparate ntre ele n termeni de "mai mult, mai puin sau egal".

Trebuie ns subliniat valoarea ordinal a numerelor. Dac un subiect ocup loculdoi, nu putem spune c el este la egal distan ntre locul unu i locul trei. S lum

exemplul unui student care a obtinut 9,80 la examenul de admitere i a ocupat locul

al doilea. Locul unu ar fi ocupat de un alt student care a avut media de 9.85, n

timp ce pe locul trei s-a situat o persoan cu media 9.30. n cazul datelor ordinale,


3/30

diferena numeric n clasament nu este necesar egal cu diferena numeric

exprimat n unitatea de msur utilizat n acel caz (cinci sutimi, respectiv

cincizeci de sutimi).

Cele doua tipuri de masuratori amintite pna acum presupun ntotdeaunautilizarea unor teste statistice neparametrice.

Un al treilea tip de scal este de interval. Acest tip de msuratoare permite

comparaia dintre date. Diferena dintre dou rezultate 4 si 2 este egal cu diferena

dintre 6 si 4. n cazul unui test de inteligena diferena ntre 100 IQ si 50 IQ este

egal cu diferena dintre 100 IQ i 150 IQ. Deficiena major a acestei scale este c

valorile respective nu pot fi multiplicate sau divizate. Astfel noi nu putem

concluziona c un subiect care a obinut 150 IQ este de 1,5 ori mai inteligent dect

un altul care a obinut 100 IQ i nici de 3 ori mai inteligent dect unul care a

obtinut 50 IQ.

Cele mai multe instrumente psihometrice sau educaionale implicate n msurarea

variabilelor cognitive sau comportamentale se gsesc la aceste trei nivele

(nominale, ordinale, de interval).

Un ultim tip de msurtori sunt scalele de raport. Acestea posed toate

calitile unei scale de interval i are n plus dou noi. Permite multiplicarea sau

divizarea datelor (2 kg sunt jumatate din 4kg i dublul unui kg). Acest tip de

msurare indic de asemenea valoarea zero absolut, ce arat lipsa total a cantitii

msurate. Cele mai multe caracteristici fizice (greutate; nlime; timp de reacie;

nivelul adrenalinei) pot fi msurate astfel.

Ultimele dou tipuri de scale (de interval, respectiv de raport) sunt expresiicantitative ale variabilelor care pot fi supuse analizei statisticii parametrice cu mici

excepii.

Pentru a aplica tehnicile de statistic parametric n cazul variabilelor msurate


4/30

prin scale numerice (de interval sau de raport) trebuie s vedem dac:

Variabilele implicate sunt distribuite normal n cazul eantionului selectat;

Dispersia variabilelor de interes n cadrul eantionului selectat trebuie s fie

asemntoare cu dispersia variabilei pentru ntreaga populaie care ndeplinetecaracteristicile eantionului.

n plus, unele metode parametrice necesit condiii suplimentare.

Dac condiiile sunt ndeplinite, este de preferat s utilizm tehnicile parametrice

(cantitative) deoarece sunt mai solide. Aceasta nseamn creterea ansei de a

respinge o fals ipotez nula.

1.2. Analiza descriptiv univariatDescrierea unui set de date necesit cel puin doi poarametri. Unul vizeaz

tendina central a datelor, adic gsirea unei valori reprezentative pentru setul

respectiv de date, iar cellat vizeaz gradul de mprtiere a datelor, urmrind

omogenitatea sau eterogenitatea unui grup.

In funcie de scalele de msurare utilizate se stabilete i parametrul tendinei

centrale, respectiv al mprtierii datelor care ar trebui calculat.

ntre parametrii mprtierii, abaterea standard i dispersia sunt cei mai

ntlnii n cazul datelor numerice, iar abaterea intercuartil este mai des utilizat n

cazul datelor msurate prin scale ordinale. n ceea ce privete datele nominale,

situaia indicatorilor mprtierii este neclar. Indicatori

precum entropia, indicele de fragmentare, indicele de diversitate sau cel al

dispersiei calitative sunt aproape necunoscui i lipsesc cu desvrire dinprogramele statistice pe calculator, n consecin, rspndirea lor este minim,

majoritatea cercettorilor rezumndu-se la a urmri distribuia procentajelor pentru

fiecare rspuns posibil.


5/30

n general, indicatorii mprtierii iau valoarea zero dac toate datele dintr-un set

sunt identice. Cu ct datele sunt mai mprtiate (diferite), cu att valorile

acestor indicatori sunt mai mari.

n cazul datelor numerice, cel mai frecvent ntlnit pereche de parametri decriptivieste media, ca indicatori al tendinei centrale, i abaterea standard, ca indicator al

mprtierii datelor. Acesti parametri au cele mai multe avantaje tehnice,

permind realizarea mai multor operaii precum standardizarea datelor,

clasificarea rspunsurilor etc.

Totui n anumite situaii media i abaterea standard pot conduce la rezultate

distorsionate, iar pentru a evita acest lucru este esenial s inspecftm grafic

situaia rezultatelor obinute.

2. ELEMENTE DE STATISTIC DESCRIPTIV II2.1. Analiza descriptiv bivariat

n cazul n care dou variabile sunt analizate simultan, vorbim de o statistic

bivariat. Cei mai importani indicatori descriptivi n aceast direcie sunt

indicatorii de asociere. Asocierea sau relaionarea dintre dou variabile poate fi

neleas prin termenii de covarian i independen. Dou variabile covariaz

dac valorile uneia variaz mpreun cu valorile celeilate. n realitate se pot

constata tot felul de astfel de legturi. Conceptul de independen este opus celui

de covarian. Atunci cnd valorile a dou variabile nu se asociaz se poate spune

c cele dou variabile sunt independente.

Pentru a vedea gradul de covariaie dintre dou variabile avem la dispoziie treielemente descriptive:

a. Calcularea coeficienilor de corelaie ca indicatori de asociere;b. Reprezentarea grafic a norului de puncte;


6/30

c. Realizarea de tabele de contingen.

2.1.1. Coeficienii de corelaie

Indicatorii descriptivi care arat gradul de covariaie dintre dou variabile suntdenumii coeficieni de corelaie. Corelaia este o form standardizat a covariaiei,

eliminnd problema msurrii datelor prin scale diferite.

Exist mai muli coeficieni de corelaie, selectarea lor fcndu-se n funcie de

tipul de date colectate (nominale dihotomice, nominale cu mai mult de dou

categorii, ordinale sau numerice), dar i de liniaritatea (monotonia) relaiei dintre

dou variabile.

Coeficienii de corelaie sunt indicatori descriptivi ce arat gradul de covariaie

dintre dou variabile. Ei reflect gradul de variaie concomitent dintre dou i

numai dou variabile: o singur variabil independent ( X) i o singur variabil

dependent (Y).

Cnd cele dou variabile covariaz n acelai sens, vorbim despre ocorelaie

pozitiv (ex. cu ct timpul alocat pregtirii examenului de statistic este mai mare,

cu att nota obinut la evaluarea final este mai bun).

Dac asocierea este n direcii opuse (n timp ce o variabil crete, cealalt

scade), discutm despre ocorelaie negativ. (ex. performana unui angajat la un

test de atenie concentrat este cu att mai bun cu ct numrul de erori este mai

mic).Se impune o precizare. Spre deosebire de experiment, care dezvluie relaii

cauz-efect, studiul de corelaie nu ofer nemijlocit o msur a cauzalitii, ci pur

i simplu a modului de asociere.Coeficientul de corelaie este un index al prezenei/absenei unei relaii ntre

dou variabile i nu un index al unei relaii cauzale. Corelaia ns este implicat n

predicie. O corelaie semnificativ (mare) ntre X i Y ne poate spune, cu diferite


7/30

grade de precizie c prin cunoaterea valorii uneia dintre cele dou variabile,

putem s estimm valoarea celeilalte (ex. dac scorurile la unele scale din CPI (Y )

sunt ridicate, atunci i performanele managerial ( X) se poate estima c vor fi

ridicate; condiia este ca ntre cele dou variabile s existe o corelaiesemnificativ.

Coeficienii de corelaie se mpart n dou mari categorii:-coeficieni de

corelaie parametrici: coeficientul Bravais-Pearson (r), biserial (r bis), punct

biserial (r pbis);- coeficieni de corelaie neparametrici: coeficientul de corelaie

arangurilor Spearman (), coeficientul Kendall (), .n funcie de tipul datelor

colectate i de liniaritatea/monotonia relaiei dintre cele dou variabile, tratatele de

statistic prezint o multitudine de coeficieni de corelaie.

Cel mai ntlnit coeficient statistic utilizat n studiile corelaionale este r

Bravais-Pearson, cunoscut i sub alte denumiri precum: coeficientul de corelaie

liniar simpl, coeficientul r de ordinul zero etc. Acest coeficient r poate lua valori

ntre -1 si +1, unde 0 semnific absena relaiei dintre cele dou variabile analizate.

Pentru a apela la r Bravais-Pearson, pe lng caracterul numeric al datelor

colectate, mai este nevoie ca relaia dintre cele dou variabile s fie liniari ca

norul de puncte s indice o situaie de homoscedasticitate (pentru detalii vezi Sava,

2004).

3. STATISTIC INFERENIAL3.1. Ipoteza nulIpoteza statistic este ipoteza care se face cu privire la parametrul unei

repartiii sau la legea de repartiie pe care o urmeaz anumite variabile aleatoare.

O ipotez statistic nu este neaprat adevrat.


8/30

Ea poate fi corect sau greit.

n statistic, ipotezele apar ntotdeauna n perechi: ipoteza nul i ipoteza

alternativ. Ipoteza statistic ce urmeaz a fi testat se numete ipotez nuli este

notat, uzual, H0. Ea const ntotdeauna n admiterea caracterului ntmpltor aldeosebirilor, adic n presupunerea c nu exist deosebiri eseniale. Respingerea

ipotezei nule care este testat implic acceptarea unei alte ipoteze. Aceast alt

ipotez este numit ipotez alternativ, notat H1. Cele dou ipoteze reprezint

teorii, mutual exclusive i exhaustive, asupra valorii parametrului populaiei sau

legii de repartiie. Spunem c ele sunt mutual exclusive deoarece este imposibil ca

ambele ipoteze s fie adevrate. Spunem c ele sunt exhaustive deoarece acoper

toate posibilitile, adic ori ipoteza nul, ori ipoteza alternativ trebuie s fie

adevrat.

Procedeul de verificare a unei ipoteze statistice se numete test sau criteriu de

semnificaie. O secven general de pai se aplic la toate situaiile de testare a

ipotezelor statistice. Exist patru componente principale ale unui test privind o

ipotez:

ipoteza nul;

ipoteza alternativ;

testul statistic;

regiunea critic (de respingere).

Ipotezele se vor schimba, tehnicile statistice aplicate se vor schimba, dar procesul

rmne acelai, parcurgndu-se urmtorii pai:

1) Se identific ipoteza statistic special despre parametrul populaiei sau legea derepartiie (H0). Ipoteza statistic numiti ipotez nul specific ntotdeauna o

singur valoare a parametrului populaiei i reprezint status-quo-ul, ceea ce este

acceptat pn se dovedete a fi fals.


9/30

2) ntotdeauna ipoteza nul este nsoit de ipoteza alternativ (de cercetat), H1, ce

reprezint o teorie care contrazice ipoteza nul. Ea va fi acceptat doar cnd exist

suficiente dovezi, evidene, pentru a se stabili c este adevrat. Ipoteza alternativ

este cea mai important, deoarece este ipoteza care ne rspunde la ntrebare.Ipoteza alternativ poate cpta trei forme, care rspund la trei tipuri de ntrebri

referitoare la parametrul studiat:

- dac parametrul este diferit (mai mare sau mai mic) dect valoarea specificat n

ipoteza nul;

- dac parametrul este mai mare dect valoarea specificat n ipoteza nul;

- dac parametrul este mai mic dect valoarea specificat n ipoteza nul;

3) Se calculeaz indicatorii statistici n eantion, utilizai pentru a accepta sau a

respinge ipoteza nuli se determin testul statistic ce va fi utilizat drept criteriu de

acceptare sau de respingere a ipotezei nule. Pentru cele mai multe testri statistice

ale ipotezelor, testul statistic este derivat din estimatorul punctual al parametrului

ce va fi testat. Spre exemplu, deoarece media eantionului este un estimator

punctual al mediei din colectivitatea general, ea va fi utilizat n testarea

ipotezelor privind parametrul media colectivitii generale.

4) Se stabilete regiunea critic, Rc. Regiunea critic reprezint valorile numerice

ale testului statistic pentru care ipoteza nul va fi respins. Regiunea critic este

astfel aleas nct probabilitatea ca ea s conin testul statistic, cnd ipoteza nul

este adevrat, s fie , cu mic (=0.01 etc). Verificarea ipotezei nule se face pe

baza unui eantion de volum n, extras din populaia X, care este o variabil

aleatoare. Dac punctul definit de vectorul de sondaj x1,x2,,xn cade n regiuneacritic Rc, ipoteza H0 se respinge, iar dac punctul cade n afara regiunii critice Rc,

ipoteza H0 se accept. Regiunea critic este delimitat de valoarea critic, C

punctul de tietur n stabilirea acesteia. n baza legii numerelor mari, numai ntr-


10/30

un numr foarte mic de cazuri punctul rezultat din sondaj va cdea n Rc,

majoritatea vor cdea n afara regiunii critice. Nu este ns exclus ca punctul din

sondaj s cad n regiunea critic, cu toate c ipoteza nul despre parametrul

populaiei este adevrat. Cu alte cuvinte, atunci cnd respingem ipoteza nul,trebuie s ne gndim de dou ori, deoarece exist dou posibiliti: ea este fals

ntr-adevr i ea este totui adevrat, dei pe baza datelor din sondaj o respingem.

3.2. Mrimea efectuluiAducem spre exmplificare doi indicatori de baz: r, respectiv r. Primul are

ntotdeauna o valoare egal cu cea a coeficientului de corelaie r Bravais-Pearson,

fiind astfel extrem de uor de calculat. Cel de-al doilea indicator este egal cu

ptratul primului indicator (r*r). De remarcat este faptul c, dei ridicat la ptrat, r

poate pstra semnul negativ dac avem de-a face cu o ipotez unilateral care

specific asocierea invers ntre dou variabile, pentru a pstra tipul de relaie

dintre acestea.

Majoritatea cercettorilor apeleaz la cel de-al doilea indicator n

interpretarea rezultatelor din perspectiva mrimii efectului. Astfel, un r = .16

(echivalent unui r de .40), reflectnd legtura dintre nivelul de inteligeni reuita

colar a elevilor, este interpretat adesea n termeni procentuali. n cazul de fa , ar

nsemna c 16% din variaia rezultatelor colare poate fi pus pe seama

diferenelor n ceea ce privete inteligena elevilor. Dei logic ar fi s afirmm c

inteligena influeneaz performana colar, corelaia n sine nu ne poate

demonstra cauzalitatea acestei relaii.Chiar dac o asemenea valoare de 16% (corespunzatoare unui r egal cu .16,

respectiv unui r de .40) pare destul de redus, interpretarea trebuie realizat n

termeni relativi i nu absolui. Astfel, deoarece ne aflm n cazul tiintelor sociale


11/30

n care corelaiile mari (r > .50) sunt destul de rare, un asemenea rezultat (r = .16)

poate indica o legtur destul de strns ntre cele dou variabile implicate.

Cohen (1988) propune urmatoarele valori pentru r, respectiv r, n interpretarea

magnitudinii mrimii efectului:efect sczut (r = .10, r = .01);

efect mediu (r = .30, r = .09);

efect puternic (r = .50, r = .25).

Pentru exemplul oferit am putea afirma c, din punct de vedere practic,

relaia dintre inteligen i reuita colar are o intensitate de magnitudine

moderat spre puternic, fapt ce presupune consecine sesizabile n plan practic,

care ar trebui luate n calcul.

n plus, dacinem seama de transformrile din r n d i viceversa, am putea

stabili chiar valori mai mici ale lui r i r pentru cele trei nivele de intensitate ale

mrimii efectului. Astfel, am putea vorbi de:

efect sczut (r = .10, r = .01, corespunztoare unui d = .20);

efect mediu (r = .25, r = .06, corespunztoare unui d = .50);

efect puternic (r = .37, r = .14, corespunztoare unui d = .80).

Ambele clasificri pot fi utilizate n interpretarea acestor indicatori de

mrime a efectului, alegerea aparinnd utilizatorului n funcie de preferina avut.

n afara acestor doi indicatori de baz pentru cazul r simplu, PowerStaTim

ofer celor interesai ali doi indicatori suplimentari (d Cohen si g Hedges),

specifici situaiei de comparare a diferenelor dintre grupuri. Acetia vin n

sprijinul celor interesai s uniformizeze calculul mrimii efectului, utilizndaceeai unitate de msur sau n spijinul celor familiarizai doar cu indicatorii

mrimii efectului bazai pe diferenele standardizate dintre medii.


12/30

4. STATISTIC INFERENIAL II4.1. Puterea statistic a unei cercetri

Imaginai-v puterea statistic drept o capacitate de a detecta vizual fenomene.

Dac puterea statistic este mic, va fi dificil s observm fenomenele de interes ivom concluziona, poate, c fenomenele respective nu exist. Acest lucru s-ar

ntmpla datorit capacitii noastre reduse de detectare vizual a fenomenului n

cauz. n schimb, dac vom reui s ne mbuntim aparatele de detectare a

fenomenului, adic s cretem puterea statistic a unei cercetri, vom avea mai

multe anse s detectm fenomenele ateptate. Mai mult, n situaii n care puterea

statistic a devenit foarte mare, vom putea detecta orice fenomene, inclusiv pe

acelea minuscule sau insignifiante.

n practic se ntmpl mai rar acest lucru, deoarece majoritatea studiilor

sufer de o putere statistic sczut. De altfel, Tversky si Kahneman (1993) sau

Smith (2000) reamintesc de un studiu mai vechi a lui Cohen, care identifica, in

studiile publicate in diverse reviste de specialitate, o valoare mediana a puterii

statistice de .46. Acest rezultat este mult sub valoarea optim prescris de .80.

Situaia nu s-a schimbat de atunci, rezultate modeste, similare fiind obinute i

dup 25 de ani de la efectuarea acelui studiu (Cohen, 1990).

Puterea statistic poate fi determinat foarte uor dac inem seama de

valoarea lui (riscul de a comite eroarea de tip II), deoarece puterea statistic este

egal cu 1 . Astfel, dac vom alege un de .20, puterea statistic a cercetrii

respective va fi de .80, ceea ce semnific o probabilitate de 80% de a detecta un

efect dac acesta exist.Importana practic a puterii statistice este capital n construcia

designului de cercetare, deoarece puterea statistic a unei cercetri poate fi

modificat n funcie de trei parametri importani:


13/30

- mrimea efectului (Ct de mare trebuie s fie un efect sau o relaie dintredou variabile?);

- mrimea eantionului (De ci subieci avem nevoie pentru a observafenomenul de interes?);

- valoarea (Care este pragul de semnificaie de la care vom respinge ipotezastatistic?).

De asemenea, fiind o ecuaie format din patru parametri: puterea statistic,

mrimea efectului, pragul de semnificaie ales i mrimea eantionului (erorile de

msurare) putem deduce oricare indicator lips. Astfel, putem estima numrul de

subieci necesari pentru a fi testai dac cunoatem mrimea efectului studiat, dac

stabilim pragul de semnificaie sub care respingem ipoteza nul (de pild p de .05)

i dac alegem o putere optim de .80 de a verifica ipoteza formulat.

Similar, pe baza numrului de subieci testai, a mrimii efectului observat,

i a pragului de semnificaie prestabilit se poate calcula puterea statistic a unui

studiu.

4.2.Grade de libertateGradele de libertate nsoesc ntotdeauna rezultatele statisticii infereniale. APA

(2001) recomand ca n articolele de specialitate s se regseasc exprimri de

genul

t (23) = 4,11, p < .01, F (2, 20) = 1,73, P > .05

Dac t sau F reprezint simboluri ale tehnicilor statistice utilizate, iar p este

pragul de semnificaie asociat acestor valori, datele din parantez nseamn

coordonatele gradelor de libertate. n varianta clasic, aceste coordonate ne ajutau

s descoperim valorile statistice din tabel care trebuie comparate cu valorile

calculate de noi. O dat cu apariia statisticii pe calculator, acest lucru a devenit un

atavism, deoarece pragul de semnificaie este oferit de calculator, mpreun cu


14/30

rezultatele obinute.

Ce sunt de fapt gradele de libertate?

Yu (2003) afirma c aceste grade de libertate nu au nimic de a face cu

cstoria, dei un brbat nsurat, avnd o singur partener, nu mai are nici un gradde libertate. Acelai autor ofer o excelent explicaie intuitiv pentru gradele de

libertate pornind de la elementele eseniale ce intervin n determinarea lor: volumul

eantionului, respectiv numrul de parametri care trebuie calculai. Fr a avea

caracter de lege, gradele de libertate pot fi exprimate frecvent prin numrul de

observaii minus numrul de relaii necesare pentru a obine acele date (n r).

5. TESTE STATISTICE PARAMETRICE PENTRU DATE CANTITATIVEI

5.1.Testul t pentru eantioane independenteCondiii de aplicare:

- Eantioane aleatorii (ideal) sau neafectate de erori de eantionare (bias);- Eantioane independente (distincte din punctul de vedere al variabilei

independente, care determin constituirea grupurilor);

- Variabila supus msurrii se distribuie normal n ambele populaii. Aceastagaranteaz c i distribuia diferenelor dintre medii se distribuie normal.

Totui, teorema limitei centrale ne permite asumarea normalitii didtribuiei

mediei de eantionare chiar i n cazul variabilelor care nu se distribuie

normal la nivelul populaiei, pentru eantioane mari. Dac ns analiza

distribuiilor indic forme aberante, iar volumul grupurilor comparate estefoarte mic, se va alege soluia unui test neparametric. De menionat este

faptul c testele t sunt robuste la nclcarea condiiilor de normalitate.

- Dispersia celor dou eantioane este omogen. Testul t poate fi aplicat strict


15/30

n cazurile n care dispersiile celor dou populaii sunt aceleai;

La publicarea testului t pentru diferena dintre mediile a dou

eantioane independente vor fi menionate:

- Mediile i abaterile standard ale fiecrui eantion;- Volumul eantioanelor sau gradele de libertate;- Valoarea testului;- Nivelul lui p;- Mrimea efectului;- Limitele de ncredere pentru diferena dintre medii.

Concluzii:

- Testul t pentru eantioane independente verific semnificaia difereneidintre mediile a dou eantioane formate din subieci diferii, care au fost

evaluate n condiii distincte;

- n condiiile acestui test, se consider o variabil dependent cantitativi ovariabil independent calitativ, nominal, dihotomic (mparte eantionul

cercetrii n dou grupuri);

- Respingerea ipotezei de nul n acest caz nseamn acceptarea ipotezei c celedou medii sunt diferite, ceea ce este echivalent cu acceptarea ipotezei

cercetrii, care afirm existena unei relaii ntre condiia testrii i rezultatul

msurat prin variabila dependent;

- Intervalul de ncredere pentru diferena dintre medii reprezint limitele ntrecare se afl diferena mediilor la nivelul populaiilor de nul. Cu ct intervalul

este mai restrns, cu att diferena constatat ntre grupurile comparate estemai precis n estimarea diferenei reale;

- Valoarea calculat a testului nu se interpreteaz n nici un fel;- Pentru a estima importana diferenei dintre medii, se calculeaz indicele de


16/30

mrime a efectului. Cu ct acesta este mai mare, cu att diferena dintre

medii este mai important;

- Testul t ofer o informaie referitoare la posibilitatea ca diferena s fientmpltoare, n timp ce mrimea efectului ne spune ct de mare este acestdiferen.

6. TESTE STATISTICE PARAMETRICE PENTRU DATE CANTITATIVEII

6.1.Testarea diferenei dintre mai mult de dou medii: analiza de

varian (ANOVA Analysis Of VAriance)

Exist mai multe tipuri de ANOVA, dou dintre ele fiind mai frecvent

folosite:

- ANOVA unifactorial (One-way ANOVA) atunci cnd avem o variabildependent msurat pe o scal de interval/raport msurat pentru trei sau

mai multe valori ale unei variabile independente categoriale;

- ANOVA multifactorial care se aplic cnd avem o singur variabildependent, dar dou sau mai multe variabile independente, fiecare cu cte

dou sau mai multe valori, msurate pe o scal categorial (nominal sau

ordinal).

ANOVA este o procedur de comparare a mediilor eantioanelor. Specificul rezid

din faptul c n locul diferenei directe dintre medii se utilizeaz dispersia lor,

gradul de mprtiere.

Condiii pentru utilizarea testului ANOVA:- Independena eantioanelor (grupurilor supuse comparaiei);- Normalitatea distribuiei de eantionare, n conformitate cu teorema limitei

centrale;


17/30

- Absena valorilor extreme (outliers);- Egalitatea varianei grupurilor comparate.

n raportul de publicare ANOVA vor fi descrise grupurile (categoriile)

comparate, mediile lor, valoarea testului F cu numrul gradelor de libertate ipragul de semnificaie al testului. La aceasta se adaug indicele de mrime a

efectului.

Concluzii:

- Analiza de varian (ANOVA) testeaz diferena dintre mediile a mai multde dou medii obinute pe eantioane independente;

- Semnificaia diferenei dintre medii se testeaz prin analiza variabilitii lor;- ANOVA este necesar n cazul comparrii a mai mult de dou medii,

deoarece compararea acestora cu ajutorul testului t, dou cte dou este

nepermis, ca urmare a acumulrii nepermise de eroare de tip I;

- o valoare semnificativ a testului F ne ndreptete s considerm cdiferena dintre mediile comparate este suficient de mare pentru a nu fi

ntmpltoare. Aceast concluzie are un caracter global, care privete

variaia tuturor mediilor, fr a ne spune ceva despre raporturile dintre medii

una fa de alta.

- Mrimea efectului pentru testul ANOVA se evalueaz cu ajutorul a maimultor indicatori, dintre care cei mai utilizai sunt eta-ptrat i omega-

ptrat.


18/30

7. TESTE STATISTICE PARAMETRICE PENTRU DATE CANTITATIVEIII

7.1.Testul t pentru diferena dintre mediile a dou eantioanedependente

Este utilizat atunci cnd vizm comparaia a dou (sau mai multe) valori

msurate pe aceeai subieci.

Situaii de utilizare:

- O anumit caracteristic se msoar naintea unei condiii i dup aciuneaacesteia;

- Un cercettor utilizeaz dou condiii de investigare, dar plaseaz aceiaisubieci n ambele condiii;

- Natura situaiei experimentale nu permite utilizarea acelorai subieci pentrucele dou msurtori.

La publicarea rezultatului se vor meniona: volumul eantionului, mediile

variabilei dependente n raport cu valorile variabilei independente, valoarea

testului t, pragul de semnificaie, tipul de test (unilateral sau bilateral), mrimea

efectului i limitele de ncredere ale diferenei.

Concluzii:

- Testul t pentru diferena mediilor a dou eantioane dependente vizeazsituaiile n care aceiai subieci au fost evaluai cu acelai instrument n

situaii diferite;

- Variabila independent este reprezentat de condiia n care are locmsurarea iar variabila dependent este trstura care face obiectul

msurrii, fiind exprimat pe scal cantitativ;

- Modul de interpretare a testului, calcularea intervalului de ncredere i al


19/30

mrimii efectului sunt similare testului t pentru eantioane independente.

8. TESTE STATISTICE PARAMETRICE PENTRU DATECANTITATIVE IV

8.1.Coeficientul de corelaie liniar Pearson

Coeficientul de corelaie ofer informaii despre modul cum variaz valorile a

dou variabile, una n raport cu cealalt, Astfel, coeficientul de corelaie nu are o

semnificaie cauzal dect dac cele dou variabile au fost msurate ntr-un context

care probeaz cauzalitatea. Iar acest lucru se petrece numai n condiii de

experiment.

Ceea ce exprim r este intensitatea corelaiei liniare, adic msura n care norul

de puncte reprezentat de intersecia valorilor-pereche ale celor dou variabile poate

fi reprezentat de o linie dreapt. Asocierea de tip lin iar este ns doar una dintre

formele de aproximare a legturii dintre variabile. In realitate, uneori corelaia

dintre dou variabile are o form care se abate de la modelul rectiliniu.

Spre deosebire de testele t, valoarea testului r este interpretabil prin ea nsi,

exprimnd intensitatea asocierii dintre variabile. O corelaie perfect fiind atunci

cnd r este egal cu 1 sau -1.

Interpretarea coeficientului de corelaie (Hopkins, 2000):

0,0 0,1 foarte mic, neglijabil, nesubstanial;

0,1 0,3 Mic, minor;

0,3 0,5 moderat, mediu;

0,5 0,7 mare, ridicat, major;0,7 0,9 foarte mare, foarte ridicat;

0,9 1 aproape perfect.

Valorile lui r trebuie considerate pe o scal ordinal. Dac dorim s comparm


20/30

n mod direct doi coeficieni de corelaie, trebuie s ridicm valorile lui r la ptrat,

obinnd astfel ceea ce se numete coeficient de determinare. Acesta este

considerat un indicator mai adecvat al mrimii efectului, deoarec e ia valori

sensibil mai mici dect cele ale coeficientului de corelaie.Pentru a putea utiliza n mod legitim calculul corelaiei, eantionul trebuie s fie

aleatoriu, iar cele dou variabile s aib o distribuie care s nu se abat grav de la

distribuia normal. Aceast condiie este cu att mai important cu ct eantionul

este mai mic. O atenie deosebit trebuie acordat valorilor extreme, prezena lor

putnd avea efecte neateptate asupra valorii coeficientului de corelaie.

Analiza de corelaie este una dintre cele mai uzuale proceduri statistice n

cercetare. Coeficientul de corelaie Pearson nu este singurul test al asocierii

variabilelor. Exist o varietate de teste de corelaie, pentru situaiile n care

variabilele cercetate sunt msurate, fiecare, pe orice scal de msurare.

Raportarea coeficienilor de corelaie va cuprinde, pe lng indicatorii statistici

descriptivi ai variabilelor (medii, abateri standard, indicatorii simetriei aplatizrii),

volumul eantionului, valoarea lui r, nivelul de semnificaie i coeficientul de

determinare r.

Concluzii:

- Coeficientul de corelaie Pearson testeaz intensitatea asocierii dintre douvariabile msurate pe aceiai subieci, n condiii diferite sau cu instrumente

diferite;

- Coeficientul de corelaie nu este un indicator al relaiei cauzale, ci doar alvariaiei concomitente a valorilor variabilelor testate;

- Domeniul de variaie al coeficientului r se regsete ntre 1 (corelaieperfect negativ) i +1 (corelaie perfect pozitiv). Valoarea 0 indic

absena oricrei corelaii;


21/30

- Coeficientul de corelaie este sensibil la valorile extreme. Cu ct eantionuleste mai mic, cu att efectul eventualelor valori extreme este mai mare;

- Tipul asocierii surprins de coeficientul Pearson este cel liniar, care nseamnpc, n cazul unor asocieri curbilinii, chiar perfecte, valoarea coeficientuluiPearson (r) poate fi mai mic sau chiar 0;

- Valoarea coeficientului de corelaie este, prin ea nsi, un indicator demrime a efectului. Totui, n acest scop se utilizeaz coeficientul de

determinare r;

- Coeficientul r calculat pe eantion estimeaz corelaia la nivelul populaiei;- Valoarea real a corelaiei la nivelul populaiei nu poate fi cunoscut cu

precizie, dar poate fi estimat cu ajutorul limitelor de ncredere pentru r.

9. TESTE NEPARAMETRICE PENTRU DATE NOMINALE9.1.Distribuia binomial

Distribuia statistic binomial descrie frecvena de apariie a unui anumit

eveniment de tip dihotomic n contextul unei serii de observaii. Caracteristicile

distribuiei binomiale difer n funcie de numrul observaiilor (N) i de

probabilitatea de apariie a evenimentului (P), vzut ca ans teoretic de apariie

n raport cu toate evenimentele posibile. De exemplu, la aruncarea unei monede o

singur dat, ansa (probabilitatea) teoretic de apariie a mrcii este P = =

0,5. Aceeai probabilitate caracterizeazi rspunsul corect, dac rspundem la

ntmplare la o ntrebare cu dou variante de rspuns, din care una este corect, iar

alta greit.Odat cu gsirea modalitii de elaborare a distribuiei de nul se pot crea diverse

teste de inferen statistic, printre care enumerm:

9.1.1.Testul z pentru proporia unui eantion n raport cu populaia


22/30

implic testarea semnificaiei unui procent observat n raport cu procentul

populaiei (atunci cnd acesta este cunoscut), pentru evenimente de tip dihotomic;

9.1.2.Testul z pentru diferena dintre dou proporii;9.1.3.Testul semnului (denumit astfel pentru c ia n considerare doar

sensul variaiei, nu i valoarea ei) poate fi utilizat ca substitut al testului t pentru

eantioane independente n cazul datelor msurate pe scal nominal dihotomic.

Concluzii:

- Distribuia binomial deriv din serii de evenimente independentedihotomice. Cele dou posibiliti ale fiecrui eveniment au probabilitile P

i Q, a cror sum este 1;

- Cnd P = Q = 0,5 disatribuia binomial este simetric;- Testul semnului poate fi utilizat n locul testului t pentru eantioane

dependente atunci cnd nivelul diferenei dintre cele dou determinri nu

poate fi evaluat, ci numai direcia diferenei.

9.2.Distribuia multinomialEvenimentele de tip binomial au un caracter dihotomic, putnd lua doar dou

valori. Exist ns i evenimente care pot avea mai mult de dou stri, ceea ce

poate fi descris prin trei sau mai multe valori. Organizarea datelor se realizeaz

printr-o reprezentare sintetic tabelul de coresponden (contingen).

Concluzii:

- Dac evenimentele probabilistice au mai mult de dou valori, probabilitateacu care fiecare eveniment cade ntr-una din categoriile posibile se supunedistribuiei multinomiale;

- Din cauza complexitii procesului de evaluare a probabilitilormultinomiale, este utilizat o estimare a acestora prin distribuia chi-ptrat.


23/30

Numrul gradelor de libertate pentru distribuia multinomial este dat de n

umrul categoriilor minus 1;

- Testul chi-ptrat are dou variante: testul chi-ptrat al asocierii testeazdiferena dintre valorile a dou variabile categoriale (nominale sau ordinale);testul chi-ptrat al corespondenei (goodness of fit) msoar diferena

(potrivirea) dintre valorile unei variabile categoriale i probabilitile

teoretice cunoscute dinainte ale acestor valori;

- Diferenele mari dintre frecvenele observate i cele ateptate produc valoriridicate ale testului chi-ptrat, care cad n zona dreapt (pozitiv) a

distribuiei de nul i conduc la respingerea acesteia. Diferenele mici produc

valori ale testului chi-ptrat apropiate de zero, conducnd la acceptarea

ipotezei de nul;

- Atunci cnd fiecare dintre cele dou variabile are doar dou categorii,situaie n care frecvenele ateptate sunt prea m ici pentru a justifica o

estimare chi-ptrat, se utilizeaz testul exact Fischer.

10.TESTE STATISTICE PENTRU DATE ORDINALE ITestele statistice pentru date ordinale se utilizeaz n urmtoarele situaii:

- Atunci cnd variabile dependent este exprimat pe scal de tip ordinal. nacest caz valorile nu au proprieti de interval, dar exprim poziia fiecreia

n raport cu cealalt;

- Atunci cnd variabila dependent este msurat pe scal de interval/raport,dar distribuia ei nurespect condiiile impuse de testele parametrice. naceast situaie se efectueaz o transformare de rang, adic se nlocuiete

fiecare valoare a distribuiei cu poziia pe care o are n cadrul distribuiei,

sub aspectul ordinii de mrime. Noua distribuie rezultat poate fi supus


24/30

analizei statistice cu teste neparametrice ordinale.

10.1. Testul Mann-Whitney (U) pentru dou eantioaneindependente

S lum n considerare urmatoarea problem: Un specialist care lucreaz

ntr-o mare banc dorete s vad dac exist o diferen ntre premiile bneti

anuale primite de femeile i brbaii angajai ai bncii.

Problema este una tipic pentru a fi rezolvat cu testult al diferenei dintre

mediile a dou eantioane independente. Avem o variabil independent de tip

nominal-dihotomic i una dependent, de tip interval/raport. Din pcate, analiza

preliminar a variabilei dependente ("prima") relev abateri mari de la condiiile de

normalitate (un indice de boltire, kurtosys, de peste 7) precum i o slab

reprezentativitate a mediei, ambele datorate, mai ales, prezenei unei valori

extreme (o prim de 200 mil. lei). Dup ce verificm corectitudinea valorii

respective, ajungem la concluzia ca ea nu poate fi eliminati, ca urmare, nu este

recomandabil utilizarea unui test parametric. ntr-o situaie de acest gen este

aplicabil testul "Mann-Whitney U" pentru date ordinale. Procedm la

transformarea n ranguri a valorilor variabilei dependente. Atribuirea rangurilor n

mod descresctor sau cresctor este nerelevant. Dac toate valorile sunt distincte,

fiecare valoare primete un rang distinct. Atunci cnd exist valori identice,

valorile respective primesc un rang egal cu media aritmetic a rangurilor cuvenite.

La publicarea rezultatului pentru testul Mann-Whitney U se vor indica:

- volumul grupurilor comparate (nA si nB)- valoarea testului (U)

- pragul de semnificatie (p).


25/30

10.2. Testul Kruskal-Wallis pentru mai mult de dou eantioaneindependente

Pentru evaluarea diferenei la nivel de ranguri ntre mai mult de doueantioane independente se utilizeaz testul Kruskal-Wallis. Acesta poate fi

asimilat unei analize de varian pentru date ordinale.

S presupunem ca avem trei categorii de subieci (piloi, controlori de trafic

i navigatori de bord) crora le-a fost aplicat un test de reprezentare spaial. S

presupunem, de asemenea, c valorile variabilei dependente nu se preteaz la un

test ANOVA, dat fiind prezena ctorva valori extreme ce nu pot fi eliminate. n

aceste condiii, testul Kruskal-Wallis este alegerea potrivit. Aceasta presupune

ordonarea dup rang a valorilor variabilei dependente (reprezentare spaiala) pentru

toate categoriile de subieci, luate mpreun.

11.TESTE STATISTICE PENTRU DATE ORDINALE II11.1.Testul Wilcoxon pentru dou eantioane pereche

Dac avem subieci evaluai de dou ori, pe o scal de interval, iar variabilele

nu ntrunesc condiiile pentru utilizarea testului tal diferenelor pentru eantioane

dependente, se poate apela la testul Wilcoxon. Acesta este un test care, dei se

aplic pe scale de interval/raport, utilizeaza proceduri de tip neparametric, apelnd

la diferenele dintre valorile perechi i la ordonarea lor. Este, din acest punct de

vedere, un test de date ordinale.

11.2.Testul Friedman pentru msurtori repetate

S presupunem c un psiholog dorete s studieze relaia dintre stilurile de

conducere (laissez-faire, democratic i autoritar) asupra nivelului de satisfacie


26/30

profesional. n acest scop el poate constitui un grup de cercetare pe care s l

supun, n momente succesive, celor trei tipuri de conducere. Un alt model ar putea

fi constituirea a trei eantioane perechi, astfel constituite nct fiecrui subiect

dintr-un eantion s i corespund cte un subiect "echivalent" din fiecare dintrecelelalte dou eantioane (criteriile de echivalen pot fi: sexul, vrsta, nivelul de

inteligen, gradul de motivare, etc.).

Dar, oricare dintre variantele pe care le-ar alege cercetatorul, din punct de

vedere statistic el ar obine o structur de date identic: trei serii de evaluari ale

satisfaciei (variabila dependent), pentru aceiai subieci (sau perechi de subieci)

corespunzatoare celor trei stiluri de conducere. Dac variabila dependent ar fi

masurat pe o scala de interval/raport, testul parametric adecvat este, "ANOVA

pentru msurri repetate". n lipsa lui i presupunnd ca variabila dependent nu

ntrunete conditiile unui test parametric, soluia problemei este testul Friedman

pentru date ordinale. Pentru aplicarea lui este suficient ca valorile variabilei

dependente s fie ordonate dup rang, ca n tabelul alturat. Facem precizarea c,

n acest caz, ordonarea dup rang se face la nivelul fiecrui set de evaluri perechi:

Testul Friedman poate fi aplicat i n cazul a doar dou msurri, situaie n

care devine similar testului semnului. La fel ca i celelalte teste pentru date

ordinale, el este afectat de existena rangurilor atribuite ex-aequo, pentru valori

identice. n astfel de cazuri este recomandabil aplicarea unei corecii formulei de

calcul, pe care nu o vom prezenta aici, n sperana c utilizarea programelor

specializate va face, oricum, coreciile necesare.

12.TESTE STATISTICE PENTRU DATE ORDINALE III12.1.Coeficientul de corelaie pentru date ordinale


27/30

Testele Wilcoxon i Friedman sunt utilizate pentru a pune n eviden

diferenele dintre dou sau mai multe eantioane perechi (situaie care, de regul,

se refer la msurri repetate pe aceiai subieci). Atunci cnd avem dou variabile

ordinale i suntem interesai n evaluarea gradului de asociere ntre ele, vom utilizaun test similar coeficientului de corelaie pentru date de interval care este

coeficientul de corelaie a rangurilor (Spearman).

Aa cum ne amintim, coeficientul de corelaie Pearson (r) ne d msura

intensitii legturii dintre dou variabile exprimate pe scale de tip interval/raport.

Mecanismul de calcul se bazeaz pe transformarea valorilor ambelor variabile n

scoruri z, adic pe convertirea acestora n "distan standard" fa de medie. Pentru

datele de tip ordinal, modalitatea de calcul a coeficientului de corelaie se bazeaz

pe poziia relativ a unei valori fa de celelalte. Coeficientul de corelaie a

rangurilor Spearman (rS) are acelai domeniu de variaie (-1/+1) i se

interpreteaz n acelai mod ca i coeficientul de corelaie pentru date parametrice

Pearson.

Dac nivelul de semnificaie (p) este mai mare dect 0.05, coeficientul de

corelaie va fi considerat nesemnificativ (are anse prea mari s rezulte din jocul

ntmplrii). Aceasta nu nseamn c nu exist o corelaie ntre cele dou variabile

ci doar c datele noastre nu au putut s o pun n eviden.

Calcularea coeficientului de determinare (r2) n cazul corelaiei Spearman nu

este recomandabil, dei exist autori care o accept.

13.INTEGRAREA ANALIZEI STATISTICE A DATELOR NDOCUMENTUL DE CERCETARE I

13.1. Alegerea testului statisticn statistic, cel mai simplu este s aplici formula i s calculezi

rezultatul. Dificultatea const n a alege formula i a interpreta rezultatul.


28/30

Alegerea testului statistic potrivit este adesea una din ncercrile cele mai

mari prin care trece un tnr cercettor. Alegerea testului statistic nu este prima, ci

ultima problem pe care trebuie s o rezolve. Pentru a rezolva aceast problem

sunt necesare att cunotine de metodologia cercetrii, ct i o experien destul dendelungat n prelucrarea datelor. Totui, situaia poate fi mult uurat dac se

urmeaz o serie de raionamente i reguli de baz, precum:

- Formularea ipotezelor;- Identificarea variabilelor cercetrii;- Recoltarea datelor cercetrii;- Sintetizarea datelor cercetrii;- Alegerea testului statistic adecvat.

Obiectivulcercetrii

Variabila independent Variabiladependent

Testul statisticaplicabil

Diferenadintre

grupuri

Categorial(numr decategorii)

Una -I/R

z/t pentru uneantion

Nominalz pentru oproporie

Dou

Independente

I/Rt pentru

eantioane

independenteNominal

z pentru douproporii

OrdinalMann-Whitney

U

DependenteI/R

t pentrueantioanedependente

Nominal Testul semnuluiOrdinal Wilcoxon

Trei +Independente

I/RANOVA

unifactorialOrdinal Kruskal-Wallis

DependenteI/R

ANOVA pentrumsurtori

repetateOrdinal Friedman

Asociereavariabilelor

Interval/Raport I/R r PearsonOrdinal Ordinal rs Spearman


29/30

Categorial (nominal sau ordinal)Categorial

(N/O)

Chi-ptratTestul exact

Fisher

13.2. Reguli de fixare a mrimii eantioanelor de cercetareAlegerea mrimii eantionului, n contextul diferitelor modele de cercetare, este un

subiect ce trebuie tratat cu atenie, dac dorim s asigurm cercetrilor noastre

consisten sub aspectul puterii i al mrimii efectului. Reputatul psihometrician

Jacob Cohen i aduce aminte cum a nvat n facultate c pentru a compara dou

grupuri trebuie utilizate eantioane a cte 30 de subieci, orice eantion mai mic de30 fiind considerat eantion mic. Concluzia este c puterea testului i mrimea

efectului sunt strns legate de mrimea eantionului.

14.INTEGRAREA ANALIZEI STATISTICE A DATELOR NDOCUMENTUL DE CERCETARE II

14.1. Integrarea analizei statistice n documentul de cercetare- Prezentarea cadrului general al cercetrii exprimarea clar a tipului de

studiu statistic efectuat, a obiectivelor urmrite, redarea ipotezei cercetrii,

definirea clar a populaiei i a eantionului supus cercetrii;

- Prezentarea metodei i a lotului de subieci identificarea variabileloranalizate, a instrumentelor de cercetare, a procedurii de investigare;

- Prelucrarea datelor analiza primar a datelor, verificarea ipotezelorstatistice, alegerea procedurilor statistice minime necesare, testareaipotezelor, atenie la problema variabilelor multiple, reinere fa de

declararea relaiei cauzale, tabele i figuri;

- Discutarea i interpretarea rezultatelor interpretarea semnificaiei statistice;- Formularea concluziilor


30/30

14.2. Consideraii etice n analiza statisticValoarea unei cercetri tiinifice este condiionat n mod direct de

msura n care respect criteriile etice ale comunitii profesionale.

Aspecte relevante cu privire la utilitarea programelor statistice de prelucrarea datelor:

- Standarde de competen;- Corectitudinea datelor;- Transmiterea datelor;- Protejarea datelor;- Onestitatea tiinific;- Buna conduit n cercetarea tiinific.

Bibilografie:

OPARIUC-DAN, Cristian Statistic aplicat n tiinele socio-umane,Editura ASCR, Cluj-Napoca, 2009;

POPA, Marian Statistic pentru psihologie, Editura Polirom, Iai, 2008; POPA, Marian Statistici multivariate, Editura Polirom, Iai, 2010;

SAVA, Nicu-Ionel Suport de curs Modele i programe de analiz adatelor, Universitatea Andrei aguna, Constanta, 2011;

SAVA, Florin Analiza datelor n cercetarea. Metode statisticecomplementare, Editura ASCR, Cluj-Napoca, 2004.

Documents

Note de Curs Modele Si Programe de Analiza a Datelor