Note de Curs Modele Si Programe de Analiza a Datelor

Embed Size (px)

Citation preview

  • 7/30/2019 Note de Curs Modele Si Programe de Analiza a Datelor

    1/30

    UNIVERSITATEA ANDREI AGUNA CONSTANA

    MODELE SI PROGRAME DE ANALIZ A DATELOR

    Note de curs

    LECT.UNIV.DR. NICU IONEL SAVA

    CONSTANA

    2012

  • 7/30/2019 Note de Curs Modele Si Programe de Analiza a Datelor

    2/30

    1. ELEMENTE DE STATISTIC DESCRIPTIV I1.1. Modaliti de msurare a variabilelor

    Thorndike afirma c "tot ceea ce exist se gsete ntr-o anumit cantitate".

    McCall merge mai departe afirmnd ca "tot ce se gsete ntr-o anumit cantitate

    poate fi msurat".

    Prin variabil se nelege o anumit categorie care a fost cuantificat sau

    msurat. Cea mai ntlnit clasificare a lor, mparte variabilele n patru tipuri:

    nominale (categoriale), ordinale, de tip interval i de tip raport. Primele dou tipurisunt calitative, ultimele dou cantitative (numerice).

    Scalele nominale reprezint un prim mod de msurare a variabilelor.

    Presupune o categorizare a variabilei fr a indica o anumit ordine ori cantitate.

    Variabila sex: masculin vs. feminin; Starea civil: cstorit, divorat, vduv,

    necstorit; reprezint exemple de scal nominal. Ele pot fi notate cu cifre (0-

    feminin; 1-masculin) ns acestea nu pot fi procesate n termeni de cantitate sauordine.

    Scalele ordinale sunt tot calitative. n acest caz, numerele sunt ierarhii i

    exprim locul sau ordinea ntr-un ir de date. Un exemplu banal este locul ocupat

    de cineva la o competiie anumit (primul, al doilea, , ultimul). n acest caz,

    numerele pot fi comparate ntre ele n termeni de "mai mult, mai puin sau egal".

    Trebuie ns subliniat valoarea ordinal a numerelor. Dac un subiect ocup loculdoi, nu putem spune c el este la egal distan ntre locul unu i locul trei. S lum

    exemplul unui student care a obtinut 9,80 la examenul de admitere i a ocupat locul

    al doilea. Locul unu ar fi ocupat de un alt student care a avut media de 9.85, n

    timp ce pe locul trei s-a situat o persoan cu media 9.30. n cazul datelor ordinale,

  • 7/30/2019 Note de Curs Modele Si Programe de Analiza a Datelor

    3/30

    diferena numeric n clasament nu este necesar egal cu diferena numeric

    exprimat n unitatea de msur utilizat n acel caz (cinci sutimi, respectiv

    cincizeci de sutimi).

    Cele doua tipuri de masuratori amintite pna acum presupun ntotdeaunautilizarea unor teste statistice neparametrice.

    Un al treilea tip de scal este de interval. Acest tip de msuratoare permite

    comparaia dintre date. Diferena dintre dou rezultate 4 si 2 este egal cu diferena

    dintre 6 si 4. n cazul unui test de inteligena diferena ntre 100 IQ si 50 IQ este

    egal cu diferena dintre 100 IQ i 150 IQ. Deficiena major a acestei scale este c

    valorile respective nu pot fi multiplicate sau divizate. Astfel noi nu putem

    concluziona c un subiect care a obinut 150 IQ este de 1,5 ori mai inteligent dect

    un altul care a obinut 100 IQ i nici de 3 ori mai inteligent dect unul care a

    obtinut 50 IQ.

    Cele mai multe instrumente psihometrice sau educaionale implicate n msurarea

    variabilelor cognitive sau comportamentale se gsesc la aceste trei nivele

    (nominale, ordinale, de interval).

    Un ultim tip de msurtori sunt scalele de raport. Acestea posed toate

    calitile unei scale de interval i are n plus dou noi. Permite multiplicarea sau

    divizarea datelor (2 kg sunt jumatate din 4kg i dublul unui kg). Acest tip de

    msurare indic de asemenea valoarea zero absolut, ce arat lipsa total a cantitii

    msurate. Cele mai multe caracteristici fizice (greutate; nlime; timp de reacie;

    nivelul adrenalinei) pot fi msurate astfel.

    Ultimele dou tipuri de scale (de interval, respectiv de raport) sunt expresiicantitative ale variabilelor care pot fi supuse analizei statisticii parametrice cu mici

    excepii.

    Pentru a aplica tehnicile de statistic parametric n cazul variabilelor msurate

  • 7/30/2019 Note de Curs Modele Si Programe de Analiza a Datelor

    4/30

    prin scale numerice (de interval sau de raport) trebuie s vedem dac:

    Variabilele implicate sunt distribuite normal n cazul eantionului selectat;

    Dispersia variabilelor de interes n cadrul eantionului selectat trebuie s fie

    asemntoare cu dispersia variabilei pentru ntreaga populaie care ndeplinetecaracteristicile eantionului.

    n plus, unele metode parametrice necesit condiii suplimentare.

    Dac condiiile sunt ndeplinite, este de preferat s utilizm tehnicile parametrice

    (cantitative) deoarece sunt mai solide. Aceasta nseamn creterea ansei de a

    respinge o fals ipotez nula.

    1.2. Analiza descriptiv univariatDescrierea unui set de date necesit cel puin doi poarametri. Unul vizeaz

    tendina central a datelor, adic gsirea unei valori reprezentative pentru setul

    respectiv de date, iar cellat vizeaz gradul de mprtiere a datelor, urmrind

    omogenitatea sau eterogenitatea unui grup.

    In funcie de scalele de msurare utilizate se stabilete i parametrul tendinei

    centrale, respectiv al mprtierii datelor care ar trebui calculat.

    ntre parametrii mprtierii, abaterea standard i dispersia sunt cei mai

    ntlnii n cazul datelor numerice, iar abaterea intercuartil este mai des utilizat n

    cazul datelor msurate prin scale ordinale. n ceea ce privete datele nominale,

    situaia indicatorilor mprtierii este neclar. Indicatori

    precum entropia, indicele de fragmentare, indicele de diversitate sau cel al

    dispersiei calitative sunt aproape necunoscui i lipsesc cu desvrire dinprogramele statistice pe calculator, n consecin, rspndirea lor este minim,

    majoritatea cercettorilor rezumndu-se la a urmri distribuia procentajelor pentru

    fiecare rspuns posibil.

  • 7/30/2019 Note de Curs Modele Si Programe de Analiza a Datelor

    5/30

    n general, indicatorii mprtierii iau valoarea zero dac toate datele dintr-un set

    sunt identice. Cu ct datele sunt mai mprtiate (diferite), cu att valorile

    acestor indicatori sunt mai mari.

    n cazul datelor numerice, cel mai frecvent ntlnit pereche de parametri decriptivieste media, ca indicatori al tendinei centrale, i abaterea standard, ca indicator al

    mprtierii datelor. Acesti parametri au cele mai multe avantaje tehnice,

    permind realizarea mai multor operaii precum standardizarea datelor,

    clasificarea rspunsurilor etc.

    Totui n anumite situaii media i abaterea standard pot conduce la rezultate

    distorsionate, iar pentru a evita acest lucru este esenial s inspecftm grafic

    situaia rezultatelor obinute.

    2. ELEMENTE DE STATISTIC DESCRIPTIV II2.1. Analiza descriptiv bivariat

    n cazul n care dou variabile sunt analizate simultan, vorbim de o statistic

    bivariat. Cei mai importani indicatori descriptivi n aceast direcie sunt

    indicatorii de asociere. Asocierea sau relaionarea dintre dou variabile poate fi

    neleas prin termenii de covarian i independen. Dou variabile covariaz

    dac valorile uneia variaz mpreun cu valorile celeilate. n realitate se pot

    constata tot felul de astfel de legturi. Conceptul de independen este opus celui

    de covarian. Atunci cnd valorile a dou variabile nu se asociaz se poate spune

    c cele dou variabile sunt independente.

    Pentru a vedea gradul de covariaie dintre dou variabile avem la dispoziie treielemente descriptive:

    a. Calcularea coeficienilor de corelaie ca indicatori de asociere;b. Reprezentarea grafic a norului de puncte;

  • 7/30/2019 Note de Curs Modele Si Programe de Analiza a Datelor

    6/30

    c. Realizarea de tabele de contingen.

    2.1.1. Coeficienii de corelaie

    Indicatorii descriptivi care arat gradul de covariaie dintre dou variabile suntdenumii coeficieni de corelaie. Corelaia este o form standardizat a covariaiei,

    eliminnd problema msurrii datelor prin scale diferite.

    Exist mai muli coeficieni de corelaie, selectarea lor fcndu-se n funcie de

    tipul de date colectate (nominale dihotomice, nominale cu mai mult de dou

    categorii, ordinale sau numerice), dar i de liniaritatea (monotonia) relaiei dintre

    dou variabile.

    Coeficienii de corelaie sunt indicatori descriptivi ce arat gradul de covariaie

    dintre dou variabile. Ei reflect gradul de variaie concomitent dintre dou i

    numai dou variabile: o singur variabil independent ( X) i o singur variabil

    dependent (Y).

    Cnd cele dou variabile covariaz n acelai sens, vorbim despre ocorelaie

    pozitiv (ex. cu ct timpul alocat pregtirii examenului de statistic este mai mare,

    cu att nota obinut la evaluarea final este mai bun).

    Dac asocierea este n direcii opuse (n timp ce o variabil crete, cealalt

    scade), discutm despre ocorelaie negativ. (ex. performana unui angajat la un

    test de atenie concentrat este cu att mai bun cu ct numrul de erori este mai

    mic).Se impune o precizare. Spre deosebire de experiment, care dezvluie relaii

    cauz-efect, studiul de corelaie nu ofer nemijlocit o msur a cauzalitii, ci pur

    i simplu a modului de asociere.Coeficientul de corelaie este un index al prezenei/absenei unei relaii ntre

    dou variabile i nu un index al unei relaii cauzale. Corelaia ns este implicat n

    predicie. O corelaie semnificativ (mare) ntre X i Y ne poate spune, cu diferite

  • 7/30/2019 Note de Curs Modele Si Programe de Analiza a Datelor

    7/30

    grade de precizie c prin cunoaterea valorii uneia dintre cele dou variabile,

    putem s estimm valoarea celeilalte (ex. dac scorurile la unele scale din CPI (Y )

    sunt ridicate, atunci i performanele managerial ( X) se poate estima c vor fi

    ridicate; condiia este ca ntre cele dou variabile s existe o corelaiesemnificativ.

    Coeficienii de corelaie se mpart n dou mari categorii:-coeficieni de

    corelaie parametrici: coeficientul Bravais-Pearson (r), biserial (r bis), punct

    biserial (r pbis);- coeficieni de corelaie neparametrici: coeficientul de corelaie

    arangurilor Spearman (), coeficientul Kendall (), .n funcie de tipul datelor

    colectate i de liniaritatea/monotonia relaiei dintre cele dou variabile, tratatele de

    statistic prezint o multitudine de coeficieni de corelaie.

    Cel mai ntlnit coeficient statistic utilizat n studiile corelaionale este r

    Bravais-Pearson, cunoscut i sub alte denumiri precum: coeficientul de corelaie

    liniar simpl, coeficientul r de ordinul zero etc. Acest coeficient r poate lua valori

    ntre -1 si +1, unde 0 semnific absena relaiei dintre cele dou variabile analizate.

    Pentru a apela la r Bravais-Pearson, pe lng caracterul numeric al datelor

    colectate, mai este nevoie ca relaia dintre cele dou variabile s fie liniari ca

    norul de puncte s indice o situaie de homoscedasticitate (pentru detalii vezi Sava,

    2004).

    3. STATISTIC INFERENIAL3.1. Ipoteza nulIpoteza statistic este ipoteza care se face cu privire la parametrul unei

    repartiii sau la legea de repartiie pe care o urmeaz anumite variabile aleatoare.

    O ipotez statistic nu este neaprat adevrat.

  • 7/30/2019 Note de Curs Modele Si Programe de Analiza a Datelor

    8/30

    Ea poate fi corect sau greit.

    n statistic, ipotezele apar ntotdeauna n perechi: ipoteza nul i ipoteza

    alternativ. Ipoteza statistic ce urmeaz a fi testat se numete ipotez nuli este

    notat, uzual, H0. Ea const ntotdeauna n admiterea caracterului ntmpltor aldeosebirilor, adic n presupunerea c nu exist deosebiri eseniale. Respingerea

    ipotezei nule care este testat implic acceptarea unei alte ipoteze. Aceast alt

    ipotez este numit ipotez alternativ, notat H1. Cele dou ipoteze reprezint

    teorii, mutual exclusive i exhaustive, asupra valorii parametrului populaiei sau

    legii de repartiie. Spunem c ele sunt mutual exclusive deoarece este imposibil ca

    ambele ipoteze s fie adevrate. Spunem c ele sunt exhaustive deoarece acoper

    toate posibilitile, adic ori ipoteza nul, ori ipoteza alternativ trebuie s fie

    adevrat.

    Procedeul de verificare a unei ipoteze statistice se numete test sau criteriu de

    semnificaie. O secven general de pai se aplic la toate situaiile de testare a

    ipotezelor statistice. Exist patru componente principale ale unui test privind o

    ipotez:

    ipoteza nul;

    ipoteza alternativ;

    testul statistic;

    regiunea critic (de respingere).

    Ipotezele se vor schimba, tehnicile statistice aplicate se vor schimba, dar procesul

    rmne acelai, parcurgndu-se urmtorii pai:

    1) Se identific ipoteza statistic special despre parametrul populaiei sau legea derepartiie (H0). Ipoteza statistic numiti ipotez nul specific ntotdeauna o

    singur valoare a parametrului populaiei i reprezint status-quo-ul, ceea ce este

    acceptat pn se dovedete a fi fals.

  • 7/30/2019 Note de Curs Modele Si Programe de Analiza a Datelor

    9/30

    2) ntotdeauna ipoteza nul este nsoit de ipoteza alternativ (de cercetat), H1, ce

    reprezint o teorie care contrazice ipoteza nul. Ea va fi acceptat doar cnd exist

    suficiente dovezi, evidene, pentru a se stabili c este adevrat. Ipoteza alternativ

    este cea mai important, deoarece este ipoteza care ne rspunde la ntrebare.Ipoteza alternativ poate cpta trei forme, care rspund la trei tipuri de ntrebri

    referitoare la parametrul studiat:

    - dac parametrul este diferit (mai mare sau mai mic) dect valoarea specificat n

    ipoteza nul;

    - dac parametrul este mai mare dect valoarea specificat n ipoteza nul;

    - dac parametrul este mai mic dect valoarea specificat n ipoteza nul;

    3) Se calculeaz indicatorii statistici n eantion, utilizai pentru a accepta sau a

    respinge ipoteza nuli se determin testul statistic ce va fi utilizat drept criteriu de

    acceptare sau de respingere a ipotezei nule. Pentru cele mai multe testri statistice

    ale ipotezelor, testul statistic este derivat din estimatorul punctual al parametrului

    ce va fi testat. Spre exemplu, deoarece media eantionului este un estimator

    punctual al mediei din colectivitatea general, ea va fi utilizat n testarea

    ipotezelor privind parametrul media colectivitii generale.

    4) Se stabilete regiunea critic, Rc. Regiunea critic reprezint valorile numerice

    ale testului statistic pentru care ipoteza nul va fi respins. Regiunea critic este

    astfel aleas nct probabilitatea ca ea s conin testul statistic, cnd ipoteza nul

    este adevrat, s fie , cu mic (=0.01 etc). Verificarea ipotezei nule se face pe

    baza unui eantion de volum n, extras din populaia X, care este o variabil

    aleatoare. Dac punctul definit de vectorul de sondaj x1,x2,,xn cade n regiuneacritic Rc, ipoteza H0 se respinge, iar dac punctul cade n afara regiunii critice Rc,

    ipoteza H0 se accept. Regiunea critic este delimitat de valoarea critic, C

    punctul de tietur n stabilirea acesteia. n baza legii numerelor mari, numai ntr-

  • 7/30/2019 Note de Curs Modele Si Programe de Analiza a Datelor

    10/30

    un numr foarte mic de cazuri punctul rezultat din sondaj va cdea n Rc,

    majoritatea vor cdea n afara regiunii critice. Nu este ns exclus ca punctul din

    sondaj s cad n regiunea critic, cu toate c ipoteza nul despre parametrul

    populaiei este adevrat. Cu alte cuvinte, atunci cnd respingem ipoteza nul,trebuie s ne gndim de dou ori, deoarece exist dou posibiliti: ea este fals

    ntr-adevr i ea este totui adevrat, dei pe baza datelor din sondaj o respingem.

    3.2. Mrimea efectuluiAducem spre exmplificare doi indicatori de baz: r, respectiv r. Primul are

    ntotdeauna o valoare egal cu cea a coeficientului de corelaie r Bravais-Pearson,

    fiind astfel extrem de uor de calculat. Cel de-al doilea indicator este egal cu

    ptratul primului indicator (r*r). De remarcat este faptul c, dei ridicat la ptrat, r

    poate pstra semnul negativ dac avem de-a face cu o ipotez unilateral care

    specific asocierea invers ntre dou variabile, pentru a pstra tipul de relaie

    dintre acestea.

    Majoritatea cercettorilor apeleaz la cel de-al doilea indicator n

    interpretarea rezultatelor din perspectiva mrimii efectului. Astfel, un r = .16

    (echivalent unui r de .40), reflectnd legtura dintre nivelul de inteligeni reuita

    colar a elevilor, este interpretat adesea n termeni procentuali. n cazul de fa , ar

    nsemna c 16% din variaia rezultatelor colare poate fi pus pe seama

    diferenelor n ceea ce privete inteligena elevilor. Dei logic ar fi s afirmm c

    inteligena influeneaz performana colar, corelaia n sine nu ne poate

    demonstra cauzalitatea acestei relaii.Chiar dac o asemenea valoare de 16% (corespunzatoare unui r egal cu .16,

    respectiv unui r de .40) pare destul de redus, interpretarea trebuie realizat n

    termeni relativi i nu absolui. Astfel, deoarece ne aflm n cazul tiintelor sociale

  • 7/30/2019 Note de Curs Modele Si Programe de Analiza a Datelor

    11/30

    n care corelaiile mari (r > .50) sunt destul de rare, un asemenea rezultat (r = .16)

    poate indica o legtur destul de strns ntre cele dou variabile implicate.

    Cohen (1988) propune urmatoarele valori pentru r, respectiv r, n interpretarea

    magnitudinii mrimii efectului:efect sczut (r = .10, r = .01);

    efect mediu (r = .30, r = .09);

    efect puternic (r = .50, r = .25).

    Pentru exemplul oferit am putea afirma c, din punct de vedere practic,

    relaia dintre inteligen i reuita colar are o intensitate de magnitudine

    moderat spre puternic, fapt ce presupune consecine sesizabile n plan practic,

    care ar trebui luate n calcul.

    n plus, dacinem seama de transformrile din r n d i viceversa, am putea

    stabili chiar valori mai mici ale lui r i r pentru cele trei nivele de intensitate ale

    mrimii efectului. Astfel, am putea vorbi de:

    efect sczut (r = .10, r = .01, corespunztoare unui d = .20);

    efect mediu (r = .25, r = .06, corespunztoare unui d = .50);

    efect puternic (r = .37, r = .14, corespunztoare unui d = .80).

    Ambele clasificri pot fi utilizate n interpretarea acestor indicatori de

    mrime a efectului, alegerea aparinnd utilizatorului n funcie de preferina avut.

    n afara acestor doi indicatori de baz pentru cazul r simplu, PowerStaTim

    ofer celor interesai ali doi indicatori suplimentari (d Cohen si g Hedges),

    specifici situaiei de comparare a diferenelor dintre grupuri. Acetia vin n

    sprijinul celor interesai s uniformizeze calculul mrimii efectului, utilizndaceeai unitate de msur sau n spijinul celor familiarizai doar cu indicatorii

    mrimii efectului bazai pe diferenele standardizate dintre medii.

  • 7/30/2019 Note de Curs Modele Si Programe de Analiza a Datelor

    12/30

    4. STATISTIC INFERENIAL II4.1. Puterea statistic a unei cercetri

    Imaginai-v puterea statistic drept o capacitate de a detecta vizual fenomene.

    Dac puterea statistic este mic, va fi dificil s observm fenomenele de interes ivom concluziona, poate, c fenomenele respective nu exist. Acest lucru s-ar

    ntmpla datorit capacitii noastre reduse de detectare vizual a fenomenului n

    cauz. n schimb, dac vom reui s ne mbuntim aparatele de detectare a

    fenomenului, adic s cretem puterea statistic a unei cercetri, vom avea mai

    multe anse s detectm fenomenele ateptate. Mai mult, n situaii n care puterea

    statistic a devenit foarte mare, vom putea detecta orice fenomene, inclusiv pe

    acelea minuscule sau insignifiante.

    n practic se ntmpl mai rar acest lucru, deoarece majoritatea studiilor

    sufer de o putere statistic sczut. De altfel, Tversky si Kahneman (1993) sau

    Smith (2000) reamintesc de un studiu mai vechi a lui Cohen, care identifica, in

    studiile publicate in diverse reviste de specialitate, o valoare mediana a puterii

    statistice de .46. Acest rezultat este mult sub valoarea optim prescris de .80.

    Situaia nu s-a schimbat de atunci, rezultate modeste, similare fiind obinute i

    dup 25 de ani de la efectuarea acelui studiu (Cohen, 1990).

    Puterea statistic poate fi determinat foarte uor dac inem seama de

    valoarea lui (riscul de a comite eroarea de tip II), deoarece puterea statistic este

    egal cu 1 . Astfel, dac vom alege un de .20, puterea statistic a cercetrii

    respective va fi de .80, ceea ce semnific o probabilitate de 80% de a detecta un

    efect dac acesta exist.Importana practic a puterii statistice este capital n construcia

    designului de cercetare, deoarece puterea statistic a unei cercetri poate fi

    modificat n funcie de trei parametri importani:

  • 7/30/2019 Note de Curs Modele Si Programe de Analiza a Datelor

    13/30

    - mrimea efectului (Ct de mare trebuie s fie un efect sau o relaie dintredou variabile?);

    - mrimea eantionului (De ci subieci avem nevoie pentru a observafenomenul de interes?);

    - valoarea (Care este pragul de semnificaie de la care vom respinge ipotezastatistic?).

    De asemenea, fiind o ecuaie format din patru parametri: puterea statistic,

    mrimea efectului, pragul de semnificaie ales i mrimea eantionului (erorile de

    msurare) putem deduce oricare indicator lips. Astfel, putem estima numrul de

    subieci necesari pentru a fi testai dac cunoatem mrimea efectului studiat, dac

    stabilim pragul de semnificaie sub care respingem ipoteza nul (de pild p de .05)

    i dac alegem o putere optim de .80 de a verifica ipoteza formulat.

    Similar, pe baza numrului de subieci testai, a mrimii efectului observat,

    i a pragului de semnificaie prestabilit se poate calcula puterea statistic a unui

    studiu.

    4.2.Grade de libertateGradele de libertate nsoesc ntotdeauna rezultatele statisticii infereniale. APA

    (2001) recomand ca n articolele de specialitate s se regseasc exprimri de

    genul

    t (23) = 4,11, p < .01, F (2, 20) = 1,73, P > .05

    Dac t sau F reprezint simboluri ale tehnicilor statistice utilizate, iar p este

    pragul de semnificaie asociat acestor valori, datele din parantez nseamn

    coordonatele gradelor de libertate. n varianta clasic, aceste coordonate ne ajutau

    s descoperim valorile statistice din tabel care trebuie comparate cu valorile

    calculate de noi. O dat cu apariia statisticii pe calculator, acest lucru a devenit un

    atavism, deoarece pragul de semnificaie este oferit de calculator, mpreun cu

  • 7/30/2019 Note de Curs Modele Si Programe de Analiza a Datelor

    14/30

    rezultatele obinute.

    Ce sunt de fapt gradele de libertate?

    Yu (2003) afirma c aceste grade de libertate nu au nimic de a face cu

    cstoria, dei un brbat nsurat, avnd o singur partener, nu mai are nici un gradde libertate. Acelai autor ofer o excelent explicaie intuitiv pentru gradele de

    libertate pornind de la elementele eseniale ce intervin n determinarea lor: volumul

    eantionului, respectiv numrul de parametri care trebuie calculai. Fr a avea

    caracter de lege, gradele de libertate pot fi exprimate frecvent prin numrul de

    observaii minus numrul de relaii necesare pentru a obine acele date (n r).

    5. TESTE STATISTICE PARAMETRICE PENTRU DATE CANTITATIVEI

    5.1.Testul t pentru eantioane independenteCondiii de aplicare:

    - Eantioane aleatorii (ideal) sau neafectate de erori de eantionare (bias);- Eantioane independente (distincte din punctul de vedere al variabilei

    independente, care determin constituirea grupurilor);

    - Variabila supus msurrii se distribuie normal n ambele populaii. Aceastagaranteaz c i distribuia diferenelor dintre medii se distribuie normal.

    Totui, teorema limitei centrale ne permite asumarea normalitii didtribuiei

    mediei de eantionare chiar i n cazul variabilelor care nu se distribuie

    normal la nivelul populaiei, pentru eantioane mari. Dac ns analiza

    distribuiilor indic forme aberante, iar volumul grupurilor comparate estefoarte mic, se va alege soluia unui test neparametric. De menionat este

    faptul c testele t sunt robuste la nclcarea condiiilor de normalitate.

    - Dispersia celor dou eantioane este omogen. Testul t poate fi aplicat strict

  • 7/30/2019 Note de Curs Modele Si Programe de Analiza a Datelor

    15/30

    n cazurile n care dispersiile celor dou populaii sunt aceleai;

    La publicarea testului t pentru diferena dintre mediile a dou

    eantioane independente vor fi menionate:

    - Mediile i abaterile standard ale fiecrui eantion;- Volumul eantioanelor sau gradele de libertate;- Valoarea testului;- Nivelul lui p;- Mrimea efectului;- Limitele de ncredere pentru diferena dintre medii.

    Concluzii:

    - Testul t pentru eantioane independente verific semnificaia difereneidintre mediile a dou eantioane formate din subieci diferii, care au fost

    evaluate n condiii distincte;

    - n condiiile acestui test, se consider o variabil dependent cantitativi ovariabil independent calitativ, nominal, dihotomic (mparte eantionul

    cercetrii n dou grupuri);

    - Respingerea ipotezei de nul n acest caz nseamn acceptarea ipotezei c celedou medii sunt diferite, ceea ce este echivalent cu acceptarea ipotezei

    cercetrii, care afirm existena unei relaii ntre condiia testrii i rezultatul

    msurat prin variabila dependent;

    - Intervalul de ncredere pentru diferena dintre medii reprezint limitele ntrecare se afl diferena mediilor la nivelul populaiilor de nul. Cu ct intervalul

    este mai restrns, cu att diferena constatat ntre grupurile comparate estemai precis n estimarea diferenei reale;

    - Valoarea calculat a testului nu se interpreteaz n nici un fel;- Pentru a estima importana diferenei dintre medii, se calculeaz indicele de

  • 7/30/2019 Note de Curs Modele Si Programe de Analiza a Datelor

    16/30

    mrime a efectului. Cu ct acesta este mai mare, cu att diferena dintre

    medii este mai important;

    - Testul t ofer o informaie referitoare la posibilitatea ca diferena s fientmpltoare, n timp ce mrimea efectului ne spune ct de mare este acestdiferen.

    6. TESTE STATISTICE PARAMETRICE PENTRU DATE CANTITATIVEII

    6.1.Testarea diferenei dintre mai mult de dou medii: analiza de

    varian (ANOVA Analysis Of VAriance)

    Exist mai multe tipuri de ANOVA, dou dintre ele fiind mai frecvent

    folosite:

    - ANOVA unifactorial (One-way ANOVA) atunci cnd avem o variabildependent msurat pe o scal de interval/raport msurat pentru trei sau

    mai multe valori ale unei variabile independente categoriale;

    - ANOVA multifactorial care se aplic cnd avem o singur variabildependent, dar dou sau mai multe variabile independente, fiecare cu cte

    dou sau mai multe valori, msurate pe o scal categorial (nominal sau

    ordinal).

    ANOVA este o procedur de comparare a mediilor eantioanelor. Specificul rezid

    din faptul c n locul diferenei directe dintre medii se utilizeaz dispersia lor,

    gradul de mprtiere.

    Condiii pentru utilizarea testului ANOVA:- Independena eantioanelor (grupurilor supuse comparaiei);- Normalitatea distribuiei de eantionare, n conformitate cu teorema limitei

    centrale;

  • 7/30/2019 Note de Curs Modele Si Programe de Analiza a Datelor

    17/30

    - Absena valorilor extreme (outliers);- Egalitatea varianei grupurilor comparate.

    n raportul de publicare ANOVA vor fi descrise grupurile (categoriile)

    comparate, mediile lor, valoarea testului F cu numrul gradelor de libertate ipragul de semnificaie al testului. La aceasta se adaug indicele de mrime a

    efectului.

    Concluzii:

    - Analiza de varian (ANOVA) testeaz diferena dintre mediile a mai multde dou medii obinute pe eantioane independente;

    - Semnificaia diferenei dintre medii se testeaz prin analiza variabilitii lor;- ANOVA este necesar n cazul comparrii a mai mult de dou medii,

    deoarece compararea acestora cu ajutorul testului t, dou cte dou este

    nepermis, ca urmare a acumulrii nepermise de eroare de tip I;

    - o valoare semnificativ a testului F ne ndreptete s considerm cdiferena dintre mediile comparate este suficient de mare pentru a nu fi

    ntmpltoare. Aceast concluzie are un caracter global, care privete

    variaia tuturor mediilor, fr a ne spune ceva despre raporturile dintre medii

    una fa de alta.

    - Mrimea efectului pentru testul ANOVA se evalueaz cu ajutorul a maimultor indicatori, dintre care cei mai utilizai sunt eta-ptrat i omega-

    ptrat.

  • 7/30/2019 Note de Curs Modele Si Programe de Analiza a Datelor

    18/30

    7. TESTE STATISTICE PARAMETRICE PENTRU DATE CANTITATIVEIII

    7.1.Testul t pentru diferena dintre mediile a dou eantioanedependente

    Este utilizat atunci cnd vizm comparaia a dou (sau mai multe) valori

    msurate pe aceeai subieci.

    Situaii de utilizare:

    - O anumit caracteristic se msoar naintea unei condiii i dup aciuneaacesteia;

    - Un cercettor utilizeaz dou condiii de investigare, dar plaseaz aceiaisubieci n ambele condiii;

    - Natura situaiei experimentale nu permite utilizarea acelorai subieci pentrucele dou msurtori.

    La publicarea rezultatului se vor meniona: volumul eantionului, mediile

    variabilei dependente n raport cu valorile variabilei independente, valoarea

    testului t, pragul de semnificaie, tipul de test (unilateral sau bilateral), mrimea

    efectului i limitele de ncredere ale diferenei.

    Concluzii:

    - Testul t pentru diferena mediilor a dou eantioane dependente vizeazsituaiile n care aceiai subieci au fost evaluai cu acelai instrument n

    situaii diferite;

    - Variabila independent este reprezentat de condiia n care are locmsurarea iar variabila dependent este trstura care face obiectul

    msurrii, fiind exprimat pe scal cantitativ;

    - Modul de interpretare a testului, calcularea intervalului de ncredere i al

  • 7/30/2019 Note de Curs Modele Si Programe de Analiza a Datelor

    19/30

    mrimii efectului sunt similare testului t pentru eantioane independente.

    8. TESTE STATISTICE PARAMETRICE PENTRU DATECANTITATIVE IV

    8.1.Coeficientul de corelaie liniar Pearson

    Coeficientul de corelaie ofer informaii despre modul cum variaz valorile a

    dou variabile, una n raport cu cealalt, Astfel, coeficientul de corelaie nu are o

    semnificaie cauzal dect dac cele dou variabile au fost msurate ntr-un context

    care probeaz cauzalitatea. Iar acest lucru se petrece numai n condiii de

    experiment.

    Ceea ce exprim r este intensitatea corelaiei liniare, adic msura n care norul

    de puncte reprezentat de intersecia valorilor-pereche ale celor dou variabile poate

    fi reprezentat de o linie dreapt. Asocierea de tip lin iar este ns doar una dintre

    formele de aproximare a legturii dintre variabile. In realitate, uneori corelaia

    dintre dou variabile are o form care se abate de la modelul rectiliniu.

    Spre deosebire de testele t, valoarea testului r este interpretabil prin ea nsi,

    exprimnd intensitatea asocierii dintre variabile. O corelaie perfect fiind atunci

    cnd r este egal cu 1 sau -1.

    Interpretarea coeficientului de corelaie (Hopkins, 2000):

    0,0 0,1 foarte mic, neglijabil, nesubstanial;

    0,1 0,3 Mic, minor;

    0,3 0,5 moderat, mediu;

    0,5 0,7 mare, ridicat, major;0,7 0,9 foarte mare, foarte ridicat;

    0,9 1 aproape perfect.

    Valorile lui r trebuie considerate pe o scal ordinal. Dac dorim s comparm

  • 7/30/2019 Note de Curs Modele Si Programe de Analiza a Datelor

    20/30

    n mod direct doi coeficieni de corelaie, trebuie s ridicm valorile lui r la ptrat,

    obinnd astfel ceea ce se numete coeficient de determinare. Acesta este

    considerat un indicator mai adecvat al mrimii efectului, deoarec e ia valori

    sensibil mai mici dect cele ale coeficientului de corelaie.Pentru a putea utiliza n mod legitim calculul corelaiei, eantionul trebuie s fie

    aleatoriu, iar cele dou variabile s aib o distribuie care s nu se abat grav de la

    distribuia normal. Aceast condiie este cu att mai important cu ct eantionul

    este mai mic. O atenie deosebit trebuie acordat valorilor extreme, prezena lor

    putnd avea efecte neateptate asupra valorii coeficientului de corelaie.

    Analiza de corelaie este una dintre cele mai uzuale proceduri statistice n

    cercetare. Coeficientul de corelaie Pearson nu este singurul test al asocierii

    variabilelor. Exist o varietate de teste de corelaie, pentru situaiile n care

    variabilele cercetate sunt msurate, fiecare, pe orice scal de msurare.

    Raportarea coeficienilor de corelaie va cuprinde, pe lng indicatorii statistici

    descriptivi ai variabilelor (medii, abateri standard, indicatorii simetriei aplatizrii),

    volumul eantionului, valoarea lui r, nivelul de semnificaie i coeficientul de

    determinare r.

    Concluzii:

    - Coeficientul de corelaie Pearson testeaz intensitatea asocierii dintre douvariabile msurate pe aceiai subieci, n condiii diferite sau cu instrumente

    diferite;

    - Coeficientul de corelaie nu este un indicator al relaiei cauzale, ci doar alvariaiei concomitente a valorilor variabilelor testate;

    - Domeniul de variaie al coeficientului r se regsete ntre 1 (corelaieperfect negativ) i +1 (corelaie perfect pozitiv). Valoarea 0 indic

    absena oricrei corelaii;

  • 7/30/2019 Note de Curs Modele Si Programe de Analiza a Datelor

    21/30

    - Coeficientul de corelaie este sensibil la valorile extreme. Cu ct eantionuleste mai mic, cu att efectul eventualelor valori extreme este mai mare;

    - Tipul asocierii surprins de coeficientul Pearson este cel liniar, care nseamnpc, n cazul unor asocieri curbilinii, chiar perfecte, valoarea coeficientuluiPearson (r) poate fi mai mic sau chiar 0;

    - Valoarea coeficientului de corelaie este, prin ea nsi, un indicator demrime a efectului. Totui, n acest scop se utilizeaz coeficientul de

    determinare r;

    - Coeficientul r calculat pe eantion estimeaz corelaia la nivelul populaiei;- Valoarea real a corelaiei la nivelul populaiei nu poate fi cunoscut cu

    precizie, dar poate fi estimat cu ajutorul limitelor de ncredere pentru r.

    9. TESTE NEPARAMETRICE PENTRU DATE NOMINALE9.1.Distribuia binomial

    Distribuia statistic binomial descrie frecvena de apariie a unui anumit

    eveniment de tip dihotomic n contextul unei serii de observaii. Caracteristicile

    distribuiei binomiale difer n funcie de numrul observaiilor (N) i de

    probabilitatea de apariie a evenimentului (P), vzut ca ans teoretic de apariie

    n raport cu toate evenimentele posibile. De exemplu, la aruncarea unei monede o

    singur dat, ansa (probabilitatea) teoretic de apariie a mrcii este P = =

    0,5. Aceeai probabilitate caracterizeazi rspunsul corect, dac rspundem la

    ntmplare la o ntrebare cu dou variante de rspuns, din care una este corect, iar

    alta greit.Odat cu gsirea modalitii de elaborare a distribuiei de nul se pot crea diverse

    teste de inferen statistic, printre care enumerm:

    9.1.1.Testul z pentru proporia unui eantion n raport cu populaia

  • 7/30/2019 Note de Curs Modele Si Programe de Analiza a Datelor

    22/30

    implic testarea semnificaiei unui procent observat n raport cu procentul

    populaiei (atunci cnd acesta este cunoscut), pentru evenimente de tip dihotomic;

    9.1.2.Testul z pentru diferena dintre dou proporii;9.1.3.Testul semnului (denumit astfel pentru c ia n considerare doar

    sensul variaiei, nu i valoarea ei) poate fi utilizat ca substitut al testului t pentru

    eantioane independente n cazul datelor msurate pe scal nominal dihotomic.

    Concluzii:

    - Distribuia binomial deriv din serii de evenimente independentedihotomice. Cele dou posibiliti ale fiecrui eveniment au probabilitile P

    i Q, a cror sum este 1;

    - Cnd P = Q = 0,5 disatribuia binomial este simetric;- Testul semnului poate fi utilizat n locul testului t pentru eantioane

    dependente atunci cnd nivelul diferenei dintre cele dou determinri nu

    poate fi evaluat, ci numai direcia diferenei.

    9.2.Distribuia multinomialEvenimentele de tip binomial au un caracter dihotomic, putnd lua doar dou

    valori. Exist ns i evenimente care pot avea mai mult de dou stri, ceea ce

    poate fi descris prin trei sau mai multe valori. Organizarea datelor se realizeaz

    printr-o reprezentare sintetic tabelul de coresponden (contingen).

    Concluzii:

    - Dac evenimentele probabilistice au mai mult de dou valori, probabilitateacu care fiecare eveniment cade ntr-una din categoriile posibile se supunedistribuiei multinomiale;

    - Din cauza complexitii procesului de evaluare a probabilitilormultinomiale, este utilizat o estimare a acestora prin distribuia chi-ptrat.

  • 7/30/2019 Note de Curs Modele Si Programe de Analiza a Datelor

    23/30

    Numrul gradelor de libertate pentru distribuia multinomial este dat de n

    umrul categoriilor minus 1;

    - Testul chi-ptrat are dou variante: testul chi-ptrat al asocierii testeazdiferena dintre valorile a dou variabile categoriale (nominale sau ordinale);testul chi-ptrat al corespondenei (goodness of fit) msoar diferena

    (potrivirea) dintre valorile unei variabile categoriale i probabilitile

    teoretice cunoscute dinainte ale acestor valori;

    - Diferenele mari dintre frecvenele observate i cele ateptate produc valoriridicate ale testului chi-ptrat, care cad n zona dreapt (pozitiv) a

    distribuiei de nul i conduc la respingerea acesteia. Diferenele mici produc

    valori ale testului chi-ptrat apropiate de zero, conducnd la acceptarea

    ipotezei de nul;

    - Atunci cnd fiecare dintre cele dou variabile are doar dou categorii,situaie n care frecvenele ateptate sunt prea m ici pentru a justifica o

    estimare chi-ptrat, se utilizeaz testul exact Fischer.

    10.TESTE STATISTICE PENTRU DATE ORDINALE ITestele statistice pentru date ordinale se utilizeaz n urmtoarele situaii:

    - Atunci cnd variabile dependent este exprimat pe scal de tip ordinal. nacest caz valorile nu au proprieti de interval, dar exprim poziia fiecreia

    n raport cu cealalt;

    - Atunci cnd variabila dependent este msurat pe scal de interval/raport,dar distribuia ei nurespect condiiile impuse de testele parametrice. naceast situaie se efectueaz o transformare de rang, adic se nlocuiete

    fiecare valoare a distribuiei cu poziia pe care o are n cadrul distribuiei,

    sub aspectul ordinii de mrime. Noua distribuie rezultat poate fi supus

  • 7/30/2019 Note de Curs Modele Si Programe de Analiza a Datelor

    24/30

    analizei statistice cu teste neparametrice ordinale.

    10.1. Testul Mann-Whitney (U) pentru dou eantioaneindependente

    S lum n considerare urmatoarea problem: Un specialist care lucreaz

    ntr-o mare banc dorete s vad dac exist o diferen ntre premiile bneti

    anuale primite de femeile i brbaii angajai ai bncii.

    Problema este una tipic pentru a fi rezolvat cu testult al diferenei dintre

    mediile a dou eantioane independente. Avem o variabil independent de tip

    nominal-dihotomic i una dependent, de tip interval/raport. Din pcate, analiza

    preliminar a variabilei dependente ("prima") relev abateri mari de la condiiile de

    normalitate (un indice de boltire, kurtosys, de peste 7) precum i o slab

    reprezentativitate a mediei, ambele datorate, mai ales, prezenei unei valori

    extreme (o prim de 200 mil. lei). Dup ce verificm corectitudinea valorii

    respective, ajungem la concluzia ca ea nu poate fi eliminati, ca urmare, nu este

    recomandabil utilizarea unui test parametric. ntr-o situaie de acest gen este

    aplicabil testul "Mann-Whitney U" pentru date ordinale. Procedm la

    transformarea n ranguri a valorilor variabilei dependente. Atribuirea rangurilor n

    mod descresctor sau cresctor este nerelevant. Dac toate valorile sunt distincte,

    fiecare valoare primete un rang distinct. Atunci cnd exist valori identice,

    valorile respective primesc un rang egal cu media aritmetic a rangurilor cuvenite.

    La publicarea rezultatului pentru testul Mann-Whitney U se vor indica:

    - volumul grupurilor comparate (nA si nB)- valoarea testului (U)

    - pragul de semnificatie (p).

  • 7/30/2019 Note de Curs Modele Si Programe de Analiza a Datelor

    25/30

    10.2. Testul Kruskal-Wallis pentru mai mult de dou eantioaneindependente

    Pentru evaluarea diferenei la nivel de ranguri ntre mai mult de doueantioane independente se utilizeaz testul Kruskal-Wallis. Acesta poate fi

    asimilat unei analize de varian pentru date ordinale.

    S presupunem ca avem trei categorii de subieci (piloi, controlori de trafic

    i navigatori de bord) crora le-a fost aplicat un test de reprezentare spaial. S

    presupunem, de asemenea, c valorile variabilei dependente nu se preteaz la un

    test ANOVA, dat fiind prezena ctorva valori extreme ce nu pot fi eliminate. n

    aceste condiii, testul Kruskal-Wallis este alegerea potrivit. Aceasta presupune

    ordonarea dup rang a valorilor variabilei dependente (reprezentare spaiala) pentru

    toate categoriile de subieci, luate mpreun.

    11.TESTE STATISTICE PENTRU DATE ORDINALE II11.1.Testul Wilcoxon pentru dou eantioane pereche

    Dac avem subieci evaluai de dou ori, pe o scal de interval, iar variabilele

    nu ntrunesc condiiile pentru utilizarea testului tal diferenelor pentru eantioane

    dependente, se poate apela la testul Wilcoxon. Acesta este un test care, dei se

    aplic pe scale de interval/raport, utilizeaza proceduri de tip neparametric, apelnd

    la diferenele dintre valorile perechi i la ordonarea lor. Este, din acest punct de

    vedere, un test de date ordinale.

    11.2.Testul Friedman pentru msurtori repetate

    S presupunem c un psiholog dorete s studieze relaia dintre stilurile de

    conducere (laissez-faire, democratic i autoritar) asupra nivelului de satisfacie

  • 7/30/2019 Note de Curs Modele Si Programe de Analiza a Datelor

    26/30

    profesional. n acest scop el poate constitui un grup de cercetare pe care s l

    supun, n momente succesive, celor trei tipuri de conducere. Un alt model ar putea

    fi constituirea a trei eantioane perechi, astfel constituite nct fiecrui subiect

    dintr-un eantion s i corespund cte un subiect "echivalent" din fiecare dintrecelelalte dou eantioane (criteriile de echivalen pot fi: sexul, vrsta, nivelul de

    inteligen, gradul de motivare, etc.).

    Dar, oricare dintre variantele pe care le-ar alege cercetatorul, din punct de

    vedere statistic el ar obine o structur de date identic: trei serii de evaluari ale

    satisfaciei (variabila dependent), pentru aceiai subieci (sau perechi de subieci)

    corespunzatoare celor trei stiluri de conducere. Dac variabila dependent ar fi

    masurat pe o scala de interval/raport, testul parametric adecvat este, "ANOVA

    pentru msurri repetate". n lipsa lui i presupunnd ca variabila dependent nu

    ntrunete conditiile unui test parametric, soluia problemei este testul Friedman

    pentru date ordinale. Pentru aplicarea lui este suficient ca valorile variabilei

    dependente s fie ordonate dup rang, ca n tabelul alturat. Facem precizarea c,

    n acest caz, ordonarea dup rang se face la nivelul fiecrui set de evaluri perechi:

    Testul Friedman poate fi aplicat i n cazul a doar dou msurri, situaie n

    care devine similar testului semnului. La fel ca i celelalte teste pentru date

    ordinale, el este afectat de existena rangurilor atribuite ex-aequo, pentru valori

    identice. n astfel de cazuri este recomandabil aplicarea unei corecii formulei de

    calcul, pe care nu o vom prezenta aici, n sperana c utilizarea programelor

    specializate va face, oricum, coreciile necesare.

    12.TESTE STATISTICE PENTRU DATE ORDINALE III12.1.Coeficientul de corelaie pentru date ordinale

  • 7/30/2019 Note de Curs Modele Si Programe de Analiza a Datelor

    27/30

    Testele Wilcoxon i Friedman sunt utilizate pentru a pune n eviden

    diferenele dintre dou sau mai multe eantioane perechi (situaie care, de regul,

    se refer la msurri repetate pe aceiai subieci). Atunci cnd avem dou variabile

    ordinale i suntem interesai n evaluarea gradului de asociere ntre ele, vom utilizaun test similar coeficientului de corelaie pentru date de interval care este

    coeficientul de corelaie a rangurilor (Spearman).

    Aa cum ne amintim, coeficientul de corelaie Pearson (r) ne d msura

    intensitii legturii dintre dou variabile exprimate pe scale de tip interval/raport.

    Mecanismul de calcul se bazeaz pe transformarea valorilor ambelor variabile n

    scoruri z, adic pe convertirea acestora n "distan standard" fa de medie. Pentru

    datele de tip ordinal, modalitatea de calcul a coeficientului de corelaie se bazeaz

    pe poziia relativ a unei valori fa de celelalte. Coeficientul de corelaie a

    rangurilor Spearman (rS) are acelai domeniu de variaie (-1/+1) i se

    interpreteaz n acelai mod ca i coeficientul de corelaie pentru date parametrice

    Pearson.

    Dac nivelul de semnificaie (p) este mai mare dect 0.05, coeficientul de

    corelaie va fi considerat nesemnificativ (are anse prea mari s rezulte din jocul

    ntmplrii). Aceasta nu nseamn c nu exist o corelaie ntre cele dou variabile

    ci doar c datele noastre nu au putut s o pun n eviden.

    Calcularea coeficientului de determinare (r2) n cazul corelaiei Spearman nu

    este recomandabil, dei exist autori care o accept.

    13.INTEGRAREA ANALIZEI STATISTICE A DATELOR NDOCUMENTUL DE CERCETARE I

    13.1. Alegerea testului statisticn statistic, cel mai simplu este s aplici formula i s calculezi

    rezultatul. Dificultatea const n a alege formula i a interpreta rezultatul.

  • 7/30/2019 Note de Curs Modele Si Programe de Analiza a Datelor

    28/30

    Alegerea testului statistic potrivit este adesea una din ncercrile cele mai

    mari prin care trece un tnr cercettor. Alegerea testului statistic nu este prima, ci

    ultima problem pe care trebuie s o rezolve. Pentru a rezolva aceast problem

    sunt necesare att cunotine de metodologia cercetrii, ct i o experien destul dendelungat n prelucrarea datelor. Totui, situaia poate fi mult uurat dac se

    urmeaz o serie de raionamente i reguli de baz, precum:

    - Formularea ipotezelor;- Identificarea variabilelor cercetrii;- Recoltarea datelor cercetrii;- Sintetizarea datelor cercetrii;- Alegerea testului statistic adecvat.

    Obiectivulcercetrii

    Variabila independent Variabiladependent

    Testul statisticaplicabil

    Diferenadintre

    grupuri

    Categorial(numr decategorii)

    Una -I/R

    z/t pentru uneantion

    Nominalz pentru oproporie

    Dou

    Independente

    I/Rt pentru

    eantioane

    independenteNominal

    z pentru douproporii

    OrdinalMann-Whitney

    U

    DependenteI/R

    t pentrueantioanedependente

    Nominal Testul semnuluiOrdinal Wilcoxon

    Trei +Independente

    I/RANOVA

    unifactorialOrdinal Kruskal-Wallis

    DependenteI/R

    ANOVA pentrumsurtori

    repetateOrdinal Friedman

    Asociereavariabilelor

    Interval/Raport I/R r PearsonOrdinal Ordinal rs Spearman

  • 7/30/2019 Note de Curs Modele Si Programe de Analiza a Datelor

    29/30

    Categorial (nominal sau ordinal)Categorial

    (N/O)

    Chi-ptratTestul exact

    Fisher

    13.2. Reguli de fixare a mrimii eantioanelor de cercetareAlegerea mrimii eantionului, n contextul diferitelor modele de cercetare, este un

    subiect ce trebuie tratat cu atenie, dac dorim s asigurm cercetrilor noastre

    consisten sub aspectul puterii i al mrimii efectului. Reputatul psihometrician

    Jacob Cohen i aduce aminte cum a nvat n facultate c pentru a compara dou

    grupuri trebuie utilizate eantioane a cte 30 de subieci, orice eantion mai mic de30 fiind considerat eantion mic. Concluzia este c puterea testului i mrimea

    efectului sunt strns legate de mrimea eantionului.

    14.INTEGRAREA ANALIZEI STATISTICE A DATELOR NDOCUMENTUL DE CERCETARE II

    14.1. Integrarea analizei statistice n documentul de cercetare- Prezentarea cadrului general al cercetrii exprimarea clar a tipului de

    studiu statistic efectuat, a obiectivelor urmrite, redarea ipotezei cercetrii,

    definirea clar a populaiei i a eantionului supus cercetrii;

    - Prezentarea metodei i a lotului de subieci identificarea variabileloranalizate, a instrumentelor de cercetare, a procedurii de investigare;

    - Prelucrarea datelor analiza primar a datelor, verificarea ipotezelorstatistice, alegerea procedurilor statistice minime necesare, testareaipotezelor, atenie la problema variabilelor multiple, reinere fa de

    declararea relaiei cauzale, tabele i figuri;

    - Discutarea i interpretarea rezultatelor interpretarea semnificaiei statistice;- Formularea concluziilor

  • 7/30/2019 Note de Curs Modele Si Programe de Analiza a Datelor

    30/30

    14.2. Consideraii etice n analiza statisticValoarea unei cercetri tiinifice este condiionat n mod direct de

    msura n care respect criteriile etice ale comunitii profesionale.

    Aspecte relevante cu privire la utilitarea programelor statistice de prelucrarea datelor:

    - Standarde de competen;- Corectitudinea datelor;- Transmiterea datelor;- Protejarea datelor;- Onestitatea tiinific;- Buna conduit n cercetarea tiinific.

    Bibilografie:

    OPARIUC-DAN, Cristian Statistic aplicat n tiinele socio-umane,Editura ASCR, Cluj-Napoca, 2009;

    POPA, Marian Statistic pentru psihologie, Editura Polirom, Iai, 2008; POPA, Marian Statistici multivariate, Editura Polirom, Iai, 2010;

    SAVA, Nicu-Ionel Suport de curs Modele i programe de analiz adatelor, Universitatea Andrei aguna, Constanta, 2011;

    SAVA, Florin Analiza datelor n cercetarea. Metode statisticecomplementare, Editura ASCR, Cluj-Napoca, 2004.