CURS STATISTICAثک CURS 1 - math. tcatinas/CursStatistica2008.pdfآ  CURS STATISTICAثک CURS 1 Bibliograï¬پe:

Embed Size (px)

Text of CURS STATISTICAثک CURS 1 - math. tcatinas/CursStatistica2008.pdfآ  CURS STATISTICAثک CURS 1...

  • CURS STATISTICĂ

    CURS 1

    Bibliografie:

    1. P. Blaga, Calculul probabilităţilor şi statistică matematică, vol. 2, Curs şi Culegere de probleme, Litografiat Univ. ”Babeş-Bolyai”, Cluj-Napoca, 1994

    2. P. Blaga, Statistică prin Matlab, Presa Universitară Clujeană, 2002

    3. I. Mihoc, C. Fătu, Calculul probabilităţilor şi statistică matematică, Tran- silvania Press, Cluj-Napoca, 2003

    4. R. Tr̂ımbiţaş, Metode statistice, Presa Universitară Clujeană, Cluj-Napoca, 2000

  • 1. Noţiuni introductive

    Statistica se ocupă cu descrierea şi analiza numerică a fenomenelor

    de masă, dezvăluind particularităţile lor de volum, structură, di-

    namică, precum şi legile care le guvernează.

    Statistica joacă un rol tot mai important ı̂n diverse domenii

    de activitate. O analiză statistică a datelor experimentale sau

    observaţionale necesită stabilirea originii şi naturii datelor con-

    siderate.

    (Lat. status=stat, stare de fapt)

  • Modele de probabilitate

    Elemente aleatoare ı̂ntr-o analiză statistică ⇒ strânsă conexiune ı̂ntre probabilităţi şi statistică.

    2 repetări a unei cercetări pot conduce la rezultate diferite.

    Cauza: experimentul nu se repetă ı̂n exact aceleaşi condiţii.

    Rezultate similare la repetarea experimentului ı̂n aceleaşi condiţii

    ⇒ experimentul este deterministic. Natura deterministă a ştiinţei permite folosirea teoriei ştiinţifice pentru prezicerea unor rezul-

    tate ı̂n anumite condiţii date.

    Există experimente a căror rezultat variază in ciuda eforturilor

    de a păstra condiţiile experimentale constante, de ex.: aruncarea

  • zarului, aruncarea monezii, alegerea unei cărţi dintr-un pachet de

    cărţi de joc.

    Apar ı̂n toate domeniile de activitate, de ex.: seminţe aparent

    identice produc plate de ı̂nalţimi diferite, lungimea vieţii este

    diferită pentru persoane care trăiesc ı̂n condiţii similare, etc.

    Experimentele care nu sunt deterministe, care ı̂n condiţii identice

    nu produc acelaşi rezultat, se numesc experimente aleatoare.

    Probabilităţile şi statistica se ocupă cu analiza experimentelor

    aleatoare.

  • Exemplu. Aruncarea unui zar (Teoria probabilităţilor ı̂şi are

    ı̂nceputurile ı̂n studiul jocului de aruncare a zarurilor.) Aruncăm

    un zar pe o masă. Notăm cu X numărul de puncte ce apar pe

    faţa zarului după aruncare.

    Experimentul nu e deterministic deoarece X poate fi oricare din-

    tre numerele 1,2,3,4,5,6 şi nu se poate prezice. Putem face

    orice efort să controlăm condiţiile experimentale prin aşezarea

    zarului ı̂n cupă ı̂n aceeaşi poziţie, prin scuturarea cupei de un

    număr constant, prin aruncarea ı̂n aceeaşi parte a mesei, etc. In

    ciuda eforturilor rezultatele rămân variabile şi neprevăzute.

    Deşi rezultatul unei repetări a unui experiment nu poate fi prevăzut,

    totuşi o succesiune de repetări coduce la o stabilitate care serveşte

    ca bază pentru preziceri destul de exacte.

  • Considerăm valorile lui X după 10 repetări:

    Repetarea 1 2 3 4 5 6 7 8 9 10

    X 6 3 2 1 5 6 1 3 5 2

    Considerăm evenimentul: ”Valoarea lui X este mai mică decât

    3.” Acest eveniment are loc la repetările 3, 4, 7, 10. Deci are

    loc la 4 repetări din 10. Frecvenţa relativă de apariţie este

    f = 4

    10 = 0.4.

    Considerăm 20 de serii a câte 10 repetări, prima fiind cea de mai

    sus.

    2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0.6 0.6 0.2 0.4 0 0.3 0.7 0.5 0.2 0.1 0.5 0.3 0.3 0.3 0.6 0.4 0.3 0.1 0.2

  • Reprezentăm grafic aceste date:

    0 2 4 6 8 10 12 14 16 18 20 0

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1

    Seria

    f (X

  • Dacă se consideră 20 de serii a câte 50 de repetări se va obţine

    ca 0.2 < f(X < 3) < 0.48.

    Deci, cu cât este mai mare seria de repetări cu atât frecvenţa

    este mai puţin variabilă şi mai uşor de prezis. Dacă se consideră

    un număr suficient de mare de repetări frecvenţa poate deveni

    aproape constantă.

    Frecvenţa relativă oscilează ı̂n jurul unei valori care este proba-

    bilitatea evenimentului.

  • Concepte de bază ale statisticii

    Etapele cercetării statistice:

    1. Definirea obiectului studiat: conţine definirea unităţilor statis-

    tice, conceperea chestionarului, planificarea culegerii datelor.

    2. Observarea statistică: culegerea, ı̂nregistrarea datelor.

    3. Descrierea statistică: reprezentarea grafică a datelor statis-

    tice, sistematizarea acestora, calcularea indicatorilor numerici

    pentru punerea ı̂n evidenţă a unor proprietăţi şi pentru suger-

    area unor ipoteze referitoare la legile care guvernează fenomenul

    cercetat.

  • 4. Modelarea probabilistică: cercetarea fenomenului folosind

    ca instrument de lucru teoria probabilităţilor relativă la datele

    statistice obţinute.

    Definiţia 1 Numim colectivitate (populaţie) o mulţime C de

    elemente cercetată din punct de vedere al unei sau mai mul-

    tor proprietăţi. Elementele componente se numesc indivizi sau

    unităţi statistice. Numărul elementelor colectivităţii se numeşte

    volumul colectivităţii.

    Definiţia 2 Numim caracteristică sau variabilă a colectivităţii

    C proprietatea supusă investigării statistice relativă la C. Când o

    caracteristică poate fi măsurată o numim caracteristică can-

    titativă sau numerică, iar dacă aceasta se exprimă printr-o

    ı̂nsuşire o numim caracteristică calitativă.

  • Caracteristici cantitative: greutate, volum, concentraţie. Carac-

    teristici calitative: profesiune, sex, culoarea ochilor, grupa san-

    guină.

    Observaţia 3 Din punct de vedere al teoriei probabilităţilor o

    caracteristică a unei populaţii C este o variabilă aleatoare X.

    Scopul principal al cercetării statistice este de a stabili legea

    de probabilitate pe care o urmează caracteristica X, utilizând

    observaţiile (datele statistice) relative la colectivitatea cercetată.

    Definiţia 4 O caracteristică X ce ia o mulţime numărabilă de

    valori se numeşte caracteristică de tip discret, iar dacă ia valori

    ı̂ntr-un interval se numeşte caracteristică de tip continuu.

  • Exemplul 5 C-mulţimea bolnavilor externaţi pe parcursul unei

    săptămâni; X-numărul zilelor de internare avute; Y-greutatea

    bolnavilor externaţi

    X,Y-caracteristici ale lui C

    X → de tip discret (nr. finit de valori)

    Y→ de tip continuu (valori ı̂ntr-un interval, [45kg,145kg])

  • 2. Culegerea, prezentarea şi prelucrarea datelor statistice

    Tehnici de culegere a datelor:

    1. Observarea totală (recensământ): când toţi indivizii colec-

    tivităţii C sunt ı̂nregistraţi;

    2. Observarea parţială (sondaj, selecţie): când, după criterii

    bine stabilite, sunt ı̂nregistraţi o parte dintre indivizii colec-

    tivităţii C, numită eşantion sau selecţie;

    3. Observarea curentă: când ı̂nregistrarea indivizilor se face

    odată cu apariţia (producerea) lor;

  • 4. Observarea perodică: când ı̂nregistrarea indivizilor se face

    la intervale de timp stabilite.

    2.1 Tabele statistice

    Definiţia 6 Numim tabel statistic (nesistematizat) un tablou

    ı̂n care ı̂nregistrările sunt trecute ı̂n ordinea apariţiei lor.

    Definiţia 7 Numim tabel statistic (sistematizat) relativ la car-

    acteristica X de tip discret, tabloul care conţine valorile distincte

    ale caracteristicii şi frecvenţele de apariţie a acestora.

    Considerăm caracteristica X de tip discret pentru care se obţin

    datele primare x′1, ..., x ′ N . Aceasta ia valorile distincte xi, i =

  • 1, ..., n. Tabelul statistic sistematizat este de forma:

    x f x1 f1 x2 f2 ... ... xn fn

    unde fi este frecvenţa absolută de apariţie a valorii xi ı̂n datele

    primare x′k, k = 1, ..., N.

    Are loc relaţia n∑

    i=1

    fi = N.

    Fie caracteristica de tip continuu X, care ia valori ı̂n intervalul

    (a, b), descompus ı̂n intervale disjuncte prin punctele care satisfac

  • relaţiile:

    a = a0 < a1 < ... < an = b.

    Avem (a0, a1)∪ (

    n⋃

    i=2 [ai−1, ai)

    ) = (a, b) şi [ai−1, ai)∩[aj−1, aj) = ∅.

    Definiţia 8 Intervalele disjuncte [ai−1, ai), i = 1, ..., n se numesc clase.

    Definiţia 9 Numim tabel statistic (sistematizat) relativ la car-

    acteristica X de tip continuu, tabloul care conţine clasele carac-

    teristicii şi frecvenţele de apariţie a acestor clase.

    Dacă datele primare ale caracteristicii continue X, c