Curs Statistica 2012

Embed Size (px)

Citation preview

A

PAGE 4

STATISTICA suport de curs

CUPRINS

1. CONCEPTELE DE BAZ STATISTICE

Unitile statistice

Caracteristica variabil/variabil

ir statistic/serie statistic/distribuie de frecvene

Populaie statistic

Eantioane :

- independent prelevate

- de observaii perechi

a) Clasificarea variabilelor

b) Clasificri ale irurilor statistice

c) Clasificarea mulimilor de uniti statistice (i structura statisticii clasice)

d) Eantioane prelevate independent i eantioane de observaii perechi

2. STATISTICA DESCRIPTIV UNIVARIAT

(sinteza grafic univariat i sinteza numeric univariat)A. Sinteza grafic univariat

A1. 1iruri univariabile

A11. Tabele statistice simple

A12. Distribuii de frecvene

A13. Reprezentri grafice univariante

A2. Limbajul repartiiilor (gruparea msurtorilor)

A3. Gruparea masuratorilor

B. Sinteza numeric univariat

C. Tratarea unei variabile cantitative (indicatori de tendin central)

C1. Condiiile lui Yule asupra unui indicator de tendin central

C2. Mod (mod, modul, dominant, valoare dominant, valoare modal)

C3. Mediana

C4. Media (aritmetic)

C5. Indicaii de preferin ntre principalii indicatori de tendin central

C6. Ali indicatori de localizareC6.1. Cuartile

C6.2. Decile, centile

C7. Indicatori de mprtiere

C7.1. Amplitudinea

C7.2. Intercuartila

C7.3. Dispersia

C7.4. Abaterea standard

C7.5. Coeficient de variaie

1. Concepte statistice de baz

Statistica clasic este preponderent uni i bivalent i se bazeaz pe teoria probabilitilor.

Statistica modern este (esenialmente) multivariat i se bazeaz pe geometrie, algebr i logic formal, dar i pe teoria probabilitilor i se dezvolt puternic datorit informaticii (aplicate).

n preocuprile noastre se va aborda numai statistica clasic.

Statistica clasic se bazeaz pe clasificarea prezentat n continuare.

Unitile statistice pot fi considerate fie populaie statistic, fie eantion.Populaia statistic este alctuit din obiecte, indivizi umani ori dintr-o alt specie, fenomene evenimente, idei, opinii, numere.

Populaia statistic poate fi finit sau infinit, real sau ipotetic.

Concepte de baz statistice )

Statistica studiaz mulimi de observaii efectuate asupra unor obiecte de aceeai natur, denumite uniti statistice care prezint (se ncadreaz n) anumite caracteristici (variabile).

Unitile statistice pot fi clasate, ordonate sau msurate n raport cu caracteristicile respective. Mulimile de observaii se numesc iruri sau serii (statistice)

Exemplul 1

ntr-o cresctorie de psri (unitile statistice), acestea prezint urmtoarele caracteristici:

specia de psri (poate fi constant, dac avem o singur specie, sau variabil, n caz contrar), aceste date se claseaz not de frumusee a exemplarelor, aceste date se ordoneaz

lungimea / greutatea a pasarilor, se msoarClasificarea variabilelor

Grosier

1. Variabile calitative = variabile ale cror variante pot fi doar clasate, nu ordonate sau msurate.

Exemplu: variabila sex cu variantele masculin i feminin,variabila culoarea ochilor cu variantele negri, albatri, verzi, .

2. Variabile cantitative = variabile ale cror valori pot fi ordonate sau chiar msurate.

Exemple: greutatea, nlimea, tensiunea arterial

Cele care pot fi ordonate se mai numesc i semicantitative (ordinale), iar valorile respective ranguri.

Clasificarea dual a mulimilor ( Anderberg)

Aceast metod realizeaz clasificarea dup mulimile de reprezentare i dup scalele de reprezentare.

a). Mulimile de reprezentare pot fi:

Discrete / discontinue

finite {a1,a2, ..., an} infinite {a1, a2, an, ..) continue [numai finite]b). Scalele de reprezentare sunt: nominal, ordinal, interval i raport.

Scalele se difereniaz prin proprietile matematice pe care le exprim.

Fie A i B dou uniti statistice, xa i xb fiind variantele, rangurile sau valorile unei variabile x pentru cele dou obiecte.

b1). Scala nominal, realizeaz numai o distincie ntre A i B i anume fie xA = xB, fie xA xB (n acest caz xA i xB sunt denumite variante)

Exemplu: rasa, specia, tratamentul

b2). Scala ordinal este o scar nominal cu relaie de ordine. n cazul xA xB, fie xA > xB,

fie xA < xB.

(n acest caz xA i xB sunt denumite ranguri).

Exemple: scala duritii mineralelor (Mohs), ierarhia militar.

b3). Scala interval sau scala de intervale egale, este o scal ordinal cu o msur semnificativ a diferenei, a intervalului ntre dou valori.

n cazul xA > xB spunem n plus c A este mai mare cu xA xB uniti fa de B.

Scara interval are originea (o) arbitrar i permite valori negative (n acest caz xA i xB sunt denumite valori).

Exemple: temperaturi i grade Celcius sau Fahrenheit, axa timpului (i.n.Christos, d.n. Christos)

b4) Scara raport / scala de proporii egale este o scal interval n care originea (o) este un zero absolut, altfel spus nu permite valori negative. n cazul xA > xB putem spune i c A este mai mare de xA/xB ori fa de B.

Exemple: temperaturi n grade Kelvin, greutatea, nlimea.

c). Transformri permise n cadrul fiecrei scale:

c1). Permutare i redenumirea

Exemplu: Sex M, F, sau F, M (permutare) sau 1, 2 (redenumire).

c2). Orice funcie f(x) strict cresctoare

Exemplu: Liga x, cu a > 1; reinerea rangurilor n locul valorilor.

Variabile tip rang , pot proveni:

din variante dispunnd de relaia de ordine

din valori, ignornd proprietile scalei interval

Variabile tip msurtoare, pot proveni:

msurtoare propriu-zis

numrtoare.

Clasificri ale irurilor statistice

A. Funcie de ordinea elementelor n irA1 ordinea elementelor nu conteaz

A2 iruri, serii cu ordinea conform unei succesiuni

temporale :

serii temporale

serii cronologice

spaiale

Ne vom ocupa numai de prima categorie de iruri

B. Funcie de numrul de variabile luate simultan n consideraieB1. iruri statistice univariate

B2. iruri statistice bivariate

B3. iruri statistice multivariate

B1. {crap, caras, somn, nisetru}; {7, 9, 6, 8}; {1,5 kg, 0,5 kg, 2 kg, 5 kg}

B2. {crap, caras, somn, nisetru}

79 6 8

B3. (crap, caras, somn, nisetru}

79 6 8

1,5 kg 0,5 kg 2 kg 5 kg

Statistica clasic este preponderent uni i bivalent i se bazeaz pe teoria probabilitilor.

Statistica modern este esenialmente multivariat i se bazeaz pe geometrie, algebr i logic formal.

Clasificarea multimilor de unitati statistice si o structura a statisticii clasice

Funcie de orizontul analizat (studiat), mulimea de uniti statistice poate fi considerat fie:

populaie statistic

eantion

dintr-o populaie statistic

Populaie statistic, alctuit din obiective, indivizi (umani sau dintr-o alt specie), idei, evenimente, opinii, numere.

Poate fi: finit sau infinitPoate fi: real sau ipoteticPopulaiile statistice reale sunt n majoritatea cazurilor foarte mari.

Deoarece este practic imposibil (total neeconomic) s fie studiate exhuastiv toate unitile statistice ale unei populaii statistice foarte mari se recurge la eantioane.

Eanation, mostr, prob, colectivitate de selecie, lotO submulime dintr-o populaie statistic considerat cu scopul de a obine informaii cu privire la populaia respectiv

Populaia statistic, din care s-a extras eantionul se numete populaia mam, populaia int.

Rezultatele obinute din analizele (studiile) bazate pe eantioane cu gradul de certitudine strict subunitar.Extrapolarea rezultatelor obinute pe baza eantioanelor la populaia int se poate face:

empiric (fr a putea marca gradul de certitudine)

tiinific (exprimnd exact gradul de certitudine).

Studiul incomplet al populaiilor statistice prin intermediul eantioanelor probabilistice este scopul statisticii inductive.

Statistica clasic, se bazeaz pe trei componente:

statistica descriptiv

teoria probabilitilor (parial)

statistica inductiv

Esantioanele prelevate independent si esantioane de observatii perechi.

n marea majoritate a situaiilor reale se studiaz populaiile statistice prin eantioane provenite din acestea.

Eantioanele pot fi produse de diverse fenomene naturale, ori pot fi selectate/generate de cel care cerceteaz.

Astfel, apar studiile de observaie, respectiv studiile experimentale.

n toate aceste cazuri dou sau mai multe eantioane se pot produce, sau pot fi prelevate n dou moduri: dependent / independent.

Situaia n care 2 eantioane pot fi prelevate dependent este cea a observaiilor perechi.

Dou eantioane sunt eantioane de observaii perechi, dac selectarea unei uniti ntr-un eantion impune selectarea unei anumite uniti, perechi n cellalt eantion.

Cele dou eantioane de observaii perechi au acelai volum.

n eantioanele independent prelevate volumul eantioanelor poate fi egal sau diferit ca mrime.

Ex. 2). Cuplul de eantioane utilizate n experimentele clasice de studiu al eficacitii unei substane medicamentoase. Se ia un lot de subieci crora li se msoar o caracteristic (tensiune arterial) nainte i dup tratarea respectivei substane medicamentoase.

O greeal metodologic grav este amestecarea eantioanelor de observaii perechi, cu cele prelevate independent

Consideraii asupra eantioanelor de observaie perechi:

Unitile statistice dintr-un eantion sunt observate sau msurate:

de dou ori

de doi operatori

de dou aparate

de dou momente de timp diferite

dup aplicarea unui tratament

Ex. 1) Studii longitudinale antropologice care urmresc probleme de cretere-dezvoltare prin 2 eantioane (un eantion cu copii la o anumit vrst v, al doilea eantion cu aceiai n copii la vrste v + t.2. Statistica Descriptiva UnivariataIntroducere n statistica descriptiv

Statistica descriptiv:

Ce face?

sintetizeaz grafic i numeric informaia culeas [exhuastiv] dintr-o populaie statistic

descrie, dar NU explic esenialul ce rezult din datele culese.

Cum face?

prezint grupat materialul n dou maniere:

tabele statistice

reprezentri grafice

Paradigma central a statisticii (descriptive) este:

renunarea la o parte din informaie pentru ctig n relevan

A. Sinteza grafic univariant,

se face prin evidenierea intuit i aproximativ a aspectelor eseniale de variabilitate dintr-o serie statistic.

Se execut n doi pai:

tabele statistice, simple sau cu simpl intrare

reprezentri grafice adecvate timpului de variabile, astfel:

pentru variabile calitative i ranguri:

diagrame circulare;

diagrame prin coloane i prin benzi.

pentru ranguri i msurtori:

poligoane de frecvene;

interograme.

Recomandri pentru variabile

calitative diagrame circulare

tip rang diagrame de frecven

tip msurtoare diagramele prin coloane sau prin benzi, poligoane de frecven sau (mai ales) histogramele.

Sinteza grafic n tabele statistice se poate face prin:

grupare, fr pierdere de informaie

n tabele statistice simple cu frecvenele variabilelor ori valorilor, construind distribuiile frecvenelor variabilelor/valorilor denumite distribuii de frecven negrupate. gruparea, cu pierdere de informaie

n tabele statistice simple cu frecvenele claselor sau intervalelor de grupare, construind distribuiile frecvenelor claselor sau intervalelor de grupare denumite distribuii de frecvene grupate.

Pierderea de informaie provine din comasarea unor variante n clase ori gruparea unor valori consecutive n clase, care n acest caz, se numesc i intervale de grupare.

A1. ir invariant, tabel statistic simplu distribuii de frecvene i reprezentri grafice:

A1.1.) Distribuii negrupate

a) Culoarea ochilor studenilor = variabil calitativ

S1 = {a, v, a, a, n, n, n, c, c, n, a, c}

albatri

verzinegricprui

b) notele obinute la biostatistic, de 12 studeni = Var. tip rang

S2 = {6, 7, 8, 8, 7, 6, 9, 10, 7, 7, 8, 7}

c) 36 de studeni au msurat cu precizie 0,5 mm lungimea unei cri var. tip msurtoare obinnd urmtoarele valori, ordonate ascendent.

S3 = {188, 189 (8 ori), 190 (18), 191 (8), 192}

msurtori repetate ale aceleiai mrimi = msurtori replicate

Distribuiile de frecven

Pentru S1Variabile distincteFrecvene absoluteFrecvene relativeFrecvene (relative) procentualeFrecvene procentuale cumulate

xjNjFj = Nj/NPj = 100 Fj %PCj = P1+P2++Pj

a44/12100 4/12 33%34%

v11/12100 1/12 ( 9%42%

n44/12100 4/12 ( 33%75%

c33/12100 3/12 ( 25% 100%

Totaluri N = 12

Pentru S2

Perechile;

Valori

distincteFrecvene absolute(xj Nj)j = 1 p = distribuii/repartiii de frecvene absolute

xjNj(xj Fj)j = 1 p = distribuii/repartiii de frecvene relative

6

7

8

9

102

5

3

1

1(xj Pj)j = 1p = distribuii/repartiii de frecvene procentuale

(xj PCj)j = 1p = distribuii/reparaii de frecvene absolute

Totaluri N = 12

Pentru S3Valori distincteFrecvene absolute

xjNj

188

189

190

191

1921

8

18

8

1

Totaluri

N = 36

A1.2.) Reprezentri grafice univarianteDefiniiile care urmeaz sunt formulate pentru distribuiile negrupate. n cazul distribuiilor grupate termenii variante sau valoare trebuie nlocuite cu termenul clas.

Diagrama circular

Cerc format din sectoare pentru fiecare variant/valoare, xj astfel nct unghiul, respectiv aria fiecrui sector s fie proporional() cu frecvena respectiv.

Ex. seria S1

Diagrama prin benzi sau bare

reprezentare caracteristic plan n care pe axa vertical avem marcate variantele/valorile, n fiecare fiind construit o band orizontal de lungime proporional cu frecvena corespunztoare.

Benzile sunt dreptunghiuri nelipite i de aceeai lungime, de regul mult mai mic dect lumgimile lor.

Ex. seria S2

Diagrama prin coloane sau batoane

reprezentare cartezian plan, n care pe axa orizontal avem marcate variantele / variabile n fiecare fiind construit pe vertical o coloan de nlime proporional cu frecvene corespunztoare.

Coloanele sunt dreptunghiuri nealipite i de aceeai lime, de regul mult mai mic dect nlimea lor.

Ex. seria 3

Poligon de frecvenelinia frnt format din segmentele care unesc mijloacele laturilor din vrfurile coloanelor consecutive figurate n diagram prin coloane, fr a mai reprezenta i coloanele.

Ex. seria 3.

Valori aberante

36 de studeni au msurat lungimea palmei unuia dintre ei cu o precizie de 0,5mm, obinnd Ex. seria S4

valori aberante = valori care contrasteaz puternic cu marea majoritate a celorlalte valori ale irului

Valorile aberante se elimin

S4 = S4, fr valorile aberante si ramane diagrama din dreapta coform desenului de mai jos.

A1.3.)Distribuii grupate pentru msurtori = histograma

Msurndu-se lungimea palmei drepte la 36 de studeni s-a obinut irul S5, grupat fr pierdere de informaie, ca distribuie de frecvene este figurat n tabelul statistic urmtor, reprezentat apoi ca diagram de batoane

Datorit distribuiei rare de-a lungul intervalului 160 190 se recomand o distribuie grupat, care se poate tabela i reprezenta dup cum urmeaz:

irul 5

xj160165166167168169170173174175178179184190

Nj31273133213133

Datorita distributiei rare dealungul intervalului 160 190 se recomanda o ditributie grupata care se poate tabela si reprezenta dupa cum urmeaza.

irul 5Interval de clasa[160,164] mm[165, 170]

mm[171, 175]

mm[176, 180]

mm[181, 185]

mm[186, 190]

mm

Nj3148533

irul 5

O astfel de reprezentare se numeste histograma, ea contine dreptunghiuri alipite, deoarece intervalele de grupare sunt intotdeauna alipite.

Histograma = reprezentare carteziana plana a unei distributii grupate, formata din dreptunghiuri alipite, cu bazele plasate pe intervalele de grupare si cu ariile proportionale cu frecventa claselor.A1.4.) Distribuii grupate pe variante [variabile] calitative i ranguri

Cazul variantelor

n cazul irului S1 (culoarea ochilor), putem comasa verde i albastru n clasa culorilor deschise (cd) i culorile cprui i negru n clasa culorilor nchise (ci).

irul S1 (S1 comasat)

Variante distincteVariante absoluteFrecvene relativeFrecvene (rel.) procentuale

xjNjFj = Nj/NPj = 100 Fj %

(cd)

(ci)5

75/12

7/12100 5/12 ( 42%

100 7/12 ( 58%

Diagrama circular (pie)

Cazul rangurilor

Gruparea notelor, n cazul S2 (notele studenilor)

notele 5 i 6 formeaz clasa Suficient, 7 i 8 clasa Bine, 9 i 10 clasa Foarte Bine.

ClasaFrecvene absoluteFrecvene relativeFrecvene (relativ) procentuale

xjNjFj = Nj/NFj = 100 2/12 ( 17%

Suficient [5, 7]

Bine [7, 9]

Foarte bine [9, 10]2

8

2

2/12

8/12

2/12100 2/12 ( 17%

100 8/12 ( 66%

100 2/12 ( 17%

In continuare prezentam diagrama circulara, diagrama prin coloane si histograma (clasele au fost considerate intervale de grupare)

A.2. LIMBAJUL REPARTIIILOR (modul de grupare a msurtorilor)

O distribuie se numete unimodal, cnd are o singur mod, respectiv bimodal atunci cnd are dou mode.

Rata fecunditii specific vrstei ( Microtus agrestis)

O mod este un punct de maxim local.

O distribuie bimodal, respectiv o distribuie multimodal pot fi considerate suma a dou, respectiv mai multor distribuii unimodale.

O distribuie unimodal i simetric se consider a fi o distribuie cvasinormal, deoarece seamn cu repartiia normal (Clopotul lui Gauss, curba erorilor).

Distribuia de frecvene a nlimii a 8500 de brbai din Anglia (Distribuia unimodal i simetric)

S-a lsat intenionat la sfrit forma de distribuie normal sau cvasinormal, pentru a atrage atenia c este o greeal rspndit de a presupune aceast form de distribuie n spatele oricrui fenomen de mas.

Pornind de la studiul formelor acestor distribuii empirice sau teoretice se poate construi tabelul prezentat n continuare.

Concluzii generale1. De ce grupm?

Grupm (fr sau cu pierdere de informaie) pentru a obine un ctig de relevan.

2. Pentru ce grupm?

Grupm ca s sesizm (s ne ncadrm) n una din formele tip din tabelul prezentat mai jos.

Concluzii tehnice

Modul de tratare a fiecrei forme depinde de:

eterogenitile vor fi tratate ca un amestec de dou sau mai multe omogeniti (adic distribuiile bi sau multimodale, vor fi descompuse eventual prin decupare n dou respectiv n distribuii unimodale.

tendina central este cel mai bine exprimat de distribuiile unimodale simetrice; vom ncerca s sintetizm prin transformri (de simetrie adecvate orice distribuie asimetric.

Forme tip de distribuii

Unimodal simetric (1 moda )concentrat ntr-un punct (1)Exprima omogenitate absoluta

neconcentrat ntr-un punct (2)Exprima cel mai bine o tendinta centrala

Unimodal asimetric (1 moda )slab asimetricade stanga (3)

de dreapta (4)

puternic asimetricade stanga (5)

de dreapta (6)

extrem asimetricade stanga (7) in forma de i

de dreapta (8) in forma de j

Forme tip de distributie (continuare)

Bimodala ( 2 mode )simetrica (9 ) - de exemplu in forma de u

Exprima eterogenitate, ca amestec de 2 omogenitati diferite

asimetrica (10)

Multimodala (plurimodala)multimodala propriu-zisa (11)

( n > 2, mode )

Exprima eterogenitate cu amestec de n omogenitati diferite (n > 2)

uniforma (12), numai mode - omnimodala

Exprima eterogenitate absoluta

OBSERVAII

1. descompunerea, n particular decuparea n distribuii unimodale este obligatorie n cadrul statisticii descriptive (atunci cnd o serie este tratat drept populaie statistic).

2. transformarea pentru simetrizare nu este obligatorie n statistica descriptiv, fiind productiva n statistica inductiv.

A3. Gruparea msurtorilor

Nu poate exista o teorie matematic care s precizeze concret modul de grupare.

Modalitile de grupare pot fi alese de ctre fiecare specialist (medic, biolog, ecolog, biochimist) care cunoate specificul material i obiectivele specifice.

Din experienele anterioare, statistica pune la dispoziie doar reguli empirice de grupare, dup cum urmeaz:

grupm doar serii cu volume 50

Intervalele de grupare (intervalele de clas/clasele de grupare) sunt: 20-40; 10-15; 8-20; 15-25; 8-15,

se pot utiliza intervale de grupare egale sau inegale, dup particularitile datelor i interesul urmrit.

A3.1.) Gruparea cu intervale de clas egalen cazul intervalelor de grupare egale, exist unele formule empirice de calcul al numrului de clase (nc).

nc 1+10/3 lgN , unde N = volumul seriei (formula lui Sturges)

Valoarea nc se rotunjete la un numr ntreg convenabil.

lungimea intervalului de clas (ic) se poate calcula cu relaia:

ic = (xmax xmin)/nc , unde xmax, xmin sunt cea mai mare, respectiv cea mai mic valoare din serie. Valoarea ic se rotunjete convenabil.

Exemplu

Se con sider urmtoarea distribuie negrupat de frecvene, reprezentnd adncimi ale staiilor pentru prelevare de probe din Delta Dunrii, perioada (1978 1993)

Se cere, gruparea cu intervale de clas egale

Adncimea

Adancimea

(cm) xj95100105110120125130134135140147148150153155

Frecvena

Nj141344412411713

xj157160163167170175180185188190198200208210211220

Nj1711223114131412

xj240257290

Nj311

Rezolvare:

Volumul N = 81 este mai mare ca 50, deci se poate grupa

Calculm numrul de clase nc

nc = 1+ 10/3 lgN = 1+ 10/3 lg 81 ( 1+ 10/3 1, 91 ( 7,36

Rotunjim convenabil valoarea 7,36 i obinem 8, deci nc = 8

Lungimea intervalului de clas:

ic = (xmax xmin) / nc = (290 95)/8 = 24,375

Rotunjim convenabil 24,375 i obinem ic = 25, deci ic = 25

Prima clas ncepe cu valoarea minim xmin = 95

Se obin astfel clasele distribuiei de frecvene propuse, cu intervale de grupare egale, conform tabelului de mai jos (coloana 1)

Intervalele de clasa (xj, xj4)Centrele intervalelor cjFrecvenele absolute Nj

[ 95,120)107,59

[120,145)132,519

[145,170)157,523

[170,195)182,513

[195,220)207,510

[220,245)232,55

[245,270)257,51

[270,295)282,51

Pentru construirea histogramei se vor utiliza coloana 1 i coloana 3 din tabelul de mai sus.

Pentru constituirea poligonului frecvenelor pentru aceast distribuie grupat se calculeaz col. 2 din tabelul de mai sus (centrele intervalelor) i se utilizeaz coloanele 2 i 3.

Se observ c aceast distribuie empiric este o distribuie unimodal, asimetric de stnga.

Concluzii:

n zona din Delta Dunrii analizat, predomin adncimi de cca 160 cm, urmeaz adncimile mai mici lng maluri, dar exist i gropi de cca 2-3 m.

B. SINTEZA NUMERIC UNIVARIAT,se refer la aspecte de variabilitate i reprezint un instrument complementar sintezei grafice, care ofer msuri obiective i exacte (conform tabel din pag. 2/3)

Cantitativ variabilitatea este conceput ca o mprtiere, iar calitativ variabilitatea se poate denumi diversitate.

Modul de gndire cantitativ se aplic variabilelor cantitative, calitative binare sau binarizate i se realizeaz n indicatori (valori tipice) de:

localizare, poziionare a tendinei centrale, poziionare a tendinelor extreme, de poziionare a tendinelor intermediare.

mprtiere (variabilitate, dispersie) de regul n jurul tendinei centrale.

Pentru variabile cantitative continue sau compatibile cu variabilele continue se calculeaz i indicatori de:

form (pentru compararea cu o distribuie normal).

C. TRATAREA UNEI VARIABILE CANTITATIVE (indicatori de tendin central)

C1. Condiiile lui Yule asupra indicatorilor de tendin central:

a. s fie definit n mod obiectiv, independent de aprecierea subiectiv a cercettorului;

b. s fie expresia tuturor termenilor repartiiei (seriei)

c. s posede proprieti simple, evidente, fcnd posibile nelegerea sensului su general;

d. s poate fi calculat cu uurin i rapiditate;

e. s se preteze uor la calcule algebrice ulterioare;

f. n cazul eantioanelor, s nu fie afectat de fluctuaiile de selecie (n particular de valorile aberante)

Vom analiza urmtorii indicatori de tendin central: moda, mediana i media aritmetic.

C2. Moda (modul, dominant, valoare modal, valoare dominant)

Definiii: n cazul unei curbe de frecven (distribuia continu a unei variabile continue)

mod = punct de maxim local.

Valorile 2 i 4 sunt mode pentru distribuia continu, deoarece sunt puncte de maxim local.

n cazul seriilor statistice pentru sesizarea modelor, datele trebuie s fie prezentate n distribuii de frecvene (negrupate). n cazul utilizrii intervalelor de grupare obinndu-se distribuii de frecvene grupate, n loc de mode se vorbete despre intervale modale.

n continuare, se vor analiza numai distribuiile negrupate.

Mod = valoarea cu frecvena maxim local n distribuie de frecvene.

Pentru observarea modelor, n acest caz, este necesar gruparea datelor seriilor statistice n distribuii de frecvene grupate sau nu.

Exemplu: xj246810

Nj13275

unde 4 i 8 sunt mode deoarece 3 i 7 sunt frecvene maxime locale.

Proprieti:

a) Modele induc clasificarea n distribuii unimodale, respectiv multimodale, clasificare esenial n gndirea statisticii clasice.

b) Nu se preteaz la calcule algebrice.

C3. MedianaNotaie: Me (pentru populaia statistic)

x pentru eantioane

Definiie:

n cazul unei curbe de frecvene (distribuia continu a unei variabile continue), mediana este valoarea care mparte aria de sub curba de frecvene n dou arii egale A1 = A2 (fiecare arie reprezentnd 50% din ntreaga arie de sub curb).

n cazul seriilor statistice:mediana = Valoarea care mparte seria statistic ordonat n dou subserii de volume egale, volumele fiind msurate n uniti statistice i eventual jumti ale acestora.

a) Dac seria are numr impar de valori, 2k+1, mediana este unic determinat de definiie i este valoarea xk+1, din seria ordonat.

b) Dac seria are un numr par de valori, 2k, definiia este satisfcut de orice numr cuprins ntre xk i xkM, din seria ordonat.

Pentru unicitatea soluiei, se ia prin convenie, drept median, semi-suma valorilor xkM, din seria ordonat.

Exemple:

a) Fie seria ordonat 1, 3, 7, 8, 12 ( 5 termeni nr. impar)

Me = 7

Considerm c valoarea 7 se afl n mijlocul seriei ordonate de volum impar.

Practic rg (5/2) = 2,5 (nr. fracionar care se rotunjete prin adaos la 3, de Me = termenul de rang 3, deci 7.

b) Fie seria ordonat cu 4 termeni, 1, 3, 6, 18Conform definiiei, orice rang ntre 3 i 6 (3, 7; 4, 5; 5, 2), Me este semisuma termenilor din mijlocul seriei ordonate = (3+6) / 2 = 4,5

Practic rg (4/2) = 2 (nr. ntreg), deci Me = semisuma termenilor de rang 2 i 3 = 4,5

Proprieti

a. mediana este relativ uor de observat i de calculat

b. exprim cel mai bine tendina central (n special distribuiile asimetrice)

c. mediana trateaz valorile ca pe ranguri

d. nu este sensibil la valori extreme (n particular la valori aberante)

e. se poate calcula i pentru serii pentru care nu se poate calcula exact media (valorile extreme nu sunt cunoscute)

f. mediana este un element al irului, cnd irul are un numr impar de termeni.

Alte denumiri :Toxicologie: LD50 = Lethal Dose 50 = Doza letala 50 = Doza care omoara 50% din indivizii care au

fost intocsicati cu doza respectiva.Farmacologie : ED 50 = Effect Dose 50 = Doza care are efect asupra 50% din indivizii tratati cu doza

Respectiva.

Biologia populatiilor : Media de viata

Mortalitatea populatiei in functie de varsta pe o curba de frecvente, are o mediana care

Reprezinta varsta pana la care au murit 50% din indivizii populatiei respective.

C.4. Media (aritmetic)

Termenul medie este folosit, n sens general de indicator de tendina central i n sens restrns de medie aritmetic.

Notaii: M pentru populaii statistice n general

pentru populaii statistice teoretice

x, m pentru eantioane.

Definiii:

a) In cazul unei serii statistice formate din N valori distincte (sau nu) x1, x2 xk, . xN, media M este suma valorilor seriei mprit la volumul seriei.

Nj=1 xj ( formula mediei simple )M=

Nb) n cazul unei serii statistice grupat n distribuia de frecvene absolute (xj, Nj), ale celor p (N)) valori distincte xj, media M va fi dat de formula:

pj=1 Nj . xj ( formula mediei ponderate )M=

pj=1 NjFrecvena Nj se va numi pondere absolut a valorii xj, iar pj=1 Nj = N, volumul seriei.

Exemple

Fie seria de 6 valori:

1, 4, 2, 2, 1, 2

M = (1+4+2+2+2+1+2) / 6 = 12/6 = 2

M = 2 este media simpl

xj124

Nj231

N = 6

M = 2 1 = 3 2 + 1 4) / (2 + 3 + 1) = 12/6 = 2

M = 2 este media ponderat a seriei de valori distincte

1, 2, 4 cu ponderile 2, 3, 1

Media simpl a seriei (1, 2, 4) M = (1+2+4)/3 = 2,33Proprieti:

a. se preteaz la calcule algebrice ulterioare

b. media aritmetic ia n considerare toate valorile seriei cu ntreaga lor informaie

c. oarecum dificil de calculat manual

d. este sensibil la valorile extreme (n particular la cele aberante).

C.5. Indicatorii de localizare a tendinelor extreme sau intermediare, valabili pentru orice distribuii

Ex. val. min i val.max dintr-un ir (localizarea extremelor).

Generaliznd modelul geometric al medianei vom introduce o gam frecvent utilizat de indicatori de localizare (cuartilele, decilele, centilele)

C.5.1. Cuartile

Notaie: Q1, Q2, Q3Definiii

n cazul unei curbe de frecvene (distribuia continu a unei variabile continue), cuartilele sunt cele 3 puncte care mpart aria de sub curba de frecvene n 4 arii egale A1 = A2 = A3 = A4 (fiecare arie reprezentnd 25% din ntreaga arie de sub curb).

Q2 = medianan cazul seriilor statistice cuartilele sunt 3 valori care mpart seria statistic, ordonat cresctor, n 4 subserii de volume egale (volumele fiind msurate n numr de uniti statistice).

Q1 = cuartila inferioar, las la stnga sa, n seria statistic ordonat cresctor, 25% din termeni i eventual ptrimi ale acestora.

Q2 = mediana

Q3 = cuarial superioar, i las la stnga sa, n seria statistic ordonat cresctor, 75% din i eventual ptrimi ale acestora.

Exemplu:

Fie seria de 6 concentraii de oxigen msurate n mg/l, n ap din Delta Dunrii i ordonate cresctor.

3,2 5,9 6,6 7,35 8,1 9,3 9,8

Ranguri 1 2 3 4 5 6

Considerm numerele ordonate ca nite mrgele nirate pe o a, la diverse distane.

Strngem mrgelele unele lng altele, definind distanele. n acest fel, numerele devin ranguri:

Tiem acest nou irag n 4 pri egale de cte o mrgea i jumtate.

Quartila inferioar Q1 va tia mijlocul, mrgelei a 2-a, adic va fi 5,9

Mediana = Q2, va cdea ntre cea de-a 3-a i a 4-a mrgea (va fi semisuma acestora

Me = (6,6 + 8,1)/2 = 7,35

Quartila superioar Q3 va tia mijlocul mrgelei a 5-a, adic va fi 9,3

Practic cuartilele Q1, Q2, Q3 se vor face astfel, conform conveniilor introduse, mai sus:

ordonm ascendent seria de volum N

calculm rangul cuartilei respective rg (Ql) = N (l/4)

dac rg (Ql) este numr fracionar, l restrngem prin adaos i Ql este semisuma dintre termenul cu rangul rg i urmtorul termen

3,15,96,68,19,39,8

x1x2x3x4x5x6

(rang) rg(Q1) = 6 (1/4) = 1 1/2 , rotunjit prin adaos = 2 Q1 = x2 (5,9)

rg(Q2) = 6 (2/4) = 3, Q2 = Me = (x3+x4) / 2, (x3, x4 din serie ordonate cresctor)

(6,6+8,1) / 2= 7,35 rg(Q3) = 6 (3/4) = 4 1/2 , rotunjit prin adaos = 5 Q3 = x5 (9,3)Ex. : Seria este de volum 4 ordonat ascendent

1, 2, 8, 8

1,5 5 8

Q1 Q2 Q3Ex. : Seria de volum 5 8, 7, 3, 1, 2 ; ordonm ascendent:

12378

237

Q1Q2Q3C.5.2. Decile i centile

Analog, se ntrunesc noiunile de decile (D1, D2, D9) i de (per)centile (C1, C2, C99), respectiv de decil inferioar (D1), decila superioar (D9), centila inferioar (C1) i centila superioar (C99).

Algoritmul de calcul al acestora se obine nlocuind n algoritmul de calcul al cuartilelor, expresia N (l/4) cu N (l/10), respectiv au N (l/100).

Metod de calcul rapid al centilelor

Etapa 1

Se pornete de la distribuia de frecvene relative procentuale (conform primele 2 coloane din tabelul urmtor). n col. 1 sunt trecute distinct i ordonat ascendent valorile seriei, n coloana 2 sunt nscrise frecvenele relative procentuale ale valorilor din prima coloan (n procente).

Etapa 2

Se calculeaz coloana 3, care cuprinde frecvenele relative procentuale cumulate (procentele cumulate) prin cumularea frecvenelor relative procentuale.

Exemplu: S-a msurat greutatea (kg) pt . 103 biei de cca 17 ani calculndu-se procentele valorilor distincte i procentele cumulate. S-a obinut tabelul urmtor:

Etapa 3

Determinarea centilei dorit

Kg. Greut.col.144464749515253545556575859606162

% distinctcol.21,01,91,92,91,01,91,06,83,97,82,91,04,96,87,85,8

% cumulcol.31,02,94,87,78,710,611,618,422,33,0133,034,038,945,753,559,3

Kg. Greut.col. 16363,5646566676869707172757780

% distinctcol. 21,01,07,86,82,91,91,06,82,93,91,01,91,01,8

%

cumulcol. 360,361,339,175,978,880,781,788,591,495,393,398,299,2100

Se caut n coloana 3, cel mai apropiat procent mai mare sau egal cu indicele centilei respective.

Dac procentul cumulat, astfel determinat, este mai mare strict dect indicele centilei, valoarea din coloana 1 de pe aceeai linie va fi centila cutat.

n caz de egalitate, centila va fi semisuma dintre valoarea din coloana 1 de pe aceeai linie i valoarea de pe linia urmtoare.

Pentru centila C3, gsim procentul cumulat 4,8 care este pe linia valorii 47. Deoarece 4,8 > 3, rezult c C3 = 47

n mod analog, pentru centila C33, gsim procentul cumulat 33, care este pe linia valorii 57.

Procentul cumulat este egal cu indicele centilei C33 = (57+58)/2 = 57,5

C.6. Indicatori de mprtiere

Indicatorii de mprtiere se raporteaz la indicatorii de localizare, existnd asemenea indicatori, bazai pe :

indicatori de tendin extrem (amplitudine)

indicatori de tendin intermediar (intercuartila)

indicatori de tentin central (dispersia, abaterea standard, coeficientul de variaie)

C.6.1. Amplitudinea

Notaii: A, (Definiie: Amplitudinea este diferena dintre valoarea maxim i valoarea minim din serie: A = xmax xminExemplu: s se calculeze amplitudinea seriei: 30. 30, 26, 32, 30

A = 32 26 = 6

Proprieti:

a) ofer o imagine general asupra mprtierii

b) consider doar valorile extreme

c) sensibil la valorile extreme (n particular la valorile aberante)

d) nu se preteaz la calcule algebrice

C.6.2. Intercuartil

Notaie: IQ

Definiie: Intercuartila reprezint intervalul intercuartil (abaterea cuartil este diferena ntre cuartila superioar i cuartila inferioar (Q3 Q1)

Curba de frecven

Q3 Q1 = Intercuartila

xmax xmin = Amplitudinea (A)Proprieti

a. Intercuartila exprim abaterea fa de median a aproximativ 40% dintre valori.

b. Nu consider valorile extreme (n particular valorile aberante)

c. Ofer o indicaie despre mprtierea celor 50% din valorile grupate n centrul repartiiei, astfel:

dac IQ A/2, distribuia este intens dispersat.

d. Nu se preteaz la calcule algebrice.

C.6.3. Dispersia (Variaia/fluctuaia/sigma ptrat 2)

Notaie: S2 (pentru populaii n general) 2 pentru populaii teoretice) s2 (pentru eantioane).

Definiii:

a) n cazul unei serii statistice formate din N valori distincte sau nu x1, x2, x3 xj, xN dispersia este media ptratelor abaterilor (valorilor seriei) fa de media seriei : Nj=1 (xj - M)2 (1) S2 =

N

b) n cazul unei serii statistice grupate n distribuia de frecvene absolute (xj, Nj) ale celor p (< =N) valori distincte xj dispersia va fi dat de formula:

pj=1 Nj . (xj - M)2 (2) M=

pj=1 Nj ,unde pj=1 Nj = N (volumul seriei)

Numaratorul din expresiile (1) si (2) Nj=1 (xj - M)2 ; pj=1 Nj . (xj - M)2 se noteaza cu V si se numeste variatia seriei.Proprietile dispersiei:

a) Este o valoare pozitiv sau nul, fiind o sum de ptrate (este nul dac irul este constant);

b) Se utilizeaz pentru:

b1. Compararea variabilitii unui caracter n dou sau mai multe populaii pentru care datele au acelai ordin de mrime

b2. compararea a dou sau mai multe caractere ale aceleiai populaii, dac acestea sunt exprimate n aceeai unitate de msur i valorile au acelai ordin de mrime (medii apropiate),

c) ine cont de toate valorile din cadrul seriei;

d) Numrtorul expresiei sale, variaia, ndeplinete o proprietate de aditivitate.

e) Este sensibil la valorile extreme (n particular, la cele aberante)

f) Are alt ordin de mrime fa de datele iniiale i medie (se exprim n unitatea de msur a datelor ridicat la ptrat).

C 7.4. Abaterea standard (abaterea medie ptratic / derivaia standard / (-ul seriei / abaterea tip

SD serie - Standard Derivation).

Notaii:

S pentru populaii statistice n general,

( pentru populaii statistice teoretice

s pentru eantioane

Definiie: Rdcina ptrat din dispersie,

Nj=1 (xj - M)2 S =

, N = volumul seriei

N

Serii statistice grupate n distribuia de frecvene absolute (xj, Nj), a celor p N valori distincte, xj pj=1 Nj . (xj - M)2 S =

pj=1 NjProprieti

a) Variante abatere standard :

este un numr pozitiv sau nul, fiind rezultatul extragerii unui radical de ordin par;

este nul dac i numai dac irul este constant

b) Se utilizeaz pentru:

Compararea variabilitii unui caracter n dou sau mai multe populaii pentru care datele au acelai ordin de mrime (medii apropiate);

Compararea a dou sau mai multe caractere ale aceleiai populaii, dac acestea sunt exprimate n aceeai unitate de mrime (medii apropiate)

c) ine cont de toate valorile din cadrul seriei

d) Au alt ordin de mrime fa de datele iniiale i medie

C.7.5. Coeficientul de variaieNotaii: CV%, CV, Cv, V

Definiie: Fie o serie de valori pe o scal raport. Coeficient de variaie = proporia reprezentat de abaterea standard (S) din medie (M):

CV = S / M = S*100 / M % = CV%

Se utilizeaz des, n exprimarea procentuala notat CV% (coeficient procentual de variaie) = procentul reprezentat de abaterea standard (S) din medie (M).

Proprieti:

a) CV% > = 0, deoarece S > = 0 i M > 0, fiindc orice ir pe o scal raport nu are valori negative i nici medie negativ.

b) CN% = 0, daca S = 0, adic dac irul de date este constant.

c) Se utilizeaz n special atunci cnd nu pot fi utilizate dispersia sau abaterea standard, n scopul comparrii variabilitii:

unui caracter n doua sau mai multe populaii dac valorile msurate au ordine de mrime diferite;

doua sau mai multe caractere n aceeai populaie, dac acestea sunt exprimate, fie n uniti de msur diferite, fie n aceeai uniti de msura, dar diferite.

d) Se poate utiliza i n cazurile recomandate pentru folosirea dispersiei sau abaterii standard; coeficientul de variaie este indicatorul universal de comparare a variabilitii, pe scala raport.

e) ine cont de toate valorile din cadrul seriei

f) CV% este independent de unitatea de msur folosit pentru valorile seriei, este adimensional i se exprim procentual.

g) Este sensibil la valorile extreme (inclusiv la valori aberante).

h) Valabil numai pentru msurtorile pe scale raport.

C.8. Distribuia normal ( curb a erorilor - de msurare ntmpltoare / clopot a lui Gauss /

distribuie Laplace )

Descriere:

Distribuie continu n form de clopot (unimodal i simetric)

Este caracterizat de doi parametri specifici pentru i ( media aritmetic

( abatere standard

Are doua puncte de inflexiune situate simetric fa de vertical x = , la distana (Distribuie normal i consultarea tabelei corespunztoare

Dintre distribuiile normale se distinge distribuia cu = 0 i ( = 1, care se numete distribuia normal standard i se noteaz N (0,1).

C.8.1. Determinarea ariilor la dreapta punctelor i a cuartilelor superioare

Se poate realiza direct prin consultarea tabelei de cuartile superioare din anexa 1 la acest material. Utilizarea tabelei:

a) pentru determinarea proporiei de ani ( (aria relativ () aflat sub distribuia normal standard la dreapta unui punct dat, z.

b) pentru determinarea punctului z care las la dreapta sa, sub distribuia normal standard, aria relativ (Exemplu

a) Aria relativ ( se afl la dreapta punctului z = 1,64 se obine citind n tabela a doua din anexa 1, valoarea nscris la intersecia liniei 1,6 cu coloana 0,4 (care nsumate dau valoarea 1,64). Se obine ( = 0,0505 = 0,05 = 5%.

0

z = 1,6 + 0,04 = 1,64

b) Valoarea z care las la dreapta sa aria relativ ( = 0,05 se afl cutnd n aceeai tabel o valoare ct mai apropiat de valoarea ( cutat. n acest caz, aceasta poate fi 0,050 sau 0,495 (ambele la aceeai distan de ( = 0,05). Alegem una dintre acestea de exemplu 0,0505 i citim pe linie valoarea 1,6, iar pe coloana corespunztoare, 0,04. Valoarea z va fi suma dintre ultimele dou numere: z = 1,6 + 0,64 = 1,64.

Reinem c aria relativ aflat la dreapta unui punct sub distribuia normal standard este tabelat (anexa 1) iar aria din stnga este complementul fa de 1 al ariei tabelate.

C.9. Tratarea unei variabile calitative

Tratarea calitativ a unei variabile calitative

O variabil calitativ se manifest printr-o serie statistic univariat, calitativ (xi) i = 1, 2, N unde xi sunt variante distincte ale variabilei.

Exemplu:

Se d seria de culori ale unor flori:

( alb, rou, galben, alb, verde, alb, rou, galben, alb, alb )

Seria prezentat grupat ca o distribuie de frecvene absolute ale variantelor distincte xj, arat astfel:

xj

(xj, Nj)j = 1, p Nj j = 1, p

unde pj=1 Nj = N albrougalben

verde

Seria din exemplu devine:

5 2 2

1

Distribuia de frecvene relative al variabilelor distincte xj, notat

xj

(xj, Fj)j = 1, p Fj j = 1, p

unde pj=1 Fj = 1 albrougalben

verde

n cazul nostru:

5/102/10 2/10

1/10

Binarizarea unei variabile calitative

Tratarea cantitativ a unei variabile calitative presupune studierea unei singure variante n opoziie cu ceea ce rmne n afara ei = binarizarea variabilei calitative.

n exemplul de mai sus, dac ne intereseaz doar culoarea alb, n opoziie cu celelalte culori, sintetizm distribuia binar

albnon-alb

5/105/10

n general , pentru o distribuie de frecvene relative a unei variabile calitative:

x1, x2. xp

F1, F2..Fpdac ne intereseaz variaia xj n opoziie cu restul, sintetizm distribuia binar

x non x

F 1 - F

Statistica descriptiva univarianta (tabel sintetic)Variabila

cantitativacalitativa

tip masuratoaretip rang

S

i

n

t

e

z

a

d

a

t

e

l

o

rg

r

a

f

i

c

a

Grupare intabel statistic simplu

Reprezentari grafice tiphistograma

poligon de frecvente

diagrama cu batoane

diagrama circulara

n

u

m

e

r

i

c

aIn valori tipice de :

Tendinta centrala M (media) Me (mediana) Mo (moda)Pentru variabile binarizate :

proportiile p, q (= 1-p)

Variabilitate ca imprastiereS (abaterea standard) IQ (intercartila)

S2 (dispersia ) A (amplitudinea)

CV% (coeficientul de variatie) Pentru variabile binarizate :

S2 si S specifice

S2 = p*q ; S = p*q

Variabilitate ca diversitate p (numar de variante),

impreuna cu Hrel (entropia relativa)

9

8

7

6

5

4

3

2

1

0

4,5

4

3,5

3

2,5

2

1,5

1

0,5

0

A1 A2

Me

9

8

7

6

5

4

3

2

1

0

4,5

4

3,5

3

2,5

2

1,5

1

0,5

0

A1 A2 A3 A4

Q1 Q2 Q3

9

8

7

6

5

4

3

2

1

0

4,5

4

3,5

3

2,5

2

1,5

1

0,5

0

A1 A2 A3 A4

xmin Q1 Q2 Q3 xmax

9

8

7

6

5

4

3

2

1

0

4,5

4

3,5

3

2,5

2

1,5

1

0,5

0

( ( punct de inflecsiune

- -

Cuvinte cheie :

unitate statistic

caracteristic variabil(variabil

ir statistic/serie statistic, respectiv distribuie de frecvene

populaie statistic

eantioane (independent prelevate, de observaii perechi)

Corespondena cu clasificarea grosier este urmtoarea:

variabilele calitative se pot reprezenta pe scala nominal

variabilele semicantitative se pot reprezenta pe scalele nominal i ordinal

variabilele cantitative se pot reprezenta pe scalele nominal, ordinal, interval, raport, dup caz.