CAPITOLUL 4 CERCETAREA STATISTICĂ PRIN SONDAJ · PDF fileSTATISTICĂ ECONOMICĂ Noţiuni teoretice 4.1. INTRODUCERE Cercetarea statistică urmăreşte obţinerea informaţiilor ce

CAPITOLUL 4

CAPITOLUL 4

CERCETAREA STATISTICĂ PRIN SONDAJ

Consideraţii preliminare

În capitolele precedente am discutat despre posibilităţile de culegere a

datelor pe baza metodelor de observare totală sau parţială, ca şi despre modalităţile de descriere a datelor prin indicatori statistici, uzual obţinuţi pe baza colectivităţilor parţiale. Am văzut, de asemenea, că inferenţa statistică reprezintă procesul prin care obţinem informaţii şi tragem concluzii referitoare la colectivităţi generale, pe baza eşantioanelor. Există două tehnici generale pentru realizarea inferenţei statistice: procesul de estimare şi cel de testare a ipotezelor statistice.

În capitolul acesta vom urmări să cunoaştem fundamentele procesului de estimaţie şi ale celui de testare a ipotezelor statistice, vitale pentru desfăurarea unor cercetări statistice.

Termeni cheie

criteriu de semnificaţie. parametru distribuţie de eşantionare probabilitatea unei erori de genul I eroare de estimaţie probabilitatea unei erori de genul II eroare de genul I selecţie statică eroare de genul II sondaj aleator simplu eroare limită admisibilă sondaj aleator tipic eroare medie de reprezentativitate sondaj cu revenire eşantion sondaj fără revenire estimaţie sondaj în cuiburi estimator test statistic interval de încredere volum al eşantionului ipoteză statistică

STATISTICĂ ECONOMICĂ

Noţiuni teoretice

4.1. INTRODUCERE

Cercetarea statistică urmăreşte obţinerea informaţiilor ce permit caracte-rizarea, din punct de vedere cantitativ, a fenomenelor de masă. Există două modalităţi de obţinere a acestor informaţii şi anume: se pot culege date despre toate unităţile ce alcătuiesc colectivitatea cercetată sau se poate se-lecta o subcolectivitate pe care să o analizăm şi pe baza informaţiilor obţi-nute să tragem concluzii, să generalizăm rezultatele pentru colectivitatea de ansamblu. Prima cale prezentată este cea a unei cercetări statistice totale, iar cea de-a doua a cercetării statistice prin sondaj. În condiţiile econo-mico-sociale de astăzi, când este nevoie de informaţii rapide, multiple şi complexe, metoda principală de obţinere a informaţiilor statistice tinde să devină, practic, aceea a sondajului statistic, prin care se obţin date empirice şi, printr-o interpretare probabilistică, se estimează indicatori pentru popula-ţia totală.

Metoda sondajului poate aşadar să salveze timp şi bani oferind informaţii despre seturi largi de date fără ca să fie necesară observarea şi cercetarea tuturor elementelor ce alcătuiesc colectivitatea. Procesul va cuprinde atunci două etape: — etapa descriptivă, în care se culeg date şi se calculează indicatorii ce

caracterizează subcolectivitatea analizată — etapa inferenţială, în care rezultatele obţinute pentru această subco-

lectivitate se extind, în termeni probabilistici, la colectivitatea generală. Este de menţionat faptul că, dacă metodele statistice descriptive pot fi

aplicate atât unei colectivităţi totale cât şi uneia parţiale, în schimb etapa de inferenţă statistică este specifică cercetării prin sondaj.

4.2. NOŢIUNI SPECIFICE

DEFINIŢIE: Selecţia statistică reprezintă operaţia de extragere a unei părţi dintr-o colectivitate statistică, a unei subcolectivităţi numită şi eşantion, mostră, colectivitate parţială sau colectivitate de selecţie.

CAPITOLUL 4

Vom nota volumul colectivităţii generale cu N şi volumul colectivităţii de selecţie cu n, 1 ≤ n ≤ N-1. În cazul în care datele au fost sistematizate în r grupe după variaţia unei caracteristici de grupare, vom avea:

�==

r

1iiNN (4.1)

�==

r

1iinn (4.2)

Media aritmetică, principalul indicator al tendinţei centrale, va fi notat

cu µ în cazul în care este parametrul colectivităţii totale şi cu x în cazul în care este un indicator obţinut printr-o cercetare statistică prin sondaj.

Parametrul colectivităţii generale se calculează:

N

xN

1ii�

= =µ (4.3)

sau dacă datele au fost sistematizate în r grupe obţinându-se o serie de dis-tribuţie de frecvenţe:

r,1iN

Nx

r

1ii

r

1iii

=�

�

=

=

−µ (4.4)

Indicatorul statistic obţinut pentru eşantion – media – estimatorul para-

metrului, este:

n

xx

n

1ii�

= = (4.5)

sau în cazul unei serii de distribuţii de frecvenţe:


�

�

=

=

=r

1ii

r

1iii

n

nxx (4.6)

Un alt indicator important, dispersia, se va nota cu σ 2 dacă este para-

metru obţinut în colectivitatea generală şi cu s2 dacă este estimatorul para-metrului, obţinut pe un eşantion.

Astfel, parametrul colectivităţii generale este:

N

)x(N

1i

2i

2x

�=

µ−=σ (4.7)

respectiv în cazul datelor grupate:

�

�

=

=µ−

=σr

1ii

i

2r

1ii

2

N

N)x(

x (4.8)

iar estimatorul dispersiei din colectivitatea generală, anume dispersia eşan-tionului:

1n

n

xx

1n

)xx(s

n

1i

2n

1ii

2n

1i

2i

2

i

x −

��

�

�

��

�

�

−

=−

−=

�

�

�=

=

= (4.9)

sau în cazul distribuţiei de frecvenţe:

CAPITOLUL 4

∑

∑

∑

∑

∑

∑

=

=

=

=

=

=

−

−

=−

−= r

1ii

r

1i

2

r

1ii

r

1iii

i2

r

1ii

r

1ii

2i

2

1n

n

nxnx

1n

n)xx(s

i

x (4.10)

Atunci când eşantioanele sunt de volum mare (n>30), se poate renunţa la

scăderea lui 1 din numitorul dispersiei. În cazul caracteristicilor binare (de tip alternativ), simbolurile perechi

utilizate pentru parametrii din populaţia generală şi pentru estimatorii obţi-nuţi în eşantion vor fi: pentru media aritmetică: — parametrul colectivităţii generale:

NMp = (4.11)

— estimatorul obţinut în eşantion:

nmf = (4.12)

Dispersia caracteristicii alternative se va nota în populaţia generală cu: )p1(p2 −=σ (4.13)

iar în eşantion (estimatorul dispersiei din colectivitatea generală):

( )f1fs2 −= (4.14)


�•

••

•

•••

•••

• •

•

•

•

••

•

••

•

x

eºantionPopulaþie (colectivitate generalã)

Fig. 4.1 - Procesul inferenţei statistice

4.3. TIPURI DE SONDAJ

În selecţia aleatoare se disting următoarele tipuri de sondaj: — sondajul simplu aleator; — sondajul tipic (stratificat); — sondajul de serii (cuiburi); — sondajul în mai multe trepte; — sondaj secvenţial.

4.4. DISTRIBUŢII DE EŞANTIONARE. PROPRIETĂŢI ALE DISTRIBUŢIILOR DE EŞANTIONARE

Deoarece datele din eşantioane sunt valori observate ale variabilelor alea-toare, indicatorii statistici calculaţi pentru un eşantion vor varia într-un mod aleator de la eşantion la eşantion.

Populaţia statistică (colectivitatea)

Eşantion Eşantion Eşantion

Indicator Indicator Indicator

Sorin Tarmure

Sorin Tarmure

Fig 4.2. Obtinerea unei distributii de esantionare

CAPITOLUL 4

În privinţa mediei de selecţie, indicator statistic obţinut pe eşantion,

trebuie arătat că, indiferent de forma distribuţiei de frecvenţe din colectivi-tatea generală, media distribuţiei de eşantionare a mediei de selecţie ( x ) este egală cu µ, media colectivităţii generale (pentru eşantioane mari). µµ =)x(

Un alt parametru al distribuţiei de eşantionare, dispersia medie de

sondaj se calculează ca:

n

22x

σσ = (4.15)

Eroarea standard a mediei de sondaj este

xσ , adică abaterea medie

pătratică a mediei de selecţie x de la parametrul µ:

nnx

2

xx σ=

σ=σ (4.16)

Evident, cum σx

2 (dispersia colectivităţii generale) şi σ (abaterea medie pătratică din colectivitatea generală) sunt necunoscute, ele se estimează prin s2 (dispersia de sondaj) şi s (abaterea mediei pătratice de sondaj). Se obţine, astfel, estimatorul dispersiei mediei de sondaj ( 2

xs ):

n

ss

22x

x= (4.17)

şi estimatorul erorii medii a mediei de sondaj (adică eroarea medie de reprezentativitate):

Sorin Tarmure


ns

s xx = (4.18)

În privinţa distribuţiei de eşantionare a mediei de selecţie, să mai notăm că în cazul populaţiilor normal distribuite (cu distribuţii de probabilitate normală), distribuţia de eşantionare a mediei de selecţie este normală, indiferent de numărul elementelor din eşantion (de volumul eşantionu-lui).

4.5. SONDAJUL ALEATOR SIMPLU REPETAT

4.5.1. Determinarea erorii medii de reprezentativitate În cazul unei variabile cantitative, de tip nealternativ, pentru estimarea

parametrului media colectivităţii generale (µ) este necesar să calculăm me-dia de sondaj ( x ) (formulele 4.5 sau 4.6).

Dispersia mediilor de selecţie este:

n

ss

22x

x= (4.19)

Eroarea medie de reprezentativitate (abaterea medie pătratică a mediei

de sondaj) se determnină pe baza datelor din eşantion ca:

ns

n

ss x

2

xx

== (4.20)

4.5.2. Determinarea erorii limită Pentru a construi acest interval de încredere vom determina, întâi, eroa-

rea limită maximă admisibilă. Cum media de sondaj ( x ) este variabilă aleatoare normal distribuită, de medie µ şi abaterea medie pătratică σ

x=σx / n ,

înseamnă că variabila normală normată (redusă) corespunzătoare este:

CAPITOLUL 4

x

xzσ

µ−= (4.21)

xsxz µ−= (4.22)

Pentru probabilitatea cu care garantăm rezultatele 100(1-α)%, eroarea

limită (maximă) admisibilă este:

ns

zsz x2/x2/x αα ==∆ (4.23)

4.5.3. Determinarea intervalului de încredere pentru media µ Intervalul de încredere calculat pe baza erorii limită maximă admisibilă

este:

nszx 2/α±

Pentru un eşantion de volum normal sau mare, mărimea relativă a intervalului de încredere poate să fie prezentată schematic astfel (Fig. 4.3)

Interval de încredere pentru 1-α=0.999




Media eşantionului

Fig. 4.3 - Mărimea relativă a intervalului de încredere pentru un eşantion de volum mare

xsx sx


xx xx ∆+<<∆− µ (4.24) Intervalul de încredere ( xx ∆± ) este garantat cu nivelul de încredere

ales, ceea ce face ca această estimare să fie preferabilă estimării punctuale. Intervalul de încredere pentru nivelul total al caracteristicii este:

)x(Nx)x(N x

N

1iix ∆+<�<∆−

= (4.25)

EXEMPLUL 4.1: Să se determine intervalul de încredere, garantat cu o

probabilitate de 99%, pentru media şi nivelul total al unei caracteristici numerice X, dacă eşantionul selectat aleator repetat de 36 de unităţi, adică 5% din colectivitatea generală este de medie 800 şi abatere medie pătratică 60.

Rezolvare: Eroarea medie de reprezentativitate va fi:

106

60n

sn

ss x2x

x ====

Eroarea limită maximă admisibilă:

8.251058.2sz x2/x =⋅==∆ α Intervalul de încredere pentru parametrul colectivităţii generale este dat

de:

xx xx ∆+<<∆− µ 800-25.8 < m < 800+25.8 774.2 < m < 825.8

iar pentru nivelul total al caracteristicii studiate: )x(Nx)x(N xix ∆+<�<∆− 557424 < � ix < 594576 Acest intervale de încredere sunt garantate cu o probabilitate de 99%.

CAPITOLUL 4

4.5.4. Determinarea volumului eşantionului

xx

2/ ns

z ∆=⋅α (4.26)

sau

2L

ns

z x2/ =⋅α (4.27)

Soluţia poate fi scrisă ca:

2x

2x

22/ s)z(

n∆

⋅= α (4.28)

sau

2

2x

22/

L

s)z(4n

⋅= α (4.29)

Desigur, şi aici sx

2 se foloseşte ca o estimaţie a lui 2xσ , în general necu-

noscută. Valoarea aproximativă a lui sx2 poate fi cunoscută dintr-o cercetare

prin sondaj anterioară. Ca o alternativă, putem aproxima amplitudinea îm-prăştierii Ax a observaţiilor şi apoi, sub presupunerea tendinţei de norma-litate a distribuţiei, putem calcula:

6/As xx ≅ (4.30)

EXEMPLUL 4.2: Să se determine volumul eşantionului necesar pentru a

estima media unei colectivităţi (µ) cu o eroare limită de 0.2 şi o probabilitate de garantare a rezultatelor de 95%, ştiind dintr-o cercetare anterioară că dispersia sx

2 este aproximativ egală cu 6.1. Aceaşi cerinţă pentru lungimea intervalului de încredere de 0.2.

Rezolvare: Pentru: 2.0x =∆ 100(1-α)% = 95% => zα/2 = z0.025 = 1.96


sx2 = 6.1

rezultă:

58684.585)2.0(

1.6)96.1(szn 2

2

2x

2x

22/ ≅=⋅=

∆

⋅= α unităţi statistice

În cazul în care întreaga lungime a intervalului de încredere este de 0.2 (evident o precizie crescută), vom avea:

234436.2343)2.0(

1.6)96.1(4

L

sz4n

2

2

2

2x

22/ ≅=⋅⋅=

⋅⋅= α unităţi statistice

4.5.5. Determinarea probabilităţii de garantare a rezultatelor 100(1-αααα)% Coeficientul de încredere este 1-α, pentru care P(-zα/2 < Z < zα/2)=1-α.

Atunci, din formula erorii limită (maximă) admisibilă rezultă:

x

x2/ s

nz

∆=α (4.31)

Din tabelele privind distribuţia normală normată se poate determina apoi

probabilitatea 100(1-α)% de garantare a rezultatelor. EXEMPLUL 4.3: Să se determine nivelul de încredere pentru estimaţia

privind media colectivităţii generale (µ), dacă volumul eşantionului este n=100 unităţi statistice, media eşantionului x =258600, abaterea medie pătratică s=8000, iar intervalul de încredere dorit este de 4000.

Rezolvare:

5.280001002000

sn

z x2/ ==

∆=α

şi 1-α=P(-2.5<z<2.5)=2(0.4938)=0.9876 Probabilitatea cu care garantăm rezultatele este de 98.76%.

CAPITOLUL 4

4.5.6. Particularităţi ale sondajului de volum redus Dacă eşantionul este de volum redus (n<30), iar abaterea medie pă-

tratică din colectivitatea generală (σσσσ) este necunoscută şi înlocuită cu

cea din eşantion (sx), statistica n/s)x(

x

µ− este o statistică t cu (n-1) grade

de libertate. Distribuţia de eşantionare a statisticii n/s)x(

x

µ− este o

distribuţie de probabilitate t cu condiţia ca populaţia generală să fie normal distribuită.

Intervalul de încredere pentru media m din colectivitatea generală este, în acest caz:

ns

txn

stx x

1n,2/x

1n,2/ −α−α +<µ<− (4.32)

EXEMPLUL 4.4: Presupunem că un număr de n=15 imprimante sunt

selectate pentru a se calcula media numărului de caractere imprimate până la terminarea cartuşului de imprimare. Pentru eşantionul selectat se obţin:

x = 1.23 milioane caractere; sx = 0.27 milioane caractere. Să se formeze un interval de încredere, garantat cu o probabilitate de

99%, pentru media numărului de caractere imprimate (m), în colectivitatea generală.

Rezolvare: Dacă presupunem că numărul de caractere imprimate este normal distribuit, atunci, pentru n=15:

tα/2,n-1=t0.005;14=2.977

Intervalul de încredere este:

44.102.11527.0977.223.1

1527.0977.223.1

ns

txn

stx x

1n,2/x

1n,2/

<µ<

+<µ<−

+<µ<− −α−α


4.6. SONDAJUL ALEATOR SIMPLU NEREPETAT

4.6.1. Determinarea erorii medii de reprezentativitate Dispersia mediei de selecţie este dată de relaţia:

1NnN

n

22x

x

−−⋅

σ=σ (4.33)

şi estimată (în cazul σ2 necunoscută) prin:

1NnN

n

ss

22x

x

−−⋅= (4.34)

Abaterea medie pătratică a mediei de selecţie (măsurător al erorii me-

dii de reprezentativitate) este:

1NnN

nx

x −−⋅σ=σ (4.35)

estimată prin:

Nn1

ns

1NnN

nss xx

x −⋅≅−−⋅= (4.36)

Termenul Nn1

1NnN −≅

−− se numeşte coeficient de corecţie în populaţie

finită sau factor de exhaustivitate, iar raportul n/N reprezintă fracţia de sondaj.

4.6.2. Determinarea erorii limită Determinarea erorii limită maximă admisibilă se face, în cazul sonda-

jului fără revenire, ţinând seama de eroarea medie de reprezentativitate:

CAPITOLUL 4

��

��

�−⋅==∆ αα N

n1n

sz)s(z x

2/x2/x (4.37)

4.6.3. Determinarea intervalului de încredere pentru media µµµµ Intervalul de încredere pentru media µµµµ din colectivitatea generală,

corespunzător probabilităţii 100(1-α)% de garantare a rezultatelor este:

xx xx ∆+<<∆− µ (4.38)

Nn1

nszx

Nn1

nszx 2/2/ −+<<−− αα µ (4.39)

��

��

�−+<�<��

�

��

�−−

= Nn1

nszxNx

Nn1

nszxN 2/

N

1ii2/ αα (4.40)

EXEMPLUL 4.5: Un eşantion aleator de 80 de observaţii a fost selectat

nerepetat dintr-o populaţie normal distribuită de volum N=800 de unităţi. În urma calculelor a rezultat valoarea medie a caracteristicii în eşantion x =14.1 şi abaterea medie pătratică sx=2.6. Să se determine intervalul de încredere, garantat cu o probabilitate de 95%, pentru media colectivităţii

generale (µ) şi pentru valoarea agregată a caracteristicii ��

��

��=

N

1iix .

Rezolvare:

276.09.0806.2

Nn1

ns

s xx ==−=

54.0276.096.1szsz x025.0x2/x =⋅=⋅=⋅=∆ α

14.1-0.54< µ <14.1+0.54

13.56< µ <14.64


11712x10848N

1ii <�<

=

4.6.4. Determinarea volumului eşantionului

N

sz

sz

Nsz

Nszn 22

2x

22

2x

2x

2

2x

2

2/

2/

2/

2/

α

α

α

α

+∆

=∆+

= (4.41)

4.7. ESTIMAREA PROPOR ŢIEI ÎN CAZUL SONDAJULUI ALEATOR SIMPLU

Utilizarea lui f pentru a estima populaţia p este similară cu utilizarea lui

x pentru estimarea parametrului µ. 4.7.1. Determinarea erorii medii de reprezentativitate Dispersia mediilor de selecţie (adică dispersia proporţiilor eşantioa-

nelor) va fi atunci:

n)p1(p2

f−=σ (4.42)

estimată (pentru că, de obicei, proporţia p din colectivitatea generală este necunoscută), prin:

n)f1(fs2

f−= (4.43)

Atunci, abaterea medie pătratică a proporţiilor din eşantioane, ce repre-zintă eroarea medie de reprezentativitate este calculată, pe baza datelor din eşantion:

n)f1(fsf

−= pentru selecţie repetată (4.44)

şi

CAPITOLUL 4

−⋅−=Nn1

n)f1(fsf pentru selecţie nerepetată (4.45)

4.7.2. Determinarea erorii limită Înlocuind eroarea medie de reprezentativitate calculată anterior obţinem

eroarea limită (maximă admisibilă):

n)f1(fzsz 2/f2/f

−==∆ αα pentru selecţie repetată (4.46)

şi

��

��

� −⋅−==∆Nn1

n)f1(fzsz 2/f2/f αα pentru selecţie nerepetată (4.47)

4.7.3. Determinarea intervalului de încredere pentru proporţia p

Intervalul de încredere pentru proporţia p din colectivitatea generală este dat de:

f-∆f < p < f+∆f (4.48)

adică:

n)f1(fzfp

n)f1(fzf 2/2/

−+<<−− αα pentru selecţie repetată (4.49)

şi

��

��

� −⋅−+<<��

��

� −⋅−−Nn1

n)f1(fzfp

Nn1

n)f1(fzf 2/2/ αα (4.50)

pentru selecţie nerepetată, garantat cu o probabilitate 100(1-α)%. Pentru estimarea numărului de răspunsuri afirmative, intervalul de

încredere este dat de:

)f(NM)f(N ff ∆+<<∆− (4.51)


EXEMPLUL 4.6: Presupunem că din 100 de persoane selectate aleator şi

anchetate, 30 au o opinie favorabilă despre un produs nou. Să se estimeze cu o probabilitate de 90%, intervalul de încredere pentru proporţia opiniilor favorabile din colectivitatea generală (locuitorii unui oraş).

Rezolvare:

046.0100

21.0n

)f1(fsf ==−=

%)5.7(075.0046.064.1szsz f05.0f2/f =⋅===∆ α

0.3-0.075 < p < 0.3+0.075

0.225 < p < 0.375 4.7.4. Determinarea volumului eşantionului Pentru selecţia aleatoare repetată volumul eşantionului este dată de

relaţia:

2f

2 )f1(fzn∆

−= (4.52)

iar pentru selecţia fără revenire este dată de relaţia:

N)f1(fz

)f1(fz)f1(fzN

N)f1(fzn 22f

2

22f

2

−+∆

−=−+∆

−= (4.53)

4.7.5. Determinarea probabilităţii de garantare a rezultatelor 100(1-αααα)% Pentru a obţine nivelul de încredere sau probabilitatea de garantare a re-

zultatelor, atunci când folosim proporţia f din eşantion pentru a estima pro-porţia p din colectivitatea generală, vom rezolva ecuaţia:

)f1(fnz f

2/ −∆=α (4.54)

CAPITOLUL 4 şi apoi vom determina:

P(-zα/2 < Z < zα/2) = 1-α

4.8. SONDAJUL ALEATOR TIPIC (STRATIFICAT)

Variaţia între straturi nu influenţează, în cazul selecţiei stratificate, eroa-

rea medie de reprezentativitate, deoarece aeastă variaţie este precis reflectată în eşantion. Cu alte cuvinte, vom fi siguri că – cel puţin din punctul de ve-dere al factorului de stratificare – populaţia este corect reprezentată în eşantion şi criteriul ales nu mai constituie sursă pentru eroarea medie de re-prezentativitate.

Considerând distribuţia unei colectivităţi după variabila X, putem reprezenta grafic eficacitatea unei stratificări în cadrul sondajului ca în Fig. 4.4.

0 0

•

•

•

• • •

•

•

•

•

•

• • •

•

•

•

•

•

• • •

•

•

•

•

•

• • •

•

••

•

•

• • •

•

•

•

•

•

• • •

•

•

•

•

•

• • •

•

•

•

•

•

• • •

•

•

•

•

•

•

•

• • •

•

•

•

•

•

• •

•

•

•

•

•

• • •

•

•

•

•

•

• •

•

•

•

•

•

• •

•

••

•

• •

•

•

•

• • •

•

•

•

•

•

• • •

•

•

•

•

•

• • •

•

•

•

•

•

• • •

•

•

•

•

•

• •

•

•

•

•

•

• •

•

•

xx

a) b)

Fig. 4.4 - Sondaj stratificat: a. sondaj ineficient; b. sondaj eficient

4.8.1. Calcului indicatorilor pentru o variabilă cantitativă Pentru a calcula un estimator nedeplasat al mediei colectivităţii generale,

vom determina media aritmetică ponderată a mediilor straturilor. Ast-fel, în colectivitatea generală, vom introduce notaţiile:


i

N

1jij

i N

xi�

= =µ media stratului i (4.55)

�

�

=

=µ

=µh

1ii

h

1iii

N

N media generală (4.56)

Pentru eşantion vom nota:

i

n

1jij

in

xx

i�

= = media stratului i (4.57)

�

�

=

==h

1ii

h

1iii

n

nxx media eşantionului (4.58)

Putem scrie eroarea medie de reprezentativitate:

n

2x

xst

σ=σ (4.59)

sau, pe baza datelor din eşantion (pentru că 2

σ , în general, este necunos-cut):

nss

2x

xst= (4.60)

Atunci, eroarea limită (maximă admisibilă) este:

stst x2/x szα=∆ (4.61)

pentru probabilitatea 100(1-α)% de garantare a rezultatelor.

CAPITOLUL 4

Intervalul de încredere pentru media colectivităţii generale este dat de:

stst xstxst xx ∆+<<∆− µ (4.62) Determinarea volumului eşantionului se va efectua şi aici pornind de

la formula erorii limită:

n

szsz2x

2/stx2/xst αα =⋅=∆

care prin prelucrare conduce la:

2x

2x2/

st

szn

∆= α (4.63)

În cazul selecţiei aleatoare stratificate fără revenire, se va ţine seama

de coeficientul corecţiei finite în populaţie şi vom avea: — eroarea medie de reprezentativitate:

� ��

��

� −=��

��

� −=Nn1

nsn

n1

Nn1

nss

2xii

2x

xst (4.64)

— eroarea limită admisibilă la un coeficient de încredere (1-α):

��

��

� −=∆ α Nn1

nsz

2x

2/xst (4.65)

— volumul eşantionului:


Nsz

szn

2x

22/2

x

2x

22/

st

α

α

+∆

= (4.66)

EXEMPLUL 4.7: Un cercetător este interesat în determinarea salarului me-

diu pentru angajaţii unei firme. În firmă lucrează 850 de persoane, din care 500 angajaţi permanent şi 350 colaboratori. Se selectează aleator stratificat proporţional 10% din efectiv: 50 de angajaţi permanent şi 35 colaboratori şi se doreşte garantarea estimaţiei cu o probabilitate de 95%. În urma prelu-crării datelor, se obţin următoarele rezultate:

Angajaţi permanent Colaboratori 1x = 1620 mii lei 2x = 2100 mii lei

sx1= 235 mii lei sx2= 410 mii lei n1= 50 n2= 35 Rezolvare:

65.1817nnx

NNxx

i

ii

i

iist =

�

�=�

�= mii lei

94.101702n

nss

i

i2xi2

x ==�

�

Eroarea medie de reprezentativitate (se presupune selecţie nerepetată)

este:

82.329.085

94.101702Nn1

nss

2x

xst=⋅=�

�

��

� −= mii lei

Eroarea limită pentru α=0.05 este: 33.6482.3296.1szsz

ststst x025.0x2/x =⋅===∆ α mii lei

CAPITOLUL 4

Intervalul de încredere pentru salariul mediu din colectivitatea generală: 1817.65 – 64.33 < µ < 1817.65 + 64.33 mii lei 1753.32 < µ < 1881.99 mii lei

garantat cu o probabilitate de 95%. 4.8.2. Alegerea numărului de straturi şi repartizarea volumului eşan-

tionului pe straturi Alegerea numărului de straturi impune două remarci. Prima este de

ordin teoretic: ideală este stratificarea la maximum, adică alegerea unui nu-măr cât mai mare de grupe. Cea de-a doua este de ordin practic: rareori se pot depăşi 10 straturi şi, de obicei, limitele straturilor sunt impuse de infor-maţiile disponibile din baza de sondaj.

Determinarea volumului eşantionului în cazul selecţiei aleatoare strati-ficate impune şi alocarea acestuia pe straturi. Există două posibilităţi de re-partizare a volumului eşantionului (n) pe straturi: o repartiţie proporţio-nală şi o repartiţie optimă.

Dacă dispersiile din interiorul straturilor sunt egale, pentru un număr dat de unităţi statistice eşantionate (n), dispersia pe ansamblu este minimă când fracţiile de sondaj sunt identice (selecţie tipică proporţională). Proporţiile sunt determinate de ponderile straturilor, adică:

nNNn i

i = (4.67)

Cea de-a doua posibilitate de repartizare (selecţie tipică optimă) pre-

supune o fracţie de sondaj variabilă de la un strat la altul. Pentru o selecţie tipică optimă, fracţiile de sondaj vor fi proporţionale cu

abaterile medii pătratice.Atunci, pentru stratul i volumul subeşantionului este dat de:

nsN

sNn

h

1ixii

xiii

�=

= (4.68)

şi evident nnh

1ii =�

=.


4.8.3. Estimarea proporţiei pentru o variabilă alternativă Eroarea medie de reprezentativitate, calculată pe baza datelor din

eşantion este dată de: — pentru selecţie stratificată repetată:

n)f1(fsfst

−= (4.69)

— pentru selecţie stratificată nerepetată:

��

��

� −−=Nn1

n)f1(fsfst (4.70)

Eroarea limită (maximă admisibilă), la un prag de semnificaţie α, se

calculează ca: fst2/fst sz ⋅=∆ α (4.71)

iar intervalul de încredere pentru proporţia p din colectivitatea generală:

fstfst fpf ∆+<∆− (4.72)

De asemenea, se adaptează corespunzător formulele pentru determinarea

volumului eşantionului şi repartizarea acestuia pe straturi.

4.9. SONDAJUL DE SERII (CUIBURI) În sondajul în cuiburi, populaţia, mai mult sau mai puţin împrăştiată,

este subdivizată în cuiburi. Pentru fiecare astfel de cuib se poate calcula o madie ix . În fiecare din cuiburile extrase toţi indivizii sunt observaţi şi atunci media xi , este cunoscută fără eroare (de sondaj, neeliminându-se posibilitatea erorilor de observaţie).

CAPITOLUL 4

Hazardul poate alege un cuib asemănător cu altul, deci în care cele două medii de cuib să fie egale. De aceea fluctuaţia de eşantionaj depinde de ine-galitatea mediilor de grup. Dispersia totală σ2

x este egală cu suma dis-

persiilor între cuiburi (grupuri) σ 2c şi intracuiburi. Cum σ2

x este fixă, pre-cizia unui sondaj în cuiburi este cu atât mai bună cu cât σ 2

c este mai mică şi cu cat varianţa în interiorul cuiburilor este mai mare. (Fig. 4.5).

0 0

•

xx

•••

••

••

••••

•

•

•

•

•

•

•

••

•

••

•

•

•

•

•

•

• ••

••

•

••

•

•

a. b.

Fig. 4.5 - Eficacitatea unui sondaj în cuiburi: a. cuiburi eficiente: mediile de grup marcate prin puncte sunt puţin dispersate; b. cuiburi ineficiente: mediile cuiburilor

sunt la fel de dispersate ca şi valorile individuale Dispersia (varianţa) totală este alcătuită din doi termeni: dispersia inter-

cuiburi şi dispersia intracuiburi:

�+=�+−�= σσσσ 2i

i2c

2i

i2i

i2

NN

NN)XX(N

N , (4.73)

Dispersia intergrupuri exprimă inegalitatea diverselor medii de grupă

între ele.

4.10. TESTAREA IPOTEZELOR STATISTICE ÎN FUNDAMENTAREA DECIZIILOR


Deseori, managerii trebuie să fie pregătiţi să ia decizii privind acţiunile

viitoare pe baza informaţiilor disponibile. În procesul de luare a deciziilor, ei emit ipoteze pe care le pot testa ştiinţific utilizând metodele şi tehnicile statistice.

DEFINIŢIE: Ipoteza statistică este ipoteza care se face cu privire la para-

metrul unei repartiţii sau la legea de repartiţie pe care o urmează anumite variabile aleatoare.

4.10.1. Concepte şi erori în testarea ipotezelor statistice În statistică, ipotezele apar întotdeauna în perechi: ipoteza nulă şi ipoteza

alternativă. Ipoteza statistică ce urmează a fi testată se numeşte ipoteză nulă şi este notată, uzual, H0. Ea constă întotdeauna în admiterea caracterului întâmplător al deosebirilor, adică în presupunerea că nu există deosebiri esenţiale. Respingerea ipotezei nule care este testată implică acceptarea unei alte ipoteze. Această altă ipoteză este numită ipoteză alternativă, notată H1.

Procedeul de verificare a unei ipoteze statistice se numeşte test sau cri-teriu de semnificaţie. O secvenţă generală de paşi se aplică la toate situa-ţiile de testare a ipotezelor statistice.

1) Se identifică ipoteza statistică specială despre parametrul

populaţiei sau legea de repartiţie (H0). 2) Întotdeauna ipoteza nulă este însoţită de ipoteza alternativă (de cerce-

tat), H1, ce reprezintă o teorie care contrazice ipoteza nulă. Ea va fi accep-tată doar când există suficiente dovezi, evidenţe, pentru a se stabili că este adevărată.

3) Se calculează indicatorii statistici în eşantion, utilizaţi pentru a accepta

sau a respinge ipoteza nulă şi se stabileşte testul statistic ce va fi utilizat drept criteriu de acceptare sau de respingere a ipotezei nule.

4) Se stabileşte regiunea critică, Rc Regiunea critică este delimitată de valoarea critică, C – punctul de

tăietură în stabilirea acesteia.

CAPITOLUL 4

În baza legii numerelor mari, numai într-un număr foarte mic de cazuri punctul rezultat din sondaj va cădea în Rc, majoritatea vor cădea în afara regiunii critice. Nu este însă exclus ca punctul din sondaj să cadă în regiunea critică, cu toate că ipoteza nulă despre parametrul populaţiei este adevărată.

Eroarea pe care o facem eliminând o ipoteză nulă, deşi este adevărată, se numeşte eroare de genul întâi. Probabilitatea comiterii unei astfel de erori reprezintă riscul de genul întâi (α) şi se numeşte nivel sau prag de semni-ficaţie.

Nivelul de încredere al unui test statistic este (1-α) iar în expresie procentuală, (1-α)100 reprezintă probabilitatea de garantare a rezultatelor.

Eroarea pe cere o facem acceptând o ipoteză nulă, deşi este falsă, se nu-

meşte eroare de genul al doilea, iar probabilitatea (riscul) comiterii unei astfel de erori se notează cu β. Puterea testului statistic este (1-β).

xµ0

xf( )

C

H1

µ1

H0

α

β

Fig. 4.6 - Legătura dintre probabilităţile α şi β

Cum n

ss xx = , o dată cu creşterea volumului n al eşantionului, aba-

terile medii pătratice ale distribuţiilor pentru H0 şi H1 devin mai mici şi, evident, atât α, cât şi β descresc (Fig. 4.7).


xµ0

xf( )

C

H1

µ1

H0

α

β

Fig. 4.7 - α şi β când volumul eşantionului n' > n 5) După ce am stabilit pragul de semnificaţie şi regiunea critică, trecem la

pasul următor, în care vom face principalele presupuneri despre populaţia sau populaţiile ce sunt eşantionate (normalitate etc.).

6) Se calculează apoi testul statistic şi se determină valoarea sa nume-

rică, pe baza datelor din eşantion. 7) La ultimul pas, se desprind concluziile: ipoteza nulă este fie acceptată,

fie respinsă, astfel: a) dacă valoarea numerică a testului statistic cade în regiunea

critică (Rc), respingem ipoteza nulă şi concluzionăm că ipoteza alternativă este adevărată. Vom şti că această decizie este incorectă doar în 100 α % din cazuri;

b) dacă valoarea numerică a testului nu cade în regiunea critică (Rc), se acceptă ipoteza nulă H0.

Ipoteza alternativă poate avea una din trei forme (pe care le vom exem-

plifica pentru testarea egalităţii parametrului „media colectivităţii generale“, µ cu valoarea µ0):

i) H0: µ = µ0 H1: µ ≠ µ0 (µ < µ0 sau µ > µ0); şi acest test este un test bilateral; ii) H0: µ = µ0

CAPITOLUL 4

H1: µ > µ0 care este un test unilateral dreapta; iii) H0: µ = µ0 H1: µ < µ0 care este un test unilateral stânga.

α/2 α αα/2

µ µ µ a) b) c)

Fig. 4.8 - Regiunea critică pentru: a) test bilateral; b) test unilateral stânga; c) test unilateral dreapta

4.10.2. Testarea ipotezei privind media populaţiei generale (µ) pentru eşantioane de volum mare

i) în cazul testului bilateral, ipotezele sunt:

H0: µ = µ0 (µ - µ0=0) H1: µ ≠ µ0 (µ - µ0≠0) (adică µ < µ0 sau µ > µ0);

ns

xn

xxz

x

0

x

0

x

0 µσ

µσ

µ −≈

−=

−= (4.74)

Regiunea critică Rc este dată de: Rc: z< - z α/2 sau z> z α/2

Respingem H0 dacă 2/0

ασµ

zn

x

x−<

−

sau 2/0

ασµ

zn

x

x>

−


ii) pentru testul unilateral dreapta, ipotezele sunt: H0: µ = µ0 (µ - µ0=0) H1: µ > µ0 (µ - µ0>0);

Respingem ipoteza H0 dacă ασµ

zn

x 0 >−

iii) Pentru testul unilateral stânga, ipotezele sunt:

H0: µ = µ0 (µ - µ0=0) H1: µ < µ0 (µ - µ0<0);

Respingem ipoteza H0 dacă ασµ

zn

x 0 −<−

4.10.3. Testarea ipotezei privind diferenţa dintre două medii pentru

eşantioane de volum mare Un estimator al diferenţei (µ1- µ2) este diferenţa dintre mediile

eşantioanelor ( 21 xx − ).

( )2

22x

1

21x

xx nn21

σ+

σ=σ − (4.75)

unde 21xσ şi 2

2xσ sunt dispersiile celor două populaţii eşantionate, iar n1 şi n2 sunt volumele eşantioanelor respective.

În cazul în care dispersiile celor două populaţii eşantionate sunt egale, 21xσ = 2

2xσ = 2σ :

( )21

xxx n1

n1

21+σ=σ − (4.76)

În aceste condiţii, ipotezele statistice ce urmează a fi testate vor fi:

i) test bilateral

CAPITOLUL 4

H0: (µ1- µ2) = D H1: (µ1- µ2) ≠ D [(µ1- µ2)>D sau (µ1- µ2)<D]

ii) test unilateral dreapta H0: (µ1- µ2) = D H1: (µ1- µ2) > D

iii) test unilateral stânga H0: (µ1- µ2) = D H1: (µ1- µ2) < D Testul statistic utilizat are forma:

( )( )21

1

xx

2 Dxxz−

−−=σ

Regiunea critică este dată de:

i) z< - z α/2 sau z> z α/2 ii) z> z α iii) z< - z α

4.10.4. Testarea ipotezei privind media populaţiei generale (µ)

pentru eşantioane de volum redus În locul statisticii z care necesită cunoaşterea (sau o bună aproximare) a

lui xσ , vom folosi statistica:

ns

xs

xt

x

0

x

0 µ−=

µ−= (4.77)

unde: ( )

1nxx

s2

i2x −

−= �

i) test bilateral


H0: µ = µ0 H1: µ ≠ µ0 (µ < µ0 sau µ > µ0);

ii) test unilateral dreapta

H0: µ = µ0 H1: µ > µ0

iii) test unilateral stânga

H0: µ = µ0 H1: µ < µ0

Testul statistic utilizat:

nsx

sx

tx

0

x

0 µ−=

µ−=

Presupunerea specială ce trebuie făcută este aceea că populaţia gene-

rală este normal sau aproximativ normal distribuită. Regiunea critică este dată de:

i) t > t α/2,n-1 sau t < - t α/2,n-1 ii) t > t α,n-1 iii) t < - t α,n-1

4.10.5. Testarea ipotezei privind diferenţa dintre două medii pentru

eşantioane de volum redus

În condiţiile în care presupunem că cele două colectivităţi generale au

dispersii egale ( 21xσ = 2

2xσ = 2xσ ), un estimator al dispersiei (variabilităţii)

totale din cele două populaţii combinate este:

( ) ( )221

1

22

1

21

2

21

−+

� −+� −= ==

nn

xxxxs

n

ii

n

ii

c (4.78)

CAPITOLUL 4 sau

( ) ( )( ) ( )

( ) ( )2nn

s1ns1n1n1n

s1ns1ns

21

22x2

21x1

21

22x2

21x12

c −+−+−

=−+−−+−

= (4.79)

Ipotezele statistice vor fi, în aceste condiţii:

i) test bilateral H0: µ1 = µ2 (µ1- µ2 = D) H1: µ1 ≠ µ2 (µ1- µ2 ≠ D)

ii) test unilateral dreapta H0: µ1 = µ2 (µ1- µ2 = D) H1: µ1 > µ2 (µ1- µ2 > D)

iii) test unilateral stânga H0: µ1 = µ2 (µ1- µ2 = D) H1: µ1 < µ2 (µ1- µ2 < D)

Testul statistic t va avea forma:

( ) ( )( ) ( )

( )21

2121

22

2x121x

2

21

2c

2

nn2nnnn

1ns1ns

Dxx

n1

n1s

Dxxt 11

+−+

⋅−+−

−−=

��

��

�+

−−=

Regiunea critică este dată de:

i) t< - t 2nn,2/ 21 −+α sau t> t 2nn,2/ 21 −+α

ii) t> t 2nn, 21 −+α iii) t< – t 2nn, 21 −+α


Întrebări recapitulative

1. Definiţi conceptul de selecţie statistică. 2. Arătaţi avantajele utilizării selecţiei statistice. 3. Ce este eşantionul? 4. Ce reprezintă noţiunea de „eroare de estimaţie“? 5. Arătaţi principalele noţiuni perechi specifice selecţiei statistice. 6. Care sunt principalele etape ale realizării unui sondaj statistic? 7. Prin ce se caracterizează o distribuţie de eşantionare? 8. Sondajul aleator simplu repetat: caracteristici, eroare de reprezentati-

vitate, eroare limită admisibilă, interval de încredere. 9. Cum se determină volumul eşantionului în cazul sondajului aleator

simplu repetat şi nerepetat. De ce factori depinde? 10. Determinarea erorii de reprezentativitate, a erorii maxim admisibile şi

a intervalului de încredere în cazul utilizării sondajului simplu aleator nere-petat. 11. Cum se determină probabilitatea de garantare a rezultatelor în cazul

sondajului aleator simplu repetat şi nerepetat? 12. Determinarea intervalului de încredere în cazul sondajului aleator

simplu de volum redus. 13. Determinaţi indicatorii de sondaj, erorile şi intervalul de încredere

pentru caracteristica alternativă în cazul sondajului simplu aleator. 14. Volumul eşantionului şi probabilitatea de garantare a rezultatelor

pentru caracteristica alternativă — sondaj simplu aleator. 15. Ce particularităţi prezintă sondajul stratificat? 16. În ce condiţii se foloseşte şi care sunt avantajele utilizării sondajului

tipic în cercetarea statistică? 17. Calculul indicatorilor de sondaj pentru o caracteristică cantitativă, în

cazul sondajului tipic. 18. Cum se alege numărul de straturi şi cum se repartizează volumul

eşantionului pe straturi? 19. Calculul indicatorilor de sondaj pentru o caracteristică alternativă în

cazul sondajului stratificat. 20. Sondajul de serii — concept, utilizare, particularităţi, avantaje. 21. Ce reprezintă ipoteza nulă într-un proces de testare de ipoteze statis-

tice? 22. Ce reprezintă ipoteza alternativă într-un proces de testare de ipoteze

statistice?

CAPITOLUL 4

23. Ce reprezintă testul sau criteriul de semnificaţie? 24. Ce reprezintă regiunea critică? 25. Când comitem o eroare de genul întâi? 26. Când comitem o eroare de genul al doilea? 27. Ce reprezintă α şi β? 28. Care sunt paşii în construirea unui test statistic? 29. Cum se testează ipoteza privind media unei colectivităţi generale în

cazul eşantioanelor mari? 30. Cum se testează ipoteza privind media unei colectivităţi generale în

cazul eşantioanelor de volum redus? 31. Cum se testează ipoteza privind diferenţa dintre mediile a două colec-

tivităţi generale, în cazul eşantioanelor mari? 32. Cum se testează ipoteza privind diferenţa dintre mediile a două colec-

tivităţi generale, în cazul eşantioanelor de volum redus?

Documents

CAPITOLUL 4 CERCETAREA STATISTICĂ PRIN SONDAJ · PDF fileSTATISTICĂ ECONOMICĂ Noţiuni teoretice 4.1. INTRODUCERE Cercetarea statistică urmăreşte obţinerea informaţiilor ce