Upload
vuongtuong
View
228
Download
0
Embed Size (px)
Citation preview
CAPITOLUL 4
CAPITOLUL 4
CERCETAREA STATISTICĂ PRIN SONDAJ
Consideraţii preliminare
În capitolele precedente am discutat despre posibilităţile de culegere a
datelor pe baza metodelor de observare totală sau parţială, ca şi despre modalităţile de descriere a datelor prin indicatori statistici, uzual obţinuţi pe baza colectivităţilor parţiale. Am văzut, de asemenea, că inferenţa statistică reprezintă procesul prin care obţinem informaţii şi tragem concluzii referitoare la colectivităţi generale, pe baza eşantioanelor. Există două tehnici generale pentru realizarea inferenţei statistice: procesul de estimare şi cel de testare a ipotezelor statistice.
În capitolul acesta vom urmări să cunoaştem fundamentele procesului de estimaţie şi ale celui de testare a ipotezelor statistice, vitale pentru desfăurarea unor cercetări statistice.
Termeni cheie
criteriu de semnificaţie. parametru distribuţie de eşantionare probabilitatea unei erori de genul I eroare de estimaţie probabilitatea unei erori de genul II eroare de genul I selecţie statică eroare de genul II sondaj aleator simplu eroare limită admisibilă sondaj aleator tipic eroare medie de reprezentativitate sondaj cu revenire eşantion sondaj fără revenire estimaţie sondaj în cuiburi estimator test statistic interval de încredere volum al eşantionului ipoteză statistică
STATISTICĂ ECONOMICĂ
Noţiuni teoretice
4.1. INTRODUCERE
Cercetarea statistică urmăreşte obţinerea informaţiilor ce permit caracte-rizarea, din punct de vedere cantitativ, a fenomenelor de masă. Există două modalităţi de obţinere a acestor informaţii şi anume: se pot culege date despre toate unităţile ce alcătuiesc colectivitatea cercetată sau se poate se-lecta o subcolectivitate pe care să o analizăm şi pe baza informaţiilor obţi-nute să tragem concluzii, să generalizăm rezultatele pentru colectivitatea de ansamblu. Prima cale prezentată este cea a unei cercetări statistice totale, iar cea de-a doua a cercetării statistice prin sondaj. În condiţiile econo-mico-sociale de astăzi, când este nevoie de informaţii rapide, multiple şi complexe, metoda principală de obţinere a informaţiilor statistice tinde să devină, practic, aceea a sondajului statistic, prin care se obţin date empirice şi, printr-o interpretare probabilistică, se estimează indicatori pentru popula-ţia totală.
Metoda sondajului poate aşadar să salveze timp şi bani oferind informaţii despre seturi largi de date fără ca să fie necesară observarea şi cercetarea tuturor elementelor ce alcătuiesc colectivitatea. Procesul va cuprinde atunci două etape: — etapa descriptivă, în care se culeg date şi se calculează indicatorii ce
caracterizează subcolectivitatea analizată — etapa inferenţială, în care rezultatele obţinute pentru această subco-
lectivitate se extind, în termeni probabilistici, la colectivitatea generală. Este de menţionat faptul că, dacă metodele statistice descriptive pot fi
aplicate atât unei colectivităţi totale cât şi uneia parţiale, în schimb etapa de inferenţă statistică este specifică cercetării prin sondaj.
4.2. NOŢIUNI SPECIFICE
DEFINIŢIE: Selecţia statistică reprezintă operaţia de extragere a unei părţi dintr-o colectivitate statistică, a unei subcolectivităţi numită şi eşantion, mostră, colectivitate parţială sau colectivitate de selecţie.
CAPITOLUL 4
Vom nota volumul colectivităţii generale cu N şi volumul colectivităţii de selecţie cu n, 1 ≤ n ≤ N-1. În cazul în care datele au fost sistematizate în r grupe după variaţia unei caracteristici de grupare, vom avea:
�==
r
1iiNN (4.1)
�==
r
1iinn (4.2)
Media aritmetică, principalul indicator al tendinţei centrale, va fi notat
cu µ în cazul în care este parametrul colectivităţii totale şi cu x în cazul în care este un indicator obţinut printr-o cercetare statistică prin sondaj.
Parametrul colectivităţii generale se calculează:
N
xN
1ii�
= =µ (4.3)
sau dacă datele au fost sistematizate în r grupe obţinându-se o serie de dis-tribuţie de frecvenţe:
r,1iN
Nx
r
1ii
r
1iii
=�
�
=
=
−µ (4.4)
Indicatorul statistic obţinut pentru eşantion – media – estimatorul para-
metrului, este:
n
xx
n
1ii�
= = (4.5)
sau în cazul unei serii de distribuţii de frecvenţe:
STATISTICĂ ECONOMICĂ
�
�
=
=
=r
1ii
r
1iii
n
nxx (4.6)
Un alt indicator important, dispersia, se va nota cu σ 2 dacă este para-
metru obţinut în colectivitatea generală şi cu s2 dacă este estimatorul para-metrului, obţinut pe un eşantion.
Astfel, parametrul colectivităţii generale este:
N
)x(N
1i
2i
2x
�=
µ−=σ (4.7)
respectiv în cazul datelor grupate:
�
�
=
=µ−
=σr
1ii
i
2r
1ii
2
N
N)x(
x (4.8)
iar estimatorul dispersiei din colectivitatea generală, anume dispersia eşan-tionului:
1n
n
xx
1n
)xx(s
n
1i
2n
1ii
2n
1i
2i
2
i
x −
�����
�
�
�����
�
�
−
=−
−=
�
�
�=
=
= (4.9)
sau în cazul distribuţiei de frecvenţe:
CAPITOLUL 4
∑
∑
∑
∑
∑
∑
=
=
=
=
=
=
−
−
=−
−= r
1ii
r
1i
2
r
1ii
r
1iii
i2
r
1ii
r
1ii
2i
2
1n
n
nxnx
1n
n)xx(s
i
x (4.10)
Atunci când eşantioanele sunt de volum mare (n>30), se poate renunţa la
scăderea lui 1 din numitorul dispersiei. În cazul caracteristicilor binare (de tip alternativ), simbolurile perechi
utilizate pentru parametrii din populaţia generală şi pentru estimatorii obţi-nuţi în eşantion vor fi: pentru media aritmetică: — parametrul colectivităţii generale:
NMp = (4.11)
— estimatorul obţinut în eşantion:
nmf = (4.12)
Dispersia caracteristicii alternative se va nota în populaţia generală cu: )p1(p2 −=σ (4.13)
iar în eşantion (estimatorul dispersiei din colectivitatea generală):
( )f1fs2 −= (4.14)
STATISTICĂ ECONOMICĂ
�•
••
•
•••
•••
• •
•
•
•
••
•
••
•
x
eºantionPopulaþie (colectivitate generalã)
Fig. 4.1 - Procesul inferenţei statistice
4.3. TIPURI DE SONDAJ
În selecţia aleatoare se disting următoarele tipuri de sondaj: — sondajul simplu aleator; — sondajul tipic (stratificat); — sondajul de serii (cuiburi); — sondajul în mai multe trepte; — sondaj secvenţial.
4.4. DISTRIBUŢII DE EŞANTIONARE. PROPRIETĂŢI ALE DISTRIBUŢIILOR DE EŞANTIONARE
Deoarece datele din eşantioane sunt valori observate ale variabilelor alea-toare, indicatorii statistici calculaţi pentru un eşantion vor varia într-un mod aleator de la eşantion la eşantion.
Populaţia statistică (colectivitatea)
Eşantion Eşantion Eşantion
Indicator Indicator Indicator
CAPITOLUL 4
În privinţa mediei de selecţie, indicator statistic obţinut pe eşantion,
trebuie arătat că, indiferent de forma distribuţiei de frecvenţe din colectivi-tatea generală, media distribuţiei de eşantionare a mediei de selecţie ( x ) este egală cu µ, media colectivităţii generale (pentru eşantioane mari). µµ =)x(
Un alt parametru al distribuţiei de eşantionare, dispersia medie de
sondaj se calculează ca:
n
22x
σσ = (4.15)
Eroarea standard a mediei de sondaj este
xσ , adică abaterea medie
pătratică a mediei de selecţie x de la parametrul µ:
nnx
2
xx σ=
σ=σ (4.16)
Evident, cum σx
2 (dispersia colectivităţii generale) şi σ (abaterea medie pătratică din colectivitatea generală) sunt necunoscute, ele se estimează prin s2 (dispersia de sondaj) şi s (abaterea mediei pătratice de sondaj). Se obţine, astfel, estimatorul dispersiei mediei de sondaj ( 2
xs ):
n
ss
22x
x= (4.17)
şi estimatorul erorii medii a mediei de sondaj (adică eroarea medie de reprezentativitate):
STATISTICĂ ECONOMICĂ
ns
s xx = (4.18)
În privinţa distribuţiei de eşantionare a mediei de selecţie, să mai notăm că în cazul populaţiilor normal distribuite (cu distribuţii de probabilitate normală), distribuţia de eşantionare a mediei de selecţie este normală, indiferent de numărul elementelor din eşantion (de volumul eşantionu-lui).
4.5. SONDAJUL ALEATOR SIMPLU REPETAT
4.5.1. Determinarea erorii medii de reprezentativitate În cazul unei variabile cantitative, de tip nealternativ, pentru estimarea
parametrului media colectivităţii generale (µ) este necesar să calculăm me-dia de sondaj ( x ) (formulele 4.5 sau 4.6).
Dispersia mediilor de selecţie este:
n
ss
22x
x= (4.19)
Eroarea medie de reprezentativitate (abaterea medie pătratică a mediei
de sondaj) se determnină pe baza datelor din eşantion ca:
ns
n
ss x
2
xx
== (4.20)
4.5.2. Determinarea erorii limită Pentru a construi acest interval de încredere vom determina, întâi, eroa-
rea limită maximă admisibilă. Cum media de sondaj ( x ) este variabilă aleatoare normal distribuită, de medie µ şi abaterea medie pătratică σ
x=σx / n ,
înseamnă că variabila normală normată (redusă) corespunzătoare este:
CAPITOLUL 4
x
xzσ
µ−= (4.21)
xsxz µ−= (4.22)
Pentru probabilitatea cu care garantăm rezultatele 100(1-α)%, eroarea
limită (maximă) admisibilă este:
ns
zsz x2/x2/x αα ==∆ (4.23)
4.5.3. Determinarea intervalului de încredere pentru media µ Intervalul de încredere calculat pe baza erorii limită maximă admisibilă
este:
nszx 2/α±
Pentru un eşantion de volum normal sau mare, mărimea relativă a intervalului de încredere poate să fie prezentată schematic astfel (Fig. 4.3)
Interval de încredere pentru 1-α=0.999
Interval de încredere pentru 1-α=0.99
Interval de încredere pentru 1-α=0.95
Interval de încredere pentru 1-α=0.90
Media eşantionului
Fig. 4.3 - Mărimea relativă a intervalului de încredere pentru un eşantion de volum mare
xsx sx
STATISTICĂ ECONOMICĂ
xx xx ∆+<<∆− µ (4.24) Intervalul de încredere ( xx ∆± ) este garantat cu nivelul de încredere
ales, ceea ce face ca această estimare să fie preferabilă estimării punctuale. Intervalul de încredere pentru nivelul total al caracteristicii este:
)x(Nx)x(N x
N
1iix ∆+<�<∆−
= (4.25)
EXEMPLUL 4.1: Să se determine intervalul de încredere, garantat cu o
probabilitate de 99%, pentru media şi nivelul total al unei caracteristici numerice X, dacă eşantionul selectat aleator repetat de 36 de unităţi, adică 5% din colectivitatea generală este de medie 800 şi abatere medie pătratică 60.
Rezolvare: Eroarea medie de reprezentativitate va fi:
106
60n
sn
ss x2x
x ====
Eroarea limită maximă admisibilă:
8.251058.2sz x2/x =⋅==∆ α Intervalul de încredere pentru parametrul colectivităţii generale este dat
de:
xx xx ∆+<<∆− µ 800-25.8 < m < 800+25.8 774.2 < m < 825.8
iar pentru nivelul total al caracteristicii studiate: )x(Nx)x(N xix ∆+<�<∆− 557424 < � ix < 594576 Acest intervale de încredere sunt garantate cu o probabilitate de 99%.
CAPITOLUL 4
4.5.4. Determinarea volumului eşantionului
xx
2/ ns
z ∆=⋅α (4.26)
sau
2L
ns
z x2/ =⋅α (4.27)
Soluţia poate fi scrisă ca:
2x
2x
22/ s)z(
n∆
⋅= α (4.28)
sau
2
2x
22/
L
s)z(4n
⋅= α (4.29)
Desigur, şi aici sx
2 se foloseşte ca o estimaţie a lui 2xσ , în general necu-
noscută. Valoarea aproximativă a lui sx2 poate fi cunoscută dintr-o cercetare
prin sondaj anterioară. Ca o alternativă, putem aproxima amplitudinea îm-prăştierii Ax a observaţiilor şi apoi, sub presupunerea tendinţei de norma-litate a distribuţiei, putem calcula:
6/As xx ≅ (4.30)
EXEMPLUL 4.2: Să se determine volumul eşantionului necesar pentru a
estima media unei colectivităţi (µ) cu o eroare limită de 0.2 şi o probabilitate de garantare a rezultatelor de 95%, ştiind dintr-o cercetare anterioară că dispersia sx
2 este aproximativ egală cu 6.1. Aceaşi cerinţă pentru lungimea intervalului de încredere de 0.2.
Rezolvare: Pentru: 2.0x =∆ 100(1-α)% = 95% => zα/2 = z0.025 = 1.96
STATISTICĂ ECONOMICĂ
sx2 = 6.1
rezultă:
58684.585)2.0(
1.6)96.1(szn 2
2
2x
2x
22/ ≅=⋅=
∆
⋅= α unităţi statistice
În cazul în care întreaga lungime a intervalului de încredere este de 0.2 (evident o precizie crescută), vom avea:
234436.2343)2.0(
1.6)96.1(4
L
sz4n
2
2
2
2x
22/ ≅=⋅⋅=
⋅⋅= α unităţi statistice
4.5.5. Determinarea probabilităţii de garantare a rezultatelor 100(1-αααα)% Coeficientul de încredere este 1-α, pentru care P(-zα/2 < Z < zα/2)=1-α.
Atunci, din formula erorii limită (maximă) admisibilă rezultă:
x
x2/ s
nz
∆=α (4.31)
Din tabelele privind distribuţia normală normată se poate determina apoi
probabilitatea 100(1-α)% de garantare a rezultatelor. EXEMPLUL 4.3: Să se determine nivelul de încredere pentru estimaţia
privind media colectivităţii generale (µ), dacă volumul eşantionului este n=100 unităţi statistice, media eşantionului x =258600, abaterea medie pătratică s=8000, iar intervalul de încredere dorit este de 4000.
Rezolvare:
5.280001002000
sn
z x2/ ==
∆=α
şi 1-α=P(-2.5<z<2.5)=2(0.4938)=0.9876 Probabilitatea cu care garantăm rezultatele este de 98.76%.
CAPITOLUL 4
4.5.6. Particularităţi ale sondajului de volum redus Dacă eşantionul este de volum redus (n<30), iar abaterea medie pă-
tratică din colectivitatea generală (σσσσ) este necunoscută şi înlocuită cu
cea din eşantion (sx), statistica n/s)x(
x
µ− este o statistică t cu (n-1) grade
de libertate. Distribuţia de eşantionare a statisticii n/s)x(
x
µ− este o
distribuţie de probabilitate t cu condiţia ca populaţia generală să fie normal distribuită.
Intervalul de încredere pentru media m din colectivitatea generală este, în acest caz:
ns
txn
stx x
1n,2/x
1n,2/ −α−α +<µ<− (4.32)
EXEMPLUL 4.4: Presupunem că un număr de n=15 imprimante sunt
selectate pentru a se calcula media numărului de caractere imprimate până la terminarea cartuşului de imprimare. Pentru eşantionul selectat se obţin:
x = 1.23 milioane caractere; sx = 0.27 milioane caractere. Să se formeze un interval de încredere, garantat cu o probabilitate de
99%, pentru media numărului de caractere imprimate (m), în colectivitatea generală.
Rezolvare: Dacă presupunem că numărul de caractere imprimate este normal distribuit, atunci, pentru n=15:
tα/2,n-1=t0.005;14=2.977
Intervalul de încredere este:
44.102.11527.0977.223.1
1527.0977.223.1
ns
txn
stx x
1n,2/x
1n,2/
<µ<
+<µ<−
+<µ<− −α−α
STATISTICĂ ECONOMICĂ
4.6. SONDAJUL ALEATOR SIMPLU NEREPETAT
4.6.1. Determinarea erorii medii de reprezentativitate Dispersia mediei de selecţie este dată de relaţia:
1NnN
n
22x
x
−−⋅
σ=σ (4.33)
şi estimată (în cazul σ2 necunoscută) prin:
1NnN
n
ss
22x
x
−−⋅= (4.34)
Abaterea medie pătratică a mediei de selecţie (măsurător al erorii me-
dii de reprezentativitate) este:
1NnN
nx
x −−⋅σ=σ (4.35)
estimată prin:
Nn1
ns
1NnN
nss xx
x −⋅≅−−⋅= (4.36)
Termenul Nn1
1NnN −≅
−− se numeşte coeficient de corecţie în populaţie
finită sau factor de exhaustivitate, iar raportul n/N reprezintă fracţia de sondaj.
4.6.2. Determinarea erorii limită Determinarea erorii limită maximă admisibilă se face, în cazul sonda-
jului fără revenire, ţinând seama de eroarea medie de reprezentativitate:
CAPITOLUL 4
���
����
�−⋅==∆ αα N
n1n
sz)s(z x
2/x2/x (4.37)
4.6.3. Determinarea intervalului de încredere pentru media µµµµ Intervalul de încredere pentru media µµµµ din colectivitatea generală,
corespunzător probabilităţii 100(1-α)% de garantare a rezultatelor este:
xx xx ∆+<<∆− µ (4.38)
Nn1
nszx
Nn1
nszx 2/2/ −+<<−− αα µ (4.39)
���
����
�−+<�<��
�
����
�−−
= Nn1
nszxNx
Nn1
nszxN 2/
N
1ii2/ αα (4.40)
EXEMPLUL 4.5: Un eşantion aleator de 80 de observaţii a fost selectat
nerepetat dintr-o populaţie normal distribuită de volum N=800 de unităţi. În urma calculelor a rezultat valoarea medie a caracteristicii în eşantion x =14.1 şi abaterea medie pătratică sx=2.6. Să se determine intervalul de încredere, garantat cu o probabilitate de 95%, pentru media colectivităţii
generale (µ) şi pentru valoarea agregată a caracteristicii ��
���
��=
N
1iix .
Rezolvare:
276.09.0806.2
Nn1
ns
s xx ==−=
54.0276.096.1szsz x025.0x2/x =⋅=⋅=⋅=∆ α
14.1-0.54< µ <14.1+0.54
13.56< µ <14.64
STATISTICĂ ECONOMICĂ
11712x10848N
1ii <�<
=
4.6.4. Determinarea volumului eşantionului
N
sz
sz
Nsz
Nszn 22
2x
22
2x
2x
2
2x
2
2/
2/
2/
2/
α
α
α
α
+∆
=∆+
= (4.41)
4.7. ESTIMAREA PROPOR ŢIEI ÎN CAZUL SONDAJULUI ALEATOR SIMPLU
Utilizarea lui f pentru a estima populaţia p este similară cu utilizarea lui
x pentru estimarea parametrului µ. 4.7.1. Determinarea erorii medii de reprezentativitate Dispersia mediilor de selecţie (adică dispersia proporţiilor eşantioa-
nelor) va fi atunci:
n)p1(p2
f−=σ (4.42)
estimată (pentru că, de obicei, proporţia p din colectivitatea generală este necunoscută), prin:
n)f1(fs2
f−= (4.43)
Atunci, abaterea medie pătratică a proporţiilor din eşantioane, ce repre-zintă eroarea medie de reprezentativitate este calculată, pe baza datelor din eşantion:
n)f1(fsf
−= pentru selecţie repetată (4.44)
şi
CAPITOLUL 4
−⋅−=Nn1
n)f1(fsf pentru selecţie nerepetată (4.45)
4.7.2. Determinarea erorii limită Înlocuind eroarea medie de reprezentativitate calculată anterior obţinem
eroarea limită (maximă admisibilă):
n)f1(fzsz 2/f2/f
−==∆ αα pentru selecţie repetată (4.46)
şi
��
���
� −⋅−==∆Nn1
n)f1(fzsz 2/f2/f αα pentru selecţie nerepetată (4.47)
4.7.3. Determinarea intervalului de încredere pentru proporţia p
Intervalul de încredere pentru proporţia p din colectivitatea generală este dat de:
f-∆f < p < f+∆f (4.48)
adică:
n)f1(fzfp
n)f1(fzf 2/2/
−+<<−− αα pentru selecţie repetată (4.49)
şi
��
���
� −⋅−+<<��
���
� −⋅−−Nn1
n)f1(fzfp
Nn1
n)f1(fzf 2/2/ αα (4.50)
pentru selecţie nerepetată, garantat cu o probabilitate 100(1-α)%. Pentru estimarea numărului de răspunsuri afirmative, intervalul de
încredere este dat de:
)f(NM)f(N ff ∆+<<∆− (4.51)
STATISTICĂ ECONOMICĂ
EXEMPLUL 4.6: Presupunem că din 100 de persoane selectate aleator şi
anchetate, 30 au o opinie favorabilă despre un produs nou. Să se estimeze cu o probabilitate de 90%, intervalul de încredere pentru proporţia opiniilor favorabile din colectivitatea generală (locuitorii unui oraş).
Rezolvare:
046.0100
21.0n
)f1(fsf ==−=
%)5.7(075.0046.064.1szsz f05.0f2/f =⋅===∆ α
0.3-0.075 < p < 0.3+0.075
0.225 < p < 0.375 4.7.4. Determinarea volumului eşantionului Pentru selecţia aleatoare repetată volumul eşantionului este dată de
relaţia:
2f
2 )f1(fzn∆
−= (4.52)
iar pentru selecţia fără revenire este dată de relaţia:
N)f1(fz
)f1(fz)f1(fzN
N)f1(fzn 22f
2
22f
2
−+∆
−=−+∆
−= (4.53)
4.7.5. Determinarea probabilităţii de garantare a rezultatelor 100(1-αααα)% Pentru a obţine nivelul de încredere sau probabilitatea de garantare a re-
zultatelor, atunci când folosim proporţia f din eşantion pentru a estima pro-porţia p din colectivitatea generală, vom rezolva ecuaţia:
)f1(fnz f
2/ −∆=α (4.54)
CAPITOLUL 4 şi apoi vom determina:
P(-zα/2 < Z < zα/2) = 1-α
4.8. SONDAJUL ALEATOR TIPIC (STRATIFICAT)
Variaţia între straturi nu influenţează, în cazul selecţiei stratificate, eroa-
rea medie de reprezentativitate, deoarece aeastă variaţie este precis reflectată în eşantion. Cu alte cuvinte, vom fi siguri că – cel puţin din punctul de ve-dere al factorului de stratificare – populaţia este corect reprezentată în eşantion şi criteriul ales nu mai constituie sursă pentru eroarea medie de re-prezentativitate.
Considerând distribuţia unei colectivităţi după variabila X, putem reprezenta grafic eficacitatea unei stratificări în cadrul sondajului ca în Fig. 4.4.
0 0
•
•
•
• • •
•
•
•
•
•
• • •
•
•
•
•
•
• • •
•
•
•
•
•
• • •
•
••
•
•
• • •
•
•
•
•
•
• • •
•
•
•
•
•
• • •
•
•
•
•
•
• • •
•
•
•
•
•
•
•
• • •
•
•
•
•
•
• •
•
•
•
•
•
• • •
•
•
•
•
•
• •
•
•
•
•
•
• •
•
••
•
• •
•
•
•
• • •
•
•
•
•
•
• • •
•
•
•
•
•
• • •
•
•
•
•
•
• • •
•
•
•
•
•
• •
•
•
•
•
•
• •
•
•
xx
a) b)
Fig. 4.4 - Sondaj stratificat: a. sondaj ineficient; b. sondaj eficient
4.8.1. Calcului indicatorilor pentru o variabilă cantitativă Pentru a calcula un estimator nedeplasat al mediei colectivităţii generale,
vom determina media aritmetică ponderată a mediilor straturilor. Ast-fel, în colectivitatea generală, vom introduce notaţiile:
STATISTICĂ ECONOMICĂ
i
N
1jij
i N
xi�
= =µ media stratului i (4.55)
�
�
=
=µ
=µh
1ii
h
1iii
N
N media generală (4.56)
Pentru eşantion vom nota:
i
n
1jij
in
xx
i�
= = media stratului i (4.57)
�
�
=
==h
1ii
h
1iii
n
nxx media eşantionului (4.58)
Putem scrie eroarea medie de reprezentativitate:
n
2x
xst
σ=σ (4.59)
sau, pe baza datelor din eşantion (pentru că 2
σ , în general, este necunos-cut):
nss
2x
xst= (4.60)
Atunci, eroarea limită (maximă admisibilă) este:
stst x2/x szα=∆ (4.61)
pentru probabilitatea 100(1-α)% de garantare a rezultatelor.
CAPITOLUL 4
Intervalul de încredere pentru media colectivităţii generale este dat de:
stst xstxst xx ∆+<<∆− µ (4.62) Determinarea volumului eşantionului se va efectua şi aici pornind de
la formula erorii limită:
n
szsz2x
2/stx2/xst αα =⋅=∆
care prin prelucrare conduce la:
2x
2x2/
st
szn
∆= α (4.63)
În cazul selecţiei aleatoare stratificate fără revenire, se va ţine seama
de coeficientul corecţiei finite în populaţie şi vom avea: — eroarea medie de reprezentativitate:
� ��
���
� −=��
���
� −=Nn1
nsn
n1
Nn1
nss
2xii
2x
xst (4.64)
— eroarea limită admisibilă la un coeficient de încredere (1-α):
��
���
� −=∆ α Nn1
nsz
2x
2/xst (4.65)
— volumul eşantionului:
STATISTICĂ ECONOMICĂ
Nsz
szn
2x
22/2
x
2x
22/
st
α
α
+∆
= (4.66)
EXEMPLUL 4.7: Un cercetător este interesat în determinarea salarului me-
diu pentru angajaţii unei firme. În firmă lucrează 850 de persoane, din care 500 angajaţi permanent şi 350 colaboratori. Se selectează aleator stratificat proporţional 10% din efectiv: 50 de angajaţi permanent şi 35 colaboratori şi se doreşte garantarea estimaţiei cu o probabilitate de 95%. În urma prelu-crării datelor, se obţin următoarele rezultate:
Angajaţi permanent Colaboratori 1x = 1620 mii lei 2x = 2100 mii lei
sx1= 235 mii lei sx2= 410 mii lei n1= 50 n2= 35 Rezolvare:
65.1817nnx
NNxx
i
ii
i
iist =
�
�=�
�= mii lei
94.101702n
nss
i
i2xi2
x ==�
�
Eroarea medie de reprezentativitate (se presupune selecţie nerepetată)
este:
82.329.085
94.101702Nn1
nss
2x
xst=⋅=�
�
���
� −= mii lei
Eroarea limită pentru α=0.05 este: 33.6482.3296.1szsz
ststst x025.0x2/x =⋅===∆ α mii lei
CAPITOLUL 4
Intervalul de încredere pentru salariul mediu din colectivitatea generală: 1817.65 – 64.33 < µ < 1817.65 + 64.33 mii lei 1753.32 < µ < 1881.99 mii lei
garantat cu o probabilitate de 95%. 4.8.2. Alegerea numărului de straturi şi repartizarea volumului eşan-
tionului pe straturi Alegerea numărului de straturi impune două remarci. Prima este de
ordin teoretic: ideală este stratificarea la maximum, adică alegerea unui nu-măr cât mai mare de grupe. Cea de-a doua este de ordin practic: rareori se pot depăşi 10 straturi şi, de obicei, limitele straturilor sunt impuse de infor-maţiile disponibile din baza de sondaj.
Determinarea volumului eşantionului în cazul selecţiei aleatoare strati-ficate impune şi alocarea acestuia pe straturi. Există două posibilităţi de re-partizare a volumului eşantionului (n) pe straturi: o repartiţie proporţio-nală şi o repartiţie optimă.
Dacă dispersiile din interiorul straturilor sunt egale, pentru un număr dat de unităţi statistice eşantionate (n), dispersia pe ansamblu este minimă când fracţiile de sondaj sunt identice (selecţie tipică proporţională). Proporţiile sunt determinate de ponderile straturilor, adică:
nNNn i
i = (4.67)
Cea de-a doua posibilitate de repartizare (selecţie tipică optimă) pre-
supune o fracţie de sondaj variabilă de la un strat la altul. Pentru o selecţie tipică optimă, fracţiile de sondaj vor fi proporţionale cu
abaterile medii pătratice.Atunci, pentru stratul i volumul subeşantionului este dat de:
nsN
sNn
h
1ixii
xiii
�=
= (4.68)
şi evident nnh
1ii =�
=.
STATISTICĂ ECONOMICĂ
4.8.3. Estimarea proporţiei pentru o variabilă alternativă Eroarea medie de reprezentativitate, calculată pe baza datelor din
eşantion este dată de: — pentru selecţie stratificată repetată:
n)f1(fsfst
−= (4.69)
— pentru selecţie stratificată nerepetată:
��
���
� −−=Nn1
n)f1(fsfst (4.70)
Eroarea limită (maximă admisibilă), la un prag de semnificaţie α, se
calculează ca: fst2/fst sz ⋅=∆ α (4.71)
iar intervalul de încredere pentru proporţia p din colectivitatea generală:
fstfst fpf ∆+<∆− (4.72)
De asemenea, se adaptează corespunzător formulele pentru determinarea
volumului eşantionului şi repartizarea acestuia pe straturi.
4.9. SONDAJUL DE SERII (CUIBURI) În sondajul în cuiburi, populaţia, mai mult sau mai puţin împrăştiată,
este subdivizată în cuiburi. Pentru fiecare astfel de cuib se poate calcula o madie ix . În fiecare din cuiburile extrase toţi indivizii sunt observaţi şi atunci media xi , este cunoscută fără eroare (de sondaj, neeliminându-se posibilitatea erorilor de observaţie).
CAPITOLUL 4
Hazardul poate alege un cuib asemănător cu altul, deci în care cele două medii de cuib să fie egale. De aceea fluctuaţia de eşantionaj depinde de ine-galitatea mediilor de grup. Dispersia totală σ2
x este egală cu suma dis-
persiilor între cuiburi (grupuri) σ 2c şi intracuiburi. Cum σ2
x este fixă, pre-cizia unui sondaj în cuiburi este cu atât mai bună cu cât σ 2
c este mai mică şi cu cat varianţa în interiorul cuiburilor este mai mare. (Fig. 4.5).
0 0
•
xx
•••
••
••
••••
•
•
•
•
•
•
•
••
•
••
•
•
•
•
•
•
• ••
••
•
••
•
•
a. b.
Fig. 4.5 - Eficacitatea unui sondaj în cuiburi: a. cuiburi eficiente: mediile de grup marcate prin puncte sunt puţin dispersate; b. cuiburi ineficiente: mediile cuiburilor
sunt la fel de dispersate ca şi valorile individuale Dispersia (varianţa) totală este alcătuită din doi termeni: dispersia inter-
cuiburi şi dispersia intracuiburi:
�+=�+−�= σσσσ 2i
i2c
2i
i2i
i2
NN
NN)XX(N
N , (4.73)
Dispersia intergrupuri exprimă inegalitatea diverselor medii de grupă
între ele.
4.10. TESTAREA IPOTEZELOR STATISTICE ÎN FUNDAMENTAREA DECIZIILOR
STATISTICĂ ECONOMICĂ
Deseori, managerii trebuie să fie pregătiţi să ia decizii privind acţiunile
viitoare pe baza informaţiilor disponibile. În procesul de luare a deciziilor, ei emit ipoteze pe care le pot testa ştiinţific utilizând metodele şi tehnicile statistice.
DEFINIŢIE: Ipoteza statistică este ipoteza care se face cu privire la para-
metrul unei repartiţii sau la legea de repartiţie pe care o urmează anumite variabile aleatoare.
4.10.1. Concepte şi erori în testarea ipotezelor statistice În statistică, ipotezele apar întotdeauna în perechi: ipoteza nulă şi ipoteza
alternativă. Ipoteza statistică ce urmează a fi testată se numeşte ipoteză nulă şi este notată, uzual, H0. Ea constă întotdeauna în admiterea caracterului întâmplător al deosebirilor, adică în presupunerea că nu există deosebiri esenţiale. Respingerea ipotezei nule care este testată implică acceptarea unei alte ipoteze. Această altă ipoteză este numită ipoteză alternativă, notată H1.
Procedeul de verificare a unei ipoteze statistice se numeşte test sau cri-teriu de semnificaţie. O secvenţă generală de paşi se aplică la toate situa-ţiile de testare a ipotezelor statistice.
1) Se identifică ipoteza statistică specială despre parametrul
populaţiei sau legea de repartiţie (H0). 2) Întotdeauna ipoteza nulă este însoţită de ipoteza alternativă (de cerce-
tat), H1, ce reprezintă o teorie care contrazice ipoteza nulă. Ea va fi accep-tată doar când există suficiente dovezi, evidenţe, pentru a se stabili că este adevărată.
3) Se calculează indicatorii statistici în eşantion, utilizaţi pentru a accepta
sau a respinge ipoteza nulă şi se stabileşte testul statistic ce va fi utilizat drept criteriu de acceptare sau de respingere a ipotezei nule.
4) Se stabileşte regiunea critică, Rc Regiunea critică este delimitată de valoarea critică, C – punctul de
tăietură în stabilirea acesteia.
CAPITOLUL 4
În baza legii numerelor mari, numai într-un număr foarte mic de cazuri punctul rezultat din sondaj va cădea în Rc, majoritatea vor cădea în afara regiunii critice. Nu este însă exclus ca punctul din sondaj să cadă în regiunea critică, cu toate că ipoteza nulă despre parametrul populaţiei este adevărată.
Eroarea pe care o facem eliminând o ipoteză nulă, deşi este adevărată, se numeşte eroare de genul întâi. Probabilitatea comiterii unei astfel de erori reprezintă riscul de genul întâi (α) şi se numeşte nivel sau prag de semni-ficaţie.
Nivelul de încredere al unui test statistic este (1-α) iar în expresie procentuală, (1-α)100 reprezintă probabilitatea de garantare a rezultatelor.
Eroarea pe cere o facem acceptând o ipoteză nulă, deşi este falsă, se nu-
meşte eroare de genul al doilea, iar probabilitatea (riscul) comiterii unei astfel de erori se notează cu β. Puterea testului statistic este (1-β).
xµ0
xf( )
C
H1
µ1
H0
α
β
Fig. 4.6 - Legătura dintre probabilităţile α şi β
Cum n
ss xx = , o dată cu creşterea volumului n al eşantionului, aba-
terile medii pătratice ale distribuţiilor pentru H0 şi H1 devin mai mici şi, evident, atât α, cât şi β descresc (Fig. 4.7).
STATISTICĂ ECONOMICĂ
xµ0
xf( )
C
H1
µ1
H0
α
β
Fig. 4.7 - α şi β când volumul eşantionului n' > n 5) După ce am stabilit pragul de semnificaţie şi regiunea critică, trecem la
pasul următor, în care vom face principalele presupuneri despre populaţia sau populaţiile ce sunt eşantionate (normalitate etc.).
6) Se calculează apoi testul statistic şi se determină valoarea sa nume-
rică, pe baza datelor din eşantion. 7) La ultimul pas, se desprind concluziile: ipoteza nulă este fie acceptată,
fie respinsă, astfel: a) dacă valoarea numerică a testului statistic cade în regiunea
critică (Rc), respingem ipoteza nulă şi concluzionăm că ipoteza alternativă este adevărată. Vom şti că această decizie este incorectă doar în 100 α % din cazuri;
b) dacă valoarea numerică a testului nu cade în regiunea critică (Rc), se acceptă ipoteza nulă H0.
Ipoteza alternativă poate avea una din trei forme (pe care le vom exem-
plifica pentru testarea egalităţii parametrului „media colectivităţii generale“, µ cu valoarea µ0):
i) H0: µ = µ0 H1: µ ≠ µ0 (µ < µ0 sau µ > µ0); şi acest test este un test bilateral; ii) H0: µ = µ0
CAPITOLUL 4
H1: µ > µ0 care este un test unilateral dreapta; iii) H0: µ = µ0 H1: µ < µ0 care este un test unilateral stânga.
α/2 α αα/2
µ µ µ a) b) c)
Fig. 4.8 - Regiunea critică pentru: a) test bilateral; b) test unilateral stânga; c) test unilateral dreapta
4.10.2. Testarea ipotezei privind media populaţiei generale (µ) pentru eşantioane de volum mare
i) în cazul testului bilateral, ipotezele sunt:
H0: µ = µ0 (µ - µ0=0) H1: µ ≠ µ0 (µ - µ0≠0) (adică µ < µ0 sau µ > µ0);
ns
xn
xxz
x
0
x
0
x
0 µσ
µσ
µ −≈
−=
−= (4.74)
Regiunea critică Rc este dată de: Rc: z< - z α/2 sau z> z α/2
Respingem H0 dacă 2/0
ασµ
zn
x
x−<
−
sau 2/0
ασµ
zn
x
x>
−
STATISTICĂ ECONOMICĂ
ii) pentru testul unilateral dreapta, ipotezele sunt: H0: µ = µ0 (µ - µ0=0) H1: µ > µ0 (µ - µ0>0);
Respingem ipoteza H0 dacă ασµ
zn
x 0 >−
iii) Pentru testul unilateral stânga, ipotezele sunt:
H0: µ = µ0 (µ - µ0=0) H1: µ < µ0 (µ - µ0<0);
Respingem ipoteza H0 dacă ασµ
zn
x 0 −<−
4.10.3. Testarea ipotezei privind diferenţa dintre două medii pentru
eşantioane de volum mare Un estimator al diferenţei (µ1- µ2) este diferenţa dintre mediile
eşantioanelor ( 21 xx − ).
( )2
22x
1
21x
xx nn21
σ+
σ=σ − (4.75)
unde 21xσ şi 2
2xσ sunt dispersiile celor două populaţii eşantionate, iar n1 şi n2 sunt volumele eşantioanelor respective.
În cazul în care dispersiile celor două populaţii eşantionate sunt egale, 21xσ = 2
2xσ = 2σ :
( )21
xxx n1
n1
21+σ=σ − (4.76)
În aceste condiţii, ipotezele statistice ce urmează a fi testate vor fi:
i) test bilateral
CAPITOLUL 4
H0: (µ1- µ2) = D H1: (µ1- µ2) ≠ D [(µ1- µ2)>D sau (µ1- µ2)<D]
ii) test unilateral dreapta H0: (µ1- µ2) = D H1: (µ1- µ2) > D
iii) test unilateral stânga H0: (µ1- µ2) = D H1: (µ1- µ2) < D Testul statistic utilizat are forma:
( )( )21
1
xx
2 Dxxz−
−−=σ
Regiunea critică este dată de:
i) z< - z α/2 sau z> z α/2 ii) z> z α iii) z< - z α
4.10.4. Testarea ipotezei privind media populaţiei generale (µ)
pentru eşantioane de volum redus În locul statisticii z care necesită cunoaşterea (sau o bună aproximare) a
lui xσ , vom folosi statistica:
ns
xs
xt
x
0
x
0 µ−=
µ−= (4.77)
unde: ( )
1nxx
s2
i2x −
−= �
i) test bilateral
STATISTICĂ ECONOMICĂ
H0: µ = µ0 H1: µ ≠ µ0 (µ < µ0 sau µ > µ0);
ii) test unilateral dreapta
H0: µ = µ0 H1: µ > µ0
iii) test unilateral stânga
H0: µ = µ0 H1: µ < µ0
Testul statistic utilizat:
nsx
sx
tx
0
x
0 µ−=
µ−=
Presupunerea specială ce trebuie făcută este aceea că populaţia gene-
rală este normal sau aproximativ normal distribuită. Regiunea critică este dată de:
i) t > t α/2,n-1 sau t < - t α/2,n-1 ii) t > t α,n-1 iii) t < - t α,n-1
4.10.5. Testarea ipotezei privind diferenţa dintre două medii pentru
eşantioane de volum redus
În condiţiile în care presupunem că cele două colectivităţi generale au
dispersii egale ( 21xσ = 2
2xσ = 2xσ ), un estimator al dispersiei (variabilităţii)
totale din cele două populaţii combinate este:
( ) ( )221
1
22
1
21
2
21
−+
� −+� −= ==
nn
xxxxs
n
ii
n
ii
c (4.78)
CAPITOLUL 4 sau
( ) ( )( ) ( )
( ) ( )2nn
s1ns1n1n1n
s1ns1ns
21
22x2
21x1
21
22x2
21x12
c −+−+−
=−+−−+−
= (4.79)
Ipotezele statistice vor fi, în aceste condiţii:
i) test bilateral H0: µ1 = µ2 (µ1- µ2 = D) H1: µ1 ≠ µ2 (µ1- µ2 ≠ D)
ii) test unilateral dreapta H0: µ1 = µ2 (µ1- µ2 = D) H1: µ1 > µ2 (µ1- µ2 > D)
iii) test unilateral stânga H0: µ1 = µ2 (µ1- µ2 = D) H1: µ1 < µ2 (µ1- µ2 < D)
Testul statistic t va avea forma:
( ) ( )( ) ( )
( )21
2121
22
2x121x
2
21
2c
2
nn2nnnn
1ns1ns
Dxx
n1
n1s
Dxxt 11
+−+
⋅−+−
−−=
���
����
�+
−−=
Regiunea critică este dată de:
i) t< - t 2nn,2/ 21 −+α sau t> t 2nn,2/ 21 −+α
ii) t> t 2nn, 21 −+α iii) t< – t 2nn, 21 −+α
STATISTICĂ ECONOMICĂ
Întrebări recapitulative
1. Definiţi conceptul de selecţie statistică. 2. Arătaţi avantajele utilizării selecţiei statistice. 3. Ce este eşantionul? 4. Ce reprezintă noţiunea de „eroare de estimaţie“? 5. Arătaţi principalele noţiuni perechi specifice selecţiei statistice. 6. Care sunt principalele etape ale realizării unui sondaj statistic? 7. Prin ce se caracterizează o distribuţie de eşantionare? 8. Sondajul aleator simplu repetat: caracteristici, eroare de reprezentati-
vitate, eroare limită admisibilă, interval de încredere. 9. Cum se determină volumul eşantionului în cazul sondajului aleator
simplu repetat şi nerepetat. De ce factori depinde? 10. Determinarea erorii de reprezentativitate, a erorii maxim admisibile şi
a intervalului de încredere în cazul utilizării sondajului simplu aleator nere-petat. 11. Cum se determină probabilitatea de garantare a rezultatelor în cazul
sondajului aleator simplu repetat şi nerepetat? 12. Determinarea intervalului de încredere în cazul sondajului aleator
simplu de volum redus. 13. Determinaţi indicatorii de sondaj, erorile şi intervalul de încredere
pentru caracteristica alternativă în cazul sondajului simplu aleator. 14. Volumul eşantionului şi probabilitatea de garantare a rezultatelor
pentru caracteristica alternativă — sondaj simplu aleator. 15. Ce particularităţi prezintă sondajul stratificat? 16. În ce condiţii se foloseşte şi care sunt avantajele utilizării sondajului
tipic în cercetarea statistică? 17. Calculul indicatorilor de sondaj pentru o caracteristică cantitativă, în
cazul sondajului tipic. 18. Cum se alege numărul de straturi şi cum se repartizează volumul
eşantionului pe straturi? 19. Calculul indicatorilor de sondaj pentru o caracteristică alternativă în
cazul sondajului stratificat. 20. Sondajul de serii — concept, utilizare, particularităţi, avantaje. 21. Ce reprezintă ipoteza nulă într-un proces de testare de ipoteze statis-
tice? 22. Ce reprezintă ipoteza alternativă într-un proces de testare de ipoteze
statistice?
CAPITOLUL 4
23. Ce reprezintă testul sau criteriul de semnificaţie? 24. Ce reprezintă regiunea critică? 25. Când comitem o eroare de genul întâi? 26. Când comitem o eroare de genul al doilea? 27. Ce reprezintă α şi β? 28. Care sunt paşii în construirea unui test statistic? 29. Cum se testează ipoteza privind media unei colectivităţi generale în
cazul eşantioanelor mari? 30. Cum se testează ipoteza privind media unei colectivităţi generale în
cazul eşantioanelor de volum redus? 31. Cum se testează ipoteza privind diferenţa dintre mediile a două colec-
tivităţi generale, în cazul eşantioanelor mari? 32. Cum se testează ipoteza privind diferenţa dintre mediile a două colec-
tivităţi generale, în cazul eşantioanelor de volum redus?