113
FACULTATEA DE MATEMATICA SI INFORMATICA DOMENIUL DE LICENTA: MATEMATICA STATISTICA NOTE DE CURS Prof. Dr. MONICA DUMITRESCU 2010

Monica Dumitrescu - Statistica Matematica (Note de Curs)

Embed Size (px)

Citation preview

Page 1: Monica Dumitrescu - Statistica Matematica (Note de Curs)

FACULTATEA DE MATEMATICA SI INFORMATICA

DOMENIUL DE LICENTA: MATEMATICA

STATISTICA

NOTE DE CURS

Prof. Dr. MONICA DUMITRESCU

2010

Page 2: Monica Dumitrescu - Statistica Matematica (Note de Curs)

CONTINUTUL CURSULUI

1. Teorema limita centrala si teorema lui Pearson

2. Testul “CHI pătrat”, test de concordanta cu un model probabilist. Aplicaţii

software

3. Estimatori nedeplasaţi, eficienţi. Teorema Rao-Cramer

4. Metoda verosimilităţii maxime. Aplicaţii software

5. Metoda celor mai mici pătrate. Aplicaţii software

6. Valoare medie condiţionata, modele de regresie

7. Estimarea parametrilor regresiei liniare. Aplicaţii software

8. Teste statistice pentru ipoteze simple. Teorema Neyman – Pearson.

Aplicaţii software

9. Testul raportului de verosimilitate.

10. Intervale de încredere si teste pentru parametrii unei repartiţii normale.

Aplicaţii software

BIBLIOGRAFIE:

M. Dumitrescu, A. Batatorescu, Applied statistics using the R system, Ed. Universitatii Buc., 2006

V. Craiu, Statistica Matematica Partea I (Repartitii, selectie, estimarea punctuala) Ed.

Universitatii Buc.,1997

V. Craiu, V. Paunescu, Elemente de statistica matematica cu aplicatii, Ed. Mondo-Ec,

1998

Ashish Sen, Muni Srivastava : Regression analysis - Theory, methods and applications.

Springer Verlag, New York, 1990.

Page 3: Monica Dumitrescu - Statistica Matematica (Note de Curs)

DATE STATISTICE

MODELE STOCASTICE

TESTE DE CONCORDANTA (goodness-of-�t)

fenomen aleator. &

date statistice model stocastic& .

test de concordanta

Fenomene aleatoare

� prin natura lor; Exemple din biologie, medicina, �-nante� prin modul de colectare a datelor; Exemple din son-daje statistice

(A) DATE STATISTICE

1. Valori calitative;Exemplu: intrebare cu raspunsuri posibile "f. nemul-

tumit", "nemultumit", "indiferent", "multumit", "foartemultumit"n indivizi independenti, alesi in mod aleator dintr-o aceeasicategorie, raspund la intrebare

> rasp=c("fnem","nem","ind","mul","fmul")> p=c(0.2,0.3,0.1,0.3,0.1)> x<-sample(rasp,50,replace=T,prob=p)> x"fmul" "ind" "mul" "mul" "nem" "nem" "fmul" "nem" "nem"

"nem" "fnem" "fnem" "nem" "nem" "nem" "mul" "fnem" "fnem""fnem" "nem" "fnem" "mul" "fnem" "fnem" "mul" "nem" "nem""mul" "nem" "mul" "mul" "ind" "fmul" "mul" "fmul" "fnem" "nem""nem" "fmul" "nem" "mul" "fnem" "mul" "nem" "nem" "fnem""nem" "fnem" "ind" "nem"

1

Page 4: Monica Dumitrescu - Statistica Matematica (Note de Curs)

2. Valori cantitative

� apartinand unei multimi cel mult numarabile de nu-mere reale� apartinand lui R sau unui interval inclus in R

Exemplu: nota obtinuta la un examen ( 0 = absent)n indivizi independenti, alesi in mod aleator dintr-o

aceeasi categorie

> nota=c(0:10)> p=c(0.05,0,0,0,0.3,0.2,0.15,0.1,0.05,0.1,0.05)> y<-sample(nota,25,replace=T,prob=p)> y4 6 8 4 4 6 5 5 9 7 8 4 6 9 4 8 4 4 4 7 5 5 6 5 7

Exemplu: tensiunea arteriala sistolican indivizi independenti, alesi in mod aleator dintr-o

aceeasi categorie

> z<-c(rnorm(50,13,1.5))> z11.4, 14.2, 14.9, 12.5, 12.8, 13.8, 10.7, 13.1, 15.1, 11.4,

11.6, 15.5, 11.8, 12.9, 15.3, 13.7, 13.5, 11.8, 11.9, 12.9,13.3, 14.2, 14.5, 12.7, 12.4, 13.7, 10.9, 15.4, 14.1, 9.4,12.5, 11.7, 13.2, 14.9, 14.5, 13.5, 12.5, 13.8, 13.3, 12.8,10.5, 12.1, 13.5, 14.6, 10.7, 12.1, 10.9, 11.5, 11.7, 11.1

Statistica descriptiva (pt datele statistice)

1. Repartitia de frecvente

valori distincte x "fnem" "nem" "ind" "mul" "fmul"frecvente 12

501950

350

1150

550

valori distincte y 0 1 2 3 4 5 6 7 8 9 10

frecvente 0 0 0 0 825

525

425

325

325

225 0

2

Page 5: Monica Dumitrescu - Statistica Matematica (Note de Curs)

2. Histograma

interv val z [9,10) [10,11) [11,12) [12.13) [13,14) [14.15) [15,16]frecv cum 1

50550

1050

1150

1150

850

450

package:........graphics.........R Documentation

Description: The generic function �hist� computes ahistogram of the given data values. If �plot=TRUE�,the resulting object of �class "histogram"�is plotted by�plot.histogram�, before it is returned.Usage: hist(x, ...)Arguments: x: a vector of values for which the his-

togram is desired.

3. Indicatori de pozitie (date cantitative)

Datele (x1; :::; xn)Datele ordonate x(1) � x(2) � ::: � x(n)Minim, maxim, cuartile

x(1) = minixi

x(n) = maxixi

Q2 =Me =

�x(k+1); n = 2k + 1

12

�x(k) + x(k+1)

�; n = 2k

Q1 = mediana pt. x(1) � ::: �Me

Q3 = mediana pt. Me � ::: � x(n)

Media (de selectie)

x =1

n

nXi=1

xi

> x3, 4, 6, 5, 5, 7, 3, 5, 6, 4, 5, 7, 4, 3, 2, 4, 4, 5, 7, 5, 6, 4, 5, 2, 6,

4, 8, 6, 7, 5, 7, 4, 4, 2, 3, 2, 0, 1, 4, 4, 3, 7, 5, 7, 4, 3, 7, 2, 5, 5, 7, 5,7, 7, 5, 4, 4, 7, 3, 8, 5, 6, 5, 6, 5, 6, 4, 5, 8, 2, 6, 4, 6, 5, 5, 5, 3, 5, 4,3, 7, 7, 2, 4, 5, 4, 6, 5, 3, 1, 5, 7, 4, 5, 3, 3, 10, 6, 7, 6> summary(x)Min........1st Qu...... Median....... Mean....... 3rd Qu......... Max.0.00 .......4.00 ...........5.00 .............4.81 ..........6.00 ...........10.00

3

Page 6: Monica Dumitrescu - Statistica Matematica (Note de Curs)

4. Indicatori de variabilitate (date cantitative)

Amplitudineaa = x(n) � x(1)

Dispersia de selectie, abaterea standard

s2 =1

n� 1

nXi=1

(xi � x)2

s =ps2

Functii din R

> mean(x)[1] 4.81

> var(x)[1] 3.165556

> sd(x)[1] 1.779201

5. Indicatori ai formei (date cantitative)

Notam momentele de selectie centrate, de ordin 3 si 4cu

m3 =1

n

nXi=1

(xi � x)3

m4 =1

n

nXi=1

(xi � x)4

Coe�cient de asimetrie (skewness)

�1 =m3q(s2)

3

Coe�cient de aplatizare (kurtosis)

�2 =m4

(s2)2 � 3

4

Page 7: Monica Dumitrescu - Statistica Matematica (Note de Curs)

(B) MODELE STOCASTICE (variabile aleatoare)

(;K; P�) ; � 2 � v Rk; k � 1;Spatiul starilor (al valorilor) (S;S)S = A � R; A cel mult numarabila;.....(A;P (A))S = R; ::::: (R;B)Variabila aleatoare = functie masurabila X : �! S

1. Repartitia lui X

P� �X�1 : S �! [0; 1]

Variabila aleatoare cu repartitie discreta�P� �X�1� (fxg) = p (x; �) 2 [0; 1] ; x 2 A

P� �X�1 =Xx2A

p (x; �) � �fxgXx2A

p (x; �) = 1

Exemple:

� X � Uf1; :::; rg; r 2 N; r � 2; A = f1; 2; :::; rg (ex: numarul depuncte la aruncarea unui zar),

P� �X�1 =

rXx=1

1

r� �fxg

� X � B (1; �) ; � 2 (0; 1) ; A = f0; 1g (ex: aparitia unui "succes"intr-o proba cu doua rezultate posibile),

P� �X�1 =1X

x=0

�x (1� �)1�x � �fxg

� X � B (r; �) ; � 2 (0; 1) ; A = f0; 1; :::; rg (ex: numarul de "suc-cese" in r probe independente, cu cate doua rezultateposibile),

P� �X�1 =rX

x=0

Cxr � �x (1� �)r�x � �fxg

5

Page 8: Monica Dumitrescu - Statistica Matematica (Note de Curs)

� X � Po (�) ; � 2 (0;1) ; A = N (ex: numarul de defectece pot � identi�cate la piesele dintr-un lot de volummare),

P� �X�1 =1Xx=0

�x

x!exp (��) � �fxg

Variabila aleatoare cu repartitie continua si cu densi-tate de repartitie�

P� �X�1� (fxg) = 0; 8x 2 R�P� �X�1� (B) =

ZB

f (x; �) dx;

f (x; �) � 0; 8x 2 RZR

f (x; �) dx = 1

Exemple:

� X � U (0; �) ; � 2 (0;1) ;

f (x; �) =

�1� ; x 2 [0; �]0; x =2 [0; �]

� X � Expo(�); � 2 (0;1) ;

f (x; �) =

�1� exp

��x��; x 2 [0;1)

0; x 2 (�1; 0)

� X � Gamma (�; �) ; � 2 (0;1) ; � 2 (0;1) ;

f (x;�; �) =

� 1�(�)��� � x

��1 � exp��x��; x 2 [0;1)

0; x 2 (�1; 0)

� X � N��; �2

�; � =

��; �2

�2 R� (0;1) ;

f�x;�; �2

�=

1p2��2

exp

�� 1

2�2(x� �)2

�; x 2 R

6

Page 9: Monica Dumitrescu - Statistica Matematica (Note de Curs)

densitatea N (0; 1)f (x) = 1p

2�exp

�� 12x

2�

52.50­2.5­5

0.3

0.2

0.1

0

x

y

x

y

2. Functia de repartitie a lui X

F� : R �! [0; 1]

F� (y) =�P� �X�1� ((�1; y)) = P� (X < y)

F� (y) =Xx2Ax<y

p (x; �) ; y 2 R; (functie in scara)

F� (y) =

yZ�1

f (x; �) dx; y 2 R

Exemplu:X � Expo (2)

f (x) =

�12 exp

��x2�; x 2 [0;1)

0; x 2 (�1; 0)

F� (y) =

8<:0; x 2 (�1; 0)

yR0

12 exp

��x2�dx; x 2 [0;1) =

�0; x 2 (�1; 0)

1� exp��x2�; x 2 [0;1)

1� exp��x2�

7

Page 10: Monica Dumitrescu - Statistica Matematica (Note de Curs)

107.552.50

1

0.75

0.5

0.25

0

x

y

x

y

3. Cuantila de rang � a lui X

Fie � 2 (0; 1) �xat.Notam q� 2 S cu proprietatea

P� (X < q�) � �

P� (X � q�) � �

Pentru modelele cu repartitie continua,

P� (X < q�) = P� (X � q�) = �

4. Medie, momente; dispersie

M� (X) =

Z

XdP� =

8<:Px2A

x � p (x; �) ; (<1) ; pt. rep. discretaRR

x � f (x; �) dx; (<1) ; pt. rep. continua

M� (Xr) =

Z

XrdP� =

8<:Px2A

xr � p (x; �) ; (<1) ; pt. rep. discretaRR

xr � f (x; �) dx; (<1) ; pt. rep. continua; r 2 N�

D2� (X) =M�

�(X �M� (X))

2�=M�

�X2�� (M� (X))

2

8

Page 11: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Exemple:

� X � Uf1; :::; rg; r 2 N; r � 2;

M (X) =rX

x=1

x � 1r=r + 1

2

D2 (X) =r2 � 112

� X � B (1; �) ; � 2 (0; 1) ;

M� (X) =1X

x=0

x � �x (1� �)1�x = �

D2� (X) = � (1� �)

� X � B (r; �) ; � 2 (0; 1) ;

M� (X) =rX

x=0

x � Cxr � �x (1� �)r�x

= r�

D2� (X) = r� (1� �)

� X � Po (�) ; � 2 (0;1) ;

M� (X) =1Xx=0

x � �x

x!exp (��) = �

D2� (X) = �

� X � U (0; �) ; � 2 (0;1) ;

M� (X) =

�Z0

x � 1�dx =

2

D2� (X) =

�2

12

� X � Expo(�); � 2 (0;1) ;

M� (X) =

1Z0

x � 1�exp

��x�

�dx = �

D2� (X) = �2

9

Page 12: Monica Dumitrescu - Statistica Matematica (Note de Curs)

� X � Gamma (�; �) ; � 2 (0;1) ; � 2 (0;1) ;

M� (X) =1

� (�) � ��

1Z0

x � x��1 � exp��x�

�dx = ��

D2� (X) = ��2

� X � N��; �2

�; � =

��; �2

�2 R� (0;1) ;

M� (X) =1p2��2

1Z�1

x � exp�� 1

2�2(x� �)2

�dx = �

D2� (X) = �2

5. Functie generatoare, functie caracteristica

Fie P� �X�1 =1Px=0

p (x; �) � �fxg: Functia generatoare asociataeste

GX : [�1; 1] �! R

GX (t) =1Xx=0

p (x; �) � tx

Pentru variabile cu medie (dispersie) �nita se veri�carelatiile

M� (X) = G0X (1)

D2� (X) = G00X (1) +G

0X (1)� (G0X (1))

2

Fie variabila aleatoare X; cu valori in R: Functia car-acteristica asociata este

'X : R �! C

'X (t) =M�

�eitX

�Daca repartitia P��X�1 are densitatea de repartitie f (x; �) ;

atunci'X (t) =

ZR

eitx � f (x; �) dx

Pentru variabile cu medie (dispersie) �nita se veri�carelatiile

M� (X) =1

i� '0X (0)

D2� (X) = �'00X (0) + ('0X (0))

2

10

Page 13: Monica Dumitrescu - Statistica Matematica (Note de Curs)

6. Transformata Laplace

Fie variabila aleatoare X; cu valori in R+: TransformtaLaplace asociata este

: R+ �! R+

(�) =M�e��X

�Daca repartitia P� � X�1 pe (R+;B+) are densitatea de

repartitie f (x; �) pentru x � 0; atunci

(�) =

1Z0

e��xf (x; �) dx

11

Page 14: Monica Dumitrescu - Statistica Matematica (Note de Curs)

(C) CONCORDANTA DINTREDATE STATISTICE / MODEL STOCASTIC

Datele statistice sunt valori observate ale unor vari-abile aleatoare independente, identic repartizate, cu repar-titia data de un model stocastic.Analiza de statistica descriptiva ne permite sa alegem

un model stocastic - drept sursa posibila a datelor sta-tistice.

Consideram modelul stocastic reprezentat de variabilaaleatoare X cu repartitia P��X�1 complet speci�cata. Negli-jam indicele �; caci presupunem cunoscuta valoarea para-metrului.� Fie modelul stocastic dat de variabila aleatoare X curepartitia P �X�1 si functia de repartitie F (y) :

� Fie "observatiile" X1; :::; Xn; care sunt variabile aleatoareindependente, identic repartizate, cu repartitia P �X�1

� Fie datele statistice (x1; :::; xn) = (X1; :::; Xn) (!)

Problema: Putem con�rma ipoteza ca datele statistice(x1; :::; xn) furnizate de un bene�ciar provin intr-adevar dinmodelul considerat?

Vom compara functia de repartitie "teoretica" F (y) cuo functie construita din datele statistice (x1; :::; xn) :

Spatiul de selectie n�dimensional

Fie modelul stocastic P� �X�1 cu multimea valorilor luiX egala cu S = A (cel mult numarabila) sau cu S = R:

Fie observatiile X1; :::; Xn v.a.i.i.r. (P� �X�1):

Spatiul de selectie n�dimensional este campul de prob-abilitate construit pe multimea valorilor lui (X1; :::; Xn) :

An; (P (A))n ;nOi=1

P� �X�1i

! Rn;Bn;

nOi=1

P� �X�1i

!

12

Page 15: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Functia de repartitie de selectie (empirica)

Fie functia de repartitie complet speci�cata, F (y) ; pen-tru variabila aleatoare X : �! S:Fie observatiile X1; :::; Xn v.a.i.i.r. ca si X:

DEFINITIE: Functia de repartitie de selectie

Fn (�; �) : R� �! [0; 1]

Fn (y; !) =1

n� card fi j i 2 f1; :::; ng; xi = Xi (!) < yg

Observatie:Fn (y; !) =

1

n�nXi=1

IfXi<yg (!)

PROPRIETATEA 1Pentru ! arbitrar �xat, Fn (�; !) este functia de repartitie

a unei repartitii Uniforme discretenXi=1

1

n� �fxig

Demonstratie:Notam (X1; :::; Xn) (!) = (x1; :::; xn) valori �xate (pentru !

�xat).Notam cu Z o variabila aleatoare cu repartitia uni-

forma data deP (Z = xi) =

1

n; i = 1; :::; n

FZ (y) = P (Z < y) =Xxi<y

1

n=1

n�nXi=1

Ifxi<yg = Fn (y; !)

PROPRIETATEA 2Pentru y arbitrar �xat, Fn (y; �) este variabila aleatoare

cu proprietatean � Fn (y; �) � B (n; F (y))

Demonstratie:Pentru 8i; IfXi<yg este v.a. cu valori in f0; 1g si cu

P�IfXi<yg = 1

�= P (Xi < y) = F (y)

13

Page 16: Monica Dumitrescu - Statistica Matematica (Note de Curs)

adicaIfXi<yg � B (1; F (y))

Avem �IfXi<yg; i = 1; :::; n

v.a. indep, id. rep B (1; F (y)) :

RezultanXi=1

IfXi<yg � B (n; F (y))

n � Fn (y; �) � B (n; F (y))

�COROLAR

M (Fn (y; �)) = F (y)

D2 (Fn (y; �)) =1

nF (y) (1� F (y))

PROPRIETATEA 3Pentru y arbitrar �xat, sirul de var. al. fFn (y; �) ; n = 1; 2; :::g

are proprietatea

Fn (y; �)P�a:s:�! F (y) pentru n �!1

DemonstratieAvem sirul �IfXi<yg; i = 1; :::; n

de v.a. indep, id. repB (1; F (y)) ; avand M

�IfX1<yg

�= F (y) : Aplicam legea tare a

numerelor mari:

1

n�nXi=1

Ifxi<ygP�a:s:�! M

�IfX1<yg

�= F (y) pentru n �!1

�Spunem ca functia de repartitie de selectie este un

estimator consistent si nedeplasat la functiei de repartitiept modelul din care provin datele statistice.

Functii din R: functia ecdf ploteaza functia de repartitiede selectie

> data < �c (x1; :::; xn)> ecdf(data)

14

Page 17: Monica Dumitrescu - Statistica Matematica (Note de Curs)

"Distanta" Kolmogorov dintre functia de repartitie deselectie si functia de repartitie a modelului

Dn (!)=pn�supy2RjFn (y; !)� F (y)j

Pentru datele statistice (X1; :::; Xn) (!) = (x1; :::; xn) ; se poatecalcula valoareafDn =

pn � max

1�i�njFn (xi; !)� F (xi)j

TEOREMA LUI KOLMOGOROV

Fie modelul probabilist dat de o variabila aleatoare X;cu functia de repartitie F (y) continua. Daca fXn; n � 1geste un sir de variabile aleatoare independente, identicrepartizate ca si X pentru care notam fFn (y; !) ; n � 1g sirulfunctiilor de repartitie de selectie atunci, pentru oricez 2 R; are loc convergenta

limn!1

P (Dn < z) = K (z) ;

unde K (z) este functia de repartitie Kolmogorov,

K (z)= 1� 21Xj=1

(�1)j�1 exp��2j2z2

�Pentru demonstratie:PARTHASARATHY, K., R., Probability measures on

metric spaces, Academic Press, 1967.

TESTUL LUI KOLMOGOROVDECONCORDANTA( R:.....ks.test for one sample)

Fie datele statistice (x1; :::; xn) si �e modelul stocasticdat de variabila aleatoare X cu functia de repartitie F (y)

continua.Pentru � 2 (0; 1) arbitrar �xat, notam z1�� cuantila de

rang (1� �) a repartitiei Kolmogorov,

K (z1��) = 1� �

15

Page 18: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Formulam ipoteza H :{variabilele aleatoare indepen-dente si identic repartizate X1; :::; Xn care au generat datelestatistice au functia de repartitie F (y)}

Algoritm:

� Se ordoneaza datele statistice, x(1) � x(2) � ::: � x(n)

� Se calculeaza F�x(i)� si Fn �x(i); !� ; i = 1; :::; n

� Se calculeaza fDn =pn � max

1�i�n

��Fn �x(i); !�� F �x(i)���� Regula de decizie: Daca fDn � z1��; decidem sa resp-ingem ipoteza H (nu avem concordanta intre modelsi datele statistice)

Comentariu: Testul se bazeaza pe teorema lui Kol-mogorov (este un test asimptotic), deci n trebuie sa �emare (n � 100)======================

16

Page 19: Monica Dumitrescu - Statistica Matematica (Note de Curs)

APLICATIE: TESTAREA NORMALITATIIDATELOR

Input : (x1; :::; xn) = (X1; :::; Xn) (!)

H : f variabilele aleatoare independente X1; :::; Xn au repartitienormala g

(a) Partea exploratorie

> data � c (x1; :::; xn)

> mean(data)> var(data)> hist(data)

qq - line (quantile - quantile line)

X � N��; �2

�, X � �

�� N(0; 1)

FN(�;�2) (x�) = � , FN(0;1)

�x� � ��

�= �

z� =1

�(x� � �) ; � 2 (0; 1)

> qqnorm(data)> qqline(data)

(b) Test de concordanta

Pentru a utiliza ks.test (for one sample) trebuie saspeci�cam valorile ��; �2�> ks.test(data)

p� value = 1�K�fDn

�p� value � 0:05 �! respingem ipoteza H (respingem normalitatea)

Observatie: Exista o varianta a testului, testul Lil-liefors, in care programul isi alege singur valorile

� = mean(data)

� = sd(data)

17

Page 20: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Alt test de concordanta este "Testul Chi Patrat", con-struit pentru modele stocastice P � X�1 avand functia derepartitie F (y) continua sau nu.

AUXILIAR: Convergenta in repartitie

Notam cu f�n; n � 1g si � probabilitati pe (R;B) (reparti-tii)Notam cu fFn; n � 1g si F functiile de repartitie core-

spunzatoare,Fn (y) = �n (�1; y)F (y) = � (�1; y)

Notam cu f'n; n � 1g si ' functiile caracteristice core-spunzatoare,

'n (t) =

ZR

eitxd�n (x)

' (t) =

ZR

eitxd� (x)

Pentru cazul cand f�n; n � 1g si � sunt probabilitati pe(R+;B+) ; notam cu f n; n � 1g si transformatele Laplacecorespunzatoare,

n (�) =

Z(0;1)

e��xd�n (x)

(�) =

Z(0;1)

e��xd� (x)

DEFINITIE (convergenta slaba, sau convergenta inrepartitie)

�n =) �

daca ZR

hd�n �!n!1

ZR

hd�

pentru orice functie h continua si marginita, de�nita peR cu valori in R:

18

Page 21: Monica Dumitrescu - Statistica Matematica (Note de Curs)

TEOREMA 1O conditie necesara si su�cienta ca �n =) � este ca

Fn (y) �!n!1

F (y) pentru orice y care este punct de continui-tate al lui F:

TEOREMA 2 (PAUL LEVY)a) Daca �n =) �; atunci 'n �!

n!1' uniform pe orice com-

pact din R:

b) Notam cu f'n; n � 1g functiile caracteristice corespun-zatoare repartitiilor f�n; n � 1g: Daca 'n (t) �!

n!1' (t) pentru

orice t si ' este continua in origine, atunci exista o repar-titie � asa incat �n =) �; iar ' este functia caracteristicapt �:

TEOREMA 3Fie f�n; n � 1g si � probabilitati pe (R+;B+) :a) Daca �n =) �; atunci n (�) �!

n!1 (�) pentru orice � � 0:

b) Notam cu f n; n � 1g transformatele Laplace core-spunzatoare repartitiilor f�n; n � 1g: Daca n (�) �!

n!1 (�)

pentru orice � > 0 si lim�!0

(�) = 1; atunci exista o repartitie� asa incat �n =) �; iar este transformata Laplace pt �:

TEOREMA LIMITA CENTRALA (LINDEBERG -LEVY)Fie fXn; n � 1g un sir de variabile aleatoare indepen-

dente, identic repartizate, cu M (Xn) = � 8n si D2 (Xn) = �2 <18n: Notam

Yn =1pn�2

nXi=1

Xi � n�!

Atunci sirul �P � Y �1n

�nconverge slab la repartitia N (0; 1) :(spunem

ca sirul fYn; n � 1g converge in repartitie la o variabilaaleatoare cu repartitia N(0; 1))

Pentru demonstratii:CIUCU G., TUDOR C., Teoria probabilitatilor si apli-

catii, Editura Stiinti�ca si Enciclopedica, 1983

================

19

Page 22: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Repartitia "CHI Patrat" cu d grade de libertate (d 2 N�)

X��2 (d) , f (x) =1

2d=2 � ��d2

�xd=2�1 exp��x2

�; x � 0

'�2(d) (t) = (1� 2it)�d=2

�2(d) (�) = (1 + 2�)�d=2

Repartitia Multinomiala M (r; p1; :::; pd)

De�nitieX = (X1; :::; Xd)

0 �M (r; p1; :::; pd) daca

P �X�1 =

rXx1;:::;xd=0x1+:::+xd=r

r!

x1!:::xd!(p1)

x1 ::: (pd)xd � �(x1;:::;xd)

unde r 2 N�; pi 2 [0; 1] pentru i = 1; :::; d si Pdi=1 pi = 1

Experiment: O urna cu bile de d culori, din care sefac r extrageri cu revenire. Vectorul aleator X = (X1; :::; Xd)

inregistreaza numarul de bile de �ecare culoare care aufost extrase.

Bibliogra�e:Dumitrescu M, Florea D, Tudor C, Probleme de teoria

probabilitatilor si statistica matematica, Editura Tehnica,1985======================

20

Page 23: Monica Dumitrescu - Statistica Matematica (Note de Curs)

TEOREMA LUI PEARSON

Pentru r 2 N� consideram urmatoarele variabile aleatoare:

Yr = (Yr1; :::; Yrd)0 �M (r; p1; :::; pd) ; cu pi 2 [0; 1] ;8i;

dXi=1

pi = 1

X2r =

dXj=1

(Yrj � rpj)2

rpj

Notam repartitia lui X2r cu Gr = P �

�X2r

��1: Atunci

Gr =)r!1

�2 (d� 1)

(spunem ca sirul fX2r ; r � 1g converge in repartitie la o vari-

abila repartizata CHI Patrat cu (d� 1) grade de libertate).

Demonstratie (prof. Ioan Cuculescu)

In schema multinomiala ( d culori, r extrageri inde-pendente) apar r partitii independente, corespunzatoarecelor r extrageri,n

A(k)j ; j = 1; :::; d

o; k = 1; :::; r

NotamYrj =

rXk=1

IA(k)j; j = 1; :::; d

Zr =

�Yr1 � rp1p

rp1; :::;

Yrd � rpdprpd

�0Atunci

X2r = kZrk

2

X2r(�) =M

�exp

��� kZrk2

��Vom arata ca

X2r(�) �!

r!1(1 + 2�)

�(d�1)=2

Notamv = (v1; :::; vd)

0

t = (t1; :::; td)0

21

Page 24: Monica Dumitrescu - Statistica Matematica (Note de Curs)

exp��� kvk2

�=

dYj=1

exp���v2j

�Dar

exp���v2j

�= 'N(0;2�) (vj) =

1p4��

1Z�1

exp (ivjtj) � exp�� 1

4�t2j

�dtj

Notand cu < v; t > produsul scalar, putem scrie

exp��� kvk2

�=

1

(4��)d=2

1Z�1

:::

1Z�1

exp (i < v; t >) � exp�� 1

4�ktk2

�dt1:::dtd

Putem scrie

X2r(�) =

1

(4��)d=2

1Z�1

:::

1Z�1

M

�exp (i < Zr; t >) � exp

�� 1

4�ktk2

��dt1:::dtd

=1

(4��)d=2

1Z�1

:::

1Z�1

M

�'<Zr;t> (1) � exp

�� 1

4�ktk2

��dt1:::dtd

Identi�cam urmatorii vectori independenti, identic repar-tizati

fk =

�1pp1IA(k)1; :::;

1ppdIA(k)d

�0; k = 1; :::; r

cuM (fk) =

�p1pp1; :::;

pdppd

�0= (pp1; :::;

ppd)

0; k = 1; :::; r

< Zr; t >=1pr(< f1; t > +:::+ < fr; t > �rM (< f ; t >))

DarM (< f ; t >) =< M (f) ; t >=

dXj=1

tjppj

M (< f ; t >)2=M

0@ dXj=1

tjppjIA(k)j

1A2

=M

0@ dXj=1

t2jpjIA(k)j

1A =dXj=1

t2j

D2 (< f ; t >) =dXj=1

t2j �

0@ dXj=1

tjppj

1A2

22

Page 25: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Consideram fu1; :::; udg o baza ortonormala a lui Rd; cuu1 =

�pp1; :::;

ppd�0:

D2 (< f ; t >) = ktk2� < t;u1 >2=dXj=2

< t;uj >2

Pentru sirul de variabile aleatoare independente, iden-tic repartizate

f< Zr; t >; r = 1; 2; :::g ;

de medie 0;aplicam teorema limita centrala si teorema luiPaul Levy (pentru t = 1) :

'<Zr;t> (1) �!r!1'N(0;D2(<f ;t>)) (1) = exp

0@�12

dXj=2

< t;uj >2

1ARezulta

X2r(�) �!

r!1

1

(4��)d=2

1Z�1

:::

1Z�1

exp

0@�12

dXj=2

< t;uj >2

1A�exp�� 1

4�ktk2

�dt1:::dtd

Dar trecerea de la coordonatele ft1; :::; tdg la coordonatelefv1 =< t;u1 >; :::; vd =< t;ud >g este ortogonala, deci de deter-minant 1:

limr!1

X2r(�) =

1

(4��)d=2

1Z�1

:::

1Z�1

exp

0@�12

dXj=2

v2j

1A � exp0@� 1

4�

dXj=1

v2j

1A dv1:::dvd =

1

(4��)d=2

0@ 1Z�1

exp

�� v

2

4�

�dv

1A0@ 1Z�1

exp

��v2

�1

4�+1

2

��dv

1Ad�1

=

1

(4��)d=2�p� �p4� � (�)(d�1)=2

�1

4�+1

2

��(d�1)=2=

1

(4�)(d�1)=2

�1

4�+1

2

��(d�1)=2= (1 + 2�)

�(d�1)=2

Am demonstrat deci ca

X2r(�) �!

r!1(1 + 2�)

�(d�1)=2

23

Page 26: Monica Dumitrescu - Statistica Matematica (Note de Curs)

si cum (1 + 2�)�(d�1)=2 este transformata Laplace corespun-

zatoare repartitiei �2 (d� 1) ; am obtinut c.t.d.�

Testul Chi Patrat pentru concordanta dintre modelulstocastic si datele statistice

Fie datele statistice (x1; :::; xn). Din interpretarea lor,plus elementele de statistica descriptiva, alegem un posi-bil model stocastic din care ar proveni aceste date (cavalori ale unor observatii independente, identic reparti-zate).

� Notam P �X�1 modelul ales si cu S = X () spatiul star-ilor.� Partitionam X () in d submultimi masurabile fA1; :::; Adg;Ai \Aj = � pentru i 6= j;

Sdi=1Ai = X () :

� Calculam

pj = P (X 2 Aj) ; j = 1; :::; d; pj 2 [0; 1] 8j;dXj=1

pj = 1

� Formulam ipoteza ca observatiile independente, iden-tic repartizate X1; :::; Xn care au produs datele statis-tice (x1; :::; xn) au repartitia P �X�1

H : fX1; :::; Xn sunt identic repartizate ca si Xg

� Daca ipoteza H este adevarata, atunci functioneazateorema lui Pearson.� Calculam

nj = card fi j i = 1; :::; n; xi 2 Ajg =nXi=1

IAj(xi) ; j = 1; :::; d

dXj=1

nj = n

24

Page 27: Monica Dumitrescu - Statistica Matematica (Note de Curs)

� Calculam "distanta Pearson" dintre (p1; :::; pd) si�n1n ; :::;

ndn

�S2n =

dXj=1

n

pj

�njn� pj

�2=

dXj=1

(nj � npj)2

npj

� Fie � 2 (0; 1) arbitrar �xat valoarea acceptata a proba-bilitatii de eroare (respingerea ipotezei H cand aceastaeste adevarata).

� Fie hd�1;1�� cuantila de rang (1� �) a repartitiei �2 (d� 1) :

� REGULA DE DECIZIE: Daca S2n � hd�1;1��, deci-dem sa respingem ipoteza H

Comentarii:

- Testul se bazeaza pe teorema lui Pearson (este untest asimptotic), deci n trebuie sa �e mare (n � 100)- Recomandari pentru alegerea valorii d :

d ' 1 + 3:322 � log nd =

hn3

i- Recomandari pentru alegerea elementelor partitiei:

Aj asa incat pj '1

d; j = 1; ::; d

- Pentru implementarea in R

p� value = F�2(d�1)�S2n�

Daca p� value � 0:05; decidem sa respingem ipoteza H

25

Page 28: Monica Dumitrescu - Statistica Matematica (Note de Curs)

ESTIMAREA PARAMETRILOR

Prin alegerea modelului:

� forma functionala speci�cata

� existenta unor parametri necunoscuti

"Model parametric"

P� �X�1; � 2 � v Rk; k � 1

X : �! S; v.a., S = A sau S = R

Presupunemmodelul "corect": valoarea adevarata, ne-cunoscuta �0 2 �:

Observatiile X1; :::; Xn v.a.i.i.r. P� �X�1

Spatiul de selectie n�dimensional�Sn;Sn;

nNi=1

P� �X�1i

� An; (P (A))n ;

nOi=1

P� �X�1i

! Rn;Bn;

nOi=1

P� �X�1i

!

De�nitie:Fie o functie masurabila b� : Sn �! �: Atunci b� (X1; :::; Xn)

se numeste estimator al parametrului �:

(X1;:::;Xn)�! Sn

b�(x1;:::;xn)�! �

Pentru datele statistice (x1; :::; xn) ; valoarea b� (x1; :::; xn) senumeste estimatie a lui �:

Notatii (presupunand ca toate mediile de mai jos ex-ista):

� = (�1; :::; �k)0

b� = �b�1; :::; b�k�0M�

�b�� = �M�

�b�1� ; :::;M�

�b�k��0

1

Page 29: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Cov�

�b�; b�� = cov� �b�i; b�j� i;j=1;:::;k

= M�

��b�i �M�

�b�i���b�j �M�

�b�j��� i;j=1;:::;k

Pentru. k = 1; M�

�b�� ; D2�

�b��De�nitii:� b� (X1; :::; Xn) este estimator nedeplasat daca

M�

�b� (X1; :::; Xn)� = �; 8� 2 �� b� (X1; :::; Xn) este estimator nedeplasat, de dispersie min-ima (ENDM) daca este nedeplasat si pentru orice altestimator nedeplasat g (X1; :::; Xn)matricea

Cov� (g; g)� Cov��b�; b��

este semipozitiv de�nita, 8� 2 �:

Comentariu:Pentru k = 1; b� (X1; :::; Xn) este ENDM daca

M�

�b�� = �; 8� 2 �D2�

�b�� � D2� (g) ; 8� 2 �

pentru orice alt estimator nedeplasat g (X1; :::; Xn) :DEPLASAREA estimatorului b�

Bias�b�� =M�

�b��� �EROAREA MEDIE PATRATICA a estimatorului b�

M�

�b� � ��2 = D2�

�b��+ �Bias�b���2De�nitie:Fie un sir de observatii i.i.r., (Xn)n si �e

�b� (X1; :::; Xn)�n:

Spunem ca b� este un estimator consistent dacab� (X1; :::; Xn) P��! � pentru n!1; 8� 2 �

"Estimatori buni" () nedeplasati, ENDM, consis-tenti.

2

Page 30: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Metode:

� metoda momentelor� metoda verosimiltatii maxime (maximum likelihood)

� metoda celor mai mici patrate (least squares)

� metoda lui Bayes

METODA MOMENTELOR

utila cand semni�catia lui � este direct legata demomentele lui X

Momentele lui X (presupunem ca exista)

�r =M (Xr) ; r 2 N�

�1 =M (X)

Momentele centrate ale lui X (presupunem ca exista)

�r =M ((X � �1)r) ; r 2 N�

�2 = D2 (X)

Pentru observatiile i.i.d. X1; :::; Xn; de�nim momentelede selectie

c�r = 1

n

nXi=1

Xri ; r 2 N�

c�1 = Xc�r = 1

n

nXi=1

�Xi �X

�r; r 2 N�

\D2 (X) =1

n

nXi=1

�Xi �X

�2

3

Page 31: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Proprietatea 1

M (c�r) = �r (estimator nedeplasat)

M�\D2 (X)

�=n� 1n

�D2 (X) (estimator deplasat)

Demonstratie:

M (c�r) = 1

n

nXi=1

M (Xri ) =

1

n� n�r = �r

M�X�=M (X)

D2�X�=1

n2

nXi=1

D2 (Xi) =1

n2� nD2 (X) =

1

nD2 (X)

\D2 (X) =1

n

nXi=1

�(Xi �M (X))�

�X �M (X)

��2=

=1

n

(nXi=1

(Xi �M (X))2 � n

�X �M (X)

�2)

M�\D2 (X)

�=1

n

�nD2 (X)� nD2

�X�=n� 1n

�D2 (X)

�Un estimator nedeplasat pentru D2 (X) este

S2 =1

n� 1

nXi=1

�Xi �X

�2=

n

n� 1\D2 (X)

Cat poate sa �e dispersia unor estimatori nedeplasati?

4

Page 32: Monica Dumitrescu - Statistica Matematica (Note de Curs)

TEOREMA RAO - CRAMER (pentru k = 1)

Fie modelul P� �X�1; avand densitatea de repartitief (x; �) ; x 2 R;

cu � 2 � v R:Fie observatiile i.i.r. X1; :::; Xn si notam densitatea de

repartitie a vectorului (X1; :::; Xn) cu

f (x1; :::; xn; �) =nYi=1

f (xi; �)

Fie b� (X1; :::; Xn) un estimator nedeplasat pentru �:

Presupunem veri�cate urmatoarele conditii de regu-laritate:� � este multime deschisa;� f (x1; :::; xn; �) derivabila in raport cu � pe � oricare ar �(x1; :::; xn) ; cu derivata integrabila pe Rn;

� Pentru orice �; au loc egalitatile@

@�

ZRn

f (x1; :::; xn; �) dx1:::dxn =

ZRn

@f (x1; :::; xn; �)

@�dx1:::dxn

@

@�

ZRn

b� (x1; :::; xn) � f (x1; :::; xn; �) dx1:::dxn=

ZRn

b� (x1; :::; xn) � @f (x1; :::; xn; �)@�

dx1:::dxn

� Exista "informatia Fisher"

M�

�@ ln f (X1; :::; Xn; �)

@�

�2notat= in (�) > 0

Atunci are loc inegalitatea

D2�

�b�� � 1

in (�); � 2 �

Egalitatea are loc daca si numai daca exista o constantaA; independenta de (x1; :::; xn) ; asa incat

A ��b� (x1; :::; xn)� �� = @f (x1; :::; xn; �)

@�; 8 (x1; :::; xn)

5

Page 33: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Demonstratie:

NotamY =

@ ln f (X1; :::; Xn; �)

@�

Avem

M� (Y ) =

ZRn

�1

f (x1; :::; xn; �)� @f (x1; :::; xn; �)

@�

�f (x1; :::; xn; �) dx1:::dxn

=@

@�

0@ZRn

f (x1; :::; xn; �) dx1:::dxn

1A = 0

M�

�Y 2�=in (�)

Utilizam inegalitatea integrala a lui Schwartz,

(M (jUV j))2 �M�jU j2

��M

�jV j2

�;

pentru U = b� � � si V = Y �M� (Y ) :

Obtinem �cov�

�b�; Y ��2 � D2�

�b�� � in (�)Dar

cov�

�b�; Y � =M�

�b� � Y ��M�

�b�� �M� (Y ) =

=

ZRn

�b� (x1; :::; xn) � 1

f (x1; :::; xn; �)� @f (x1; :::; xn; �)

@�

�f (x1; :::; xn; �) dx1:::dxn

=@

@�

0@ZRn

b� (x1; :::; xn) � f (x1; :::; xn; �) dx1:::dxn1A =

@�

@�= 1

Rezulta1 � D2

�b�� � in (�) :O c.n.s. pentru a obtine egalitate in inegalitatea Schwartz

este sa existe o constanta A;independenta de (x1; :::; xn) ;asaincat

A ��b� (x1; :::; xn)� �� = @f (x1; :::; xn; �)

@�; 8 (x1; :::; xn)

6

Page 34: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Remarca:in (�) = n � i1 (�)

Demonstratie:

@ ln f (X1; :::; Xn; �)

@�=

nXi=1

@ ln f (Xi; �)

@�

in (�) =M�

nXi=1

@ ln f (Xi; �)

@�

!2=

=nXi=1

M�

�@ ln f (Xi; �)

@�

�2+ 2

Xi<j

M�

�@ ln f (Xi; �)

@�� @ ln f (Xj ; �)

@�

�=

= n � i1 (�) + 2Xi<j

M�

�@ ln f (Xi; �)

@�

��M�

�@ ln f (Xj ; �)

@�

�= n � i1 (�)

De�nitieUn estimator nedeplasat b� pentru care

D2�

�b�� = 1

n � i1 (�)

se numeste estimator e�cient.

EXEMPLU

Modelul: Repartitia Exponentiala Expo (�) ;� 2 (0;1)

f (x; �) =

�1� exp

��x�

�; x 2 [0;1)

0; x 2 (�1; 0)

Semni�catia parametrului

M� (X) =1

1Z0

x � exp��x�

�dx = �

Spatiul de selectie n�dimensional [0;1)n;

�B[0;1)

�n;nOi=1

P� �X�1i

!

7

Page 35: Monica Dumitrescu - Statistica Matematica (Note de Curs)

f (x1; :::; xn; �) =nYi=1

f (xi; �) =

8<: 1�n exp

�� 1�

nPi=1

xi

�; xi 2 [0;1); 8i

0; in rest

Aplicam Metoda Momentelor

b� (X1; :::; Xn) = X;M�

�b�� = �; 8�Dispersia estimatorului

D2�

�b�� = 1

n2

nXi=1

D2� (Xi) =

1

n�D2

� (X)

D2� (X) =

1

1Z0

x2 � exp��x�

�dx� �2 = �2

D2�

�b�� = �2

n

Informatia Fisher

i1 (�) =M�

�@ ln f (X; �)

@�

�2=M�

�1

�2(X � �)

�2=1

�4�D2

� (X) =1

�2

in (�) = n � i1 (�) =n

�2

Marginea Rao Cramer

1

in (�)=�2

n= D2

�b��Deci b� (X1; :::; Xn) = X este estimator e�cient al lui �:

TEOREMA RAO - CRAMER (pentru k > 1)

Fie modelul P� �X�1; avand densitatea de repartitie

f (x; �) ; x 2 R;

cu � 2 � v Rk; k > 1:

8

Page 36: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Fie observatiile i.i.r. X1; :::; Xn si notam densitatea derepartitie a vectorului (X1; :::; Xn) cu

f (x1; :::; xn; �) =nYi=1

f (xi; �)

Fie b� (X1; :::; Xn) = � b�1 (X1; :::; Xn) ; :::; b�k (X1; :::; Xn)�0un estimator nedeplasat pentru � = (�1; :::; �k)

0:

Presupunem veri�cate urmatoarele conditii de regu-laritate:

� � este multime deschisa;

� f (x1; :::; xn; �) derivabila partial in raport cu �i; i = 1; :::; k;

oricare ar � (x1; :::; xn) ; cu derivatele partiale integrabilepe Rn;

� Pentru orice �; au loc egalitatile@

@�i

ZRn

f (x1; :::; xn; �) dx1:::dxn =

ZRn

@f (x1; :::; xn; �)

@�idx1:::dxn; i = 1; :::; k

@

@�i

ZRn

b�j (x1; :::; xn) � f (x1; :::; xn; �) dx1:::dxn=

ZRn

b�j (x1; :::; xn) � @f (x1; :::; xn; �)@�i

dx1:::dxn; i; j = 1; :::; k

� Exista si este pozitiv de�nita "matricea information-ala Fisher" M�

�@ ln f (X1; :::; Xn; �)

@�i� @ ln f (X1; :::; Xn; �)

@�j

� i;j=1;:::;k

notat= In (�)

Atunci matricea

Cov�

�b�; b��� I�1n (�)

este semipozitiv de�nita.

Remarca:In (�) = n � I1 (�)

9

Page 37: Monica Dumitrescu - Statistica Matematica (Note de Curs)

METODA VEROSIMILITATII MAXIME

Fie modelul

P� �X�1 =

8><>:Px2A

p (x; �) � �fxg; caz discret

sauf (x; �) � l; x 2 R; caz continuu

Fie X1; :::; Xn observatii i.i.r. si (Sn;Sn) spatiul n�dimensionalal valorilor de selectie.

De�nitii

� Pentru datele statistice (x1; :::; xn) 2 Sn; functia de verosimil-itate este de�nita prin

L (x1; :::; xn; �) =

8>>><>>>:p (x1; :::; xn; �) =

nQi=1

p (xi; �) ; caz discret

sau

f (x1; :::; xn; �) =nQi=1

f (xi; �) ; caz continuu

� Fie functia masurabila b� : Sn �! �: Functia b� (X1; :::; Xn)se numeste estimator de verosimilitate maxima (E.V.M.)daca, pentru orice (x1; :::; xn) ; valoarea b� (x1; :::; xn) este so-lutia problemei de optimizare

sup�2�

L (x1; :::; xn; �)

sau a problemei echivalente

sup�2�

lnL (x1; :::; xn; �)

Notatie: b�VM (Maximum Likelihood Estimator)

Comentariu:In cazul discret,

L (x1; :::; xn; �) = P� (Xi = xi; i = 1; :::; n)

b�VM (x1; :::; xn) este acea valoare a parametrului � care faceda datele statistice (x1; :::; xn) sa �e cel mai verosimile.

10

Page 38: Monica Dumitrescu - Statistica Matematica (Note de Curs)

APLICATIA 1

E.V.M. pentru parametrul � al repartitiei B (1; �)

Modelul

P� �X�1=1X

x=0

�x (1� �)1�x � �fxg; �2 (0; 1)

Datele statistice

(x1; :::; xn) 2 f0; 1gn

Functia de verosimilitate

L (x1; :::; xn; �) =

nYi=1

�xi (1� �)1�xi = �Pn

i=1 xi (1� �)n�Pn

i=1 xi

Constructia EVM

lnL =

nXi=1

xi � ln � + n�

nXi=1

xi

!� ln (1� �)

@ lnL

@�=1

nXi=1

xi �1

1� �

n�

nXi=1

xi

!

@2 lnL

@�2= � 1

�2

nXi=1

xi �1

(1� �)2

n�

nXi=1

xi

!

@ lnL

@�= 0

b� (x1; :::; xn) = 1

n

nXi=1

xi = x

@2 lnL

@�2jx= �

n

x (1� x) < 0

b�VM (X1; :::; Xn) = 1

n

nXi=1

Xi = X

Proprietatile EVM: vom stabili repartitia exacta a es-timatorului, vom cerceta nedeplasarea si vom calculaeroarea medie patratica.

11

Page 39: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Repartitia lui b�VM (X1; :::; Xn)PropozitieFie variabilele aleatoare independente Yi � B (ri; �) ;i = 1:2:

Atunci Y1 + Y2 � B (r1 + r2; �)

Rezultan � b�VM (X1; :::; Xn) = nX

i=1

Xi � B (n; �)

Eroarea medie patratica pentru b�VM (X1; :::; Xn)M�

�n � b�VM� = n�

D2�

�n � b�VM� = n� (1� �)

M�

�b�VM� = � (nedeplasare)

D2�

�b�VM� = � (1� �)n

M�

�b�VM � ��2=� (1� �)

n

APLICATIA 2

E.V.M. pentru parametrul � al repartitiei UniformeU (0; �)

Modelul

P� �X�1=f (x; �) � l

f (x; �) =

�1� ; x 2 [0; �]0; in rest

; � 2 (0;1)

FX (y) = P� (Y < y) =

8<: 0; y < 0y� ; y 2 [0; �]1; y > �

M� (X) =

�Z0

x

�dx =

2

12

Page 40: Monica Dumitrescu - Statistica Matematica (Note de Curs)

D2� (X) =

�Z0

x2

�dx� �

2

4=�2

12

Datele statistice

(x1; :::; xn) 2 [0; �]n

Functia de verosimilitate

L (x1; :::; xn; �) =

�1�n ; xi 2 [0; �] ; i = 1; :::; n0; in rest

L (x1; :::; xn; �) =

( 1�n ; 0 � max

ixi � �

0; � < maxixi

Constructia EVM

max�2(0;1)

L (x1; :::; xn; �) =1�

maxixi

�nse atinge pentru

b�VM (x1; :::; xn) = maxixi

notat= x(n)

E.V.M. este b�VM (X1; :::; Xn) = maxiXi

notat= X(n)

Repartitia lui b�VM (X1; :::; Xn)Fb�VM (y) = FX(n)

(y) = P��X(n) < y

�=

nYi=1

P� (Xi < y) = (FX (y))n

Fb�VM (y) =8<:

0; y < 0�y�

�n; y 2 [0; �]

1; y > �

fb�VM (y) =�

n�n y

n�1; y 2 [0; �]0; in rest

Eroarea medie patratica a lui b�VM (X1; :::; Xn)M�

�b�VM� = �Z0

y � n�nyn�1dy =

n

n+ 1� �

13

Page 41: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Bias�b�VM� = n

n+ 1� � � � = � 1

n+ 1� �

M�

�b�VM�2 = �Z0

y2 � n�nyn�1dy =

n

n+ 2� �2

D2�

�b�VM� = n

n+ 2� �2 �

�n

n+ 1

�2� �2 = n

(n+ 2) (n+ 1)2 � �

2

M�

�b�VM � ��2=

n

(n+ 2) (n+ 1)2 � �

2 +1

(n+ 1)2 � �

2 =2�2

(n+ 1) (n+ 2)

Construim un estimator nedeplasat

b� (X1; :::; Xn) = n+ 1

n� b�VM (X1; :::; Xn)

M�

�b�� = �D2�

�b�� = �n+ 1n

�2� n

(n+ 2) (n+ 1)2 � �

2 =�2

n (n+ 2)

M�

�b� � ��2 = �2

n (n+ 2)

Comparam cei doi estimatori

M�

�b�VM � ��2

M�

�b� � ��2 =2n

n+ 1> 1; n > 1

M�

�b� � ��2 < M�

�b�VM � ��2

14

Page 42: Monica Dumitrescu - Statistica Matematica (Note de Curs)

APLICATIA 3

E.V.M. pentru parametrul � = ��; �2� al repartitieiNormale N ��; �2�

Modelul

P� �X�1 = f�x;�; �2

�� l

f�x;�; �2

�=

1p2��2

exp

�� 1

2�2(x� �)2

�M� (X) = �

D2� (X) = �

2

Datele statistice(x1; :::; xn) 2 Rn

Functia de verosimilitate

L�x1; :::; xn;�; �

2�=

1

(2��2)n=2

exp

(� 1

2�2

nXi=1

(xi � �)2)

Constructia EVM

lnL = �n2ln (2�)� n

2ln��2�� 1

2�2

nXi=1

(xi � �)2

@ lnL

@�=1

�2

nXi=1

(xi � �)

@ lnL

@�2= �n

2� 1�2+

1

2 (�2)2

nXi=1

(xi � �)2

@2 lnL

@�2= � n

�2

@2 lnL

@�@�2= � 1

(�2)2

nXi=1

(xi � �)

@2 lnL

@ (�2)2 =

n

2� 1

(�2)2 �

1

(�2)3

nXi=1

(xi � �)2

Sistemul de verosimilitate maxima� @ lnL@� = 0@ lnL@�2 = 0

15

Page 43: Monica Dumitrescu - Statistica Matematica (Note de Curs)

8>><>>:nPi=1

(xi � �) = 0

�n�2 +nPi=1

(xi � �)2 = 0

b� (x1; :::; xn) = 1

n

nXi=1

xi = x

c�2 (x1; :::; xn) = 1

n

nXi=1

(xi � x)2

@2 lnL

@�2j�b�;c�2�= � nc�2 < 0

@2 lnL

@�@�2j�b�;c�2�= 0

@2 lnL

@ (�2)2 j�b�;c�2�= �n2 �

1�c�2�2 < 0Rezulta ca

�b� (x1; :::; xn) ;c�2 (x1; :::; xn)� este punct de maximpentru lnL; iar EVM este

�b�VM ;c�2VM� (X1; :::; Xn) = X; 1n

nXi=1

�Xi �X

�2!

Pentru a stabili repartitia lui�b�VM ;c�2VM� avem nevoie

de "de�nitia constructiva" a repartitiei CHI Patrat

Repartitia Gamma (�; �)

Repartitia �2 (r)

De�nitieVariabila aleatoare X are o repartitie Gamma (�; �) ;�; � 2

(0;1) ; daca are densitatea de repartitie

f (y) =

� 1���(�)y

��1 exp��y�

�; y � 0

0; y < 0

16

Page 44: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Reamintim

� (�) =

1Z0

t��1e�tdt

� (�) = (�� 1) � (�� 1)� (r) = (r � 1)!; r 2 N�

M (Y ) =

1Z0

1

��� (�)y� exp

��y�

�dy =

��+1� (�+ 1)

��� (�)= ��

M�Y 2�=

1Z0

1

��� (�)y�+1 exp

��y�

�dy =

��+2� (�+ 2)

��� (�)= �2� (�+ 1)

D2 (Y ) = �2� (�+ 1)� �2�2 = �2�

'Y (t) =M�eitY

�=

1

��� (�)

�1

�� it

���� (�) = (1� it�)��

Proprietatea 2

Fie variabilele aleatoare independente Yi � Gamma (�i; �) ;i =1; 2: Atunci Y1 + Y2 � Gamma (�1 + �2; �)

Demonstratie

'Y1+Y2 (t) = 'Y1 (t) � 'Y2 (t) = (1� it�)��1+�2

De�nitie

Repartitia Gamma�r2 ; 2�; cu r 2 N� se numeste repartitia

CHI Patrat cu r grade de libertate, avand densitatea derepartitie

f (y) =1

2r=2��r2

�y r2�1 exp��y2

�; y � 0

M (Y ) = r

D2 (Y ) = 2r

17

Page 45: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Proprietatea 3

Fie X1; :::; Xr variabile aleatoare independente, identicrepartizate Normal N (0; 1) : Atunci

Y =rXi=1

X2i

este repartizata �2 (r) :

Demonstratie:

P�X21 < z

�=

�0; z < 0

P (jX1j <pz) ; z � 0 =

8<:0; z < 0

2p2�

pzR0

e�x2=2dx; z � 0

fX21(z) =

�0; z < 0

2p2�� e�z=2 � 1

2pz; z � 0

fX21(z) =

1

21=2��12

� � z 12�1 � e�z=2; z � 0Adica X2

1 este repartizata �2 (1) = Gamma�12 ; 2�:

Avem X21 ; :::; X

2r variabile aleatoare independente, identic

repartizate Gamma � 12 ; 2� : RezultarXi=1

X2i � Gamma

�r2; 2�= �2 (r) :

Proprietatea 4

Fie Y1; :::; Yn variabile aleatoare independente, identic repar-tizate Normal N (0; 1) si �e

Y =1

n

nXi=1

Yi

H =nXi=1

�Yi � Y

�2Atunci Y � N �0; 1n� ; H � �2 (n� 1) ; iar Y si H sunt variabile

aleatoare independente.

18

Page 46: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Demonstratie:nXi=1

Yi � N (0; n) =) Y � N�0;1

n

NotamY = (Y1; :::; Yn)

0

Vectorul aleator Y are (prin de�nitie) o repartitie nor-mala n�dimensionala, N (n;0; I) ; cu

M (Y) = 0 = (0; :::; 0)0

Cov (Y;Y) = kcov (Yi; Yj)ki;j=1;:::;n = I

Consideram transformarea liniara

Z = A �Y

cu

A =

0BBBBBB@

1p1�2

�1p1�2 0 ::::: 0

1p2�3

1p2�3

�2p2�3 ::::: 0

::: ::: ::: ::::: :::1p

(n�1)n1p

(n�1)n1p

(n�1)n::::: �(n�1)p

(n�1)n1pn

1pn

1pn

::::: 1pn

1CCCCCCAAvem A �A0 = I:Vectorul aleator Z = (Z1; :::; Zn)0 are o repartitie normala

n�dimensionala, cu

M (Z) = A �M (Y) = 0

Cov (Z;Z) =M�Z � Z0

�=�A �Y �Y0�A0� = A �Cov (Y;Y) �A0 = A � I �A0 = I

Componentele lui Z sunt variabile aleatoare indepen-dente, identic repartizate N (0; 1) :Observam ca:

nXi=1

Z2i = Z0Z = Y0�A0 �A �Y = Y0Y =

nXi=1

Y 2i

DarZn =

1pn

nXi=1

Yi =pn � Y :

n�1Xi=1

Z2i =nXi=1

Y 2i � Z2n =nXi=1

Y 2i � n�Y�2=

nXi=1

�Yi � Y

�2= H

19

Page 47: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Deci

Y =1pnZn;

H =n�1Xi=1

Z2i

Rezulta ca Y si H sunt variabile aleatoare independentesi H � �2 (n� 1) :�

Revenim la problema repartitiei E.V.M.�b�VM ;c�2VM� (X1; :::; Xn) = X; 1n

nXi=1

�Xi �X

�2!

Proprietatea 5

Fie X1; :::; Xn variabile aleatoare independente, identicrepartizate N ��; �2� si �e �b�VM ;c�2VM� E.V.M. construit maisus. Atunci b�VM = X � N

��;�2

n

�;

n

�2�c�2VM � �2 (n� 1)

si cele doua componente ale E.V.M. sunt independente.

Demonstratie:

Aplicam Proprietatea 4 pentru

Yi =Xi � ��

� N (0; 1) ; i = 1; :::; n

Y =1

n

nXi=1

Xi � ��

=X � ��

H =nXi=1

�Xi � ��

� X � ��

�2=1

�2

nXi=1

�Xi �X

�2=n

�2�c�2VM

Rezulta ca X��� are repartitia N �0; 1n� ; adica X are repar-

titia N��; �

2

n

�; iar n

�2 �c�2VM are repartitia �2 (n� 1) :Independenta celor doua componente ale E.V.M. rezulta

tot din proprietatea 4.�

20

Page 48: Monica Dumitrescu - Statistica Matematica (Note de Curs)

EROARILE MEDII PATRATICE ALECOMPONENTELOR E.V.M.

�b�VM ;c�2VM�

M�

�X�= �

Bias�X�= 0

D2�

�X�=�2

n

M�

�X � �

�2=�2

n

M�

�c�2VM� = n� 1n

�2

Bias�c�2VM� = n� 1

n�2 � �2 = ��

2

n

D2�

�c�2VM� = 2 (n� 1)n2

�4

M�

�c�2VM � �2�2=2 (n� 1)n2

�4 +�4

n2=2n� 1n2

�4

Putem construi un estimator nedeplasat pentru �2 :

S2 =n

n� 1c�2VM =

1

n� 1

nXi=1

�Xi �X

�2n� 1�2

S2 � �2 (n� 1)

M�

�S2�= �2

Bias�S2�= 0

D2�

�S2�=

2�4

n� 1

M�

�S2 � �2

�2=

2�4

n� 1

Observam ca, desi S2 este un estimator nedeplasat pentru�2; eroarea sa medie patratica este mai mare decat cea alui c�2VM :

M�

�c�2VM � �2�2

M� (S2 � �2)2=(2n� 1) (n� 1)

2n2< 1

21

Page 49: Monica Dumitrescu - Statistica Matematica (Note de Curs)

METODA CELOR MAI MICI PATRATE

Se adreseaza estimarii parametrilor "MODELELORLINIARE"

MODELUL LINIAR n�DIMENSIONAL,

CU OBSERVATII INDEPENDENTE

Fie un sir de variabile aleatoare independente, neiden-tic repartizate, de forma

Xi =M� (Xi) + Zi; i = 1; 2; :::

unde:

� fZi; i = 1; 2; :::g sunt v.a. indep, identic repartizate, cuM� (Zi) = 0;D

2� (Zi) = �

2;8i

� M� (Xi) = y0i� =

Pkj=1 yij�j ;i = 1; 2; :::

� � = (�1; :::; �k)0 2 � v Rk;k � 1

Observam primele n variabile ale sirului, n > k; si notam

X = (X1; :::; Xn)0

Z = (Z1; :::; Zn)0

Y = kyijki=1;:::;n; j=1;:::k

De�nitie:Secventa de nvariabile aleatoare independente, neiden-

tic repartizate, de forma

Xi = y0i� + Zi; i = 1; 2; :::n

se numeste model liniar n�dimensional, cu observatii in-dependente.Are loc scrierea matriceala

X = Y� + Z

22

Page 50: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Exemplu:

� X = cresterea lunara in greutate la copilul de 12 - 18luni

Cresterea in greutate depinde de regimul alimentar ad-ministrat (ratia zilnica de proteine, ratia zilnica de glu-cide, ratia zilnica de lipide)

� "regim alimentar" =(y1; y2; y3)0 va �speci�at (cunoscut)pt �ecare copil luat in studiu

X = y1�1 + y2�2 + y3�3 + Z

� parametrul necunoscut � = (�1; �2; �3)0 exprima in�uenta�ecarui principiu nutritiv asupra cresterii in greutate

� n copii sunt inclusi in studiu in mod independent unulde altul si se dau yi = (yi1; yi2; yi3)

0;i = 1; :::; n

� se inregistreaza cresterile in greutate din luna in careare loc studiul, (x1; :::; xn)

� se estimeaza �

Proprietati ale modelului

M� (Z) = (M� (Z1) ; :::;M� (Zn))0= (0; :::; 0)

0= 0

Cov� (Z;Z) = kcov� (Zi; Zj)ki;j=1;:::;n = �2 � I

M� (X) = Y� +M� (Z) = Y�

Cov� (X;X) = Cov� (Z;Z) = �2�I

De�nitii:Modelul liniar n�dimensional X = Y�+Z se numeste nesin-

gular daca rangul matricii Y este maximal,

rang (Y) = k

Modelul liniar n�dimensional X = Y� + Z se numeste or-togonal daca caloanele lui Y sunt vectori ortogonali dinRn:

23

Page 51: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Modelul liniar n�dimensional X = Y�+Z se numeste nor-mal daca variabilele aleatoare indep, id. repartizate Z1; :::; Znau repartitie normala, N �0; �2� :Fie x= (x1; :::; xn)0 datele statistice observate.Suma abaterilor patratice (Sum of Squares)

SS (x1; :::; xn; �) =nXi=1

(xi � y0i�)2= (x�Y�)0 (x�Y�) = k(x�Y�)k2

De�nitieEstimatorul b� (X1; :::; Xn) se numeste estimator prin metoda

celor mai mici patrate (Least Squares Estimator, (L.S.E.))daca, pentru orice x= (x1; :::; xn)

0; valoarea b� (x1; :::; xn) se ob-

tine ca solutie a problemei de optimizare

inf�2�

SS (x1; :::; xn; �)

Estimatorul se noteaza b�LS (X1; :::; Xn) :Fie SS (x1; :::; xn; �) : Sistemul

@SS

@�= 0

se numeste sistemul de ecuatii normale. Explicit, sis-temul liniar se scrie:

Y0 (x�Y�) = 0

sauY0Y� = Y0x

Proprietatea 6 (existenta L.S.E.)

Un estimator b� este L.S.E, b� = b�LS ; daca si numai daca,pentru orice x= (x1; :::; xn)

0; valoarea b� (x1; :::; xn) este solutia

sistemului de ecuatii normale Y0Y� = Y0x:

Demonstratie:Fie x = (x1; :::; xn)0 arbitrar �xat.

inf�2�

SS (x; �) , inf�2�

k(x�Y�)k2

24

Page 52: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Fie L spatiul liniar generat de coloanele liniar indepen-dente ale lui Y (subspatiu liniar al lui Rn).Solutia problemei

infz2L

k(x� z)k2

estez� = prL (x)

Atunci,

b� (x) = b�LS (x) , Yb� (x) = prL (x) ,

x�Yb� (x) ? L , Y0�x�Yb� (x)� = 0

Proprietatea 7 (L.S.E. este cel mai bun estimator liniarnedeplasat al lui �)

Fie modelul liniar n�dimensional cu observatii inde-pendente X = Y�+Z:

Presupunem modelul nesingular (rang (Y) = k < n) :Atunci sistemul de ecuatii normale are solutia unica

b�LS (x) = (Y0Y)�1Y0x;

si estimatorul b�LS (X) veri�ca urmatoarele proprietati:� este nedeplasat,

M�

�b�LS (X)� = �; 8� 2 �;� pentru orice estimator g liniar, nedeplasat al lui �;matricea

Cov� (g;g)� Cov��b�LS ; b�LS�

este semipozitiv de�nita, 8� 2 �:

Demonstratie:

Cum rang (Y) = k; rezulta rang (Y0Y) = k; deci Y0Y�= Y0x estesistem Cramer, cu solutia unica b�LS (x) = (Y0Y)

�1Y0x:

25

Page 53: Monica Dumitrescu - Statistica Matematica (Note de Curs)

M�

�b�LS� = (Y0Y)�1Y0M� (X) = (Y

0Y)�1Y0Y� = �; 8� 2 �

Cov�

�b�LS ; b�LS� = (Y0Y)�1Y0Cov� (X;X)Y (Y

0Y)�1=

= (Y0Y)�1Y0 � �2I �Y (Y0Y)

�1= �2 (Y0Y)

�1

Fie g (X) = RX un estimator liniar, nedeplasat pentru �:

Conditia de nedeplasare revine la

M� (g) = �; 8� 2 �;

respectiv laRY� = �; 8� 2 �;

adica RY = I:

Cov� (g;g) = R � Cov� (X;X) �R0 = �2RR0

Cov� (g;g)� Cov��b�LS ; b�LS� = �2RR0 � �2 (Y0Y)

�1

Folosind relatia RY = I obtinem

Cov� (g;g)� Cov��b�LS ; b�LS� = �2 �R� (Y0Y)

�1Y0��R� (Y0Y)

�1Y0�0

Notam � = R� (Y0Y)�1Y0 si obtinem

z0�Cov� (g;g)� Cov�

�b�LS ; b�LS�� z = �2z0��0z = �2 (�0z)0 (�0z) � 0�

� valorile observate: xi, i = 1; :::; n

� predictorii (�tted values): bxi = y0ib�LS ; i = 1; :::; n� reziduuri (residuals) xi � bxi; i = 1; :::; nDe�nim variabila aleatoare "Suma reziduurilor patrat-

ice"SSrezid =

nXi=1

�Xi � y0ib�LS�2 = X�Yb�LS 2

26

Page 54: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Proprietatea 8

Fie modelul liniar n�dimensional cu observatii inde-pendente X = Y�+Z:

Presupunem modelul nesingular si normal. Atunci1

�2� SSrezid � �2 (n� k)

Demonstratie:Fie L spatiul liniar generat de coloanele liniar indepen-

dente ale lui Y:dimL = rang Y = k

dimL? = n� k

Fie fuk+1; :::;ung o baza ortonormata pentru L?:Pentru x 2 Rn; avem Yb�LS (x) 2 L; x � Yb�LS (x) 2 L?: Putem

scriex�Yb�LS (x) = nX

i=k+1

u0ix

1

�2� SSrezid =

nXi=k+1

�u0ix

�2Dar f 1�u0iX, i = k + 1; :::; ng sunt var. al. independente,

identic repartizate N (0; 1) caci:

� sunt combinatii liniare de componentele normal repar-tizate ale lui X =(X1; :::; Xn)

0 si

M�

�1

�u0iX

�=1

�u0iY� = 0; i = k + 1; :::; n

cov�

�1

�u0iX;

1

�u0jX

�=1

�2u0iCov� (X;X)uj =

1

�2u0i��2I�uj = u

0iuj = �ij ;

i; j = k + 1; :::; n

� �ind var al necorelate, identic repartizate normal,N (0; 1) ;sunt si independente.

RezultanX

i=k+1

�u0ix

�2� �2 (n� k)

27

Page 55: Monica Dumitrescu - Statistica Matematica (Note de Curs)

VALOARE MEDIE CONDITIONATA

MODELE DE REGRESIE; ESTIMAREAPARAMETRILOR REGRESIEI LINIARE

Problema:Pentru perechea de variabile aleatoare (X;Y ) = (efect,

cauza), cum evidentiem dependenta lor (cantitativ si cal-itativ)?Exemplu: (X;Y ) = (valoarea tensiunii arteriale sistolice,

nivelul colesterolului)

COEFICIENT DE CORELATIE

Fie (X;Y ) pentru care exista momentele de ordinul 2:Reamintim de�nitiile covariantei si a coe�cientului decorelatie:

cov (X;Y ) =M ((X �M (X)) (Y �M (Y ))) =M (XY )�M (X)M (Y )

� =cov (X;Y )pD2 (X)D2 (Y )

Proprietate: j�j � 1 (rezulta din inegalitatea Schwartz)

� � = 1; corelatie pozitiva maxima

� � = �1; corelatie negativa maxima

� � = 0; necorelare

Repartitii asociate:

P � (X;Y )�1 =

8><>:Px2A

Py2B

p (x; y) � �(x;y); rep. discreta

sauf (x; y) � l2; rep. continua

P �X�1 (C1) =

8<: P � (X;Y )�1 (C1 �B) ; rep. discretasau

P � (X;Y )�1 (C1 �R) ; rep. continua

1

Page 56: Monica Dumitrescu - Statistica Matematica (Note de Curs)

P � Y �1 (C2) =

8<: P � (X;Y )�1 (A� C2) ; rep. discretasau

P � (X;Y )�1 (R� C2) ; rep. continua

In cazul repartitiilor discrete,pX (x) =

Xy2B

p (x; y) ; x 2 A

pY (y) =Xx2A

p (x; y) ; y 2 B

X;Y independente , p (x; y) = pX (x) � pY (y) 8x 2 A; y 2 BIn cazul repartitiilor continue,

fX (x) =

ZR

f (x; y) dy; x 2 R

fY (y) =

ZR

f (x; y) dx; y 2 R

X;Y independente , f (x; y) = fX (x) � fY (y) 8x; y 2 RProprietate:X;Y independente =) X;Y necorelate

Coe�cientul de corelatie apare ca o masura cantitativaa dependentei dintre X si Y:Introducem si un model stocastic al acestei dependente

(al relatiei "cauza - efect")

VALOARE MEDIE CONDITIONATA

Lema

Fie (;K; P ) ; F � K; F corp borelian si �e h : �! R o vari-abila aleatoare nenegativa sau integrabila, F�masurabila.Atunci Z

h dPjF =

Z

h dP

Demonstratie:Notam aplicatia identitate cu i : (;K) �! (;F) : Rezulta

ca i este masurabila si P � i�1 = PjFZ

h dPjF =

Z

h dP � i�1 =Z

h � i dP =Z

h dP

2

Page 57: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Teorema (existenta si unicitate)

Fie (;K; P ) ; F � K; F corp borelian.a) Daca X este o variabila aleatoare nenegativa, atunci

exista o variabila aleatoare nenegativa M (X j F) astfel in-cat

i) M (X j F) este F -masurabila

ii)

ZA

M (X j F) dP =ZA

XdP 8A 2 F

In particular, daca X este integrabila rezulta ca M (X j F)este integrabila.M (X j F) este unica (P � a:s:) variabila aleatoare cu pro-

prietatile i) si ii):b) Daca X este o variabila aleatoare integrabila, atunci

exista si este unica (P � a:s:) o variabila aleatoare integra-bila M (X j F) ; cu proprietatile i) si ii):

Demonstratie:a) :

� Demonstram intai unicitatea: Daca exista g1; g2 vari-abile aleatoare cu proprietatile i) si ii); rezultaZ

A

g1dP =

ZA

g2dP 8A 2 F

Dar g1; g2 sunt F�masurabile. Rezulta g1 = g2 P � a:s:

� Fie X variabila aleatoare nenegativa si �e

� : F �! R+

� (A) =

ZA

XdP

� este o masura ���nita, absolut continua in raport cuPjF : Rezulta din teorema Radon - Nicodym ca exista ounica aplicatie

g : �! R+

3

Page 58: Monica Dumitrescu - Statistica Matematica (Note de Curs)

F�masurabila, asa incat

� (A) =

ZA

gdPjF 8A 2 F

Aplicam Lema:ZA

gdPjF =

Z

IA � gdPjF =Z

IA � gdP =ZA

gdP

Deci ZA

XdP =

ZA

gdP 8A 2 F

Vom nota aceasta unica aplicatie cu g = M (X j F) si ovom numi "media lui X conditionata de F".b) :Fie X variabila aleatoare integrabila. Atunci

X = X+ �X�;

cu X+ si X� pozitive, integrabile, X+ = max fX; 0g ; X� =max f�X; 0g :Din a), (9) (!)M (X+ j F) ;M (X� j F)variabile aleatoare neneg-

ative, integrabile, cu proprietatile i) si ii): Luam

M (X j F) =M�X+ j F

��M

�X� j F

�;

care satisface prorpietatile din enuntul teoremei.�

CAZURI PARTICULARE

� A 2 K; X = 1A: Atunci notam

M (1A j F) = P (A j F)

� Y variabila aleatoare, F = B (Y ) = Y �1 (B) : Atunci notam

M (X j B (Y )) =M (X j Y )

� A 2 K; X = 1A si F = B (Y ) : Atunci notam

M (1A j B (Y )) = P (A j Y )

4

Page 59: Monica Dumitrescu - Statistica Matematica (Note de Curs)

VERSIUNE A MEDIEI CONDITIONATE

Fie X si Y variabile aleatoare, cu X nenegativa sauintegrbila.Se numeste versiune a mediei conditionate M (X j Y ) func-

tia masurabila

M (X j Y = y) : R �! R

cu proprietatea

M (X j Y = y) � Y =M (X j Y ) P � a:s:

Propozitie

Fie X si Y variabile aleatoare, cu X nenegativa sauintegrabila. Functia masurabila ' : R �! R este versiune amediei conditionate M (X j Y ) daca si numai dacaZ

B

' (y) dP � Y �1 (y) =Z

Y �1(B)

XdP; 8B 2 B

Demonstratie:

' � Y = M (X j Y ) P � a:s: ,ZA

' � Y dP =

ZA

M (X j Y ) dP; 8A 2 B (Y )

Dar B (Y ) = Y �1 (B) : Deci, pentru orice B 2 BZB

' (y) dP � Y �1 (y) =Z

Y �1(B)

' � Y dP =Z

Y �1(B)

M (X j Y ) dP =Z

Y �1(B)

XdP

MODALITATI DE CALCUL PENTRU M (X j Y = y)

(a) Cazul repartitiilor discretePresupunem

P � Y �1 =Xk2I

P (Y = ak) � �fakg

P (Y = ak) > 0 8k;Xk2I

P (Y = ak) = 1

5

Page 60: Monica Dumitrescu - Statistica Matematica (Note de Curs)

cu I cel mult numarabila. Aratam ca

M (X j Y = ak) =1

P (Y = ak)

ZfY=akg

XdP:

Notam cu ' o functie B�masurabila, asa incat

' (ak) =1

P (Y = ak)

ZfY=akg

XdP; k 2 I

Notam suportul lui P � Y �1 cu A = fak; k 2 Ig : Fie B 2 B:AvemZB

' (y) dP � Y �1 (y) =

ZB\A

' (y) dP � Y �1 (y) =X

ak2B\A' (ak) � P (Y = ak) =

=X

ak2B\A

ZfY=akg

XdP =

ZY �1(B)

XdP

Aplicand propozitia anterioara, obtinem c.t.d.

Daca presupunem chiar mai mult, si anume ca (X;Y )

este un vector aleator cu repartitie discreta

P � (X;Y )�1 =Xx2A0

Xy2A

p (x; y) � �f(x;y)g

A0 = fa0k; k 2 IgA = fak; k 2 Ig

atunci

M (X j Y = ak) =Xk2I

a0k �P (X = a0k; Y = ak)

P (Y = ak)=Xk2I

a0k � P (X = a0k j Y = ak)

(b) Cazul repartitiilor continuePresupunem ca (X;Y ) are densitatea de repartitie f (x; y) :

NotamfY (y) =

ZR

f (x; y) dx

Aratam ca

M (X j Y = y) =ZR

x � f (x; y)fY (y)

dx

6

Page 61: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Observam ca de�nitia este corecta pentru y cu fY (y) > 0:In punctele in care fy (y) = 0 se ia M (X j Y = y) egala cu oconstanta arbitrara.Notam functia masurabila

' (y) =

ZR

x � f (x; y)fY (y)

dx

Fie B 2 BZB

' (y) dP � Y �1 (y) =

ZB

0@ZR

x � f (x; y)fY (y)

dx

1A fY (y) dy ==

ZR�B

x � f (x; y) dxdy =Z

R�R

x � 1B (y) � f (x; y) dxdy =

=

Z

(1B � Y ) �XdP =Z

Y �1(B)

XdP

Aplicand propozitia anterioara, obtinem c.t.c.�

Notatie (densitatea de repartitie conditionata a lui X)

f (x j y) = f (x; y)

fY (y)

M (X j Y = y) =ZR

x � f (x j y) dx

De�nitieFie vectorul aleator (X;Y ) cu componente integrabile.

Se numeste regresia lui X in Y functia

y �!M (X j Y = y)

Regresia este liniara daca

M (X j Y = y) = a+ by

Dreapta de regresie este data de ecuatia

x = a+ by

7

Page 62: Monica Dumitrescu - Statistica Matematica (Note de Curs)

REGRESIA LINIARA PENTRUMODELUL NORMAL BIDIMENSIONAL

Fie urmatorii parametri:

� =��x; �y

�0 2 R2� =

��2x �xy�xy �2y

�=

��2x ��x�y

��x�y �2y

�;

�matrice simetrica, pozitiv de�nita.Vectorul aleator (X;Y )0 are o repartitie normala bidi-

mensionala N (2;�;�) daca are densitatea de repartitie

f (x:y) =1

2�q�2x�

2y (1� �2)

� exp(� 1

2 (1� �2)

"�x� �x�x

�2� 2�x� �x

�x�y � �y�y

+

�y � �y�y

�2#)

Proprietatea 1

Repartitiile marginale ale lui N (2;�;�) sunt

P �X�1 = N��x; �

2x

�; P � Y �1 = N

��y; �

2y

�Demonstratie:Adunand si scazand �2

�y��y�y

�2la exponent obtinem

f (x:y) =1q

2��2yp2��2x (1� �2)

� exp(

1

2�2x (1� �2)

�x�

��x + �

�x�y

�y � �y

���2� 1

2�2y

�y � �y

�2)Repartitia marginala a lui Y este

fY (y) =

ZR

f (x; y) dx =1q2��2y

exp

�� 1

2�2y

�y � �y

�2�

Analog se obtine si repartitia marginala a lui X:

8

Page 63: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Proprietatea 2

Repartitia lui X conditionata de Y este normala,

N

��x + �

�x�y

�y � �y

�;�2x

�1� �2

��Proprietatea rezulta imediat, calculand

f (x j y) = f (x; y)

fY (y)

Corolar

M (X j Y = y) = �x + ��x�y

�y � �y

�D2 (X j Y = y) = �2x

�1� �2

�Rezulta ca, pentru modelul normal bidimensional, re-

gresia lui X in Y este liniara, iar ecuatia dreptei de regresieeste

x =

��x � �

�x�y�y

�+ �

�x�y� y

ESTIMAREA PARAMETRILOR DREPTEI DEREGRESIE

(a) Fara speci�carea repartitiei lui (X;Y )

Fie vectorul aleator (X;Y )0 pentru care facem ipoteza

M (X j Y = y) = a+ by

astfel incat ecuatia dreptei de regresie este x = a+ by:Fie observatiile (Xi; Yi)0 ; = 1; :::; n; care sunt vectori aleatori

independenti, identic repartizati ca si (X;Y )0 si �e (xi; yi)0i = 1; :::; n datele statistice corespunzatoare.

M (Xi j Y1 = y1; :::; Yi = yi; :::; Yn = yn) =M (Xi j Yi = yi) = a+ byi

Lucrand cu repartitia conditionata, apare modelul liniarn�dimensional

Xi = (a+ byi) + Zi; i = 1; :::; n

9

Page 64: Monica Dumitrescu - Statistica Matematica (Note de Curs)

unde Z1; :::; Zn sunt variabile aleatoare indep, de mediezero. Aplicam metoda celor mai mici patrate:

SS (a; b) =nXi=1

(xi � a� byi)2

Sistemul de ecuatii normale @SS@a = @SS

@b = 0 se scrie subforma 8>><>>:

na+ bnPi=1

yi =nPi=1

xi

anPi=1

yi + bnPi=1

y2i =nPi=1

xiyi

Determinantul matricii sistemului liniar este egal cuzero doar in cazul degenerat (cand toti yi = y; 8i), caz careapare cu probabilitatea zero:

� =

��������n

nPi=1

yinPi=1

yinPi=1

y2i

�������� = nnXi=1

y2i � (ny)2= n

nXi=1

(yi � y)2 > 0

Notatie:

s2x =1

n

nXi=1

(xi � x)2

s2y =1

n

nXi=1

(yi � y)2

sxy =1

n

nXi=1

(xi � x) (yi � y)

r =sxysxsy

Solutia unica a sistemului de ecuatii normale estebb =

sxys2y

= rsxsyba = x�bb � y

Obtinem dreapta de regresie de selectie

x� x = r sxsy(y � y)

10

Page 65: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Estimatorii obtinuti prin metoda celor mai mici pa-trate,

bb (X1; :::; Xn) =1

nPi=1

(yi � y)2

nXi=1

�Xi �X

�(yi � y) =

1nPi=1

(yi � y)2

nXi=1

Xi (yi � y)

ba (X1; :::; Xn) = X �bb (X1; :::; Xn) � ysunt nedeplasati (medierea conditionata):

M�bb j Y1 = y1; :::; Yn = yn� = b

M (ba j Y1 = y1; :::; Yn = yn) = a

Putem calcula valoarea minima a sumei abaterilor pa-tratice,

SSmin =

nXi=1

�xi � ba�bbyi�2 notat= SSresid

(b) Cu speci�carea repartitiei normale a lui (X;Y )

Fie vectorul aleator (X;Y )0 pentru care facem ipotezaca urmaza o repartitie normala bidimensionala N (2;�;�) :Utilizand proprietatile modelului, avem

D2 (Xi j Y1 = y1; :::; Yn = yn) = �2x�1� �2

�; i = 1; :::; n

Proprietatea 3.

Variabila aleatoare

SSresid =

nXi=1

�Xi � ba�bbyi�2

are proprietatea1

�2x (1� �2)� SSresid � �2 (n� 2)

Rezulta din Proprietatea 8 de la "Estimarea para-metrilor" (metoda celor mai mici patrate).

11

Page 66: Monica Dumitrescu - Statistica Matematica (Note de Curs)

In continuare facem o analiza a surselor de variabili-tate ale datelor, utilizand modelul regresiei liniare(ANOVA pentru dreapta de regresie)

In acest moment dispunem de urmatoarele valori:

� yi; i = 1; ::; n; valorile observate ale covariatei (ale vari-abilei "cauza")

� xi; i = 1; :::; n; valorile observate ale variablei raspuns("efect")

� bxi = ba+bb � yi; i = 1; :::; n; predictorii dati de modelul regre-siei liniare (�tted values)

� xi � bxi; i = 1; :::; n; reziduuriIntroducem urmatoarele "sume de abateri patratice"

(sum of squares):

SSresid =nXi=1

(xi � bxi)2 = nXi=1

�xi � ba�bbyi�2

SSregresie =nXi=1

( bxi � x)2SStotal =

nXi=1

(xi � x)2

(vom utiliza aceste notatii atat pentru valorile numericecalculate ale SS�urilor, cat si pentru variabilele aleatoarecorespunzatoare)

Proprietatea 4 (ecuatia ANOVA)

SStotal = SSregresie + SSresid

Demonstratie:

SStotal =nXi=1

(xi � bxi + bxi � x)2 == SSresid + SSregresie + 2

nXi=1

(xi � bxi) ( bxi � x)12

Page 67: Monica Dumitrescu - Statistica Matematica (Note de Curs)

nXi=1

(xi � bxi) ( bxi � x) = nXi=1

�xi � ba�bbyi��ba+bbyi � x� =

=nXi=1

�xi � x+bby �bbyi��x�bby +bbyi � x� =

= �bb nXi=1

h(xi � x)�bb (yi � y)i (yi � y) =

= �bb�nsxy � sxys2y� ns2y

�= 0

Cunoastem repartitia variabilei aleatoare 1�2x(1��2)

�SSresid(proprietatea 3).Ne propunem sa stabilim repartitiile variabilelor aleatoare

1

�2x (1� �2)� SSregresie si

1

�2x (1� �2)� SStotal;

in situatia in care am avea

b = 0

13

Page 68: Monica Dumitrescu - Statistica Matematica (Note de Curs)

AUXILIAR: TEOREMA LUI COCHRAN

Propozitie (rezultat algebric, pentru variabile scalare)

Fie vectorul y = (y1; :::; yN )0 2 RN : Presupunem ca suma depatrate

NXi=1

y2i

se descompune in suma a m forme patratice

qj =NX

�;�=1

aj�� � y�y� ; j = 1; :::m;

NXi=1

y2i =

mXj=1

qj ;

unde, pentru orice j = 1; :::;m;

Aj = aj��

�;�=1;:::;N

este matrice simetrica, de rang rj :O conditie necesara si su�cienta ca sa existe o trans-

formare ortogonalaz = By

asa incatqj =

r1+:::+rjXk=r1+:::+rj�1+1

z2k; j = 1; :::m

este car1 + :::+ rm = N

Demonstratie:

" =) "Presupunem ca exista transformarea z = By; B0B = I; cu

proprietatea din enunt. Transformarea

(y1; :::; yN ) �! (z1; :::; zr1+:::+rm)

trebuie sa �e nesingulara. Rezulta

r1 + :::+ rm � N

14

Page 69: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Scriem matriceal relatia de descompunere din ipoteza

y0y =mXj=1

y0Ajy

RezultamXj=1

Aj = I

rang

0@ mXj=1

Aj

1A = N

Dar

rang

0@ mXj=1

Aj

1A � mXj=1

rang (Aj) =mXj=1

rj

DeciN � r1 + :::+ rm

"(= "Vom construi matricea B intr-o forma partitionata,

B =

0BBBBBB@B1::::::::::::Bm

1CCCCCCA�Pentru i = 1 :A1 este N�N�dimensionala, simetrica, de rang r1:Rezulta

ca exista o matrice nesingulara D0 asa incat

D0A1D00 =

24 Iq 0 00 �Ir1�q 00 0 0

35unde q este numarul de valori proprii pozitive ale lui A1 si(r1 � q) este numarul de valori proprii negative ale lui A1.Notam

D0 = D�10

D = kd��k

15

Page 70: Monica Dumitrescu - Statistica Matematica (Note de Curs)

si avem

A1 = D0

24 Iq 0 00 �Ir1�q 00 0 0

35DRetinem

b(1)�� = d�� ; � = 1; :::; r1; � = 1; :::; N

B1 = b(1)��

�=1;:::;r1; �=1;:::;N

Consideram transformarea liniara de�nita de aceastamatrice,

z� =NX�=1

b(1)��y� ; � = 1; :::; r1

z(1) = (z1; :::; zr1)0= B1y

Atunci

q1 = y0A1y = y0D0

24 Iq 0 00 �Ir1�q 00 0 0

35Dy == z21 + :::+ z

2q � z2q+1 � :::� z2r1

q1 =

r1X�=1

c�z2�; c� 2 f�1; 1g:

�Pentru i arbitrar:

In mod analog obtinem

z� =

NX�=1

b(i)��y� ; � = r1 + :::+ ri�1 + 1; :::; r1 + :::+ ri

Bi = b(i)�� �=r1+:::+ri�1+1;:::;r1+:::+ri;

�=1;:::;N

qi =

r1+:::+riX�=r1+:::+ri�1+1

c�z2�; c� 2 f�1; 1g:

�AtuncimXi=1

qi =NX�=1

c�z2�; c� 2 f�1; 1g:

16

Page 71: Monica Dumitrescu - Statistica Matematica (Note de Curs)

DarmXi=1

qi = y0y > 0 8y 6= 0

DeciNP�=1

c�z2� este pozitiv de�nita si deci c� = 1 8� = 1; :::; N:

Am obtinutqi =

r1+:::+riX�=r1+:::+ri�1+1

z2�; i = 1; :::;m

Formam matricea B = kb��k ; de dimensiune N �N; parti-tionata in componentele Bi: Avem

z� =

NX�=1

b�� � y� ; � = 1; :::; N

NX�=1

y2� =NX�=1

z2�

Ultima relatie este echivalenta cu

y0y =(By)0(By) = y0B0By;

deci B0B = I; adica transformarea este ortogonala.�

TEOREMA LUI COCHRAN

Fie Y1; :::; YN variabile aleatoare independente, identicrepartizate N (0; 1) : Notam Y = (Y1; :::; YN )

0: Presupunem ca

Y0Y se descompune in suma a m forme patratice

Qi = Y0AiY;i = 1; :::;m;

cu Ai = a(i)��

�;�=1;:::;Nmatrici simetrice, de rang ri; i = 1; :::;m;

asa incatY0Y =

mXi=1

Qi:

O conditie necesara si su�cienta ca variabilele aleatoareQi sa �e repartizate �2 (ri) ; i = 1; :::;m si Qi sa �e indepen-denta de Qj pentru orice i 6= j este ca

r1 + :::+ rm = N

17

Page 72: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Demonstratie

" =) "Aceasta implicatie rezulta cu aceleasi argumente ca

cele utilizate in demonstrarea implicatiei similare dinrezultatul algebric."(= "Folosind rezultatul algebric rezulta ca exista o trans-

formare Z = BY; B = kb��k ; asa incat

Qi =

r1+:::+riX�=r1+:::+ri�1+1

Z2�; i = 1; :::;m

Z� =NX�=1

b�� � Y� ; � = 1; :::; N

Din proprietatile combinatiilor liniare de variabile in-dependente, repartizate normal rezulta ca Z� este repar-tizata N (0; 1) pentru orice � = 1; :::; N si Z1; :::; ZN sunt inde-pendente. Atunci, din avem Qi � �2 (ri) ; i = 1; :::;m si, dinasociativitatea independentei, Qi este independenta de Qjpentru orice i 6= j:�

Corolar 1Fie Y1; :::; Yk variabile aleatoare independente, identic

repartizate N (0; 1) : Notam Y = (Y1; :::; Yk)0: O conditie nece-

sara si su�cienta caY0AY sa �e repartizata �2 este ca A2 = A;caz in care numarul de grade de libertate este egal curang(A):

Corolar 2.Fie Y1; :::; Yk variabile aleatoare independente, identic

repartizate N (0; 1) : Notam Y = (Y1; :::; Yk)0: Presupunem ca

Y0Y =Q1 +Q2; undeQ1 = Y

0AY ��2 (r)

Atunci Q2 � �2 (k � r) :

Corolar 3.Fie Y1; :::; Yk variabile aleatoare independente, identic

repartizate N (0; 1) : Notam Y = (Y1; :::; Yk)0: Fie Q;Q1; Q2 forme

18

Page 73: Monica Dumitrescu - Statistica Matematica (Note de Curs)

patratice in Y asa incat Q = Q1 + Q2; Q � �2 (a) ; Q1 � �2 (b) :

Atunci Q2 � �2 (a� b) :

Corolar 4.Fie Y1; :::; Yk variabile aleatoare independente, identic

repartizate N (0; 1) : Notam Y = (Y1; :::; Yk)0: Fie Y0A1Y � �2 (a)

si Y0A2Y � �2 (b) : O conditie necesara si su�cienta ca celedoua forme patratice sa �e independente este ca A1A2 = 0:

============================================

Revenim la ANOVA pentru dreapta de regresie:

Proprietatea 5.

Daca b = 0; atunci1

�2x (1� �2)� SSregresie � �2 (1)

1

�2x (1� �2)� SStotal � �2 (n� 1)

iar variabilele 1�2x(1��2)

�SSregresie si 1�2x(1��2)

�SSresid sunt indepen-dente (in raport cu repartitia conditionata).

Demonstratie:

Daca b = 0; atunci repartitia conditionata a lui Xi esteN�a; �2x

�1� �2

��; 8i:

(i) Ne ocupam intai de SSregresie

SSregresie =

nXi=1

�cXi �X�2 = nXi=1

�ba+bbyi �X�2 = nXi=1

�X �bby +bbyi �X�2 =

=�bb�2 nX

i=1

(yi � y)2 =1

nPi=1

(yi � y)2

nXi=1

(yi � y)Xi

!2;

SSregresie =1

nPi=1

(yi � y)2(X1; :::; Xn) �B �

0BB@X1::Xn

1CCA19

Page 74: Monica Dumitrescu - Statistica Matematica (Note de Curs)

undeB = k(yi � y) (yj � y)ki;j=1;:::;n

notat= kbijk

Presupunem ca nu suntem in cazul degenerat si obser-vam ca pentru 1 � i < j � n avem

yj � yyi � y

0BB@b1i::bni

1CCA�0BB@b1j::bnj

1CCA = 0

Deci rang (B) = n� (n� 1) = 1. Prin calcul direct se veri�ca�1

ns2yB

�2=

1

ns2yB

Cum1

�2x (1� �2)SSregresie =

1p

�2x (1� �2)X

!0� 1ns2y

B �

1p�2x (1� �2)

X

!

putem aplica Corolarul 1 si obtinem faptul ca1

�2x (1� �2)SSregresie � �2 (1) :

(ii) Continuam cu variabila aleatoare SStotal :

SStotal =nXi=1

�Xi �X

�2Putem scrie

SStotal =nXi=1

�Xi �X

�Xi =

1

n2(X1; :::; Xn) �A �

0BB@X1::Xn

1CCAunde A = kaijki;j=1;:::;n ; aii = n (n� 1) ; aij = �n pentru i 6= j:Aplicam succesiv transformarile elementare pe coloane

( Ci �! Ci � Ci+1, i = 1; :::; n� 1 ) si obtinem

1

n2�A =

0BBBBBB@0 0 ::::: 0 �1=n�1 1 ::::: 0 �1=n0 �1 ::::: 0 �1=n::::: ::::: ::::: ::::: :::::0 0 ::::: �1 �1=n0 0 ::::: 1 1� 1=n

1CCCCCCA20

Page 75: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Notam eC1; :::; eCn coloanele acestei matrice si observam ca1

neC1 + 2

neC2 + :::::+ n� 1

neCn�1 + eCn = 0

iar eC1; :::; eCn sunt vectori liniar independenti. Deci rang � 1n2A� =n� 1:Rezulta ca

1

�2x (1� �2)SStotal � �2 (n� 1) :

(iii) Prin calcul direct se veri�ca relatia�1

n2A� 1

ns2yB

�� 1ns2y

B = 0

Cum avem si1

�2x (1� �2)SSresid =

1

�2x (1� �2)(SStotal � SSregresie) ;

1

�2x (1� �2)SSregresie =

1

�2x (1� �2)� 1s2y(X1; :::; Xn) �B �

0BB@X1::Xn

1CCA � �2 (1) ;

1

�2x (1� �2)SSresid =

1

�2x (1� �2)(X1; :::; Xn)�

�1

n2A� 1

ns2yB

��

0BB@X1::Xn

1CCA � �2 (n� 2) ;putem aplica Corolar 4 si obtinem independenta vari-abilelor 1

�2x(1��2)SSregresie si 1

�2x(1��2)SSresid:

21

Page 76: Monica Dumitrescu - Statistica Matematica (Note de Curs)

TABELUL ANOVA PENTRU DREAPTA DEREGRESIE

Sursa de variabilitate SS Grade de libertate SS (mean SS)abaterile predictorilor de la x SSregresie 1 SSregresie = SSregresie

reziduuri aleatoare SSresid n� 2 SSresid =1

n�2SSresidabaterile observatiilor de la x SStotal n� 1

FUNCTII IN R

> cauza � c (y1; :::; yn)> efect � c (x1; :::; xn)> model � lm (efect � cauza)

Functia lm returneaza

� coe¢ cients�ba;bb�

� summary: statistica descriptiva pentru reziduuri

fxi � bxi; i = 1; :::; ng> anova(model)

Functia anova returneaza tabelul ANOVA si teste pen-tru ipoteza fb = 0g despre care discutam in ultima parte acursului.

22

Page 77: Monica Dumitrescu - Statistica Matematica (Note de Curs)

APLICATIE

longley {datasets} R DocumentationLongley�s Economic Regression Data

DescriptionAmacroeconomic data set which provides a well-known

example for a highly collinear regression.

Usagelongley

FormatA data frame with 7 economical variables, observed

yearly from 1947 to 1962 (n=16).GNP.de�ator: GNP implicit price de�ator (1954=100)GNP: Gross National Product.Unemployed: number of unemployed.Armed.Forces: number of people in the armed forces.Population: �noninstitutionalized�population >= 14

years of age.Year: the year (time).Employed: number of people employed.

The regression lm(Employed ~.) is known to be highlycollinear.Alegem ca variabila raspuns �Employed�, cu covariata

�Population�

> X <- longley[, "Employed"]> Y <- longley[,"Population"]> model1<-lm(X~Y2)> model1Call:lm(formula = X ~Y)Coe¢ cients:(Intercept)...........Y8.3807 .........0.4849

23

Page 78: Monica Dumitrescu - Statistica Matematica (Note de Curs)

> summary(model1)Call:lm(formula = X ~Y2)Residuals:

Min........ .......1Q.......... Median....... 3Q .............Max-1.4362 ...-0.9740 .........0.2021...... 0.5531 ......1.9048

Coe¢ cients:

....................Estimate .....Std. Error...... t value.......Pr(>jtj)(Intercept) ...8.3807 .......4.4224 ..........1.895 ........0.079 .Y................ 0.4849 ........0.0376 ..........12.896 .....3.69e-09

Residual standard error: 1.013 on 14 degrees of freedomMultiple R-Squared: 0.9224, Adjusted R-squared: 0.9168F-statistic: 166.3 on 1 and 14 DF,p-value: 3.693e-09

p-value < 0.05, deci modelul regresiei liniare este corect

> anova(model1)Analysis of Variance Table

Response: X...................Df...... Sum Sq........Mean Sq .......F value........Pr(>F)

Y........ ........1....... 170.643 ......170.643 .......166.30 ......3.693e-09Residuals ...14 ......14.366 .........1.026

24

Page 79: Monica Dumitrescu - Statistica Matematica (Note de Curs)

TESTE PARAMETRICE

Notiuni generale

Modelul: F� = P� �X�1 cu parametrul � 2 � � Rk;k � 1Consideram familia

fF�; � 2 �g

Pentru �0 � �; o ipoteza statistica este o subfamilie

H : fF�; � 2 �0gnotat= f� 2 �0g

Ipoteza alternativa lui H este subfamilia complemen-tara

HA : fF�; � 2 ���0gnotat= f� 2 ���0g

Ipoteza H se numeste simpla daca �0 se reduce la unsingur punct, �0 = f�0g :Ipoteza H se numeste compusa daca card (�0) > 1:

Observatiile: X1; :::; Xn; var. al. indep. id. rep (F�)

Spatiul de selectie n�dimensional�Sn;Sn;

nNi=1

P� �X�1i

De�nitie:

O multime masurabila B 2 Sn se numeste regiune criticapentru ipoteza H : f� 2 �0g daca i se ataseaza urmatoarearegula de decizie:

� (X1; :::; Xn) (!) = (x1; :::; xn) 2 B =) respingem ipoteza H :f� 2 �0g

� (X1; :::; Xn) (!) = (x1; :::; xn) 2 BC =) acceptam ipoteza H :f� 2 �0g

A construi un test pentru ipoteza H : f� 2 �0g cu alter-nativa HA : f� 2 ���0g revine la a de�ni o regiune critica Bpentru H:

1

Page 80: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Fie ipotezele H;HA si un test bazat pe o regiune criticaB:Posibilele erori de decizie sunt:

� eroare de I tip: respingerea lui H cand H este ade-varata

� eroare de II tip: acceptarea lui H cand H este falsa.

Probabilitatile de eroare sunt

� (�) = P� ((X1; :::; Xn) 2 B) pentru � 2 �0� (�) = P�

�(X1; :::; Xn) 2 BC

�pentru � 2 ���0

Functia caracteristica operatoare a testului este

OC (�) = P��(X1; :::; Xn) 2 BC

�; � 2 �

Puterea testului

� (�) = 1�OC (�) ; � 2 �

2

Page 81: Monica Dumitrescu - Statistica Matematica (Note de Curs)

TESTE PENTRU IPOTEZE SIMPLE CUALTERNATIVE SIMPLE

Pentru doua valori �0; �1 2 �;�0 6= �1 restrangem familia derepartitii la fF�; � 2 f�0; �1gg si formulam ipotezele

H : f� = �0g ; HA : f� = �1g

Pentru un test bazat pe regiunea critica B avem

� = P�0 ((X1; :::; Xn) 2 B)� = P�1

�(X1; :::; Xn) 2 BC

�Observatie:Daca B = Sn; avem � = 1 si � = 0Daca B = �; avem � = 0 si � = 1:

Strategia Neyman - Pearson de constructie a lui B :

� probabilitatea erorii de I tip se tine sub control;

� se cauta B� care minimizeaza probabilitatea erorii deII tip.

De�nitii:Fie ipoteza simpla H : f� = �0g cu alternativa simpla HA :

f� = �1g : Fie � 2 (0; 1) �xat (va � numit "prag de semni�-catie").Familia regiunilor critice pentru H pentru care proba-

bilitatea erorii de I tip este egala cu � este

C� = fB 2 Sn j P�0 ((X1; :::; Xn) 2 B) = �g

Multimea B� 2 C� se numeste cea mai buna regiune crit-ica pentru H; la pragul de semni�catie �; daca pentru oriceB 2 C� are loc relatia

P�1

�(X1; :::; Xn) 2 (B�)C

�� P�1

�(X1; :::; Xn) 2 BC

�sau relatia echivalenta

P�1 ((X1; :::; Xn) 2 B�) � P�1 ((X1; :::; Xn) 2 B)

3

Page 82: Monica Dumitrescu - Statistica Matematica (Note de Curs)

In continuare vom construi o asemenea regiune critica.

Fie modelul F� = P� �X�1;

F� =

8><>:Pxp (x; �) � �fxg; in caz discret

sauf (x; �) � l; in caz continuu

Repartitia vectorului observatiilor (X1; :::; Xn) este �e disc-reta, data prin masele de probabilitate

P� (X1 = x1; :::; Xn = xn) =nYi=1

p (xi; �) ;

�e continua, data prin densitatea de repartite

f (x1; :::; xn; �) =nYi=1

f (xi; �) :

De�nitie:Fie modelul F� = P� � X�1;� 2 f�0; �1g ; ipotezele simple H :

f� = �0g, HA : f� = �1g si datele statistice (x1; :::; xn) = (X1; :::; Xn) (!) :Numim raport al probabilitatilor functia

un (x1; :::; xn) =

8>>><>>>:nQi=1

p(xi;�1)p(xi;�0)

; in caz discret

saunQi=1

f(xi;�1)f(xi;�0)

; in caz continuu

Teorema Neyman - Pearson

Fie modelul F� = f (x; �) � l; � 2 � � Rk; k � 1 si �e ipotezasimpla H : f� = �0g cu alternativa simpla HA : f� = �1g ; �0 6= �1:Fie X1; ::::; Xn observatii independente, identic repartizate(F�) si �e un (x1; :::; xn) raportul probabilitatilor corespunza-tor. Fie � 2 (0; 1) arbitrar �xat si �e k1�� cuantila de rang(1� �) a repartitiei lui un (X1; :::; Xn) cand � = �0; adica

P�0 (un (X1; :::; Xn) < k1��) = 1� �:

Atunci multimea masurabilaeB = f(x1; :::; xn) j un (x1; :::; xn) � k1��g4

Page 83: Monica Dumitrescu - Statistica Matematica (Note de Curs)

este cea mai buna regiune critica pentru H la pragul desemni�catie � (adica eB = B�)Demonstratie:Avem eB 2 C� pentru ca

P�0

�(X1; :::; Xn) 2 eB� = P�0 (un (X1; :::; Xn) � k1��) = �

Fie B 2 C�: Evaluam urmatoarea diferenta

P�1

�(X1; :::; Xn) 2 eB�� P�1 ((X1; :::; Xn) 2 B) =

P�1

�(X1; :::; Xn) 2 eB \BC�� P�1 �(X1; :::; Xn) 2 � eB�C \B� =Z

eB\BC

nYi=1

f (xi; �1) dx1:::dxn �Z

( eB)C\BnYi=1

f (xi; �1) dx1:::dxn =

ZeB\BC

un (x1; :::; xn)

nYi=1

f (xi; �0) dx1:::dxn�Z

( eB)C\Bun (x1; :::; xn)

nYi=1

f (xi; �0) dx1:::dxn

Tinand cont de constructia lui eB obtinemP�1

�(X1; :::; Xn) 2 eB�� P�1 ((X1; :::; Xn) 2 B) �Z

eB\BC

k1��

nYi=1

f (xi; �0) dx1:::dxn �Z

( eB)C\Bk1��

nYi=1

f (xi; �0) dx1:::dxn =

k1��

�P�0

�(X1; :::; Xn) 2 eB \BC�� P�0 �(X1; :::; Xn) 2 � eB�C \B�� =

k1��

�P�0

�(X1; :::; Xn) 2 eB�� P�0 ((X1; :::; Xn) 2 B)� = k1�� (�� �) = 0

DeciP�1

�(X1; :::; Xn) 2 eB� � P�1 ((X1; :::; Xn) 2 B)

adica eB = B�:�In concluzie, FORMA celei mai bune regiuni critice

este

B� = f(x1; :::; xn) j un (x1; :::; xn) � kg= f(x1; :::; xn) j lnun (x1; :::; xn) � cg

5

Page 84: Monica Dumitrescu - Statistica Matematica (Note de Curs)

iar constanta k (respectiv c) se determina din conditia capragul de semni�catie sa �e �;

P�0 (un (X1; :::; Xn) < k) = 1� �

O versiune a teoremei Neyman - Pearson se obtineimediat pentru cazul discret,

F� =Xx2A

p (x; �) � �fxg:

TESTUL RAPORTULUI PROBABILITATILOR

PENTRU H : f� = �0g, HA : f� = �1g

(a) Constructia lui B�

� se calculeaza un (x1; :::; xn)

� se determina k = k1�� (respectiv c = c1��) asa incatP�0 (un (X1; :::; Xn) < k1��) = 1� �

(b) Aplicarea testului

� Se observa (x1; :::; xn)

� Se calculeaza valoarea numerica a lui un (x1; :::; xn)

� Regula de decizie:un (x1; :::; xn) � k1�� =) se respinge H : f� = �0gun (x1; :::; xn) < k1�� =) se accepta H : f� = �0g

Valorile probabilitatilor de eroare:Prin constructie,

P�0 ((X1; :::; Xn) 2 B�) = �

In virtutea teoremei Neyman - Pearson,� = �min = P�1 (un (x1; :::; xn) < k1��)

6

Page 85: Monica Dumitrescu - Statistica Matematica (Note de Curs)

APLICATIA 1T.R.P. pentru modelul B (1; �) ; � 2 (0; 1)

F� =1X

x=0

�x (1� �)1�x � �fxg; � 2 (0; 1)

Consideram 0 < �0 < �1 < 1 si ipotezele H : f� = �0g, HA :f� = �1g :

un (x1; :::; xn) =nYi=1

�xi1 (1� �1)1�xi

�xi0 (1� �0)1�xi =

��1�0

�Pni=1 xi

�1� �11� �0

�n�Pni=1 xi

lnun (x1; :::; xn) =nXi=1

xi � ln�1 (1� �0)�0 (1� �1)

+ n ln1� �11� �0

Pentru � 2 (0; 1) arbitar �xat, forma celei mai buneregiuni critice pentru H la pragul de semni�catie � este

B� = flnun (x1; :::; xn) � cg =(

nXi=1

xi � C)

undeC =

1

ln �1(1��0)�0(1��1)

�c� n ln 1� �1

1� �0

�Determinam constanta C asa incat B� 2 C�:Pentru � = �0; repartitia variabilei aleatoare

Pni=1Xi este

binomiala, B (n; �0) :Fie C1�� cuantila de rang (1� �) a acestei repartitii,

nXy=0

y<C1��

Cyn�y0 (1� �0)

n�y � 1� �

nXy=0

y�C1��

Cyn�y0 (1� �0)

n�y � 1� �

RezultaB� =

((x1; :::; xn) j

nXi=1

xi � C1��

)

7

Page 86: Monica Dumitrescu - Statistica Matematica (Note de Curs)

si avem

P�0 ((X1; :::; Xn) 2 B�) = P�0

nXi=1

Xi � C1��

!= 1� P�0

nXi=1

Xi < C1��

!� �

P�0

nXi=1

Xi > C1��

!= 1� P�0

nXi=1

Xi � C1��

!� �

�min = P�1

�(X1; :::; Xn) 2 (B�)C

�=

nXy=0

y<C1��

Cyn�y1 (1� �1)

n�y

APLICATIA 2T.R.P. pentru modelul N (�; 1) ; � 2 R

f (x; �) =1p2�exp

��12(x� �)2

�; x 2 R; � 2 R

Consideram �0 < �1 si ipotezele H : f� = �0g, HA : f� = �1g :

un (x1; :::; xn) =nYi=1

1p2�exp

n� 12 (xi � �1)

2o

1p2�exp

n� 12 (xi � �0)

2o

= exp

((�1 � �0)

nXi=1

xi �n

2

��21 � �20

�)

lnun (x1; :::; xn) = (�1 � �0)nXi=1

xi �n

2

��21 � �20

�Pentru � 2 (0; 1) arbitar �xat, forma celei mai bune

regiuni critice pentru H la pragul de semni�catie � este

B� = flnun (x1; :::; xn) � cg =(

nXi=1

xi � C)

undeC =

1

�1 � �0

�c+

n

2

��21 � �20

��Determinam constanta C asa incat B� 2 C�:

8

Page 87: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Pentru � = �0; repartitia variabilei aleatoarePn

i=1Xi estenormala, N (n�0; n) : Rezulta

1pn

nXi=1

Xi � n�0

!� N (0; 1)

Pentru determinarea constantei C impunem conditia

P�0

1pn

nXi=1

Xi � n�0

!<

1pn(C � n�0)

!= 1� �

Fie z1�� cuantila de rang (1� �) a repartitiei N (0; 1) :Rezulta1pn(C � n�0) = z1��;

C =pnz1�� + n�0

Cea mai buna regiune critica la pragul de semni�catie� este

B� =

(nXi=1

xi �pnz1�� + n�0

)=

�x � �0 +

1pnz1��

si probabilitatile de eroare sunt

P�0 ((X1; :::; Xn) 2 B�) = P�0

nXi=1

Xi �pnz1�� + n�0

!= �

�min = P�1

nXi=1

Xi <pnz1�� + n�0

!=

= P�1

�Pni=1Xi � n�1p

n<

pnz1�� + n�0 � n�1p

n

�=

= P�1

�Pni=1Xi � n�1p

n< z1�� �

pn (�1 � �0)

�= FN(0;1)

�z1�� �

pn (�1 � �0)

9

Page 88: Monica Dumitrescu - Statistica Matematica (Note de Curs)

TESTE PENTRU IPOTEZE SIMPLE CUALTERNATIVE COMPUSE

Fie modelul F� = P� � X�1; � 2 � � Rk; k � 1 si �e �0 =��01; :::; �

0k

�0 2 �.Ne propunem sa testam ipoteza simpla

H : f� = �0g

cu alternativa compusa

HA : f� 2 �� f�0gg = f� 6= �0g :

Fie sirul observatiilor independente, identic reparti-zate (X1; X2:::::) si, pentru primele n observatii, notam cuL (x1; :::; xn; �) functia de verosimilitate.

L (x1; :::; xn; �) =

8>><>>:nQi=1

p (xi; �) ; in caz discretnQi=1

f (xi; �) ; in caz continuu

In conditii de regularitate pentru L ca functie in �; scriemsistemul de verosimilitate maxima

@ lnL

@�i= 0; i = 1; :::; k

Notam cu b�VM (X1; :::; Xn) estimatorul de verosimilitatemaxima, determinat pentru selectii n�dimensionale.

Numim raport al verosimilitatilor functia

� (x1; :::; xn) =L (x1; :::; xn; �0)

L�x1; :::; xn; b�VM (x1; :::; xn)�

TEOREMA (cazul k = 1)

Fie fXn; n � 1gun sir de variabile aleatoare independente,identic repartizate F� = P� �X�1; � 2 � � R si �e �0 2 � valoareaadevarata a parametrului. Presupunem veri�cate urma-toarele conditii:

1. � este un interval deschis al lui R;

10

Page 89: Monica Dumitrescu - Statistica Matematica (Note de Curs)

2. F� admite densitatea de repartitie f (x; �) si fx j f (x; �) > 0geste independenta de �;

3. Exista o vecinatate V a lui �0 asa incat pentru orice� 2 V avem:

� functia f (x; �) este de trei ori derivabila in raport cu �

oricare ar � x si derivatele sunt integrabile;

� exista functiile G1; G2 si H (�; �) integrabile pe R asa incat����@f (x; �)@�

���� < G1 (x)����@2f (x; �)@�2

���� < G2 (x)����@3f (x; �)@�3

���� < H (x; �)ZR

H (x; �) f (x; �) dx < K

unde K este o constanta independenta de �;

� exista "informatia Fisher"

M�

�@f (X; �)

@�

�2notat= i1 (�)

0 < i1 (�) <1

Atunci, cu o probabilitate tinzand la 1; ecuatia de verosimil-itate maxima

@ lnL

@�= 0

are o solutie b�n (x1; :::; xn) asa incat au loc urmatoarele con-vergente pentru n �!1 :

b�n (X1; :::; Xn) P�0�! �0

pn�b�n (X1; :::; Xn)� �0� repartitie�! Y � N

�0;

1

i1 (�0)

��2 ln� (X1; :::; Xn)

repartitie�! Z � �2 (1)

(rezultatul va � reluat la cursul de "Capitole de sta-tistica matematica" de la Master)

11

Page 90: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Pentru demonstratie:Craiu Virgil, Paunescu Virgil, "Elemente de statistica

matematica cu aplicatii", Editura Mondo - Ec, 1998

EXTENSIA TEOREMEI in cazul k > 1 (parametrul �este un vector k�dimensional) ofera pentru comporta-mentul asimptotic al raportului de verosimilitati urma-toarea concluzie:

�2 ln� (X1; :::; Xn)repartitie�! Z � �2 (k)

TESTUL RAPORTULUI DE VEROSIMILITATI

PENTRU H : f� = �0g, HA : f� 6= �9g

Algoritm:

� se observa (x1; :::; xn) ;

� se calculeaza valorile b�VM (x1; :::; xn) si � (x1; :::; xn) ;� pentru � 2 (0; 1) arbitrar �xat, �e hk;1�� cuantila de rang(1� �)a repartitiei �2cu k grade de libertate. Daca

�2 ln� (x1; :::; xn) � hk;1��

decidem sa respingem ipoteza H : f� = �0g :

Observatii:Asimptotic, probabilitatea erorii de I tip (respingerea

ipotezei H cand H este adevarata) este egala cu �:Acesta este un test general, caci repartitia limita a lui

�2 ln� (X1; :::; Xn) este independenta de model.

12

Page 91: Monica Dumitrescu - Statistica Matematica (Note de Curs)

APLICATIE

T.R.V pentru modelul N ��; �2� ; � = ��; �2� 2 R� (0;1)H :

�� =

��0; �

20

�; HA :

�� 6=

��0; �

20

�Functia de verosimilitate este

L�x1; :::; xn;�; �

2�=�2��2

��n=2exp

(� 1

2�2

nXi=1

(xi � �)2)

Reamintim ca E.V.M. pentru parametrii repartitieinormale sunt

b�VM (X1; :::; Xn) = X =1

n

nXi=1

Xi

c�2VM (X1; :::; Xn) = 1

n

nXi=1

�Xi �X

�2Raportul de verosimilitati este

� (x1; :::; xn) =L�x1; :::; xn;�0; �

20

�L�x1; :::; xn; b�VM ;c�2VM� =

=

�2��20

��n=2exp

�� 12�20

nPi=1

(xi � �0)2�

�2�c�2VM��n=2 exp�� 1

2c�2VMnPi=1

(xi � x)2� =

=

�20c�2VM

!�n=2exp

(� 1

2�20

nXi=1

(xi � �0)2 +n

2

)

� 2 ln� (x1; :::; xn)

= n ln

�20c�2VM

!+

nXi=1

�xi � �0�0

�2� n

Repartitia limita a lui �2 ln� (X1; :::; Xn) pentru n!1 esterepartitia �2 (2) :Pentru � 2 (0; 1) arbitrar �xat, �e h2;1�� cuantila de rang

(1� �) a repartitiei �2 cu 2 grade de libertate. Daca�2 ln� (x1; :::; xn) � h2;1��

decidem sa respingem ipoteza H :�� =

��0; �

20

�:

13

Page 92: Monica Dumitrescu - Statistica Matematica (Note de Curs)

INTERVALE DE INCREDERE SI TESTE

PENTRU PARAMETRII REPARTITIEI NORMALEN��; �2

�Auxiliar: Repartitii de lucru deduse din repartitianormala ("CHI patrat", "Student", "Fisher")

(a) Repartitia "CHI patrat" cu r grade de libertate��2 (r)

� a fost introdusa la capitolul "Estimarea parametrilor"De�nitie

Repartitia Gamma�r2 ; 2�; cu r 2 N� se numeste repartitia

CHI Patrat cu r grade de libertate, avand densitatea derepartitie

f (y) =1

2r=2��r2

�y r2�1 exp��y2

�; y � 0

M (Y ) = r

D2 (Y ) = 2r

Proprietate

Fie X1; :::; Xr variabile aleatoare independente, identicrepartizate Normal N (0; 1) : Atunci

Y =rXi=1

X2i

este repartizata �2 (r) :

(b) Repartitia Student cu r grade de libertate (t (r))

De�nitie:Spunem ca o variabila aleatoare Z este repartizata t (r)

daca are densitatea de repartie

f (z) =��r+12

�pr��

�r2

� �1 + z2r

��(r+1)=2; z 2 R

1

Page 93: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Observatii

� Pentru r = 1; repartitia t (1) se numeste "repartitia Cauchy"si pentru aceasta nu exista M (X) :

M (jZj) = 2

1Z0

z

1 + z2dz =

1

�� limb!1

ln�1 + b2

�=1

� Pentru r = 2; repartitia t (2) are M (Z) = 0; iar M �Z2� nu

exista.� Pentru r > 2; repartitia t (r) are

M (Z) = 0

D2 (Z) =r

r � 2

Proprietate

Fie X si Y variabile aleatoare independente, cu X �N (0; 1) si Y � �2 (r) : Atunci variabila aleatoare

Z =Xq1rY

are repartitia t (r) :

Demonstratie:

f(X;Y ) (x; y) = fX (x) � fY (y) =

=1

2(r+1)=2p���r2

�y r2�1 exp��x22� y2

�; x 2 R; y � 0

Consideram schimbarea de variabila(z = xp

1r y

y = y; z 2 R; y � 0

respectiv transformarea inversa(x = z

q1ry

y = y

2

Page 94: Monica Dumitrescu - Statistica Matematica (Note de Curs)

de Jacobian py=pr: Atunci densitatea de repartite a vec-

torului aleator (Z; Y ) este

f(Z;Y ) (z; y) =1

2(r+1)=2p���r2

�y r2�1 exp��z2 � y2r

� y2

��pypr; z 2 R; y � 0

Densitatea marginala a lui Z este

fZ (z) =

1Z0

f(Z;Y ) (z; y) dy =

=1p

r���r2

� � 1

2(r+1)=2

1Z0

yr+12 �1 exp

��y2

�1 +

z2

r

��dy

Cu schimbarea de variabila

t =y

2

�1 +

z2

r

�obtinem

fZ (z) =1p

r���r2

� � ��r + 12

��1 +

z2

r

��(r+1)=2; z 2 R

(c) Repartitia Fisher cu (r1; r2) grade de libertate (F (r1; r2))

De�nitie:Spunem ca o variabila aleatoare Z este repartizata F (r1; r2)

daca are densitatea de repartie

f (z) =

�r1r2

�r1=2 ��r1+r22

���r12

���r22

� � z r12 �1�1 + r1r2z

��(r1+r2)=2; z � 0

Proprietate

Fie X si Y variabile aleatoare independente, cu X � �2 (r1)si Y � �2 (r2) : Atunci variabila aleatoare

Z =X

r1

�Y

r2

are repartita F (r1; r2) :

3

Page 95: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Demonstratie

f(X;Y ) (x; y) = fX (x) � fY (y) =

=1

2(r1+r2)=2 � ��r12

���r22

� � x r12 �1 � y

r22 �1 exp

��x2� y2

�; x; y � 0

Consideram schimbarea de variabila�z = r2

r1� xy

y = y; z � 0; y � 0

respectiv transformarea inversa�x = r1

r2yz

y = y

de Jacobian r1y=r2: Atunci densitatea de repartite a vec-torului aleator (Z; Y ) este

f(Z;Y ) (z; y) =1

2(r1+r2)=2 � ��r12

���r22

� �r1r2

�r1=2zr12 �1y

r1+r22 �1 exp

��y2

�1 +

r1r2z

��;

z � 0; y � 0

Densitatea marginala a lui Z este

fZ (z) =

1Z0

f(Z;Y ) (z; y) dy =

=

�r1r2

�r1=2 1

��r12

���r22

� �z r12 �1� 1

2(r1+r2)=2

1Z0

yr1+r2

2 �1 exp

��y2

�1 +

r1r2z

��dy

Cu schimbarea de variabila

t =y

2

�1 +

r1r2z

�obtinem

fZ (z) =

�r1r2

�r1=2 ��r1+r22

���r12

���r22

� � z r12 �1�1 + r1r2z

��(r1+r2)=2; z � 0

4

Page 96: Monica Dumitrescu - Statistica Matematica (Note de Curs)

INTERVALE DE ESTIMARE (DE INCREDERE)

De�nitie

Fie modelul F� = P��X�1 cu � 2 � � R si �eX1; :::; Xn variabilealeatore independente, identic repartizate (F�) :Fie � 2 (0; 1)si functiile A�; B� : Sn �! R cu proprietatile:i) A�; B� sunt masurabile si

A� (x1; :::; xn) � B� (x1; :::; xn) 8 (x1; :::; xn) 2 Sn;

ii) are loc relatiaP� (A� (X1; :::; Xn) � � � B� (X1; :::; Xn)) = 1� �

Atunci, pentru datele statistice (x1; :::; xn) ; intervalulCn;1�� (x1; :::; xn) = [A� (x1; :::; xn) ; B� (x1; :::; xn)]

se numeste interval de estimare pentru �; cu coe�cientulde incredere (1� �) (sau interval de incredere pentru �).

Propozitie

Fie modelul F� = P� � X�1 cu � 2 � � R si �e X1; :::; Xn vari-abile aleatore independente, identic repartizate (F�) : Pre-supunem ca exista o functie

g : Sn �� �! R

cu urmatoarele proprietati:

� g ((x1; :::; xn) ; �) continua si strict monotona ca functie in�; 8 (x1; :::; xn)

� g (�; �) masurabila ca functie in (x1; :::; xn) ; 8� si variabilaaleatoare g ((X1; :::; Xn) ; �) are repartitia independenta de� (o notam G).

Atunci, pentru orice � 2 (0; 1) arbitrar �xat, existaCn;1�� (x1; :::; xn)interval de incredere pentru �:

Demonstratie:Fie � 2 (0; 1) si � 2 � arbitrari, �xati. Fie a (�) ; b (�) doua

cuantile ale repartitiei G = P� � g�1 asa incatP� (a (�) � g ((X1; :::; Xn) ; �) � b (�)) = G (b)�G (a) = 1� �

5

Page 97: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Rezolvand doua inegalitati in �; putem scrie

f! j a (�) � g ((X1; :::; Xn) (!) ; �) � b (�)g= f! j A� (X1; :::; Xn) (!) � � � B� (X1; :::; Xn) (!)g

Rezulta ca

Cn;1�� (x1; :::; xn) = [A� (x1; :::; xn) ; B� (x1; :::; xn)]

este un interval de estimare pentru � cu coe�cient de in-credere (1� �) :�

Comentariu:Cuantilele a (�) ; b (�) nu sunt unic determinate prin con-

ditia G (b)�G (a) = 1� �, deci nici intervalul de incredere nueste unic. Este de interes sa construim cel mai scurtinterval de estimare cu coe�cient de incredere dat.

TESTE BAZATE PE INTERVALE DE INCREDERE

PENTRU IPOTEZA SIMPLA CU ALTERNATIVACOMPUSA

H : f� = �0g; HA : f� 6= �0g

Ne plasam in conditiile propozitiei anterioare, careasigura existenta unui interval de incredere pentru �:Pornim de la relatia

P�0 (a (�) � g ((X1; :::; Xn) ; �0) � b (�)) = 1� �

Alegem REGIUNEA DE ACCEPTARE a ipotezei H :

f� = �0g la pragul de semni�catie �

An;1�� (�0) = f(x1; :::; xn) j a � g ((x1; :::; xn) ; �0) � bg

si REGIUNEA CRITICA pentru H : f� = �0g la pragul desemni�catie �

B = ACn;1�� (�0)

Probabilitatea erorii de I tip este egala cu �;

P�0 ((X1; :::; Xn) 2 B) = 1� (1� �) = �

6

Page 98: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Functia caracteristica operatoare a testului bazat peaceasta regiune critica este

OC (�) = P� ((X1; :::; Xn) 2 An;1�� (�0))

APLICATIA 1

Interval de incredere si testul "z" pentru media uneirepartii normale cu dispersie cunoascuta

Modelul: P� �X�1 = N��; �2

�; �2 cunoscut, � 2 R

Observatii: X1; :::; Xn v.i.i.r. N��; �2

�X � N

��;�2

n

�pn�X � �

��

� N (0; 1)

Functiag ((x1; :::; xn) ;�) =

pn (x� �)�

indeplineste conditiile din constructiile anterioare.

Pentru � 2 (0; 1) �xat, �e a; b doua cuantile ale repartitieiN (0; 1) asa incat

P�

a �

pn�X � �

��

� b!= 1� �

�a �

pn (x� �)�

� b�=

�x� b �p

n� � � x� a �p

n

�Cn;1�� (x1; :::; xn) =

�x� b �p

n; x� a �p

n

�Lungimea acestui interval de incredere este

l =�pn(b� a)

Determinam acum cel mai scurt interval de increderepentru �;cu coe�cientul de incredere (1� �) :

7

Page 99: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Utilizand faptul ca b = b (a) ; conditiile(FN(0;1) (b)� FN(0;1) (a) = 1� �

minn

�pn(b� a)

oconduc la �

fN(0;1) (b) � dbda � fN(0;1) (a) = 0dbda � 1 = 0

;

de unde obtinem

fN(0;1) (b) = fN(0;1) (a)

Rezultab = z1��

2; a = �z1��

2

si deci cel mai scurt interval de incredere este

C�n;1�� (x1; :::; xn) =

�x� z1��

2

�pn; x+ z1��

2

�pn

Consideram acum ipoteza H : f� = �0g cu alternativa HA :f� 6= �0g

P�0

�z1��

2�pn�X � �0

��

� z1��2

!= 1� �

An;1�� (�0) =

�(x1; :::; xn) j �z1��

2�pn (x� �0)�

� z1��2

�=

��0 � z1��

2

�pn� x � �0 + z1��

2

�pn

�Testul "z" se bazeaza pe regiunea critica

B = ACn;1�� (�0)

P�0 ((X1; :::; Xn) 2 B) = �

OC (�) = P�

�z1��

2�pn�X � �0

��

� z1��2

!=

= P�

�z1��

2�pn�X � �

��

+

pn (�� �0)�

� z1��2

!=

= FN(0;1)

�z1��

2�pn (�� �0)�

�� FN(0;1)

��z1��

2�pn (�� �0)�

8

Page 100: Monica Dumitrescu - Statistica Matematica (Note de Curs)

APLICATIA 2

Interval de incredere si testul "t" pentru media uneirepartii normale cu dispersie necunoascuta

Modelul: P� �X�1 = N��; �2

�; �2 necunoscut, � 2 R

Observatii: X1; :::; Xn v.i.i.r. N��; �2

�La "estimarea parametrilor" s-a demonstrat:

Proprietate

Fie X1; :::; Xn variabile aleatoare independente, identicrepartizate N ��; �2� si �e E.V.M.

b�VM = X

c�2VM =1

n

nXi=1

�Xi �X

�2Atunci b�VM = X � N

��;�2

n

�;

n

�2�c�2VM � �2 (n� 1)

si cele doua componente ale E.V.M. sunt independente.

Constructie:S2 =

n

n� 1c�2VM

pn�X � �

��

� N (0; 1)n� 1�2

� S2 � �2 (n� 1)

independenta

Z =

pn�X � �

��

,r1

n� 1n� 1�2

� S2 =pn�X � �

�S

� t (n� 1)

Functiag ((x1; :::; xn) ;�) =

pn (x� �)s

indeplineste conditiile din constructiile anterioare.

9

Page 101: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Pentru � 2 (0; 1) �xat, �e a; b doua cuantile ale repartitieit (n� 1) asa incat

P�

a �

pn�X � �

�S

� b!= 1� �

�a �

pn (x� �)s

� b�=

�x� b sp

n� � � x� a sp

n

�Cn;1�� (x1; :::; xn) =

�x� b sp

n; x� a sp

n

�Lungimea acestui interval de incredere este

l =spn(b� a)

Determinam acum cel mai scurt interval de increderepentru �;cu coe�cientul de incredere (1� �) :Utilizand faptul ca b = b (a) ; conditiile(

Ft(n�1) (b)� Ft(n�1) (a) = 1� �min

nspn(b� a)

oconduc la �

ft(n�1) (b) � dbda � ft(n�1) (a) = 0dbda � 1 = 0

;

de unde obtinem

ft(n�1) (b) = ft(n�1) (a)

Rezultab = tn�1;1��

2; a = �tn�1;1��

2

si deci cel mai scurt interval de incredere este

C�n;1�� (x1; :::; xn) =

�x� tn�1;1��

2

spn; x+ tn�1;1��

2

spn

Consideram acum ipoteza H : f� = �0g cu alternativa HA :f� 6= �0g

P�0

�tn�1;1��

2�pn�X � �0

�S

� tn�1;1��2

!= 1� �

10

Page 102: Monica Dumitrescu - Statistica Matematica (Note de Curs)

An;1�� (�0) =

�(x1; :::; xn) j �tn�1;1��

2�pn (x� �0)

s� tn�1;1��

2

�=

��0 � tn�1;1��

2

spn� x � �0 + tn�1;1��

2

spn

�Testul "t" se bazeaza pe regiunea critica

B = ACn;1�� (�0)

P�0 ((X1; :::; Xn) 2 B) = �

OC (�) = P�

�tn�1;1��

2�pn�X � �0

�S

� tn�1;1��2

!=

= P�

�tn�1;1��

2�pn�X � �

�S

+

pn (�� �0)S

� tn�1;1��2

!=

= Ft(n�1)

�tn�1;1��

2�pn (�� �0)

s

�� Ft(n�1)

��tn�1;1��

2�pn (�� �0)

s

Functia din R: t.test(x,...)

t.test(x, alternative = c("two.sided", "less", "greater"),mu = 0, conf.level = 0.95, ...)Argumentsx a numeric vector of data values.alternative a character string specifying the alter-

native hypothesis, must be one of "two.sided" (default),"greater" or "less".mu a number indicating the true value of the

meanconf.level con�dence level of the interval.

11

Page 103: Monica Dumitrescu - Statistica Matematica (Note de Curs)

APLICATIA 3

Interval de incredere si testul "CHI patrat" pentrudispersia unei repartii normale cu medie cunoascuta

Modelul: P� �X�1 = N��; �2

�; � cunoscut, �2 2 (0;1)

Observatii: X1; :::; Xn v.i.i.r. N��; �2

�:Variabilele aleatoare

Xi � ��

; i = 1; :::; n

sunt i.i.r. N (0; 1) : Rezulta ca

1

�2

nXi=1

(Xi � �)2 � �2 (n) :

Functiag�(x1; :::; xn) ;�

2�=1

�2

nXi=1

(xi � �)2

indeplineste conditiile din constructiile anterioare.

Pentru � 2 (0; 1)�xat, �e 0 < a < b doua cuantile ale repar-titiei �2 (n) asa incat

P�2

a � 1

�2

nXi=1

(Xi � �)2 � b!= 1� �

(a � 1

�2

nXi=1

(xi � �)2 � b)=

(1

b

nXi=1

(xi � �)2 � �2 �1

a

nXi=1

(xi � �)2)

Cn;1�� (x1; :::; xn) =

"1

b

nXi=1

(xi � �)2 ;1

a

nXi=1

(xi � �)2#

Lungimea acestui interval de incredere este

l =nXi=1

(xi � �)2�1

b� 1

a

�Cautam cel mai scurt interval de incredere pentru �2;cu

coe�cientul de incredere (1� �) :Utilizand faptul ca b = b (a) ; conditiile8<:

F�2(n) (b)� F�2(n) (a) = 1� �

min

�nPi=1

(xi � �)2�1b �

1a

��

12

Page 104: Monica Dumitrescu - Statistica Matematica (Note de Curs)

conduc la �f�2(n) (b) � dbda � f�2(n) (a) = 0

� 1b2 �

dbda +

1a2 = 0

;

de unde rezultab2 � f�2(n) (b) = a2 � f�2(n) (a)

Aceasta ecuatie nu are o solutie analitica explicita, decinu putem obtine forma explicita a celui mai scurt intervalde incredere pentru �2; cu coe�cientul de incredere (1� �) :Prin CONVENTIE, lucram cu

Cn;1�� (x1; :::; xn) =

"1

hn;1��2

nXi=1

(xi � �)2 ;1

hn;�2

nXi=1

(xi � �)2#;

unde hn;�2 si hn;1��2sunt cuantile ale repartitiei �2 (n) :

Consideram acum ipoteza H : f�2 = �20g cu alternativaHA : f�2 6= �20g

P�20

hn;�2 �

1

�20

nXi=1

(Xi � �)2 � hn;1��2

!= 1� �

An;1����20�=

((x1; :::; xn) j hn;�2 �

1

�20

nXi=1

(xi � �)2 � hn;1��2

)

=

(�20 � hn;�2 �

nXi=1

(xi � �)2 � �20 � hn;1��2

)

Testul "CHI patrat" se bazeaza pe regiunea criticaB = ACn;1��

��20�

P�20 ((X1; :::; Xn) 2 B) = �

OC��2�= P�2

hn;�2 �

1

�20

nXi=1

(Xi � �)2 � hn;1��2

!=

= P�2

hn;�2 �

�20�2� 1

�2

nXi=1

(Xi � �)2 � hn;1��2� �

20

�2

!=

= F�2(n)

�hn;1��

2� �

20

�2

�� F�2(n)

�hn;�2 �

�20�2

13

Page 105: Monica Dumitrescu - Statistica Matematica (Note de Curs)

APLICATIA 4

Interval de incredere si testul "CHI patrat" pentrudispersia unei repartii normale cu medie necunoscuta

Modelul: P� �X�1 = N��; �2

�; � 2 R necunoscut, �2 2 (0;1)

Observatii: X1; :::; Xn v.i.i.r. N��; �2

�: Am demonstrat ca

1

�2

nXi=1

�Xi �X

�2 � �2 (n� 1) :Functia

g�(x1; :::; xn) ;�

2�=1

�2

nXi=1

(xi � x)2 =(n� 1) � s2

�2

indeplineste conditiile din constructiile anterioare.

Pentru � 2 (0; 1)�xat, �e hn�1;�2 si hn�1;1��2cuantile ale repar-

titiei �2 (n� 1) : Ca si in Aplicatia 3, obtinem

Cn;1�� (x1; :::; xn) =

�(n� 1) � s2hn�1;1��

2

;(n� 1) � s2hn�1;�2

Consideram acum ipoteza H : f�2 = �20g cu alternativaHA : f�2 6= �20g

P�20

hn�1;�2 �

1

�20

nXi=1

�Xi �X

�2 � hn�1;1��2

!= 1� �

An;1����20�=

�(x1; :::; xn) j hn�1;�2 �

(n� 1) � s2�20

� hn�1;1��2

�=

��20 �

hn�1;�2n� 1 � s2 � �20 �

hn�1;1��2

n� 1

�Testul "CHI patrat" se bazeaza pe regiunea critica

B = ACn;1����20�

P�20 ((X1; :::; Xn) 2 B) = �

14

Page 106: Monica Dumitrescu - Statistica Matematica (Note de Curs)

OC��2�= P�2

hn�1;�2 �

1

�20

nXi=1

�Xi �X

�2 � hn�1;1��2

!=

= P�2

hn�1;�2 �

�20�2� 1

�2

nXi=1

�Xi �X

�2 � hn�1;1��2� �

20

�2

!=

= F�2(n�1)

�hn�1;1��

2� �

20

�2

�� F�2(n�1)

�hn�1;�2 �

�20�2

15

Page 107: Monica Dumitrescu - Statistica Matematica (Note de Curs)

APLICATIA 5

TESTUL FISHER PENTRU DREAPTA DEREGRESIE

La capitolul "Regresie" am stabilit urmatoarele rezul-tate:

� Variabila aleatoare

SSresid =nXi=1

�Xi � ba�bbyi�2

are proprietatea1

�2x (1� �2)� SSresid � �2 (n� 2)

� Daca b = 0; atunci1

�2x (1� �2)� SSregresie � �2 (1)

1

�2x (1� �2)� SStotal � �2 (n� 1)

iar variabilele 1�2x(1��2)

� SSregresie si 1�2x(1��2)

� SSresid sunt in-dependente.

Formulam ipoteza H : fb = 0g cu alternativa HA : fb 6= 0g:Daca H este adevarata, atunci variabila aleatoare

Z =1

�2x (1� �2)� SSregresie

�1

n� 2 �1

�2x (1� �2)� SSresid

notat=

SSregresie

SSresid

are o repartitie Fisher cu (1; n� 2) grade de libertate.Pentru � 2 (0; 1) arbitrar �xat, �e f(1;n�2);1�� cuantila de

rang (1� �) a repartitiei Fisher cu (1; n� 2) grade de liber-tate.

TESTUL FISHER: Regiunea critica pentru H : fb = 0geste

B =

�SSregresie

SSresid� f(1;n�2);1��

16

Page 108: Monica Dumitrescu - Statistica Matematica (Note de Curs)

P(b=0)

�SSregresie

SSresid� f(1;n�2);1��

�= �

Acest test este implementat in functia "anova" din R:

Testul Fisher prezentat aici este echivalent cu un test"t"; bazat pe urmatoarele fapte:

bbs�2x(1��2)nPi=1

(yi�y)2

� N (0; 1)

SSregresie =�bb�2 nX

i=1

(yi � y)2

1

�2x (1� �2)� SSresid � �2 (n� 2)

SSregresie si SSresid sunt variabile aleatoare independente,ceea ce implica bb si SSresid sunt variabile aleatoare indepen-dente. Atunci

bbs�2x(1��2)nPi=1

(yi�y)2

,s1

n� 2 �1

�2x (1� �2)� SSresid � t (n� 2)

TESTUL "t": Regiunea critica pentru H : fb = 0g lapragul de semni�catie � este

B =

8>>>><>>>>:bb �s(n� 2) nP

i=1

(yi � y)2

pSSresid

� tn�2;1��

9>>>>=>>>>; ;

unde tn�2;1�� este cuantila de rang (1� �) a repartitiei t (n� 2) :

Si acest test este implementat in functia "anova" din R:

17

Page 109: Monica Dumitrescu - Statistica Matematica (Note de Curs)

APLICATIA 6

COMPARAREA TRATAMENTELOR

(COMPARAREA PARAMETRILOR A DOUAREPARTITII NORMALE)

PROBLEMA DE BIOSTATISTICA:

� Caracteristica de interes care este investigata poate� modelata printr-o variabila aleatoare cu reparti-tie normala N ��; �2�(ex: nivelul colesterolului, nivelultensiunii arteriale sistolice, nivelul hemoglobinei, etc.)

� Exista doua tratamente posibile T1si T2. EventualT1 ="tratament" si T2 ="placebo".

� Se considera doua loturi independente, formate dinpacienti suferind de aceeasi boala, selectati in modindependent dintr-o populatie bine de�nita (ex: bar-bati, din mediul urban, in varsta 40 - 50 ani, suprapon-derali).

� Pacientilor din primul lot li se administreaza T1sicelor din al doilea lot li se administreaza T2:Experimentuleste "blind", adica pacientii nu stiu ca primesc trata-mente diferite.

� Se doreste identi�carea situatiei in care se obtin raspun-suri diferite la cele doua tratamente.

Model: T1 = X1 � N��1; �

21

�; T2 = X2 � N

��2; �

22

�; X1; X2 vari-

abile aleatoare independenteObservatii:X11; X12; :::; X1n v:a:i:i:r:N

��1; �

21

�X21; X22; :::; X2m v:a:i:i:r:N

��2; �

22

�fX11; X12; :::; X1ng ; fX21; X22; :::; X2mg familii independente

Ipoteze ce urmeaza a � testate:

H1 :��21 = �

22

; H1A :

��21 6= �22

H2 : f�1 = �2g ; H2A : f�1 6= �2g

18

Page 110: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Reamintim proprietatile E.V.M. pentru parametrii repar-titiei normale:

X1 =1

n

nXj=1

X1j � N

��1;

�21n

S21 =1

n� 1

nXj=1

�X1j �X1

�2;n� 1�21

� S21 � �2 (n� 1)

X1;n� 1�21

� S21 independente

X2 =1

m

mXj=1

X2j � N

��2;

�22m

S22 =1

m� 1

mXj=1

�X2j �X2

�2;m� 1�22

� S22 � �2 (m� 1)

X2;m� 1�22

� S22 independente

(a) Testul Fisher de comparare a dispersiilor,H1 :

��21 = �

22

; H1A :

��21 6= �22

Folosind asociativitatea independentei, avem

1

n� 1 �n� 1�21

� S21�

1

m� 1 �m� 1�22

� S22 =�22�21� S

21

S22� F (n� 1;m� 1)

Reparametrizam si rescriem ipotezele H1;H1A :

=�22�21

H1 : f = 1g ; H1A : f 6= 1g

Daca ipotezaH1 este adevarata, atunci S21=S22 � F (n� 1;m� 1) :Pentru � 2 (0; 1) arbitrar �xat, �e f1;� si f2;� cuantile ale

repartitiei F (n� 1;m� 1), cu proprietatea

FF(n�1;m�1) (f2;�)� FF(n�1;m�1) (f1;�) = 1� �

19

Page 111: Monica Dumitrescu - Statistica Matematica (Note de Curs)

Facem observatia ca aceasta relatie determina uniccuantilele pentru ca

Z � F (n� 1;m� 1) =) 1

Z� F (m� 1; n� 1)

deci avem si

FF(m�1;n�1)

�1

f1;�

�� FF(m�1;n�1)

�1

f2;�

�= 1� �:

Regiunea de acceptare a ipotezei H1 : f = 1g este

An;m;1�� ( = 1) =

�(x11; :::; x1n; x21; :::; x2m) j f1;� �

s21s22� f2;�

�iar regiunea critica este B = ACn;m;1�� ( = 1) : Probabilitateaerorii de I tip este

P( =1) ((X11; :::; X1n; X21; :::; X2m) 2 B) = �

si functia caracteristica operatoare a testului este

OC ( ) = P

�f1;� �

S21S22

� f2;��= P

� � f1;� � �

S21S22

� � f2;��=

= FF(n�1;m�1) ( � f2;�)� FF(n�1;m�1) ( � f1;�)

Functia din R: var.test(x,y,...)

var.test(x, y, ratio = 1, alternative = c("two.sided","less", "greater"), conf.level = 0.95, ...)Argumentsx, y numeric vectors of data values, or �tted linear

model objects (inheriting from class "lm").ratio the hypothesized ratio of the population vari-

ances of x and y.alternative a character string specifying the alter-

native hypothesis, must be one of "two.sided" (default),"greater" or "less".conf.level con�dence level for the returned con�-

dence interval.

20

Page 112: Monica Dumitrescu - Statistica Matematica (Note de Curs)

(b) Testul "t" de comparare a mediilor,H2 : f�1 = �2g ; H2A : f�1 6= �2g

Presupunem ca s-a acceptat ipoteza de egalitate a dis-persiilor, H1 :

��21 = �

22

: Rezulta:

X1 � N

��1;

�2

n

�X2 � N

��2;

�2

m

�Folosind independenta, avem

X1 �X2 � N

��1 � �2; �2

�1

n+1

m

��Pe de alta parte,

1

�2�(n� 1)S21 + (m� 1)S22

�� �2 (n+m� 2)

Folosind asociativitatea independentei,�X1 �X2

�� (�1 � �2)q

�2�1n +

1m

�,r

1

n+m� 2 �1

�2((n� 1)S21 + (m� 1)S22) � t (n+m� 2)

Reparametrizam si rescriem ipotezele H2;H2A :

� = �1 � �2

H2 : f� = 0g ; H2A : f� 6= 0g

Daca ipoteza H2 este adevarata, atunci

Z =X1 �X2q

1n+m�2

�1n +

1m

�((n� 1)S21 + (m� 1)S22)

� t (n+m� 2)

Pentru � 2 (0; 1) arbitrar �xat, �e tn+m�2;1��=2 cuantila derang �1� �

2

� a repartitiei t (n+m� 2) :Regiunea de acceptare a ipotezei H2 este

An;m;1�� (� = 0) =�(x11; :::; x1n; x21; :::; x2n) j �tn+m�2;1��=2 � z � tn+m�2;1��=2

Regiunea critica pentru H2; la pragul de semni�catie �

esteB = ACn;m;1�� (� = 0)

21

Page 113: Monica Dumitrescu - Statistica Matematica (Note de Curs)

cu probabilitatea de eroare de tip I

P(�=0) ((X11; :::; X1n; X21; :::; X2m) 2 B) = �

si functia caracteristica operatoare

OC (�) = P���tn+m�2;1��=2 � Z � tn+m�2;1��=2

�=

Ft(n+m�2)

tn+m�2;1��=2 � �

,s1

n+m� 2

�1

n+1

m

�((n� 1) s21 + (m� 1) s22)

!�

� Ft(n+m�2)

�tn+m�2;1��=2 � �

,s1

n+m� 2

�1

n+1

m

�((n� 1) s21 + (m� 1) s22)

!

Functia din R: t.test(x,y,....)

t.test(x, y =NULL, alternative = c("two.sided", "less","greater"), mu = 0, paired = FALSE, var.equal = FALSE,conf.level = 0.95, ...)Argumentsx a numeric vector of data values.y an optional numeric vector data values.alternative a character string specifying the alter-

native hypothesis, must be one of "two.sided" (default),"greater" or "less".mu a number indicating the di¤erence in means

(if you are performing a two sample test).paired a logical indicating whether you want a

paired t-test.var.equal a logical variable indicating whether to

treat the two variances as being equal. If TRUE then thepooled variance is used to estimate the variance. Other-wise the Welch approximation to the degrees of freedomis used.conf.level con�dence level of the interval.

22