159

biostatistica forestiera

Embed Size (px)

DESCRIPTION

Biostatistica

Citation preview

Page 1: biostatistica forestiera
Page 2: biostatistica forestiera

Referenţi ştiinţifici Conf.univ.dr.ing. Radu CENUŞĂ

Prof.univ.dr.ing. Norocel Valeriu NICOLESCU

Descrierea CIP a Bibliotecii Naţionale a României HORODNIC, SERGIU ANDREI Elemente de biostatistică forestieră / Sergiu Horodnic. - Suceava: Editura Universităţii din Suceava, 2004 Bibliogr. ISBN 973-666-135-0 630

Tehnoredactare computerizată: Sergiu HORODNIC Tiparul executat la Tipografia S.C. ROF S.A. Suceava

str. Mărăşeşti 7A, tel.: 0230-523476; 0230-520237 GSM: 0745/585954

Page 3: biostatistica forestiera

SERGIU HORODNIC

ELEMENTE DE BIOSTATISTICĂ

FORESTIERĂ

Page 4: biostatistica forestiera

Prin particularităţile obiectului de studiu, biostatistica utilizează o gamă de noţiuni specifice propriilor metode de culegere, prelucrare, analiză şi interpretare a datelor experimentale.

Cunoaşterea semnificaţiei şi importanţei acestora asigură fondul necesar pentru înţelegerea în profunzime a modului de aplicare a algoritmilor de calcul statistic.

Lucrarea nu tratează exhaustiv problematica abordată, ci urmăreşte în primul rând cuprinderea acelor aspecte care-şi găsesc o largă utilizare în activitatea practică din domeniul forestier.

Prin conţinutul sintetic şi modern, lucrarea se adresează celor care doresc să cunoască şi să aplice corect metodele de cercetare statistică şi mai ales studenţilor facultăţilor cu profil forestier şi personalului de specialitate care îşi desfăşoară activitatea în silvicultură.

Autorul

3

Page 5: biostatistica forestiera

CUPRINS 1. NOŢIUNI INTRODUCTIVE ........................................................................7

1.1 SCURT ISTORIC ............................................................................................8 1.2 LOCALIZAREA STATISTICII ..........................................................................8 1.3 TERMINOLOGIE ........................................................................................10

2. ÎNREGISTRAREA ŞI PRELUCRAREA PRIMARĂ A OBSERVAŢIILOR ........................................................................................12 2.1 SUCCESIUNEA OPERAŢIILOR DE FORMARE A UNEI SERII DE

DISTRIBUŢIE ............................................................................................12 2.2 REPREZENTAREA GRAFICĂ A SERIILOR DE DISTRIBUŢIE EMPIRICE ..........15

3. ANALIZA DISTRIBUŢIILOR EXPERIMENTALE...................................18 3.1 MOMENTELE ............................................................................................18 3.2 INDICATORII TENDINŢEI CENTRALE ........................................................20

3.2.1 Mediile ................................................................................................20 3.2.2 Mediana ..............................................................................................23 3.2.3 Cuartilele.............................................................................................25 3.2.4 Modul .................................................................................................26 3.2.5 Relaţii între indicii de poziţie ...............................................................27

3.3 INDICATORII VARIABILITĂŢII (DISPERSIEI) ...............................................28 3.3.1 Varianţa ..............................................................................................28 3.3.2 Abaterea standard ...............................................................................29 3.3.3 Coeficientul de variaţie ........................................................................29

3.4 INDICATORII FORMEI DISTRIBUŢIILOR EXPERIMENTALE .........................30 3.4.1 Indicele asimetriei................................................................................30 3.4.2 Indicele excesului ................................................................................32

3.5 CRITERII DE ELIMINARE A OBSERVAŢIILOR EXTREME..............................33 4. DISTRIBUŢII TEORETICE FRECVENT FOLOSITE ÎN ANALIZA

STATISTICĂ A FENOMENELOR DIN SILVICULTURĂ.........................36 4.1 DISTRIBUŢIA TEORETICĂ NORMALĂ (GAUSS-LAPLACE) ...........................38 4.2 DISTRIBUŢIA TEORETICĂ CHARLIER (TIP A) .............................................43 4.3 DISTRIBUŢIA BINOMIALĂ..........................................................................44 4.4 DISTRIBUŢIA POISSON ..............................................................................45 4.5 DISTRIBUŢIA BETA ...................................................................................46 4.6 ALTE FUNCŢII DIN SISTEMUL DISTRIBUŢIILOR LUI PEARSON ...................48 4.7 DISTRIBUŢIA GAMMA ...............................................................................49 4.8 DISTRIBUŢIA WEIBULL .............................................................................52 4.9 ALTE DISTRIBUŢII DESCRESCĂTOARE .......................................................54

5. TEHNICA SONDAJULUI ...........................................................................55

4

Page 6: biostatistica forestiera

5.1 METODA SELECTIVĂ.................................................................................55 5.2 METODA SECVENŢIALĂ ............................................................................66

6. VERIFICAREA IPOTEZELOR STATISTICE ...........................................70 6.1 TESTE STATISTICE.....................................................................................70 6.2 REPARTIŢII UTILIZATE PENTRU TESTĂRI ..................................................72

6.2.1 Repartiţia normală ...............................................................................72 6.2.2 Repartiţia t (Student) ...........................................................................72 6.2.3 Repartiţia F (Fisher) ............................................................................72 6.2.4 Repartiţia χ2 ........................................................................................73

6.3 VERIFICAREA CONCORDANŢEI DINTRE DISTRIBUŢIA EXPERIMENTALĂ ŞI CEA TEORETICĂ ...................................................................................73

6.4 EXAMINAREA SEMNIFICAŢIEI DIFERENŢEI DINTRE DISPERSII .................75 6.4.1 Compararea unei dispersii experimentale (s2) cu o dispersie teoretică

cunoscută (σ2)....................................................................................75 6.4.2 Verificarea semnificaţiei diferenţei dintre două dispersii

experimentale ....................................................................................75 6.4.3 Verificarea omogenităţii mai multor dispersii.......................................76

6.5 TESTE DE CONFORMITATE. COMPARAREA MEDIILOR ..............................77 6.5.1 Intervalul de încredere al mediei aritmetice ..........................................77 6.5.2 Compararea a două medii aritmetice....................................................78

6.6 COMPARAREA EFECTULUI A DOUĂ TRATAMENTE PRIN METODA CUPLURILOR ............................................................................................80

6.7 EXAMINAREA SEMNIFICAŢIEI DIFERENŢEI DINTRE DOUĂ PROPORŢII .....81 7. COMPARAREA MAI MULTOR PROBE PRIN ANALIZA

VARIANŢEI..................................................................................................83 7.1 ECUAŢIA ANALIZEI VARIANŢEI ................................................................83 7.2 ANALIZA SIMPLĂ A VARIANŢEI .................................................................85

8. ANALIZA CORELAŢIEI ............................................................................88 8.1 TIPURI DE LEGĂTURI ÎNTRE VARIABILE....................................................88 8.2 COEFICIENTUL DE CORELAŢIE .................................................................92

8.2.1 Proprietăţile coeficientului de corelaţie ................................................92 8.2.2 Determinarea coeficientului de corelaţie pentru corelaţia simplă ..........93 8.2.3 Determinarea semnificaţiei coeficientului de corelaţie..........................95 8.2.4 Coeficientul de corelaţie a rangurilor ...................................................97

9. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP)..............................101 9.1 CONSIDERAŢII ISTORICE.........................................................................101 9.2 PRINCIPII DE BAZĂ .................................................................................101 9.3 INTERPRETAREA ALGEBRICĂ A ACP.......................................................103 9.4 ESTIMAREA NUMĂRULUI DE COMPONENTE PRINCIPALE........................116

5

Page 7: biostatistica forestiera

9.5 INTERPRETAREA GEOMETRICĂ A ACP ...................................................117 9.6 DEZAVANTAJE ALE ACP ........................................................................121 9.7 CONCLUZII SINTETICE ASUPRA ACP.......................................................122

10. ANALIZA REGRESIEI............................................................................123 10.1 SUCCESIUNEA ETAPELOR PENTRU ANALIZA REGRESIEI .......................124 10.2 METODE ANALITICE DE DETERMINARE A PARAMETRILOR

ECUAŢIILOR DE REGRESIE .....................................................................125 10.3 INTERVALUL DE ÎNCREDERE PENTRU ECUAŢIA DE REGRESIE..............128 10.4 REGRESIA MULTIPLĂ LINIARĂ...............................................................129 10.5 TIPURI DE ECUAŢII DE REGRESIE ŞI LIMITĂRILE ACESTORA .................131 10.6 RAPORTUL DE CORELAŢIE ....................................................................136

10.6.1 Determinarea raportului de corelaţie................................................137 10.6.2 Semnificaţia raportului de corelaţie ..................................................138

11. ANALIZA SERIILOR DE TIMP .............................................................140 11.1 AJUSTAREA UNEI SERII CRONOLOGICE .................................................140

11.1.1 Ajustarea grafică prin procedeul punctelor mediane.........................141 11.1.2 Procedeul mediilor centrate .............................................................142 11.1.3 Procedeul mediilor mobile...............................................................142 11.1.4 Analiza componentelor seriilor cronologice .....................................143

11.2 DETERMINAREA FAZEI DE CORELAŢIE.................................................144 11.2.1 Cazul în care cele două caracteristici sunt exprimate în sisteme

diferite de unităţi de măsură .............................................................144 11.2.2 Cazul în care cele două caracteristici sunt exprimate în aceleaşi

unităţi de măsură..............................................................................145 11.3 AUTOCORELAŢIA ..................................................................................146 11.4 ANALIZA ARMONICĂ A SERIILOR CRONOLOGICE..................................147 11.5 FUNCŢII DE CREŞTERE ŞI DEZVOLTARE................................................149

ANEXE....................................................................................................... 14053

6

Page 8: biostatistica forestiera

1. NOŢIUNI INTRODUCTIVE

Fenomenele simple sunt acele fenomene univoc determinate, adică au la bază o singură cauză. Fenomenele de masă sunt rezultatul influenţei comune a unui număr mare de cauze; în cazul acestora, fiecare individ din cadrul unei populaţii se manifestă diferit în funcţie de modul în care se asociază factorii sistematici cu cei aleatori (întâmplători), cei obiectivi cu cei subiectivi. Se manifestă, deci, la nivelul unităţilor individuale, o mare variabilitate în timp şi în spaţiu.

Fenomenelor de masă le sunt specifice legi, sub formă de tendinţă, în care abaterile întâmplătoare, într-un sens sau în altul, se compensează reciproc pentru un număr mare de cazuri individuale luate în studiu. Aceste legi sunt legi statistice.

Conceptul de statistică

Statistica este ştiinţa care se ocupă cu descrierea şi analiza numerică a fenomenelor de masă, dezvăluind particularităţile lor de volum, structură, dinamică, conexiune, precum şi legile ce le guvernează.

Statistica studiază aspectele calitative ale fenomenelor de masă, fenomene ce sunt supuse legilor statistice, care se manifestă în condiţii concrete variabile în timp şi spaţiu.

Legile statistice exprimă media stărilor unui ansamblu de evenimente, cu luarea în considerare a influenţei factorilor întâmplători. Aceasta reprezintă, deci, o tendinţă predominantă ce poate fi pusă în evidenţă numai dacă se observă un număr suficient de mare de elemente ale ansamblului studiat.

7

Page 9: biostatistica forestiera

1.1 Scurt istoric

Termenul statistică derivă din latină (status = stare) şi a fost folosit pentru prima oară de profesorul german Gottfried Achenwall; explicaţia acestei etimologii este faptul că în secolele XVII şi XVIII s-a creat, în Germania mai ales, un curent de gândire care îşi propunea să descrie situaţia demografică, industrială, comercială şi financiară a diferitelor state din acea vreme. În evoluţia statisticii de-a lungul vremii s-au produs numeroase modificări ale obiectului acesteia şi ale metodelor folosite în funcţie de necesităţile practice ale momentului şi de baza teoretică de care se dispunea. Dacă până şi scrierile istorice ale Egiptului antic, ale Greciei antice sau ale Romei antice conţin rudimente de lucrări statistice cu caracter descriptiv (mai ales recensăminte), totuşi, prima analiză statistică a unor date culese în prealabil este datorată lui John Graunt (1620-1674) în Anglia, secondat de William Petty. Acesta din urmă este considerat creatorul “aritmeticii politice” care reprezintă studiul fenomenelor social-economice prin intermediul “cifrelor, al măsurilor şi al greutăţilor”. În spiritul şcolii statisticii descriptive se înscrie, în ţările române, lucrarea lui Dimitrie Cantemir, “Descriptio Moldaviae”. Începutul statisticii moderne se consideră debutul secolului XX şi este marcat de momentul apariţiei lucrărilor lui Karl Pearson (1857-1936) şi ale lui Ronald Aylmer Fisher (1890-1962). K.Pearson a pus bazele statisticii inductive prin elaborarea testelor privitoare la semnificaţia diferenţelor dintre valorile calculate şi cele empirice (experimentale). R.A.Fisher a elaborat teoria riguroasă a sintetizării concluziilor din datele observate şi a enunţat principiile planificării experimentelor. 1.2 Localizarea statisticii

Statistica a pătruns în toate domeniile ştiinţelor naturii şi ale ştiinţelor sociale ca un complex de metode ce permit obţinerea unor concluzii fundamentate teoretic, pe baza observaţiilor sau a experimentelor efectuate.

Metodele matematice folosite în statistică nu reprezintă un scop în sine, ci ajută la prelucrarea datelor şi interpretarea fenomenelor naturale sau sociale studiate.

8

Page 10: biostatistica forestiera

S-au format, astfel, unele discipline de graniţă, cum ar fi: statistica matematică, statistica fizică, statistica biologică (sau biostatistica) etc. În silvicultură, statistica este folosită pentru fundamentarea celor mai importante probleme specifice.

ALGEBRĂ

ANALIZÃ MATEMATICĂ

TEORIA PROBABILITĂŢILOR

STATISTICĂ

SOCIAL

ECONOMIC

ŞTIINŢE ALE

NATURII

Organizarea muncii etc.

Economie forestieră

Silvicultură, Genetică,

Împăduriri, Ecologie etc.

Figura 1 Localizarea statisticii şi domenii de aplicabilitate în silvicultură

Biostatistica forestieră reprezintă un complex al metodelor

statisticii matematice utilizate pentru surprinderea, investigarea şi analiza fenomenelor şi proceselor biologice specifice pădurii.

Motivaţia utilizării acestor metode este dată de faptul că pădurea, arboretele cu fenomenele ce au loc în interiorul lor, reprezintă colectivităţi de volum mare ce nu pot fi suficient de bine cercetate în ansamblul lor. Se recurge, aşadar, la reducerea numărului observaţiilor, constituindu-se colectivităţi mai mici, indicatorii statistici rezultaţi fiind extrapolaţi, după regulile biostatisticii, la întreaga populaţie iniţială studiată. Folosirea metodelor statisticii matematice în silvicultură:

înlesneşte trecerea de la observaţii la concluzii ştiinţific fundamentate;

contribuie la o analiză riguroasă a fenomenelor studiate; permite obţinerea unor informaţii suficient de precise cu efort şi

cheltuială minime; dă posibilitatea prelucrării obiective şi eficiente a datelor rezultate

din observaţii şi experimente.

9

Page 11: biostatistica forestiera

1.3 Terminologie

Colectivitatea statistică (populaţia) reprezintă o mulţime finită sau infinită formată din unităţi statistice calitativ omogene (cu una sau mai multe însuşiri comune). Exemple: • arborii dintr-un arboret; • totalitatea seminţelor dintr-un arbore; • numărul exemplarelor de vânat din aceeaşi specie aflate pe un teritoriu

dat etc. În funcţie de volumul observaţiilor (numărul observaţiilor), colectivitatea poate fi generală sau de selecţie (probă, sondaj, eşantion). Colectivitatea de selecţie reprezintă o parte din populaţie extrasă după anumite criterii, în vederea cercetării uneia sau a mai multor caracteristici. Elementele colectivităţii sunt unităţile statistice. O unitate statistică reprezintă cea mai mică entitate luată în considerare în raport cu scopul cercetării; aceasta poate fi simplă (de exemplu, un arbore) sau complexă (un lot de arbori, de exemplu). Particularităţile colectivităţii statistice sunt determinate de însuşirile esenţiale comune tuturor unităţilor componente. Acestea formează obiectul cercetării şi sunt denumite caracteristici (de exemplu, diametrul de bază al arborelui, înălţimea arborelui). După natura lor, caracteristicile pot fi calitative sau cantitative. Caracteristicile calitative (atributive) nu se pot exprima numeric decât printr-o codificare adecvată (culoarea ritidomului, starea de vegetaţie, gradul de uscare etc.). Caracteristicile cantitative se exprimă prin valori numerice obţinute prin măsurători (diametru, înălţime) sau prin numărare (număr de arbori). Valoarea cu care s-a înregistrat caracteristica unei unităţi statistice reprezintă valoarea observată sau varianta. În silvicultură, caracteristicile cantitative variază în limite destul de mari, fluctuaţie denumită variaţie, variabilitate sau împrăştiere. Caracteristicile cantitative supuse variabilităţii poartă denumirea de variabile. Variabilele sunt continue, atunci când pot lua orice valoare dintr-un interval dat, sau discontinue (discrete), când pot lua numai anumite valori din intervalul respectiv (de exemplu, numai valori întregi). Probabilitatea producerii unui eveniment este raportul dintre numărul de cazuri favorabile (n) şi numărul total de cazuri posibile (N):

Nn

P E =)( (1.1)

10

Page 12: biostatistica forestiera

Probabilitatea unui eveniment imposibil este 0, iar probabilitatea unui eveniment sigur este 1. Dacă se notează cu p probabilitatea realizării unui eveniment şi cu q, probabilitatea nerealizării lui (probabilitatea realizării evenimentului contrar), se pot scrie relaţiile: %)100(1=+ qp (1.2) qp −= 1 (1.3) pq −= 1 (1.4)

Etapele cercetării statistice

Privită ca un proces complex, cercetarea statistică se realizează în trei etape: observarea sau măsurarea (culegerea datelor din teren), prelucrarea informaţiilor prin diferite procedee statistico-

matematice în vederea obţinerii unor indicatori, analiza şi interpretarea rezultatelor şi desprinderea unor

concluzii.

Evident, înainte de efectuarea cercetării trebuie clarificate scopul şi obiectul cercetării. Obiectul cercetării se stabileşte în funcţie de scop şi trebuie delimitat nu numai ca volum (număr de unităţi ce urmează a fi cercetate), ci şi în timp şi spaţiu. Aceasta presupune stabilirea mărimii colectivităţii, a locului de efectuare a lucrărilor, a perioadei de cercetare, a modului de culegere şi prelucrare a observaţiilor. Se stabilesc, deci, criterii unitare de selectare, de măsurare şi de notare. Se impune întocmirea unui plan de organizare a întregii cercetări care constituie metodologia cercetării.

11

Page 13: biostatistica forestiera

2. ÎNREGISTRAREA ŞI PRELUCRAREA PRIMARĂ A OBSERVAŢIILOR

Datele obţinute pe baza observaţiilor sau a măsurătorilor efectuate se înregistrează în fişe de observare sau pe formulare-listă. Aceasta constituie evidenţa primară.

Fişa reprezintă înregistrarea unei singure unităţi din colectivitate cu toate caracteristicile prevăzute în planul observării.

În formularele-listă sunt înregistrate mai multe unităţi. Se optează pentru una dintre aceste forme de înregistrare în funcţie de numărul caracteristicilor urmărite şi de variabilitatea acestora. Totalitatea valorilor observate (pentru o anumită caracteristică) în cadrul colectivităţii cercetate, centralizate tabelar, constituie şirul statistic. Materialul cifric al unui şir statistic se poate înregistra în ordinea observării sau în ordine crescătoare sau descrescătoare. În cadrul valorilor observate, prin examinarea şirului statistic se pot identifica: o valoare minimă şi una maximă. Diferenţa dintre valoarea maximă (xmax) şi cea minimă (xmin) se numeşte amplitudinea de variaţie a şirului statistic: minmax xxw −= . (2.1)

2.1 Succesiunea operaţiilor de formare a unei serii de distribuţie

Considerente legate de nevoia obţinerii unei imagini de ansamblu asupra colectivităţii studiate conduc la gruparea valorilor observate în clase şi reprezentarea lor tabelară (tabelul 1). Ca efect al grupării rezultă seria de distribuţie sau de repartiţie.

O serie de distribuţie este formată din două şiruri statistice: - valorile observate redate prin limitele claselor sau prin

centrul lor, - frecvenţele absolute (simple sau cumulate) sau frecvenţele

relative (simple sau cumulate).

Elementele seriei de distribuţie sunt: • limitele clasei: inferioară şi superioară. Toate valorile observate

cuprinse între limite se trec în clasa respectivă. Astfel, fiecărei valori individuale i se atribuie o singură valoare (centrul clasei). Datorită acestei rotunjiri se produc erori, denumite erori de grupare în clase, cu atât mai mari cu cât amplitudinea clasei este mai mare.

12

Page 14: biostatistica forestiera

• amplitudinea unei clase (mărimea clasei) calculată ca diferenţă dintre limite.

• amplitudinea de variaţie: diferenţa dintre valoarea maximă şi valoarea minimă din şirul statistic.

• frecvenţa absolută (ni) a clasei: numărul unităţilor statistice corespunzătoare unei clase.

• volumul colectivităţii (N): numărul total de unităţi cercetate (N=Σni). • frecvenţa relativă: raportul dintre frecvenţa absolută şi volumul

colectivităţii, exprimat în valori absolute sau în procente (fi=ni/N). Frecvenţele absolute sau cele relative pot fi cumulate din aproape în aproape, ajungându-se la stabilirea distribuţiei frecvenţelor cumulate. Distribuţiile de frecvenţă pot fi empirice (experimentale) sau teoretice. Cele empirice rezultă din cercetările experimentale, iar cele teoretice corespund unor legi de probabilitate cunoscute. Seria de distribuţie formată în raport cu o caracteristică cantitativă se numeşte serie de variaţie, iar cea formată în raport cu timpul, serie dinamică sau cronologică.

Succesiunea operaţiilor de formare a unei serii de distribuţie este următoarea:

calculul amplitudinii w a şirului statistic; determinarea grupelor de valori, deci a numărului de clase, în funcţie de omogenitatea colectivităţii şi de natura fenomenului studiat.

Fixarea intervalelor de grupare include segmentarea mai mult sau mai puţin arbitrară a câmpului de variaţie a caracteristicii studiate. Astfel, o scară greşit aleasă poate schimba complet aspectul repartiţiei. Pentru un număr mai mic de 50 de unităţi în cadrul probei, nu este indicată gruparea în clase.

Numărul de clase (k) poate fi determinat cu relaţia empirică a lui Sturges:

Nk lg3

101+= , (2.2)

N fiind volumul probei. Cu notaţiile anterioare, se poate aplica şi relaţia: Nk lg5 ⋅= , (2.3) sau pot fi utilizate tabele de corespondenţă de tipul celui de mai jos, cu valori determinate, de asemenea, experimental:

N 50 100 500 1000 10000k 8 10 13 15 20

13

Page 15: biostatistica forestiera

Pentru situaţiile din silvicultură s-a dovedit corespunzător un număr de 10÷15 clase. Un număr mic de clase implică o micşorare a preciziei, iar un număr prea mare duce la prelucrări greoaie şi nu permite diferenţierea cu claritate a caracteristicilor distribuţiei empirice.

determinarea mărimii clasei (intervalul clasei, amplitudinea clasei); trebuie echilibrate următoarele două cerinţe: se recomandă ca intervalele să nu fie prea largi, pentru că ar produce o pierdere de informaţie şi ar disimula unele particularităţi ale repartiţiei (micşorează precizia rezultatelor);

mărimea clasei nu trebuie să fie prea mică pentru că nu se elimină, astfel, iregularităţile accidentale şi, în plus, se complică fără folos calculele.

k

xxkwa minmax −

== . (2.4)

Dacă numărul de clase nu este cunoscut, se folosesc relaţii

empirice, de exemplu:

N

xxa

lg3

101

minmax

+

−= sau ( minmax100

1 xxf )−=a , (2.5)

în care f este un factor empiric care depinde de N. Pentru comoditatea calculelor se adoptă, pentru o clasă, un interval rotunjit, ceea ce duce la modificarea numărului de clase stabilit anterior. Intervalele claselor pot fi egale sau inegale (mărimea clasei poate fi constantă sau, respectiv, variabilă). Este preferabilă repartiţia pe o scară cu intervale egale, frecvenţele diferitelor clase fiind astfel comparabile între ele şi adecvate calculelor ulterioare. Gruparea pe clase inegale este mai simplă, dar acestea nu sunt caracteristice colectivităţii studiate şi, în plus, presupun prelucrări statistice ulterioare speciale.

Cu cât se măreşte amplitudinea claselor, cu atât se

simplifică mai mult calculele, dar se deformează mai accentuat distribuţia.

Ca un exemplu de alegere a mărimii claselor, pentru caracteristica diametru al arborilor, a=1 cm pentru lucrări de cercetare (mai pretenţioase) şi a=2÷4 cm pentru lucrări curente de producţie.

14

Page 16: biostatistica forestiera

În cazul unui arboret echien de molid în vârstă de 70 ani s-a măsurat caracteristica diametru de bază pentru 144 arbori. Prin gruparea valorilor experimentale în clase cu amplitudinea de 4 cm, a rezultat distribuţia experimentală din tabelul următor.

Tabelul 1. Distribuţia experimentală pentru caracteristica diametru de bază Valori observate

Nr. crt. limitele

clasei centrul clasei

Frecvenţe

absolute (ni)

Frecvenţe absolute cumulate

(Σni)

Frecvenţe relative (fi=ni/N)

Frecvenţe relative

cumulate (Σfi)

1. 26,1-30,0 28 4 4 0,028 0,028 2. 30,1-34,0 32 9 13 0,063 0,090 3. 34,1-38,0 36 18 31 0,125 0,215 4. 38,1-42,0 40 32 63 0,222 0,438 5. 42,1-46,0 44 21 84 0,146 0,583 6. 46,1-50,0 48 21 105 0,146 0,729 7. 50,1-54,0 52 17 122 0,118 0,847 8. 54,1-58,0 56 11 133 0,076 0,924 9. 58,1-62,0 60 5 138 0,035 0,958

10. 62,1-66,0 64 4 142 0,028 0,986 11. 66,1-70,0 68 2 144 0,014 1,000

TOTAL 144 1,000

2.2 Reprezentarea grafică a seriilor de distribuţie empirice

Pentru a pune în evidenţă caracterul variaţiei fenomenului studiat, seriile de distribuţie se reprezintă grafic. Se obţine, astfel, o primă imagine a formei şi structurii colectivităţii studiate. Pentru distribuţia experimentală din exemplul anterior, se pot realiza (figurile 2, 3 şi 4): histograma, poligonul de frecvenţă şi curba frecvenţelor cumulate (ogiva).

Figura 2. Poligonul frecvenţelor absolute

15

Page 17: biostatistica forestiera

Figura 3. Histograma frecvenţelor absolute

Figura 4. Ogiva frecvenţelor absolute cumulate

Br: 25% Mo: 25% Br: 25%

Fa: 50%

Mo: 5%

Fa: 50%

Figura 5. Diagrame de structură

Diagramele de structură reprezintă o formă specială de grafice, foarte ilustrativă, în care frecvenţele sunt reprezentate prin dreptunghiuri sau sectoare de cerc, ale căror înălţimi, respectiv unghiuri la centru, sunt proporţionale cu frecvenţele respective.

16

Page 18: biostatistica forestiera

De exemplu, structura pe specii a unui arboret poate fi redată grafic în modalitatea prezentată în figura 5. Distribuţiile discontinue se reprezintă, de obicei, prin histograme. Pentru distribuţiile continue se poate folosi orice mod de reprezentare grafică. Graficele pot avea scări uniforme sau scări funcţionale (neuniforme). Scara aritmetică (naturală) traduce proporţionalitatea între numerele xi, yi şi lungimile absciselor şi ordonatelor în reprezentare rectangulară. Scara logaritmică, scară funcţională, traduce proporţionalitatea dintre logaritmii numerelor xi şi yi şi lungimile absciselor şi ordonatelor. În primul caz, intervalul corespunzător unei unităţi rămâne acelaşi pe întreaga lungime a scării; în celălalt caz, intervalele grafice (segmentele dintre punctele cotate) sunt inegale. Frecvent folosite în cercetare sunt graficele cu reţele semilogaritmice. Reţelele funcţionale se folosesc, în general, pentru transformarea unei curbe într-o dreaptă (anamorfoză grafică), procedeu ce prezintă unele avantaje:

dreapta se poate construi mai uşor; dreapta permite o interpolare sau o extrapolare grafică mai uşoară.

Reţelele funcţionale se folosesc în următoarele situaţii: când se compară două fenomene cu niveluri foarte diferite de

manifestare; când se reprezintă un fenomen al cărui interval de variaţie este

foarte mare.

17

Page 19: biostatistica forestiera

3. ANALIZA DISTRIBUŢIILOR EXPERIMENTALE

Pentru caracterizarea fenomenelor de masă, statistica a elaborat metodologii şi tehnici specifice. Proprietatea principală a fenomenelor de masă o reprezintă variabilitatea formelor individuale şi de manifestare în timp şi în spaţiu.

Indicatorul statistic este expresia numerică a unor fenomene, procese, activităţi sau categorii economice sau sociale. Acesta este purtător de informaţii cu conţinut real, obiectiv determinat.

Indicatorii statistici sunt utilizaţi pentru caracterizarea volumului şi structurii unor procese şi fenomene de masă.

Funcţiile indicatorilor statistici sunt: funcţia de măsurare a aspectelor cantitative ale fenomenelor; funcţia de comparare utilizată pentru cunoaşterea modificărilor de

volum, structură şi dinamică ale fenomenelor; funcţia de analiză folosită pentru aprecierea conţinutului real al

analizei statistice, depistând şi eliminând cazurile care se îndepărtează semnificativ de la legitatea de variaţie;

funcţia de sinteză, legată de necesitatea sintetizării valorilor individuale într-o singură expresie numerică;

funcţia de estimare; funcţia de verificare a ipotezelor şi de testare a parametrilor

utilizaţi. 3.1 Momentele

Momentele sunt valori care sintetizează o repartiţie şi, cu toate că nu reprezintă indicatori statistici de sine stătători, permit precizarea anumitor caracteristici ale repartiţiei; aceste valori odată calculate, facilitează determinarea unor indicatori statistici de bază. Termenul “momente” a fost împrumutat din mecanică unde este folosit pentru a descrie distribuţia de mase. Momentul de ordinul p al variabilei X în raport cu o valoare x0 reprezintă media aritmetică a diferenţelor xi - x0 , ridicate la puterea p:

( )∑

∑ −=

i

pii

p nxxn

m 0 . (3.1)

În practică se utilizează aproape exclusiv momentele în raport cu originea (x0=0) şi momentele în raport cu media aritmetică (x0= x ).

18

Page 20: biostatistica forestiera

Momentul simplu ( ) reprezintă momentul calculat în raport cu originea măsurătorilor (x0=0):

'pm

∑=i

pii

p nxn

m ' . (3.2)

Momentul centrat (μp) este momentul calculat în raport cu media aritmetică a repartiţiei (x0= x ):

( )∑

∑ −=

i

p

iip n

xxnμ . (3.3)

Momentele uzuale, atât cele simple cât şi cele centrate, sunt cele de ordinele 1, 2, 3 şi 4. În particular, momentul simplu de ordinul 1 se confundă cu media aritmetică, momentul centrat de ordinul 1 este nul (vezi proprietăţile mediei aritmetice) şi momentul centrat de ordinul 2 aproximează varianţa.

Primele patru momente ale repartiţiei de frecvenţe sunt, în cea mai mare parte a cazurilor, suficiente pentru a descrie caracteristicile principale ale acesteia. Din aceste momente sunt derivaţi şi indicatorii asimetriei şi excesului. Între momentele simple şi cele centrate uzuale există relaţiile: μ1=0 ; (3.4) μ2= ; (3.5) 2'

1'2 mm −

μ3= ; (3.6) 3'1

'2

'1

'3 23 mmmm +−

μ4= . (3.7) 4'1

'2

2'1

'3

'1

'4 364 mmmmmm −+−

În cazul momentelor calculate pentru repartiţii pe clase de valori, pentru a corecta eroarea sistematică introdusă prin substituirea valorilor reale ale caracteristicii studiate prin centrele de clasă, trebuie să se aplice corecţiile lui Sheppard. Formulele de calcul pentru momentele corectate pornind de la momentele brute calculate anterior sunt:

μ =μ2' 2

2 121 a− ; (3.8)

μ =μ4'

21

4 − μ 422 240

7 aa + , (3.9)

19

Page 21: biostatistica forestiera

în care a reprezintă amplitudinea, presupusă egală, a claselor. Relaţiile anterioare pot fi aplicate în cazul unei repartiţii unimodale (“în clopot”) cu intervalul de clasă constant, frecvenţa tinzând către zero în ambele direcţii.

Corecţiile lui Sheppard nu sunt aplicabile: repartiţiilor pe valori distincte (negrupate în clase), pentru că

dispare motivaţia corecţiilor; repartiţiilor în formă de “J” sau “U” sau chiar formelor puternic

asimetrice (oblice); momentelor centrate de ordin impar, deoarece alternările de semne

duc la compensarea erorilor; în particular, în repartiţiile perfect simetrice, momentele de ordin impar sunt nule.

Momentele centrate de ordin par sunt, în general, supraestimate atunci când se calculează pentru repartiţii pe clase de valori, de unde şi necesitatea corecţiei în sensul menţionat. 3.2 Indicatorii tendinţei centrale

Aceşti indicatori (denumiţi şi indici de poziţie) sintetizează valorile centrale ale distribuţiei şi oferă o reprezentare simplificată a unei distribuţii empirice de frecvenţe prin determinarea unei tendinţe centrale (zona din intervalul de variaţie al caracteristicii studiate în care tind să se concentreze valorile incluse în şirul statistic). Valorile medii sau valorile centrale se determină pentru colectivităţi statistice omogene (este necesar, în prealabil, un test de omogenitate); aceste valori medii se modifică odată cu modificarea valorii oricărui element al seriei statistice. Media este denumită şi speranţă matematică şi reprezintă valoarea cu care s-ar putea înlocui toţi termenii unei serii de distribuţie dacă aceştia nu ar fi supuşi unor factori complecşi de influenţă care-i diferenţiază.

Pentru caracterizarea unei distribuţii se pot calcula, teoretic, multe tipuri de medii. În domeniul forestier se folosesc numai câteva, mai importante.

3.2.1 Mediile

După modul de calcul, mediile pot fi simple sau ponderate (atunci când utilizează produsele dintre frecvenţe şi valorile observate). Relaţiile de calcul diferă, astfel, după cum valorile observate sunt grupate sau nu în clase. Media aritmetică este cel mai utilizat indice al tendinţei centrale.

20

Page 22: biostatistica forestiera

Relaţiile de calcul sunt: - pentru valori negrupate - pentru valori grupate în clase

N

xx

N

i∑= 1

∑= k

i

k

ii

n

xnx

1

1 (3.10)

relaţii în care: x este media aritmetică a unei probe (eşantion), xi – valorile individuale ale caracteristicii x, în primul caz, sau centrul clasei i, în cel de-al doilea; ni – frecvenţa absolută a clasei i; k – numărul de clase.

Tabelul 2. Calculul mediei aritmetice pentru valori grupate în clase

28 4 11232 9 28836 18 64840 32 128044 21 92448 21 100852 17 88456 11 61660 5 30064 4 25668 2 136

TOTAL 144 6452

Centrul clasei (cm)

in ii xn ⋅

Pentru exemplul de distribuţie experimentală considerat anterior

(tabelele 1 şi 2) media aritmetică este:

81,441446452

==x cm. (3.11)

Media aritmetică a întregii populaţii se notează cu μ şi se poate calcula cu exactitate numai după determinarea valorilor caracteristicii studiate pentru toţi indivizii din colectivitatea generală. Proprietăţi ale mediei aritmetice: - suma algebrică a diferenţelor dintre fiecare observaţie în parte şi

media aritmetică este egală cu 0;

21

Page 23: biostatistica forestiera

- suma pătratelor abaterilor valorilor individuale faţă de medie reprezintă un minim (este mai mică decât suma pătratelor abaterilor faţă de oricare altă valoare diferită de media aritmetică).

Aceste proprietăţi sunt utilizate pentru numeroase aplicaţii în statistică. Media aritmetică este cu atât mai reprezentativă cu cât diferenţa dintre aceasta şi mediană (un alt indice de poziţie) este mai mică. Media aritmetică este mai puţin stabilă, fiind foarte mult influenţată de valorile extreme ale distribuţiei. Atunci când se calculează mai multe medii aritmetice

,...,,, 321 xxx pentru probe extrase din aceeaşi populaţie, volumele probelor fiind N1, N2, N3,..., se poate calcula, în condiţii bine precizate statistic, media generală:

...

...

21

2211

++++

=NN

NxNxx (3.12)

Calculul şi folosirea mediei generale x este admisă numai după ce s-a verificat dacă mediile probelor ( ix ) reprezintă estimaţii ale aceleiaşi medii generale, μ, a populaţiei. Media armonică ( hx ) se determină cu relaţiile: - pentru valori negrupate - pentru valori grupate în clase

∑ ⎟⎟⎠

⎞⎜⎜⎝

⎛=

N

i

h

x

Nx

1

1

⎟⎟⎠

⎞⎜⎜⎝

⎛=

k

i

i

k

i

h

xn

nx

1

1 (3.13)

Este folosită, de exemplu, în economia forestieră pentru calculul randamentului. Media geometrică ( gx ) este valoarea pozitivă a rădăcinilor de ordinul N din produsul a N valori observate: - pentru valori negrupate - pentru valori grupate în clase

NN

ig xx ∏=1

Nk

nig

ixx ∏=1

(3.14)

Se foloseşte atunci când valorile observate sunt aranjate într-o progresie geometrică sau au un ritm exponenţial de variaţie (de exemplu, în economia forestieră, pentru determinarea ritmurilor medii de creştere a producţiei).

22

Page 24: biostatistica forestiera

Mediile de ordin superior ( px ): - pentru valori negrupate - pentru valori grupate în clase

p

Npi

p N

xx

∑= 1 p k

i

kpii

p

n

xnx

∑=

1

1 (3.15)

Reprezintă rădăcinile de ordin p ale raportului dintre suma valorilor observate, ridicate la puterea p, şi numărul acestora ; pentru p= 2,3,... se obţin: media pătratică ( 2x ), media cubică ( 3x ), .…În relaţii s-a notat numărul de clase cu k.

Se utilizează atunci când se acordă o importanţă mai mare nivelurilor mai ridicate ale seriei statistice.

Relaţie între medii!

32 xxxxx gh ≤≤≤≤

Deoarece media unei caracteristici se determină pentru un număr

limitat de observaţii, valoarea ei este afectată de o eroare de estimaţie a adevăratei medii μ a populaţiei întregi.

Pentru media aritmetică:

Nss

x= , (3.16)

în care x

s reprezintă eroarea (abaterea) standard a mediei aritmetice, s este abaterea standard a caracteristicii studiate, iar N, volumul colectivităţii. Pentru un număr mare de valori observate,

xs va fi mai mică, iar

media calculată pe baza probelor se va apropia mai mult de media μ a întregii populaţii.

3.2.2 Mediana

În afara mediilor propriu-zise interesează, din punct de vedere statistic, şi calcularea unor medii de structură (mediana, cuartilele, modul şi valoarea centrală). Acestea se utilizează mai ales pentru distribuţii asimetrice. Mediana (Me) este valoarea dintr-o serie statistică ce împarte volumul populaţiei (N) în două părţi egale.

23

Page 25: biostatistica forestiera

Pentru şirurile statistice (valori negrupate în clase), există două situaţii: • şirul statistic are un număr impar de termeni (N); în acest caz mediana

corespunde variantei de rangul 2

1+N , rangul fiind numărul ce indică

poziţia unei observaţii în cadrul unui şir ordonat în raport cu un anumit criteriu. De exemplu pentru şirul statistic 8,9,10,11,13,14,16,

rangul medianei este 42

17=

+ , deci mediana are valoarea Me=11;

• şirul statistic are un număr par de termeni (N); mediana se calculează

ca medie aritmetică a valorilor de rangul k şi k+1 (unde 2Nk = ):

2

1++= kk xx

Me . (3.17)

Pentru seriile cu valori grupate în clase, mediana poate fi determinată analitic sau grafic. Determinarea analitică a medianei înseamnă aplicarea relaţiei:

Me

n

Me n

SNaxMe

⎟⎠⎞

⎜⎝⎛ −

+= 2 , (3.18)

în care: xMe este limita inferioară a clasei mediane (cea care, în şirul frecvenţelor absolute cumulate, reprezintă prima valoare mai mare decât N/2); a - mărimea clasei; N - volumul probei; Sn - frecvenţa absolută cumulată până la clasa imediat inferioară celei mediane; nMe - frecvenţa absolută a clasei mediane. Pentru distribuţia experimentală a diametrelor de bază din exemplul anterior, cu notaţiile din figura 7, mediana este:

( ) 71,4321

6372442 =−⋅

+=Me cm. (3.19)

Determinarea grafică a medianei se poate face pe graficul frecvenţelor cumulate, absolute sau relative, în care aceasta corespunde

valorii 2N (figura 4), respectiv, lui

21 .

Mediana prezintă o stabilitate mai mare decât media aritmetică pentru că depinde mai puţin de valorile extreme ale seriei statistice. Aceasta dă informaţii utile şi în cazul distribuţiilor mai puţin omogene.

24

Page 26: biostatistica forestiera

Un caz particular îl constituie mediana pătratică (Mep), utilizată în dendrometrie pentru calculul diametrului central al suprafeţei de bază.

Mepii

n

k

ii

Mep xn

Sxn

a

xMep)(

2

2

'1

2

⎟⎟⎟⎟

⎜⎜⎜⎜

−⋅

+=

. (3.20)

Aşa cum se observă, se calculează asemănător cu mediana (Me), însă în funcţie de valorile nixi

2 cumulate. Relaţia dintre cele două mediane este: . (3.21) MepMe ≤

3.2.3 Cuartilele

Cuartilele sunt trei indicatori statistici care împart setul de valori experimentale în patru părţi egale. Prima cuartilă (Q1), numită şi cuartila inferioară, delimitează cele mai mici 25% valori experimentale. Relaţia de calcul a acesteia este:

1

'

'01

4Q

i

n

nNaxQ

⎟⎠⎞

⎜⎝⎛ −⋅

+=∑

, (3.22)

în care: '0x este limita inferioară a clasei în care se găseşte N/4,

∑ 'in - frecvenţele absolute cumulate până la clasa lui Q1,

1Qn - frecvenţa absolută a clasei în care se află Q1. Cea de-a doua cuartilă (Q2) este egală cu mediana. A treia cuartilă (Q3), numită şi cuartila superioară, delimitează cele mai mari 25% valori experimentale din distribuţie. Relaţia de calcul a acesteia este:

3

''

''03

43

Q

i

n

nNaxQ

⎟⎠⎞

⎜⎝⎛ −⋅

+=∑

, (3.23)

în care: ''

0x este limita inferioară a clasei în care se găseşte 3N/4,

∑ ''in - frecvenţele absolute cumulate până la clasa lui Q3,

3Qn - frecvenţa absolută a clasei în care se află Q3.

25

Page 27: biostatistica forestiera

Intervalul intercuartilic (IRQ) reprezintă diferenţa dintre Q3 şi Q1. În interiorul acestuia se află 50% dintre valorile experimentale ale caracteristicii analizate. Pentru distribuţia experimentală exemplificată anterior, cuartilele Q1 şi Q3 se determină astfel:

( ) 63,3832

31364381 =−⋅

+=Q cm, (3.24)

( ) 71,5017

1051084503 =−⋅

+=Q cm. (3.25)

Se poate obţine o imagine sintetică a dispersiei valorilor caracteristicii studiate prin redarea grafică, sub forma unei diagrame, a următorilor indicatori: valoarea minimă (xmin), prima cuartilă, mediana, a treia cuartilă şi valoarea maximă. Diagrama „boxplot” dă informaţii asupra amplitudinii datelor (prin valorile extreme), despre tendinţa centrală (prin mediană) şi despre modul de grupare a valorilor (prin cuartile). Pentru exemplul considerat, diagrama boxplot este prezentată în figura 6).

Figura 6. Diagrama tip „boxplot”

3.2.4 Modul

Distribuţiile pot fi unimodale, bimodale, ..., plurimodale, după numărul de maxime locale pe care le prezintă. Modul (Mo), numit şi dominantă este acea valoare a caracteris-ticii studiate cu frecvenţa maximă în distribuţie. Are sens numai în cazul distribuţiilor unimodale (atunci când modul are o valoare unică), caz în care corespunde vârfului curbei de frecvenţă. Acest indice se calculează, evident, numai pentru valori grupate în clase, cu relaţia:

26

Page 28: biostatistica forestiera

( )

210

10

2 nnnnna

xMo Mo −−−

+= , (3.26)

în care: xMo este limita inferioară a clasei modale; n0 - frecvenţa clasei modale; n1 - frecvenţa clasei inferioare celei modale; n2 - frecvenţa clasei superioare celei modale. În exemplul anterior:

( ) 24,402118322

1832438 =−−⋅

−⋅+=Mo cm. (3.27)

Determinare grafică a modului se realizează pe poligonul frecvenţelor absolute sau pe histograma frecvenţelor absolute, ca în figurile 2 şi 3.

simplă cumulată

28 4 432 9 1336 18 31

clasa modală 40 32 63clasa mediană 44 21 84

48 21 10552 17 12256 11 13360 5 13864 4 14268 2 144

TOTAL 144 -

Centrul clasei (cm)

Frecvenţă absolută

nMe

n0

n1

n2

Sn

N / 2

Figura 7. Identificarea valorilor necesar

determinării medianei şi modului

3.2.5 Relaţii între indicii de poziţie

Pentru distribuţii apropiate de distribuţia teoretică normală este valabilă relaţia lui Pearson: Mo = 3Me -2 x . (3.28) Modul este folosit şi pentru stabilirea gradului de asimetrie a distribuţiei experimentale pentru că este direct proporţional cu diferenţa dintre x şi Me.

Pentru o distribuţie simetrică: Mo = Me = x . (3.29)

27

Page 29: biostatistica forestiera

3.3 Indicatorii variabilităţii (dispersiei)

Cunoaşterea mediilor sau a altor indicatori ai tendinţei centrale nu este suficientă pentru a caracteriza o serie statistică. Este necesară, suplimentar, cunoaşterea variabilităţii caracteristicii studiate, adică a împrăştierii valorilor faţă de medie sub influenţa unor factori întâmplători.

- x este indicată a fi folosită pentru distribuţii simetrice; - Mediana este mai stabilă decât x pentru că depinde mai puţin

de forma distribuţiei; - Modul este utilizat atunci când nu se ţine seama de variaţiile

distribuţiilor; - Mediana şi modul, prin poziţia relativă a lor, arată mai bine

tendinţa de concentrare a frecvenţelor din cadrul unei distribuţii.

Indicii de variaţie sunt utilizaţi pentru a da o imagine corectă asupra gradului de împrăştiere a valorilor observate în jurul centrelor de grupare.

Cea mai simplă măsură a variabilităţii valorilor măsurate este amplitudinea de variaţie (w) calculată cu relaţia 2.1. Este un indice expeditiv, dar şi destul de imprecis (depinde de valorile extreme).

3.3.1 Varianţa

Denumită şi dispersie (σ2, pentru întreaga populaţie, sau s2, pentru un eşantion) este măsura cea mai utilizată a variabilităţii. Aceasta reprezintă o medie a pătratelor abaterilor valorilor observate faţă de media aritmetică: - pentru valori negrupate: - pentru valori grupate în clase:

( )

1

2

2

−= ∑

Nxx

s i ( )

1

2

2

−= ∑

Nxxn

s ii (3.30)

N-1 reprezentând numărul gradelor de libertate.

28

Page 30: biostatistica forestiera

În practică se utilizează mai mult relaţiile echivalente: - pentru valori negrupate: - pentru valori grupate în clase:

( )

1

2

2

2

−=

∑ ∑

NNx

xs

ii

( )

1

22

2 =−

−∑ ∑

NN

xnxn ii

iis (3.31)

Pentru valori mari ale lui N (un număr mare de observaţii) se pot face aproximaţiile: N≈N-1 şi s2≈μ2=σ2 (varianţa întregii populaţii din care s-a extras proba analizată).

3.3.2 Abaterea standard

Se notează cu σ, pentru întreaga populaţie, sau cu s, pentru o probă şi este valoarea pozitivă a rădăcinii pătrate din varianţă:

2ss = . (3.32)

Se mai numeşte eroare sau abatere medie pătratică. Cu cât abaterea standard este mai mică, cu atât gradul de împrăştiere a valorilor caracteristicii studiate este mai redus.

3.3.3 Coeficientul de variaţie

Coeficientul de variaţie (σ , ) este utilizat pentru a face analiza comparativă între distribuţii cu variabilităţi exprimate în unităţi de măsură diferite. Este egal cu raportul procentual dintre abaterea standard şi media aritmetică:

% s%

100% ⋅=xss (%). (3.33)

Cu cât coeficientul de variaţie este mai mic, cu atât variabilitatea caracteristicii este mai mică, colectivitatea mai omogenă, iar media aritmetică are un grad mai mare de reprezentativitate (afirmaţie valabilă şi pentru ceilalţi indicatori de variaţie). Se apreciază că o serie de distribuţie este omogenă dacă valoarea coeficientului de variaţie nu depăşeşte 30%. În caz contrar se apreciază că media nu mai este reprezentativă pentru o populaţie considerată eterogenă. Pentru distribuţia experimentală a caracteristicii diametrul de bază din exemplul luat anterior în considerare, valorile indicilor de variaţie s-au determinat folosind datele din tabelul 3. Astfel:

4375,761144

556,109302 =−

=s cm2; 74,84375,76 ==s cm;

5,1910081,44

74,8% =⋅=s %.

29

Page 31: biostatistica forestiera

Tabelul 3.Calcule intermediare pentru determinarea indicilor de variaţie

28 4 1129,70732 9 1475,84036 18 1395,68140 32 738,98844 21 13,62748 21 214,29452 17 879,92156 11 1378,47160 5 1154,35664 4 1473,70768 2 1075,965

TOTAL 144 10930,55644,81

Centrul clasei in 2)( xxn ii −⋅

=x 3.4 Indicatorii formei distribuţiilor experimentale

În analiza seriilor de distribuţie empirice o importanţă deosebită o prezintă compararea mediilor cu ceilalţi indici de poziţie.

O distribuţie se numeşte simetrică sau asimetrică după cum valorile variabilei sunt egal sau inegal dispersate de o parte şi de alta a valorii centrale luate în considerare.

În cazul distribuţiilor simetrice, media aritmetică este egală cu mediana şi cu modul; pe măsură ce distribuţia devine asimetrică, apare o divergenţă a celor trei indici.

Aşa cum s-a arătat, pentru distribuţiile simetrice sau uşor asimetrice este valabilă relaţia lui Pearson ( Mo Me x= −3 2 ).

3.4.1 Indicele asimetriei

Asimetria (figura 8) se caracterizează printr-o distorsionare a curbei experimentale pe orizontală în raport cu curba normală (“clopotul lui Gauss”). Gradul de deplasare se măsoară prin indicele asimetriei (A). Asimetria poate fi aparentă sau reală. Cea aparentă se datorează cercetării unei colectivităţi prea mici sau formării defectuoase a claselor. Ea poate fi înlăturată prin mărirea numărului de observaţii şi gruparea lor corectă.

30

Page 32: biostatistica forestiera

Asimetria reală se datorează unor factori obiectivi a căror acţiune nu poate fi înlăturată şi este caracteristică multor fenomene din silvicultură.

Pentru o distribuţie asimetrică, media aritmetică, datorită influenţei valorilor extreme, se află întotdeauna în direcţia ramurii mai lungi a distribuţiei. Modul corespunde vârfului poligonului de frecvenţe, iar mediana se află întotdeauna între media aritmetică şi mod.

Pentru estimarea asimetriei se compară media aritmetică şi modul; sunt posibile trei situaţii:

x > Mo → asimetrie pozitivă (de stânga), A>0; x < Mo → asimetrie negativă (de dreapta), A<0; x = Mo → distribuţie simetrică, A=0.

Relaţiile frecvent utilizate pentru determinarea asimetriei sunt:

- relaţia de bază: ( )

3

3

sNxxn

A ii

−= ∑ ; (3.34)

- relaţia lui Pearson: sMoxA −

= ; (3.35)

- relaţia momentelor: 32

3

μ

μ=A . (3.36)

Indicele asimetriei este însoţit de eroarea sa (sA):

3

6+

=N

sA . (3.37)

Asimetrie pozitivă (de stânga) Asimetrie negativă (de dreapta)

Figura 8.Tipuri de asimetrie

31

Page 33: biostatistica forestiera

Yule propune un coeficient (Sk) care ia valori în intervalul [-1, +1] care arată tipul şi mărimea asimetriei. Relaţia de calcul a acestui coeficient este:

( ) ( )( ) ( ) 13

13

13

13 2QQ

QMeQQMeMeQQMeMeQ

Sk−

+⋅−=

−+−−−−

= . (3.38)

Cu cât este mai apropiată valoarea lui Sk de 0, cu atât asimetria este mai redusă (pentru distribuţiile simetrice, Sk=0). Pe măsură ce Sk se apropie de -1 sau de 1, asimetria este din ce în ce mai pronunţată şi negativă (de dreapta) sau, respectiv, pozitivă (de stânga).

3.4.2 Indicele excesului

O repartiţie este mai boltită sau mai aplatizată după cum valorile corespunzătoare unor abateri mici de la valoarea centrală deţin o proporţie mai mult sau mai puţin însemnată. Această proprietate a repartiţiei unimodale este denumită exces şi se determină prin compararea cu curba normală de aceiaşi parametri. Deci excesul este proprietatea unei curbe de frecvenţă unimodale de a fi mai ascuţită sau mai aplatizată decât curba normală; acest lucru se determină prin analiza valorii unui indice de formă denumit indicele excesului (E).

Figura 9. Tipuri de distribuţii diferenţiate după exces

Relaţiile folosite pentru determinarea excesului sunt:

- relaţia de bază: ( )

34

4

−⋅

−= ∑

sNxxn

E ii ; (3.39)

32

Page 34: biostatistica forestiera

- relaţia momentelor: 322

4 −=μμ

E . (3.40)

Eroarea excesului (sE) este:

5

24+

=N

sE . (3.41)

Pe baza valorilor calculate A, sA, E, sE se poate face o testare statistică, dovedindu-se prezenţa sau absenţa asimetriei sau a excesului. Se calculează rapoartele A

s A şi E

sE.

Dacă rapoartele (în modul) sunt mai mici decât 2 se consideră că, pentru o probabilitate de acoperire de 95%, asimetria, respectiv excesul, sunt nesemnificative.

Dacă rapoartele sunt mai mari sau egale cu 2, sunt dovedite asimetria sau excesul (pentru aceeaşi probabilitate de acoperire). Acest lucru nu trebuie să se considere neapărat un defect sau un fenomen anormal. Dimpotrivă, există anumite distribuţii specifice unor caracteristici chiar din domeniul forestier pentru care se pot justifica teoretic asimetria şi excesul. Exemple:

distribuţia diametrelor în arborete echiene (asimetrie de stânga); distribuţia înălţimilor în arborete echiene (asimetrie de dreapta).

Pentru repartiţia experimentală exemplificată anterior s-au obţinut următoarele valori ale indicatorilor formei:

4147,0=A ; 2338,0−=E ; 1575,0=Sk . Erorile indicatorilor formei sunt:

2020,0=As şi 4013,0=Es .

Se obţin rapoartele: 20527,2 >=As

A şi 25825.0 <=Es

E .

Se poate spune că, în cazul analizat, asimetria este pozitivă (de stânga) şi semnificativă, iar excesul este negativ, dar nesemnificativ. 3.5 Criterii de eliminare a observaţiilor extreme

Printre valorile observate sau măsurate pentru caracteristica studiată, apar uneori unele care se abat foarte mult faţă de majoritate. Cauza apariţiei valorilor aberante poate fi diversă:

- datorită instrumentelor folosite (decalibrate); - datorită greşelilor de transmitere şi de înregistrare a datelor; - datorită neomogenităţii populaţiei studiate.

Este necesar să se excludă din calcule valorile extreme atunci când prezenţa lor influenţează rezultatele analizei statistice.

33

Page 35: biostatistica forestiera

Nu este admisă, însă, eliminarea arbitrară a valorilor extreme, mai ales atunci când numărul observaţiilor este redus.

S-au propus mai multe criterii bazate pe teoria probabilităţilor. Criteriul Chauvenet propune intervalul skx ⋅± în care să se

păstreze valorile şirului statistic ordonate crescător sau descrescător; orice valoare din afara intervalului se elimină.

x este media aritmetică a valorilor caracteristicii studiate pentru eşantionul cercetat, s reprezintă abaterea standard a eşantionului, iar k este un coeficient ce se ia din tabele funcţie de numărul observaţiilor (N).

Criteriul Irwin (testul λ) se foloseşte atunci când se constată că o valoare din şir se abate mult de la valorile majoritare. Etapele de aplicare sunt:

se ordonează valorile şirului statistic; se determină abaterea standard (s); se calculează:

sxx nn 1

exp−−

=λ sau s

xx 12exp

−=λ , (3.42)

unde: xn (x1) reprezintă valoarea observată maximă (minimă) ce trebuie verificată, xn-1 (x2) - valoarea anterioară (următoare) din şirul statistic ordonat crescător;

în funcţie de numărul de măsurători şi probabilitatea de acoperire (p) se extrage din tabele λteoretic.

Dacă λexp≤ λteoretic⇒ valoarea analizată se menţine în şir. Dacă λexp> λteoretic⇒ valoarea extremă se elimină din şirul statistic.

Criteriul Grubbs (testul z) În această situaţie, etapele de aplicare a testului sunt: - se ordonează datele crescător; - se calculează x şi s; - se determină valoarea experimentală a testului z cu una dintre relaţiile:

s

xxz

−= max sau

sxxz min' −

= ; (3.43)

- din tabele, în funcţie de q=0,05 şi N (volumul probei) se extrage valoarea lui zteoretic.

34

Page 36: biostatistica forestiera

Interpretare: z, z’≤ zteoretic⇒ valoarea extremă nu se elimină; z, z’> zteoretic⇒ valoarea extremă se elimină.

Criteriul 1,5 IQR Acest criteriu consideră că este aberantă orice valoare situată la mai mult de 1,5 din intervalul intercuartilic sub prima cuartilă sau peste cea de-a treia.

După eliminarea valorilor extreme, toţi indicatorii statistici calculaţi anterior trebuie recalculaţi

35

Page 37: biostatistica forestiera

4. DISTRIBUŢII TEORETICE FRECVENT FOLOSITE ÎN ANALIZA STATISTICĂ A FENOMENELOR DIN SILVICULTURĂ

Distribuţiile de frecvenţă empirice implică date bazate pe observaţii şi experiment, deci obţinute prin măsurare sau numărare. S-a constatat că, plecând de la anumite ipoteze generale se pot deduce matematic unele distribuţii teoretice.

Asimilarea unei distribuţii empirice cu una teoretică prezintă avantajul că la prelucrarea datelor se pot utiliza proprietăţile matematice ale acesteia din urmă. Procesul de înlocuire a unei distribuţii experimentale cu una teoretică cu aceiaşi parametri se numeşte ajustare; aceasta constă, practic, în înlocuirea unui set de valori observate cu o funcţie cât mai apropiată de realitatea fenomenului cercetat. Pentru o distribuţie teoretică este important să se cunoască atât funcţia de frecvenţă (de densitate de probabilitate), cât şi cea de repartiţie. Legea de variaţie a unei caracteristici continue este bine descrisă de funcţia sa de repartiţie.

Dacă x este o variabilă aleatoare reală, funcţia de repartiţie F este definită pentru oricare xi prin relaţia:

Distribuţiile experimentale reprezintă estimaţii ale unor distribuţii teoretice definite prin teoria probabilităţilor. Distribuţiile teoretice servesc drept modele matematice pentru cele experimentale.

. ( ) ( )ii xxPxF <=

Funcţia de repartiţie măsoară, deci, probabilitatea ca variabila aleatoare x să fie mai mică decât o anumită valoare de referinţă xi.

Modelul grafic al funcţiei de repartiţie este cel din figura 10. Probabilitatea ca variabila x să fie mai mică decât un nivel x1 este:

)()( 11 xxPxF <= . (4.1) Analog pentru x2.

36

Page 38: biostatistica forestiera

Figura 10. Modelul grafic general al funcţiei de repartiţie şi al funcţiei de densitate

Funcţia de repartiţie are următoarele proprietăţi:

este o funcţie crescătoare: oricare ar fi x1 şi x2, x2 ≥ x1, ⇒ F(x2) ≥ F(x1);

dacă F este funcţia de repartiţie a variabilei aleatoare x, atunci probabilitatea ca x să fie cuprins între două valori x1 şi x2 (cu x2>x1) se scrie:

( ) ( ) ( )1221 xFxFxxxP −=≤≤ ; (4.2) este evident faptul că funcţia de repartiţie nu este altceva decât o

probabilitate, deci ia valori în intervalul [0,1]; atunci când funcţia F are o derivată continuă, aceasta se utilizează

pentru caracterizarea legii de variaţie a lui x şi se numeşte funcţie de densitate:

( ) ( ) ( )xfdx

xdFxF ==' ; (4.3)

În acest caz:

(4.4) ( ) ( ) dxxfxFx

∫ ∞−=

37

Page 39: biostatistica forestiera

şi . (4.5) ( ) ( ) ( ) 12212

1

xFxFdxxfxxxPx

x−==≤≤ ∫ ( )

Funcţia de densitate are proprietăţile: ( ) 0≥xf ;

(pe grafic, aria suprafeţei cuprinsă între curba f(x)

şi axa absciselor este egală cu unitatea).

( ) 1=∫+∞

∞−dxxf

Valorile tipice mai importante ale unei funcţii de repartiţie sunt valoarea medie (μ) şi dispersia (σ2):

; (4.6) ( ) dxxfx∫+∞

∞−⋅=μ

. (4.7) ( ) ( ) dxxfx2

2 ∫+∞

∞−−= μσ

Aceste relaţii sunt teoretice şi nu determinate experimental pentru o anumită caracteristică în urma măsurătorilor.

4.1 Distribuţia teoretică normală (Gauss-Laplace)

Din repartiţia variabilelor aleatoare s-a ajuns la concluzia că funcţia de repartiţie normală poate fi luată drept model pentru cercetarea probabilistică. Funcţia de densitate (densitatea de probabilitate) a distribuţiei normale are expresia:

( )( )

2

2

2

21,, σ

μ

πσσμ

−−

⋅=x

exf , (4.8)

în care: -∞<x<+∞, μ este media repartiţiei, iar σ este abaterea standard. “Clopotul lui Gauss” (figura 11) are următoarele proprietăţi:

admite un maxim pentru x=μ ; este simetrică în raport cu μ ; modificarea parametrului μ determină deplasarea curbei de-a lungul axei x fără a-i modifica forma; modificarea lui σ duce la lăţirea sau îngustarea curbei fără ca valoarea lui μ să fie afectată; are două puncte de inflexiune, pentru x=μ±σ.

Calculul diferitelor valori ale densităţii de repartiţie f(x) în cazul unei distribuţii normale cu media μ şi varianţa σ2 este greoi şi necesită mult timp.

38

Page 40: biostatistica forestiera

Figura 11. Funcţia de densitate a distribuţiei normale

De aceea s-a efectuat o transformare de variabilă (u=σ

μ−x ),

obţinându-se funcţia normală normată. În acest caz μ’=0 şi σ’=1:

( )

0' =−

=−

== ∑∑∑σ

μσ

μμ

NNx

Nx

Nu

, (4.9)

( ) ( )( ) 1

111 2

2

2

222'' ==

−=

−=

−= ∑∑∑

σσ

σμμ

σN

xN

uNu

, (4.10)

iar funcţia de densitate de probabilitate devine:

( ) 2

2

21 u

euf−

, ( )+∞∞−∈ ,u . (4.11)

Funcţia de repartiţie se obţine prin integrarea funcţiei de densitate de probabilitate şi se numeşte integrala lui Gauss sau integrala erorilor:

sau . (4.12) ( ) ( ) dxxfxFx

∫ ∞−= ( ) ( ) duufuF

u

∫ ∞−=

Aceasta reprezintă aria suprafeţei de sub curba normală de la -∞ la x (sau de la -∞ la u, în cazul normalei normate). Reprezentată grafic, această curbă are dreptele Ox (sau Ou) şi F(x)=1 ( sau F(u)=1) ca asimptote şi un punct de inflexiune pentru x=μ (respectiv, u=0). Cu ajutorul integralei lui Gauss se poate calcula, pentru u1 şi u2 daţi, suprafaţa totală ce se află sub curbă între cele două valori (tabelul 4).

39

Page 41: biostatistica forestiera

Intervalul astfel determinat (u1,u2) se numeşte interval de încredere, iar suprafaţa corespunzătoare, probabilitate de acoperire (p). q=100-p se numeşte probabilitate de transgre-siune sau probabilitate de depăşire.

Aceste probabilităţi se mai numesc praguri de semnificaţie sau nivele de semnificaţie.

Tabelul 4. Nivele de semnificaţie uzuale

u1= u2=x1 − μ

σx2 − μ

σsuprafaţa cuprinsă

(%) -σ σ 68,26 -2σ 2σ 95,44 -3σ 3σ 99,73

-1,96σ 1,96σ 95 -2,58σ 2,58σ 99 -3,29σ 3,29σ 99,9

În lucrările de orice natură care aplică metodele statistice,

indicatorii statistici, odată determinaţi, nu sunt prezentaţi decât însoţiţi de intervalele de încredere corespunzătoare unor probabilităţi de acoperire de referinţă (se folosesc, de obicei, valorile lui p egale cu 95%, 99% sau 99,9%). Interesul pentru legea normală decurge dintr-o teoremă foarte importantă, teorema limitei centrale care se enunţă astfel: Dacă variabilele xi constituie un şir infinit de variabile aleatoare independente având toate legea de repartiţie cu media μ şi varianţa σ2, atunci expresia:

2

1

σ

μ

⋅−∑=

n

nxn

ii

(4.13)

tinde către o variabilă normală redusă, dacă n tinde la +∞. Altfel spus, dacă un fenomen este rezultatul influenţei unei infinităţi de factori (independenţi sau cvasiindependenţi), fiecare dintre aceştia având un rol limitat, măsurarea acestui fenomen se poate efectua

40

Page 42: biostatistica forestiera

cu ajutorul unei variabile aleatoare cantitative a cărei lege de repartiţie se apropie de legea normală normată.

Legea normală este o lege de medie.

Dintre proprietăţile legii normale, două au aplicabilitate practică directă: toate combinaţiile liniare ale legii normale urmează o lege normală; toate legile normale pot fi descrise printr-una singură, cu condiţia să se

schimbe scara de măsură a variabilei prin transformarea deja amintită (ceea ce înseamnă a măsura abaterile mediei în unităţi de abatere standard).

De aceea, în practică, nu se calculează direct probabilitatea evenimentului P(X<x) când X urmează o lege normală de parametri μ şi σ2, ci se determină P(Z<u) unde u=(x-μ)/σ şi în care Z urmează o lege normală redusă de parametri μ=0 şi σ2=1. Ajustarea distribuţiei experimentale după legea distribuţiei normale se realizează tabelar, după modelul prezentat în tabelul 5 (cu datele experimentale corespunzătoare exemplului anterior).

Tabelul 5. Exemplu de ajustare a unei distribuţii experimentale după legea teoretică normală

relative

1 2 3 4 5

20 0 -2,8372 0,007127 0,47 024 0 -2,3797 0,023507 1,55 128 4 -1,9222 0,062890 4,14 432 9 -1,4647 0,136478 8,99 936 18 -1,0072 0,240235 15,83 1640 32 -0,5497 0,343009 22,60 2344 21 -0,0921 0,397252 26,17 2648 21 0,3654 0,373182 24,59 2552 17 0,8229 0,284359 18,73 1956 11 1,2804 0,175755 11,58 1260 5 1,7379 0,088113 5,81 664 4 2,1954 0,035832 2,36 268 2 2,6530 0,011819 0,78 1

TOTAL 144 2,179557 143,59 144

Frecvenţe teoreticeabsolute

6

ins

xxu i

i−

=( )f ui

∧ ( )n N as

f ui i

∧ ∧=

⋅⋅

inix

41

Page 43: biostatistica forestiera

Etapele de lucru sunt: • se determină media aritmetică ( x ) şi abaterea standard (s) printr-un

procedeu cunoscut; • se determină abaterile normate (ui); • în funcţie de valorile abaterilor normate se scot din tabele valorile

( )iuf∧

sau se calculează după funcţia normală normată

( ) 2

2

21 u

euf =−

⋅π

;

• se determină frecvenţele teoretice absolute (∧

in ) şi ajustarea este efectuată.

Reprezentarea grafică a frecvenţelor absolute experimentale şi a celor teoretice (coloanele 2 şi 5 din tabelul 5) arata sugestiv modul de ajustare a distribuţiei empirice utilizând distribuţia teoretică normală (figura 12).

Figura 12. Reprezentarea grafică a ajustării din tabelul 5

Este neapărat necesar să se verifice, prin teste statistice, concordanţa dintre distribuţia experimentală şi cea teoretică (se compară frecvenţele absolute experimentale cu cele teoretice prin utilizarea unor teste statistice, de exemplu testul χ2).

42

Page 44: biostatistica forestiera

Situaţiile în care distribuţia normală poate fi aplicată fenomenelor din silvicultură sunt diverse. Trebuie să fie îndeplinite, însă, anumite condiţii:

populaţia din care se extrage proba să fie omogenă; dacă este cazul, se poate proceda, în prealabil, la stratificarea ei;

caracteristica studiată să rămână sub influenţe aleatoare (întâmplătoare). Apariţia unui factor cu o influenţă puternică determină asimetrii sau excese apreciabile.

4.2 Distribuţia teoretică Charlier (tip A)

Charlier a demonstrat că o distribuţie experimentală poate fi redată printr-o serie de derivate ale funcţiei normale. Funcţia de frecvenţă teoretică are forma:

( ) ( ) ( ) ( )ufEufAufu IVIII

246+⋅−=ϕ , (4.14)

în care: ( )uf este funcţia de frecvenţă a distribuţiei normale normate,

( ) ( )ufuf IVIII , - derivatele de ordin III şi IV ale funcţiei f(u) (valori tabelate - anexa 1- sau calculate în funcţie de valorile ui experimentale), A -indicele asimetriei, E -indicele excesului.

Frecvenţele absolute se determină cu aceeaşi relaţie ca şi în cazul normalei:

( )ii us

aNn ϕ⋅⋅=

, (4.15)

unde: a -amplitudinea unei clase, s -abaterea standard a probei, De observat că această funcţie, ϕ(u), ia în considerare atât asimetria cât şi excesul şi poate fi astfel adaptată la un număr mai mare de distribuţii experimentale. Dacă A=0 şi E=0, distribuţia Charlier se transformă într-o distribuţie normală.

Distribuţia Charlier este o distribuţie normală generalizată. Este indicat să se aplice atunci când asimetria şi excesul au valori semnificative.

43

Page 45: biostatistica forestiera

4.3 Distribuţia binomială

Aceasta mai poartă denumirea de repartiţia lui Bernoulli sau repartiţia newtoniană. Se consideră, ca exemplu, o populaţie de N arbori din care M sunt uscaţi. Analizând câte un arbore, la întâmplare, dintre cei N, se înregistrează prezenţa sau absenţa fenomenului de uscare. Dacă se repetă de n ori experienţa în aceleaşi condiţii şi în mod independent (cu posibilitatea de a „extrage” de mai multe ori acelaşi arbore, adică prin selecţie repetată), numărul r de arbori uscaţi din eşantionul de volum n este valoarea dată de o variabilă aleatoare binomială X de parametri n şi

NMp = .

Se poate demonstra că, pentru orice r întreg cuprins între 0 şi n ( ): nr <<0 ( ) ( ) r

rnrr

nPpprXP C =−⋅== −1 , (4.16)

în care:

( )!!!

rnrnCr

n −⋅= . (4.17)

(observaţie: ). 10

=∑=

n

iiP

În general, considerând o populaţie formată din N unităţi din care se extrage o unitate, probabilitatea ca această unitate să posede caracteristica studiată este , iar probabilitatea evenimentului contrar este . Se poate scrie:

Np

Nq 1=+ NpN q . Prin extragerea din populaţia considerată a unei probe formate din n unităţi prin metoda selecţiei repetate, probabilitatea ca x unităţi să posede caracteristica studiată este dată de funcţia de repartiţie:

( ) ( )xnx qp

xnxnxf −⋅⋅−⋅

=!!

! , (4.18)

în care: n - numărul unităţilor din probă (volumul probei), x - numărul elementelor care prezintă caracteristica studiată, p - probabilitatea apariţiei evenimentului urmărit, q - probabilitatea apariţiei evenimentului contrar. Din motive de comoditate în calcule se aplică relaţia de mai sus numai pentru x=0, caz în care: . (4.19) nqf =)0( Pentru 0>x se utilizează formula de recurenţă:

44

Page 46: biostatistica forestiera

( ) ( )xp

xxnxfxf ⋅

+−

⋅=+1

1 . (4.20)

Principalii indicatori statistici teoretici specifici repartiţiei binomiale sunt:

media npx ⋅= (4.21) dispersia qpn ⋅⋅ (4.22) s =2

Legea distribuţiei binomiale se aplică ori de câte ori fenomenele sunt influenţate de intervenţia unor factori independenţi ale căror probabilităţi de apariţie sunt cunoscute şi au valoare constantă. Ajustarea unei distribuţii experimentale după legea distribuţiei binomiale urmează etapele:

se determină x , p, q: nxp = ; q=1-p; (4.23)

se determină frecvenţele teoretice relative cu relaţia 4.18 pentru x=0 şi cu relaţia 4.19 pentru 0>x ;

se determină frecvenţele teoretice absolute:

; (4.24) ( )iii xfNfNn∧∧∧

⋅=⋅= se compară cele două distribuţii.

Dacă există asemănare între distribuţia teoretică şi cea experimentală a frecvenţelor absolute înseamnă că fenomenul studiat urmează legea distribuţiei binomiale. Trebuie neapărat să se aplice, însă, un test statistic de ajustare. 4.4 Distribuţia Poisson

Este un caz special al distribuţiei binomiale pentru situaţia în care probabilitatea apariţiei unui eveniment este mică, chiar dacă numărul observaţiilor este foarte mare. Din acest motiv se mai numeşte distribuţia evenimentelor rare.

Distribuţia Poisson este un caz limită al distribuţiei binomiale pentru ∞→n şi , produsul 0→p λ=⋅ pn fiind constant.

Dacă se consideră că N arbori reprezintă o populaţie de 50000 ha şi considerând că se extrage la întâmplare o suprafaţă de 0,1 ha în care se numără x arbori uscaţi (în ipoteza prealabilă privind omogenitatea repartizării arborilor uscaţi, nu în grupuri sau aglomerări pe anumite direcţii), valoarea x poate fi considerată ca valoarea luată de o variabilă

45

Page 47: biostatistica forestiera

aleatoare X care urmează o lege Poisson de parametru λ (λ este numărul mediu de arbori dintr-o suprafaţă de probă de 0,1 ha; x=λ ). Variabila X poate lua toate valorile întregi pozitive sau nule, după funcţia de frecvenţă a distribuţiei Poisson:

( ) ( )xfxexXP

x

=⋅

==−

!

λλ , (4.25)

în care: 2sx ==λ . (4.26) Relaţia de mai sus se aplică pentru Pentru

este comod să se aplice relaţia de recurenţă:

λ−=⇒= efx )0(0 .0>x

( ) ( )1

1+

⋅=+x

xfxf λ . (4.27)

Domeniul de aplicativitate este relativ restrâns. Există unele caracteristici în domeniul entomologiei, al protecţiei pădurilor, al vânătoarei, care urmează legea distribuţiei Poisson. Etapele de ajustare a distribuţiei experimentale după legea Poisson sunt:

se determină media aritmetică x ; se determină dispersia s2; se compară x cu s2; numai dacă cele două valori sunt egale sau

foarte apropiate se poate trece la ajustare; se determină frecvenţele teoretice relative cu relaţia directă sau prin

formula de recurenţă (pentru 0>x ); se determină frecvenţele teoretice absolute:

; (4.28) ii fNn∧∧

⋅= se verifică dacă există concordanţă între cele două distribuţii

(printr-un test de concordanţă). Alte funcţii teoretice foarte flexibile care se folosesc în

silvicultură pentru caracterizarea structurii arboretelor echiene sunt distribuţiile din sistemul Pearson. 4.5 Distribuţia Beta

Funcţia de densitate de probabilitate beta este, în cazul general:

)1(11 )()()(),(

1)( −+−−− −−⋅−⋅= βαβα

βαabxbax

Bxf , (4.29)

bxa ≤≤ , 0>α , 0>β , unde: (4.30)

)()()()1(),(

1

0

11

βαβαβα βα

+ΓΓ⋅Γ

=−= ∫ −− dtttB , (4.31)

Γ fiind funcţia gamma, tratată pe larg în subcapitolul 4.7.

46

Page 48: biostatistica forestiera

Dacă se face schimbarea de variabilă abaxy

−−

= se obţine funcţia

de densitate de probabilitate a legii beta standard:

⎪⎩

⎪⎨⎧ <<−⋅⋅

=−−

yvaloricelelaltepentru

ypentruyyByf

0

10)1(),(

1)(

11 βα

βα (4.32)

În această formă, parametrii α şi β se pot estima cu relaţiile:

( ) ( )⎥⎦

⎤⎢⎣

⎡−⎥⎦

⎤⎢⎣⎡ −⋅

⋅−=⎥⎦

⎤⎢⎣

⎡−⎥⎦

⎤⎢⎣⎡ −⋅

⋅= 11)1(ˆ;11ˆ22 s

yyys

yyy βα , (4.33)

în care y şi reprezintă media aritmetică şi, respectiv, varianţa valorilor experimentale y (frecvenţelor relative).

2s

Pornind de la funcţia de densitate de probabilitate de tip beta scrisă sub forma (Leahu, I., 1984): , (4.34) 11 )()()( −− −−⋅= βα xbaxconstxfparametrii pot fi estimaţi cu relaţiile:

1

1)1(ˆ

22

+

−+

=zzsz

relβ şi , (4.35) 1ˆˆ −⋅= βα z

rel

rel

xx

z−

=1

, (4.36)

∫ −− −−= b

a

dxabax

Nconst11 )()( βα

, (4.37)

iar semnificaţia celorlalte notaţii este: x - centrele claselor formate pentru caracteristica studiată;

a, b - valorile minimă şi, respectiv, maximă ale acestei caracteristici (pentru gruparea în k clase de amplitudine h, acestea sunt:

21hxa −= ;

2hxb k += );

N - numărul total de arbori din eşantion; s2 - dispersia (varianţa);

α, β - parametrii exponenţiali ai distribuţiei beta;

relx - media în valori relative ⎟⎠⎞

⎜⎝⎛

−−

=abaxxrel ;

2srel - varianţa în valori relative ( ) ⎟⎟

⎞⎜⎜⎝

−= 2

22

abssrel .

47

Page 49: biostatistica forestiera

4.6 Alte funcţii din sistemul distribuţiilor lui Pearson

Sistemul întreg al distribuţiilor Pearson cuprinde, în afară de repartiţia normală, alte 7 tipuri (I÷VII) de curbe diferite, unele cu 2-3 subtipuri, rezultând 13 curbe diferite (Leahu, I., 1984). În notaţia acestora, indicele i desemnează o curbă cu un maxim (unimodală), indicele u arată că este vorba despre o curbă convexă, iar j indică o curbă descrescătoare.

Pentru arboretele echiene, prezintă interes următoarele tipuri şi subtipuri de funcţii din sistemul Pearson:

Ii (k< 0) y yx

ax

a

m m

= ⋅ +⎛

⎝⎜

⎠⎟ −

⎝⎜

⎠⎟0

1 21 1

1 2

, (4.38)

IIi (k=0; r3=0; r4< 3) y y xa

m

= ⋅ −⎛

⎝⎜

⎠⎟0

2

21 , (4.39)

IIIi (k=± ∞) axp

p

eaxyy

⋅−⋅⎟

⎠⎞

⎜⎝⎛ +⋅= 10 , (4.40)

V (k=1) y y x ep x= ⋅ ⋅− −

0

γ

şi (4.41)

Vii (1< k< ∞) . (4.42) ( )y y x a xm m= ⋅ − ⋅ −0

1 2

Tipul de repartiţie ce trebuie folosit se determină cu parametrul k, calculat cu relaţia:

( )( )116

2 223

+⋅+⋅

−=SS

, în care ( )

62316

423

34

+−−−⋅

=μμμμS , (4.43)

A≅3μ (momentul centrat de ordinul 3 ≅ indicele asimetriei) şi

34 +≅ Eμ (momentul centrat de ordinul 4 ≅ indicele excesului + 3). După cum se observă, distribuţiile Pearson se determină pe baza

valorilor indicilor asimetriei şi excesului pentru distribuţia experimentală. Parametrii a1 şi a2 definesc amplitudinea de variaţie a variabilei x,

iar exponenţii m1 şi m2 indică înclinarea curbei pe laturile distribuţiei. Dezavantajele folosirii distribuţiilor Pearson constau în faptul că

sunt necesare valorile extreme ale diametrelor (supuse unor evidente fluctuaţii) şi implică determinări manuale laborioase (aspect contracarat prin folosirea de programe specializate pentru calculatoarele electronice).

48

Page 50: biostatistica forestiera

Mai puţin folosite, dar cu aplicabilitate demonstrată pentru caracterizarea structurii arboretelor în funcţie de diametru, sunt distribuţiile gama şi Weibull. 4.7 Distribuţia Gamma

Distribuţia gamma generalizată este o distribuţie triparametrică care are, într-o primă formă parametrii k, β şi θ :

β

θβ

θθβ ⎟

⎠⎞

⎜⎝⎛−−⋅

⋅⎟⎠⎞

⎜⎝⎛⋅

⋅Γ=

xk

exk

xf1

)()( . (4.44)

Prin transformările de parametri:

⎟⎠⎞

⎜⎝⎛⋅+= 2

1ln1)ln(λβ

θμ , kβ

σ 1= şi

k1

=λ , (4.45)

se obţine distribuţia gamma triparametrică în forma:

⎪⎪⎪⎪

⎪⎪⎪⎪

=⋅⋅⋅

≠⋅⎟⎠⎞

⎜⎝⎛Γ

⋅⋅=

⎟⎠⎞

⎜⎝⎛ −

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

⎡−⎟

⎠⎞

⎜⎝⎛+

−−

−−

02

1

01

1)(

2

2

ln

2

ln21

1lnln

2

λπσ

λ

λσ

λ

σμ

λλσ

μλ σ

μλ

dacăex

dacăexxf

x

exx

(4.46)

Aşa cum se poate observa, distribuţia gamma generalizată este de o complexitate ridicată, iar determinarea parametrilor este destul de dificilă. Acestea sunt motivele pentru care nu este foarte frecvent utilizată pentru ajustarea distribuţiilor experimentale. Există, însă, programe de calcul dedicate a căror folosire contracarează inconvenientele menţionate.

Folosirea acestei distribuţii este recomandată mai ales pentru faptul că include, pentru anumite valori ale parametrilor, câteva alte distribuţii de bază (Weibull atunci când 1=λ , distribuţia exponenţială pentru 1=λ şi 1=σ , distribuţia lognormală dacă 0=λ , distribuţia gamma biparametrică pentru σλ = ).

49

Page 51: biostatistica forestiera

Funcţia de densitate de probabilitate a distribuţiei gamma biparametrică este definită pentru x>0 prin:

βαα αβ

x

exxf−

− ⋅⋅Γ⋅

= 1

)(1)( , (4.47)

unde α>0 este parametrul de formă şi β>0, parametrul de scară. )(αΓ este funcţia gamma a cărei relaţie este:

. (4.48) ∫∞

−−=Γ0

1)( dyey yαα

Pentru 1=β se obţine forma standard a distribuţiei gamma:

xexxf −−

Γ= 1

)(1)( α

α cu , 0>x 0>α . (4.49)

O proprietate a acestei funcţii este pusă în evidenţă de relaţia )()1( ααα Γ⋅=+Γ ; cum 1)1( =Γ , atunci !)1( αα =+Γ pentru toate

valorile α întregi pozitive. Pentru diferite valori ale parametrilor α şi β se obţin diverse

forme de distribuţii teoretice (figura 13).

Figura 13. Forme ale distribuţiei teoretice gamma

Atunci când α este întreg şi pozitiv, distribuţia gamma este întâlnită în literatura de specialitate şi sub denumirea de distribuţia Erlang.

50

Page 52: biostatistica forestiera

Această distribuţie teoretică se caracterizează prin media aritmetică egală cu βα ⋅ şi varianţa . 2βα ⋅

De aceea, o primă modalitate de estimare a parametrilor distribuţiei gamma este:

2

2

ˆsx

=α , xs 2

ˆ =β , (4.50)

astfel încât x=⋅ βα ˆˆ , x şi sunt media aritmetică, respectiv varianţa distribuţiei experimentale ce trebuie ajustată.

2s

Metoda verosimilităţii maxime aplicată în cazul distribuţiei gamma estimează parametrii acesteia cu relaţiile:

⎟⎟⎠

⎞⎜⎜⎝

⎛++⋅=

3411

41ˆ AA

α şi α

βˆ

ˆ x= , (4.51)

în care N

xxA ∑−=

)ln()ln( , N fiind volumul populaţiei statistice

analizate. Funcţia de repartiţie gamma (reprezentată în figura 14) este:

dxexdxxfxFx xx

∫∫−

−⋅Γ⋅

==0

1

0 )(1)()( βα

α αβ. (4.52)

Figura 14. Funcţia de repartiţie gamma biparametrică

51

Page 53: biostatistica forestiera

Notându-se βxt = se obţine forma incompletă a funcţiei gamma:

∫ −−⋅Γ

=x

t dtetxF0

1

)(1)( α

α. (4.53)

Trebuie remarcat faptul că funcţia gamma nu este definită pentru x=0, ceea ce poate fi un impediment în ajustare. Pentru 1=α distribuţia

gamma se transformă într-o distribuţie exponenţială cu β

λ 1= . Aceasta

are funcţia de densitate de probabilitate: (4.54) texf ⋅−⋅= λλ)(şi funcţia de repartiţie: , (4.55) texF ⋅−−= λ1)(

pentru care media aritmetică este egală cu λ1 , mediana este

λ2ln şi

varianţa 2

.

O altă bine cunoscută distribuţie statistică, , este de asemenea un caz special al distribuţiei gamma. Distribuţia cu n grade de

libertate este, de fapt, o distribuţie gamma cu

2χ2χ

2n

=α şi 2=β .

4.8 Distribuţia Weibull

Repartiţia Weibull biparametrică face legătura cu legea exponenţială, fiind considerată chiar o generalizare a acesteia.

Densitatea de probabilitate a legii Weibull are forma:

(4.56) ( )f xpentru x

x e pentru xx, ,β λ β λ β λ β=≤

⋅ ⋅ ⋅ >⎧⎨⎩

− − ⋅

0 001

în care cei doi parametri sunt strict pozitivi (β>0; λ>0). Se observă că pentru β=1 repartiţia Weibull devine o repartiţie

exponenţială; pentru β<1 curba este descrescătoare, convexitatea ei accentuându-se cu cât β este mai mic.

Pentru β>1 curba este concavă, cu cât β este mai mare, graficul funcţiei având o formă tot mai pronunţată de clopot (pentru 1<β<3,6 curba este în clopot cu asimetrie de stânga, pentru β=3,6 curba aproximează legea normală a lui Gauss, iar pentru β>3,6 curba este în

52

Page 54: biostatistica forestiera

clopot cu asimetrie de dreapta). Parametrul β determină, deci, forma distribuţiei Weibull.

Funcţia de repartiţie pentru legea Weibull este:

(4.57) ( )F xpentru x

e pentru xx, ,β λ λ β=≤

−⎧⎨⎩

− ⋅

0 01 > 0

Uneori, în practică, este necesară exprimarea legii Weibull într-o formă mai avantajoasă prin introducerea unui parametru de scară reală, η, prin substituirea:

λη β=1

. (4.58)

Deci β λη 1

= , iar expresia densităţii de probabilitate a legii

Weibull biparametrice devine:

fx x

ex

ηβ

βη η

βη

β

,⎛⎝⎜

⎞⎠⎟ = ⋅

⎛⎝⎜

⎞⎠⎟ ⋅

− −⎛⎝⎜

⎞⎠⎟1

. (4.59)

Legea Weibull triparametrică reprezintă varianta completă a acestei legi, obţinută prin introducerea unui parametru de iniţializare (de poziţie), γ, care realizează o translatare pe axa x. Funcţia densităţii de probabilitate devine:

( )f xx

ex

, , ,η β γβη

γη

β γη

β

= ⋅−⎛

⎝⎜

⎞⎠⎟ ⋅

− −−⎛

⎝⎜

⎞⎠⎟1

, (4.60)

iar funcţia de repartiţie este:

( )F x ex

, , ,η β γγ

η

β

= −−

−⎛⎝⎜

⎞⎠⎟

1 , (4.61) ambele valabile pentru x>0.

Se precizează faptul că η şi γ se exprimă în aceleaşi unităţi de măsură ca şi x.

Datorită faptului că estimarea simultană a celor trei parametri este destul de puţin fiabilă pentru că furnizează abateri mult prea mari pentru o utilizare ulterioară a acestei curbe, este preferabil să se estimeze numai parametrii de formă (β) şi de scară (η) considerând originea (γ) fixă într-un anumit interval. B.Lemoine (et al., 1991) ajunge la concluzia că valorile cele mai mici ale lui χ2, obţinute prin compararea distribuţiilor experimentale cu distribuţia teoretică Weibull, corespund

53

Page 55: biostatistica forestiera

unor valori ale lui γ cât mai apropiate de minimul valorilor observate. Aceeaşi remarcă este făcută de Bailey (et al., 1973; citaţi de J.Pardé şi J.Bouchon, 1988). 4.9 Alte distribuţii descrescătoare

Arboretele pluriene, naturale sau grădinărite, au o structura specifică a distribuţiei arborilor pe categorii de diametre: forma curbei de frecvenţe este descrescătoare, frecvenţele maxime fiind mereu la categoriile de diametre mici.

Meyer propune pentru caracterizarea structurii arboretelor pluriene o funcţie de forma: , (4.62) xekn ⋅−⋅= αˆîn care reprezintă numărul de arbori pe categorii de diametre, k şi α, parametri, iar x, categoriile de diametre.

n

Aceasta relaţie sintetizează observaţiile anterioare ale lui Liokourt potrivit cărora repartizarea pe categorii de diametre a numărului de arbori în arboretele pluriene se face după o progresie geometrică.

Prin logaritmarea relaţiei lui Meyer, aceasta se liniarizează, α devenind coeficient unghiular (valoarea lui α este negativă).

Funcţia lui Meyer este considerată, totuşi, prea rigidă şi nu are încă o justificare ecologică.

Există propuneri pentru folosirea unor funcţii mai elastice: funcţia Weibull, funcţiile Pearson sau funcţiile exponenţiale ale lui Caussinus şi Rollet.

Din sistemul funcţiilor Pearson se pot utiliza distribuţia beta şi cea de tip Ij, aceasta din urmă având forma:

2

1

2

10

1

1

m

m

ax

ax

yy

⎟⎟⎠

⎞⎜⎜⎝

⎛−

⎟⎟⎠

⎞⎜⎜⎝

⎛+

⋅= , (4.63)

notaţiile fiind cele de la relaţiile anterioare. Funcţia exponenţială a lui Rollet are forma:

( )αθθαθ

θα xxa ee

exf ⋅⋅−

+⋅− −⋅⋅−−

⋅+= 1

)1(1)1()( 1 , (4.64)

unde: x este categoria de diametre (cu amplitudinea de l cm), a - categoria de diametre inferioară, α, θ - parametri experimentali.

54

Page 56: biostatistica forestiera

5. TEHNICA SONDAJULUI

5.1 Metoda selectivă

Caracterizarea numerică a proceselor din silvicultură rareori poate fi efectuată pornind de la înregistrări integrale. Aceasta, pentru că:

în multe situaţii s-ar distruge întreg materialul analizat, din motive obiective (costuri, imposibilitate tehnică etc.)

înregistrarea totală este imposibil de aplicat. În aceste cazuri se aplică metode de selecţie prin înregistrări parţiale sau sondaje. Se impune în prezent, în condiţiile unei silviculturi moderne, o cunoaştere tot mai aprofundată a fenomenelor din interiorul pădurii şi a efectelor intervenţiilor silviculturale asupra stării fondului forestier, ceea ce nu se poate realiza decât prin metode bazate pe eşantionaj. Din multitudinea problemelor de studiu abordate prin metoda selectivă se pot menţiona: inventarierea fondului de producţie, controlul calităţii anumitor produse (a materialului de împădurire, a

sortimentelor de material lemnos), studiul defectelor lemnului, controlul eficacităţii măsurilor de combatere a dăunătorilor, cunoaşterea în timp scurt a caracteristicilor procesului de producţie şi

a factorilor ce-l influenţează etc.

Sondajul reprezintă o cercetare parţială al cărei scop este cel de a estima parametrii populaţiei totale pe baza rezultatelor obţinute pentru un eşantion riguros prelevat (prin aplicarea principiilor teoriei probabilităţilor).

Cercetarea prin sondaj îşi extinde continuu aria de investigare datorită multiplelor avantaje în comparaţie cu observarea tuturor elementelor populaţiei:

operativitate şi volum mic de cheltuieli materiale şi de manoperă, posibilitatea studierii amănunţite a eşantionului (ceea ce nu s-ar putea realiza pentru întreaga populaţie), fapt ce duce la obţinerea unor informaţii complexe şi calitativ superioare,

partea supusă înregistrării fiind mult mai redusă decât întreaga populaţie statistică, erorile de înregistrare sunt mai puţin numeroase

55

Page 57: biostatistica forestiera

şi mai uşor de înlăturat în faza de verificare a datelor; rezultă o calitate superioară a rezultatelor obţinute prin sondaj.

Teoria sondajelor se bazează pe legea numerelor mari care, în

esenţă, este formulată astfel: se poate afirma cu o probabilitate apropiată de unitate (100%) că, în cazul unui număr suficient de mare de unităţi cercetate, indicatorii medii ce caracterizează eşantionul diferă cu o cantitate foarte mică de cei care caracterizează populaţia din care acesta a fost extras.

Esenţa sondajului constă în alegerea dintr-o populaţie ce

constituie obiectul studiului, a unei asemenea părţi (eşantion, probă, mostră sau selecţie) care poate să reprezinte întreaga populaţie.

Populaţia reprezintă totalitatea unităţilor simple sau complexe care formează obiectul cercetării prin sondaj. O asemenea cercetare trebuie să înceapă cu delimitarea în timp şi în spaţiu a populaţiei. Populaţiile pot fi: reale sau ipotetice, finite sau infinite.

Trebuie subliniat faptul că noţiunea de populaţie nu se referă la indivizii fizici, la obiecte sau la evenimente, ci la observaţiile ce pot fi făcute cu privire la acestea.

O populaţie este formată din totalitatea observaţiilor efectuate.

Cercetarea parţială al cărei scop este ca, pe baza rezultatelor prelucrării datelor obţinute, să se estimeze, prin aplicarea principiilor teoriei probabilităţilor, parametrii corespunzători populaţiei totale, se numeşte sondaj statistic.

Situaţiile în care se utilizează cu precădere tehnica sondajelor sunt: atunci când măsurarea implică distrugerea elementelor observate,

atunci când cercetarea statistică totală implică cheltuieli prea mari,

atunci când populaţia vizată este practic infinită.

56

Page 58: biostatistica forestiera

Eşantionul reprezintă o parte sau un număr de elemente ale populaţiei totale. Operaţia de constituire a eşantionului se numeşte eşantionare.

Prin estimaţie se înţelege operaţia de extindere, in limitele specificate de incertitudinea exprimată în termeni probabilistici, a rezultatelor obţinute în sondaj asupra întregii populaţii.

Estimaţiile reprezintă evaluări aproximative ale adevăratelor valori ale parametrilor estimaţi. Eroarea estimaţiei îi afectează precizia, iar estimarea parametrului general se face printr-un interval de estimare numit şi interval de încredere.

Considerând că acest interval are limita inferioarăθ şi limita superioară θ , pentru parametrul real θ este îndeplinită următoarea relaţie de probabilitate:

( ) αθθθ −=<< 1P , (5.1) în care 1-α este nivelul de încredere (α este pragul de semnificaţie).

Jumătatea intervalului de încredere se numeşte eroare limită admisă şi se notează cu:

( )2

θθ −=Δ x . (5.2)

Metoda selectivă constă, deci, în determinarea parametrilor populaţiei formate din N elemente cu ajutorul valorilor observate xi (i=1, …,n) pentru n elemente extrase din respectiva populaţie. Evident n<N, n fiind volumul selecţiei.

Condiţiile în aplicarea metodei selective sunt:

eşantionul trebuie extras astfel încât să fie reprezentativ pentru populaţia studiată. Este echivalent acest lucru cu faptul că structura probei trebuie să fie apropiată de structura întregii populaţii; modalitatea practică de extragere a unităţilor ce formează eşantionul trebuie să fie astfel aleasă încât fiecare unitate să aibă aceeaşi şansă de a face parte din probă (evitarea subiectivismului eşantionării); populaţia din care se extrage eşantionul să fie cât mai omogenă; uneori este necesară împărţirea în subpopulaţii omogene (stratificare).

57

Page 59: biostatistica forestiera

Un eşantion trebuie să fie reprezentativ. Situaţia contrară este cea a unui eşantion deformat sau deplasat.

„Biais” este termenul specific preluat din literatura de specialitate străină, semnificaţia lui (fără a putea găsi un corespondent exact în limba română) fiind cea a unei deformaţii sistematice, neîntâmplătoare, a unei serii de date dintr-o cercetare (Clocotici,V., Stan, A., 2000)

Diferenţele structurale dintre populaţie şi eşantioane nu pot fi înlăturate total, dar pot fi minimizate prin tehnicile de realizare a sondajului.

Rezultatele sondajului sunt cu atât mai reprezentative pentru întreaga populaţie cu cât erorile introduse prin însuşi procedeul de eşantionaj sunt mai mici.

Eroarea de sondaj este abaterea care există între valoarea calculată prin prelucrarea datelor din eşantion şi cea care s-ar fi obţinut dacă s-ar fi organizat o observare totală (pentru întreaga populaţie).

Erorile de sondaj pot fi: erori de înregistrare şi erori de reprezentativitate.

Erorile de înregistrare sunt comune tuturor tipurilor de sondaje şi pot fi evitate prin folosirea unui personal specializat şi printr-un control riguros al înregistrărilor.

Erorile de reprezentativitate sunt specifice fiecărui sondaj în parte şi pot fi sistematice sau întâmplătoare.

Cauzele producerii erorilor de reprezentativitate sistematice pot fi: alegerea deliberată a unor date considerate în mod greşit ca fiind reprezentative; dorinţa preconcepută a cercetătorului de a obţine un anumit rezultat; substituirea unei unităţi de cercetare cu alta ce oferă o mai mare comoditate în obţinerea datelor; realizarea unui sondaj incomplet (necuprinderea în sondaj a tuturor unităţilor stabilite).

Trebuie remarcat faptul că într-un sondaj erorile sistematice sunt mai puţin numeroase şi mai puţin grave decât în cazul observării totale.

Erorile aleatoare de selecţie (sau de reprezentativitate) se produc chiar dacă se respectă riguros principiile teoriei selecţiei deoarece eşantionul nu reproduce decât cu o oarecare aproximaţie distribuţia variabilelor populaţiei.

58

Page 60: biostatistica forestiera

Procedeele de înlăturare (sau de reducere, numai) a erorilor aleatoare de reprezentativitate constau în mărirea volumului eşantionului şi în alegerea unui tip de sondaj adecvat scopului cercetării.

Erorile de reprezentativitate pot fi estimate cu anticipaţie şi trebuie ataşate fiecărui indicator statistic atunci când este generalizat la întreaga populaţie.

Colectivităţile de selecţie pot fi formate în mod:

sistematic (mecanic), randomizat (aleatoriu, la întâmplare).

Selecţia sistematică se aplică diferit în funcţie de volumul colectivităţii statistice şi constă în alegerea în mod mecanic, la intervale egale, a unităţilor de selecţie, după ce s-a stabilit în prealabil pasul de selecţie sau de numărare. Procedeul mecanic de formare a eşantionului presupune ca elementele colectivităţii generale supuse cercetării să fie prelevate după un interval determinat care se aplică bazei de sondaj.

De exemplu, dacă volumul eşantionului ar fi 1/10 din cel al colectivităţii generale, includerea unităţilor statistice în eşantion se face din 10 în 10 începând cu un element ales la întâmplare din populaţie.

Selecţia randomizată constă în extragerea întâmplătoare a unităţilor din populaţie pentru constituirea eşantionului. Se bazează pe principiul asigurării şanselor egale de a fi inclusă în selecţie pentru fiecare unitate statistică. În acest scop se pot utiliza tabele cu numere întâmplătoare sau o urnă din care se extrag numerele de ordine ale unităţilor selectate. Utilizarea tabelelor cu numere aleatoare constă în preluarea din cadrul populaţiei a acelor unităţi statistice ale căror numere de ordine prestabilite au fost citite după o anumită ordine din tabel. Există şi algoritmi ce generează numere aleatoare.

Selecţia randomizată poate fi repetată sau nerepetată. În cazul selecţiei repetate, fiecare unitate extrasă şi cercetată

(observată sau măsurată) se introduce din nou în populaţie, având posibilitatea de a mai fi extrasă ulterior; volumul populaţiei rămâne constant pe parcursul selecţiei.

La selecţia nerepetată, unitatea odată extrasă nu se mai reinclude în populaţie; volumul colectivităţii generale scade la fiecare extragere cu câte o unitate. În această situaţie, fiecare unitate poate fi inclusă doar o singură dată în eşantion.

59

Page 61: biostatistica forestiera

Selecţia randomizată prezintă următoarele avantaje: valorile medii ale caracteristicilor studiate se distribuie după legea normală, permite un calcul riguros şi o estimare corectă a erorii de reprezentativitate.

Dezavantajele ar fi: posibilitatea unei repartizări neuniforme a unităţilor selectate în cadrul colectivităţii generale, rămânând anumite zone nereprezentate în eşantion, metoda este mai complicată în cazul în care populaţia cercetată este mare şi procentul de selecţie ridicat.

Una dintre problemele puse teoriei selecţiei a fost stabilirea modului în care se calculează eroarea întâmplătoare de reprezentativitate ce va interveni în cercetarea selectivă, înainte ca această cercetare să se fi efectuat.

Dacă s-ar înregistra toate unităţile componente ale unei populaţii, s-ar putea determina valoarea reală a mediei (μ) care nu ar fi afectată de erori de reprezentativitate (sau eroarea de reprezentativitate ar fi nulă).

În cazul unui eşantion, media calculată x (media de selecţie) se abate cu atât mai mult de la media populaţiei (μ) cu cât volumul n al probei este mai mic.

Cel mai potrivit indicator sintetic pentru calcularea anticipată a erorii întâmplătoare de reprezentativitate, confirmat de experienţa practică, este media pătratică a tuturor erorilor de reprezentativitate posibile, pentru eşantioane de volum egal n extrase din populaţia cu N unităţi.

Aşa cum s-a arătat la indicii de variaţie ai distribuţiilor empirice, mărimea abaterilor medii pătratice ale tuturor mediilor de sondaj de la media populaţiei totale depinde de abaterea medie pătratică (abaterea standard) a populaţiei respective (σ) şi de volumul eşantioanelor (n), conform relaţiei:

nx

σσ = . (5.3)

Când colectivitatea generală ce urmează să fie caracterizată pe baza cercetării selective nu a fost supusă unei înregistrări totale anterioare, dispersia caracteristicii studiate se stabileşte experimental pe baza unei mostre de cel puţin 120 de unităţi (σ2 ≈ s2 ⇒ σ ≈ s).

Relaţia de mai sus devine:

60

Page 62: biostatistica forestiera

nssx = . (5.4)

xs este considerată, deci, unitatea de măsură a erorii medii de reprezentativitate. Determinată în acest mod, aceasta este valabilă pentru selecţia repetată (atunci când o unitate extrasă este reintrodusă în populaţie şi are şansa de a fi extrasă din nou).

Situaţia aceasta se întâlneşte rar în practică, cazul uzual fiind cel al selecţiei nerepetate, atunci când volumul N al populaţiei scade cu o unitate pentru fiecare nou element inclus în eşantion. În acest caz, eroarea medie de reprezentativitate se calculează cu

relaţia:

1−

−⋅=

NnN

nssx , (5.5)

în care: N este numărul de unităţi din populaţie, n- numărul de unităţi din probă,

xs - abaterea standard a mediei aritmetice (eroarea de reprezentativitate), s - abaterea standard a caracteristicii studiate.

Se observă că, pentru populaţii ce se pot aproxima ca fiind infinite (N foarte mare), eroarea de reprezentativitate depinde numai de mărimea probei şi într-o măsură foarte mică de mărimea populaţiei:

11111

≈−≈−

−−

=−−

Nn

Nn

NN

NnN (5.6)

Practic, pentru N>100 şi 05,0≤Nn , eroarea de reprezentativitate

este nssx = şi în cazul selecţiei nerepetate.

Pentru caracterizarea gradului de apropiere a mediei sondajului faţă de media populaţiei se impune şi calcularea limitelor de încredere pentru media populaţiei, cu relaţiile: xstx ⋅± pentru volume mici şi (5.7) xsux ⋅± pentru volume mari. (5.8)

Pentru analize comparative este utilă calcularea expresiei procentuale a erorii de reprezentativitate:

61

Page 63: biostatistica forestiera

100% ⋅=xs

s xx (%). (5.9)

În cazul cercetării selective este posibilă obţinerea numai a unui rezultat dintr-o serie întreagă de rezultate diferite.

Toate rezultatele posibile se împart în două grupe (figura 15): rezultate care pot fi acceptate pentru că mediile de selecţie ce s-ar obţine diferă în plus sau în minus faţă de media generală μ cu o mărime ce nu prejudiciază scopul în care se utilizează aceste rezultate;

rezultate care nu pot fi acceptate pentru că mediile de selecţie diferă în plus sau în minus faţă de media generală cu o mărime ce prejudiciază scopul practic în care se utilizează datele cercetării selective.

Figura 15. Intervalul de variaţie a mediei aritmetice a

caracteristicii studiate

Pentru a asigura reprezentativitatea eşantionului este necesar să se limiteze intervalul în interiorul căruia poate varia media caracteristicii studiate, stabilindu-se mărimea erorii limită admise (Δx).

Eroarea limită a mediei de selecţie este o mărime constantă fixată teoretic de cercetător înainte de efectuarea cercetării selective, în urma unei analize în care se ţine seama de dispersia caracteristicii studiate, de scopul în care vor fi utilizate rezultatele cercetării, de un anumit volum preconizat pentru eşantion şi de probabilitatea cu care se trebuie garantate rezultatele.

Cum μ, media generală, trebuie să fie în interiorul intervalului de încredere, se poate scrie pentru cazurile de limită: xx Δ±=μ , (5.10)

adică μ poate fi egală cel mult cu limitele intervalului de încredere. Se deduce astfel că eroarea medie admisă Δx este: xx st ⋅=Δ (sau xx su ⋅=Δ ). (5.11)

Deci, pentru sondajul simplu repetat:

62

Page 64: biostatistica forestiera

nstx ⋅=Δ , (5.12)

iar pentru sondajul simplu nerepetat:

Nn

nst

NnN

nstx −⋅⋅≈

−−

⋅⋅=Δ 11

, (5.13)

t sau u exprimând probabilitatea cu care se garantează rezultatele. În mod logic, determinarea mărimii eşantionului ar fi trebuit să

preceadă expunerea modului de determinare a erorii de reprezentativitate, dar tocmai în formula erorii sunt sintetizate elementele necesare pentru stabilirea volumului eşantionului.

În teoria şi practica sondajelor se operează cu eşantioane mari şi eşantioane de volum redus, în funcţie de gradul de omogenitate a populaţiei.

Interpretarea erorii de reprezentativitate se face în mod diferit: pentru eşantioane cu volum mare se foloseşte distribuţia normală (u), pentru eşantioane cu volum redus se foloseşte distribuţia Student (t).

Din reprezentarea grafică următoare (figura 16) se observă modul de variaţie a erorii de reprezentativitate în funcţie de numărul de unităţi din eşantion. Volumul probei nu poate fi prea mic (sub o valoare n1) pentru că în acest caz eroarea de reprezentativitate ar creşte la valori inadmisibile. Un volum al probei peste n2 nu se justifică pentru că eroarea de reprezentativitate ar scădea insesizabil. Există, deci, o zonă de optim în care, în funcţie de eroarea limită admisă, se stabileşte volumul eşantionului.

Figura 16. Modul de variaţie a erorii de reprezentativitate în funcţie de volumul probei

63

Page 65: biostatistica forestiera

Organizarea unei cercetări prin sondaj presupune dimensionarea raţională a eşantionului. Un volum mare al probei, conform legii numerelor mari, sporeşte precizia rezultatelor. Ţinând cont de criteriile de economicitate, însă, volumul eşantionului trebuie să fie cât mai mic. În practică se determină numărul minim de unităţi ce trebuie observate astfel încât să fie satisfăcute exigenţele de precizie şi siguranţă formulate în raport cu costurile cercetării. Pentru eşantioanele cu volum mic (sub 30 de unităţi):

⇒⎟⎠⎞

⎜⎝⎛ −⋅

⋅≈

−−

⋅⋅=Δ⇔−−

⋅⋅=ΔNn

nst

NnN

nst

NnN

nst xx 1

11

22222

222

2222

222

stNstNnst

Nstn

xx ⋅+Δ⋅

⋅⋅=⇒⋅=⎟⎟

⎞⎜⎜⎝

⎛ ⋅+Δ⋅⇒ . (5.14)

Pentru eşantioanele cu volum mare (peste 30 unităţi) în locul lui t se foloseşte u:

222

22

suNsuNn

x ⋅+Δ⋅⋅⋅

= . (5.15)

Atunci când 05,0≤Nn , se porneşte de la relaţia:

2

22222

xxx

stnnst

nst

Δ⋅

=⇒⋅

=Δ⇒⋅=Δ , (5.16)

respectiv:

2

22

x

sunΔ⋅

= . (5.17)

Relaţiile pot fi aplicate şi cu înlocuirile: 100% ⋅=xss şi

100% ⋅Δ

=Δx

x .

Problema determinării numărului de unităţi pentru un eşantion de volum mare este simplă pentru că se utilizează valorile cunoscute ale lui u (u0,05=1,96; u0,01=2,58; u0,001=3,29). Dacă volumul probei este mic, se procedează astfel: se utilizează formulele cu u pentru populaţii finite sau infinite (cu luarea în considerare a lui N sau nu) şi se determină volumul provizoriu al probei, n’:

2

22

'x

sunΔ⋅

= sau 222

22

'suN

suNnx ⋅+Δ⋅

⋅⋅= , (5.18)

64

Page 66: biostatistica forestiera

dacă n’ este sub 30, se recalculează volumul folosind relaţia cu t a cărui valoare se ia din tabele pentru n’-1 grade de libertate, rezultând n’’, dacă n’’ diferă de n’, se recalculează volumul probei pentru t aflat în funcţie de n’’-1 grade de libertate, se continuă până când ultimele două valori succesive ale volumului probei, rotunjite la întreg, sunt egale.

În cazul caracteristicilor alternative fiecare unitate elementară inclusă în probă poate prezenta sau nu caracteristica studiată (de exemplu: arbore cu fenomen de uscare – arbore sănătos).

Dacă a este numărul unităţilor ce prezintă caracteristica urmărită, din cele n unităţi incluse în eşantion, eroarea de reprezentativitate, în cazul sondajului simplu nerepetat, este:

( )1

1−−

⋅−⋅

=N

nNn

pps p , (5.19)

unde nap = , iar N este volumul populaţiei studiate.

În cazul sondajului simplu repetat sau pentru populaţii considerate

infinite şi 05,0≤Nn :

( )n

pps p−⋅

=1 . (5.20)

Numărul de unităţi din sondaj se stabileşte, în funcţie de volumul populaţiei, cu una dintre relaţiile:

( )( )ppuN

ppuNnp −⋅⋅+Δ⋅

−⋅⋅⋅=

11

22

2

, respectiv ( )2

2 1

p

ppunΔ

−⋅⋅= , (5.21)

în care se poate utiliza şi p% cu condiţia ca Δp, eroarea limită admisă, să fie exprimată de asemenea procentual (Δp%). Concluzionând asupra modului de lucru în aplicarea metodei selective, etapele de lucru sunt următoarele: se stabileşte eroarea limită admisă (în valori absolute sau în %); de obicei Δ% se alege între 1% şi 10% în funcţie de natura fenomenului cercetat, de exigenţă şi de posibilităţile materiale; se optează pentru un prag de semnificaţie (probabilitate de transgresiune), de obicei 5%, iar pentru cercetări pretenţioase, 1% sau 0,1%, se stabileşte abaterea standard sau coeficientul de variaţie pentru caracteristica analizată; se folosesc, eventual, valorile acestora determinate prin cercetări anterioare în condiţii similare, se determină volumul probei cu una dintre relaţiile prezentate anterior.

65

Page 67: biostatistica forestiera

5.2 Metoda secvenţială

Pe lângă înregistrarea integrală şi metoda selectivă, atunci când apare problema practică de a verifica unele caracteristici calitative ale populaţiei studiate, de a testa expeditiv elementele din cadrul acesteia, poate fi aplicată metoda secvenţială.

Metoda secvenţială se deosebeşte de metoda selectivă prin faptul că volumul eşantionului nu este cunoscut cu anticipaţie.

Se aplică mai ales pentru controlul calităţii produselor, controlul gradului de poluare etc. şi ori de câte ori fenomenul studiat prezintă două stări de manifestare posibile (uscat – sănătos, corespunzător calitativ – rebut etc.). În cazul acestei metode, propusă de Wald (1947), verificarea ipotezei nule se efectuează după extragerea şi observarea fiecărei unităţi din populaţie. S-a observat că, în comparaţie cu metodele clasice, numărul de observaţii poate să se reducă la jumătate chiar. Pe baza unui eşantion redus (chiar de o unitate sau două) se pot lua decizii rapide de acceptare sau de respingere a ipotezei nule. Controlul calităţii produselor fiind domeniul în care se aplică frecvent sondajul secvenţial, se va prezenta modul de folosire a metodei în acest scop. Se presupune că este studiată o caracteristică oarecare xi care ia valoarea 0 dacă produsul controlat corespunde din punct de vedere calitativ sau valoarea 1 dacă acesta este necorespunzător (rebut). Dacă s-ar inventaria întreaga populaţie (formată din N unităţi) s-ar constata că aceasta conţine D unităţi defecte, proporţia acestora fiind

NDp = .

Dat fiind că nu se face o analiză integrală, p rămâne necunoscută, dar se pot formula următoarele ipoteze, prin verificarea cărora, după fiecare unitate testată, se pot lua anumite decizii:

acceptarea lotului, dacă se verifică ipoteza H0: 1pp ≤ respingerea lotului, dacă se verifică ipoteza alternativă H1:

2pp ≥ continuarea verificării prin extragerea unei alte unităţi din

populaţie (lot), dacă datele obţinute la un moment dat nu oferă temei suficient de respingere sau acceptare.

66

Page 68: biostatistica forestiera

Pentru că este vorba despre un control, pe baza unei probe, acesta nu oferă certitudini, ci presupuneri asupra acceptării sau respingerii întregului lot. Acest lucru prezintă anumite riscuri de a lua o decizie eronată, care sunt de două tipuri:

α, riscul de genul I sau riscul furnizorului, este riscul de a respinge un lot bun (de a respinge ipoteza H0 cu toate că aceasta, printr-o analiză integrală, s-ar dovedi adevărată).

β, riscul de genul II sau riscul beneficiarului, este riscul de a

accepta un lot necorespunzător (de a respinge ipoteza H1 cu toate că în realitate ea este adevărată sau de a accepta ipoteza H0 atunci când ea este eronată).

Ori de câte ori va exista într-un lot o proporţie a defectelor p2 sau mai mare, beneficiarul va dori să suporte un risc foarte mic de acceptare a lotului (cel mult β).

Ori de câte ori va exista într-un lot o proporţie a defectelor p1 sau mai mică, furnizorul va dori să suporte un risc foarte mic de respingere (cel mult α).

Între p1, p2, α şi β există relaţiile: 10 21 ≤≤≤ pp (5.22)

11210 ≤−≤≤≤ αβ (5.23)

N

pp 112 ≥− (5.24)

Alte notaţii efectuate: m - numărul de unităţi testate (controlate), T1 - dreapta de acceptare (numărul maxim de rebuturi din unităţile

testate m, pentru care se acceptă întreg lotul), T2 - dreapta de respingere (numărul minim de rebuturi din cele m unităţi

testate, pentru care se respinge întreg lotul), Σxi - numărul total de rebuturi (suma rebuturilor) găsite printre cele m

unităţi controlate.

67

Page 69: biostatistica forestiera

Pentru populaţii infinite sau cu volum mare (N > 3000) se procedează astfel:

se calculează valorile T1 şi T2 (ecuaţiile dreptelor T1 şi T2) cu relaţiile:

11 hmkT +⋅= (5.25) 22 hmkT +⋅= , (5.26) în care:

( )( )21

121

11lg

1lg

pppp

h

−⋅−⋅

−= αβ

, ( )( )21

122

11lg

1lg

pppp

h

−⋅−⋅

= αβ

, (5.27)

iar: (( )

)21

12

2

1

11lg

11lg

pppp

pp

k

−⋅−⋅

−−

= . (5.28)

se rezolvă tabelar sau grafic prin continuarea sondajului atât timp cât Σxi este cuprinsă între T1 şi T2; dacă Σxi > T2 lotul se respinge, iar dacă Σxi < T1, lotul se acceptă. Tipul de grafic utilizat este redat în figura 17.

Figura 17. Grafic pentru analiza secvenţială în cazul

unei populaţii infinite Pentru populaţiile finite (N < 3000 unităţi), modelul matematic este altul:

dreptele de acceptare şi de respingere nu mai sunt paralele, ci se intersectează într-un punct P (x, y):

68

Page 70: biostatistica forestiera

⎪⎪⎩

⎪⎪⎨

+⋅−

=

=

5,0ln

1

2

12 N

pp

ppy

Nx

(5.29)

punctele de intersecţie între dreptele de control şi abscisă sunt (m1, 0) şi (m2, 0) cu:

( )

⎥⎥

⎢⎢

⎡⎟⎠⎞

⎜⎝⎛

−−⋅=

−⋅ 12

1

1 11

ppNNm

αβ şi

( )

⎥⎥

⎢⎢

⎡⎟⎠⎞

⎜⎝⎛ −

−⋅=−⋅ 12

1

211

ppNNm

αβ , (5.30)

acestea, împreună cu punctul P (x, y) determinând dreptele T1 şi T2. există o a treia dreaptă de control:

NpT ⋅= 13 (5.31) rezolvarea cea mai comodă este cea grafică, continuându-se

sondajul până când Σxi iese din zona de continuare fie în cea de respingere, fie în cea de acceptare, aceste zone fiind delimitate ca în figura 18.

Figura 18. Grafic pentru analiza secvenţială în cazul unei populaţii cu volum mic

69

Page 71: biostatistica forestiera

6. VERIFICAREA IPOTEZELOR STATISTICE

Studiul fenomenelor din silvicultură se face pe colectivităţi de volum mare. În consecinţă, se renunţă la observarea întregii populaţii şi se fac măsurători numai pe probe sau eşantioane de volum mai mic.

Potrivit legii numerelor mari, influenţa cauzelor întâmplătoare asupra diferenţelor dintre indicii statistici ai probelor se poate diminua pe măsură ce se măreşte numărul observaţiilor. Se pot pune în evidenţă, astfel, numai diferenţele cauzate de factori obiectivi.

Posibilităţile de majorare a numărului observaţiilor fiind limitate în practică, apare necesitatea formulării unor concluzii generale pe baza eşantioanelor de volum mic. Indicatorii statistici calculaţi trebuie analizaţi, aşadar, sub aspectul semnificaţiei lor înainte de a-i considera ca bază teoretică pentru caracterizarea fenomenului studiat. 6.1 Teste statistice

A testa semnificaţia unui indicator statistic înseamnă a determina dacă abaterea acestuia este de natură aleatoare sau obiectivă (semnificativă). S-au elaborat diverse criterii şi metode specifice ştiinţelor experimentale pentru testarea semnificaţiei. Se formulează iniţial o ipoteză statistică reprezentând o presupunere privitoare la parametrii unei distribuţii sau la legea de repartiţie pe care o urmează anumite variabile. Această ipoteză este formulată pe baza datelor experimentale de care se dispune la un moment dat şi, după ce este analizată, este acceptată sau respinsă.

Frecvent, ipoteza statistică utilizată este ipoteza nulă (H0) care constă în presupunerea că abaterea indicatorilor determinaţi pe baza probelor faţă de parametrii întregii populaţii este 0.

Cealaltă posibilitate se numeşte ipoteza alternativă (H1).

Cu ajutorul unui test statistic sau test de semnificaţie se decide acceptarea sau respingerea ipotezei nule. Acceptarea ipotezei nule înseamnă preferarea acesteia faţă de ipoteza alternativă. Se desprinde concluzia că între valorile comparate (două valori experimentale sau o valoare experimentală şi una teoretică) nu există diferenţe prea mari sau că aceste diferenţe sunt întâmplătoare. Respingând H0, se acceptă semnificaţia abaterilor existente (se acceptă H1, ipoteza alternativă).

70

Page 72: biostatistica forestiera

Nu se poate pretinde că decizia de acceptare sau respingere a ipotezei nule este corectă în toate cazurile pentru că se bazează numai pe o selecţie de volum n din populaţia întreagă (de volum N). Este posibilă, deci, o eroare. Deciziile se iau cu o probabilitate de eroare q (probabilitate de transgresiune sau prag de semnificaţie), care în general se alege 5%, 1% sau 0,1%.

Eroarea care apare în cazul respingerii H0 cu toate că ea este, în realitate, adevărată, se numeşte eroare de genul I. Decizia greşită de a accepta ipoteza H0, falsă în realitate, se numeşte eroare de genul II.

La examinarea semnificaţiei se folosesc anumite teste: teste de conformitate, utilizate pentru compararea unei populaţii

teoretice cu o probă din punct de vedere al mediilor, abaterii standard, varianţei, coeficientului de corelaţie etc.;

teste de egalitate sau omogenitate, care permit compararea unui număr de populaţii prin intermediul unui număr egal de probe extrase din acestea (omogenitatea mediilor, a varianţelor, a coeficienţilor de corelaţie etc.);

teste de ajustare, folosite pentru compararea a două distribuţii (experimentală cu teoretică sau distribuţii experimentale între ele);

teste de independenţă, care permit să se verifice dacă două sau mai multe criterii de clasificare sunt sau nu independente.

Luarea unei decizii cu privire la o anumită ipoteză statistică se numeşte testare. Testarea constă în alegerea unui test statistic corespunzător şi stabilirea unui prag de semnificaţie; rezultă o anumită valoare teoretică pentru testul respectiv.

dacă valoarea estimată a testului este mai mică decât

valoarea teoretică, se admite ipoteza nulă; dacă valoarea estimată este mai mare decât valoarea

teoretică, ipoteza nulă se respinge.

Prin metodele de examinare a semnificaţiei, ipoteza nulă poate fi respinsă, dar nu poate fi niciodată dovedită. Se poate susţine, cel mult, că ipoteza respectivă nu se află în discordanţă cu datele experimentale. Asigurarea statistică înseamnă o probabilitate mică a ipotezei contrare.

71

Page 73: biostatistica forestiera

6.2 Repartiţii utilizate pentru testări

În cazul testării ipotezei nule se folosesc variabile aleatoare de testare care urmează legi teoretice de repartiţie.

6.2.1 Repartiţia normală

Dacă variabilele de testare au o repartiţie normală, q corespunde probabilităţii de transgresiune. La o anumită probabilitate de eroare, q,

corespunde σ

μ−=

xu ; în general, μ şi σ sunt presupuse cunoscute

numai pentru selecţii mari şi sunt estimaţi prin x şi s. Probabilitatea de transgresiune de 5% corespunde unei valori a lui

u=1,96. În acest caz se respinge ipoteza nulă dacă valoarea uexp calculată din selecţie îndeplineşte condiţia uexp>uteoretic=1,96 şi se acceptă dacă uexp≤uteoretic=1,96.

6.2.2 Repartiţia t (Student)

Procedeul descris pentru repartiţia normală nu mai este valabil în cazul în care μ şi σ sunt necunoscuţi şi trebuie estimaţi prin x şi s pe baza unei selecţii de volum mic (N<100). În această situaţie se foloseşte repartiţia t a lui Student care ia în considerare, pe lângă probabilitatea de transgresiune, şi volumul probei.

Pentru valori din ce în ce mai mari ale lui N această repartiţie devine din ce în ce mai apropiată de repartiţia normală şi coincide cu aceasta atunci când N→∞. Repartiţia t este tabelată pentru anumite praguri de semnificaţie q şi diferite grade de libertate f. Numărul gradelor de libertate este egal cu diferenţa dintre volumul selecţiei şi numărul caracteristicilor luate în considerare (f=N-m).

6.2.3 Repartiţia F (Fisher)

Fie două eşantioane de volum n1 şi, respectiv, n2 extrase dintr-o populaţie normală şi s1

2 şi s22 cele două varianţe corespunzătoare

acestora.

Se formează raportul 22

21

exp ssF = . Repartiţia frecvenţelor acestor

valori a fost studiată de Fisher şi se numeşte repartiţia F. Aceasta depinde de pragul de semnificaţie q (probabilitatea de

transgresiune) şi de gradele de libertate f1=n1-1 şi f2=n2-1, a fost tabelată şi serveşte la compararea a două dispersii.

Fiind raportul a două pătrate, F ia numai valori pozitive.

72

Page 74: biostatistica forestiera

6.2.4 Repartiţia χ2

În strânsă legătură cu teoria erorilor a lui Gauss, a fost studiată suma pătratelor unor variabile repartizate normal. Fie X1, X2, ..., Xn, n variabile aleatoare independente care au aceeaşi repartiţie normală de parametri μ şi σ2.

Repartiţia sumei de pătrate:

(∑=

−=n

kkx

1

22

2 1 μσ

χ ) , (6.1)

în care x1, x2, ..., xn sunt valori ale variabilelor aleatoare X1, X2, ..., Xn, a fost numită de K.Pearson repartiţia χ2. Aceasta depinde de pragul de semnificaţie q şi de gradele de libertate f şi este tabelată pentru aceste valori.

Este folosită frecvent la compararea unei distribuţii experimentale cu una teoretică sau a două distribuţii experimentale între ele. 6.3 Verificarea concordanţei dintre distribuţia experimentală şi cea teoretică

Verificarea corespondenţei dintre repartiţiile teoretice şi cele empirice (testul de ajustare) se face, de obicei, cu ajutorul criteriului χ2.

Se formulează de la început ipoteza că distribuţia experimentală urmează legea distribuţiei teoretice (normală, Charlier, binomială, Poisson etc), deci că diferenţele dintre distribuţii sunt nule (ipoteza nulă- H0). Verificarea ipotezei nule prin testul χ2 necesită respectarea unor condiţii: numărul observaţiilor să fie suficient de mare (să intre sub incidenţa

legii numerelor mari), frecvenţele distribuţiei experimentale să fie exprimate în valori

absolute, numărul grupelor (claselor) formate să fie cel puţin egal cu 5, volumul grupelor să fie suficient de mare (frecvenţa absolută să fie cel

puţin egală cu 5); dacă există grupe cu frecvenţe mai mici, acestea se vor contopi.

Relaţia de calcul este:

∑=

⎟⎠⎞

⎜⎝⎛ −

=k

ii

ii

n

nn

1

2

2χ . (6.2)

73

Page 75: biostatistica forestiera

Calculul se desfăşoară tabelar (tabelul 6), după modelul testării normalităţii distribuţiei empirice a diametrelor de bază exemplificate anterior.

Tabelul 6. Exemplu de aplicare a testului χ2

1 2 3 4

20 0 024 0 128 4 432 9 936 18 16 0,25040 32 23 3,52244 21 26 0,96248 21 25 0,64052 17 19 0,21156 11 12 0,08360 5 664 4 268 2 1

TOTAL 144 144 6,183

0,071

0,444

ininix∧

⎟⎠⎞

⎜⎝⎛ −

i

ii

n

nn2

se însumează ultima coloană şi se obţine χ2exp.

din tabele se extrage χ2teoretic în funcţie de probabilitatea de

transgresiune (pragul de semnificaţie) q= 0,05 şi numărul gradelor de libertate f.

1−−= nkf , (6.3) în care : k - numărul claselor rămase după eventuala grupare a claselor extreme; n - numărul momentelor luate în calcul la determinarea distribuţiei

teoretice: n = 1 la distribuţia Poisson şi binomială, n = 2 la distribuţia normală,

n = 4 la distribuţia Charlier tip A, n = 0 atunci când se compară două distribuţii empirice.

74

Page 76: biostatistica forestiera

Pentru exemplul considerat, 2

exp =χ , (pentru probabilitatea de transgresiune 5% şi 5 grade de libertate).

, ceea ce înseamnă că distribuţia experimentală este bine ajustată de distribuţia teoretică normală (se acceptă ipoteza nulă).

183,6 070,112 =teoreticχ

22exp teoreticχχ <

6.4 Examinarea semnificaţiei diferenţei dintre dispersii

Prin compararea dispersiilor se pot scoate în evidenţă particularităţile colectivităţilor cercetate (omogenitatea lor). Se aplică, deci, un test de egalitate sau de omogenitate.

6.4.1 Compararea unei dispersii experimentale (s2) cu o dispersie teoretică cunoscută (σ2)

Etapele testării în acest caz sunt: se determină varianţa experimentală s2 în cadrul unei probe extrase din

colectivitatea studiată; se face raportul s2/σ2; se determină f=N-1 (numărul gradelor de libertate); din tabele se extrage χ2

teoretic în funcţie de pragul de semnificaţie q şi de f;

se calculează raportul χ2/f.

Dacă s2/σ2≤χ2/f⇒ diferenţa dintre dispersii este nesemnificativă. Dacă s2/σ2>χ2/f⇒ diferenţa dintre dispersii este semnificativă.

Dacă χ2

exp≤χ2teoretic⇒ se acceptă ipoteza nulă care

consideră că între distribuţiile comparate nu sunt diferenţe semnificative.

Dacă χ2exp>χ2

teoretic⇒ nu există concordanţă între cele două distribuţii şi se respinge ipoteza nulă.

6.4.2 Verificarea semnificaţiei diferenţei dintre două dispersii experimentale

În acest caz se foloseşte testul Fisher (F). Aplicarea se face în mai multe etape: se determină varianţele s1

2 şi s22 corespunzătoare celor două

colectivităţi de volum egal sau diferit (N1 şi N2);

75

Page 77: biostatistica forestiera

se determină valoarea teoretică a lui F în funcţie de probabilitatea de transgresiune q şi f1=N1-1 şi f2=N2-1 (din tabele);

se compară Fteoretic cu Fexperimental= 22

21

ss , cu condiţia Fexperimental≥1

(întotdeauna varianţa mai mare se află la numărător).

6.4.3 Verificarea omogenităţii mai multor dispersii

În această situaţie se poate aplica testul Hartley (H): se calculează dispersiile s1

2, s2 , ..., sn2 ale celor n colectivităţi egale ca

volum (N) şi se identifică dispersia maximă şi cea minimă; 2

se determină 2min

2max

exp ss

H = ;

se calculează numărul gradelor de libertate f=N-1; în funcţie de probabilitatea de transgresiune (q), numărul gradelor de

libertate (f) şi numărul de probe comparate (n) se extrage din tabele valoarea Hteoretic.

Dacă Hexp≤Hteoretic⇒ probele sunt omogene, deci dispersiile analizate se consideră estimaţii ale aceleiaşi dispersii teoretice generale (σ2).

Dacă Hexp>Hteoretic⇒ eşantioanele nu sunt omogene din punct de vedere al varianţelor, (nu provin din aceeaşi populaţie sau populaţia nu este omogenă şi necesită stratificarea).

Dacă Fexperimental≤Fteoretic⇒ diferenţa dintre cele două dispersii este nesemnificativă (reprezintă, ambele, estimaţii ale aceleiaşi dispersii teoretice σ2).

Dacă Fexperimental >Fteoretic⇒ diferenţă semnificativă între dispersii.

76

Page 78: biostatistica forestiera

6.5 Teste de conformitate. Compararea mediilor

6.5.1 Intervalul de încredere al mediei aritmetice

Datorită variabilităţii individuale şi a volumului variabil al probelor extrase din populaţiile studiate, în practică valoarea determinată a mediei aritmetice trebuie însoţită de intervalul de încredere cores-punzător probabilităţii de transgresiune acceptate (5%, 1% sau 0,1%). Modul de determinare a intervalului de încredere diferă după cum abaterea standard teoretică a populaţiei din care s-a extras eşantionul este sau nu cunoscută.

În cazul când se cunoaşte σ (sau când există un număr mare de observaţii: N>100), abaterea standard a mediei aritmetice se calculează în acest caz cu relaţia cunoscută:

N

sx

σ= . (6.4)

Intervalul de încredere va fi: ( )

xsux ⋅± . (6.5)

Pentru u egal cu 1,96, 2,58 sau 3,29 există o siguranţă statistică (probabilitate de acoperire) de 95%, 99% sau, respectiv, 99,9% ca adevărata medie a populaţiei studiate (μ) să se găsească în intervalul de încredere calculat cu relaţia anterioară.

În practică există puţine situaţii în care se cunoaşte cu anticipaţie valoarea teoretică a abaterii standard. Pentru unele caracteristici biometrice au fost stabilite, totuşi, valori orientative ale coeficientului de variaţie (σ%). Se poate aproxima astfel abaterea standard:

100

%σσ

⋅≈

x, (6.6)

în care x este media aritmetică experimentală. Pot fi utilizate valori ale abaterii standard obţinute prin cercetări

anterioare, efectuate în condiţii similare. În cazul când abaterea standard teoretică nu se cunoaşte, în

locul variabilei normale normate u se utilizează valoarea lui t (testul Student). Limitele intervalului de încredere vor fi definite de expresia:

Nstxstx

x⋅±=⋅± . (6.7)

t se extrage din tabele în funcţie de probabilitatea de transgresiune q şi de numărul gradelor de libertate f=N-1.

77

Page 79: biostatistica forestiera

Deci, spre deosebire de cazul anterior, coeficientul de multiplicare a erorii mediei aritmetice se determină nu numai în funcţie de probabilitatea de transgresiune ci şi de numărul de observaţii din cadrul probei. Metoda se foloseşte şi atunci când N≤100 (pentru probe de volum mic). Pentru un număr mare de observaţii, intervalul determinat prin această metodă se suprapune peste intervalul determinat prin folosirea lui u.

6.5.2 Compararea a două medii aritmetice

Se întâlnesc situaţii, în lucrările curente, când este necesară compararea a două sau mai multe medii rezultate prin luarea în considerare a unor colectivităţi diferite (eşantioane diferite extrase din aceeaşi populaţie de volum mare sau din populaţii diferite). O condiţie ce trebuie îndeplinită este aceea a normalităţii populaţiilor considerate. Problema se rezolvă diferit, după cum dispersiile aproximează aceeaşi varianţă σ2 a populaţiei întregi. Este necesară o primă etapă, testul Fisher (F), pentru stabilirea semnificaţiei diferenţei dintre varianţele celor două probe:

122

21

exp ≥=ssF . (6.8)

Fexp se compară cu Fteoretic luat din tabele în funcţie de proba-bilitatea de transgresiune q (cu valorile obişnuite 5% şi 1%) şi de numă-rul gradelor de libertate pentru probele comparate (f1=N1-1; f2=N2-1).

Dacă Fexp≤Fteoretic 5% ⇒ diferenţa între cele două dispersii este nesemnificativă;

Pentru a avea o anumită acoperire statistică, intervalul de încredere al mediei aritmetice se măreşte în cazul unui număr mic de unităţi N în probă. De asemenea, intervalul de încredere se extinde pe măsură ce scade probabilitatea de transgresiune.

Dacă Fteoretic 5%<Fexp≤Fteoretic 1% ⇒ există o diferenţă semnificativă între dispersiile celor două eşantioane;

Dacă Fexp>Fteoretic 1% ⇒ există o diferenţă distinct semnificativă între cele două probe din punct de vedere al variaţiei caracteristicii analizate.

78

Page 80: biostatistica forestiera

Etapa a doua constă în aplicarea testului t (Student) pentru compararea mediilor aritmetice ale celor două probe ( 1x şi 2x ). Dacă la prima etapă a rezultat o diferenţă nesemnificativă între varianţele şi , se poate calcula o varianţă medie ca medie ponderată în raport cu numărul gradelor de libertate pentru cele două probe:

21s 2

2s 2s

21

2221

212

fffsfs

s+

⋅+⋅= . (6.9)

Abaterea standard medie va fi:

2ss = , (6.10)

iar valoarea experimentală a testului t se obţine cu relaţia:

21

21exp 11

NNs

xxt

+⋅

−= . (6.11)

Dacă la prima etapă a rezultat o diferenţă cel puţin semnificativă între varianţele şi nu este permis calculul unei varianţe medii, ci se determină direct texp cu relaţia:

21s 2

2s

2

22

1

21

21exp

Ns

Ns

xxt

+

−= . (6.12)

şi se calculează corecţia c:

2

22

1

21

1

21

Ns

Ns

Ns

c+

= , (6.13)

în care este varianţa care s-a aflat la numărătorul lui Fexp în prima etapă.

21s

În ambele situaţii, tteoretic se extrage din tabele în funcţie de probabilitatea de transgresiune (q=5%) şi numărul gradelor de libertate pentru ansamblul format din cele două probe. În primul caz: 22121 −+=+= NNfff , (6.14)

79

Page 81: biostatistica forestiera

iar în cel de-al doilea:

( )

2

2

1

2 11

fc

fc

f−

+= . (6.15)

texp≤ tteoretic⇒ diferenţă nesemnificativă între mediile aritmetice

ale celor două probe; texp> tteoretic⇒ diferenţă semnificativă între medii.

6.6 Compararea efectului a două tratamente prin metoda cuplurilor

În practică se întâlnesc două situaţii diferite: • când unităţile cercetate sunt omogene din punct de vedere al

procedeului utilizat (tratamentului), se împart în două grupe egale şi fiecare se consideră ca selecţie extrasă din aceeaşi populaţie. Modul de calcul este identic cu cel aplicat la compararea mediilor.

• atunci când unităţile cercetate nu sunt omogene, se extrag perechi de valori (cupluri) şi se studiază efectul celor două procedee (tratamente) în paralel, într-o formă tabelară ca în figura 19.

Procedeul (tratamentul) Numărul perechii

(cuplului)A xi1

B xi2

Diferenţe di=xi1-xi2

di2

Figura 19. Model de tabel pentru aplicarea metodei cuplurilor Etapele de lucru sunt:

se grupează unităţile statistice în n cupluri de valori; se calculează, pentru fiecare pereche, di şi di

2; se determină ∑ id şi ∑ 2

id ;

se calculează media diferenţelor:

nd

d i∑= ; (6.16)

se determină dispersia şi abaterea standard pentru aceste diferenţe:

( )

1

2

2

2

−=

∑ ∑

nnd

ds

ii

d ; 2dd ss = ; (6.17)

80

Page 82: biostatistica forestiera

se calculează :

nsdtd

⋅=exp ; (6.18)

se compară cu tteoretic extras din tabele în funcţie de probabilitatea de transgresiune (q=5%) şi numărul gradelor de libertate f=n-1.

Dacă texp≤ tteoretic⇒ diferenţa între cele două procedee este nesemnificativă;

Dacă texp> tteoretic⇒ cele două procedee (tratamente) diferă semnificativ.

Procedeul prezentat are avantajul că studiind perechile de unităţi se elimină variabilitatea din cadrul populaţiei (sursă de erori întâmplătoare) şi rămân numai abaterile datorate procedeelor diferite aplicate. 6.7 Examinarea semnificaţiei diferenţei dintre două proporţii

În situaţia în care se pune problema comparării a două proporţii de manifestare a unui fenomen analizat în cadrul unor eşantioane de volum N1 şi N2, pentru testarea semnificaţiei diferenţei dintre acestea se procedează în modalitatea prezentată în continuare.

Presupunem că în proba de volum N1 se observă fenomenul studiat în a1 cazuri, iar în proba de volum N2, de a2 ori.

Proporţiile rezultate sunt:

1

11 N

ap = şi

2

22 N

ap = . (6.19)

Pentru întreaga populaţie:

21

21

NNaa

p++

= . (6.20)

Se aplică testul u:

( ) ⎟⎟⎠

⎞⎜⎜⎝

⎛+−

−=

21

21exp

111NN

pp

ppu . (6.21)

În cazul unor eşantioane de volum mic (N< 30) se aduc corecţii proporţiilor calculate:

1

11 21'N

pp −= ; 2

22 21'N

pp += . (6.22)

81

Page 83: biostatistica forestiera

uexp se compară cu uteoretic la o anumită probabilitate de transgresiune.

Dacă uexp≤ uteoretic⇒ diferenţă nesemnificativă între proporţii;

Dacă uexp> uteoretic⇒ diferenţă semnificativă între proporţii.

82

Page 84: biostatistica forestiera

7. COMPARAREA MAI MULTOR PROBE PRIN ANALIZA VARIANŢEI

Asupra unei colectivităţi pot acţiona simultan mai mulţi factori ce generează o anumită fluctuaţie a valorilor caracteristicii cercetate, fluctuaţie redată printr-o dispersie mai mare sau mai mică. Pentru evidenţierea influenţei fiecărui factor asupra variaţiei indicatorilor statistici se utilizează analiza varianţei sau analiza dispersională.

Analiza varianţei ca metodă statistică are drept scop scindarea dispersiei totale în categorii de variaţie, în vederea stabilirii celor mai importanţi factori ce influenţează fenomenul studiat.

Varianţa totală este formată din suma varianţelor datorate factorilor luaţi în studiu, pe de o parte, şi dintr-o varianţă reziduală a cărei cauzalitate nu este cunoscută în momentul analizei, pe de altă parte. Varianţa reziduală se datorează acţiunii unor factori neluaţi în considerare, unor erori de măsurare etc. Aceasta se foloseşte ca unitate de măsură pentru examinarea semnificaţiei celorlalte componente ale varianţei totale. Condiţii de aplicare a analizei varianţei sunt: probele considerate trebuie să fie omogene; constituirea probelor trebuie să fie făcută randomizat (extragerea la

întâmplare a unităţilor din populaţie); probele trebuie să fie extrase din populaţii normale sau aproape

normal distribuite; numărul observaţiilor trebuie să fie suficient de mare, astfel încât să

intre sub incidenţa legii numerelor mari. 7.1 Ecuaţia analizei varianţei

Presupunem că se compară I probe (eşantioane) egale, fiecare având J unităţi (indivizi). Se admite că probele provin din populaţii normal distribuite şi cu aceeaşi abatere standard (σ) a caracteristicii studiate; s-a verificat, deci, faptul că varianţele calculate pentru cele I probe sunt omogene (aproximează aceeaşi varianţă generală σ2). Eşantioanele au fost extrase randomizat şi independent unele faţă de altele. Scopul analizei este acela de a testa dacă cele I probe diferă statistic unele faţă de altele (mai exact, dacă există cel puţin două probe

83

Page 85: biostatistica forestiera

care diferă măcar semnificativ între ele) şi, eventual, de a ordona probele în funcţie de un anumit criteriu.

Notaţiile efectuate pentru această analiză sunt: i - eşantioanele; i=1, ..., I ; j - unităţile (indivizii) fiecărui eşantion; j=1, ..., J; xij - valoarea caracteristicii studiate pentru unitatea j din proba i.

Pentru fiecare eşantion i se poate scrie: ijiij exx += , cu j=1, ..., J (7.1)

ix reprezintă media aritmetică a valorilor caracteristicii studiate, în eşantionul i, iar eij este abaterea faţă de media ix a fiecărei valori individuale xij.

Considerând X , media tuturor valorilor caracteristicii studiate (a celor I⋅ J valori xij), se poate scrie: ijij EXx += , (7.2) în care Eij este abaterea fiecărei valori individuale xij faţă de media generală X . Din relaţiile anterioare se obţine: ( ) ( ) ( ) ijiiijiijij eXxxxXxXxE +−=−+−=−= , (7.3) iar prin ridicare la pătrat: ( ) ( )XxeeXxE iijijiij −⋅⋅++−= 2222 . (7.4)

Însumând pătratele erorilor pentru toate cele I⋅ J valori:

( ) ( )∑∑∑∑∑∑∑∑= == == == =

−⋅⋅++−=I

i

J

jiij

I

i

J

jij

I

i

J

ji

I

i

J

jij XxeeXxE

1 11 1

2

1 1

2

1 1

2 2 . (7.5)

Ultimul termen al sumei se mai poate scrie:

( ) ( ) ( )[ ] ( ) 02...21 11

21 =⎥⎦

⎤⎢⎣

⎡⋅−⋅=−++−+−⋅ ∑ ∑∑

= ==

I

i

J

jiji

I

iiijiiii eXxXxeXxeXxe ,

pentru că: pentru fiecare i, deci pentru fiecare probă, ( Xxi − ) este constantă, iar

0 (una dintre proprietăţile mediei aritmetice). 1

=∑=

J

jije

Se obţine:

( ) ∑∑∑∑∑= === =

+−⋅=I

i

J

jij

I

ii

I

i

J

jij eXxJE

1 1

2

1

2

1 1

2 . (7.6)

Aceasta este ecuaţia analizei varianţei, care mai poate fi scrisă şi în forma: Q = QF +QE , (7.7)

84

Page 86: biostatistica forestiera

După modul de grupare a observaţiilor, analiza varianţei poate fi:

simplă: când valorile individuale se grupează după un singur criteriu (monofactorială);

dublă: când valorile individuale se grupează după două criterii (bifactorială);

multiplă: multifactorială.

Importanţa analizei varianţei constă în:

permite evaluarea eficacităţii diverselor procedee experimentale prin stabilirea intensităţii reale a factorilor ce generează variabilitatea;

permite determinarea corectă a valorilor experimentale ale indicilor statistici şi a erorilor acestora.

7.2 Analiza simplă a varianţei

Desfăşurarea calculelor are loc în funcţie de modul de organizare a lucrărilor experimentale, implicând o anumită metodă de prelucrare a datelor. Pentru analiza simplă a varianţei cu număr egal de observaţii în grupe se parcurg etapele prezentate în continuare.

Pentru număr inegal, modul de aplicare a metodei este deosebit doar în ceea ce priveşte calculul sumei pătratelor abaterilor

Atunci când se cercetează concomitent doi sau mai mulţi factori se urmăreşte atât acţiunea izolată a fiecăruia cât şi interacţiunea lor.

Ecuaţia analizei varianţei arată că: Suma pătratelor abaterilor totale (Q) poate fi împărţită în două componente aditive: • QF , o sumă a pătratelor abaterilor factoriale sau interpopulaţionale

(între probe) şi • QE, o sumă a pătratelor abaterilor reziduale sau intrapopulaţionale

(în interiorul probelor).

Prima etapă constă în pregătirea datelor pentru analiza varianţei (tabelul 7).

85

Page 87: biostatistica forestiera

Tabelul 7. Prelucrarea primară a datelor experimentale

(*) se poate calcula media mediilor numai dacă la finalul analizei varianţei se poate afirma că nu sunt diferenţe semnificative între probe.

Proba i xij Ni = J ∑

=

=J

jiji xT

1 ix

1 x11, x12, x13, . . . , x1J N1 = J T1 1x 2 x21, x22, x23, . . . , x2J N2 = J T2 2x ... ... ... ... ...

TOTAL ⎯ JINNI

ii ⋅==∑

=1∑

=

=I

iiTG

1 x (*)

Etapa a doua este chiar analiza simplă a varianţei desfăşurată tabelar (tabelul 8). Observaţii:

pentru calculul lui QF pentru grupe inegale se raportează Ti2 la Ni;

c este o corecţie egală cu N

G 2

.

Tabelul 8. Analiza simplă a varianţei Sursa de variaţie

Suma pătratelor abaterilor Gradele de libertate Varianţe Test F

între probe (factorială) c

JT

QI

i

iF −= ∑

=1

2

1−= If F F

FF f

Qs =2

reziduală FE QQQ −= INfff FE −=−=E

EE f

Qs =2

Totală cxQI

i

J

jij −= ∑∑

= =1 1

2 1−= Nf -

2

2

expE

F

ssF =

Valorile lui Fteoretic se extrag din tabele în funcţie de probabilitatea

de transgresiune (5% şi 1%) şi de numărul gradelor de libertate fF şi fE.

Fexp ≤ Fteoretic0,05 ⇒ nu există diferenţe semnificative între probe; Fteoretic0,05 <Fexp ≤ Fteoretic0,01 ⇒ există diferenţe semnificative între probe Fexp > Fteoretic0,01 ⇒ între probe există diferenţe distinct semnificative.

86

Page 88: biostatistica forestiera

În ultimele două cazuri, concluzia este că există cel puţin două probe care diferă semnificativ, respectiv distinct semnificativ. Aceste diferenţe vor fi puse în evidenţă în cea de a treia etapă, şi anume: aplicarea testului t pentru analiza semnificaţiei diferenţelor dintre medii. Se completează tabelul 9.

Tabelul 9. Analiza semnificaţiei diferenţelor

dintre medii Diferenţe (d) faţă de proba ...

Pentru probabilităţile de transgresiune uzuale (5%, 1% şi 0,1%) se calculează diferenţele limită (DL) cu relaţia: tsDL d ⋅= , (7.8) în care abaterea standard a diferenţelor (sd) este:

J

ss Ed22 ⋅= , (7.9)

iar dacă probele nu sunt de volum egal:

⎟⎟⎠

⎞⎜⎜⎝

⎛+⋅=

kiEd NN

ss 112 cu i, k = 1, …, I. (7.10)

Valoarea lui t se ia din tabele în funcţie de probabilitatea de transgresiune şi de numărul gradelor de libertate, fE. Se analizează pe rând diferenţele d din tabel. Semnificaţia se marchează în tabelul cu diferenţele experimentale.

d ≤ DL0,05 ⇒ diferenţa d este nesemnificativă; DL0,05 < d ≤ DL0,01 ⇒ diferenţa d este semnificativă (notaţie *) DL0,01< d ≤ DL0,001 ⇒ diferenţa d este distinct semnificativă (notaţie **); d > DL0,001 ⇒ diferenţa d este foarte semnificativă (notaţie ***).

se aranjează în ordine descrescătoare a mediilor

Proba ix 4 1 3 ...

4 4x - 14 xx − 34 xx − ... 1 1x - 31 xx − ... 3 3x - ... ... ... ...

87

Page 89: biostatistica forestiera

8. ANALIZA CORELAŢIEI

Caracteristic fenomenelor şi proceselor studiate de biostatistică este faptul că acestea sunt rezultatul acţiunii unui mare număr de factori (variabile), unii principali, alţii secundari, unii esenţiali, alţii nesemnificativi, unii măsurabili, alţii nemăsurabili.

Analiza corelaţiei este o metodă statistică prin care se cercetează şi se exprimă existenţa, tipul şi intensitatea interdependenţei dintre două sau mai multe variabile aleatoare prin intermediul unor indicatori statistici (coeficientul de corelaţie, raportul de corelaţie).

8.1 Tipuri de legături între variabile

Termenul corelaţie este folosit pentru a defini interdependenţa (legătura) între variabilele observate în populaţii statistice. Este sinonim cu legitate statistică sau legătură statistică. Etimologic, termenul “corelaţie” provine din latină (corelatio = în relaţie cu) şi a fost folosit în biologie de Charles Darwin cu sensul de “variabilă corelativă”. În statistică a fost preluat de Galton cu semnificaţia de raporturi reciproce între anumite caracteristici. Legătura dintre două sau mai multe caracteristici poate fi (figura 20):

funcţională; statistică (stohastică).

În cazul dependenţei funcţionale, unei anumite valori a variabilei independente x îi corespunde o singură valoare a variabilei dependente y. În cazul legăturii statistice, unei valori x pentru variabila independentă îi corespund mai multe valori y care admit o medie reprezentativă.

Figura 20. Diferenţierea dintre o legătură funcţională şi una statistică

88

Page 90: biostatistica forestiera

După numărul caracteristicilor a căror interdependenţă o studiază, corelaţia poate fi simplă sau multiplă. Corelaţia simplă exprimă legătura dintre două caracteristici dintre care una este considerată variabila independentă (x), iar cea de-a doua, variabila dependentă de prima (y). Corelaţia multiplă exprimă dependenţa statistică între o variabilă dependentă (rezultativă) şi mai multe variabile independente (factoriale).

Atunci când tipul legăturii dintre două caracteristici este greu de stabilit datorită numărului redus de observaţii sau când aceste caracteristici sunt exprimate în unităţi calitative, dependenţa statistică se poate exprima prin corelaţia de rang.

Importanţa analizei corelaţiei constă în faptul că pune în evidenţă natura legăturii cercetate şi intensitatea ei.

Se consideră o colectivitate statistică reprezentată prin carac-

teristicile X şi Y pentru care, în urma determinărilor experimentale, s-au obţinut valorile înregistrate într-un tabel de forma:

X x1, x2, x3, ..., xn Y y1, y2, y3, ..., yn

Repartiţia empirică a variabilelor X şi Y se analizează pe cale grafică într-un sistem de axe ortogonal în care se reprezintă punctele de coordonate (xi, yi). Ansamblul acestor puncte se numeşte câmp de corelaţie sau nor statistic, iar graficul în întregime – corelogramă (figura 21). Dacă punctele Mi (xi, yi) sunt distribuite de-a lungul unei fâşii care, în general, urmează o curbă determinată, se poate afirma că între mărimile respective există o dependenţă sau o legătură corelativă. Cu cât norul statistic (câmpul de corelaţie) este mai îngust cu atât legătura dintre variabilele studiate este mai puternică. Într-un caz particular, această legătură corelativă se poate transforma în dependenţă funcţională, atunci când punctele câmpului de corelaţie se situează strict pe o anumită curbă sau dreaptă.

Problema care se pune este de a exprima numeric gradul de dependenţă dintre cele două variabile (gradul de apropiere de o dependenţă funcţională).

89

Page 91: biostatistica forestiera

Figura 21. Câmp de corelaţie în două situaţii diferite de interdependenţă a

variabilelor Din modul de dispunere a grupului de puncte (nor statistic) se

poate aprecia sensul legăturii (figura 22). Aceasta poate fi directă (pozitivă), atunci când X şi Y cresc sau descresc simultan, şi inversă (negativă), atunci când la modificarea într-un sens a variabilei X, Y se modifică în sens contrar.

Figura 22. Observarea grafică a sensului corelaţiei dintre variabile

În cazul în care între X şi Y nu există nici un fel de dependenţă, norul statistic va fi împrăştiat. În foarte multe situaţii, din observarea fenomenelor naturale sau sociale, fără a cunoaşte natura exactă a acestora şi nici cauzele manifestării unei anumite caracteristici, se pot trage concluzii foarte importante prin examinarea corelaţiei dintre acestea şi alte evenimente. În astfel de cazuri, analiza corelaţiei poate aduce contribuţii valoroase deoarece este o metodă de cercetare a fenomenelor care se bazează pe descompunerea unui întreg în elementele lui componente şi analiza relaţiilor statistice dintre acestea. Atunci când se utilizează mai multe variabile se poate distinge o corelaţie parţială, când se consideră pentru moment constante unele variabile, şi o corelaţie totală, atunci când se iau în considerare variaţiile tuturor mărimilor variabile. Se poate determina, astfel, ponderea diverşilor factori la realizarea unui fenomen de masă.

90

Page 92: biostatistica forestiera

În silvicultură, legăturile dintre fenomene sau caracteristici sunt legături statistice. Deşi nu au caracter funcţional, determinarea acestora prezintă o importanţă deosebită pentru că prin cunoaşterea valorilor unei caracteristici se pot determina valorile altei caracteristici (cu o anumită aproximaţie) fără a efectua asupra acesteia din urmă măsurători costisitoare sau foarte dificile (de exemplu, diametrul la 0,5 h în funcţie de d -diametrul la 1,30 m-, pentru arbori). Corelaţia constatată între două variabile, dar care nu are nici o semnificaţie cauzală se numeşte corelaţie aparentă sau falsă. Este imprudent să se interpreteze corelaţia în termeni de cauzalitate fără a cunoaşte în profunzime fenomenele studiate. Corelaţia este doar o reflectare a legăturilor cu caracter complex existente între fenomenele de masă.

Statistica nu poate oferi informaţii despre cauzalitatea legăturilor dintre două sau mai multe variabile.

Corespondenţa dintre variabile poate rezulta, de cele mai multe ori, dintr-o legătură nemijlocită între fenomene. În alte cazuri, două fenomene se pot modifica (în acelaşi sens sau în sensuri opuse) ca urmare a modificării unui al treilea factor, fără ca între primele două să existe o legătură cauzală (de exemplu: diametrul şi înălţimea într-un arboret echien depind de dezvoltarea biocenozei respective care influenţează printr-o multitudine de factori modificarea celor două caracteristici direct intercorelate).

O a treia situaţie este cea a unui paralelism întâmplător în modul de variaţie a două sau a mai multor fenomene. Se citează deseori exemplul tipic al unui cercetător care a înregistrat frecvenţa cuiburilor de barză reperate într-o suburbie a Londrei şi, în paralel, frecvenţa naşterilor în aceeaşi suburbie, pentru o anumită perioadă. Datele au arătat că perioada cu cea mai mare frecvenţă pentru una dintre variabile corespunde unei frecvenţe ridicate şi pentru cealaltă. Statistic, corelaţia între cele două fenomene s-a dovedit ridicată. Nu se poate vorbi, însă, la modul serios, de o relaţie cauză-efect în acest caz. Asemenea situaţii practice atrag atenţia asupra necesităţii diferenţierii legăturilor cauzale de legăturile formale. Se poate trece de la o relaţie statistică determinată empiric la o relaţie cauzală numai prin cunoaşterea temeinică a domeniului studiat.

91

Page 93: biostatistica forestiera

8.2 Coeficientul de corelaţie

Indicatorul statistic care dă măsura intensităţii legăturii corelative dintre două variabile este coeficientul de corelaţie liniară (coeficientul Bravais-Pearson).

8.2.1 Proprietăţile coeficientului de corelaţie

Proprietăţile coeficientului de corelaţie sunt: notaţie: ρ pentru populaţia întreagă şi r pentru un eşantion; este indicatorul statistic care exprimă numeric intensitatea legăturii

liniare dintre două sau mai multe variabile; exprimă gradul dispersiei valorilor caracteristicii rezultative y în jurul

dreptei ce reprezintă funcţia de corelaţie (dreapta de regresie); cu cât această dispersie este mai mare, cu atât coeficientul de corelaţie este mai mic în modul, şi invers;

ia valori în intervalul [-1,1]; cu cât este mai apropiat de 1 sau de -1 cu atât corelaţia este mai puternică;

dacă ρ (sau r) = ±1, corelaţia este perfectă (mai exact, legătura corelativă se transformă într-o legătură funcţională);

dacă ρ (sau r) = 0, nu există corelaţie (variabilele luate în considerare nu depind între ele);

r este coeficient de corelaţie empiric (se referă la distribuţii empirice, nu teoretice) şi estimează, doar, valoarea lui ρ.

Atunci când numărul observaţiilor este mic, pentru studierea legăturii corelative între două caracteristici se foloseşte un tabel de tipul celui prezentat deja (tabelul anterior). Dacă numărul datelor experimentale este mare, acestea trebuie să fie grupate pe clase, atât după caracteristica X, cât şi după caracteristica Y. Rezultă astfel distribuţia empirică bidimensională într-un tabel de corelaţie (tabelul din figura 23).

Figura 23. Forma generală a unui tabel de corelaţie

92

Page 94: biostatistica forestiera

Studiul unui ansamblu bidimensional de date experimentale nu trebuie sa se limiteze la o analiza numerică automată, ci trebuie să-şi sprijine concluziile şi pe o analiză grafică atentă. Situaţiile prezentate în figura 24 atenţionează asupra pericolului interpretării legăturii statistice dintre două caracteristici numai prin valoarea coeficientului de corelaţie.

Figura 24. Situaţii improprii unei analize corecte a corelaţiei

În prima situaţie este clară necesitatea evidenţierii a două subpopulaţii pentru care legătura corelativă între cele două variabile analizate (x şi y) este total diferită. În cea de-a doua, valoarea extremă izolată (B) generează un coeficient de corelaţie cu valoare mare, dar între cele două variabile nu există, în realitate, nici o legătură statistică.

8.2.2 Determinarea coeficientului de corelaţie pentru corelaţia simplă

Se folosesc relaţiile de calcul:

yx

xy

σσσ

ρ⋅

= (pentru o populaţie) (8.1)

sau: ( )yxyx

xy

ssxy

sss

r⋅

=⋅

=cov (pentru o probă), (8.2)

în care: sx reprezintă abaterea standard a caracteristicii x; sy- abaterea standard a caracteristicii y; sxy sau cov(xy) - covarianţa (varianţa comună).

Pentru valori negrupate în clase, se cunoaşte că:

( )

1

2

2

−=

∑∑N

Nx

xsx şi

( )

1

2

2

−=

∑∑N

Ny

ys y , (8.3)

93

Page 95: biostatistica forestiera

iar covarianţa se obţine cu relaţia:

( ) ( )

11 −

⋅−

=−

−⋅−=

∑∑∑∑N

Nyx

xy

Nyyxx

sxy . (8.4)

Deci:

( ) ( )

=

−⋅

⋅−

=∑∑∑∑

∑∑∑

11

12

2

2

2

NN

yy

NN

xx

NN

yxxy

r

( )[ ] ( )[ ]∑ ∑∑∑

∑ ∑∑−⋅⋅−⋅

⋅−⋅=

2222 yyNxxN

yxxyN (8.5)

Dacă se face gruparea în clase intervin frecvenţele distribuţiilor marginale nx, ny şi frecvenţele distribuţiilor de clase nxy:

⎥⎥⎦

⎢⎢⎣

⎡⎟⎟⎠

⎞⎜⎜⎝

⎛⋅−⋅⋅

⎥⎥⎦

⎢⎢⎣

⎡⎟⎠

⎞⎜⎝

⎛⋅−⋅

⎟⎟⎠

⎞⎜⎜⎝

⎛⋅⎟

⎞⎜⎝

⎛⋅−⋅⋅

===

∑∑∑∑

∑ ∑∑∑2

22

2

yy

yy

xx

xx

x yy

xx

yxy

yxxy

ynynNxnxnN

ynxnyxnNrrr .

În practică, pe o scală de la [0,1], considerând coeficientul de corelaţie în modul, se utilizează următoarele subintervale de interpretare: - 0 ≤ r ≤ 0,200 – situaţie în care nu există o legătură între variabile; - 0,200 < r < 0,500 – între variabile există o legătură slabă; - 0,500 < r < 0,750 – legătura dintre variabile are intensitate medie; - 0,750 < r < 0,950 – legătură puternică între cele două variabile; - 0,950 < r < 1,000 – legătura dintre variabile este funcţională.

Exemplu de aplicare Pentru arboretul luat în considerare în exemplificările anterioare,

dacă se analizează caracteristicile diametrul de baza (xi) şi înălţimea arborilor (yi), se obţine distribuţia empirică bidimensională (tabelul de corelaţie) următor:

94

Page 96: biostatistica forestiera

Tabelul 10. Distribuţia empirică bidimensională pentru exemplul analizat

yi xi 28 32 36 40 44 48 52 56 60 64 68 n y

44 5 3 842 2 2 1 3 2 1040 1 1 5 3 9 1 2038 5 1 7 6 2 1 2236 3 10 7 5 1 2634 1 8 9 4 2232 3 4 5 2 1430 1 2 5 1 928 2 1 3 2 826 1 3 1 5n x 4 9 18 32 21 21 17 11 5 4 2 144

Din calcule se obţine:

( ) ***7965,05228,47428,8

4973,31cov=

⋅=

⋅=

⋅=

yxyx

xy

ssxy

sss

r .

8.2.3 Determinarea semnificaţiei coeficientului de corelaţie

Valoarea coeficientului de corelaţie r, calculat cu relaţiile anterioare, reprezintă o măsură a intensităţii legăturii statistice între variabilele considerate.

Este necesar să fie testată semnificaţia lui r, adică să se determine dacă valoarea obţinută estimează într-adevăr valoarea ρ a coeficientului de corelaţie pentru populaţia întreagă sau a rezultat datorită unor erori de eşantionare.

Metoda 1: testul u folosind transformarea lui Fisher Pentru normalizarea valorilor coeficienţilor de corelaţie, Fisher a

aplicat transformarea:

rrz

−+

⋅=11ln

21 . (8.7)

În funcţie de valoarea lui z calculată pentru valoarea experimentală a coeficientului de corelaţie r, se determină uexp cu relaţia:

zszu =exp , (8.8)

în care abaterea lui z este:

3

1−

=N

sz . (8.9)

95

Page 97: biostatistica forestiera

Valoarea lui r poate fi mare în modul (apropiată de 1 sau de –1),

dar nesemnificativă, sau mică (mai apropiată de 0) şi semnificativă. Aceasta depinde de numărul unităţilor statistice pentru care s-au determinat valorile caracteristicilor studiate.

Limitele de încredere pentru coeficientul de corelaţie (intervalul în care se află ρ) se determină în funcţie de limitele de încredere pentru z (valori tabelate):

3

1−

⋅±=⋅±N

uzsuz z , sau: (8.10)

⎟⎟⎠

⎞⎜⎜⎝

⎛−+

⋅=−

⋅±⎟⎠⎞

⎜⎝⎛

−+

⋅ρρ

11ln

21

31

11ln

21

Nu

rr . (8.11)

Se determină cele două limite ale intervalului de încredere pentru coeficientul de variaţie ρ.

Dacă 0 este cuprins între cele două limite ale intervalului de încredere, indiferent de mărimea acestui interval nu poate fi dovedită o corelaţie semnificativă.

uexp ≤ uteoretic 0,05 ⇒ r este nesemnificativ, uteoretic 0,05 < uexp ≤ uteoretic 0,01 ⇒ r este semnificativ (notaţie *), uteoretic 0,01 < uexp ≤ uteoretic 0,001 ⇒ r este distinct semnificativ (notaţie **), uexp > uteoretic 0,001 ⇒ r este foarte semnificativ (notaţie ***).

Metoda 2 (expeditivă): testul u sau t fără transformare prealabilă • pentru un număr mare de observaţii, se utilizează statistica u

pentru care se calculează o valoare experimentală:

Nr

rsrur

⋅−

==2exp

1 (8.12)

şi se compară cu valoarea teoretică pentru probabilitatea de transgresiune impusă;

• pentru un număr mic de observaţii, se determină texp cu relaţia:

21 2exp −⋅

−= N

rrt . (8.13)

96

Page 98: biostatistica forestiera

Valoarea obţinută se compară cu tteoretic extras din tabele în funcţie de probabilitatea de transgresiune (q) şi de numărul gradelor de libertate (f = N-2).

Au fost întocmite tabele din care se poate obţine direct valoarea semnificativă a lui r pentru un anumit prag de semnificaţie şi în funcţie de volumul probei. Pentru coeficientul de corelaţie care exprimă legătura statistică dintre diametrul de bază al arborilor şi înălţimea arborilor ( ), valorile minime corespunzătoare pragurilor de semni-ficaţie 5%, 1% şi 0,1% şi

***7965,0=r14221442 =−=−= Nf grade de libertate

sunt (prin interpolare în tabelul din anexa V): 0,164; 0,214 şi, respectiv, 0,271. Coeficientul obţinut este foarte semnificativ şi s-a marcat corespunzător.

8.2.4 Coeficientul de corelaţie a rangurilor

Determinarea coeficientului de corelaţie a rangurilor (rs) presupune ca, în locul comparării valorilor caracteristicilor măsurabile (diametru de bază, înălţime, lăţime a inelelor anuale etc.), să se ordoneze diferitele variabile calitative (şi nu numai) utilizând numere de la 1 la N. Aceste numere (ranguri) indică poziţiile unităţilor în şirul statistic al fiecărei caracteristici.

Se obţin astfel două clasamente distincte pentru care se calculează coeficientul de corelaţie a rangurilor cu relaţia:

( )1

61

2

1

2

−⋅

⋅−=

∑=

NN

dr

N

ii

s , (8.14)

în care: N reprezintă numărul de perechi de valori care se compară,

2id - pătratul diferenţei de rang pentru fiecare pereche i.

Demonstraţie În forma generală, coeficientul de corelaţie pentru valori negrupate în clase are expresia:

( ) ( )

( ) ( )∑∑∑

−⋅−

−⋅−=

⋅=

yyxx

yyxxss

sr

yx

xy , (8.15)

semnificaţia notaţiilor fiind cea menţionată anterior. Dar rangurile, aşa cum s-a menţionat, reprezintă numere de la 1 la

N, atât pentru caracteristica x, cât şi pentru caracteristica y, deci:

97

Page 99: biostatistica forestiera

( )

212

11 +

=

+⋅

===∑

= NN

NN

N

iyx

N

i . (8.16)

( ) ( ) ( )=

+⋅−=⎟

⎠⎞

⎜⎝⎛ +

−=−=− ∑∑∑∑= 4

12

1 22

2

1

22 NNiNiyyxxN

i

( ) ( ) ( ) ( ) ( )12

114

16

121 2 −⋅+⋅=

+⋅−

+⋅+⋅=

NNNNNNNN . (8.17)

Se face apoi transformarea: ( )( ) ( ) ( ) ( ) ( )[ ] ( ) ( ) 2222222 dyyxxyyxxyyxxyyxx −−+−=−−−−−+−=−−⋅

unde prin d s-a notat diferenţa (x - y). Deci:

( )( ) ( ) ( ) ( ) ( ) ∑∑ ∑∑∑ −−⋅+⋅

=−−+−

=−− 2222

21

1211

2dNNNdyyxx

yyxx

Înlocuind în relaţia coeficientului de corelaţie:

( ) ( )

( ) ( ) ( )sr

NN

dNNN

dNNN

r =−⋅

⋅−=

−⋅+⋅

−−⋅+⋅

= ∑∑

1

61

121121

1211

2

22

, (8.18)

tocmai ceea ce trebuia demonstrat. Avantajele folosirii coeficientului de corelaţie a rangurilor sunt:

elimină valorile absolute; nu se lucrează cu valorile reale pentru care calculul este complicat;

expeditivitate a calculelor; calculul lui rs implică întocmirea unui tabel în care se observă imediat cuplurile discordante şi sensul decalajului (pozitiv sau negativ).

Dezavantajele utilizării lui rs sunt: este mai puţin precis decât coeficientul de corelaţie obişnuit pentru că înlocuieşte prin diferenţe egale variaţii efective diferite; existenţa unor ranguri egale nu influenţează media aritmetică, dar afectează simţitor varianţele; eroarea poate fi neglijată dacă asemenea erori nu sunt prea numeroase, dar există şi artificii de notare a rangurilor care diminuează aceste erori.

Exemplu de aplicare Considerăm un eşantion format din 8 arborete, cu aceeaşi

proporţie majoritară de participare a bradului, pentru care se determină două caracteristici: consistenţa şi procentul de uscare a arborilor de brad. Interesează dacă există o legătură corelativă între cele două caracteristici.

98

Page 100: biostatistica forestiera

Coeficientul de corelaţie a rangurilor se determină cu datele din tabelul următor.

Tabelul 11. Calcule pentru determinarea coeficientului de corelaţie a rangurilor

Rangul Consistenţa arboretelor

x

% arbori uscaţi

y după x după y d d2

0,3 6 8 3 5 25 0,4 5 7 4 3 9 0,5 8 6 1 5 25 0,6 7 5 2 3 9 0,7 4 4 5 -1 1 0,8 3 3 6 -3 9 0,9 1 2 8 -6 36 1,0 2 1 7 -6 36

TOTAL 150

( ) 786,0786,111648

9001 −=−=−⋅

−=sr * (8.19)

Dacă se calculează coeficientul de corelaţie obişnuit, r, cu valorile determinate în tabelul 12,

Tabelul 12. Calculul coeficientului de corelaţie r pentru exemplul anterior

( )[ ] ( )[ ]=

−⋅−

⋅−=

∑ ∑∑ ∑

∑ ∑ ∑2222 yyNxxN

yxxyNr

Consistenţa arboretelor

x

% arbori uscaţi

y xy x2 y2

0,3 6 1,8 0,09 36 0,4 5 2,0 0,16 25 0,5 8 4,0 0,25 64 0,6 7 4,2 0,36 49 0,7 4 2,8 0,49 16 0,8 3 2,4 0,64 9 0,9 2 0,9 0,81 1 1,0 1 2,0 1,00 4

TOTAL 5,2 36 20,1 3,80 204

99

Page 101: biostatistica forestiera

( ) ( )

785,01296204804,278,38

362,51,208−=

−⋅⋅−⋅⋅−⋅

= *, (8.20)

se observă că valoarea acestuia este foarte apropiată de coeficientul de corelaţie a rangurilor.

Testarea semnificaţiei coeficientului de corelaţie:

36620,0785,02

1 2exp ≈⋅=−⋅−

= Nr

rt (8.21)

În tabelul din anexa III, tteoretic(0,05; 6) = 2,447 şi tteoretic(0,01; 6) = 3,707. Aşadar, coeficientul de corelaţie este semnificativ, chiar şi pentru acest volum redus al eşantionului.

Între cele două caracteristici există o corelaţie puternică (valoare apropiată de – 1,000) şi inversă (valoarea negativă a coeficientului de corelaţie semnifică faptul că pe măsură ce cresc valorile uneia dintre caracteristici, scad valorile celeilalte caracteristici).

100

Page 102: biostatistica forestiera

9. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP)

Analiza în componente principale (ACP) este o metodă statistică prin care se identifică parametrii specifici unui set multidimensional de valori experimentale exprimându-le într-o formă care pune în evidenţă similitudinile şi diferenţierile dintre variabilele luate în studiu.

Aplicaţia tradiţională a ACP este cea de reducere a dimensiunilor setului de valori experimentale (tabelelor de contingenţă). Acest tip de analiză statistică poate fi folosită pentru a determina câte dimensiuni prezintă importanţă reală în interpretarea fenomenelor. Numărul de dimensiuni este dedus intuitiv, diferit de semnificaţia strict matematică a acestora, prin analiza nivelului variaţiei valorilor experimentale explicat de diferite componente principale. Dacă există un număr redus de componente care determină cea mai mare parte a variabilităţii valorilor experimentale, atunci celelalte componente pot fi considerate ca fiind variabile de „zgomot” (perturbaţie) pentru fenomenul studiat. 9.1 Consideraţii istorice

Analiza în componente principale este o metodă de analiză statistică aplicată încă de la începutul secolului al XX-lea în scopul determinării parametrilor ecuaţiilor de regresie multiple, al reducerii dimensiunilor datelor şi pentru reducerea „zgomotului” informaţional. K. Pearson (1901) introduce ACP în aplicaţiile biologice în vederea reiterării analizei regresiei liniare într-o formă nouă. H. Hotelling (1933) dezvoltă ACP pentru aplicaţii în psihometrie. Karhunen şi Loeve generalizează, la mijlocul secolului trecut, ACP în spaţiul infinit-dimensional şi în teoria probabilităţilor. 9.2 Principii de bază

Analiza multifactorială este deosebit de importantă în interpretarea statistică a valorilor experimentale rezultate prin înregistrarea observaţiilor pentru un număr mare de caracteristici sau variabile. Fiecare dintre cele m variabile luate în considerare poate fi considerată ca fiind o dimensiune diferită în hiperspaţiul m-dimensional. Vizualizarea acestui hiperspaţiu este dificilă şi din acest motiv obiectivul ACP este de a reduce multidimensionalitatea prin exprimarea tuturor valorilor experimentale prin compunerea lor în raport cu anumite variabile compozite. În plus, sintetizarea a două sau trei componente principale poate fi redată grafic cu pierderi minime de informaţie referitoare la fenomenul studiat.

O modalitate de a reduce în cadrul analizei statistice multidimensionalitatea fenomenelor biologice constă în extragerea componentelor principale, ceea ce constă într-o rotaţie a axelor în spaţiul

101

Page 103: biostatistica forestiera

multidimensional. Această operaţie permite determinarea combinaţiilor liniare (denumite componente principale) ale variabilelor iniţiale care să sintetizeze o cantitate cât mai mare de informaţie (Dillon, W.R., Goldstein, M., 1984).

În situaţia în care m variabile X1, X2, …, Xm sunt corelate între ele, informaţia pe care o transmit luate în ansamblu posedă un anumit grad de redundanţă. Prin ACP se pot constitui, din lista celor m variabile iniţiale, p noi variabile neredundante, mp < .

Ideea de bază a ACP este aceea de a reduce numărul mare de variabile iniţiale luate în considerare, dintre care multe sunt puternic corelate între ele, la câteva variabile (sau componente) necorelate (ortogonale una faţă de alta). Aceste componente principale pot fi considerate „super-variabile” integrate care explică cea mai mare parte din varianţa valorilor experimentale.

ACP nu este altceva decât o recombinare liniară a variabilelor iniţiale într-un nou set de variabile, de data aceasta ortogonale. Varianţa iniţială este realocată în noi unităţi de măsură; din acest punct de vedere, ACP poate fi considerată un caz particular al analizei factoriale. Aplicarea ACP presupune îndeplinirea unor condiţii iniţiale, şi anume:

întregul set de date este normal distribuit (se verifică normalitatea prin teste specifice);

trebuie să se transforme datele (prin centrare sau standardizare) astfel încât valorile diferitelor variabile să fie comparabile (figura 25); de fapt, standardizarea implică egalizarea influenţelor variabilelor;

după centrarea valorilor experimentale prin folosirea momentului de ordinul 1 (media aritmetică) întreaga informaţie necesară aplicării ACP este conţinută de matricea covarianţelor.

Aşadar, este necesar să se exprime fiecare dintre valorile experimentale observate sau măsurate sub formă de diferenţe faţă de media aritmetică raportate la abaterea standard. Prin definiţie, aceste valori standardizate au media 0 şi varianţa 1.

102

Page 104: biostatistica forestiera

Figura 25. Efectul transformării valorilor experimentale

Determinarea componentelor principale presupune în continuare o rotaţie de axe, transformare care facilitează interpretarea rezultatelor.

Scopul analizei în componente principale constă în explicarea şi sintetizarea structurii varianţei înglobate într-un set extins de variabile prin intermediul câtorva combinaţii liniare al acestora.

ACP poate scoate în evidenţă anumite relaţii care nu au fost identificate anterior şi dă posibilitatea interpretării lor.

Rezultatele ACP sunt frecvent utilizate în prelucrarea statistică ulterioară pentru analiza regresiilor multiple, pentru analiza cluster şi în studiul seriilor de timp multivariate. 9.3 Interpretarea algebrică a ACP

Analiza în componente principale se poate efectua pornind de la setul iniţial de date experimentale, dar şi folosind direct matricea covarianţelor sau matricea de corelaţie. Matricea de corelaţie se utilizează atunci când caracteristicile studiate se exprimă în unităţi diferite de măsură sau diferă foarte mult gradul de împrăştiere a valorilor experimentale ale variabilelor analizate. Folosirea matricii de corelaţie este echivalentă cu standardizarea variabilelor (transformarea lor în variabile cu media 0 şi abaterea standard 1).

După cum se cunoaşte, relaţia covarianţei este foarte asemănătoare cu cea a varianţei. Această similitudine se observă foarte bine dacă se scrie varianţa în forma:

103

Page 105: biostatistica forestiera

( )( )

( )1)var( 1

−−=

∑=

n

xxxxx

n

iii

, (9.1)

covarianţa fiind:

( )( )

( )1),cov( 1

−−=

∑=

n

yyxxyx

n

iii

. (9.2)

Covarianţa este, deci, determinată întotdeauna pentru două dimensiuni (variabile).

Dacă se analizează un set de date experimentale cu mai mult de două dimensiuni (variabile), este necesar să se calculeze mai multe covarianţe. De exemplu, pentru un set de date tridimensional (pentru variabilele x, y şi z) se calculează cov(x, y), cov(x, z) şi cov(y, z).

Generalizând, pentru un set de date m-dimensional se pot

determina ( )!22!−⋅ m

m covarianţe diferite care aranjate matricial formează

matricea covarianţelor: ( )),cov(, ,, jijiji

mm DimDimcc ==Σ × , (9.3)

în care Σ este o matrice cu m linii şi m coloane (pătrată), iar este dimensiunea (variabila) k.

mm×kDim

Pentru exemplul cu trei variabile, matricea covarianţelor are 3 linii şi trei coloane:

Σ . (9.4) ⎟⎟⎟

⎜⎜⎜

⎛=

),cov(),cov(),cov(),cov(),cov(),cov(),cov(),cov(),cov(

zzyzxzzyyyxyzxyxxx

Se observă că pe diagonala principală covarianţele sunt de fapt varianţele caracteristicilor respective. De asemenea, datorită egalităţii

, matricea este simetrică faţă de diagonala principală. Matricea de corelaţie R cuprinde coeficienţii de corelaţie rij pentru toate perechile formate din cele m variabile analizate.

),cov(),cov( abba =

ACP se bazează pe extragerea unor componente necorelate, denumite componente principale, prin determinarea eigenvectorilor matricii covarianţelor sau ai matricii de corelaţie ale variabilelor iniţiale.

104

Page 106: biostatistica forestiera

Sunt necesare câteva explicaţii legate de operatorii algebrei matriciale şi de regulile specifice de utilizare.

Considerăm două variabile X1 şi X2, pentru care rezultă următoarea matrice de corelaţie R:

. (9.5) ⎟⎟⎠

⎞⎜⎜⎝

⎛=

000,1723.0723,0000,1

R

Această matrice are următoarele proprietăţi:

dacă R este inversabilă înseamnă că există o altă matrice pătratică R-1 care, prin înmulţire cu R generează matricea unitate I: IRR =∗ −1 ;

matricea unitate de ordinul 2 este ⎟⎟ şi îndeplineşte, în algebra

matricială, multe din funcţiile valorii 1 din algebra clasică; ⎠

⎞⎜⎜⎝

⎛1001

o matrice are matrice inversă numai şi numai dacă valoarea determinantului ei este diferită de 0; în cazul general al unei matrici

de ordinul 2 de forma ⎟⎟ , determinantul acesteia este ⎠

⎞⎜⎜⎝

⎛dcba

dcba

R =)det( ; condiţia de existenţă a matricii inverse este:

0≠⋅−⋅ cbda ; pentru exemplul considerat matricea R admite inversă pentru că 0477271,0723,01)det( >723,01 =⋅−⋅=R ;

fiecare matrice pătrată are o unică ecuaţie polinomială caracteristică de acelaşi ordin cu cel al matricii (o matrice 2x2 are o ecuaţie caracteristică pătratică, o matrice 3x3, una cubică ş.a.m.d.); Această ecuaţie se obţine din următoarea proprietate a matricilor pătrate inversabile:

0)det( =⋅− IR λ , (9.5) în care R este matricea iniţială mm × , I este inversa acesteia, iar λ este un scalar (o matrice mm × cu o valoare constantă, λ, în fiecare celulă);

o altă modalitate de exprimare a proprietăţii anterioare este cea de egalare cu 0 a determinantului matricii R în care s-a scăzut λ din elementele aflate pe diagonala principală, ceea ce în cazul general al matricii de ordinul 2 înseamnă:

0det =−

−λ

λdc

ba. (9.6)

105

Page 107: biostatistica forestiera

Revenind la matricea de corelaţie R:

( ) ⇒=+−⇔=−−⇔=−

−0477271,020723,010

1723,0723,01

det 222 λλλλ

λ

277,0;723,1 21 ==⇒ λλ . Valorile obţinute se numesc eigenvalori sau valorii proprii ale matricii de corelaţie. Eigenvalorile sunt strâns legate de eigenvectori. Ambii termeni sunt explicaţi în continuare. Două matrici pot fi înmulţite dacă mărimea lor este compatibilă. Eigenvectorii (vectorii proprii) sunt un caz particular al acestei operaţii. Considerăm două exemple de multiplicare a unei matrici cu un vector:

⎟⎟⎠

⎞⎜⎜⎝

⎛×=⎟⎟

⎞⎜⎜⎝

⎛=⎟⎟

⎞⎜⎜⎝

⎛×⎟⎟

⎞⎜⎜⎝

⎛35

39

1531

2343

şi

⎟⎟⎠

⎞⎜⎜⎝

⎛×=⎟⎟

⎞⎜⎜⎝

⎛=⎟⎟

⎞⎜⎜⎝

⎛×⎟⎟

⎞⎜⎜⎝

⎛34

61824

34

2343

.

În al doilea exemplu, vectorul rezultant este un multiplu al vectorului iniţial, pe când în primul exemplu nu se întâmplă acelaşi lucru.

Vectorul se numeşte vector propriu (eigenvector) al matricii pătrate

considerate. În reprezentare grafică, acesta este redat printr-o săgeată trasată din origine (0, 0) până în punctul cu coordonatele (4, 3).

⎟⎟⎠

⎞⎜⎜⎝

⎛34

Matricea pătrată trebuie înţeleasă ca o matrice de transformare a vectorului cu care se înmulţeşte într-un alt vector care îşi modifică poziţia iniţială. Dacă este vorba despre un eigenvector, după înmulţire el va avea aceeaşi direcţie, deci este o reflectare a lui însuşi; aceşti vectori se autotransformă şi de aceea sunt denumiţi astfel (germ. eigen = propriu, auto). În al doilea exemplu prezentat anterior, vectorul iniţial se află pe

dreapta xy43

= , iar cel rezultat (sau oricare alt multiplu al acestuia,

pentru că nu are importanţă cât de lung este vectorul) se află pe aceeaşi dreaptă, deci este un vector propriu al matricii de transformare. Vectorii proprii au anumite proprietăţi care sunt folosite în prelucrarea statistică a datelor prin analiza în componente principale. În primul rând, vectorii proprii pot fi determinaţi numai pentru matrici pătrate (dar, atenţie, nu orice matrice pătrată are eigenvectori). Dacă o anumită matrice mm × are vectori proprii, atunci numărul total al acestora este m (de exemplu, o matrice 44× are 4 eigenvectori).

106

Page 108: biostatistica forestiera

În al doilea rând, toţi vectorii proprii ai unei matrici sunt perpendiculari între ei în spaţiul m-dimensional. Este important acest lucru pentru că datele experimentale pot fi exprimate nu numai în sistemul ortogonal de axe x, y, z, …, ci şi în raport cu aceşti eigenvectori perpendiculari. Pentru a putea aplica analiza în componente principale este necesar să se determine vectorii proprii standard. Un eigenvector standard este cel a cărui mărime este egală cu unitatea. Modul de calcul prin care se obţine un vector propriu standard pentru exemplul anterior este prezentat în continuare.

Mărimea vectorului propriu este ⎟⎟⎠

⎞⎜⎜⎝

⎛34 ( ) 52534 22 ==+ .

Împărţind vectorul iniţial la 5 se obţine un eigenvector cu mărimea 1:

⎟⎟⎠

⎞⎜⎜⎝

⎛=÷⎟⎟

⎞⎜⎜⎝

⎛5/35/4

534

.

Pentru matrici mai mari de 33× determinarea vectorilor proprii se face prin aplicarea unor metode iterative pentru care există programe de calcul specifice. Eigenvalorile (valorile proprii) sunt acele valori care arată de câte ori s-a majorat eigenvectorul după multiplicarea lui cu matricea pătrată.

Eigenvaloarea asociată eigenvectorului din exemplul anterior

este 6. Indiferent care multiplu al acestui eigenvector este considerat, după înmulţirea matricii pătrate cu acesta se va obţine întotdeauna un vector de 6 ori mai mare.

⎟⎟⎠

⎞⎜⎜⎝

⎛34

Presupunem că avem o populaţie pentru care sau măsurat m variabile randomizate X1, X2, …, Xm. Este importantă menţiunea că aceste variabile reprezintă cele m axe de coordonate ale unui sistem cartezian în care se reprezintă valorile experimentale. Intenţia este cea de a pune în evidenţă un nou sistem de m axe ortogonale, combinaţii liniare ale axelor iniţiale, pe direcţiile celei mai mari variabilităţi. Aceasta se poate concretiza prin rotaţia axelor iniţiale (figura 26).

Având matricea iniţială:

, (9.7)

⎥⎥⎥⎥

⎢⎢⎢⎢

=

mX

XX

XM

2

1

107

Page 109: biostatistica forestiera

cu matricea covarianţelor Σ şi eigenvalorile mλλλ ≥≥≥ L21 , se pot construi m combinaţii liniare necorelate:

(9.8)

⎪⎪⎩

⎪⎪⎨

⋅++⋅+⋅=

⋅+⋅+⋅=⋅++⋅+⋅=

mmmmmm

mm

mm

XeXeXeY

XeXeXeYXeXeXeY

L

L

L

2211

22221122

12211111

........................................................

astfel încât varianţa noilor variabile Y1, Y2, …, Ym să fie cât mai mare posibilă. Componentele principale reprezintă, de fapt, combinaţii liniare ale variabilelor originale.

Figura 26. Rotaţia axelor componentelor iniţiale în scopul

evidenţierii celei mai mari variabilităţi

ACP a matricii de corelaţie R constă în transformarea variabilelor brute X1, X2, …, Xm sau a celor standardizate în factorii Y1, Y2, …, Ym prin intermediul unor combinaţii liniare ai căror coeficienţi sunt elementele unei matrici ortogonale E obţinute prin descompunerea spectrală a lui R.

sm

ss XXX ,,, 21 K

Toate matricile simetrice pătrate, aşa cum este cazul matricii de corelaţie R, se descompun după modelul: 'EER ⋅Λ⋅= , (9.9) în care matricea E este ortogonală şi

(9.10)

⎥⎥⎥⎥

⎢⎢⎢⎢

λλ

K

LLLL

K

K

00

0000

2

1

este diagonală.

108

Page 110: biostatistica forestiera

Matricea E este compusă din m vectori coloană, denumiţi eigenvectori, iar ortogonalitatea acesteia se verifică prin îndeplinirea a trei criterii: - transpusa E’ a lui E este egală cu matricea inversă E-1, astfel încât

IEE =⋅ ' ; - liniile lui E sunt ortogonale între ele şi cu norma egală cu unitatea; - coloanele lui E sunt, de asemenea, ortogonale între ele şi cu norma

egală cu unitatea. Dacă se pune condiţia ca diagonala matricii Λ să fie formată din valori descrescătoare ( mλλλ >>> K21 ), descompunerea anterioară, denumită descompunere spectrală, este unică. Vectorii coloană eα şi scalarii λα pot fi determinaţi pentru

m,,1K=α prin ecuaţia vectorilor proprii: ααα λ eeR ⋅=⋅ , (9.11) cu condiţia suplimentară, îndeplinită de matricile ortogonale, ca fiecare eα să fie de normă unitate. eα sunt denumiţi vectori proprii (eigenvectori). Componentele eik ale matricii E sunt componente principale.

Analistul încearcă să interpreteze primele câteva compo-nente principale în funcţie de variabilele iniţiale.

ACP poate avea interpretări pertinente doar dacă există un nivel ridicat al corelaţiei între caracteristicile analizate.

Componentele principale sunt alese în ordine descrescătoare a importanţei lor astfel încât prima componentă să explice o cât mai mare parte din varianţă, iar fiecare dintre următoarele componente să justifice cât mai puţin din variabilitatea valorilor analizate.

Eigenvectorii arată gradul de participare a variabilelor iniţiale (standardizate sau doar centrate) în determinarea fiecărei componente principale. Aceşti vectori proprii sunt în esenţă coeficienţi de corelaţie, fiind compuşi dintr-un set de valori care reprezintă, fiecare în parte, influenţa, importanţa sau ponderea de explicitare a unei anumite variabile într-o anumită componentă principală dată.

Eigenvalorile reprezintă contribuţia relativă a fiecărei componente la explicarea variaţiei totale a datelor experimentale (sunt mari pentru primele componente şi din ce în ce mai mici pentru componentele subsecvente). Mărimea eigenvalorii indică importanţa acestei componente în explicarea variaţiei totale şi se determină ca sumă

109

Page 111: biostatistica forestiera

a pătratelor valorilor ce formează vectorul propriu corespunzător unei variabile principale. O valoare proprie mai mare de 1 indică faptul că acea componentă principală pentru care a fost determinată acumulează o parte mai mare din varianţă decât oricare dintre variabilele standardizate iniţiale şi acesta reprezintă un criteriu de delimitare a componentelor principale care se justifică a fi reţinute pentru interpretarea rezultatelor. Odată calculate eigenvalorile pentru toate componentele trebuie să se stabilească numărul componentelor principale suficiente pentru sintetizarea informaţiei din setul de valori experimentale. Pentru majoritatea aplicaţiilor se dovedeşte suficient un număr maxim de trei sau patru componente principale care surprind varianţa datelor.

Presupunem că avem o populaţie statistică formată din N=122 arbori, pentru care s-au înregistrat valorile pentru variabilele: diametru de bază, X1, înălţime, X2, şi densitatea aparentă convenţională a lemnului, X3. Trebuie să se determine cele trei componente principale Y1, Y2 şi Y3. Matricea covarianţelor pentru acest set de date (considerând că s-a observat populaţia întreagă, deci cu numitorul relaţiilor de calcul N=122) este:

, (9.12) ⎥⎥⎥

⎢⎢⎢

−−−−

=Σ00015,000277,000363,000277,058750,1213724,3200363,013724,3277151,109

pentru care se obţin perechile de valori proprii – vectori proprii:

43742,1191 =λ , ; (9.13) ⎥⎥⎥

⎢⎢⎢

−=

0000358,02880242,09576231,0

1e

92159,22 =λ , ; (9.14) ⎥⎥⎥

⎢⎢⎢

−=

0005490,09576230,02880242,0

2e

00014,03 =λ , . (9.15) ⎥⎥⎥

⎢⎢⎢

⎡−=

9999998,00005360,00001239,0

3e

Deci componentele principale sunt: 3211 0000358,02880242,09576231,0 XXXY ⋅−⋅+⋅= (9.16) 3212 0005490,09576230,02880242,0 XXXY ⋅−⋅+⋅−= (9.17) 3213 9999998,00005360,00001239,0 XXXY ⋅+⋅+⋅−= . (9.18)

110

Page 112: biostatistica forestiera

Se poate observa că: 35916,12200015,058750,1277151,1092

322

21332211 =++=++=++ σσσσσσ

32100014,092159,243742,119 λλλ ++=++= (9.19) În cazul general, proporţia din varianţa totală a populaţiei explicată de componenta principală de ordinul k este:

=

m

ii

k

λ. (9.20)

Dacă poate fi atribuită o proporţie mare din varianţa populaţiei unui număr relativ mic de componente principale, se pot înlocui cele m variabile iniţiale prin aceste componente principale fără a pierde o cantitate mare de informaţie.

Pentru situaţia concretă analizată, proporţia din varianţa totală a populaţiei explicată de fiecare componentă principală este:

%6122,97976122,035916,12243742,119

3

1

1 ===

∑=i

λ (9.21)

%3877,2023877,035916,122

92159,23

1

2 ===

∑=i

λ (9.22)

%0001,0000001,035916,122

00014,03

1

3 ===

∑=i

λ. (9.23)

Se observă influenţa nesemnificativă a celei de-a treia componente principale.

Se pot calcula şi coeficienţii de corelaţie între variabilele originale Xk şi componentele principale Yi cu formula generală:

kk

iikXY

eki σ

λρ = , (9.24)

valori frecvent utilizate pentru interpretarea componentelor principale Yi. Dacă se standardizează variabilele se obţin:

2k

kk

kk

kkk

XXZσ

μσ

μ −=

−= . (9.25)

Componentele principale pentru variabilele standardizate Zk pot fi obţinute din eigenvectorii matricii de corelaţie, R, pentru că, în acest caz, aceasta este identică cu matricea covarianţelor. Pentru exemplul anterior,

111

Page 113: biostatistica forestiera

după standardizarea celor trei variabile X1, X2, X3, nu trebuie să se pornească de la matricea Σ, ci de la matricea R:

. (9.26) ⎥⎥⎥

⎢⎢⎢

−−−−

=0000,11249,01125,01249,00000,18597,01125,08597,00000,1

R

Se obţin perechile valori proprii – vectori proprii:

8912753,11 =λ , ; (9.27) ⎥⎥⎥

⎢⎢⎢

−=

1850757,06955431,06942382,0

1e

9684802,02 =λ , ; (9.28) ⎥⎥⎥

⎢⎢⎢

⎡=

9826698,01235436,01381923,0

2e

1402445,03 =λ , , (9.29) ⎥⎥⎥

⎢⎢⎢

⎡−=

0103500,07077830,07063541,0

3e

diferite de cele obţinute în primul caz. Componentele principale sunt: 3211 1850757,06955431,06942382,0 ZZZY ⋅−⋅+⋅= (9.30) 3212 9826698,01235436,01381923,0 ZZZY ⋅+⋅+⋅= (9.31) 3213 0103500,07077830,07063541,0 ZZZY ⋅+⋅+⋅−= . (9.32) În acest caz este îndeplinită relaţia:

==++=++=++ 00,300,100,100,123

22

21332211 σσσσσσ

3211402445,09684802,08912753,1 λλλ ++=++= . (9.33) Proporţia din varianţa totală explicată de fiecare componentă

principală este:

%04,636304,000,3

8912753,13

1

1 ===

∑=i

λ (9.34)

%28,323228,000,3

9684802,03

1

2 ===

∑=i

λ (9.35)

%68,40468,000,3

1402445,03

1

3 ===

∑=i

λ. (9.36)

112

Page 114: biostatistica forestiera

În această situaţie (atunci când ACP porneşte de la matricea de corelaţie R), se constată că, pentru a calcula ponderea unei componente principale (CP%) în variaţia totală, înseamnă, de fapt, să se efectueze raportul procentual între valoarea proprie a acelei componente şi numărul de variabile iniţiale (m):

100% ⋅=m

reeigenvaloaCP (%). (9.37)

Se observă, din nou, influenţa nesemnificativă a celei de-a treia componente principale.

Pentru a putea interpreta factorii obţinuţi, se determină coeficienţii de corelaţie ( ikZY S

ki=ρ ) dintre aceştia şi variabilele iniţiale,

coeficienţi ce se numesc saturaţii:

9547,0000,1

8912753,16942382,0

11

11111

===σ

λρ

eZY (9.38)

9565,0000,1

8912753,16955431,0

22

12121

===σ

λρ

eZY (9.39)

2545,0000,1

8912753,11850757,0

33

13131

−=−

==σ

λρ

eZY (9.40)

1360,0000,1

9684802,01381923,0

11

21212

===σ

λρ

eZY (9.41)

1216,0000,1

9684802,01235436,0

22

22222

===σ

λρ

eZY (9.42)

9671,0000,1

9684802,09826698,0

33

23232

===σ

λρ

eZY (9.43)

2645,0000,1

1402445,07063541,0

11

31313

−=−

==σ

λρ

eZY (9.44)

2651,0000,1

1402445,07077830,0

22

32323

===σ

λρ

eZY (9.45)

0039,0000,1

1402445,00103500,0

33

33333

===σ

λρ

eZY . (9.46)

Coeficienţii de corelaţie dintre variabilele iniţiale standardizate şi componentele principale sunt sintetizaţi în matricea de corelaţie S, denumită matricea de saturaţie (matricea de structură) în care fiecare

113

Page 115: biostatistica forestiera

coloană este asociată unei variabile iniţiale şi fiecare linie unui factor (unei componente principale), ca în tabelul 13.

Tabelul 13. Matricea de saturaţie

Z1 Z2 Z3

Y1 0,9547 0,9565 -0,2545 Y2 0,1360 0,1216 0,9671 Y3 -0,2645 0,2651 0,0039

Interpretarea valorilor din acest tabel este următoarea: - prima componentă principală Y1 este o rezultantă a influenţei tuturor

primelor două variabile iniţiale, în pondere aproximativ egală, - cea de-a doua componentă principală Y2 este o rezultantă a influenţei

variabilei Z3, - a treia componentă principală Y3 este o rezultantă a influenţei

variabilelor Z1 şi Z2, dar cu pondere mai mică. Există relaţiile matriciale:

21

21

Λ⋅=Λ⋅⋅=−

EERS şi RSS =⋅ ' , (9.47)

unde 21

−Λ este matricea diagonală cu elemente

iλ1 .

Matricea de saturaţie S are următoarele proprietăţi: - suma pătratelor tuturor saturaţiilor pentru o variabilă Xk (sau Zk) este

egală cu 1 (ecuaţia 1 se poate interpreta ca o hipersferă cu

raza egală cu unitatea şi cu centrul în originea sistemului de coordonate cu m dimensiuni, analog cu 12 , care este ecuaţia cercului unitate în spaţiul bidimensional, sau 12 =+ z , ecuaţia sferei unitate în spaţiul tridimensional; aceasta se poate folosi pentru realizarea cercului de corelaţie care este reprezentarea grafică prin care se asociază fiecărei variabile Zk câte un punct de coordonate ik pe fiecare dintre axele i reţinute ca fiind componente principale); pentru exemplul anterior:

1

2 =∑=

m

iikS

2 =+ yx22 + yx

S

( ) 12645,01360,09547,0 222 ≅−++ (9.48) (9.49) 12651,01216,09565,0 222 ≅++

( ) 10039,09671,02545,0 222 ≅++− ; (9.50) - suma pătratelor tuturor saturaţiilor pentru un factor (componentă

principală) Yi este egală cu λi; în exemplul considerat:

(9.51) ( ) 8912753,12545,09565,09547,0 222 ≅−++

114

Page 116: biostatistica forestiera

(9.52) 9684802,09671,01216,01360,0 222 ≅++

( ) 1402445,00039,02651,02645,0 222 ≅++− ; (9.53)

- suma tuturor pătratelor saturaţiilor este egală cu ∑ şi egală cu m

(numărul de variabile). =

m

ii

1

λ

Dacă nu se iau în considerare toate componentele principale ci

numai primele p, valoarea m

p

λλλλλλ

+++

+++

L

L

21

21 este proporţia din varianţa

totală explicată de primii p factori şi constituie măsura globală a calităţii

ACP. Valoarea , denumită „comunalitate” sau „comunitate”

este inferioară lui 1; h2 măsoară, de fapt, proporţia din varianţa variabilelor Xk (sau Zk) explicată de primii p factori.

∑=

=p

iikSh

1

22

În cazul ACP pornind de la variabilele standardizate ( )

k

kkk

XZ

σμ−

= , importanţa relativă a variabilelor este modificată faţă de

cea determinată fără standardizare.

Se deduce de aici că ACP completă transformă variabilele corelate în variabile necorelate conservând (menţinând constantă) varianţa totală.

Variabilele sunt supuse standardizării mai ales atunci când se exprimă în unităţi de măsură sau la scări diferite.

Pe baza structurii elementelor constitutive ale componentelor principale este posibil să se interpreteze primele câteva dintre acestea în sensul efectului total sau al contrastului dintre grupele de variabile. Corelaţia puternică dintre prima componentă principală şi una dintre variabile arată că acea variabilă acţionează în direcţia maximului variaţiei datelor. O corelaţie puternică între o variabilă iniţială şi cea de-a doua componentă principală, perpendiculară pe prima, arată următoarea (ca mărime) sursă de variaţie a valorilor experimentale.

115

Page 117: biostatistica forestiera

Această modalitate de interpretare poate continua şi pentru următoarele componente principale reprezentative pentru cazul studiat. Noul set de variabile ortogonale (factori, variabile latente, componente principale) este introdus pentru eliminarea corelaţiei dintre variabilele fenomenelor multifactoriale şi pentru a reduce dimensiunile sistemului rezultant.

Dacă două variabile Xj şi Xk sunt foarte corelate (r foarte apropiat de ) trebuie să se analizeze dacă nu este mai bine să se elimine una dintre ele (sau să se combine într-o singură variabilă) înainte de aplicarea ACP. În exemplul de calcul anterior, se observă că primele două variabile (diametrul şi înălţimea arborilor) sunt puternic corelate (r=0,8597***).

Dacă valorile coeficienţilor de corelaţie corespunzători celor m variabile iniţiale sunt mici, este inutil să se aplice ACP pentru că se vor obţine factori noi foarte apropiaţi de cei iniţiali.

S-ar putea introduce în sistem variabila volum al arborilor care este de fapt o combinaţie a celor două variabile. 9.4 Estimarea numărului de componente principale

ACP reduce dimensiunile setului de date prin combinarea liniară a variabilelor iniţiale corelate şi obţinerea altor variabile, în număr mai mic. Aceste noi variabile sunt liniar independente. Reţinerea tuturor factorilor m echivalează cu păstrarea întregii cantităţi de informaţie iniţială, ceea ce nu simplifică în nici un fel structura corelativă a variabilelor analizate. Situaţia opusă (păstrarea unui număr mic de factori) duce la explicarea unei proporţii prea mici din varianţa totală şi reducerea excesivă a complexităţii structurii legăturilor dintre variabile.

În general, sunt incluşi în analiză numai eigenvectorii care corespund unor eigenvalori mai mari de 1,000, considerându-se neglijabilă contribuţia celorlalţi la varianţa totală. Trebuie să se aibă în vedere anumite criterii, unele fundamentate statistic, altele doar empirice dar larg utilizate:

alegerea unei proporţii limită de explicare a varianţei, convenabilă din punct de vedere al preciziei analizei, de exemplu 90% (criteriul Joliffe);

116

Page 118: biostatistica forestiera

păstrarea acelor valori proprii ki λλ K, care sunt mai mari decât media

ppi λλ ++L

(criteriul Kaiser);

reprezentarea grafică descrescătoare a valorilor proprii λ ; deseori se poate observa pe acest grafic un „cot” care marchează o modificare a regimului descreşterii valorilor proprii; se păstrează factorii care au valori proprii mai mari decât cea corespunzătoare acestui punct de pe grafic (criteriul Cattell).

Reprezentarea grafică a eigenvalorilor corespunzătoare compo-nentelor principale ilustrează rata modificărilor de amplitudine a acestor valori proprii. Punctul în care curba reprezentată îşi modifică evident panta indică numărul maxim de componente principale ce trebuie luate în considerare.

9.5 Interpretarea geometrică a ACP

ACP construieşte noi variabile, artificiale, iar reprezentarea grafică permite vizualizarea relaţiilor dintre variabile şi, eventual, existenţa unor grupe de indivizi sau grupe de variabile iniţiale. Corelaţiile sunt sintetizate în spaţiul multidimensional cu două sau mai multe axe. Fiecare axă constituie o componentă principală şi interesează poziţia variabilelor în raport cu aceste axe.

Componentele principale sunt eigenvectorii matricii covarianţelor (sau ai matricii de corelaţie) şi, în reprezentare grafică, axele principale ale unei hiperelipse (elipsoid p-dimensional).

Geometric, combinaţiile liniare reprezintă o selecţie de axe ale unui nou sistem de coordonate obţinut prin transformarea ortogonală a sistemului iniţial. Noile axe (e1, e2, …, ep) reprezintă direcţiile cu maximă variabilitate. Considerând elipsoidul p-dimensional , componen-tele principale definesc axele acestui elipsoid.

21 cXX T =Σ−

Demonstraţie:

Se cunoaşte că, dacă este pozitivă şi definită, atunci există şi şi:

Σ

e⋅λ

1−Σ . (9.54) eee ⋅=⋅Σ⇒=⋅Σ − )/1(1 λ

117

Page 119: biostatistica forestiera

De asemenea, descompunerea spectrală a matricii 1−Σ este:

Tpp

p

T eeeeλλ11

111

1 ++=Σ− L . (9.55)

Folosind această modalitate de descompunere se obţine:

( ) ( ) ( )222

2

21

1

12 111 XeXeXeXXc Tp

p

TTT

λλλ+++=Σ= − L , (9.56)

unde sunt componentele principale ale lui X. XeXeXe Tp

TT ,,, 21 K

Dacă se fac notaţiile: , , …, , (9.57) XeY T

11 = XeY T22 = XeY T

pp =se poate scrie:

222

2

21

1

2 111p

p

YYYcλλλ

+++= L . (9.58)

Această ecuaţie defineşte un elipsoid într-un sistem de coordonate ale cărui axe sunt pe direcţiile vectorilor e1, e2, …, ep; elipsoidul are semiaxele pe fiecare direcţie p egale cu pc λ .

În spaţiul multidimensional fiecare variabilă poate fi considerată un vector (în reprezentare geometrică, o linie cu două caracteristici: lungime sau mărime şi direcţie sau sens). Legăturile statistice dintre variabile sunt bine puse în evidenţă în matricea de corelaţie. Coeficienţii de corelaţie din această matrice pot fi exprimaţi geometric prin cosinusul unghiului format de vectorii corespunzători fiecărei perechi de variabile, lungimea acestor vectori fiind măsura varianţei explicate (figura 27).

Figura 27. Reprezentarea vectorială a corelaţiei dintre două variabile (A şi B)

a) variabile cu coeficient de corelaţie )1,0(∈r b) variabile perfect corelate negativ, 1−=r c) variabile perfect corelate pozitiv, 1=r d) variabile necorelate (ortogonale), 0=r

118

Page 120: biostatistica forestiera

Calitatea reprezentării depinde de proporţia varianţei explicate de fiecare axă în parte. Variabilele situate în apropierea originii noului sistem de coordonate se diferenţiază foarte puţin; cele de la periferie au o influenţă mai mare. Vectorii mai apropiaţi denotă o legătură statistică mai puternică între variabile.

Dacă variabilele analizate se află fiecare în apropierea a câte unei axe diferite, nu este corelaţie între ele.

Pot fi comparate numai variabilele care se situează în apropierea circumferinţei cercului sau suprafeţei sferei unitate (nu se poate interpreta gradul de corelaţie a variabilelor aglomerate în zona centrală).

Rotaţia axelor permite obţinerea unor saturaţii apropiate de 1, -1 sau 0, ceea ce facilitează interpretarea factorilor obţinuţi.

Pentru cazul analizat anterior (simplist, de altfel, pentru că s-au luat în considerare numai trei variabile), interpretarea grafică a ACP (figura 28) duce la concluzia că se diferenţiază clar perechea de variabile diametru-înălţime a arborilor, care se află în apropierea primei componente principale, de variabila densitate a lemnului, aflată pe direcţia celei de-a doua componente principale.

Figura 28. Reprezentarea grafică a analizei în componente principale

pentru exemplul considerat

119

Page 121: biostatistica forestiera

Pentru setul de date analizat, între aceste două grupe de variabile nu există legătură corelativă. Diametrul şi înălţimea explică partea cea mai mare din variaţia valorilor experimentale.

Se mai observă, de asemenea, că în reprezentare grafică punctele corespunzătoare diametrului şi înălţimii se găsesc foarte aproape. Aceasta atenţionează asupra faptului că între cele două variabile corelaţia este foarte puternică.

Cele mN × valori experimentale (m fiind numărul de variabile iniţiale, iar N, volumul probei constituite sau al populaţiei în întregime) pot fi reprezentate, în mod asemănător, printr-un nor de puncte în spaţiu, fie prin intermediul scorurilor brute (atunci când ACP porneşte de la matricea ), fie prin intermediul scorurilor standardizate (când ACP porneşte de la matricea R).

Σ

Se încearcă determinarea, pentru fiecare factor, a dreptei D pentru care suma pătratelor distanţelor de la punctele individuale la dreaptă este minimă (figura 29). Se cunoaşte că această dreaptă trebuie să treacă prin centrul de greutate al norului statistic ),,( 21 pxxxx K= care, în cazul valorilor standardizate, corespunde originii sistemului de coordonate. Direcţia dreptei D este cea a primei componente principale, Y1, pentru care varianţa proiecţiilor ortogonale ale punctelor pe dreaptă este

1λ , prima valoare proprie a lui Σ (sau a lui R).

Figura 29. Direcţia primei componente principale

În mod asemănător, în loc să se proiecteze pe o dreaptă, norul de puncte se poate proiecta pe un plan (P) astfel încât suma pătratelor distanţelor de la fiecare punct la acesta să fie minimă (figura 30).

120

Page 122: biostatistica forestiera

Figura 30. Planul primelor două componente principale

Acest plan este cel al primelor două componente principale Y1 şi Y2, iar varianţa corespunzătoare este 21 λλ + . Se continuă similar pentru următoarele componente dintre cele p reţinute. 9.6 Dezavantaje ale ACP

Una dintre ipotezele iniţiale ale metodei este aceea a liniarităţii legăturii statistice dintre variabile. Este posibil ca legătura statistică dintre anumite variabile să fie puternică dar neliniară (raportul de corelaţie cu valoare peste 0,5, dar coeficientul de corelaţie mic); în această situaţie ACP nu dă rezultate concludente.

Restricţia prin care axele de coordonate trebuie să fie perpendiculare între ele, ceea ce înseamnă componente principale necorelate, se concretizează într-un model matematic foarte diferit de cel al relaţiilor specifice caracteristicilor biologice sau ecologice, frecvent puternic intercorelate. Din păcate, componentele principale, care extrag cea mai mare parte din variabilitatea variabilelor iniţiale, sunt de cele mai multe ori dificil de interpretat.

121

Page 123: biostatistica forestiera

Componentele principale sunt înţelese ca „supervariabile”, idealizare şi abstractizare matematică ce le diferenţiază de variabilele reale iniţiale şi aceasta duce la o interpretare dificilă a rezultatelor ACP.

În multe aplicaţii, numai prima componentă principală dă informaţii despre modul de grupare a variabilelor, celelalte fiind componente diferenţă care sunt de asemenea greu de explicat. 9.7 Concluzii sintetice asupra ACP

Pentru aplicarea ACP se calculează matricea covarianţelor (sau cea de corelaţie) şi se determină apoi eigenvectorii şi eigenvalorile acestei matrici. Este important să se reţină faptul că interesează să se obţină eigenvectori standard (cu mărimea egală cu unitatea).

Următoarea etapă este cea de ordonare a vectorilor proprii în sensul descrescător al eigenvalorilor ceea ce este echivalent cu aranjarea componentelor în ordinea semnificaţiei lor. Determinarea componentelor principale constă în compresia şi reducerea dimensiunilor setului de date experimentale. Eigenvectorul cu valoarea proprie cea mai mare este prima componentă principală care redă cea mai puternică legătură statistică între variabilele iniţiale. Următoarea componentă principală semnificativă este eigenvectorul cu valoarea proprie imediat mai mică. Se continuă în acest mod până la aflarea tuturor componentelor principale, ignorând ultimele componente (cele cu semnificaţie redusă).

Astfel se vor reduce dimensiunile iniţiale ale setului de date: dacă la început acesta a avut m dimensiuni, prin sortarea şi alegerea primilor p eigenvectori, setul final de date va avea numai p dimensiuni. Cu vectorii proprii selectaţi pentru componentele principale se formează o matrice a vectorilor E (engl. Feature Vector). Aceşti eigenvectori vor constitui, în ordinea semnificaţiei lor, coloanele matricii: ( )peeeeE K321= . (9.59)

Într-o ultimă etapă se poate obţine un set final de valori (engl. Final Data) prin înmulţirea transpusei matricii vectorilor cu transpusa matricii setului de date iniţiale ajustate: (9.60) TT DataAdjusttorFeatureVecFinalData ×=

FeatureVectorT este o matrice în care eigenvectorii sunt trecuţi pe linii primul fiind cel mai semnificativ, iar DataAdjustT, tot o matrice în care pe linii sunt trecute variabilele, iar pe coloane, valorile standardizate corespunzătoare. Matricea rezultat FinalData este matricea datelor iniţiale exprimate numai prin cei p eigenvectori ai componentelor principale.

122

Page 124: biostatistica forestiera

10. ANALIZA REGRESIEI

Aşa cum s-a prezentat anterior, coeficientul de corelaţie indică intensitatea legăturii dintre două sau mai multe caracteristici şi este utilizat în special pentru caracterizarea unei dependenţe liniare între acestea.

Pentru a determina forma legăturii corelative trebuie aplicată metoda de cercetare statistică denumită analiza regresiei.

Analiza regresiei este o metodă statistică prin care se cercetează posibilitatea exprimării cu ajutorul unei ecuaţii a legăturii dintre valorile medii ale unei variabile y (considerată dependentă) şi valorile unei sau ale mai multor variabile independente x, în cazul în care s-a observat, prin analiza corelaţiei, existenţa unei asemenea legături.

Ecuaţia de regresie este o relaţie matematică prin care se exprimă dependenţa dintre două sau mai multe variabile şi este de forma: ( nxxxfy ,,,ˆ 21 K )= . (10.1)

Aceasta defineşte o curbă sau o suprafaţă de regresie şi are drept scop să permită, pentru valorile date x1, x2, …, xn, calculul unei estimaţii a lui y.

Termenul „regresie” a fost folosit de Galton care a aplicat prima dată teoria corelaţiei la date biologice. Examinând dinamica populaţiilor, acesta a constatat că în astfel de cazuri s-ar păstra un echilibru dinamic dacă noile generaţii ar moşteni caracteristicile părinţilor. Studiind înălţimea taţilor şi cea a fiilor, Galton a sesizat că fiii se abat de la înălţimea medie mai puţin decît se abat taţii, deci că fiii regresează spre valoarea medie. El a folosit termenul „linie de regresie” pentru linia de legătură dintre înălţimile taţilor şi cele ale fiilor.

Termenul „regresie” nu este destul de potrivit pentru cele mai multe tipuri de legături statistice (corelative) între variabile, dar continuă să se păstreze în literatura de specialitate ca o simplă convenţie.

Ecuaţiile de regresie se folosesc atât pentru sintetizarea anumitor cunoştinţe cât şi pentru efectuarea de interpolări sau, cu anumite precauţii, extrapolări. Acestea prezintă rezultatul cercetării într-o formă concentrată, înlocuind tabelele de calcul şi, din acest considerent, pot da soluţii optime pentru automatizarea lucrărilor.

123

Page 125: biostatistica forestiera

10.1 Succesiunea etapelor pentru analiza regresiei

Etapele de lucru în aplicarea analizei regresiei sunt: stabilirea tipului de regresie, determinarea parametrilor ecuaţiei de regresie, evaluarea preciziei dreptei sau curbei de regresie (evaluarea preciziei

de estimare). După forma lor, legăturile corelative pot fi liniare sau curbilinii.

Stabilirea tipului de regresie este o operaţie cu un grad înalt de subiectivism, datorită faptului că nu există o metodă riguros fundamentată care să asigure de la început soluţia optimă.

Pentru lucrările curente se procedează astfel: - se stabilesc variabilele (dependentă, independente), - se culeg datele şi se formează tabelul de corelaţie, - se reprezintă grafic valorile observate (toate, sau numai valorile medii

ale caracteristicii rezultative în cazul unui număr mare de observaţii), - analizând câmpul de corelaţie sau linia poligonală se stabileşte forma,

sensul şi intensitatea legăturii dintre variabile (figura 31); în cazul ordonării după o dreaptă, regresia este liniară, iar în cazul ordonării după o curbă, regresia este curbilinie;

Figura 31. Stabilirea grafică a tipului de ecuaţie de regresie

a) regresie liniară stabilită pentru câmpul de corelaţie b) regresie liniară stabilită pentru valorile medii c) regresie curbilinie stabilită pentru valorile medii

- se face compensarea, grafic sau analitic; indiferent de modalitatea de ajustare, aprecierea corectitudinii se face după criteriile generale: suma algebrică a abaterilor să fie cât mai apropiată de 0 (în cazul

ideal, chiar egală cu 0), suma pătratelor abaterilor să fie minimă.

124

Page 126: biostatistica forestiera

10.2 Metode analitice de determinare a parametrilor ecuaţiilor de regresie

Se consideră, pentru început, dreapta de regresie, exprimată prin ecuaţia de regresie liniară simplă: xbay ⋅+=ˆ . (10.2)

În această ecuaţie, constanta b este definită de relaţia:

x

yyx s

srbb ⋅== (10.3)

şi se numeşte coeficient de regresie al variabilei y în raport cu variabila x. Similar, se poate scrie expresia coeficientului de regresie al

variabilei x în raport cu y:

y

xxy s

srb ⋅= . (10.4)

În sens geometric (figura 32), coeficientul de regresie reprezintă panta dreptei de regresie: θtgb = . (10.5)

Constanta a (termenul liber) este distanţa de la originea sistemului de coordonate la punctul de intersecţie al ordonatei cu dreapta de regresie.

Figura 32. Interpretarea grafică a parametrilor dreptei de regresie

Determinarea ecuaţiei de regresie liniare simple constă, practic, în determinarea coeficientului de regresie (b) şi a termenului liber (a).

b se determină din relaţia de definiţie:

125

Page 127: biostatistica forestiera

( )

Nx

x

Nyx

xy

ss

ss

sss

ss

rbbx

xy

x

y

yx

xy

x

yyx 2

22 ∑∑

∑ ∑ ∑

⋅−

==⋅⋅

=⋅== (10.6)

a se determină din condiţia ce se impune punctului ( yxM , ) de a fi situat pe dreapta de regresie (acesta verifică ecuaţia dreptei): xbyaxbay ⋅−=⇒⋅+= (10.7)

Dreapta definită de această ecuaţie are o asemenea poziţie încât suma pătratelor abaterilor individuale faţă de dreaptă este minimă.

O altă posibilitate este cea de estimare a parametrilor a şi b prin metoda celor mai mici pătrate, al cărui principiu de bază cere ca ecuaţia de ajustare să fie astfel aleasă încât suma pătratelor abaterilor valorilor observate (y) de la valorile calculate pe baza modelului ( ) să fie minimă (figura 33). Altfel spus, suma erorilor de estimare trebuie să fie cât mai redusă:

y

= minim, (10.8) (∑=

−=N

iyyS

1

2ˆ )

)

unde i = 1, …, N reprezintă numărul perechilor de valori (xi, yi).

Figura 33. Reprezentarea grafică a pătratelor abaterilor valorilor experimentale faţă de dreapta de regresie

Relaţia anterioară se mai poate scrie, în cazul unei drepte de regresie:

= minim. (10.9) (∑=

⋅−−=N

ixbayS

1

2

126

Page 128: biostatistica forestiera

Minimul poate fi determinat prin anularea derivatelor parţiale ale lui S în raport cu a şi în raport cu b:

0=∂∂

=∂∂

bS

aS (10.10)

Se obţine sistemul de ecuaţii:

⇒ (10.11) ( )

( )⎪⎪⎩

⎪⎪⎨

=⋅−−⋅

=⋅−−

=

=N

iiii

N

iii

xbayx

xbay

1

1

0

0

⎪⎩

⎪⎨

⋅+⋅=

⋅+⋅=

∑ ∑ ∑∑ ∑

2xbxaxy

xbaNy

Prima ecuaţie arată că suma algebrică a abaterilor între valorile observate şi ordonatele corespunzătoare ale dreptei de regresie este nulă (abaterile negative ale punctelor situate sub dreaptă compensează abaterile pozitive ale punctelor de deasupra dreptei).

Prin împărţirea la N, se obţine: xbay ⋅+= , (10.12)

deci dreapta de regresie trece prin punctul ( )yxM , . Ecuaţia liniară determinată anterior este cea care exprimă

dependenţa variabilei y în raport cu x: xbay ⋅+=ˆ (10.13)

Ecuaţia dreptei de regresie ( )yfx =ˆ se obţine prin procedeele prezentate anterior şi reprezintă o altă dreaptă de regresie (figura 34) care formează un unghi α cu dreapta ( )xfy =ˆ .

Spre deosebire de ecuaţiile funcţionale, din această relaţie nu poate fi obţinută relaţia inversă (dependenţa lui x în raport cu y). Deci, nu se poate scrie

:

α este cu atât mai mare cu cât legătura corelativă este mai slabă (r mai mic; câmpul de corelaţie mai dispersat). Dacă r = 0, cele două drepte de regresie sunt perpendiculare şi paralele cu axele de coordonate. Pentru r = 1 sau r = -1 dreptele de regresie se suprapun (relaţie funcţională).

ybb

ax ⋅+−=1ˆ

127

Page 129: biostatistica forestiera

Figura 34. Poziţia celor două drepte de regresie ce redau

forma legăturii între caracteristicile x şi y

10.3 Intervalul de încredere pentru ecuaţia de regresie

xbay ⋅+=ˆ reprezintă numai o estimaţie pentru adevărata dreaptă de regresie, pentru că se obţine pe baza unei mulţimi finite de perechi de valori (x, y) observate.

Aşadar, valorile calculate sunt afectate de erori ( ), dreapta de regresie fiind caracterizată printr-un interval de încredere:

y ys ˆ

ysty ˆˆ ⋅± , (10.14)

în care t este valoarea testului Student pentru pragurile de semnificaţie stabilite (q) şi numărul gradelor de libertate f = N-2. Eroarea de estimare se determină cu relaţia:

( )x

xyy Qxx

Nss −

+⋅=1

/ˆ , (10.15)

în care reprezintă abaterea standard a valorilor individuale ale lui y faţă de dreaptă şi se determină cu relaţia:

yxs /

( )

2

ˆ1

2

/ −

−=

∑=

N

yys

N

iii

yx , (10.16)

iar Qx (suma pătratelor abaterilor pentru variabila x) se calculează:

128

Page 130: biostatistica forestiera

( )∑ ∑∑

= =

=

⎟⎠

⎞⎜⎝

−=−⋅=k

i

k

i

k

iii

iiiix N

xnxnxxnQ

1 1

2

122 (10.17)

Deci, adevăratele valori medii vor fi cuprinse în intervalul (figura 35):

y

[ ]yy stysty ˆˆ ˆ,ˆ ⋅+⋅− (10.18)

Figura 35. Intervalul de încredere al dreptei de regresie

Analiza graficului arată că, pentru o anumită probabilitate de transgresiune, valorile medii ale lui sunt încadrate între două curbe. y

Amplitudinea intervalului de încredere este mai mare la capete şi mai mică la mijlocul câmpului de corelaţie (datorită informaţiilor mai puţine despre legătura corelativă la marginile câmpului de corelaţie).

10.4 Regresia multiplă liniară

În cazul influenţei mai multor caracteristici factoriale asupra variaţiei caracteristicii rezultative y, se folosesc ecuaţii de regresie multiple. Cea mai simplă este ecuaţia de regresie multiplă liniară:

nn xaxaxaay ⋅++⋅+⋅+= L22110ˆ (10.19)

129

Page 131: biostatistica forestiera

Coeficienţii de regresie (a1, a2, a3, …, an) reflectă influenţa caracteristicilor factoriale asupra caracteristicii rezultative şi se determină prin metoda celor mai mici pătrate.

Parametrii ecuaţiei de regresie multiple liniare se determină prin rezolvarea sistemului de n+1 ecuaţii cu n+1 necunoscute care rezultă din metoda celor mai mici pătrate:

⎪⎪⎪

⎪⎪⎪

++++=

++++=++++=

++++=

∑ ∑ ∑ ∑ ∑

∑ ∑ ∑ ∑ ∑∑ ∑ ∑ ∑∑∑ ∑ ∑∑

222110

2222211202

1212211101

22110

nnnnnn

nn

nn

nn

xaxxaxxaxayx

xxaxaxxaxayxxxaxxaxaxayx

xaxaxaNay

L

LLLLLLLLLLLLLLLLLLLLLLLL

L

L

L

(10.20)

Se poate calcula, în acest caz, un coeficient de corelaţie multiplă (R). Ecuaţiile de regresie liniare pot fi utilizate şi pentru alte tipuri de legături corelative, numai dacă variabilele respective pot fi liniarizate prin transformări adecvate.

Ecuaţiile de regresie trebuie să satisfacă anumite condiţii care să le

asigure valabilitatea pentru aplicare practică: - să fie destul de sigure (precizie ridicată, probabilitate de acoperire

mare, valoare mare a coeficientului de determinare R2), - să aibă o formă simplă (cea mai adecvată ecuaţie de regresie, dar şi

cea mai simplă ca formă matematică), - să fie în concordanţă cu existenţa fizică a fenomenului studiat.

Trebuie, însă, să se ţină cont de faptul că, prin transformare, variabilele îşi modifică intervalul de variaţie, ceea ce duce la modificarea distribuţiei valorilor experimentale şi a unor indicatori statistici.

În orice model statistic erorile sunt inerente atât timp cât acesta rezultă prin abstractizarea realităţii. Simplificarea realităţii are drept scop obţinerea unor modele utilizabile în practică.

130

Page 132: biostatistica forestiera

Există multe tipuri de erori: erori de măsurare, erori de eşantionare, erori de calcul, erori de specificaţie (datorate unei structuri improprii a modelului, cum ar fi omiterea unei variabile foarte relevante), erori de transferabilitate (se comit atunci când un model determinat pentru o anumită zonă sau regiune geografică este aplicat într-o alta, total deosebită), erori de agregare (realizate atunci când modelele statistice sunt estimate la nivel de grup, iar aplicarea lor se face al nivel individual) etc.

Dacă înlăturarea celorlalte categorii de erori este relativ simplă prin organizarea corespunzătoare a cercetării şi interpretarea corectă a rezultatelor obţinute, erorile de calcul şi cele de specificaţie se comit frecvent din cauza importanţei scăzute ce li se dă şi a aplicării unor metode de estimare inadecvate. 10.5 Tipuri de ecuaţii de regresie şi limitările acestora

Se poate considera că există două mari categorii de ecuaţii de regresie: - ecuaţii isometrice sau ecuaţii intrinsec liniare, - ecuaţii allometrice (altele decât metrice) sau ecuaţii intrinsec neliniare.

Înainte de epoca microcalculatoarelor, ecuaţiile de regresie neliniare erau mai puţin utilizate ca atare în lumea ştiinţifică; frecvent, datele experimentale erau transformate prin substituiri de variabile astfel încât să se obţină ecuaţii liniare pentru care prelucrarea în vederea estimării parametrilor este mai simplă şi mai rapidă.

Această modalitate de lucru este depăşită şi nerecomandată pentru analiza datelor din cauză că în urma liniarizării s-a observat o distorsionare a erorilor reziduale şi a relaţiilor dintre variabile.

În analiza regresiei se utilizează frecvent funcţiile putere, exponenţială, polinomială sau cele asimptotice, care pot fi liniarizate prin transformări de variabile.

Funcţia putere de forma este liniarizabilă prin logarit-mare:

bxay −⋅=

'''logloglog xbayxbay ⋅−=⇔⋅−= (10.21) Funcţia exponenţială (curba de creştere sau de descreştere), cu

tipurile negative sau pozitive, este de forma , liniarizabilă prin transformarea:

xbay −⋅=

( ) xbay ⋅−= logloglog . (10.22) Regresia polinomială

(10.23) K+⋅+⋅+⋅+= 33

2210 xxxy ββββ

131

Page 133: biostatistica forestiera

reprezintă un tip special pentru că nu este o ecuaţie neliniară în sensul strict, chiar dacă panta este variabilă. Dezavantajul utilizării constă în faptul că parametrii ecuaţiei de regresie rareori pot fi interpretaţi în termeni biologici, astfel încât curba poate fi perfect estimată, dar rămâne „artificială”.

Curbele asimptotice (logistică, Gompertz etc.) sunt ecuaţii intrinsec liniare.

Evident, există şi ecuaţii neliniare care nu pot fi „liniarizate”, de exemplu: ( ) dxcxxbay 321/ ⋅+⋅⋅= (10.24)

Diagnosticarea ecuaţiilor de regresie se poate face prin procedee diferite:

examinarea eficienţei modelului, investigarea diferenţelor dintre punctele experimentale şi curba de

regresie verificarea îndeplinirii ipotezelor analizei regresiei.

Cele mai utilizate diagnoze se bazează pe analiza reziduurilor cere reprezintă deviaţiile valorilor individuale experimentale de la valorile estimate prin ecuaţia de regresie.

Pentru forma generală a unei ecuaţii de regresie multiple: ε+= ),,,(ˆ 21 kxxxfy K , (10.25) termenul eroare ε este necunoscut pentru că adevăratul model este necunoscut.

Odată determinaţi parametrii unei ecuaţii de regresie, pentru fiecare unitate statistică i erorile de estimare sunt: iii yy ˆˆ −=ε (10.26) în care: yi este valoarea observată a caracteristicii y,

iy este valoarea estimată după ecuaţia de regresie.

În modelarea statistică, transformările de variabile sunt folosite frecvent pentru a demonstra compatibilitatea valorilor experimentale cu ipotezele pe care se fundamentează procesul de modelare, pentru liniarizarea legăturii statistice dintre două sau mai multe variabile a căror relaţie este neliniară sau pentru a modifica limitele de variaţie ale unor variabile.

Pentru un model corect ales, reziduurile se dispun randomizat în jurul curbei sau suprafeţei de regresie. Pentru un alt tip de distribuţie

132

Page 134: biostatistica forestiera

trebuie să se caute un alt model de ecuaţie de regresie, mai adecvat, sau să se adauge noi variabile explicative. Tipul de transformare ce se aplică determină modul în care este afectată scara variabilelor netransformate.

Schimbările de variabile trebuie efectuate în mod iterativ, urmărind permanent modificările pe care le produc. Compararea tipurilor de ecuaţii de regresie trebuie să se facă în scara iniţială, netransformată, a variabilei dependente.

De exemplu, transformările exponenţiale implică o structură multiplicativă a erorilor în modelul de bază (iniţial) şi nu aditivă, aşa cum este specifică unei ecuaţii liniare. Astfel, pentru ecuaţia de regresie de bază: , (10.27) ε+⋅= ⋅xbeaytransformarea logaritmică înseamnă:

⎟⎠⎞

⎜⎝⎛

⋅++⋅+=⎥

⎤⎢⎣

⎡⎟⎠⎞

⎜⎝⎛

⋅+⋅⋅=+⋅= ⋅⋅

⋅⋅xbxb

xbxb

eaxba

eaeaeay εεε 1lnln1ln)ln(ln .

Cu toate că modelul obţinut este într-adevăr liniar, forma termenului eroare de estimare este total diferită de cea specifică ecuaţiilor de regresie determinate prin metoda celor mai mici pătrate. De fapt, termenul eroare este o funcţie de x, a şi b şi este, deci, de tip multiplicativ.

Regula ce se desprinde din acest exemplu este aceea că termenul eroare trebuie verificat întotdeauna, după efectuarea unei transformări de variabilă, din punct de vedere al compatibilităţii cu condiţiile restrictive ale modelului iniţial, în principal normalitatea erorilor.

Nu numai transformările prin logaritmare sunt folosite pentru liniarizare, ci şi cele prin ridicare la o anumită putere (care restrâng domeniul de variaţie a valorilor mici) sau prin extragerea rădăcinilor de un anumit ordin (care restrâng domeniul de variaţie a valorilor mari). Acestea se grupează într-o familie de transformări (tabelul 14) frecvent aplicate în practică, reprezentată de funcţia putere (yp).

Tabelul 14. Familia de transformări yp p 2 1/2 1/3 -1/2 -1

yp y2 y y1

y1

3 y

Limitările de aplicabilitate a ecuaţiilor de regresie obţinute prin liniarizare sunt determinate de ipotezele restrictive de bază ale analizei regresiei multiple, şi anume:

133

Page 135: biostatistica forestiera

media abaterilor reziduale individuale este egală cu 0 (metodele uzuale de estimare a coeficienţilor de regresie se bazează tocmai pe această ipoteză),

abaterile reziduale se distribuie după legea normală, varianţa abaterilor este constantă pe întreg domeniul de aplicabilitate a ecuaţiei de regresie (pentru toate valorile experimentale ale variabilelor independente),

variabilele factoriale nu sunt coliniare, erorile de estimare nu se corelează cu nici una dintre variabilele independente.

În general, transformarea unei variabile factoriale x are scopul de a corecta neliniaritatea, iar transformarea variabilei dependente y se aplică pentru a corecta inconstanţa varianţei sau pentru a obţine normalizarea erorilor de estimare, ceea ce poate duce implicit şi la creşterea liniarităţii.

Dacă erorile de estimare se distribuie după legea normală în modelul iniţial, transformarea lui y poate duce, însă, la deformarea distribuţiei erorilor.

Transformarea lui y implică schimbarea unităţii de măsură în care se exprimă variabila dependentă, ceea ce face dificilă interpretarea rezultatelor cu atât mai mult cu cât transformarea este mai complexă.

O altă situaţie des întâlnită şi prea puţin analizată este cea în care unele variabile explicative sunt puternic corelate între ele, astfel încât întregul set potenţiale variabile conţin informaţie redundantă.

Multicoliniaritatea se manifestă frecvent în ecuaţiile de regresie multiple şi se observă atunci când variabilele explicative luate în considerare într-o ecuaţie de regresie multiplă nu variază independent ci sunt puternic corelate.

Este specifică variabilelor factoriale (nu se referă în nici un fel la variabila rezultativă) şi favorizează următoarele manifestări negative:

efectul variabilelor explicative asupra celei dependente se confundă (nu pot fi separate sau influenţate),

variabilele explicative coliniare sunt de sensuri contrare şi se compensează reciproc,

un alt set de observaţii din populaţia iniţială ar putea genera coeficienţi de regresie total diferiţi de cei determinaţi pe baza eşantionului anterior.

În consecinţă, creşte incertitudinea în estimarea coeficienţilor ecuaţiei de regresie, ale căror erori standard sunt foarte mari, astfel încât pot deveni nesemnificativi.

134

Page 136: biostatistica forestiera

Multicoliniaritatea este specifică ecuaţiei de regresie polinomiale pentru că variabilele explicative sunt, de fapt, puteri ale aceleiaşi variabile şi, evident, sunt foarte puternic corelate între ele.

Trebuie să se ia o decizie bazată pe analiză statistică în aşa fel

încât să se folosească acele variabile independente care duc la obţinerea unei ecuaţii de regresie care să verifice în cea mai mare măsură ipotezele formulate iniţial.

Transformările de variabile reprezintă un remediu pentru valorile extreme, pentru deviaţiile de la normalitate şi favorizează liniarizarea şi homoscedascitatea (constanţa erorilor). Trebuie, însă, să existe precauţie în aplicarea transformărilor pentru că astfel devine dificilă interpretarea noilor variabile. Trebuie să se aplice următoarele reguli de transformare:

transformările variabilei dependente vor schimba distribuţia erorilor de estimare în model; incompatibilitatea erorilor modelului cu o anumită distribuţie teoretică poate fi remediată numai prin transformarea variabilei dependente;

legătura statistică dintre variabila dependentă şi o anumită variabilă independentă poate fi liniarizată uneori prin transformarea variabilei factoriale, caz în care nu se modifică (de obicei) distribuţia erorilor de estimare;

intervalele de încredere determinate pentru ecuaţia de regresie cu variabile transformate trebuie să fie recalculate în unităţile de măsură corespunzătoare modelului iniţial.

Este recomandabil să se utilizeze cât mai puţine variabile explicative într-o ecuaţie de regresie (numai acele variabile care sunt bine corelate cu variabila rezultativă şi relativ necorelate între ele).

Procesul de transformare este un proces iterativ care necesită şi o evaluare postcalcul.

Modelele neinterpretabile nu sunt de dorit, chiar dacă acestea exprimă foarte bine legătura corelativă studiată. Sunt mai apreciate

135

Page 137: biostatistica forestiera

ecuaţiile de regresie interpretabile, cu o altă formă decât cea polinomială, chiar dacă nu ajung la acelaşi grad de ajustare. 10.6 Raportul de corelaţie

Folosirea coeficientului de corelaţie r şi a ecuaţiilor de regresie liniare nu se justifică decât dacă există într-adevăr o dependenţă liniară între caracteristici. În celelalte situaţii este recomandat să se utilizeze un alt indicator statistic care ia în calcul mediile aritmetice corespunzătoare unor benzi trasate pe diagrama de puncte (xi, yi), paralel cu axele de coordonate (figura 36).

Acest indicator se numeşte raport de corelaţie şi se notează cu η.

Figura 36. Principiul de determinare a raportului de corelaţie

Ecuaţiile de regresie, în acest caz, nu mai sunt liniare. Metoda de determinare a coeficienţilor de regresie este, însă, aceeaşi şi se aplică în aceleaşi condiţii.

De exemplu, pentru o ecuaţie de regresie polinom de gradul n (aplicabilă în unele situaţii bine justificate şi numai cu un grad n de valoare mică), sistemul de ecuaţii ce rezultă din metoda celor mai mici pătrate este:

⎪⎪⎪

⎪⎪⎪

++++=

++++=

++++=

++++=

∑ ∑ ∑ ∑ ∑

∑ ∑ ∑ ∑ ∑∑ ∑ ∑ ∑∑∑ ∑ ∑∑

++

+

+

nn

nnnn

nn

nn

nn

xaxaxaxayx

xaxaxaxayx

xaxaxaxaxy

xaxaxaNay

222

110

242

31

20

2

132

210

2210

L

LLLLLLLLLLLLLLLLLLLLLLL

L

L

L

(10.29)

136

Page 138: biostatistica forestiera

10.6.1 Determinarea raportului de corelaţie

Pentru banda paralelă cu ordonata, cu abscisa centrală (centrul clasei) xi, se consideră media a ni valori y corespunzătoare lui x, conţinute în această clasă. Dacă se notează prin y media generală a valorilor y şi prin

ixy media a ni valori y în clasa i după x (cu centrul corespunzător lui xi), raportul de corelaţie are expresia:

( )

( ) Ti

xiyx Q

Qyy

yyni =

−⋅=

∑∑

2

2

η , (10.30)

în care: Q este suma pătratelor abaterilor faţă de media între clase (între grupele formate), QT – suma pătratelor abaterilor pe total. Se poate defini şi raportul de corelaţie al lui x în funcţie de y (al corelaţiei inverse):

( )

( )∑∑

−⋅= 2

2

xx

xxn

i

yixy

iη . (10.31)

Se mai poate scrie:

y

yyx s

sx=η ;

x

xxy s

sy=η , (10.32)

în care notaţiile reprezintă:

x

- abaterea standard a caracteristicii y, y

yss - abaterea standard a mediilor de clasă pentru caracteristica y,

y

- abaterea standard a caracteristicii x. xsxs

- abaterea standard a mediilor de clasă pentru caracteristica x,

Raportul de corelaţie este cuprins în intervalul [ ]1,0 . Pentru 0=η , între variabile există o independenţă totală, iar pentru 1=η între caracteristici există o legătură funcţională (neliniară sau liniară).

În timp ce pentru o regresie riguros liniară: rxyyx == ηη , (10.33) pentru o regresie neliniară, întotdeauna: r>η . (10.34)

137

Page 139: biostatistica forestiera

Raportul de corelaţie multiplă (R) măsoară intensitatea legăturii dintre o caracteristică rezultativă y şi două sau mai multe caracteristici factoriale x1, x2, ..., xi. Calculul raportului de corelaţie presupune identificarea formei legăturii dintre variabile (determinarea ecuaţiei de regresie), determinarea mediei aritmetice ( y ) a valorilor individuale yi şi calculul valorilor ajustate ale variabilei rezultative ( ). Relaţia de calcul este: iy

( )

( )∑

=

=

−−= N

ii

N

iii

yy

yyR

1

2

1

2ˆ1 . (10.35)

Pătratul raportului de corelaţie (R2), exprimat procentual, este numit coeficient de determinare şi arată care este ponderea variaţiei determinate de influenţa factorilor cuprinşi în model în variaţia totală a variabilei rezultative.

10.6.2 Semnificaţia raportului de corelaţie

Testarea semnificaţiei raportului de corelaţie se face prin aplicarea testului F.

2

2

exp 11 ηη−

⋅−−

=k

kNF , (10.36)

în care k reprezintă numărul de clase formate pentru caracteristica factorială.

Fexp se compară cu Fteoretic extras din tabele pentru o anumită probabilitate de transgresiune q şi pentru f1 = k-1 şi f2 = N-k.

dacă Fexp ≤ Fteoretic 0,05 ⇒ η este nesemnificativ,

dacă Fexp > Fteoretic 0,05 ⇒ η este semnificativ, dacă Fexp > Fteoretic 0,01 ⇒ η este distinct semnificativ.

138

Page 140: biostatistica forestiera

139

CA

LCU

LUL

CO

EFIC

IEN

TULU

I DE

CO

REL

AŢI

E

r, A

L R

APO

RTU

LUI D

E C

OR

ELAŢI

E η y

x ŞI A

L R

APO

RTU

LUI D

E C

ORE

LAŢI

E η

xy

28,0

32,0

36,0

40,0

44,0

48,0

52,0

56,0

60,0

64,0

68,0

ny

44,0

00

00

00

50

30

08

55,0

083

1,41

352,

0015

488,

019

360,

0052

9,93

42,0

00

00

20

20

13

210

58,0

017

40,9

342

0,00

1764

0,0

2436

0,00

376,

8640

,00

01

10

53

90

10

2052

,00

1035

,20

800,

0032

000,

041

600,

0034

2,61

38,0

00

05

17

62

10

022

48,3

627

8,52

836,

0031

768,

040

432,

0010

0,65

36,0

00

310

75

10

00

026

42,6

212

4,72

936,

0033

696,

039

888,

000,

5034

,00

01

89

40

00

00

2242

,91

79,1

274

8,00

2543

2,0

3209

6,00

76,2

032

,00

34

52

00

00

00

1437

,71

704,

0144

8,00

1433

6,0

1689

6,00

208,

7130

,01

25

10

00

00

00

934

,67

925,

1727

0,00

8100

,093

60,0

030

9,17

28,0

21

32

00

00

00

08

34,5

084

9,64

224,

0062

72,0

7728

,00

494,

3826

,01

31

00

00

00

00

532

,00

819,

9113

0,00

3380

,041

60,0

048

6,21

nx

49

1832

2121

1711

54

214

444

,81

7388

,64

5164

,00

1881

12,0

2358

80,0

029

25,2

228

,00

29,1

131

,67

34,6

335

,43

37,2

440

,47

39,6

442

,40

41,5

042

,00

35,8

624

7,19

410,

0631

6,68

48,9

03,

9339

,82

361,

2015

6,78

213,

7912

7,19

75,3

720

00,9

00,

684

112,

0028

8,00

648,

0012

80,0

092

4,00

1008

,00

884,

0061

6,00

300,

0025

6,00

136,

0064

52,0

00,

827

3136

,092

16,0

2332

8,0

5120

0,0

4065

6,0

4838

4,0

4596

8,0

3449

6,0

1800

0,0

1638

4,0

9248

,030

0016

,0

3136

,083

84,0

2052

0,0

4432

0,0

3273

6,0

3753

6,0

3577

6,0

2441

6,0

1272

0,0

1062

4,0

5712

,023

5880

,00,

676

0,63

411

29,7

114

75,8

413

95,6

873

8,99

13,6

321

4,29

879,

9213

78,4

711

54,3

614

73,7

110

75,9

610

930,

560,

822

0,79

7

xy xn x

⋅2 x

n x⋅

yx

⋅⋅

yn y

y

⋅∑

2 yn y

y

⋅∑

yx

nx

yxy

⋅⋅

∑∑

xn x

x⋅

∑2 x

n xx

⋅∑

n xy

yx

n xy

⋅⋅

yn y

⋅2 y

n y⋅

yx xy

2 )(

xx

ny

y−

∑−

2 )(

xx

ny

y2 )y

y x−

(n x

2 )(

yy

nx

x−

2 )(

yy

ni

y−

∑−

2 )(

yy

ni

y

2 )xi

−(x

n x2 )

(x

xn

ix

−∑

yx

nx

yxy

⋅⋅

∑∑

=2 yx

R

=2 xy

R

=yx

η

=xy

η=

2R

=r

Tabe

lul 1

5.

Page 141: biostatistica forestiera

11. ANALIZA SERIILOR DE TIMP

Seriile de timp, seriile cronologice sau seriile dinamice reprezintă variaţia uneia sau a mai multor caracteristici în raport cu variabila timp. Determinarea valorilor acestor caracteristici se face în momente diferite; pentru simplificarea metodelor de prelucrare statistică este recomandabil ca datele experimentale să fie obţinute la intervale egale de timp ( 1=tδ ). Variabilele analizate în raport cu timpul pot fi discrete (de exemplu: numărul de arbori) sau continue (de exemplu: temperatura). Unitatea de timp luată în considerare este anul (cel mai frecvent) dar şi luna, săptămâna, ziua, iar pentru evidenţierea anumitor particularităţi ale unor fenomene, chiar ora sau minutul. În funcţie de numărul variabilelor considerate, seriile de timp pot fi unidimensionale, bidimensionale sau pluridimensionale. 11.1 Ajustarea unei serii cronologice

Din reprezentarea unei serii cronologice unidimensionale se observă că aceasta se caracterizează prin componentele:

T: o variaţie de lungă durată (tendinţă seculară sau trend), C: variaţie ciclică (variaţii ritmice care se repetă după o anumită

perioadă), S: variaţie sezonieră, caz particular de variaţie periodică reprezen-

tând oscilaţii ale seriilor cronologice în funcţie de anotimpuri sau grupe de luni sau zile,

R: variaţie reziduală (variaţii aleatoare sau accidentale). Seriile cronologice pot avea un model aditiv ( RSCT +++ ) sau un model multiplicativ (T RSC ⋅⋅⋅ ). Pentru fenomenele din silvicultură se aplică frecvent modelul aditiv al seriilor cronologice. Modelul general nu este aplicabil în toate situaţiile. De exemplu, dacă datele sunt înregistrate anual nu are sens considerarea unei componente sezoniere. Dacă seria este analizată pentru o perioadă scurtă de timp, se poate omite componenta ciclică. Uneori, pentru analiza corelaţiei seriilor de timp trebuie să fie eliminat trendul, astfel încât să poată fi puse în evidenţă numai variaţiile ciclice.

Ajustarea unei serii cronologice, similar ajustării distribuţiilor, constă în aplicarea metodelor statistic-matematice şi grafice adecvate pentru înlocuirea seriei empirice cu o serie de valori calculate în vederea evidenţierii caracterului legic şi regulat al fenomenelor analizate.

140

Page 142: biostatistica forestiera

Metodele de ajustare pot fi grupate în: metode grafice, metode mecanice şi metode analitice. Metoda grafică constă în trasarea aproximativă a unei curbe sau drepte de tendinţă pentru seria cronologică pe un grafic cu scară aritmetică sau logaritmică. Metodele de ajustare mecanică constă în aplicarea succesivă a unor formule de calcul prestabilite care să modifice cea mai mare parte a termenilor seriei cronologice (de exemplu, metoda mediilor mobile). Metodele analitice de ajustare aplică metodele statistico-matematice pentru aproximarea valorilor teoretice ale seriilor de timp prin intermediul unor functii matematice. Cea mai utilizată este metoda celor mai mici pătrate. Uneori, înainte de ajustarea propriu zisă, în scopul obţinerii unor curbe cu variaţii extreme estompate, se aplică metode de netezire prin interpolarea valorilor seriei de timp. Această operaţie se bazează pe ipoteza că variabila analizată în raport cu timpul este o variabilă continuă şi constă în completarea termenilor lipsă (între valorile existente) într-o serie cronologică. Se folosesc formule specifice de interpolare (Newton, Lagrange etc.).

11.1.1 Ajustarea grafică prin procedeul punctelor mediane

Acest procedeu constă în unirea punctelor de maxim între ele şi a celor de maxim între ele (figura 37). Pe ordonatele ce corespund unui maxim sau minim se determină punctele A, B, C, …, echidistanţate faţă de cele două linii ce unesc maximele şi minimele. Se obţine astfel linia poligonală denumită „tendinţă generală”.

Figura 37. Ajustarea unei serii de timp prin procedeul punctelor mediane

141

Page 143: biostatistica forestiera

11.1.2 Procedeul mediilor centrate

Se aplică atunci când tendinţa seriei cronologice pare rectilinie, caz în care dreapta de tendinţă ar fi: tbay ⋅+=ˆ , (11.1)

cu ( ) ( )

( )∑∑

−⋅−= ib şi

i i

ii

tt

ttyy2 tbya ⋅−= , (11.2)

în care: y este media valorilor variabilei studiate y, t este timpul mediu (mijlocul perioadei analizate). Pentru simplificarea calculelor, b este pus sub forma:

∑ ∑

∑ ∑∑

∑⋅−

⋅−⋅=

⋅−

⋅⋅−⋅=

i i ii

i iii

i i

i ii

tttytty

tNttyNty

b 222i (11.3)

În cazul în care data primei observaţii corespunde cu originea (t ia succesiv valorile 0, 1, 2, …, N-1):

( )2

1−⋅=∑ NNt

i i ; ( ) ( )6

1212 −⋅−⋅=∑ NNNt

i i ; 2

1−=

Nt şi

( )12

122 −⋅

=⋅− ∑∑ NNttti ii i . (11.4)

Dacă tendinţa generală nu este liniară, dar poate deveni printr-o schimbare de variabilă (de exemplu prin logaritmare: ), modalitatea de lucru este aceeaşi.

yy log'=

11.1.3 Procedeul mediilor mobile

Acest procedeu poate fi aplicat, după caz, în două variante: medii mobile neponderate, atunci când fiecare observaţie este înlocuită printr-o medie aritmetică calculată cu valoarea observată şi cu cele vecine ei:

3

' 11 +− ++= iii

ixxx

x sau 5

' 2112 ++−− ++++= iiiii

ixxxxx

x . (11.5)

medii mobile ponderate, atunci când tendinţa este curbilinie (mediile mobile calculate neponderat s-ar plasa în concavitatea curbei). Procedeul Bloxham aplicat în această situaţie presupune înlocuirea lui

xi cu 4

2 11 +− +⋅+ iii xxx. Procedeul Spencer necesită înlocuirea lui xi cu

media ponderată a 15 valori, calculată cu relaţia: ( )76543211234567 3653214667746746213563

3201

+++++++−−−−−−− −−−+++++++++−−−⋅ iiiiiiiiiiiiiii xxxxxxxxxxxxxxx

142

Page 144: biostatistica forestiera

11.1.4 Analiza componentelor seriilor cronologice

Trendul reprezintă principala componentă a unei serii de timp. În vederea identificării tendinţei generale se folosesc metode de ajustare analitică prin aplicarea metodei celor mai mici pătrate. Sunt estimaţi astfel parametrii unor funcţii matematice adaptate la forma celei empirice. Frecvent sunt utilizate pentru ajustare: dreapta, parabola, exponenţiala, exponenţiala modificată, curba Gompertz, curba logistică. Exista criterii, destul de subiective însă, de alegere iniţială a unei funcţii teoretice. Practic, se recomandă analiza reprezentării grafice care dă indicaţii importante în legătură cu caracterul tendinţei generale. Pentru evidenţierea trendului, este de dorit ca seria cronologică să se refere la o perioadă cât mai mare de timp. Analiza componentei sezoniere a seriei cronologice presupune stabilirea variaţiei determinate de succesiunea anotimpurilor (sezoanelor) sau de repetarea unor particularităţi pe luni, trimestre sau chiar unităţi de timp mai mici. Sezonalitatea poate fi de tip constant (cu aproximativ aceeaşi amplitudine) sau de tip variabil. Analiza variaţiilor ciclice ale seriilor cronologice presupune aplicarea unor metode statistico-matematice pentru identificarea acelor componente ale unei serii de timp care se repetă la intervale egale. Un termen al seriei de timp care depăşeşte ca valoare atât termenul anterior cât şi cel următor se numeşte vârf sau maxim local. Situaţia opusă reprezintă un minim local. Se numeşte perioadă intervalul dintre două vârfuri succesive.

Tendinţa ciclică este surprinsă de relaţia T

TD −' , în care D’

reprezintă datele brute corectate din punct de vedere al variaţiilor sezoniere, iar T este trendul. În cazul seriilor de timp bidimensionale, cele două variabile continue (x şi y) sunt determinate pentru momentele ti şi pot fi reprezentate pe acelaşi grafic prin două curbe: ( )tfx = şi )(tgy = . Dacă aceste curbe au punctele de extrem de acelaşi tip (minime, respectiv, maxime) situate aproximativ pe aceeaşi abscisă, se numesc serii sincrone. În alte situaţii, seriile sunt asincrone şi trebuie să se determine faza de corelaţie sau abaterea de la sincronism.

143

Page 145: biostatistica forestiera

11.2 Determinarea fazei de corelaţie

Faza de corelaţie reprezintă corecţia de timp care trebuie aplicată absciselor unei serii dinamice în vederea realizării sincronismului cu altă serie dinamică.

11.2.1 Cazul în care cele două caracteristici sunt exprimate în sisteme diferite de unităţi de măsură

Se calculează coeficientul de corelaţie, r, al celor două serii, şi ( )ii tfx = ( )ii tgy = . În acest scop, menţinând fixe valorile ti pentru

funcţia , se aplică diferite corecţii ( it )f ktΔ lui ti în funcţia şi se obţin diferite valori ale coeficientului de corelaţie rk. Din mulţimea coeficienţilor de corelaţie calculaţi se alege valoarea maximă. Pentru

va rezulta

( )itg

maxrrk = ( ) ==Δ ϕmaxrkt faza de corelaţie.

Aşa cum se poate deduce, acest mod de lucru este laborios; practic se procedează astfel:

se consideră că valorile xi, yi se obţin la intervale egale de timp (prin interpolare se poate îndeplini această condiţie),

se alege arbitrar tNt δ⋅=Δ 0 , în care δ t este pasul constant al absciselor ti, iar N este un număr întreg. Valoarea Δt0 trebuie aleasă astfel încât, aplicând-o la abscisele unei serii, extremele celor două funcţii, xi şi yi, să coincidă ca poziţie.

se notează: r0 = coeficientul de corelaţie când se aplică o corecţie

0ttNt Δ=⋅=Δ δ , r+ = coeficientul de corelaţie când se aplică o corecţie tttNt δδ +Δ=⋅+=Δ 0)1( ,r_ = coeficientul de corelaţie când se aplică o corecţie

tttNt δδ −Δ=⋅−=Δ 0)1( . Pe un interval mic de variaţie a lui Δt, curba empirică a lui r poate fi aproximată printr-un polinom de gradul II: ( ) ctbtar +Δ⋅+Δ⋅= 2 . (11.6) Se obţine sistemul:

144

Page 146: biostatistica forestiera

( )[ ] ( )[ ]( ) ( )( )[ ] ( )[ ]⎪

⎪⎨

+⋅+⋅+⋅+⋅=+⋅⋅+⋅⋅=

+⋅−⋅+⋅−⋅=

+

ctNbtNarctNbtNar

ctNbtNar

δδδδ

δδ

11

11

2

20

2

(11.7)

Prin rezolvarea sistemului se obţin:

( )2

0

22

trrr

aδ⋅

⋅−+= −+ ; (11.8)

( )

trrrNrr

bδ⋅

⋅−+⋅⋅−−= −+−+

222 0 ; (11.9)

, (11.10) ( ) tNbtNarc δδ ⋅⋅+⋅⋅−= 20

maxrr = atunci când prima derivată a funcţiei (11.6) este egală cu 0. Faza de corelaţie ϕ va fi:

( )( )

( )⇒

⋅⋅−+⋅⋅−−

⋅⋅−+⋅

⋅−=

⋅−= −+−+

−+ trrrNrr

rrrt

ab

δδϕ

222

222

20

0

2

0

0 22 rrrrrtt

⋅−+−

⋅−Δ=⇒−+

−+δϕ . (11.11)

11.2.2 Cazul în care cele două caracteristici sunt exprimate în aceleaşi unităţi de măsură

Determinarea fazei de corelaţie se poate face fără a calcula coeficienţii de corelaţie. Pe graficul celor două funcţii, şi

, se determină cu cât ar trebui deplasate abscisele punctelor funcţiei yi pentru ca extremele să coincidă; dacă extremele nu sunt foarte evidente, problema constă în a stabili sensul şi mărimea

( )ii tfx =

0t

( )ii tgy =

Δ a translaţiei unei funcţii astfel încât cele două curbe să devină paralele.

Se consideră că ( )ii tfx = îşi păstrează abscisele ti iniţiale, iar pentru ( )ii tgy = se aplică acea corecţie 0tΔ determinată grafic şi devine

( 0tti )gyi Δ+= . Şi în acest caz 0tΔ trebuie considerat un număr întreg de paşi tδ .

În continuare se determină sumele pătratelor abaterilor în trei situaţii: ( )2

0 ∑ −=i ii yxS pentru ( )tNtgy ii δ⋅+= , (11.12)

( )∑ −=− i ii yxS 2 pentru ( )[ ]tNtgy ii δ⋅−+= 1 şi (11.13)

( )∑ −=+ i ii yxS 2 pentru ( )[ ]tNtgy ii δ⋅++= 1 . (11.14)

145

Page 147: biostatistica forestiera

Pentru o valoare tNt δ⋅=Δ 0 apropiată de mărimea fazei de corelaţie se poate scrie: ( ) CtBtAS +Δ⋅+Δ⋅= 2)( (11.15) şi, după ce se pune condiţia ca S să fie minim, se obţine expresia fazei de corelaţie:

A

B⋅

−=2

ϕ , (11.16)

ştiind că:

( )2

0

22

tSSS

Aδ⋅

⋅−+= −+ ; (11.17

( )( )t

SSSNSSB

δ⋅⋅+−⋅⋅−−

= −+−+

222 0 şi (11.18)

( ) ( )02

00 tBtASC Δ⋅−Δ⋅−= . (11.19)

Deci:

( )( )

( )( ) ⇒

⋅⋅−+⋅⋅−−

⋅⋅−+⋅

⋅= −+−+

−+ tSSSNSS

SSSt

δδϕ

222

222 0

0

2

0

0 22 SSSSStt

⋅−+−

⋅−Δ=⇒−+

−+δϕ . (11.20)

11.3 Autocorelaţia

În cazul unor serii de timp se observă că valorile xi se corelează cu valorile xi+k. Această corelaţie dintre termenii aceleiaşi serii se numeşte autocorelaţie şi este pusă în evidenţă prin compararea termen cu termen a seriei iniţiale cu aceeaşi serie decalată cu k unităţi de timp. Dezavantajul acestui tip de analiză statistică este acela că nu se pot forma decât kn − cupluri de valori din cele n ale seriei întregi, ceea ce poate constitui un impediment în cazul unei serii reduse. În cazul general, mediile celor două serii astfel obţinute nu sunt egale. De asemenea, nici abaterile standard. Cu notaţiile:

∑−

⋅−

=kn

ixkn

x1

11 şi ∑

+⋅−

=kn

kik xkn

x1

1 , (11.21)

relaţia coeficientului de corelaţie (autocorelaţie) de ordin k este:

146

Page 148: biostatistica forestiera

( ) ( )

( ) ( )∑ ∑

∑− −

+

+

−⋅−

−−=

kn kn

kkii

kn

kkii

k

xxxx

xxxxr

1 1

221

11

. (11.22)

Pentru a recunoaşte dacă o serie include cu adevărat un element ciclic se foloseşte metoda corelogramei. În acest scop se calculează rk pentru k = 1, 2, 3, 4, … şi se reprezintă într-o diagramă cu k în abscisă şi rk în ordonată (figura 38). Punctele unite descriu o curbă denumită „corelogramă”.

Figura 38. Reprezentare grafică a corelogramei

Dacă această corelogramă prezintă o alură oscilatorie care nu se amortizează (amplitudinea se menţine constantă pentru valorile lui k din ce în ce mai mari) se poate concluziona că există unul sau mai multe elemente ciclice în serie. Dacă forma este oscilatorie amortizată, autocorelaţia este susceptibilă de a fi utilizată pentru prevederea unei valori xi a variabilei pornind de la valorile xi-1, xi-2, … deja cunoscute prin determinarea unei ecuaţii de regresie adecvate. 11.4 Analiza armonică a seriilor cronologice

Această metodă de analiză statistică se bazează pe ipoteza că o serie de timp se comportă ca un ansamblu de unde. Admiţând că seria este constituită dintr-un număr, posibil finit, de mici fluctuaţii şi cuprinde o gamă continuă de lungimi de undă, se analizează distribuţia varianţei în diferite intervale de frecvenţă într-un câmp continuu. În esenţă, procedeul se bazează, deci, pe considerarea unei serii cronologice ca o sumă a funcţiilor periodice de forma:

147

Page 149: biostatistica forestiera

( ) ⎟⎟⎠

⎞⎜⎜⎝

⎛⋅= t

Ttu

i

π2sin şi ( ) ⎟⎟⎠

⎞⎜⎜⎝

⎛⋅= t

Ttv

i

π2cos , (11.23)

în care T1,2, …, n sunt perioadele acestor funcţii, perioade care se pot determina prin alegerea unor funcţii periodice cunoscute cărora li se atribuie valori succesive şi observarea modului de variaţie a acestora. Se ajunge la o sumă a acestor funcţii care dă cea mai bună aproximare a variaţiilor seriei analizate. Prin reprezentarea grafică a analizei armonice se obţine periodograma. Frecvent, presupunând seria de timp ( )tfx = , dacă

( ) ( )tfTtf =+ pentru toate valorile lui t, aceasta se exprimă ca o serie Fourier:

∑∞

=⎟⎠⎞⋅ t

⎜⎝⎛ ⋅

⋅+⋅⋅

⋅+=1

0360cos360sin

21ˆ

jjj T

jBT

tjAAx , (11.24)

în care T este perioada de oscilaţie, iar A0, Aj şi Bj sunt constante. Pentru un set de date care furnizează un număr finit de valori x1, x2, …, xn corespunzătoare observaţiilor efectuate la momentele t1, t2, …, tn separate prin intervale egale de timp, forma funcţiei este:

( ) ( j

n

jj

n

jjji iBiAxx ωω ⋅⋅+⋅⋅+= ∑∑

==

cossinˆ11

) , (11.25)

unde x este valoarea medie a variabilei xi pe perioada T (12 luni, 24 ore etc.), i reprezintă numărul de ordine al unui element în seria cronologică

studiată, iar pulsaţia T

jT j

jππω 22

== .

Media x se calculează astfel:

la seriile de moment: 1

2 121

++++

=−

n

xxxx

xn

n L, (11.26)

la seriile cronologice de intervale: n

xx

n

ii∑

== 1 . (11.27)

Coeficienţii Aj şi Bj se estimează cu relaţiile:

( )j

n

iij ie

nA ω⋅⋅⋅= ∑

=

sin2ˆ1

, ( j

n

iij ie

nB ω⋅⋅⋅= ∑

=

cos2ˆ1

), (11.28)

e fiind abaterile valorilor individuale xi faţă de x ( xxe i −= ). Seria (11.25) se mai poate scrie în forma:

(∑=

+⋅⋅+=n

jjjji ixx

1sinˆ ϕωα ), (11.29)

148

Page 150: biostatistica forestiera

în care 22jjj BA +=α , iar faza

j

jj A

Barctg=ϕ şi se află în cadranul

corespunzător semnelor coeficienţilor Aj şi Bj conform reprezentării din figura 39.

Figura 39. Convenţiile de semn pentru valorile coeficienţilor Aj şi Bj

se numeşte amplitudine pătrată, iar importanţa ei constă în faptul că măsoară descreşterea în suma pătratelor reziduurilor: cu cât este mai mare această valoare, cu atât mai mare este contribuţia pe care componenta armonică a frecvenţei

2jα

jω o aduce la variaţia lui xi .

11.5 Funcţii de creştere şi dezvoltare

Prin măsurarea succesivă, de preferinţă la intervale egale, a caracteristicilor dendrometrice ale arborilor sau ale arboretului în ansamblu, se obţin valori experimentale care, reprezentate grafic, redau variaţia în raport cu timpul a acelor caracteristici sau dinamica creşterilor; ajustarea printr-o curbă continuă generează curba de creştere. Reprezentarea grafică a creşterilor acumulate duce la obţinerea curbei de acumulare sau de dezvoltare. Aceasta are forma unui S alungit şi este asemănătoare cu curba frecvenţelor cumulate a distribuţiilor teoretice. Dacă funcţia de dezvoltare este )(xfy = , curba de creştere este prima derivată a acesteia (sau, invers, curba de dezvoltare se obţine prin integrarea curbei creşterilor).

'y

Creşterea medie se obţine prin raportarea creşterii cumulate la

perioada de timp analizată ⎟⎠⎞

⎜⎛ . ⎝ x

xf )(

149

Page 151: biostatistica forestiera

În figura 40 s-a reprezentat curba de acumulare (a producţiei totale) în partea superioară şi curbele creşterilor curente şi medii, în partea inferioară. Se pot pune în evidenţă grafic legăturile dintre aceste funcţii: - maximul creşterii curente este atins întotdeauna înainte de cel al

creşterii medii; - maximul curbei creşterii medii se realizează atunci când aceasta

intersectează curba creşterii curente; punctul de intersecţie corespunde momentului în care curba de acumulare admite o tangentă care trece prin originea sistemului de coordonate;

- maximul creşterii curente se atinge corespunzător punctului de inflexiune al curbei de acumulare;

Relaţiile dintre aceste funcţii se demonstrează relativ simplu prin aplicarea calculului diferenţial; ele sunt aplicabile în cazul analizei creşterilor în diametru de bază, în înălţime, în suprafaţa de bază sau în volum, atât pentru arbori individuali cât şi pentru arboretul echien în ansamblu.

Figura 40. Legătura dintre curbele de creştere şi cea de acumulare

150

Page 152: biostatistica forestiera

Pardé şi Bouchon (1988) prezintă mai multe modele utilizate pentru exprimarea creşterii diverselor caracteristici dendrometrice ale arborilor şi arboretelor: - Duplat şi Tran-Ha:

y a a x e ax

a

aa

= + ⋅ ⋅ −

⎢⎢⎢

⎥⎥⎥

+ ⋅−

⎝⎜

⎠⎟

( )0 1 51 2

3 4

x (11.30)

în care: e este baza logaritmului natural, a0 - parametru liber, a1, ..., a5 - parametri constanţi pentru aceeaşi staţiune. - Lundqvist şi Matérn:

( )y a a e

a

x aa

= + ⋅−

−1 2

3

45

(11.31) unde: e este baza logaritmului natural, a1, ..., a5 - coeficienţi de regresie (a2, a3 şi a5 strict pozitivi). Se observă că pentru a5=1 se obţine modelul lui Schumacher. - Chapman - Richards:

( )y a a ea x a a

= + ⋅ −⎡

⎣⎢⎢

⎦⎥⎥

⋅ − −

1 2 1 3 4

11 5

(11.32)

în care: e este baza logaritmului natural, a1, ..., a5 - coeficienţi de regresie (a3 < 0 şi a5 < 1). Pentru a1=a4=a5=0 se obţine modelul logistic. În cele trei modele, y reprezintă valoarea caracteristicii studiate, determinată în funcţie de vârsta x. În unele situaţii se poate folosi pentru ajustarea curbei creşterilor şi modelul de forma:

ya x a x a x

x a x a=

⋅ + ⋅ + ⋅

+ ⋅ +1

32

23

24 5

, (11.33)

cu aceeaşi semnificaţie a notaţiilor.

151

Page 153: biostatistica forestiera

Bibliografie selectivă

Anonymous, 1991, CSS: STATISTICA, StatSoft Inc., Tulsa, U.S.A. Anonymous, 1998, SPSS Base 8.0 Application Guide Clocotici V., Stan A., 2000, Statistică aplicată în psihologie, Ed. Polirom,

Iaşi Dodge Y., 1993, Statistique. Dictionnaire encyclopedique, Ed. Dunod, Paris Giurgiu V., 1972, Metode ale statisticii matematice aplicate în silvicultură,

Ed.Ceres, Bucureşti Giurgiu V., 1979, Dendrometrie şi auxologie forestieră, Ed.Ceres, Bucureşti Houllier F., Gegout J.-C., 1994, Introduction a l’analyse des donnees,

ENGREF, Nancy Leahu I., 1984, Metode şi modele structural-funcţionale în amenajarea

pădurilor, Ed. Ceres, Bucureşti Lemoine B. et al., 1991, Etude de la loi de Weibull en vue de son ajustement

aux distributions en circonference de peuplements de Pin maritime; în „Modelisation de la croissance et de la qualite des bois en function de la sylviculture et de l’heredite”, INRA Champenoux, Nancy

Mihoc Gh., Urseanu V., Ursianu E., 1982, Modele de analiză statistică, Ed. Ştiinţifică şi enciclopedică, Bucureşti

Neuilly M., 1993, Modelisation et estimation des erreurs de mesure, Ed. Lavoisier, Paris

Parde J., Bouchon J., 1988, Dendrometrie, ENGREF, Nancy Philip M.S., 1994, Measuring Trees and Forests, CAB International, U.K. Porojan D., 1993, Statistica şi teoria sondajului, Casa de editură şi presă

„Şansa” S.R.L., Bucureşti Rondeux J., 1993, La mesure des arbres et des peuplements forestiers, Ed.

Lavoisier, Paris Rotariu T. et al., 1999, Metode statistice aplicate în ştiinţele sociale, Ed.

Polirom, Iaşi Todoran I.,1989, Răspunsuri posibile. Corelaţie şi prognoză, Ed. DACIA,

Cluj-Napoca Tomassone R., Dervin C., Masson J.P., 1993, Biometrie. Modelisation de

phenomenes biologiques, Ed. Masson, Paris Trebici V. et al., 1985, Mică enciclopedie de statistică, Ed. Ştiinţifică şi

enciclopedică, Bucureşti Ţarcă M., 1998, Tratat de statistică aplicată, Ed. Didactică şi pedagogică,

Bucureşti

152

Page 154: biostatistica forestiera

ANEXE

153

Page 155: biostatistica forestiera

154

f(u)

f(u)III

f(u)IV

f(u)

f(u)III

f(u)IV

f(u)

f(u)III

f(u)IV

f(u)

f(u)III

f(u)IV

f(u)

f(u)III

f(u)IV

f(u)

f(u)III

f(u)IV

f(u)

f(u)III

f(u)IV

f(u)

f(u)III

f(u)IV

f(u)

f(u)III

f(u)IV

f(u)

f(u)III

f(u)IV

0,0

0,39

890,

0000

1,19

680,

3989

0,01

201,

1965

0,39

890,

0239

1,19

560,

3988

0,03

591,

1941

0,39

860,

0478

1,19

200,

3984

0,05

971,

1894

0,39

820,

0716

1,18

610,

3980

0,08

341,

1822

0,39

770,

0952

1,17

770,

10,

3970

0,11

871,

1671

0,39

650,

1303

1,16

090,

3961

0,14

191,

1541

0,39

560,

1534

1,14

680,

3951

0,16

481,

1388

0,39

450,

1762

1,13

040,

3939

0,18

741,

1214

0,39

320,

1986

1,11

180,

3925

0,20

971,

1017

0,2

0,39

100,

2315

1,07

990,

3902

0,24

221,

0682

0,38

940,

2529

1,05

600,

3885

0,26

341,

0434

0,38

760,

2737

1,03

020,

3867

0,28

401,

0165

0,38

570,

2941

1,00

240,

3847

0,30

400,

9878

0,38

360,

3138

0,97

270,

30,

3814

0,33

300,

9413

0,38

020,

3423

0,92

500,

3790

0,35

140,

9082

0,37

780,

3604

0,89

100,

3765

0,36

930,

8735

0,37

520,

3779

0,85

560,

3739

0,38

640,

8373

0,37

250,

3947

0,81

860,

3712

0,40

270,

7996

0,4

0,36

830,

4184

0,76

070,

3668

0,42

590,

7408

0,36

530,

4332

0,72

060,

3637

0,44

030,

7001

0,36

210,

4472

0,67

930,

3605

0,45

390,

6583

0,35

890,

4603

0,63

710,

3572

0,46

660,

6156

0,35

550,

4726

0,59

400,

50,

3521

0,48

410,

5501

0,35

030,

4895

0,52

790,

3485

0,49

460,

5056

0,34

670,

4996

0,48

310,

3448

0,50

430,

4605

0,34

290,

5088

0,43

780,

3410

0,51

310,

4150

0,33

910,

5171

0,39

210,

3372

0,52

090,

3691

0,

0,39

730,

1070

1,17

270,

3918

0,22

061,

0911

0,38

250,

3235

0,95

720,

3697

0,41

060,

7803

0,35

380,

4785

0,57

210,

3352

0,52

450,

3461

60,

3332

0,52

780,

3231

0,33

120,

5309

0,30

000,

3292

0,53

380,

2770

0,32

710,

5365

0,25

390,

3251

0,53

890,

2309

0,32

300,

5411

0,20

780,

3209

0,54

310,

1849

0,31

870,

5448

0,16

200,

3166

0,54

630,

1391

0,7

0,31

230,

5486

0,09

370,

3101

0,54

950,

0712

0,30

790,

5501

0,04

870,

3056

0,55

040,

0265

0,30

340,

5506

0,00

430,

3011

0,55

05-0

,017

60,

2989

0,55

02-0

,039

40,

2966

0,54

97-0

,061

10,

2943

0,54

90-0

,082

50,

80,

2897

0,54

69-0

,124

70,

2874

0,54

56-0

,145

40,

2850

0,54

40-0

,166

00,

2827

0,54

23-0

,186

20,

2803

0,54

03-0

,206

30,

2780

0,53

81-0

,226

00,

2756

0,53

58-0

,245

50,

2732

0,53

32-0

,264

60,

2709

0,53

05-0

,283

50,

90,

2661

0,52

45-0

,320

30,

2637

0,52

12-0

,338

30,

2613

0,51

77-0

,355

90,

2589

0,51

40-0

,373

10,

2565

0,51

02-0

,390

10,

2541

0,50

62-0

,406

60,

2516

0,50

21-0

,422

80,

2492

0,49

78-0

,438

70,

2468

0,49

33-0

,454

11,

00,

2420

0,48

39-0

,483

90,

2396

0,47

90-0

,498

30,

2371

0,47

40-0

,512

20,

2347

0,46

88-0

,525

70,

2323

0,46

35-0

,538

90,

2299

0,45

80-0

,551

60,

2275

0,45

24-0

,563

90,

2251

0,44

67-0

,575

80,

2227

0,44

09-0

,587

31,

10,

2179

0,42

90-0

,609

10,

2155

0,42

28-0

,619

30,

2131

0,41

66-0

,629

20,

2107

0,41

02-0

,638

60,

2083

0,40

38-0

,647

60,

2059

0,39

73-0

,656

10,

2036

0,39

07-0

,664

20,

2012

0,38

40-0

,672

00,

1989

0,37

72-0

,679

21,

20,

1942

0,36

35-0

,692

50,

1919

0,35

66-0

,698

60,

1895

0,34

95-0

,704

20,

1872

0,34

25-0

,709

30,

1849

0,33

54-0

,714

10,

1826

0,32

82-0

,718

50,

1804

0,32

10-0

,722

40,

1781

0,31

38-0

,725

90,

1758

0,30

65-0

,729

11,

30,

1714

0,29

18-0

,734

10,

1691

0,28

45-0

,736

10,

1669

0,27

71-0

,737

60,

1647

0,26

97-0

,738

80,

1626

0,26

23-0

,739

50,

1604

0,25

49-0

,739

90,

1582

0,24

75-0

,740

00,

1561

0,24

02-0

,739

60,

1539

0,23

28-0

,738

91,

40,

1497

0,21

80-0

,736

40,

1476

0,21

06-0

,734

70,

1456

0,20

33-0

,732

60,

1435

0,19

60-0

,730

10,

1415

0,18

87-0

,727

40,

1394

0,18

15-0

,724

30,

1374

0,17

42-0

,720

90,

1354

0,16

70-0

,717

20,

1334

0,15

99-0

,713

21,

50,

1295

0,14

57-0

,704

30,

1276

0,13

87-0

,699

40,

1257

0,13

17-0

,694

20,

1238

0,12

48-0

,688

80,

1219

0,11

79-0

,683

10,

1200

0,11

11-0

,677

20,

1182

0,10

44-0

,671

00,

1163

0,09

77-0

,664

60,

1145

0,09

11-0

,658

01,

0,31

440,

5476

0,11

640,

2920

0,54

81-0

,103

70,

2685

0,52

76-0

,302

10,

2444

0,48

87-0

,469

20,

2203

0,43

50-0

,598

40,

1965

0,37

04-0

,686

10,

1736

0,29

92-0

,731

80,

1518

0,22

54-0

,737

80,

1315

0,15

28-0

,708

80,

1127

0,08

46-0

,651

16

0,11

090,

0781

-0,6

441

0,10

920,

0717

-0,6

368

0,10

740,

0654

-0,6

293

0,10

570,

0591

-0,6

216

0,10

400,

0529

-0,6

138

0,10

230,

0468

-0,6

057

0,10

060,

0408

-0,5

975

0,09

890,

0349

-0,5

891

0,09

730,

0290

-0,5

806

1,7

0,09

400,

0176

-0,5

632

0,09

250,

0120

-0,5

542

0,09

090,

0065

-0,5

452

0,08

930,

0011

-0,5

360

0,08

78-0

,004

2-0

,526

70,

0863

-0,0

094

-0,5

173

0,08

48-0

,014

6-0

,507

90,

0833

-0,0

196

-0,4

983

0,08

18-0

,024

5-0

,488

61,

80,

0790

-0,0

341

-0,4

692

0,07

75-0

,038

7-0

,459

30,

0761

-0,0

433

-0,4

494

0,07

48-0

,047

7-0

,439

50,

0734

-0,0

521

-0,4

295

0,07

21-0

,056

3-0

,419

50,

0707

-0,0

605

-0,4

095

0,06

94-0

,064

5-0

,399

50,

0681

-0,0

685

-0,3

894

1,9

0,06

56-0

,076

0-0

,369

30,

0644

-0,0

797

-0,3

592

0,06

32-0

,083

2-0

,349

20,

0620

-0,0

867

-0,3

392

0,06

08-0

,090

0-0

,329

20,

0596

-0,0

933

-0,3

192

0,05

84-0

,096

4-0

,309

30,

0573

-0,0

994

-0,2

994

0,05

62-0

,102

4-0

,289

52,

00,

0540

-0,1

080

-0,2

700

0,05

29-0

,110

6-0

,260

30,

0519

-0,1

132

-0,2

506

0,05

08-0

,115

6-0

,241

10,

0498

-0,1

180

-0,2

316

0,04

88-0

,120

3-0

,222

20,

0478

-0,1

225

-0,2

129

0,04

68-0

,124

5-0

,203

60,

0459

-0,1

265

-0,1

945

2,1

0,04

40-0

,130

2-0

,176

50,

0431

-0,1

320

-0,1

676

0,04

22-0

,133

6-0

,158

80,

0413

-0,1

351

-0,1

502

0,04

04-0

,136

6-0

,141

60,

0396

-0,1

380

-0,1

332

0,03

87-0

,139

3-0

,124

90,

0379

-0,1

405

-0,1

167

0,03

71-0

,141

6-0

,108

62,

20,

0355

-0,1

436

-0,0

927

0,03

47-0

,144

5-0

,085

00,

0339

-0,1

453

-0,0

774

0,03

32-0

,146

0-0

,070

00,

0325

-0,1

467

-0,0

626

0,03

17-0

,147

3-0

,055

40,

0310

-0,1

478

-0,0

483

0,03

03-0

,148

3-0

,041

40,

0297

-0,1

486

-0,0

346

2,3

0,02

83-0

,149

2-0

,021

40,

0277

-0,1

494

-0,0

150

0,02

70-0

,149

5-0

,008

80,

0264

-0,1

496

-0,0

027

0,02

58-0

,149

60,

0033

0,02

52-0

,149

50,

0092

0,02

46-0

,149

40,

0148

0,02

41-0

,149

20,

0204

0,02

35-0

,149

00,

0258

2,4

0,02

24-0

,148

30,

0362

0,02

19-0

,148

00,

0412

0,02

13-0

,147

50,

0461

0,02

08-0

,147

00,

0508

0,02

03-0

,146

50,

0554

0,01

98-0

,145

90,

0598

0,01

94-0

,145

30,

0641

0,01

89-0

,144

60,

0683

0,01

84-0

,143

90,

0723

2,5

0,01

75-0

,142

40,

0800

0,01

71-0

,141

60,

0836

0,01

67-0

,140

70,

0871

0,01

63-0

,139

90,

0905

0,01

58-0

,138

90,

0937

0,01

54-0

,138

00,

0968

0,01

51-0

,137

00,

0998

0,01

47-0

,136

00,

1027

0,01

43-0

,134

90,

1054

2,

0,09

570,

0233

-0,5

720

0,08

04-0

,029

4-0

,478

90,

0669

-0,0

723

-0,3

793

0,05

51-0

,105

2-0

,279

70,

0449

-0,1

284

-0,1

854

0,03

63-0

,142

6-0

,100

60,

0290

-0,1

490

-0,0

279

0,02

29-0

,148

70,

0311

0,01

80-0

,143

20,

0762

0,01

39-0

,133

90,

1080

60,

0136

-0,1

328

0,11

050,

0132

-0,1

317

0,11

290,

0129

-0,1

305

0,11

520,

0126

-0,1

294

0,11

730,

0122

-0,1

282

0,11

940,

0119

-0,1

270

0,12

130,

0116

-0,1

258

0,12

310,

0113

-0,1

245

0,12

480,

0110

-0,1

233

0,12

642,

70,

0104

-0,1

207

0,12

930,

0101

-0,1

194

0,13

060,

0099

-0,1

181

0,13

170,

0096

-0,1

168

0,13

280,

0093

-0,1

154

0,13

380,

0091

-0,1

141

0,13

470,

0088

-0,1

127

0,13

550,

0086

-0,1

114

0,13

630,

0084

-0,1

100

0,13

692,

80,

0079

-0,1

073

0,13

790,

0077

-0,1

059

0,13

830,

0075

-0,1

045

0,13

860,

0073

-0,1

031

0,13

890,

0071

-0,1

017

0,13

900,

0069

-0,1

003

0,13

910,

0067

-0,0

989

0,13

910,

0065

-0,0

976

0,13

910,

0063

-0,0

962

0,13

89

0,01

07-0

,122

00,

1279

0,00

81-0

,108

60,

1375

0,00

61-0

,094

80,

1388

2,9

0,00

60-0

,093

40,

1385

0,00

58-0

,092

00,

1382

0,00

56-0

,090

60,

1378

0,00

55-0

,089

20,

1374

0,00

53-0

,087

90,

1369

0,00

51-0

,086

50,

1364

0,00

50-0

,085

20,

1358

0,00

48-0

,083

80,

1351

0,00

47-0

,082

40,

1345

0,00

46-0

,081

10,

1337

3,0

0,00

44-0

,079

80,

1330

0,00

43-0

,078

40,

1321

0,00

42-0

,077

10,

1313

0,00

40-0

,075

80,

1304

0,00

39-0

,074

50,

1294

0,00

38-0

,073

20,

1285

0,00

37-0

,072

00,

1275

0,00

36-0

,070

70,

1264

0,00

35-0

,069

40,

1254

0,00

34-0

,068

20,

1243

3,1

0,00

33-0

,066

90,

1231

0,00

32-0

,065

70,

1220

0,00

31-0

,064

50,

1208

0,00

30-0

,063

30,

1196

0,00

29-0

,062

10,

1184

0,00

28-0

,060

90,

1171

0,00

27-0

,059

80,

1159

0,00

26-0

,058

60,

1146

0,00

25-0

,057

50,

1133

0,00

25-0

,056

30,

1120

3,2

0,00

24-0

,055

20,

1107

0,00

23-0

,054

10,

1093

0,00

22-0

,053

00,

1080

0,00

22-0

,052

00,

1066

0,00

21-0

,050

90,

1052

0,00

20-0

,049

90,

1039

0,00

20-0

,048

80,

1025

0,00

19-0

,047

80,

1011

0,00

18-0

,046

80,

0997

0,00

18-0

,045

80,

0983

3,3

0,00

17-0

,044

90,

0969

0,00

17-0

,043

90,

0955

0,00

16-0

,042

90,

0941

0,00

16-0

,042

00,

0927

0,00

15-0

,041

10,

0913

0,00

15-0

,040

20,

0899

0,00

14-0

,039

30,

0885

0,00

14-0

,038

40,

0871

0,00

13-0

,037

50,

0857

0,00

13-0

,036

70,

0843

3,4

0,00

12-0

,035

90,

0829

0,00

12-0

,035

00,

0815

0,00

12-0

,034

20,

0801

0,00

11-0

,033

40,

0788

0,00

11-0

,032

70,

0774

0,00

10-0

,031

90,

0761

0,00

10-0

,031

10,

0747

0,00

10-0

,030

40,

0734

0,00

09-0

,029

70,

0721

0,00

09-0

,029

00,

0707

3,5

0,00

09-0

,028

30,

0694

0,00

08-0

,027

60,

0681

0,00

08-0

,026

90,

0669

0,00

08-0

,026

20,

0656

0,00

08-0

,025

60,

0643

0,00

07-0

,024

90,

0631

0,00

07-0

,024

30,

0618

0,00

07-0

,023

70,

0606

0,00

07-0

,023

10,

0594

0,00

06-0

,022

50,

0582

3,6

0,00

06-0

,021

90,

0570

0,00

06-0

,021

40,

0559

0,00

06-0

,020

80,

0547

0,00

05-0

,020

30,

0536

0,00

05-0

,019

80,

0524

0,00

05-0

,019

20,

0513

0,00

05-0

,018

70,

0502

0,00

05-0

,018

20,

0492

0,00

05-0

,017

70,

0481

0,00

04-0

,017

30,

0470

3,7

0,00

04-0

,016

80,

0460

0,00

04-0

,016

30,

0450

0,00

04-0

,015

90,

0440

0,00

04-0

,015

50,

0430

0,00

04-0

,015

00,

0420

0,00

04-0

,014

60,

0410

0,00

03-0

,014

20,

0401

0,00

03-0

,013

80,

0392

0,00

03-0

,013

40,

0382

0,00

03-0

,013

10,

0373

3,8

0,00

03-0

,012

70,

0365

0,00

03-0

,012

30,

0356

0,00

03-0

,012

00,

0347

0,00

03-0

,011

60,

0339

0,00

03-0

,011

30,

0331

0,00

02-0

,011

00,

0323

0,00

02-0

,010

70,

0315

0,00

02-0

,010

30,

0307

0,00

02-0

,010

00,

0299

0,00

02-0

,009

70,

0292

3,9

0,00

02-0

,009

50,

0284

0,00

02-0

,009

20,

0277

0,00

02-0

,008

90,

0270

0,00

02-0

,008

60,

0263

0,00

02-0

,008

40,

0256

0,00

02-0

,008

10,

0249

0,00

02-0

,007

90,

0243

0,00

02-0

,007

60,

0237

0,00

01-0

,007

40,

0230

0,00

01-0

,007

20,

0224

4,0

0,00

01-0

,007

00,

0218

0,00

01-0

,006

70,

0212

0,00

01-0

,006

50,

0207

0,00

01-0

,006

30,

0201

0,00

01-0

,006

10,

0195

0,00

01-0

,005

90,

0190

0,00

01-0

,005

80,

0185

0,00

01-0

,005

60,

0180

0,00

01-0

,005

40,

0175

0,00

01-0

,005

20,

0170

f(u)IV

=f(-u

)IVf(u

)=f(-

u)f(u

)III=

- f(-u

)III

ANEX

A I

0,09

u0,

000,

010,

020,

03

Dist

ribuţ

ia n

orm

ală

0,06

0,07

0,08

0,04

0,05

Page 156: biostatistica forestiera

12

34

56

78

910

1112

1520

2530

4050

7510

020

050

01

161,

4519

9,50

215,

7122

4,58

230,

1623

3,99

236,

7723

8,88

240,

5424

1,88

242,

9824

3,90

245,

9524

8,02

249,

2625

0,10

251,

1425

1,77

252,

6225

3,04

253,

6825

4,06

254,

3118

,51

19,0

019

,16

19,2

519

,30

19,3

319

,35

19,3

719

,38

19,4

019

,40

19,4

119

,43

19,4

519

,46

19,4

619

,47

19,4

819

,48

19,4

919

,49

19,4

919

,50

2 310

,13

9,55

9,28

9,12

9,01

8,94

8,89

8,85

8,81

8,79

8,76

8,74

8,70

8,66

8,63

8,62

8,59

8,58

8,56

8,55

8,54

8,53

8,53

47,

716,

946,

596,

396,

266,

166,

096,

046,

005,

965,

945,

915,

865,

805,

775,

755,

725,

705,

685,

665,

655,

645,

635

6,61

5,79

5,41

5,19

5,05

4,95

4,88

4,82

4,77

4,74

4,70

4,68

4,62

4,56

4,52

4,50

4,46

4,44

4,42

4,41

4,39

4,37

4,36

65,

995,

144,

764,

534,

394,

284,

214,

154,

104,

064,

034,

003,

943,

873,

833,

813,

773,

753,

733,

713,

693,

683,

677

5,59

4,74

4,35

4,12

3,97

3,87

3,79

3,73

3,68

3,64

3,60

3,57

3,51

3,44

3,40

3,38

3,34

3,32

3,29

3,27

3,25

3,24

3,23

85,

324,

464,

073,

843,

693,

583,

503,

443,

393,

353,

313,

283,

223,

153,

113,

083,

043,

022,

992,

972,

952,

942,

939

5,12

4,26

3,86

3,63

3,48

3,37

3,29

3,23

3,18

3,14

3,10

3,07

3,01

2,94

2,89

2,86

2,83

2,80

2,77

2,76

2,73

2,72

2,71

104,

964,

103,

713,

483,

333,

223,

143,

073,

022,

982,

942,

912,

852,

772,

732,

702,

662,

642,

602,

592,

562,

552,

5411

4,84

3,98

3,59

3,36

3,20

3,09

3,01

2,95

2,90

2,85

2,82

2,79

2,72

2,65

2,60

2,57

2,53

2,51

2,47

2,46

2,43

2,42

2,40

124,

753,

893,

493,

263,

113,

002,

912,

852,

802,

752,

722,

692,

622,

542,

502,

472,

432,

402,

372,

352,

322,

312,

3013

4,67

3,81

3,41

3,18

3,03

2,92

2,83

2,77

2,71

2,67

2,63

2,60

2,53

2,46

2,41

2,38

2,34

2,31

2,28

2,26

2,23

2,22

2,21

144,

603,

743,

343,

112,

962,

852,

762,

702,

652,

602,

572,

532,

462,

392,

342,

312,

272,

242,

212,

192,

162,

142,

1315

4,54

3,68

3,29

3,06

2,90

2,79

2,71

2,64

2,59

2,54

2,51

2,48

2,40

2,33

2,28

2,25

2,20

2,18

2,14

2,12

2,10

2,08

2,07

164,

493,

633,

243,

012,

852,

742,

662,

592,

542,

492,

462,

422,

352,

282,

232,

192,

152,

122,

092,

072,

042,

022,

0117

4,45

3,59

3,20

2,96

2,81

2,70

2,61

2,55

2,49

2,45

2,41

2,38

2,31

2,23

2,18

2,15

2,10

2,08

2,04

2,02

1,99

1,97

1,96

184,

413,

553,

162,

932,

772,

662,

582,

512,

462,

412,

372,

342,

272,

192,

142,

112,

062,

042,

001,

981,

951,

931,

9219

4,38

3,52

3,13

2,90

2,74

2,63

2,54

2,48

2,42

2,38

2,34

2,31

2,23

2,16

2,11

2,07

2,03

2,00

1,96

1,94

1,91

1,89

1,88

204,

353,

493,

102,

872,

712,

602,

512,

452,

392,

352,

312,

282,

202,

122,

072,

041,

991,

971,

931,

911,

881,

861,

8421

4,32

3,47

3,07

2,84

2,68

2,57

2,49

2,42

2,37

2,32

2,28

2,25

2,18

2,10

2,05

2,01

1,96

1,94

1,90

1,88

1,84

1,83

1,81

224,

303,

443,

052,

822,

662,

552,

462,

402,

342,

302,

262,

232,

152,

072,

021,

981,

941,

911,

871,

851,

821,

801,

7823

4,28

3,42

3,03

2,80

2,64

2,53

2,44

2,37

2,32

2,27

2,24

2,20

2,13

2,05

2,00

1,96

1,91

1,88

1,84

1,82

1,79

1,77

1,76

244,

263,

403,

012,

782,

622,

512,

422,

362,

302,

252,

222,

182,

112,

031,

971,

941,

891,

861,

821,

801,

771,

751,

7325

4,24

3,39

2,99

2,76

2,60

2,49

2,40

2,34

2,28

2,24

2,20

2,16

2,09

2,01

1,96

1,92

1,87

1,84

1,80

1,78

1,75

1,73

1,71

264,

233,

372,

982,

742,

592,

472,

392,

322,

272,

222,

182,

152,

071,

991,

941,

901,

851,

821,

781,

761,

731,

711,

6927

4,21

3,35

2,96

2,73

2,57

2,46

2,37

2,31

2,25

2,20

2,17

2,13

2,06

1,97

1,92

1,88

1,84

1,81

1,76

1,74

1,71

1,69

1,67

284,

203,

342,

952,

712,

562,

452,

362,

292,

242,

192,

152,

122,

041,

961,

911,

871,

821,

791,

751,

731,

691,

671,

6529

4,18

3,33

2,93

2,70

2,55

2,43

2,35

2,28

2,22

2,18

2,14

2,10

2,03

1,94

1,89

1,85

1,81

1,77

1,73

1,71

1,67

1,65

1,64

304,

173,

322,

922,

692,

532,

422,

332,

272,

212,

162,

132,

092,

011,

931,

881,

841,

791,

761,

721,

701,

661,

641,

6240

4,08

3,23

2,84

2,61

2,45

2,34

2,25

2,18

2,12

2,08

2,04

2,00

1,92

1,84

1,78

1,74

1,69

1,66

1,61

1,59

1,55

1,53

1,51

504,

033,

182,

792,

562,

402,

292,

202,

132,

072,

031,

991,

951,

871,

781,

731,

691,

631,

601,

551,

521,

481,

461,

4460

4,00

3,15

2,76

2,53

2,37

2,25

2,17

2,10

2,04

1,99

1,95

1,92

1,84

1,75

1,69

1,65

1,59

1,56

1,51

1,48

1,44

1,41

1,39

703,

983,

132,

742,

502,

352,

232,

142,

072,

021,

971,

931,

891,

811,

721,

661,

621,

571,

531,

481,

451,

401,

371,

3580

3,96

3,11

2,72

2,49

2,33

2,21

2,13

2,06

2,00

1,95

1,91

1,88

1,79

1,70

1,64

1,60

1,54

1,51

1,45

1,43

1,38

1,35

1,32

903,

953,

102,

712,

472,

322,

202,

112,

041,

991,

941,

901,

861,

781,

691,

631,

591,

531,

491,

441,

411,

361,

331,

3010

03,

943,

092,

702,

462,

312,

192,

102,

031,

971,

931,

891,

851,

771,

681,

621,

571,

521,

481,

421,

391,

341,

311,

2811

03,

933,

082,

692,

452,

302,

182,

092,

021,

971,

921,

881,

841,

761,

671,

611,

561,

501,

471,

411,

381,

331,

291,

2712

03,

923,

072,

682,

452,

292,

182,

092,

021,

961,

911,

871,

831,

751,

661,

601,

551,

501,

461,

401,

371,

321,

281,

2513

03,

913,

072,

672,

442,

282,

172,

082,

011,

951,

901,

861,

831,

741,

651,

591,

551,

491,

451,

391,

361,

311,

271,

2414

03,

913,

062,

672,

442,

282,

162,

082,

011,

951,

901,

861,

821,

741,

651,

581,

541,

481,

441,

381,

351,

301,

261,

2315

03,

903,

062,

662,

432,

272,

162,

072,

001,

941,

891,

851,

821,

731,

641,

581,

541,

481,

441,

381,

341,

291,

251,

2216

03,

903,

052,

662,

432,

272,

162,

072,

001,

941,

891,

851,

811,

731,

641,

571,

531,

471,

431,

371,

341,

281,

241,

2117

03,

903,

052,

662,

422,

272,

152,

061,

991,

941,

891,

851,

811,

731,

631,

571,

531,

471,

431,

371,

331,

281,

241,

2118

03,

893,

052,

652,

422,

262,

152,

061,

991,

931,

881,

841,

811,

721,

631,

571,

521,

461,

421,

361,

331,

271,

231,

2019

03,

893,

042,

652,

422,

262,

152,

061,

991,

931,

881,

841,

801,

721,

631,

561,

521,

461,

421,

361,

321,

271,

231,

1920

03,

893,

042,

652,

422,

262,

142,

061,

981,

931,

881,

841,

801,

721,

621,

561,

521,

461,

411,

351,

321,

261,

221,

1940

03,

863,

022,

632,

392,

242,

122,

031,

961,

901,

851,

811,

781,

691,

601,

531,

491,

421,

381,

321,

281,

221,

171,

1360

03,

863,

012,

622,

392,

232,

112,

021,

951,

901,

851,

801,

771,

681,

591,

521,

481,

411,

371,

311,

271,

201,

151,

1080

03,

853,

012,

622,

382,

232,

112,

021,

951,

891,

841,

801,

761,

681,

581,

521,

471,

411,

371,

301,

261,

201,

141,

0910

003,

853,

002,

612,

382,

222,

112,

021,

951,

891,

841,

801,

761,

681,

581,

521,

471,

411,

361,

301,

261,

191,

131,

083,

843,

002,

602,

372,

212,

102,

011,

941,

881,

831,

791,

751,

671,

571,

511,

461,

391,

351,

281,

241,

171,

11ANEX

A II

Dis

trib

uţia

F (F

ishe

r)P

rag

de s

emni

ficaţ

ie:

0,05

f pen

tru

num

itoru

l lu

i F

Gra

de d

e lib

erta

te (f

) pen

tru

numărăt

orul

lui F

155

Page 157: biostatistica forestiera

Grade de libertate (f) 0,10% 0,50% 1,00% 2,50% 5,00% 10,00% 20,00%

1 636,578 127,321 63,656 25,452 12,706 6,314 3,0782 31,600 14,089 9,925 6,205 4,303 2,920 1,8863 12,924 7,453 5,841 4,177 3,182 2,353 1,6384 8,610 5,598 4,604 3,495 2,776 2,132 1,5335 6,869 4,773 4,032 3,163 2,571 2,015 1,4766 5,959 4,317 3,707 2,969 2,447 1,943 1,4407 5,408 4,029 3,499 2,841 2,365 1,895 1,4158 5,041 3,833 3,355 2,752 2,306 1,860 1,3979 4,781 3,690 3,250 2,685 2,262 1,833 1,383

10 4,587 3,581 3,169 2,634 2,228 1,812 1,37211 4,437 3,497 3,106 2,593 2,201 1,796 1,36312 4,318 3,428 3,055 2,560 2,179 1,782 1,35613 4,221 3,372 3,012 2,533 2,160 1,771 1,35014 4,140 3,326 2,977 2,510 2,145 1,761 1,34515 4,073 3,286 2,947 2,490 2,131 1,753 1,34116 4,015 3,252 2,921 2,473 2,120 1,746 1,33717 3,965 3,222 2,898 2,458 2,110 1,740 1,33318 3,922 3,197 2,878 2,445 2,101 1,734 1,33019 3,883 3,174 2,861 2,433 2,093 1,729 1,32820 3,850 3,153 2,845 2,423 2,086 1,725 1,32521 3,819 3,135 2,831 2,414 2,080 1,721 1,32322 3,792 3,119 2,819 2,405 2,074 1,717 1,32123 3,768 3,104 2,807 2,398 2,069 1,714 1,31924 3,745 3,091 2,797 2,391 2,064 1,711 1,31825 3,725 3,078 2,787 2,385 2,060 1,708 1,31626 3,707 3,067 2,779 2,379 2,056 1,706 1,31527 3,689 3,057 2,771 2,373 2,052 1,703 1,31428 3,674 3,047 2,763 2,368 2,048 1,701 1,31329 3,660 3,038 2,756 2,364 2,045 1,699 1,31130 3,646 3,030 2,750 2,360 2,042 1,697 1,31035 3,591 2,996 2,724 2,342 2,030 1,690 1,30640 3,551 2,971 2,704 2,329 2,021 1,684 1,30345 3,520 2,952 2,690 2,319 2,014 1,679 1,30150 3,496 2,937 2,678 2,311 2,009 1,676 1,29955 3,476 2,925 2,668 2,304 2,004 1,673 1,29760 3,460 2,915 2,660 2,299 2,000 1,671 1,29670 3,435 2,899 2,648 2,291 1,994 1,667 1,29480 3,416 2,887 2,639 2,284 1,990 1,664 1,29290 3,402 2,878 2,632 2,280 1,987 1,662 1,291100 3,390 2,871 2,626 2,276 1,984 1,660 1,290110 3,381 2,865 2,621 2,272 1,982 1,659 1,289120 3,373 2,860 2,617 2,270 1,980 1,658 1,289130 3,367 2,856 2,614 2,268 1,978 1,657 1,288140 3,361 2,852 2,611 2,266 1,977 1,656 1,288150 3,357 2,849 2,609 2,264 1,976 1,655 1,287160 3,352 2,847 2,607 2,263 1,975 1,654 1,287170 3,349 2,844 2,605 2,261 1,974 1,654 1,287180 3,345 2,842 2,603 2,260 1,973 1,653 1,286190 3,342 2,840 2,602 2,259 1,973 1,653 1,286200 3,340 2,838 2,601 2,258 1,972 1,653 1,286400 3,315 2,823 2,588 2,250 1,966 1,649 1,284600 3,307 2,817 2,584 2,247 1,964 1,647 1,283800 3,303 2,815 2,582 2,246 1,963 1,647 1,2831000 3,300 2,813 2,581 2,245 1,962 1,646 1,282

3,290 2,807 2,576 2,241 1,960 1,645 1,2820,05% 0,10% 0,50% 1,00% 2,50% 5,00% 10,00%f Prag de semnificaţie (test unilateral)

Prag de semnificaţie (test bilateral)

ANEXA IIIDistribuţia t (Student)

156

Page 158: biostatistica forestiera

Grade delibertate 1% 3% 5% 10% 20%

1 6,635 5,024 3,841 2,706 1,6422 9,210 7,378 5,991 4,605 3,2193 11,345 9,348 7,815 6,251 4,6424 13,277 11,143 9,488 7,779 5,9895 15,086 12,832 11,070 9,236 7,2896 16,812 14,449 12,592 10,645 8,5587 18,475 16,013 14,067 12,017 9,8038 20,090 17,535 15,507 13,362 11,0309 21,666 19,023 16,919 14,684 12,242

10 23,209 20,483 18,307 15,987 13,44211 24,725 21,920 19,675 17,275 14,63112 26,217 23,337 21,026 18,549 15,81213 27,688 24,736 22,362 19,812 16,98514 29,141 26,119 23,685 21,064 18,15115 30,578 27,488 24,996 22,307 19,31116 32,000 28,845 26,296 23,542 20,46517 33,409 30,191 27,587 24,769 21,61518 34,805 31,526 28,869 25,989 22,76019 36,191 32,852 30,144 27,204 23,90020 37,566 34,170 31,410 28,412 25,03821 38,932 35,479 32,671 29,615 26,17122 40,289 36,781 33,924 30,813 27,30123 41,638 38,076 35,172 32,007 28,42924 42,980 39,364 36,415 33,196 29,55325 44,314 40,646 37,652 34,382 30,67526 45,642 41,923 38,885 35,563 31,79527 46,963 43,195 40,113 36,741 32,91228 48,278 44,461 41,337 37,916 34,02729 49,588 45,722 42,557 39,087 35,13930 50,892 46,979 43,773 40,256 36,25040 63,691 59,342 55,758 51,805 47,26950 76,154 71,420 67,505 63,167 58,16460 88,379 83,298 79,082 74,397 68,97270 100,425 95,023 90,531 85,527 79,71580 112,329 106,629 101,879 96,578 90,40590 124,116 118,136 113,145 107,565 101,054100 135,807 129,561 124,342 118,498 111,667

Pragul de semnificaţie

Distribuţia χ2 ANEXA IV

157

Page 159: biostatistica forestiera

Grade de libertate (f) 0,10% 0,50% 1,00% 2,50% 5,00% 10,00% 20,00%

1 1,000 1,000 1,000 0,999 0,997 0,988 0,9512 0,999 0,995 0,990 0,975 0,950 0,900 0,8003 0,991 0,974 0,959 0,924 0,878 0,805 0,6874 0,974 0,942 0,917 0,868 0,811 0,729 0,6085 0,951 0,906 0,875 0,817 0,754 0,669 0,5516 0,925 0,870 0,834 0,771 0,707 0,621 0,5077 0,898 0,836 0,798 0,732 0,666 0,582 0,4728 0,872 0,805 0,765 0,697 0,632 0,549 0,4439 0,847 0,776 0,735 0,667 0,602 0,521 0,41910 0,823 0,750 0,708 0,640 0,576 0,497 0,39811 0,801 0,726 0,684 0,616 0,553 0,476 0,38012 0,780 0,703 0,661 0,594 0,532 0,458 0,36513 0,760 0,683 0,641 0,575 0,514 0,441 0,35114 0,742 0,664 0,623 0,557 0,497 0,426 0,33815 0,725 0,647 0,606 0,541 0,482 0,412 0,32716 0,708 0,631 0,590 0,526 0,468 0,400 0,31717 0,693 0,616 0,575 0,512 0,456 0,389 0,30818 0,679 0,602 0,561 0,499 0,444 0,378 0,29919 0,665 0,589 0,549 0,487 0,433 0,369 0,29120 0,652 0,576 0,537 0,476 0,423 0,360 0,28421 0,640 0,565 0,526 0,466 0,413 0,352 0,27722 0,629 0,554 0,515 0,456 0,404 0,344 0,27123 0,618 0,543 0,505 0,447 0,396 0,337 0,26524 0,607 0,534 0,496 0,439 0,388 0,330 0,26025 0,597 0,524 0,487 0,430 0,381 0,323 0,25526 0,588 0,515 0,479 0,423 0,374 0,317 0,25027 0,579 0,507 0,471 0,415 0,367 0,311 0,24528 0,570 0,499 0,463 0,409 0,361 0,306 0,24129 0,562 0,491 0,456 0,402 0,355 0,301 0,23730 0,554 0,484 0,449 0,396 0,349 0,296 0,23335 0,519 0,452 0,418 0,368 0,325 0,275 0,21640 0,490 0,425 0,393 0,346 0,304 0,257 0,20245 0,465 0,403 0,372 0,327 0,288 0,243 0,19050 0,443 0,384 0,354 0,311 0,273 0,231 0,18155 0,424 0,367 0,339 0,297 0,261 0,220 0,17260 0,408 0,352 0,325 0,285 0,250 0,211 0,16570 0,380 0,327 0,302 0,264 0,232 0,195 0,15380 0,357 0,307 0,283 0,247 0,217 0,183 0,14390 0,338 0,290 0,267 0,234 0,205 0,173 0,135

100 0,321 0,276 0,254 0,222 0,195 0,164 0,128110 0,307 0,263 0,242 0,212 0,186 0,156 0,122120 0,294 0,253 0,232 0,203 0,178 0,150 0,117130 0,283 0,243 0,223 0,195 0,171 0,144 0,112140 0,273 0,234 0,216 0,188 0,165 0,139 0,108150 0,264 0,227 0,208 0,182 0,159 0,134 0,105160 0,256 0,220 0,202 0,176 0,154 0,130 0,101170 0,249 0,213 0,196 0,171 0,150 0,126 0,098180 0,242 0,207 0,190 0,166 0,146 0,122 0,095190 0,236 0,202 0,185 0,162 0,142 0,119 0,093200 0,230 0,197 0,181 0,158 0,138 0,116 0,091400 0,164 0,140 0,128 0,112 0,098 0,082 0,064600 0,134 0,114 0,105 0,091 0,080 0,067 0,052800 0,116 0,099 0,091 0,079 0,069 0,058 0,0451000 0,104 0,089 0,081 0,071 0,062 0,052 0,0415000 0,047 0,040 0,036 0,032 0,028 0,023 0,018

Valori limită semnificative ale coeficientului de corelaţie ANEXA VPrag de semnificaţie (test bilateral)

158