VILNIAUS UNIVERSITETAS MATEMATIKOS IR …rutal72/Statistika_su_SAS/Statistika_su_SAS.pdf · SPSS ir kt. Kai kurie statistiniai metodai yra realizuoti Microsoft Excel programoje. Statistini

VILNIAUS UNIVERSITETAS

MATEMATIKOS IR INFORMATIKOS FAKULTETAS

MATEMATINĖS STATISTIKOS KATEDRA

RŪTA LEVULIENĖ

STATISTIKA SU SAS®

I

2005

(Papildyta 2007.08)

3

TURINYS

Įvadas ........................................................................................................................................6

I skyrius. Duomenų paruošimas statistinei analizei ............................................................. 8 1. Pagrindiniai SAS langai ....................................................................................................8 2. SAS duomenų lentelės ....................................................................................................10 3. Duomenų lentelės sukūrimas ..........................................................................................11

3.1. Duomenų įvedimas VIEWTABLE lange ................................................................11 3.2. INPUT komanda ......................................................................................................12 3.3. INFILE komanda .....................................................................................................16 3.4. IMPORT procedūra .................................................................................................17

4. Duomenų eksportas .........................................................................................................22 5. Duomenų pertvarkymo komandos ..................................................................................23

5.1. Priskyrimo sakinys ..................................................................................................23 5.2. Sąlyginiai sakiniai ....................................................................................................24 5.3. Ciklai .......................................................................................................................26 5.4. RETAIN ir sumavimo sakiniai ................................................................................27

6. SAS duomenų lentelės keitimas ......................................................................................28 7. Kelių lentelių sukūrimas viename DATAžingsnyje ........................................................28 8. Kintamųjų pašalinimo ir pervardinimo komandos ..........................................................29 9. Lentelių apjungimo komandos ........................................................................................29

9.1. Lentelių apjungimas su komanda SET ....................................................................29 9.2. Lentelių apjungimas su komanda MERGE .............................................................30 9.3. Lentelės atnaujinimas su komanda UPDATE .........................................................31

10. Duomenų lentelės pasirinktys .......................................................................................32 11. Automatiniai kintamieji .................................................................................................34 12. Kintamųjų vardų sąrašai ................................................................................................34 13. Kintamųjų masyvai .......................................................................................................36 14. SAS procedūros .............................................................................................................37

14.1. Duomenų rūšiavimas .............................................................................................38 14.2. Duomenų spausdinimas .........................................................................................40 14.3. Duomenų lentelės transponavimas ........................................................................41

15. Rašymo formatai ...........................................................................................................43 16. Makroprogramos ...........................................................................................................44

II skyrius. Specialios funkcijos .............................................................................................48 1. Matematinės funkcijos ....................................................................................................49 2. Skaitinių charakteristikų funkcijos ..................................................................................51 3. Tikimybinių skirstinių funkcijos .....................................................................................52 4. Kvantilių funkcijos ..........................................................................................................55 5. Atsitiktinių dydžių modeliavimas ...................................................................................56 6. Simbolinės funkcijos .......................................................................................................60 7. Datos ir laiko funkcijos ...................................................................................................61 8. Masyvų funkcijos ............................................................................................................62

III skyrius. Aprašomoji statistika .........................................................................................63 1. Dažnių lentelės ................................................................................................................63

1.1. Vieno kintamojo dažnių lentelės .............................................................................63 1.2. Kryžminės dviejų kintamųjų dažnių lentelės ...........................................................68

2. Skaitinės charakteristikos ................................................................................................69 2.1. Skaitinės charakteristikos su procedūromis MEANS ir UNIVARIATE .................69 2.2. Standartizuotos reikšmės .........................................................................................79 2.3. Išskirtys ....................................................................................................................80

4

2.4. Skaitinių charakteristikų įrašymas į duomenų lentelę .............................................80 2.5. Skaitinių charakteristikų apjungimas su pradiniais duomenimis ............................82

3. Grafiniai duomenų analizės metodai ...............................................................................84 3.1. Stulpelių diagramos .................................................................................................84 3.2. Diagrama medis .......................................................................................................90 3.3. Histograma ...............................................................................................................91 3.4. Tikimybinės kreivės grafikas ...................................................................................93 3.5. Sklaidos diagrama ....................................................................................................94 3.6. Linijinė diagrama ....................................................................................................97 3.7. Skritulinė diagrama ..................................................................................................98 3.8. Stačiakampė diagrama ...........................................................................................102

IV skyrius. Taškiniai parametrų įverčiai ir pasikliautinieji intervalai ...........................105 1. Pagrindinės sąvokos ir apibrėžimai ...............................................................................105 2. Taškinių parametrų įverčių ir pasikliautinųjų intervalų pavyzdžiai ..............................110

2.1. Vienmatis normalusis skirstinys ............................................................................110 2.2. Dvimatis normalusis skirstinys ..............................................................................114 2.3. Binominis skirstinys ..............................................................................................117 2.4. Puasono skirstinys .................................................................................................119 2.5. Gama skirstinys .....................................................................................................120 2.6. Beta skirstinys ........................................................................................................121

V skyrius. Parametrinių hipotezių tikrinimo uždaviniai .................................................123 1. Pagrindinės sąvokos ir apibrėžimai ...............................................................................123 2. Hipotezė apie vidurkio reikšmę .....................................................................................124

2.1. Hipotezė apie vidurkio reikšmę, kai dispersija žinoma .........................................124 2.2. Hipotezė apie vidurkio reikšmę, kai dispersija nežinoma .....................................126

3. Hipotezė apie dispersijos reikšmę .................................................................................130 3.1. Hipotezė apie dispersijos reikšmę, kai vidurkis žinomas ......................................130 3.2. Hipotezė apie dispersijos reikšmę, kai vidurkis nežinomas ..................................131

4. Hipotezė apie proporciją ...............................................................................................133 4.1. Tikslus kriterijus ....................................................................................................133 4.2. Normalioji aproksimacija ......................................................................................134

5. Dviejų dispersijų palyginimo hipotezės ........................................................................136 6. Dviejų vidurkių palyginimo hipotezės ..........................................................................137

6.1. Hipotezė apie vidurkių lygybę, kai imtys nepriklausomos ....................................138 6.2. Hipotezė apie vidurkių lygybę, kai imtys priklausomos .......................................141

7. Hipotezė apie koreliacijos koeficiento reikšmę .............................................................142

VI skyrius. Neparametriniai kriterijai ...............................................................................144 1. Chi-kvadrato kriterijus neparametrinėms hipotezėms tikrinti .......................................145

1.1. Paprastosios suderinamumo hipotezės tikrinimas .................................................146 1.2. Sudėtingosios suderinamumo hipotezės tikrinimas ...............................................148 1.3. Nepriklausomumo tikrinimas ................................................................................150 1.4. Homogeniškumo tikrinimas ..................................................................................153 1.5. Kriterijai, susiję su chi-kvadrato kriterijumi ..........................................................155 1.6. Sąryšio matai, grindžiami chi-kvadrato kriterijumi ...............................................156 1.7. Fišerio tikslus kriterijus .........................................................................................157 1.8. Maknemaro kriterijus ............................................................................................160

2. Kriterijai, grindžiami empirinės ir teorinės pasiskirstymo funkcijų skirtumu ..............161 2.1. Suderinamumo tikrinimas ......................................................................................161 2.2. Homogeniškumo tikrinimas ..................................................................................165

3. Ranginiai kriterijai .........................................................................................................167

5

3.1. Spirmeno ranginės koreliacijos koeficientas .........................................................167 3.2. Kendalo ranginės koreliacijos koeficientas ...........................................................169 3.3. Mano-Vitnio-Vilkoksono kriterijus .......................................................................171 3.4. Van der Vardeno kriterijus ....................................................................................174 3.5. Kruskalo-Voliso kriterijus .....................................................................................175 3.6. Homogeniškumo hipotezės su mastelio alternatyva tikrinimas ............................176

4. Kiti neparametriniai kriterijai ........................................................................................180 4.1. Ženklų kriterijus ....................................................................................................180 4.2. Grubių klaidų išskyrimo kriterijus .........................................................................183

Santrumpos ir žymenys .......................................................................................................186

Literatūra ..............................................................................................................................187

6

ĮVADAS

Tikimybių teorijos ir matematinės statistikos metodai yra naudojami įvairiose mokslo ir technikos srityse, pavyzdžiui, medicinoje, biologijoje, ekonomikoje, gamyboje ir kt. Statistika – tai mokslas, apimantis informacijos rinkimo, sisteminimo, analizavimo ir interpretavimo metodus. Statistinius metodus galima suskirstyti į dvi pagrindines grupes: aprašomoji statistika ir matematinė (sprendžiamoji) statistika. Aprašomoji statistika, tai duomenų sisteminimo ir pateikimo metodai. Matematinė statistika nagrinėja duomenų analizės ir interpretavimo metodus. Atliekant duomenų analizę ir turint didelius duomenų masyvus yra naudojami statistikos paketai (duomenų analizės sistemos), pavyzdžiui, SAS, SPlus, STATISTIKA, SPSS ir kt. Kai kurie statistiniai metodai yra realizuoti Microsoft Excel programoje. Statistinių paketų pasirinkimas yra labai didelis. Kokį paketą pasirinkti priklauso nuo sprendžiamų uždavinių sudėtingumo ir tipo, duomenų masyvo dydžio, vartotojo kvalifikacijos, turimos įrangos ir finansinių galimybių. Statistinius paketus galima suskirstyti į tris pagrindines grupes: profesionalūs, universalūs ir specializuoti. Profesionalios duomenų analizės sistemos skirtos vartotojams, kurie dirba su dideliais duomenų masyvais ir naudoja ne tik klasikinius statistinius metodus, bet ir specializuotus statistinius algoritmus. Mažesnes galimybes (realizuota mažiau statistinių algoritmų) turi universalūs paketai, tačiau ir kaina jų yra žymiai mažesnė negu profesionalių. Specializuoti paketai skirti spręsti tik kai kuriuos statistinius uždavinius. Didžiausias galimybes (plačiausias statistinių algoritmų pasirinkimas) tarp profe-sionalių duomenų analizės sistemų turi SAS. Sistema SAS (Statistical Analysis System) sparčiai vystoma nuo 1976 metų. Gali dirbti įvairiose operacinėse sistemose. Apima visus reikalingus duomenų analizės etapus: duomenų įvedimas, pertvarkymas, saugojimas, duomenų analizė, ataskaitų rašymas. Sistema sudaryta iš sujungtų tarpusavyje modulių. Sistemos branduolys – modulis Base, kitus modulius galima pasirinkti priklausomai nuo vartotojo poreikių, pavyzdžiui, modulis STAT yra skirtas statistinei duomenų analizei, modulis OR – operacijų tyrimui, QC – kokybės kontrolės modulis, GRAPH – grafinio duomenų vaizdavimo modulis ir kt. Pagrindinis SAS privalumas: yra realizuota daug statistinių algoritmų, be to, vartotojas pats nesunkiai gali sukurti reikiamus algoritmus. Programą, parašytą vienoje operacinėje sistemoje, galima pernešti į kitą operacinę sistemą ir ji veiks, reikia tik pakeisti specifines komandas, skirtas darbui su bylomis ir katalogais. Taip pat yra produktų, skirtų vartotojams, neturintiems programavimo įgūdžių, pavyzdžiui, „SAS Enterprise Guide“ galima atlikti įvairią statistinę analizę nerašant programinio kodo. Ši mokymo priemonė yra skirta visiems, kas nori išmokti dirbti su SAS sistema ir įsisavinti statistinių metodų taikymą duomenų analizei. Ši knyga yra taikomojo pobūdžio, todėl ji gali būti naudinga ne tik statistikos specialybių studentams. Knygoje išdėstyta medžiaga apima pagrindinį statistikos kursą (aprašomoji statistika, taškiniai parametrų įverčiai ir pasikliautinieji intervalai, vienos ir dviejų imčių parametrinių hipotezių tikrinimo uždaviniai, dažniausiai naudojami neparametriniai kriterijai), kuris tradiciškai būna skaitomas įvairių specialybių studentams, pavyzdžiui, ekonominių, gamtos mokslų specialybių studentams. Tai pirmoji knyga. Ji apima dalyko „Matematinė statistika“, kuris skaitomas „Matematinės statistikos“ katedros studentams, laboratorinių užsiėmimų, kuriuos jau keletą metų vedu, pirmųjų dviejų semestrų medžiagą. Antrojoje knygoje „Statistika su SAS®, II“ numatoma išdėstyti dispersinės, regresinės, koreliacinės analizės metodų, Hotelingo statistikos taikymų, klasifikavimo, faktorinės ir klasterinės analizės metodų taikymą duomenų analizei naudojant SAS sistemą. Trumpai apžvelgsime šioje mokymo priemonėje pateiktą medžiagą. Pirmajame skyriuje aprašyti pagrindiniai darbo su SAS sistema principai. Šiame skyriuje pateikiamos duomenų lentelių sukūrimo, pertvarkymo komandos, aprašomi duomenų

7

importavimo ir eksportavimo būdai į kito formato bylas. Pateikiami makrokomandų naudojimo principai.

Antrajame skyriuje aprašytos specialios funkcijos. Pagrindinis dėmesys skirtas matematinėms, tikimybinių skirstinių, atsitiktinių dydžių modeliavimo ir statistinėms funkcijoms.

Trečiajame skyriuje pateikiami aprašomosios statistikos metodai: dažnių lentelės, skai-tinės charakteristikos ir grafiniai duomenų vaizdavimo metodai.

Ketvirtas skyrius skirtas parametrų taškinių įverčių ir pasikliautinųjų intervalų konstravimo uždaviniams. Jame pateikiamos parametrų taškinių įverčių ir pasikliautinųjų intervalų išraiškos ir apskaičiavimo su SAS sistema būdai įvairių skirstinių atveju.

Penktame skyriuje pateikiami parametrinių hipotezių tikrinimo kriterijai. Nagrinėjami vienos ir dviejų imčių uždaviniai.

Šeštame skyriuje pateikiami dažniausiai naudojami neparametriniai kriterijai. Pirma-jame šio skyriaus skyrelyje nagrinėjamas chi-kvadrato kriterijus, kurį galima naudoti suderinamumo, homogeniškumo ir nepriklausomumo hipotezėms tikrinti. Antrajame pateikti kriterijai, grin-džiami empirinės ir teorinės pasiskirstymo funkcijų skirtumu. Trečiasis skyrelis yra skirtas ranginiams kriterijams. Skyriaus pabaigoje pateikiami ženklų ir grubių klaidų išskyrimo kriterijai.

Medžiagos dėstymas visuose skyriuose toks pats, t.y. pradedama nuo uždavinio formu-luotės, tada pateikiamas uždavinio sprendimas, aprašoma kaip išspręsti uždavinį naudojant SAS (buvo naudojama SAS 9.1 versija), pateikiamas pavyzdys su duomenimis (realiais arba modeliuotais) bei gautų rezultatų interpretacija. Naudojama ištisinė formulių, pavyzdžių, lentelių ir paveikslėlių numeracija kiekvieno skyriaus rėmuose; pirmasis skaitmuo žymi skyrių, o antrasis eilės numerį tame skyriuje.

Skliaustuose yra pateikiami statistinių terminų angliški atitikmenys. Knygos pabaigoje pateiktas literatūros sąrašas. Jame apsiribota tik tomis knygomis,

kurios tiesiogiai buvo naudojamos dėstant medžiagą. Pilnesnę literatūros apžvalgą galima rasti knygoje [3]-[5], o taip pat kartu su SAS sistema platinamame kompakte [9]. Naudingos informacijos apie SAS sistemą, įvairius modulius galima surasti interneto tinklapyje http://www.sas.com.

8

I skyrius. DUOMENŲ PARUOŠIMAS STATISTINEI ANALIZEI

Šiame skyriuje aprašomi pagrindiniai darbo su SAS sistema principai. Pateikiami duomenų lentelių sukūrimo būdai, aprašomos komandos, skirtos duomenų pertvarkymui. Taip pat pagalbinės procedūros, skirtos duomenų atspausdinimui, rūšiavimui, savo formato sukūrimui. Pateikiami makrokomandų naudojimo principai.

1. Pagrindiniai SAS langai

SAS darbo sesijos pradžioje ekrane matome penkis langus (žr. 1.1 pav.): Explorer, Editor, Log, Output, Results.

1.1 pav. Pagrindiniai SAS langai

Toliau pateikiamas kiekvieno iš paminėtų langų aprašymas. Explorer langas yra skirtas darbui su bylomis. Šis langas naudojamas SAS bibliotekų ir bylų kūrimui, bylų atidarymui ir tvarkymui (pvz., kopijuoti, ištrinti, perkelti iš vienos vietos į kitą), SAS duomenų lentelių kūrimui. Explorer lange matome kokios SAS bibliotekos yra sukurtos. Jos palengvina darbą su duomenų lentelėmis. Bibliotekose yra saugomos SAS duomenų lentelės. Biblioteka yra nuoroda į katalogą su kuriuo ji yra susieta. Pagal nutylėjimą sukuriamos bibliotekos: Sashelp, Sasuser, Work. Vartotojas gali sukurti savo biblioteką.

1.2 pav. Bibliotekos sukūrimas

Naują biblioteką galima sukurti dviem būdais: I b ū d a s. Explorer lange aktyvuojame ikoną Libraries. Tada pagrindiniame meniu pasirenkame punktą File→New. Ekrane atsiranda langas (žr. 1.2 pav.), kuriame įvedame:

9

bibliotekos vardą (name), katalogo vardą nurodant pilną kelią iki jo (path), pavyzdžiui, jei įvedame: c:\mano, tai bus sukurta biblioteka, susieta su katalogu c:\mano. Jeigu pažymime „Enable at startup“, tai kitą kartą įėjus į SAS sistemą automatiškai bus sukurta biblioteka nurodytu pavadinimu. II b ū d a s. Editor lange surenkame komandą:

LIBNAME vardas 'katalogas';

čia vardas – bibliotekos vardas, path – katalogas (nurodant pilną kelią iki jo). Pavyzdžiui, Editor lange įvedus

LIBNAME duomenys 'c:\mano';

bus sukurta biblioteka „duomenys“ susieta su katalogu „c:\mano“.

P a s t a b a. Bibliotekos vardas turi tenkinti standartinius vardams taikomus apribo-jimus. Be to negali būti ilgesnis negu aštuoni simboliai.

Editor lange yra rašomas programinis kodas. Toliau pateikiame pagrindines programinio kodo sukūrimo taisykles: 1. Sudaromas iš dviejų tipų žingsnių: DATA žingsnis, PROC žingsnis. DATA žingsnis skirtas sukurti ir pertvarkyti duomenų lenteles. PROC žingsnis skirtas duomenų analizei, rezultatų spausdinimui. Žingsniai yra sudaromi iš komandų. Kai kurios komandos naudojamos tik DATA žingsnyje (duomenų įvedimo ir pertvarkymo komandos), o kai kurios tik PROC žingsnyje (duomenų analizės komandos). Yra komandų, kurias galima naudoti ir DATA, ir PROC žingsnyje. 2. Data žingsnis atliekamas eilutė po eilutės, stebėjimas po stebėjimo, t.y. imamas pirmas stebėjimas ir su juo atliekamos visos komandas (eilutė po eilutės), nurodytos DATA žingsnyje, tada imamas antras stebėjimas ir t.t. 3. Kiekviena SAS komanda baigiasi kabliataškiu. 4. Galima rašyti ir mažosiomis, ir didžiosiomis raidėmis. 5. Kelios komandos gali būti vienoje eilutėje. 6. Vieną komandą galima suskaidyti į kelias eilutes, tačiau žodžių skaidyti negalima. 7. Galima įterpti komentarus (paaiškinimus). Juos galima įterpti dviem būdais: a b ū d a s. Komentaras atskiroje eilutėje: prasideda žvaigždute (*), baigiasi kablia-taškiu (;). b b ū d a s. Komentaras toje pačioje eilutėje kaip ir komanda: prasideda /* baigiasi */ . Editor lange parašytą tekstą išsaugome pagrindiniame meniu pasirinkę punktą File →Save arba Save as. Įvykdyti programą: a b ū d a s. Surinkti SUBMIT komandinėje eilutėje (po pagrindiniu meniu). b b ū d a s. Paspausti ikoną su nupieštu bėgančiu žmogumi. c b ū d a s. Pagrindiniame meniu pasirinkti Run → Submit.

Log lange spausdinami sisteminiai pranešimai apie SAS sesiją, vykdomas SAS komandas, klaidas.

Output lange spausdinami SAS procedūrų rezultatai. Jei norime išsaugoti Output lange esančius rezultatus, tai pagrindiniame meniu pasirenkame File → Save as, jei norime atspausdinti, tai pasirenkame File → Print. Kaip rezultatai turi būti išdėstyti Output lange galima nurodyti su komanda:

OPTIONS parinktys;

kuri yra įvedama Editor lange. Toliau pateikiame keletą dažniausiai naudojamų pasirinkčių: CENTER | NOCENTER – nurodome centruoti ar ne rezultatus Output lange; DATE | NODATE – nurodome ar kiekvieno puslapio viršuje spausdinti šios dienos datą;

10

NUMBER | NONUMBER – numeruoti ar ne puslapius; LINESIZE = n – čia n yra maksimalus simbolių skaičius eilutėje; PAGESIZE = n – čia n yra maksimalus eilučių skaičius puslapyje; PAGENO = n – pirmojo puslapio numeris bus n; Pilną parinkčių sąrašą galima pasižiūrėti pagrindiniame meniu pasirinkus Help → SAS Help and Documentation.

Results lange galima greitai surasti konkretų procedūros rezultatą, išsaugoti ir atspausdinti gautus rezultatus arba konkrečią jų dalį.

2. SAS duomenų lentelės

Kaip jau minėjome SAS duomenų lentelės yra saugomos bibliotekose. SAS duomenų lentelė susideda iš stulpelių (kintamųjų) ir eilučių (stebėjimų). Duomenys saugomi lentelėse gali būti dviejų tipų: skaitinio arba simbolinio. Skaitinio tipo duomenys yra skaičiai. Be skaitmenų skaitinio tipo lauke gali būti: „+“, „-“, „.“ (atskiriantis trupmeninę skaičiaus dalį) arba raidė „E“ (kitas trupmeninio skaičiaus užrašymo būdas). Simbolinio tipo duomenys susideda iš skaitmenų, raidžių ir specialių simbolių (pavyzdžiui, “&”, “!”, “/”). Duomenys gali būti nepilni (yra praleistų reikšmių). SAS praleisti stebėjimai žymimi tašku. SAS duomenų lentelėje praleisti stebėjimai žymimi taip: tašku, kai duomenys skaitinio tipo ir tarpu, kai duomenys simbolinio tipo. SAS duomenų lentelėje yra saugomi ne tik duomenys, bet ir papildoma informacija: lentelės pavadinimas, sukūrimo data, informacija apie kiekvieną kintamąjį (vardas, tipas, ilgis, skaitymo formatas, rašymo formatas). SAS duomenų lentelės yra dviejų tipų: 1) laikinos lentelės – lentelės, išsaugotos Work bibliotekoje. Jos, pasibaigus SAS sesijai, yra panaikinamos. Rašant kreipinį į laikiną lentelę, reikia nurodyti tik lentelės vardą. Pavyzdžiui, Editor lange įvedus kodą:

DATA d1;

INPUT k1;

DATALINES;

1

2

;

RUN;

Work bibliotekoje bus sukurta laikina lentelė „d1“, kurioje bus vienas stulpelis (kintamasis) ir dvi eilutės (stebėjimai). 2) pastovios lentelės – pasibaigus SAS sesijai jos nepanaikinamos. Šios lentelės patalpinamos į vartotojo sukurtą biblioteką. Pastovių SAS duomenų lentelių išplėtimas: .sas7bdat. Pavyzdžiui, parašę Editor lange:

DATA mano.d1;

INPUT k1;

DATALINES;

1

2

;

RUN;

sukuriame pastovią SAS duomenų lentelę „d1“, kuri bus bibliotekoje „mano“ (biblioteka jau turi būti sukurta, pavyzdžiui, su komanda LIBNAME).

11

3. Duomenų lentelės sukūrimas

Duomenis galima įvesti tiesiogiai sukuriant SAS duomenų lentelę (Viewtable lange arba Editor lange Data žingsnyje) arba juos galima importuoti (iš tekstinės bylos, Excel, Access ir kt.). SAS duomenų lentelės sukūrimo būdai: 1) tiesioginis duomenų įvedimas Editor lange. Šis būdas naudojamas, kai nedaug duomenų arba testuojame programą, pavyzdžiui,

DATA lenteles_pavad;

INPUT k1 $ k2 k3 ; /* trys kintamieji, k1 simbolinio tipo */

DATALINES;

a 2 5

c 1 4

;

RUN;

2) duomenų įvedimas Viewtable lange. Pagrindiniame meniu pasirenkame Tools → Table Editor. Įvedame duomenis. Lentelę išsaugome pagrindiniame meniu pasirinkę File → Save as. 3) importavimas: a) iš tekstinės bylos data žingsnyje, pavyzdžiui:

DATA lent_pavad;

INFILE ’c:\mano\duomenys.txt’;

INPUT k1 $ k2 k3;

RUN;

b) File → Import data (įvairaus formato duomenų importas). c) IMPORT procedūra (rašoma Editor lange). Tolesniuose skyreliuose pateikiamas išsamus kiekvieno lentelės sukūrimo būdo aprašymas.

3.1 Duomenų įvedimas Viewtable lange

Pasirinkus meniu punktą Tools→Table Editor ekrane atsiranda Viewtable langas (žr. 1.3 pav.), kuriame galima tiesiogiai įvesti duomenis. Šiame lange taip pat galima peržiūrėti ir koreguoti anksčiau sukurtas duomenų lenteles.

1.3 pav. Viewtable langas

Priklausomai nuo to kokius duomenis įvedame į stulpelį SAS automatiškai nustato stulpelio (kintamojo) tipą: simbolinis ar skaitinis.

12

Galima keisti stulpelių charakteristikas: vardą (name), žymę (label), ilgį (length), tipą (type), skaitymo formatą (informat), rašymo formatą (format). Tuo tikslu paspaudžiame dešinį pelės klavišą ant stulpelio pavadinimo, ekrane atsiranda meniu, jame pasirenkame Column Attributes. Atlikus šiuos veiksmus ekrane atsiranda langas (žr.1.4 pav.), kuriame galima keisti stulpelių charakteristikas. Lentelę išsaugome pagrindiniame meniu pasirinkę punktą File→Save As. Kaip jau minėjome, galima peržiūrėti ir koreguoti anksčiau sukurtas duomenų lenteles. Pasirenkame meniu punktą Tools→Table Editor, File→Open, tada pasirenkame biblioteką ir lentelę, kurią norime atidaryti. Kitas, greitesnis būdas atidaryti duomenų lentelę: Explorer lange du kartus paspaudžiame kairį pelės klavišą ant lentelės pavadinimo. Atidarius lentelę ir naudojantis kontekstiniu meniu (ant stulpelio pavadinimo paspaudžiame dešinį pelės klavišą) galime keisti stulpelio charakteristikas (Column Attributes), šriftą (Fonts), spalvą (Colors), paslėpti stulpelį (Hide), surūšiuoti (Sort) didėjimo arba mažėjimo tvarka.

1.4 pav. Stulpelių charakteristikų keitimo langas

Viewtable lange galima pasirinkti, kad rodytų tik tas eilutes, kurios tenkina tam tikras sąlygas: paspaudžiame dešinį pelės klavišą ant lentelės langelio (ne ant pavadinimo) ir atsiradusiame kontekstiniame meniu pasirenkame punktą Where. Atsidariusiame „Where Expression“ lange įvedame sąlygą. Ekrane matysime tik eilutes, tenkinančias nurodytą sąlygą. Jeigu vėl norime matyti visus įrašus kontekstiniame meniu pasirenkame Where Clear. Kitas būdas: pagrindiniame meniu pasirenkame Data→Where (Data→Where Clear). Pagal nutylėjimą lentelė yra atidaroma peržiūros režime (Browse Mode), norint keisti duomenis reikia pereiti į redagavimo režimą (Edit Mode): pasirenkame meniu punktą Edit→Edit Mode.

3.2. INPUT komanda

Komanda INPUT naudojama Data žingsnyje, kai duomenų lentelė kuriama su DATALINES arba INFILE komandomis. Šioje komandoje yra nurodomi kintamųjų vardai, duomenų tipai (skaitinio ar simbolinio), skaitymo tipai. Duomenų skaitymo tipai: I. Skaitymas sąrašu (list input). Reikia tiesiog išvardinti kintamuosius, nurodant jų vardus ir pažymint kurie kintamieji yra simbolinio tipo. Sintaksė yra labai paprasta, tačiau duomenys turi tenkinti gana griežtus reikalavimus: reikšmės eilutėje turi būti atskirtos bent

13

vienu tarpu, praleistas stebėjimas pažymėtas tašku, simbolinio tipo duomenys turi būti paprasti (negali būti tarpų viduryje reikšmės ir ilgis ne daugiau 8 simbolių).

1.1 p a v y z d y s. DATA d1; INPUT k1 $ k2; /* du kintamieji: k1,k2; k1 simbolinio tipo */

DATALINES;

aa 1

bb 2

; RUN;

Trūkumai: negalime praleisti nereikalingų kintamųjų, negali būti datų ar kitų reikšmių, kurioms reikia specialių priemonių.

II. Skaitymas stulpeliais (column input). Jei tarp reikšmių nėra tarpų arba taško, žyminčio praleistą stebėjimą, tai duomenų skaitymas sąrašu netinka. Skaitymo stulpeliais privalumai: 1) nebūtini tarpai tarp reikšmių; 2) praleistos reikšmės vietoje gali būti tarpas; 3) simbolinio tipo duomenyse gali būti tarpai; 4) galima praleisti nereikalingus kintamuosius; Naudojant šį būdą reikia išvardinti kintamuosius, nurodant jų vardus ir pažymint kurie kintamieji yra simbolinio tipo, be to, reikia nurodyti nuo kurios pozicijos prasideda kintamojo reikšmė ir kuria baigiasi, pavyzdžiui,

INPUT Vardas $ 1-10 Amzius 11-13 Aukstis 14-18;

P a s t a b a. Visose eilutėse kintamųjų reikšmės turi būti tose pačiose pozicijose visose eilutėse.

III. Formatuotas skaitymas (formatted input). Naudojant šį būdą reikia išvardinti kintamuosius ir nurodyti skaitymo formatą (informat). Jis skirtas nestandartinių duomenų įvedimui, pavyzdžiui, datos; 1,000,000. Yra trys skaitymo formatų tipai:

simbolinio $informatw. skaitinio informatw.d datos informatw.

čia informat – skaitymo formato pavadinimas, w - simbolių skaičius, d - skaitmenų po kablelio skaičius.

1.1 lentelėje yra pateikti skaitymo formatų pavyzdžiai (žr.[7]).

P a s t a b a. Visus tris išvardintus skaitymo tipus galima naudoti ir viename INPUT sakinyje, t.y. kai kurie kintamieji skaitomi sąrašu, kiti stulpeliais, o dar kiti – panaudojant skaitymo formatus.

1.2 p a v y z d y s. DATA d1;

INPUT numeris kodas $char5. data yymmdd8. t1 t2;

DATALINES;

1 M13 96.12.11 5 3

2 M14 97.08.12 2 4

3 M15 98.01.28 6 8

; RUN;

Šiame pavyzdyje kintamasis „kodas“ skaitomas panaudojant simbolinio tipo skaitymo formatą, kintamasis „data“ – datos tipo formatą, o kintamieji „t1“ ir „t2“ skaitomi sąrašu, t.y. tiesiog nurodant jų pavadinimus.

INPUT sakinyje galima naudoti specialius simbolius. Pateiksime keletą dažniausiai naudojamų:

14

1) @n perkelia kursorių duomenų eilutėje į n-tą poziciją.

2) +n perkelia kursorių duomenų eilutėje per n pozicijų.

3) Tegu vienas pradinių duomenų stebėjimas suskaidytas į kelias eilutes. Tada naudojami tokie simboliai: / pereiti į kitą pradinių duomenų eilutę; #n pereiti į n-tą eilutę (pvz.: #2 pereiti į 2-ą eilutę).

P a s t a b a. Iš pradžių galima skaityti trečią eilutę, o paskui antrą.

4) Jei keli stebėjimai vienoje eilutėje (pradinėje byloje), tai naudojame @@.

P a s t a b a. Pirmame ir antrame punkte aprašyti specialūs simboliai naudingi, pavyzdžiui, tada, kai naudojamas formatuotas skaitymas ir kintamųjų reikšmės atskirtos daugiau negu vienu tarpu arba keleteas vienas po kito esančių kintamųjų skaitomi panaudojant skaitymo formatą. Rekomenduojama skaitant kintamąjį naudojant formatą kursorių pastatyti prieš pirmąjį to kintamojo simbolį.

1.2 pavyzdžio tęsinys. DATA d1;

INPUT numeris @3 kodas $char3. @8 data yymmdd8. t1 t2;

FORMAT data yymmdd10.;

DATALINES;

1 M13 96.12.11 5 3

2 M14 97.08.12 2 4

3 M15 98.01.28 6 8

; RUN;

Kitas būdas:

DATA d1;

INPUT numeris +1 kodas $char3. +2 data yymmdd8. t1 t2;

FORMAT data yymmdd10.;

DATALINES;

1 M13 96.12.11 5 3

2 M14 97.08.12 2 4

3 M15 98.01.28 6 8

; RUN;

FORMAT sakinys nurodo kokiu pavidalu kintamąjį matysime duomenų lentelėje (žr. I skyriaus 15 skyrelį).

1.3 p a v y z d y s. Tarkime, kad keli stebėjimai vienoje eilutėje (pradinėje byloje): Jonas 15 16 Petras 18 20

Tadas 6 17

Editor lange parašome tokią programą:

DATA m1;

INFILE ’c:\mano\duomenys.txt’;

INPUT vardas $ k1 k2 @@;

RUN;

15

1.1 lentelė. Skaitymo formatų pavyzdžiai Skaitymo formatas

Aprašymas Duomenys INPUT sakinys Rezultatas

Simbolinio tipo $CHARw. Skaito simbolinio tipo duomenis,

nepanaikina tarpų pradžioje ir pabaigoje duom 1

duom 1

INPUT k1 $CHAR10.; duom 1

duom 1

$w. Skaito simbolinio tipo duomenis, panai-kina tarpus pradžioje

duom 1

duom 1

INPUT k1 $CHAR10.; duom 1

duom 1

Datos, laiko, datos-laiko DATEw. Skaito datą pavidalo: ddmmmyy arba

Ddmmmyyyy 1jan1961

1jan61

INPUT d1 DATE10.; 366

366

DATETIMEw. Skaito datos-laiko duomenis pavidalo: ddmmmyy hh:mm:ss

1jan1960 10:30:15

1jan1961 10:30:15

INPUT dt DATETIME18.; 37815

3166021

DDMMYYw. ddmmyy arba ddmmyyyy 01.01.61

02/01/61

INPUT d1 DDMMYY8.; 366

367

MMDDYYw. mmddyy arba mmddyyyy 01-01-61

01/01/61

INPUT d1 MMDDYY8.; 366

366

YYMMDDw. yymmdd arba yyyymmdd 61.01.01

1961.01.01

INPUT d1 YYMMDD8.;

INPUT d1 YYMMDD10.;

366

366

TIMEw. Laikas pavidalo: hh:mm:ss (valandos:minutės:sekundės, 24 valandų laikrodis)

10:30

10:30:15

INPUT laikas TIME8.; 37800

37815

Skaitinio tipo COMMAw.d Panaikina kablelius ir $, skliaustus

pakeičia minuso ženklu $1,000,001 (1,234)

INPUT pajamos COMMA10.; 100001 -1234

PERCENTw. Konvertuoja procentus į skaičius 5% (20%)

INPUT d1 PERCENT5.; 0.05 -0.2

w.d Skaito standartinius skaičius 1234 -12.3

INPUT d1 5.1; 123.4 -12.3

P a s t a b a. SAS datos reikšmė yra dienų skaičius nuo 1960.01.01. SAS laiko reikšmė yra sekundžių skaičius po vidurnakčio. SAS datos-laiko reikšmė yra sekundžių skaičius nuo 1960.01.01 vidurnakčio.

16

3.3. INFILE komanda

Jei duomenis turime tekstinėje byloje ir duomenų lentelę norime sukurti Editor lange rašydami Data žingsnį, tai vietoje komandos DATALINES naudojame komandą INFILE. Šioje komandoje reikia nurodyti bylos, kurioje yra duomenys, pavadinimą (su pilnu keliu iki tos bylos), o taip galima nurodyti įvairias pasirinktis.

1.4 p a v y z d y s. Tarkime, kad duomenys (du skaitinio tipo kintamieji k1 ir k2) yra tekstinėje byloje „mano.txt“, kuri įrašyta diske „c“. Tada lentelę galime sukurti Editor lange parašę: DATA lent_pavad;

INFILE ’c:\mano.txt’;

INPUT k1 k2;

RUN;

Pasirinktys naudojamos INFILE komandoje: 1) FIRSTOBS=n, čia n eilutės, nuo kurios reikia pradėti skaityti duomenis, numeris. Ši pasirinktis naudojama, kai turime duomenų bylą, kurios pradžioje yra duomenų aprašymas arba kokia nors kita informacija.

1.5 p a v y z d y s. Tarkime, kad turime tekstinę bylą „prekes.txt“ diske „c“, kataloge „mano“. Šioje byloje pirmos dvi eilutės yra tekstas.

Duomenys apie prekes, parduotas 2004 metais.

Prekės_pavadinimas Parduota

Prekė1 205

Prekė2 154

Prekė3 361

Lentelę galima sukurti su tokiu Data žingsniu:

DATA prekes_2004;

INFILE ’c:\mano\prekes.txt’ FIRSTOBS=3;

INPUT preke $ parduota;

RUN;

1) OBS=n, čia n nurodo kiek eilučių iš pradinės bylos reikia perskaityti. Šis skaičius nebūtinai sutampa su stebėjimų skaičiumi sukurtoje lentelėje, pavyzdžiui, jei pradinėje byloje vienas stebėjimas užima dvi eilutes, tai nurodžius OBS=100, bus perskaityta 100 eilučių, t.y. lentelėje bus 50 stebėjimų. Ši pasirinktis naudojama, kai reikia perskaityti dalį duomenų.

1.6 p a v y z d y s. Tarkime, kad turime tekstinę bylą, kurioje yra tokie duomenys:

Duomenys apie prekes, parduotas 2004 metais.

Prekės_pavadinimas Parduota

Prekė1 205

Prekė2 154

Prekė3 361

Duomenis pateikusio darbuotojo numeris: 1254.

Šioje byloje pirmos dvi ir paskutinė eilutė yra tekstas. Lentelę galima sukurti su tokiu Data žingsniu:

DATA prekes_2004;

INFILE ’c:\mano\prekes.txt’ FIRSTOBS=3 OBS=5;

INPUT preke $ parduota;

RUN;

Šio Data žingsnio rezultatas yra lentelė „prekes_2004“. Joje bus duomenys iš 3-5 pradinės bylos eilučių.

3) MISSOVER. Jei pradinių duomenų eilutėje yra mažiau reikšmių negu nurodyta kintamųjų INPUT sakinyje, tai pagal nutylėjimą trūkstamos reikšmės imamos iš kitos eilutės.

17

Su šia pasirinktimi yra nurodoma, kad kintamiesiems, kuriems neužteko reikšmių, turi būti priskirta praleisto stebėjimo reikšmė.

1.7 p a v y z d y s. Duoti testo rezultatai. Ne visi atliko visas užduotis, todėl vieni gavo daugiau taškų, kiti mažiau. Duomenys:

Ramunė 78 76 90 85

Rytis 66 71 83 74 72

Rasa 69 68 80


DATA testas;

INFILE ’c:\mano\taskai.txt’ MISSOVER;

INPUT vardas $ t1 t2 t3 t4 t5;

RUN;

4) TRUNCOVER pasirinktis naudojama, kai paskutinis INPUT sakinyje nurodytas kintamasis skaitomas stulpeliais arba naudojant skaitymo formatą ir eilutės pradinėje byloje yra nevienodo ilgio.

1.8 p a v y z d y s. Duota: vaiko vardas, kokį būrelį lanko:

Ramunė pramoginiai šokiai

Rytis krepšinis

Rasa dailė


DATA burelis;

INFILE ’c:\mano\bureliai.txt’ TRUNCOVER;

INPUT vardas $ burelis $ 8-26;

RUN;

5) DLM=’skirtukas’. Kai reikšmės tekstinėje byloje atskirtos ne tarpais, o kitokiais simboliais (pavyzdžiui, ’&’ ’-’ ir kt.) ir INPUT komandoje kintamieji tiesiog išvardinami (skaitymas sąrašu), tai INFILE komandoje reikia nurodyti DELIMITER=’skirtukas’ arba DLM=’skirtukas’.

1.9 p a v y z d y s. Tegu pradinėje byloje reikšmės atskirtos kableliais. Duomenys:

Ramunė,7,8,7,6

Rytis,6,6,7,8

Rasa,6,9,8,8


DATA lentele1;

INFILE ’c:\mano\rezultatai.txt’ DLM=’,’;

INPUT vardas $ t1 t2 t3 t4;

RUN;

P a s t a b a. Pagal nutylėjimą du ar daugiau vienas po kito parašyti skirtukai traktuo-jami kaip vienas skirtukas. Jei byloje yra praleistų stebėjimų ir du vienas po kito parašyti skirtukai reiškia praleistą stebėjimą, tai kartu su DLM pasirinktimi reikia naudoti ir DSD pasirinktį. Panaudojus INFILE komandoje DSD pasirinktį: 1) ignoruojami skirtukai duomenų reikšmėse, kurios yra kabutėse (jie traktuojami kaip paprasti simboliai); 2) tariama, kad kabutės nėra duomenys; 3) tariama, kad du vienas po kito parašyti skirtukai reiškia praleistą stebėjimą.

3.4. Import procedūra

IMPORT procedūra rašoma Editor lange ir skirta importuoti duomenis iš įvairaus formato bylų (Microsoft Excel, Microsoft Access, tekstinės bylos (reikšmės atskirtos

18

kableliais, Tab simboliais, kitais simboliais) ir kt.) į SAS duomenų lenteles. IMPORT procedūra atlieka tokias funkcijas: 1) skanuoja duomenų bylą ir automatiškai nustato kintamojo tipą (skaitinis ar simbolinis); 2) priskiria tinkamus ilgius simbolinio tipo kintamiesiems; 3) gali atpažinti kai kuriuos datos formatus; 4) traktuoja du vienas po kito parašytus skirtukus (simbolius, kurie atskiria reikšmes) pradinėje byloje kaip praleistą stebėjimą; 5) skaito reikšmes, parašytas kabutėse; 6) priskiria praleisto stebėjimo reikšmę kintamiesiems, kuriems neužtenka duomenų eilutėje; 7) duomenų bylos pirmoje eilutėje galima nurodyti kintamųjų vardus;

Paprasčiausia procedūros IMPORT sintaksė yra tokia:

PROC IMPORT DATAFILE=’bylos_vardas’ OUT=duomenu_lentele;

Bylos vardas nurodomas su pilnu keliu iki jos ir išplėtimu, pavyzdžiui, DATAFILE=’c:\mano\d1.txt’.

SAS nustato bylos tipą pagal išplėtimą:

Bylos tipas Išplėtimas DBMS identifikatorius Comma-delimited .csv CSV Tab-delimited .txt TAB Kitokie atskiriamieji simboliai (skirtukai)

DLM

Excel (2000 Windows) .xls Excel2000

P a s t a b a. Jei bylos išplėtimas nurodytas netiksliai arba byla yra tipo DLM, tai reikia IMPORT procedūroje naudoti pasirinktį DBMS=identifikatorius. Jei lentelė nurodytu pavadinimu jau egzistuoja ir norime ją pakeisti, tai naudojame REPLACE.

PROC IMPORT DATAFILE=’bylos_vardas’ OUT=duomenu_lentele

DBMS=identifikatorius REPLACE;

Import procedūra pagal nutylėjimą ima kintamųjų vardus iš pirmos pradinės duomenų bylos eilutės. Jei byloje kintamųjų vardų nėra, tai rašome GETNAMES=NO. Tada kintamiesiems bus priskirti vardai VAR1, VAR2 ir t.t. Jei duomenų byla yra DLM tipo, tai pagal nutylėjimą skirtukas yra tarpas. Jei skirtukas yra kitoks simbolis, tai reikia naudoti DELIMITER=’skirtukas’ pasirinktį.

PROC IMPORT DATAFILE=’bylos vardas’ OUT=duomenu_lentele

DBMS =DLM REPLACE;

GETNAMES=no;

Delimiter=’skirtukas’;

RUN;

SAS yra numatyta galimybė importuoti duomenis iš įvairaus formato bylų į SAS duomenų lentelę nerašant programinio kodo. Pagrindiniame meniu pasirenkame punktą File→Import Data. Ekrane atsiranda langas, kuriame pasirenkame bylos, iš kurios norime importuoti duomenis, tipą. Galima pasirinkti iš sąrašo standartinį formatą (Standard data source): Microsoft Excel, Microsoft Access, tekstinė byla (reikšmės atskirtos kableliais (Comma separated values), Tab simboliais (Tab delimited), kitais simboliais (Delimited)), dBASE, JMP, Lotus. Taip pat galima pasirinkti nestandartinį formatą (User-defined formats), šiuo atveju vartotojas turi daugiau galimybių valdyti duomenų importą. Pasirinkus bylos formatą, kituose languose reikia pasirinkti bylos, iš kurios importuosime duomenis, vardą, įvesti SAS lentelės, kurią norime sukurti, vardą, bei nurodyti biblioteką, kurioje norime

19

lentelę išsaugoti. Priklausomai nuo pradinių duomenų bylos formato galimos įvairios kitos pasirinktys. Pavyzdžiui, jei duomenys yra Microsoft Excel formato byloje, tai galima nurodyti, ar imti kintamųjų vardus iš pirmos eilutės, ar konvertuoti skaitinio tipo duomenis į simbolinio tipo, jei stulpelyje yra ir simbolinio, ir skaitinio tipo reikšmių ir kt.

1.10 p a v y z d y s. Tarkime, kad duomenys iš 1.8 pavyzdžio yra Excel byloje „duom1.xls“, kuri yra diske „c“. Pagrindiniame meniu pasirenkame punktą File→Import Data. Ekrane atsiranda langas, kuriame pasirenkame „Standard data source“ ir „Microsoft Excel“ (žr. 1.5 pav.).

1.5 pav. Duomenų importavimas iš Excel bylos (pirmas žingsnis)

Paspaudus mygtuką „Next“ yra atidaromas langas, kuriame reikia įvesti bylos, kurioje yra duomenys vardą (žr. 1.6 pav.).

1.6 pav. Duomenų importavimas iš Excel bylos (antras žingsnis)

Kitame lange reikia pasirinkti iš kurio Excel darbo knygos lapo imti duomenis.

1.7 pav. Duomenų importavimas iš Excel bylos (trečias žingsnis)

Paspaudus mygtuką Options galima pasirinkti (žr. 1.7 pav.): imti stulpelių vardus iš pirmos eilutės (Use data in the first row as SAS variable names), konvertuoti skaitinio tipo reikšmes į simbolinio tipo reikšmes mišraus tipo stulpeliuose (Convert numeric values to characters in a mixed types column), kintamajam skirti tiek pozicijų, kiek užima ilgiausias tekstas (Use the largest text size in a column as SAS variable length), panaudoti DATE. formatą datos / laiko stulpeliuose (Use DATE. format for a Date/Time column), panaudoti TIME. formatą, jeigu stulpelyje yra tik laiko reikšmės (Use TIME. format if only time values

20

found in a column), o taip pat galima nurodyti maksimalų simbolių skaičių stulpelyje (The largest text size allowed in a column). Importuojamoje byloje pirmoje eilutėje nėra kintamųjų vardų, todėl nuimkime pažymėjimą prie pirmos eilutės, visas kitas pasirinktis palikime. Kitame lange (žr. 1.8 pav.) reikia įvesti SAS bibliotekos vardą (library) ir SAS lentelės, kurią norime sukurti, vardą (member).

1.8 pav. Duomenų importavimas iš Excel bylos (ketvirtas žingsnis)

Paskutiniame lange galima nurodyti, kad išsaugotų procedūros IMPORT kodą (žr. 1.9 pav.).

1.9 pav. Duomenų importavimas iš Excel bylos (penktas žingsnis)

Paspaudžiame mygtuką Finish. Sukurtą lentelę galime atidaryti taip: Explorer lange paspaudžiame ikoną Libraries, tada pasirenkame biblioteką Work ir lentelę „lentele1“. Lentelė yra atidaroma Viewtable lange (žr. 1.10 pav.).

1.10 pav. Importuoti duomenys

Pradinės bylos pirmoje eilutėje nebuvo stulpelių vardų, todėl stulpeliai pagal nutylėjimą buvo pavadinti F1, F2. Stulpelių pavadinimus galima pakeisti taip, kaip buvo aprašyta 3.1 skyrelyje.

21

1.11 p a v y z d y s. Iliustruosime kaip importuoti duomenis naudojant EFI langą. Tarkime, kad turime duomenis iš 1.3 pavyzdžio byloje „duom1.txt“, kuri yra diske „c“. Pagrindiniame meniu pasirenkame punktą File→Import Data. Ekrane atsiranda langas, kuriame pasirenkame „User-defined formats“. Paspaudus mygtuką Next yra atidaromas langas, kuriame reikia įvesti bylos, iš kurios importuosime duomenis pavadinimą. Kitame lange reikia įvesti bibliotekos vardą ir duomenų lentelės, kurią norime sukurti, vardą. Paspaudus mygtuką Next yra atidaromas EFI langas (žr. 1.11 pav).

1.11 pav. Duomenų importas

Šio lango kairiajame viršutiniame kampe matome pradinius duomenis, o dešiniajame,- kaip atrodys sukurta lentelė. Kiekvienam stulpeliui galime nurodyti: stulpelio vardą (Field Name), žymę (Descriptive Label), skaitymo formatą (Informat), rašymo formatą (Format), duomenų tipą (skaitinio – character, simbolinio - numeric), poziciją nuo kurios prasideda stulpelio reikšmė (position). Paspaudus mygtuką Options atidaromas duomenų importo pasirinkčių langas (žr. 1.12 pav.), kuriame galima pasirinkti: kaip yra išdėstyti stebėjimai pradinėje byloje (One record per SAS row – pradinėje byloje kiekvienas stebėjimas atskiroje eilutėje, Multiple SAS rows per record - pradinėje byloje keli stebėjimai vienoje eilutėje); skaitymo tipą (style of input; column – skaitymas stulpeliais (žr. 3.2 II punktą), list – skaitymas sąrašu (žr. 3.2 I punktą)); su kokiais simboliais yra atskirtos reikšmės pradinėje byloje (Delimiter(s)); įrašo ilgį (Record Length); kintamųjų sukūrimo būdą (Variable creation); koks pagal nutylėjimą kintamojo tipas (Default type); pirmą duomenų eilutę (Starting record); kiek stebėjimų reikia importuoti (Number of records).

1.12 pav. Duomenų importo pasirinktys

Šiame lange pažymėkime automatinį kintamųjų sukūrimo būdą (Variable creation: Automatic), keli stebėjimai vienoje eilutėje pradinėje duomenų byloje (Multiple SAS rows per record). Paspaudę OK grįšime į ankstesnį langą. Jo viršutiniame dešiniame kampe

22

matome kaip atrodys sukurta lentelė (žr. 1.13 pav.). Galime pakeisti stulpelių pavadinimus: pažymime stulpelį ir lauke „Field name“ įvedame pavadinimą, pavyzdžiui, pažymėkime pirmą stulpelį, įveskime „Vardas“ ir paspauskime mygtuką Update, stulpelio pavadinimas pasikeis. Analogiškai galima pakeisti ir kitų stulpelių vardus. Atlikę visus pakeitimus pagrindiniame meniu pasirenkame File→Save. Duomenų importas atliktas, sukurtą lentelę galime peržiūrėti, pavyzdžiui, Viewtable lange.

1.13 pav. Duomenų importas

4. Duomenų eksportas

SAS yra numatyta galimybė duomenis iš SAS duomenų lentelės perkelti į įvairaus formato bylas (galimi tokie patys formatai kaip ir importuojant duomenis (žr.3.4 skyrelį)). Duomenų eksportui yra skirta procedūra EXPORT. Procedūra EXPORT rašoma Editor lange. Sintaksė:

PROC EXPORT DATA=duomenu_lentele OUTFILE=’bylos vardas’ REPLACE;

pavyzdžiui,

PROC EXPORT DATA=lentele OUTFILE=’c:\mano\duomenys.csv’;

Kokio formato bylą reikia sukurti yra nustatoma pagal išplėtimą. Bylos formatą galima nurodyti su DBMS=identifikatorius pasirinktimi.

Bylos tipas Išplėtimas DBMS identifikatorius Comma-delimited .csv CSV Tab-delimited .txt TAB Space-delimited DLM

P a s t a b a. „Space-delimited“ formato bylos neturi standartinio išplėtimo, todėl reikia naudoti DBMS=identifikatorius pasirinktį. REPLACE nurodo, kad bylą reikia pakeisti, jei jau yra byla tokiu pačiu pavadinimu. Jei turime SAS/ACCESS modulį, tai galima eksportuoti SAS duomenų lentelę į Microsoft Excel, Microsoft Access, dBase, Lotus bylas. Sintaksė tokia pati. SAS yra numatyta galimybė eksportuoti duomenis iš SAS duomenų lentelės į įvairaus formato bylas nerašant programinio kodo. Pagrindiniame meniu pasirenkame punktą File→Export Data. Ekrane atsiranda langas, kuriame pasirenkame formatą į kurį norime eksportuoti duomenis, SAS lentelę, kurios duomenis norime eksportuoti.

1.12 p a v y z d y s. Tarkime, kad turime duomenų lentelę „lentele“, sukurtą 1.11 pavyzdyje, eksportuosime duomenis į Excel bylą su Export procedūra. Editor lange parašome:

PROC EXPORT DATA=lentele OUTFILE=’c:\mano\duomenys.xls’;

23

Gauname tokią Excel lentelę:

vardas k1 k2 Jonas 15 16 Petras 18 20 Tadas 6 17

5. Duomenų pertvarkymo komandos

Kuriant duomenų lentelę su Data žingsniu galima tame pačiame Data žingsnyje pertvarkyti duomenis, pavyzdžiui, sukurti naujus kintamuosius, pakeisti kintamųjų reikšmes. Kintamųjų pertvarkymo komandos rašomos prieš komandą DATALINES arba po komandos INPUT, jeigu naudojama komanda INFILE:

DATA d1; DATA d1;

INPUT k1 k2; INFILE ’c:\mano.txt’;

Duomenų pertvarkymo komandos; arba INPUT k1 k2;

DATALINES; Duomenų pertvarkymo komandos;

Duomenys; RUN;

RUN;

Duomenų pertvarkymo komandos: priskyrimo sakinys, sąlyginis sakinys, ciklai.

5.1 Priskyrimo sakinys

Priskyrimo sakinys naudojamas, kai norime sukurti naują kintamąjį arba pakeisti anksčiau sukurto kintamojo reikšmę. Sintaksė:

kintamojo_vardas=reiškinys;

čia reiškinys – konstanta, kintamasis, matematinis reiškinys, funkcija; kintamasis – naujo arba seno kintamojo vardas. Jeigu nurodome naujo kintamojo vardą, tai jo tipas bus toks pats kaip ir reiškinio, nurodyto dešinėje pusėje, t.y., jei reiškinys simbolinio tipo, tai bus sukurtas simbolinio tipo kintamasis nurodytu vardu ir jam priskirta nurodyto reiškinio reikšmė; jei skaitinio, tai bus sukurtas skaitinio tipo kintamasis.

1.13 p a v y z d y s. Editor lange įveskime: DATA dd;

x=10;

sk=’du’;

y=x+1;

y=2*y;

RUN;

Pirmuoju priskyrimo sakiniu yra sukuriamas naujas skaitinio tipo kintamasis „x“ ir jam priskiriama reikšmė 10. Antruoju priskyrimo sakiniu yra sukuriamas naujas simbolinio tipo kintamasis „sk“ ir jam priskiriama reikšmė „du“. Trečiuoju priskyrimo sakiniu yra sukuriamas naujas skaitinio tipo kintamasis „y“ ir jam priskiriama reikšmė x+1, t.y. 11. Ketvirtuoju priskyrimo sakiniu yra pakeičiama anksčiau sukurto kintamojo „y“ reikšmė.

1.14 p a v y z d y s. Tarkime, kad tekstinėje byloje „c:/egzaminai.txt“ yra duomenys apie egzaminų rezultatus (numeris, trijų egzaminų rezultatai):

251 10 9 9

256 8 7 8

254 6 7 5

287 9 8 8

Reikia sukurti duomenų lentelę „rezultatai“, kurioje būtų duomenys iš pradinės tekstinės bylos bei egzaminų vidurkis. Editor lange įvedame:

DATA rezultatai;

INFILE ’c:/egzaminai.txt’;

24

INPUT numeris $ egz1 egz2 egz3; /*nurodome kintamuosius iš pradinės bylos*/

vidurkis=(egz1+egz2+egz3)/3;

RUN;

5.2. Sąlyginiai sakiniai

Paprasčiausia sąlyginio sakinio sintaksė:

IF sąlyga THEN veiksmas;

Nurodytas veiksmas atliekamas tik stebėjimams, kurie tenkina nurodytą sąlygą. Sąlygoje galima naudoti palyginimo operatorius: =, ∧= (nelygu), >, <, <=, >=, o taip pat IN operatorių:

IF kintamasis IN(’rekšmė_1’, ’reikšmė_2’,..., ’reikšmė_n’) THEN veiksmas;

sąlyga teisinga, jei kintamojo reikšmė yra reikšmių, išvardintų skliaustuose, aibėje. Jei stebėjimams, tenkinantiems nurodytą sąlygą, reikia atlikti keletą veiksmų, tai rašome:

IF sąlyga THEN DO;

veiksmas;

...

veiksmas;

END;

Galima naudoti sudėtines sąlygas:

IF sąlyga AND salyga THEN veiksmas;

IF sąlyga OR salyga THEN veiksmas;

Galima naudoti kelis sąlyginius sakinius, įdėtus vienas į kitą:

IF sąlyga THEN veiksmas;

ELSE IF sąlyga THEN veiksmas;

ELSE IF sąlyga THEN veiksmas;

ElSE veiksmas;

1.15 p a v y z d y s. Duomenų grupavimas naudojant sąlyginį sakinį. Tegu turime tokius duomenis (vienas kintamasis, septyni stebėjimai):

1.5 1.7 1.9 2.0 . 2.5 3.1

Reikia duomenis sugrupuoti į tokius intervalus: [1;2), [2;3), [3;4). Editor lange įvedame:

DATA duom1;

INPUT k1 @@;

IF k1=. THEN intervalas=.;

ELSE IF 1<=k1<2 THEN intervalas=1;



DATALINES;

1.5 1.7 1.9 2.0 . 2.5 3.1

;

RUN;

Pirmoji sudėtinio sąlyginio dalis yra skirta praleistiems stebėjimams, jeigu šios dalies nebūtų, tai gautume nekorektišką rezultatą, nes praleista reikšmė būtų priskirta pirmajam intervalui, į kurį turi patekti tik skaičiai iš intervalo [1;2), nes praleista reikšmė yra traktuojama kaip pati mažiausia reikšmė.

25

Šio Data žingsnio rezultatas yra duomenų lentelė „duom1“:

k1 intervalas

1.5 1

1.7 1

1.9 1

2.0 2

. .

2.5 2

3.1 3

Sąlyginį sakinį galima panaudoti stebėjimų poaibio išrinkimui. Jei parašysime

IF sąlyga;

tai lentelėje bus palikti tik stebėjimai, kurie tenkina nurodytą sąlygą; jei parašysime

IF sąlyga THEN DELETE;

tai tenkinantys nurodytą sąlygą stebėjimai nebus įrašomi į lentelę.

1.16 p a v y z d y s. Tegu turime duomenis iš 1.15 pavyzdžio. Editor lange įveskime:

DATA duom1;

INPUT k1 @@;

IF k1>=2;

DATALINES;

1.5 1.7 1.9 2.0 . 2.5 3.1

;

RUN;

Gautoje lentelėje bus tik tie stebėjimai, kurie tenkina sąlygą: k1>=2, t.y. tik trys stebėjimai.

1.17 p a v y z d y s. Komandos LENGTH panaudojimas su sąlyginiu sakiniu. Su komanda LENGTH galima nurodyti kiek simbolių skirti kintamajam. Nagrinėkime tokį Data žingsnį:

DATA pvz;

INFILE ’c:\duom.txt’;

INPUT numeris $ tipas;

IF tipas=1 THEN pavad=’pradinė’;

ELSE if tipas=2 THEN pavad=’pagrindinė’;

ELSE pavad=’vidurinė’;

RUN;

Ši programa veiks blogai, nes kintamojo „pavad“ ilgis yra 7 simboliai ir jo reikšmė „pagrindinė“ bus sutrumpinta iki „pagrind“, o reikšmė „vidurinė“ - iki „vidurin“. Taip atsitinka todėl, kad SAS nustato: 1) kintamasis „pavad“ yra simbolinio tipo, nes priskiriama simbolinio tipo konstanta; 2) iš to pačio sąlyginio sakinio SAS nustato, kad kintamojo „pavad“ reikšmė bus neilgesnė už 7 simbolius. Šios išvados padaromos iš priskyrimo sakinio pavad=’pradinė’, nes jame yra pirmą kartą panaudotas kintamojo „pavad“ vardas, net jeigu pradinėje duomenų byloje pirmas stebėjimas yra su reikšme „pagrindinė“ ir todėl pirmasis ELSE sakinys atliekamas pirmas, kintamojo „pavad“ ilgis vis tiek bus 7 simboliai. Vienas iš sprendimo būdų:

DATA pvz;

LENGTH pavad $10;


INPUT numeris $ tipas;

IF tipas=1 THEN pavad=’pradinė’;

ELSE if tipas=2 THEN pavad=’pagrindinė’;

ELSE pavad=’vidurinė’;

RUN;

26

5.3. Ciklai

SAS yra trijų tipų ciklai:

I) DO ciklas. Sintaksė:

DO ciklo_kintamasis=išraiška_1 <,… išraiška_n >;

SAS komandos;

END;

čia išraiška – tokio pavidalo reiškinys (arba reiškinių aibė):

pradžia <TO pabaiga> <BY žingsnis> <WHILE(reiškinys) | UNTIL(reiškinys)>

kur pradžia yra pradinė ciklo kintamojo reikšmė; pabaiga - paskutinė ciklo kintamojo reikš-mė; žingsnis – teigiamas arba neigiamas skaičius (arba reiškinys, kurio reikšmė yra skaičius), nurodantis kaip turi kisti ciklo kintamojo reikšmės; WHILE(reiškinys) nurodytas reiškinys yra tikrinamas prieš kiekvieną ciklo iteraciją ir ciklas yra atliekamas tol, kol reiškinys yra teisingas; UNTIL(reiškinys) nurodytas reiškinys yra tikrinamas po kiekvienos ciklo iteracijos ir ciklas yra atliekamas tol, kol reiškinys taps teisingas.

1.18 p a v y z d y s. a) DO numeris=’pirmas’, ’antras’, ’trečias’;

b) DO skaičius=2, 3, 5, 7;

c) n=3; DO i=n TO 1 BY -1;

d) DO i=0.1 TO 0.9 BY 0.1, 1 TO 10 BY 1, 20 TO 100 BY 10;

e) DO i=0.2 TO 0.8 BY 0.05;

f) DO i=1 TO 10 UNTIL(x<y);

g) DO i=10 TO 0 BY -1 WHILE(diena=’pirmadienis’);

1.19 p a v y z d y s. DATA dd; Rezultatas

DO i=1 TO 15; i hh

hh=i*2; 1 2

OUTPUT; 2 4

IF hh>=8 THEN i=15; 3 6

END; 4 8

RUN;

P a s t a b a. Komanda OUTPUT nurodo, kad kintamojo reikšmes reikia įrašyti į lentelę. Pagal nutylėjimą duomenys įrašomi į lentelę Data žingsnio pabaigoje. Taigi, jei cikle nepanaudosime komandos OUTPUT, tai į lentelę bus įrašytas tik paskutinės ciklo iteracijos rezultatas.

II) DO UNTIL ciklas. Sintaksė:

DO UNTIL(sąlyga);

SAS_komandos;

END;

Sąlyga yra tikrinama ciklo pabaigoje. Jei sąlyga teisinga, tai ciklo pabaiga.

1.20 p a v y z d y s. DATA duom1; Rezultatas

y=1; y

DO UNTIL(y<=8); 2

y=2*y;

END;

RUN;

III) DO WHILE ciklas. Sintaksė:

DO WHILE (sąlyga);

SAS_komandos;

END;

27

Sąlyga yra tikrinama ciklo pradžioje. Komandos atliekamos tol, kol sąlyga teisinga.

1.21 p a v y z d y s. DATA duom; Rezultatas

y=1; y

DO WHILE(y<=8); 2

y=2*y; 4

OUTPUT; 8

END; 16

RUN;

5.4. RETAIN ir sumavimo sakiniai

Pradžioje kiekvienos Data žingsnio iteracijos visiems kintamiesiems automatiškai yra priskiriama praleisto stebėjimo reikšmė. Jei kintamajam nepriskiriama reikšmė, pavyzdžiui, INPUT sakinyje arba priskyrimo sakinyje, tai jo reikšmė bus praleistas stebėjimas. Kad kintamųjų reikšmės būtų imamos iš ankstesnės Data žingsnio iteracijos galima nurodyti su RETAIN arba sumavimo sakiniu. RETAIN sakinyje nurodyto kintamojo (kintamųjų) reikšmės yra perkeliamos į kitą iteraciją, t.y. pradžioje Data žingsnio kintamajam (kintamiesiems) bus priskirta ne praleisto stebėjimo reikšmė, bet reikšmė iš prieš tai buvusios iteracijos. Ši komanda gali būti panaudota bet kurioje Data žingsnio vietoje. Sintaksė:

RETAIN kintamieji;

P a s t a b a. Nurodytiems kintamiesiems pirmoje Data žingsnio iteracijoje bus priskirta praleisto stebėjimo reikšmė.

RETAIN kintamieji pradine_reiksme;

Šis sakinys nurodo, kad visiems kintamiesiems pirmoje Data žingsnio iteracijoje turi būti priskirta nurodyta pradinė reikšmė.

Sumavimo sakinys taip pat išsaugo kintamųjų reikšmes iš ankstesnės Data žingsnio iteracijos. Jis naudojamas sumavimui. Sintaksė:

kintamasis + reiškinys;

Kiekvienoje Data žingsnio iteracijoje prie kintamojo reikšmės pridedama reiškinio reikšmė, perkeliant gautą kintamojo reikšmę į sekančią iteraciją.

P a s t a b a. Negalima rašyti minuso ženklo, reikia rašyti, pavyzdžiui, +(-B). Kintamasis turi būti skaitinio tipo ir jam automatiškai yra suteikiama pradinė reikšmė nulis.

1.22 p a v y z d y s. Duota: diena, parduotų per tą dieną prekių skaičius. Reikia sukurti lentelę, kurioje be pradinių duomenų dar būtų tokie kintamieji: maksimalus prekių, parduotų per vieną dieną, skaičius iki tos dienos imtinai, bendras parduotų prekių skaičius iki tos dienos imtinai. Editor lange parašome:

DATA pvz;

INPUT diena sk;

RETAIN sk did;

did=max(did, sk);

bendras + sk;

DATALINES;

1 2

5 10

7 5

12 15

15 7

RUN;

Gauname tokią duomenų lentelę:

28

diena sk did bendras

1 2 2 2

5 10 10 12

7 5 10 17

12 15 15 32

15 7 15 39

6. SAS duomenų lentelės keitimas

Su komanda SET Data žingsnyje galime pertvarkyti jau sukurtą SAS duomenų lentelę, t.y. galima pašalinti esančius lentelėje kintamuosius, pridėti naujus kintamuosius, išrinkti duomenų poaibius ir pan. Sintaksė:

DATA nauja_lentelė;

SET sena_lentelė;

duomenų koregavimo komandos;

RUN;

čia nauja_lentelė – lentelės, kurią norime sukurti, vardas; sena_lentelė – lentelės, kurią norime pertvarkyti, vardas; duomenų koregavimo komandos – priskyrimo sakiniai, sąlyginiai sakiniai ir pan. Jeigu po DATA ir SET nurodome tokį patį lentelės vardą, tai pakeitimai išsaugomi toje pačioje lentelėje.

1.23 p a v y z d y s. Duota lentelė „duom“, kurioje yra keturi stulpeliai: tipas, k1, k2, k3. Reikia sukurti naują lentelę, kurioje būtų visi kintamieji iš pradinės lentelės, naujas kintamasis „suma“ ir tik tie stebėjimai, kuriems tipas=’pirmas’. Editor lange parašome:

DATA nauja;

SET duom;

IF tipas=’pirmas’;

suma=k1+k2+k3;

RUN;

7. Kelių lentelių sukūrimas viename Data žingsnyje

Su komanda OUTPUT galima sukurti kelias duomenų lenteles viename Data žingsnyje. Jeigu Editor lange parašome, pavyzdžiui,

DATA d1 d2 d3;

tai bus sukurtos trys vienodas lentelės. Jeigu norime sukurti skirtingas lenteles, tai naudojame OUTPUT komandą. Komanda OUTPUT nurodo įrašyti einamojo stebėjimo kintamųjų reikšmes į kuriamą lentelę prieš grįžtant į Data žingsnio pradžią. Sintaksė:

OUTPUT lentelė;

P a s t a b a. Jeigu nenurodysime lentelės pavadinimo, tai stebėjimas bus įrašytas į visas lenteles išvardintas po žodžio DATA.

OUTPUT komanda gali būti naudojama atskirame sakinyje, sąlygos sakiniuose arba cikluose. 1.24 p a v y z d y s. Tarkime, kad turime tokius duomenis: x y

x1 a

x2 r

x3 v

x4 v

x5 a

x6 r

Reikia įrašyti duomenis į dvi lenteles: jeigu y=’a’ arba y=’r’, tai į lentelę „d1“; jeigu y=’a’ arba y=’v’, tai į lentelę „d2“. Editor lange įvedame:

29

DATA d1 d2;

INFILE ’c:/duom.txt’;

INPUT x $ y $;

IF y=’r’ THEN OUTPUT d1;

ELSE IF y=’v’ THEN OUTPUT d2;

ELSE IF y=’a’ THEN OUTPUT;

RUN;

8. Kintamųjų pašalinimo ir pervardinimo komandos

SAS visus kintamuosius, kurių vardai buvo panaudoti Data žingsnyje įrašo į duomenų lentelę. Pagalbinius kintamuosius galima panaikinti su komanda KEEP arba DROP. Jos rašomos Data žingsnyje. Sintaksė:

KEEP kintamųjų_sąrašas;

DROP kintamųjų_sąrašas;

Jei naudojame KEEP, tai duomenų lentelėje paliekami tik nurodyti kintamieji. Jei naudojame DROP, tai nurodyti kintamieji yra pašalinami iš duomenų lentelės.

P a s t a b a. Viename Data žingsnyje KEEP ir DROP naudoti negalima.

1.25 p a v y z d y s. KEEP k1 k2; /* lentelėje liks tik kintamieji k1 ir k2 */

DROP k1 k2; /* lentelėje neliks kintamųjų k1 ir k2 */

Kintamojo vardą galima pakeisti su komanda RENAME. Sintaksė:

RENAME senas_vardas=naujas_vardas;

Komandos KEEP, DROP, RENAME gali būti naudojamos bet kurioje Data žingsnio vietoje.

1.26 p a v y z d y s. Editor lange parašykime tokį Data žingsnį: DATA dd;

DO i=1 TO 10;

x=i*i; y=x+1;

OUTPUT;

END;

DROP i; RENAME y=z;

RUN;

Šio Data žingsnio rezultatas yra lentelė „dd“, kurioje bus du kintamieji „x“ ir „z“.

9. Lentelių apjungimo komandos

9.1. Lentelių apjungimas su komanda SET

Komanda SET naudojama, kai norime apjungti kelias lenteles su tais pačiais kintamaisiais, bet skirtingais stebėjimais. Sintaksė:

DATA lentelė;

SET lent_1 ... lent_n;

RUN;

čia lentelė – naujos lentelės vardas; po SET nurodome lenteles, kurias norime apjungti. Stebėjimų skaičius naujoje lentelėje lygus senų lentelių stebėjimų sumai. Stebėjimų tvarka priklauso nuo to, kaip išvardiname lenteles SET sakinyje. Jei lentelėje yra kintamasis, kuris neįeina į kitas lenteles, tai stebėjimuose iš tų lentelių to kintamojo reikšmė bus praleistas stebėjimas.

30

1.27 p a v y z d y s. Tegu turime dvi lenteles „D1“ ir „D2“: D1 D2

K1 K2 K3 K1 K2 1 A C 4 E 2 B D

Reikia sukurti naują lentelę „nauja“, kurioje būtų duomenys iš abiejų pradinių lentelių. Editor lange parašykime

DATA nauja;

SET D1 D2;

RUN;

Šio Data žingsnio rezultatas yra tokia lentelė: K1 K2 K3 1 A C 2 B D 4 E

Jei turime surūšiuotus duomenis, tai anksčiau aprašytas apjungimas išardys surūšiavimo tvarką. Galima apjungti, o paskui surūšiuoti su procedūra SORT, bet tai užima laiko. Galima daryti taip:

DATA nauja;

SET lent_1 ... lent_n;

BY kintamieji;

RUN;

Atlikus šį Data žingsnį bus sukurta nauja lentelė „nauja“ ir nebus išardyta surūšiavimo tvarka pagal kintamuosius, nurodytus po komandos BY. Lentelės „lent_1“,...,“lent_n“ turi būti surūšiuotos pagal kintamuosius, nurodytus po BY komandos.

1.28 p a v y z d y s. Tegu turime dvi lenteles „D1“ ir „D2“:

D1 D2 K1 K2 K3 K1 K2 1 A D 2 M 3 B E 6 N 5 C F

Reikia sukurti naują lentelę „nauja“, kurioje būtų duomenys iš abiejų pradinių lentelių. Editor lange parašykime

DATA nauja;

SET D1 D2;

BY K1;

RUN;

Šio Data žingsnio rezultatas yra tokia lentelė:

K1 K2 K3 1 A D 2 M 3 B E 5 C F 6 N

9.2. Lentelių apjungimas su komanda MERGE

Ši komanda naudojama Data žingsnyje. Lentelėse turi būti bent vienas bendras kintamasis pagal kurį apjungsime lenteles. Prieš naudojant komandą MERGE reikia lenteles surūšiuoti pagal bendrus kintamuosius. Sintaksė:

31

DATA nauja_lentele; /* lentelės, kuri bus sukurta, vardas */

MERGE lentele1 lentele2; /*lentelių, kurias apjungsime, vardai*/

BY kintamieji; /* kintamieji pagal kuriuos apjungsime*/

RUN;

P a s t a b a. Jei norime apjungti dvi lenteles ir jose yra kintamųjų su tais pačiais vardais (išimtis BY-kintamieji, t.y. kintamieji, nurodyti po BY), tai gautoje lentelėje tiems kintamiesiems duomenys bus iš antros nurodytos lentelės, kad neužrašytų ant viršaus prieš naudojant komandą MERGE reikia pervardinti.

1.29 p a v y z d y s. a) Tarkime, kad turime dvi lenteles: „Duom1“ ir „Duom2“. Reikia sukurti lentelę „Abi“, kurioje būtų duomenys iš abiejų pradinių lentelių. Šią užduotį galime atlikti Editor lange parašę:

DATA Abi;

MERGE Duom1 Duom2;

BY numeris;

RUN;

Duom1 Duom2 Abi Numeris Z Numeris V Numeris Z V

001 Z1 001 V1 001 Z1 V1 002 Z2 004 V2 002 Z2 004 Z3 005 V3 004 Z3 V2 005 Z4 007 V4 005 Z4 V3

007 V4

b) Tarkime, kad turime dvi lenteles: „Duom1“ ir „Duom2“. Reikia sukurti lentelę „Nauja“, kurioje būtų duomenys iš abiejų pradinių lentelių. Šią užduotį galime atlikti Editor lange parašę:

DATA Nauja;

MERGE Duom1 Duom2;

BY numeris;

RUN;

Duom1 Duom2 Nauja Numeris Z Numeris V Numeris Z V

001 Z1 001 V1 001 Z1 V1 002 Z2 001 V2 001 Z1 V2 003 Z3 002 V3 002 Z2 V3

004 V4 003 Z3 004 V4

9.3. Duomenų lentelės atnaujinimas su komanda UPDATE

Ši komanda naudojama Data žingsnyje. Komanda UPDATE naudojama, kai turime pagrindinę lentelę ir norime ją pakeisti naudodami duomenis iš kitos lentelės. P a s t a b o s. 1) Praleisti stebėjimai iš papildymų lentelės neužrašomi ant pagrindinės lentelės stebėjimų. 2) Galima nurodyti tik dvi lenteles: pagrindinę ir papildymų. 3) Abi lentelės turi būti surūšiuotos pagal bendrus kintamuosius. 4) Pagrindinėje lentelėje kintamųjų, nurodytų po BY, reikšmės turi būti skirtingos; jeigu bus kelios vienodos, tai papildymai bus pritaikyti tik pirmam stebėjimui su vienodomis reikšmėmis, o kiti bus ignoruojami. 5) Jei papildymų lentelėje yra keli stebėjimai su vienodomis kintamųjų, nurodytų po BY, reikšmėmis, tai gautoje lentelėje bus tik vienas stebėjimas ir reikšmės bus iš paskutinio papildymų lentelės stebėjimo. Sintaksė:

32

DATA pagrindinė_lentelė;

UPDATE pagrindinė_lentelė papildymų_lentelė;

BY kintamųjų_sąrašas;

RUN;

1.30 p a v y z d y s. Tarkime, kad turime dvi lenteles: „Pagrind“ ir „Papild“. Reikia atnaujinti lentelę „Pagrind“ su lentelės „Papild“ duomenimis. Editor lange parašome:

DATA pagrind;

UPDATE Pagrind Papild;

BY Numeris;

RUN;

a) Pagrind Papild Pagrind Numeris Z V Numeris Z V Numeris Z V

008 Z1 V1 011 Z2 008 Z1 V1 009 Z1 V1 012 Z2 V2 009 Z1 V1 010 Z1 V1 + 013 Z2 = 010 Z1 V1 011 Z1 V1 013 V2 011 Z2 V1 012 Z1 V1 015 Z2 V2 012 Z2 V2 013 Z1 V1 013 Z2 V2 014 Z1 V1 014 Z1 V1

015 Z2 V2

Pajuodintos tos reikšmės, kurios buvo pakeistos.

b) Pagrind Papild Pagrind Numeris Z V T Numeris Z V Numeris Z V T

008 Z1 V1 T1 009 V6 1988 Z1 V1 T1 009 Z2 V2 T2 + 012 V7 V7 = 1989 Z2 V6 T2 009 Z3 V3 T3 1989 Z3 V3 T3 011 Z4 V4 T4 1991 Z4 V4 T4

1992 Z7 V7

Pajuodintos tos reikšmės, kurios buvo pakeistos. Pagrindinėje lentelėje yra dvi vienodos kintamojo, pagal kurį apjungiame, reikšmės, tačiau pakeitimas yra atliekamas tik pirmajam stebėjimui su vienodomis reikšmėmis (žr. 4 pastabą).

10. Duomenų lentelės pasirinktys

SAS yra trys pagrindiniai pasirinkčių tipai: 1) sisteminės pasirinktys; 2) pasirinktys, naudojamos komandose; 3) duomenų lentelių pasirinktys. Sisteminės pasirinktys veikia visą SAS darbo sesijos laiką. Jas nurodome su globalia komanda OPTIONS (žr. 1 skyrelį). Pasirinktys, naudojamos komandose, veikia tik tame Data arba Proc žingsnyje, kuriame yra nurodytos. Pavyzdžiui, pasirinktis DATA=lentelė, kuri yra naudojama procedūrose, nurodo, kokią duomenų lentelę naudoti. Duomenų lentelių pasirinktys nurodo kaip duomenys skaitomi arba rašomi atskiroje duomenų lentelėje. Duomenų lentelės pasirinktis galima naudoti Data žingsnyje (su DATA, SET, MERGE arba UPDATE komandomis) arba Proc žingsnyje su DATA=lentelė pasirinktimi. Duomenų lentelės pasirinktys yra nurodomos skliaustuose po duomenų lentelės pavadinimo. Dažniausiai naudojamos tokios pasirinktys: KEEP=kintamieji palikti nurodytus kintamuosius; DROP=kintamieji išmesti nurodytus kintamuosius;

33

RENAME=(senas_kint=naujas_kint) pervardinti kintamąjį; FIRSTOBS=n pradėti skaityti nuo n-to stebėjimo OBS=n baigti skaityti n-tu stebėjimu


SET d2 (KEEP=k1 k5);

Šiuo Data žingsniu yra sukuriama lentelė „d1“, kurioje bus du kintamieji (k1 ir k5) iš lentelės „d2“.


SET d2 (RENAME=(k1=kint1 k3=kint3));

Šiuo Data žingsniu yra sukuriama lentelė „d1“, kurioje bus visi duomenys iš lentelės „d2“, tačiau kintamojo „k1“ vardas bus pakeistas į „kint1“, o kintamojo „k3“ – į „kint3“.

Yra analogiškos komandos KEEP, DROP, RENAME (žr. 8 skyrelį). Lentelėje 1.2 yra pateiktas duomenų lentelių pasirinkčių ir atitinkamų komandų palyginimas.

P a s t a b o s. 1) Jei pasirinktis panaudota su pradine lentele, tai: a) pašalintų kintamųjų negalima naudoti Data žingsnyje (skaičiavimuose ir pan.); b) komandose ir kuriamos lentelės pasirinktyse reikia naudoti naują vardą; reikia naudoti seną vardą kitose pradinės lentelės pasirinktyse. 2) Jei pasirinktis panaudota su kuriama lentele, tai: a) visus kintamuosius galima naudoti skaičiavimuose; b) reikia naudoti seną vardą programos komandose ar kitose kuriamos lentelės pasirinktyse.

1.2 lentelė. Duomenų lentelių pasirinkčių ir atitinkamų komandų palyginimas Komandos Duomenų lentelių pasirinktys taikomos tik kuriamoms lentelėms; taikomos ir pradinėms, ir kuriamoms lentelėms; veikia visas tame Data žingsnyje kuria-mas lenteles;

veikia tik atskirą lentelę;

naudojamos tik Data žingsnyje; naudojamos ir Data, ir Proc žingsniuose; rašomos bet kurioje Data žingsnio vie-toje;

rašomos iš karto po lentelės, kuriai taikomos, pavadinimo

1.33 p a v y z d y s. a) DATA d2;

SET d1 (DROP=k1 k2);

k3=2*k4;

RUN;

Pasirinktis panaudota su pradine lentele, todėl kintamųjų „k1“ ir „k2“ negalima naudoti komandose, jų nebus ir lentelėje „d2“.

b) DATA d2 (DROP=k1 k2); SET d1;

k3=2*k4;

RUN;

Pasirinktis panaudota su kuriama lentele, todėl kintamųjų „k1“ ir „k2“ nebus lentelėje „d2“, bet juos galima naudoti skaičiavimuose.

c) DATA d2 (RENAME=(x=naujas)); SET d1;

z=x+y;

RUN;

Pasirinktis panaudota su kuriama lentele, todėl skaičiavimuose naudojame seną vardą.

34

d) DATA d2; SET d1 (RENAME=(x=naujas));

z=naujas+y;

RUN;

Pasirinktis panaudota su pradine lentele, todėl skaičiavimuose naudojame naują vardą.

e) PROC PRINT data=d1 (firstobs=101 obs=120); RUN;

Nurodome, kuriuos stebėjimus spausdinti, t.y. spausdins pradedant 101 stebėjimu ir baigiant 120 stebėjimu.

11. Automatiniai kintamieji

Automatiniai kintamieji – laikini kintamieji, kurie yra sukuriami Data žingsnio metu. Jie neįrašomi į duomenų lentelę. Sukuriami automatiškai Data žingsnio metu; laikini kintamieji, neįrašomi į SAS duomenų lentelę.

Automatinis kintamasis _N_ parodo kiek kartų buvo atliktas Data žingsnis.

1.34 p a v y z d y s. Tarkime, kad turime duomenų lentelę „duom“. Šią lentelę reikia papildyti tokiu nauju kintamuoju „sk“: kintamojo reikšmė pirmiems penkiems stebėjimams turi būti lygi 1, kitiems penkiems stebėjimams reikšmė turi būti lygi 2 ir t.t. Šią užduotį galima atlikti Editor lange parašius tokią programą:

DATA duom; SET duom;

RETAIN sk 0;

IF MOD(_N_,5)=1 THEN sk=sk+1; /* funkcijos MOD rezultatas yra liekana*/

RUN; /* padalinus _N_ iš 5 */

Automatiniai kintamieji FIRST.kint ir LAST.kint yra sukuriami, kai Data žingsnyje naudojame BY komandą. Vietoje „kint“ reikia įrašyti kintamojo, nurodyto po BY, vardą. Šie kintamieji gali įgyti tik reikšmę 0 arba 1. FIRST.kint įgyja reikšmę 1, jei dirbama su stebėjimu, kuriam keičiasi BY-kintamųjų reikšmė (t.y. pirmas stebėjimas, kuriam yra nauja BY-kintamųjų reikšmė) ir reikšmę 0 kitiems stebėjimams. LAST.kint įgyja reikšmę 1 paskutinei tai pačiai BY-kintamųjų reikšmei, o kitoms bus 0.

1.35 p a v y z d y s. Tarkime, kad gaminant tam tikrą gaminį, gamybos operacija yra kartojama, jei gaminio parametrų matavimai neatitinka nustatytų normatyvų, t.y. duomenų lentelėje kai kuriems gaminiams gali būti po keletą stebėjimų. Reikia palikti tik paskutinį matavimą. Editor lange parašome:

DATA duom2;

SET duom1;

BY gaminio_nr;

IF LAST.gaminio_nr =1;

RUN;

Šiame Data žingsnyje parašytas sąlyginis sakinys nurodo, kad reikia palikti tik tuos stebėjimus, kuriems automatinio kintamojo LAST.gaminio_nr reikšmė yra 1, t.y. tik paskutinį stebėjimą kiekvienam gaminiui.

12. Kintamųjų vardų sąrašai

Išvardinant kintamuosius galima naudoti sutrumpinimus, kurie yra vadinami SAS kintamųjų vardų sąrašais. Juos galima naudoti įvairiose SAS komandose, duomenų lentelių pasirinktyse, SAS procedūrose ir pan. Tegu turime aibė kintamųjų, kurių vardai yra tokie patys išskyrus paskutinį arba kelis paskutinius simbolius, kurie yra nuosekli skaičių seka, pavyzdžiui, vardas1, vardas2,…, vardasn, kur vardas yra kintamojo vardas. Tada galime naudoti tokį sutrumpinimą: vardas1-vardasn. Pavyzdžiui, pilnas užrašymas: k5, k6, k7, k8; sutrumpinimas: k5-k8.

35

Kuriant lentelę kintamieji lentelėje yra išdėstomi tokia tvarka, kokia jie paminėti Data žingsnyje. Galima naudoti sutrumpinimus atsižvelgiant į kintamųjų išdėstymą duomenų lentelėje: x--a visi kintamieji nuo x iki a; x-numeric-a visi skaitinio tipo kintamieji nuo x iki a; x-character-a visi simbolinio tipo kintamieji nuo x iki a;

1.36 p a v y z d y s. Tarkime, kad lentelę sukūrėme su tokiu Data žingsniu:

DATA pavyzdys;


INPUT y a c $ h r;

b=a+r;

RUN;

Tada duomenų lentelėje kintamieji bus išdėstyti tokia tvarka: y, a, c, h, r, b. Editor lange parašykime: Sutrumpinimas: Pilnas užrašymas:

DATA rez1; DATA rez1;

SET pavyzdys; SET pavyzdys;

KEEP a--h; KEEP a c h;

RUN; RUN;

Atlikus šį Data žingsnį lentelėje „rez1“ bus kintamieji nuo a iki h, t.y. kintamieji a, c, h.

Editor lange parašykime:

DATA rez2;

SET pavyzdys;

DROP a-numeric-h;

RUN;

Atlikus šį žingsnį lentelėje „rez2“ nebus skaitinių kintamųjų nuo a iki h, t.y. kintamųjų a, h.


DATA rez3;

SET pavyzdys;

DROP a-character-h;

RUN;

Atlikus šį Data žingsnį lentelėje „rez3“ nebus simbolinio tipo kintamųjų nuo a iki h, t.y. kintamojo c.

P a s t a b a. Kokia tvarka kintamieji yra išdėstyti duomenų lentelėje galima pažiūrėti su procedūra CONTENTS:

PROC CONTENTS DATA=duomenų_lentelė POSITION;

RUN;

Sutrumpinimus galima naudoti funkcijose. Šiuo atveju reikia nurodyti OF, pavyzdžiui, SUM(OF kint8-kint12) – kintamųjų k8, k9, k10, k11, k12 reikšmių suma. Specialūs kintamųjų vardų sąrašai: _NUMERIC_ visi skaitinio tipo kintamieji; _CHARACTER_ visi simbolinio tipo kintamieji; _ALL_ visi kintamieji. Pavyzdžiui, SUM(OF _NUMERIC_) visų skaitinio tipo kintamųjų reikšmių suma. Tarkime, kad turime aibę kintamųjų, kurių vardai prasideda tokiais pačiais simboliais, pavyzdžiui, kaina_sausio, kaina_vasario, kaina_kovo. Tada galima naudoti tokį sutrumpi-nimą: MEAN(OF kaina:) – kintamųjų reikšmių vidurkis.

36

13. Kintamųjų masyvai

SAS kintamųjų masyvas – sutvarkyta kintamųjų grupė. Visi kintamieji turi būti to pačio tipo, t.y. arba visi skaitinio tipo, arba visi simbolinio tipo. Gali būti nauji arba anksčiau sukurti kintamieji. SAS kintamųjų masyvai yra dviejų tipų: vienmačiai ir daugiamačiai. Masyvas nėra išsaugomas duomenų lentelėje, jis yra sukuriamas tik Data žingsnio atlikimo laikotarpiui. Masyvai naudojami, kai tą patį veiksmą reikia atlikti daugeliui kintamųjų. Masyvas yra apibrėžiamas su ARRAY komanda, kuri rašoma Data žingsnyje. Sintaksė:

ARRAY masyvo_vardas {masyvo_dydis} <$> <ilgis> <kintamųjų_sąrašas>

<(pradinių_reikšmių_sąrašas)>;

Masyvo dydį galima nurodyti laužtiniuose „[ ]“, figūriniuose „{ }“ arba paprastuose skliaustuose „( )“. Masyvo vardas negali sutapti su kurio nors duomenų lentelės kintamojo vardu ar SAS rezervuotu žodžiu. Masyvo dydį galima nurodyti keliais būdais: a) nurodant elementų skaičių kiekvienoje masyvo dimensijoje.

1.37 p a v y z d y s. 1) ARRAY m(3) k1 k2 k3; apibrėžiame vienmatį masyvą, kurio vardas yra „m“ ir kuris yra sudarytas iš trijų kintamųjų k1, k2, k3. 2) ARRAY m(5,3) T1-T15; dvimatis masyvas: penkios eilutės ir trys stulpeliai, iš viso masyvą sudaro 15 kintamųjų. Kintamieji masyve yra išdėstomi tokiu būdu: užpildoma pirma eilutė iš kairės į dešinę, tada antra eilutė ir t.t. Taigi, šiame pavyzdyje kintamieji masyve bus išdėstyti tokiu būdu:

T1 T2 T3

T4 T5 T6

T7 T8 T9

T10 T11 T12

T13 T14 T15

b) nurodant kiekvienos masyvo dimensijos apatinį ir viršutinį rėžį:

{<apatinė_riba:> viršutinė_riba <,...<apatinė_riba:> viršutinė_riba>},

1.38 p a v y z d y s. 1) ARRAY mm{5,3} T1-T15; šis užrašas ekvivalentus: ARRAY mm{1:5,1:3} T1-T15; 2) ARRAY mm{0:7} T0-T7; apibrėžiame vienmatį masyvą, kurio vardas yra „mm“ ir kuris yra sudarytas iš kintamųjų T0, T1,...,T7. c) Jeigu nurodome {*}, tai masyvo dydis nustatomas suskaičiuojant kintamuosius masyve. Šis būdas naudojamas tik apibrėžiant vienmačius masyvus. Nebūtina pasirinktis „$” naudojama, kai masyvą sudarantys kintamieji yra simbolinio tipo. Pasirinktis „ilgis“ apibrėžia kintamųjų ilgį, jeigu jis nebuvo apibrėžtas anksčiau. Galima masyvo elementams priskirti pradines reikšmes. Jas reikia išvardinti skliaustuose, atskiriant tarpais arba kableliais. Masyvo elementai ir nurodytos pradinės reikšmės yra susijusios, t.y. pirmajam elementui priskiriama pirmoji nurodyta pradinė reikšmė, antrajam elementui – antroji ir t.t. Jeigu masyvo elementų yra daugiau negu nurodyta pradinių reikšmių, tai likusiems elementams priskiriama praleisto stebėjimo reikšmė. kintamajam priskirta pradinė reikšmė pakeičiama priskyrus kitą reikšmę. Pradines reikšmes galima tiesiog išvardinti arba naudoti sutrumpinimą, t.y. nurodome reikšmę ir kiek kartų ją reikia pakartoti.

1.39 p a v y z d y s. 1) ARRAY m{5} k1-k5;

2) ARRAY men{*} sausis vasaris kovas balandis;

3) ARRAY testas(4) t1 t2 t3 t4 (90 80 70 70); ekvivalentus užrašymas:

37

ARRAY testas(4) t1-t4 (90 80 2*70);

4) ARRAY x{10} x1-x10 (10*5); kintamiesiems x1,...x10 priskiriama pradinė

reikšmė 5;

5) ARRAY testas2 {*} a1 a2 a3 (’a’, ’b’, ’c’);

6) ARRAY naujas (2:5) T1-T4;

7) ARRAY testas3 {3:4,3:7} T1-T10;

Kreipinio į masyvą sintaksė:

masyvo_vardas (indeksas)

čia indeksas – skaičius, aritmetinis reiškinys.

1.40 p a v y z d y s. Tarkime, kad lentelėje yra šimtas kintamųjų: x1,...,x100. Šių kintamųjų reikšmę -1 reikia pakeisti į 0. Šį uždavinį galime atlikti su tokiu Data žingsniu:

DATA rezultatas;

SET pradiniai;

ARRAY pag(100) x1-x100;

DO i=1 TO 100;

IF pag(i)=-1 THEN pag(i)=0;

END;

DROP i;

RUN;

Šio Data žingsnio sąlyginiame sakinyje pag(i) yra kreipinys į masyvą, t.y. imamas i-tasis kintamasis.

14. SAS Procedūros

SAS procedūros yra skirtos atlikti įvairią duomenų analizę, atspausdinti duomenis, surūšiuoti ir pan. Visos procedūros prasideda žodžiu PROC, toliau rašomas procedūros pavadinimas ir įvairios pasirinktys.

1.41 p a v y z d y s. PROC CONTENTS DATA=lentelė;

čia CONTENTS yra procedūros pavadinimas. Ši procedūra pateikia informaciją apie duomenų lentelę. Nebūtina pasirinktis DATA=lentelė nurodo kokią duomenų lentelę analizuojame. Jei šios pasirinkties nenurodome, tai pagal nutylėjimą imama paskutinė sukurta lentelė, o ji nebūtinai sutampa su paskutine naudota lentele, taigi šią pasirinktį rekomenduojama naudoti, kad būtų aišku, kokia duomenų lentelė yra analizuojama. SAS yra keletas sakinių, kuriuos galima naudoti bet kurioje procedūroje. Aprašysime dažniausiai naudojamus.

BY kintamieji;

Šis sakinys yra būtinas tik procedūroje SORT, kitose procedūrose – nebūtinas. Jis nurodo, kad turi būti atlikta atskira duomenų analizė kiekvienam BY-kintamųjų reikšmių deriniui, o ne bendra visų stebėjimų analizė. Pavyzdžiui, BY mokykla; bus atlikta atskira duomenų analizė kiekvienai mokyklai.

P a s t a b a. Jei naudojame sakinį BY, tai prieš tai duomenis reikia surūšiuoti pagal kintamuosius, nurodytus po BY.

TITLE ir FOOTNOTE sakiniai. Galima nurodyti iki 10 pavadinimų ir užrašų puslapio apačioje. Pavyzdžiui, FOOTNOTE3 ‘Rezultatai’. Nurodyti pavadinimai spausdinami tol, kol nepakeičiami naujais arba nepanaikinami su sakiniu TITLE. Kai nurodome naują pavadinimą, jis pakeičia anksčiau nurodytą ir panaikina visus pavadinimus su didesniu numeriu, pavyzdžiui, naujas TITLE2 panaikina egzistuojantį TITLE3. Sintaksė:

TITLEn ’pavadinimas’;

FOOTNOTEn ’pavadinimas’;

38

čia n=2 iki 10 nurodo, kurioje eilutėje bus spausdinamas nurodytas pavadinimas.

Sakinys WHERE nurodo, kad procedūroje turi būti panaudota tik dalis lentelės duomenų. Sintaksė:

WHERE sąlyga;

Sąlygoje galima naudoti palyginimo operatorius: =, <, >, <=, >=, ^=, OR, AND, o taip pat tokius operatorius: IS NOT MISSING; pavyzdžiui, WHERE k1 IS NOT MISSING; analizuojami tik tie stebėjimai, kur k1 reikšmė nėra praleistas stebėjimas; BETWEEN AND; pavyzdžiui, WHERE k1 BETWEEN ‘reikšmė_1’ AND ‘reikšmė_2’; analizuojami tik tie stebėjimai, kur k1 reikšmė yra tarp ‘reikšmė_1’ ir ‘reikšmė_2’; CONTAINS; pavyzdžiui, WHERE k1 CONTAINS ‘ain’; analizuojami tik tie stebėjimai, kur k1 reikšmėje yra simbolių seka ‘ain’. IN (sąrašas); pavyzdžiui, WHERE k1 IN (‘reikšmė_1’, ‘reikšmė_2’, ‘reikšmė_3’); analizuojami tik tie stebėjimai, kur k1 reikšmė yra lygi kuriai nors iš nurodytų reikšmių.

1.42 p a v y z d y s. PROC PRINT DATA=mano.d1;

WHERE k1>10 AND k2 IN (011 012);

TITLE ’Pavadinimas’;

FOOTNOTE ’Prierašas’;

RUN;

Pasirinktis DATA=mano.d1 nurodo, kad spausdinsime lentelės “d1”, esančios biblio-tekoje “mano”, duomenis. Sakiniu WHERE nurodome, kad turi būti spausdinami tik stebėjimai, tenkinantys nurodytą sąlygą. Prieš duomenis bus atspausdinta “Pavadinimas”, o po duomenimis “Prierašas”.

14.1. Duomenų rūšiavimas

SAS procedūra SORT yra skirta duomenų rūšiavimui. Sintaksė:

PROC SORT DATA=lentelė OUT=lentelė_1;

BY kintamųjų_sąrašas; RUN;

DATA=lentelė pasirinktis nurodo, kokios lentelės duomenys turi būti surūšiuoti; OUT=lentelė_1 pasirinktis nurodo, į kokią lentelę turi būti įrašyti surūšiuoti duomenys; duomenys yra surūšiuojami pagal po BY nurodytus kintamuosius.

1.43 p a v y z d y s. PROC SORT DATA=pradiniai OUT=rezultatas;

BY k1 k2 k3;

RUN;

Duomenys imami iš lentelės ‘pradiniai’, surūšiuojami ir įrašomi į lentelę ‘rezultatas’. Iš pradžių surūšiuojami pagal kintamąjį k1 didėjančia tvarka, paskui vienodos k1 reikšmės surūšiuojamos pagal k2 didėjančia tvarka ir t.t.

P a s t a b a. 1) Jei nenurodome pasirinkties OUT= , tai surūšiuoti duomenys įrašomi į tą pačią lentelę. 2) Pagal nutylėjimą rūšiuojama didėjančia tvarka, jei norime mažėjančia tvarka, tai prieš kintamąjį nurodome DESCENDING. 3) Praleistas stebėjimas visada mažiausia reikšmė.

1.44 p a v y z d y s. PROC SORT DATA=pradiniai OUT=rezultatas;

BY k1 DESCENDING k2;

RUN;

39

Duomenys imami iš lentelės ‘pradiniai’, surūšiuojami ir įrašomi į lentelę ‘rezultatas’. Iš pradžių surūšiuojami pagal kintamąjį k1 didėjančia tvarka, paskui vienodos k1 reikšmės surūšiuojamos pagal k2 mažėjančia tvarka.

SAS numatyta galimybė surūšiuoti duomenis nerašant programinio kodo. Jeigu norime surūšiuoti pagal vieną kintamąjį (stulpelį), tai ant stulpelio pavadinimo paspaudžiame dešinį pelės klavišą ir iš atsiradusio kontekstinio meniu pasirenkame Sort, paskui Ascending (didėjančia tvarka) arba Descending (mažėjančia tvarka). Jeigu norime surūšiuoti pagal kelis kintamuosius arba vieną kintamąjį, reikia atidaryti lentelę, kurios duomenis norime surūšiuoti, tada pagrindiniame meniu pasirinkti Data→Sort. Atsidariusiame „Sort“ lange (žr. 1.14 pav) pasirenkame kintamuosius (arba vieną kintamąjį) pagal kuriuos norime surūšiuoti bei rūšiavimo tvarką (didėjanti arba mažėjanti). Pasirinkę Save As nurodome į kokią lentelę įrašyti rūšiavimo rezultatą.

1.14 pav. Rūšiavimo langas

Jei atidarome lentelę peržiūros režime (Browse Mode), tai surūšiuotus duomenis galime išsaugoti tik kitoje lentelėje. Jei atidarome lentelę redagavimo režime (Edit Mode), tai surūšiuotus duomenis galime išsaugoti ir toje pačioje lentelėje (apie lentelės atidarymą redagavimo ir peržiūros režime žr.3.1 skyrelyje).

1.15 pav. Papildomų rūšiavimo pasirinkčių langas

Rūšiavimo lange paspaudus Advanced mygtuką yra atidaromas langas (žr.1.15 pav), kuriame galima pasirinkti, pavyzdžiui: Equals - nurodo eilučių vietą surūšiuotoje lentelėje. Ši pasirinktis nurodo, kad eilutės su vienodomis BY-kintamųjų reikšmėmis surūšiuotoje lentelėje bus išdėstytos tokia pačia tvarka kaip ir pradinėje lentelėje; Force – nurodo surūšiuoti ir išsaugoti toje pačioje lentelėje, kai nenurodome lentelės, į kurią reikia įrašyti pakeitimus, vardo Save As lange; No duplicate keys – eliminuoja eilutes su vienodomis BY-kintamųjų reikšmėmis; No duplicate – eliminuoja eilutes su vienodomis reikšmėmis.

40

1.45 p a v y z d y s. Sukurkime duomenų lentelę „duomenys“ su tokiu Data žingsniu: DATA duomenys;

INPUT x $ y z;

DATALINES;

x5 5 8

x5 4 2

x5 4 2

x3 1 5

x2 4 3

x2 6 1

x1 2 7

;

RUN;

Surūšiuokime lentelės duomenis pagal kintamąjį x didėjančia tvarka, o paskui vienodas x reikšmės pagal kintamąjį y mažėjančia tvarka, be to panaikinkime vienodas eilutes. Atidarykime lentelę Viewtable lange. Pagrindiniame meniu pasirinkime punktą Edit→Edit Mode, o paskui Data→Sort. Atsidariusiame Sort lange į Selected lauką perkelkime kintamuosius x ir y, pažymėkime y ir Sort Order pasirinkime Descending (surūšiuoti mažėjančia tvarka). Paspauskime mygtuką Save As ir įveskime lentelės, kurioje norime išsaugoti surūšiuotus duomenis, vardą (pavyzdžiui, „rezultatas“). Paspauskime mygtuką Advanced, atsidariusiame lange pažymėkime „No duplicates“ ir paspauskime mygtuką OK, bus sukurta lentelė „rezultatas“, kurioje bus tokie duomenys:

Tokį patį rezultatą galime gauti parašę tokį kodą:

PROC SORT DATA=duomenys OUT=rezultatas NODUPRECS;

BY x DESCENDING y;

RUN;

čia NODUPRECS nurodo panaikinti vienodas eilutes; jeigu norėtume eliminuoja eilutes su vienodomis BY-kintamųjų reikšmėmis, tai reikėtų parašyti NODUPKEY.

14.2. Duomenų spausdinimas

Duomenų atspausdinimui Output lange yra skirta SAS procedūra PRINT. Jeigu Editor lange parašysime tokį Proc žingsnį:

PROC PRINT DATA=lentelė;

tai Output lange bus atspausdinti nurodytos lentelės duomenys. Jeigu Editor lange parašysime:

PROC PRINT DATA=lentelė NOOBS;

tai Output lange bus atspausdinti nurodytos lentelės duomenys, tačiau priekyje nebus spausdinamas stebėjimo numeris. Procedūroje PRINT galima naudoti sakinius: BY, WHERE, TITLE, FOOTNOTE (žr. aprašymą 14 skyrelio pradžioje). Pagal nutylėjimą spausdinami visi kintamieji ir visi stebėjimai taip, kaip jie išdėstyti lentelėje. Galime naudoti papildomus sakinius, kurie gali būti išdėstyti bet kokia tvarka:

VAR kintamieji;

ID kintamieji;

SUM kintamieji;

41

VAR sakinyje nurodome kuriuos kintamuosius spausdinti ir kokia tvarka. Jeigu nenurodytas nei VAR, nei ID sakinys, tai visi kintamieji iš lentelės spausdinami tokia tvarka kaip jie išdėstyti lentelėje. Kai panaudojame ID sakinį, tai stebėjimų numeriai nespausdinami. Kintamieji nurodyti ID sakinyje yra spausdinami kairėje puslapio pusėje. Jei panaudojame tik ID sakinį, tai visi kintamieji bus spausdinami, tik po ID nurodyti kintamieji spausdinami kairėje pusėje. Jei panaudojame ID sakinį ir VAR sakinį, tai iš pradžių spausdinami kintamieji, nurodyti po ID, o paskui kintamieji, nurodyti po VAR. Nurodžius SUM spausdinama kiekvieno nurodyto po SUM kintamojo reikšmių suma.


INPUT x y z Vardas $;

DATALINES;

23 46 5 Jonas

32 77 234 Petras

4 4 88 Tomas

;

PROC PRINT DATA=d1;

PROC PRINT DATA=d1;

ID Vardas;

VAR z y;

SUM y;

RUN;

Pirmosios procedūros PRINT rezultatas: visi kintamieji ir stebėjimai iš lentelės „d1“ atspausdinti Output lange tokia tvarka kaip jie yra išdėstyti lentelėje. Antrosios procedūros PRINT rezultatas: kintamieji z, y, Vardas iš lentelės „d1“ atspausdinti Output lange (pradžioje spausdinamos kintamojo Vardas reikšmės; spausdinama kintamojo y reikšmių suma):

Vardas z y

Jonas 5 46

Petras 234 77

Tomas 88 4

----

127

14.3 Duomenų lentelės transponavimas

Duomenų transponavimą atlieka SAS procedūra TRANSPOSE. Sintaksė:

PROC TRANSPOSE <DATA=lentelė_1> <OUT=lentelė_2> <PREFIX=simboliai>;

BY <DESCENDING> kintamasis_1 <...<DESCENDING> kintamasis_n>;

COPY kintamieji;

ID kintamieji;

IDLABEL kintamasis;

VAR kintamieji;

RUN;

čia lentelė_1 – duomenų lentelės, kurią norime transponuoti, vardas; lentelė_2 – duomenų lentelės, kurioje bus įrašyti transponuoti duomenys, vardas. PREFIX=simboliai nurodo kokiais simboliais turi prasidėti transponuotų kintamųjų vardai, pavyzdžiui, jeigu nurodome PREFIX=VAR, tai transponuotų kintamųjų vardai bus VAR1, VAR2,... Jeigu pasirinktis PREFIX=simboliai yra naudojama kartu su ID sakiniu, tai simboliai, nurodyti pasirinktyje PREFIX=simboliai yra rašomi prieš ID kintamojo reikšmes. VAR sakinyje nurodome kintamuosius, kuriuos norime transponuoti. Galime nurodyti vieną arba kelis kintamuosius. Jei VAR sakinio nenurodome, tai transponuojami visi skaitinio tipo kintamieji iš pradinės duomenų lentelės, kurie nebuvo nurodyti kituose sakiniuose. Jeigu norime transponuoti simbolinio tipo kintamuosius, tai juos reikia nurodyti VAR sakinyje.

42

Jeigu nurodome BY sakinį, tai yra suformuojamos stebėjimų grupės. Procedūra TRANSPOSE netransponuoja šių grupių, o kiekvienai grupei sukuria po vieną stebėjimą kiekvienam transponuojamam kintamajam. COPY sakinyje nurodyti kintamieji nėra transponuojami, o tiesiog perkopijuojami. Jeigu nurodome ID sakinį, tai transponuoti kintamieji bus pavadinti kintamojo, nurodyto po ID, reikšmėmis, t.y. kintamajame, nurodytame ID sakinyje, yra vardai transponuotiems kintamiesiems. Jei ID sakinio nenurodome, tai pagal nutylėjimą transponuotų kintamųjų vardai bus COL1, COL2,... Jei po ID nurodome skaitinio tipo kintamąjį, tai priekyje rašomas simbolis „_“, nes SAS kintamųjų vardai negali prasidėti skaitmeniu. IDLABEL sakinys gali būti naudojamas po ID sakinio. Jame nurodytame kinta-majame yra žymės transponuotiems kintamiesiems. IDLABEL sakinyje nurodytas kintamasis gali būti skaitinio arba simbolinio tipo.

1.47 p a v y z d y s. 1) Tarkime, kad duomenų lentelę „duom1“ sukūrėme su tokiu Data žingsniu:

DATA duom1;

INPUT pavadinimas $ k1-k10;

DATALINES;

x 2 3 4 6 4 5 8 1 7 4

y 3 2 7 7 2 5 4 4 1 8

z 4 4 8 8 9 4 5 6 7 9

;

RUN;

Reikia transponuoti lentelės „duom1“ kintamuosius k1,..., k10; vardai transpo-nuotiems kintamiesiems yra kintamajame „pavadinimas“. Editor lange parašome:

PROC TRANSPOSE DATA=duom1 OUT=rezultatas;

ID pavadinimas; VAR k1-k10;

RUN;

Pasirinktis DATA=duom1 nurodo, kad transponuoti reikia lentelę „duom1“; pasirink-tis OUT=rezultatas nurodo, kad transponuoti duomenys bus išsaugoti lentelėje „rezultatas“; transponuotų kintamųjų vardai bus kintamojo „pavadinimas“ reikšmės; sakinys VAR nurodo. kad bus transponuoti kintamieji k1,..., k10. Taigi, šio Proc žingsnio rezultatas yra duomenų lentelė „rezultatas“:

_NAME_ x y z

k1 2 3 4

k2 3 2 4

k3 4 7 8

k4 6 7 8

k5 4 2 9

k6 5 5 4

k7 8 4 5

k8 1 4 6

k9 7 1 7

k10 4 8 9

2) Tarkime, kad duomenų lentelę „duom2“ sukūrėme su tokiu Data žingsniu:

DATA duom2;

INPUT tipas $ kint1 kint2 kint3;

DATALINES;

x1 5 27 31

x1 6 16 35

x2 8 8 28

x2 2 10 7

x2 4 15 6

;

RUN;

43


PROC TRANSPOSE DATA=duom2 OUT=rezultatas;

BY tipas;

VAR kint2 kint3;

RUN;

Šio Proc žingsnio rezultatas yra tokia duomenų lentelė:

tipas _NAME_ COL1 COL2 COL3

x1 kint2 27 16 .

x1 kint3 31 35 .

x2 kint2 8 10 15

x2 kint3 28 7 6

Sukurtoje lentelėje stebėjimų skaičius (keturi stebėjimai) yra lygus BY grupių skaičiui (dvi BY grupės) padaugintam iš transponuojamų kintamųjų skaičiaus (du kintamieji). BY sakinyje nurodytas kintamasis nėra transponuojamas. Jei BY grupėse stebėjimų skaičius yra skirtingas, tai stulpeliuose, kuriems neužtenka reikšmių, bus praleisto stebėjimo reikšmė (pavyzdyje pirmoje BY grupėje yra du stebėjimai, antroje – trys stebėjimai, todėl gautoje lentelėje pirmos BY grupės stebėjimams trečiame stulpelyje yra praleistos reikšmės.

15. Rašymo formatai

Rašymo formatas nurodo kaip duomenys rodomi atidarius duomenų lentelę, spausdi-nami procedūrų rezultatuose, jį galima panaudoti duomenų grupavimui ir pan. Pavyzdžiui, 1) turime užkoduotus duomenis (pvz., amžiaus kategorijos užkoduotos skaičiais: 1 – paauglys, 2 – suaugęs, 3 – senyvo amžiaus), tokius duomenis patogu įvesti ir analizuoti, bet nepatogu, kai reikia interpretuoti rezultatus. Geriau sukurti savo rašymo formatą ir atspausdinti rezultatus su formatuotomis, o ne užkoduotomis reikšmėmis; 2) su rašymo formatu galime sugrupuoti kintamojo reikšmes. SAS yra dviejų tipų rašymo formatai: a) standartiniai; b) sukurti vartotojo (su procedūra FORMAT). Standartiniai rašymo formatai yra trijų tipų: 1) simbolinio tipo: $formatasw. 2) skaitinio tipo: formatasw.d 3) datos tipo: formatasw. čia formatas - rašymo formato vardas, w – simbolių skaičius, d – skaitmenų po kablelio skaičius.

1.48 p a v y z d y s. 1) $w. standartinių simbolinio tipo duomenų rašymo formatas (pavyzdžiui, $8.); 2) yymmddw. datos rašymo formatas (pavyzdžiui, kai w=10, tai data pavidalo 1999.01.03, o kai w=8, tai data pavidalo 99.01.03); 3) dayw. mėnesio diena (pagal nutylėjimą w=2); 4) w.d standartinių skaitinio tipo duomenų rašymo formatas (pavyzdžiui 6.2 iš viso šeši simboliai (įskaitant tašką, atskiriantį trupmeninę dalį) ir du skaitmenys po kablelio).

P a s t a b a. Pilną standartinių rašymo formatų sąrašą galima pasižiūrėti pagrindi-niame meniu pasirinkus Help→SAS Help and Documentation.

Rašymo formatas susiejamas su kintamuoju sakiniu FORMAT, pavyzdžiui, FORMAT kaina pelnas 6.2 data yymmdd8.;

P a s t a b a. FORMAT sakinys gali būti naudojamas Data arba Proc žingsnyje. Jei panaudojame DATA žingsnyje, tai rašymo formatas saugomas kartu su SAS duomenų lentele. Jei panaudojame Proc žingsnyje, tai rašymo formatas taikomas tik to Proc žingsnio rezultatams.

Galima sukurti savo rašymo formatą su procedūra FORMAT. Paskui jį galime susieti su kintamaisiais su FORMAT sakiniu.

44

Procedūros FORMAT sintaksė:

PROC FORMAT;

VALUE vardas reikšmių_aibė_1=’formatuotas_tekstas_1’

reikšmių_aibė_2=’formatuotas_tekstas_2’

...

reikšmių_aibė_n=’formatuotas_tekstas_n’;

RUN;

Gali būti keli VALUE sakiniai vienoje FORMAT procedūroje; vardas - formato vardas (negali būti ilgesnis nei 8 simboliai, negali prasidėti ir baigtis skaičiumi, negali būti specialių simbolių, negali sutapti su standartinio formato vardu, jei formatas simbolinio tipo, tai turi prasidėti „$“ simboliu); reikšmių_aibė - kintamojo reikšmė arba reikšmės, kurioms priskiriamas tekstas, esantis dešinėje lygybės pusėje.

1.49 p a v y z d y s. 1) ‘A’ = ‘aukšta’; 2) 1,3,5,7,9 = ‘nelyginis’; 3) LOW – 7.5 = ‘žemas’; 4) 13 -< 20 = ‘jaunuolis’; 5) 0<- HIGH = ‘teigiamas’; 6) OTHER=‘blogi duomenys’;

P a s t a b o s. 1) reikšmė, prie kurios parašytas ženklas „<“, neįtraukiama (1.49 pavyzdžio 4) punkte neįtraukiama reikšmė 20, o 5) neįtraukiama reikšmė 0); 2) simbolinės reikšmės turi būti kabutėse; 3) jei nurodomos kelios kintamojo reikšmės, tai jos atskiriamos kableliais, jei nurodomas reikšmių intervalas, tai naudojamas brūkšnelis; 4) LOW – mažiausia reikšmė, HIGH – didžiausia reikšmė; 5) su OTHER priskiriamas formatas reikšmėms, neišvardintoms VALUE sakinyje.

1.50 p a v y z d y s. 1) duomenų grupavimas panaudojant formatą:

PROC FORMAT;

VALUE grupavim 0 – 5 =’pirma grupė’

6 - 10 = ’antra grupė’

11 -20 = ’trečia grupė’

21 – HIGH = ’ketvirta grupė’;

Šiame pavyzdyje su procedūra FORMAT yra sukuriamas skaitinio tipo formatas „grupavim“, su kuriuo pradinius duomenis galima sugrupuoti į keturias grupes.

2) simbolinio tipo rašymo formato sukūrimo ir panaudojimo pavyzdys. Editor lange įveskime:

PROC FORMAT; VALUE $lyt_kodas ’0’=’moteris’ ’1’=’vyras’ ;

PROC PRINT DATA=pavyzdys;

FORMAT lytis $lyt_kodas.; RUN;

16. Makroprogramos

Šiame skyrelyje aptarsime tik pagrindinius makroprogramų rašymo principus. Pilną aprašymą galima pasižiūrėti pagrindiniame meniu pasirinkus Help→SAS Help and Documentation → SAS Products → SAS Macro Reference. SAS makroprogramos rašomos Editor lange. Jos dažniausiai naudojamos tada, kai tą patį veiksmą tenka atlikti ne vieną kartą. Rašant makroprogramas naudojami tokie elementai: makrokintamieji, makrokomandos. Makrokintamojo vardas prasideda simboliu „&“, o makrokomandos - simboliu „%“. Makrokintamasis nuo standartinio kintamojo skiriasi tuo, kad gali įgyti tik vieną reikšmę, jis nepriklauso jokiai duomenų lentelei ir jo reikšmė visada yra simbolinio tipo. Makrokintamojo reikšme gali būti kintamojo vardas, skaičius arba tekstas. Makroprograma gali būti sudaryta iš Data, Proc žingsnių ir makrokomandų (pavyzdžiui, %DO - %END; %IF - %THEN / %ELSE). Makrokintamieji gali būti dviejų tipų: lokalūs, globalūs. Jeigu makrokintamasis panaudotas viduje makroprogramos, tai jis vadinamas lokaliu, priešingu atveju jis vadinamas globaliu (t.y. jei jis apibrėžtas makroprogramos išorėje). Jie skiriasi tuo, kad globalius makrokintamuosius galima naudoti

45

bet kurioje programos vietoje, o lokalius tik makroprogramoje, kurioje jie yra apibrėžti. Kai kompiliuojamas programinis kodas, tai toje vietoje, kur yra makrokintamojo vardas, yra tiesiog įstatoma makrokintamojo reikšmė. Vienas iš būdų priskirti makrokintamajam reikšmę yra toks:

%LET vardas = reikšmė;

čia vardas – makrokintamojo vardas; reikšmė - makrokintamajam priskiriama nurodyta reikšmė.

1.51 p a v y z d y s. a) %LET skaicius = 1;

b) %LET diena = Pirmadienio;

Kabučių rašyti nereikia, nors b) punkte priskiriama simbolinio tipo reikšmė.

Kai norime makrokintamąjį panaudoti programoje, tai prieš jo vardą rašome simbolį „&“. Jei makrokintamojo vardą reikia panaudoti kabutėse, tai reikia rašyti dvigubas kabutes (žr. 1.51 pavyzdžio tęsinį, sakinį TITLE).

1.51 p a v y z d y s (tęsinys). Aukščiau apibrėžtus makrokintamuosius galima panaudoti, pavyzdžiui, taip:

DATA duomenys;

INFILE `c:\duom.txt`;

INPUT tipas @;

IF tipas=&skaicius;

INPUT k1-k50;

RUN;

PROC PRINT DATA=duomenys;

VAR k1-k0;

TITLE „&diena skaičiavimo rezultatai“;

RUN;

Kai makroprocesorius sukompiliuoja šį kodą, jis atrodo taip:

DATA duomenys;

INFILE `c:\duom.txt`;

INPUT tipas @;

IF tipas=1;

INPUT k1-k50;

RUN;

PROC PRINT DATA=duomenys;

VAR k1-k0;

TITLE „Pirmadienio skaičiavimo rezultatai“;

RUN;

Norint pakeisti programą, pavyzdžiui, kad spausdintų antradienio skaičiavimo rezultatus, reikia tik pakeisti makrokintamojo „diena“ reikšmę %LET sakinyje, o procedūros PRINT keisti nereikia. Šiame pavyzdyje programa yra labai trumpa, todėl ir pačioje programoje pakeitimus būtų nesunku atlikti, tačiau kai ji ilga ir pakeitimus reikia atlikti įvairiose vietose, tai makrokintamųjų panaudojimas žymiai palengvina darbą. Makroprogramos naudingos, kai dažnai reikia atlikti tą patį ar panašų veiksmą. Makroprogramos sintaksė:

%MACRO makroprogramos_vardas; /* makroprogramos pradžia */

SAS komandos /* makroprogramos tekstas;*/

%MEND makroprogramos_vardas; /* makroprogramos pabaiga */

Kreipinys į makroprogramą:

% makroprogramos_vardas;

Dažniau yra naudojamos makroprogramos su parametrais. Parametrai yra makrokintamieji, kurių reikšmes nurodome, kai kreipiamės į makroprogramą. Sintaksė:

46

%MACRO vardas(parametras_1= , parametras_2= , parametras_n= );

makroprogramos_tekstas;

%MEND vardas;

čia vardas – makroprogramos vardas.

1.52 p a v y z d y s. Tegu turime duomenų lentelę „duomenys“, kurioje yra duomenys apie vienos sesijos metu studentų išlaikytus egzaminus. Lentelėje yra tokie kintamieji: studento pažymėjimo numeris (nr), kursas (kursas), grupė (grupe), disciplina (dalykas), įvertinimas (ivertinimas), čia skliaustuose yra nurodyti stulpelių vardai. Parašykime makroprogramą, kuri atspausdintų norimo kurso studentų tam tikros disciplinos įvertinimus, surūšiuotus pagal pasirinktą kintamąjį.

%MACRO rezultatai(kurso_nr=, dalyko_pav=, sur_kint=);

PROC SORT DATA=duomenys OUT=pagalbine;

BY &sur_kint;

WHERE kursas=&kurso_nr and dalykas=“&dalyko_pav“;

PROC PRINT DATA = pagalbine;

TITLE "&kurso_nr kurso egzamino rezultatai, disciplina: &dalyko_pav";

%MEND rezultatai;

%rezultatai(kurso_nr=2, dalyko_pav=informatika, sur_kint=grupe);

%rezultatai(kurso_nr=1, dalyko_pav=geometrija, sur_kint=ivertinimas);

RUN;

Pirmojo kreipinio į makroprogramą rezultatas yra Output lange atspausdinti duomenys (surūšiuoti pagal kintamojo „grupė“ reikšmes) apie antro kurso studentų informatikos egzamino rezultatus. Antrojo kreipinio į makroprogramą rezultatas yra Output lange atspausdinti duomenys (surūšiuoti pagal kintamojo „ivertinimas“ reikšmes) apie pirmo kurso studentų geometrijos egzamino rezultatus.

Sąlyginės makrokomandos naudojamos tik makroprogramose. Jos skiriasi nuo paprastų sąlyginių sakinių tuo, kad veiksmas, kuris atliekamas, jeigu sąlyga teisinga, gali susidėti iš pilnų Proc arba Data žingsnių. Sintaksė:

%IF sąlyga %THEN veiksmas;

%ELSE %IF sąlyga %THEN veiksmas;

%ELSE veiksmas;

Jei stebėjimams, tenkinantiems nurodytą sąlygą, reikia atlikti keletą veiksmų, tai rašome:

%IF sąlyga %THEN %DO;

veiksmas;

veiksmas;

%END;

Makroprogramose galima naudoti automatinius makrokintamuosius, paminėsime keletą (pilną sąrašą galima rasti pagrindiniame meniu pasirinkus Help→SAS Help and Documentation → SAS Products → SAS Macro Reference):

Makrokintamojo vardas Aprašymas &SYSDATE SAS sesijos darbo pradžios data; &SYSDAY savaitės diena (žodis, anglų kalba); &SYSLAST paskutinės sukurtos lentelės vardas tokiu pavidalu: biblioteka.lentelė.

1.53 p a v y z d y s. Tarkime, kad lentelėje „duomenys“ turime tokius duomenis: data (metai, mėnuo, diena), prekės pavadinimas (kintamojo vardas – prekes_pavadinimas), parduotų vienetų skaičius (kintamojo vardas - parduota). Darbuotojas kiekvieną dieną turi atspausdinti kiek kokių prekių buvo parduota tą dieną, o trisdešimtą kiekvieno mėnesio dieną turi atspausdinti kiek kiekvieno tipo prekių buvo parduota per tą mėnesį. Galime parašyti tokią makroprogramą:

47

%macro ataskaita;

%LET diena=%sysfunc(day("&sysdate"D));

%LET menuo=%sysfunc(month("&sysdate"D));

%if &diena=30 %then

%do;

title 'Menesio suvestine';

proc sort data=duomenys; BY prekes_pavadinimas;

proc means data=duomenys sum;

var parduota; BY prekes_pavadinimas;

WHERE &menuo= month(data);

run;

%end;

%else

%do;

title 'Dienos duomenys';

proc sort data=duomenys; BY prekes_pavadinimas;

proc print data=duomenys noobs;

var parduota; BY prekes_pavadinimas;

WHERE &diena= day(data) and &menuo= month(data); run;

%end;

%mend ataskaita;

%ataskaita;

Su komanda CALL SYMPUT galima reikšmę iš Data žingsnio priskirti makrokintamajam ir šį makrokintamąjį naudoti tolesniuose žingsniuose. Sintaksė:

CALL SYMPUT("vardas", reikšmė);

čia vardas yra naujo arba anksčiau sukurto makrokintamojo vardas; reikšmė - kintamojo vardas arba konstanta (simbolinio arba skaitinio tipo), parašyta kabutėse. CALL SYMPUT dažnai naudojama su sąlyginiu sakiniu IF-THEN, pavyzdžiui,

1.54 p a v y z d y s.

IF Dydis>=10 THEN CALL SYMPUT(”Tipas”, ”T1”);

ELSE CALL SYMPUT(”Tipas”, ”T0”);

Šiuo sakiniu makrokintamajam Tipas priskiriama reikšmė T1 arba T0, priklausomai nuo kintamojo Dydis reikšmės.

IF Suma<10 THEN CALL SYMPUT(”Tipas”, Kint1);

Šiuo sakiniu makrokintamajam Tipas priskiriama kintamojo Kint1 reikšmė, kai Suma mažesnė už 10.

P a s t a b a. Negalima sukurto su CALL SYMPUT komanda makrokintamojo panau-doti tame pačiame Data žingsnyje, nes reikšmė makrokintamajam yra priskiriama tik Data žingsnio pabaigoje.

48

II skyrius. SPECIALIOS FUNKCIJOS

SAS yra realizuota apie 450 įvairių funkcijų. Jas pagal paskirtį galima suskirstyti į tokias grupes (žr. [9]): 1) matematinės funkcijos (mathematical functions); 2) skaitinių charakteristikų funkcijos (descriptive characteristics functions); 3) funkcijos, skirtos įvairių tikimybinių skirstinių tankio, skirstinio funkcijų reikšmių apskaičiavimui (probability functions); 4) kvantilių funkcijos (quantile functions); 5) atsitiktinių dydžių modeliavimo funkcijos (random numbers functions); 6) simbolinio tipo duomenų funkcijos (character functions); 7) datos ir laiko funkcijos (date and time functions); 8) masyvų funkcijos (array functions); 9) finansinės funkcijos (financial functions); 10) funkcijos, skirtos darbui su išorinėmis bylomis (external files); 11) funkcijos, naudojamos makroprogramose (macro functions); 12) SAS bylų įvesties/išvesties funkcijos (SAS files I/O); 13) funkcijos, suteikiančios informacijos apie kintamuosius (variable information); 14) interneto funkcijos (Web tools functions). SAS funkcijos dažniausiai naudojamos Data žingsnio priskyrimo, sąlyginiuose sakiniuose cikluose, Proc žingsnio WHERE sakinyje. Visų funkcijų sintaksė yra tokia pati:

vardas(argumentas_1 <,... argumentas_n>)

vardas(OF kintamųjų_sąrašas)

vardas(OF masyvo_vardas {*})

čia vardas – yra funkcijos pavadinimas; argumentas – kintamojo vardas, konstanta, funkcija, reiškinys; argumentai atskiriami kableliais.

2.1 p a v y z d y s. 1) x=SQRT(25); šiame pavyzdyje funkcijos argumentas yra skaitinio tipo konstanta; funkcijos SQRT reikšmė yra kvadratinė šaknis iš argumento; 2) IF MEAN(t1,t2,t3)>8 THEN lygis=1; šiame pavyzdyje funkcijos argumentai yra kintamųjų vardai; funkcijos MEAN reikšmė yra argumentų vidurkis; 3) vardas=UPCASE(vardas); šiame pavyzdyje funkcijos argumentas yra kintamojo vardas; šiuo priskyrimo sakiniu yra pakeičiama kintamojo „vardas“ reikšmė (visos mažosios raidės pakeičiamos didžiosiomis); 4) y=SUM(2*suma1, suma2+suma3); šiame pavyzdyje funkcijos argumentai yra reiškiniai; funkcijos SUM reikšmė yra argumentų suma.

Kintamųjų sąrašas – bet kokio tipo kintamųjų vardų sąrašas (žr. I sk.,12 skyrelį), tame tarpe ir atskiri kintamųjų vardai, pavyzdžiui,

y=SUM(OF x1-x5); y=SUM(OF x1-x5, y1-y5);

Masyvo_vardas{*} – anksčiau apibrėžto masyvo vardas (I sk., žr.13 skyrelį); imami visi masyvo elementai, pavyzdžiui,

ARRAY xx{5} x1-x5; z=MEAN(OF xx{*});

Šiame skyriuje pateikiamas matematinių, tikimybinių, kvantilių, atsitiktinių dydžių modeliavimo, skaitinių charakteristikų funkcijų aprašymas ir funkcijų naudojimo pavyzdžiai, o taip pat aptariamos kai kurių simbolinio tipo duomenų, datos ir laiko, masyvų funkcijų panaudojimo galimybės. Pilną SAS funkcijų sąrašą ir jų aprašymą galima pasižiūrėti pagrindiniame meniu pasirinkus Help→SAS Help and Documentation.

49

1. Matematinės funkcijos

SAS matematines funkcijas galima suskirstyti į tokias grupes: 1) standartinės, pavyz-džiui, skaičiaus modulis, logaritmas, šaknis; 2) specialios, pavyzdžiui, gama, beta; 3) trigo-nometrinės, 4) hiperbolinės; 5) skaičių apvalinimo. 2.1 lentelėje yra pateiktos SAS realizuotos matematinės funkcijos ir jų aprašymai, o 2.2 lentelėje – funkcijų panaudojimo pavyzdžiai.

2.1 lentelė. Matematinės funkcijos Sintaksė Aprašymas

Standartinės ir specialios matematinės funkcijos

ABS(x) x modulis. AIRY(x)

Airy funkcija, t.y. sprendinys diferencialinės lygties: 0)2( =− ωω x su sąlygomis

)3/2(3

1)0(

3/2 Γ=ω ir .

)3/1(3

1)0(

3/1 Γ−=′ω

BETA(a,b) Beta funkcija: .0,0,)1(),(

1

0

11 >>−= ∫−−

badxxxbabaβ

CNONCT(x,n,p)

Rezultatas yra neneigiamas necentriškumo parametras chi-kvadrato skirstinio, kurio parametrai yra x, n, λ, čia 0≥x – taškas kuriame skaičiuojama, n>0 – laisvės laipsniai, λ - necentriškumo parametras, 0<p<1 – tikimybė, t.y. apskaičiuojamas

neneigiamas λ: ,0),|( =− pnxPc λ čia ,22!

)2/(),|(

0

2/ ∑∞

=

−

+=

jg

j

cj

nxP

jenxP

λλ λ

kur )|( axPg yra gama skirstinio tikimybė: .)(

1)|(

0

1∫

−−

Γ=

xta

g dteta

axP

COMB(n,r)

Galimų derinių skaičius, kai iš n elementų išrenkama r elementų ( nr ≤ ), t.y.

.)!(!

!

rnr

n

r

n

−=

CONSTANT(konst) Nurodytos konstantos „konst“ reikšmė; =π CONSTANT(′PI′); =e CONSTANT(′E′); CONSTANT(′EULER′) – Eulerio konstanta.

DAIRY(x) Airy funkcijos išvestinės reikšmė taške x. DIGAMMA(x) ),(/)()( xxx ΓΓ′=Ψ čia Γ - gama funkcija, Γ′ - gama funkcijos išvestinė;

apribojimas: x negali būti neigiamas sveikas skaičius arba nulis. ERF(x) .

2)(

0

2

∫−=

xz

dzexERFπ

EXP(x) xe .

FACT(n) n faktorialas (n - neneigiamas sveikas skaičius): n! FNONCT(x,m,n,p)

Rezultatas yra neneigiamas necentriškumo parametras F skirstinio, kurio parametrai yra x, m, n, λ, čia 0≥x – taškas kuriame skaičiuojama, m>0 – skaitiklio laisvės laipsniai, n>0 – vardiklio laisvės laipsniai, λ - necentriškumo parametras, 0<p<1 – tikimybė, t.y. apskaičiuojamas neneigiamas λ: ,0),,|( =− pnmxPf λ čia

,2

,2!

)2/(),,|(

0

2/ ∑∞

= +

−

+=

jnm

mx

j

fn

jn

Ij

enmxPλ

λ λ kur

.)1()()(

)(),(

0

11∫

−− −ΓΓ

+Γ=

xba

x dtttba

babaI

GAMMA(x) ,)(

0

1∫∞

−−=Γ dtetxtx apribojimas: x negali būti neigiamas sveikas skaičius arba nulis.

LGAMMA(x) Gama funkcijos natūrinis logaritmas; apribojimas: x teigiamas. LOG(x) Natūrinis logaritmas; apribojimas: x teigiamas. LOG10(x) Logaritmas pagrindu 10; apribojimas: x teigiamas. LOG2(x) Logaritmas pagrindu 2; apribojimas: x teigiamas.

50

2.1 lentelės tęsinys. Matematinės funkcijos Sintaksė Aprašymas

MOD(arg1, arg2) Liekana padalinus arg1 iš arg2; rezultato ženklas toks pats kaip arg1, arg2 ženklas ignoruojamas

PERM(n,r) ,

)!(

!),(PERM

rn

nrn

−= n ir r neneigiami sveiki skaičiai ( nr ≤ ).

SIGN(x)

>

=

<−

=

.0jei,1

;0jei,0

;0jei,1

)(SIGN

x

x

x

x

SQRT(x) ,x x - neneigiamas skaičius.

TNONCT(x,n,p)

Rezultatas yra neneigiamas necentriškumo parametras Stjudento T skirstinio, kurio parametrai yra x, n, λ, čia 0≥x – taškas kuriame skaičiuojama, n>0 – laisvės laipsniai, λ - necentriškumo parametras, 0<p<1 – tikimybė, t.y. apskaičiuojamas neneigiamas λ: ,0),|( =− pnxPt λ čia

.)2/(

1),|(

/22/)(

0

12/ 2dudveev

nnxP

nvxuvn

t ∫∫∞−

−−−∞

−

Γ= λλ

TRIGAMMA(x) Digama funkcijos išvestinė; apribojimas: x negali būti neigiamas sveikas skaičius arba nulis.

Trigonometrinės funkcijos

ARCOS(x) Arckosinusas; apribojimas: .11 ≤≤− x ARSIN(x) Arcsinusas; apribojimas: .11 ≤≤− x ATAN(x) Arctangentas; apribojimas: .11 ≤≤− x COS(x) Kosinusas. SIN(x) Sinusas. TAN(x) Tangentas. Hiperbolinės funkcijos

COSH(x) Hiperbolinis kosinusas: .2/)( xxee

−+

SINH(x) Hiperbolinis sinusas: .2/)( xxee

−−

TANH(x) Hiperbolinis tangentas: )./()( xxxxeeee

−− +−

Apvalinimo funkcijos

CEIL(x) Mažiausias sveikas skaičius, kuris yra didesnis arba lygus x. FLOOR(x) Didžiausias sveikas skaičius, kuris yra mažesnis arba lygus x. INT(x) Sveikoji x dalis. ROUND(x, <,u>) Apvalina x iki u, jei u nenurodome, tai apvalina iki sveiko skaičiaus.

2.2 lentelė. Matematinių funkcijų panaudojimo pavyzdžiai. Pavyzdys Rezultatas Pavyzdys Rezultatas

X=ABS(-2); X=2 X=ABS(5); X=5; tik1=cdf ('chisquare', 3.1, 5, 2); nc1=cnonct (3.1, 5, prob1);

tik1=0.1698178 nc1=2

nc2=cnonct (3.1, 5, 0.2); nc2=1.479592

Y=GAMMA(-1.5); Y=2.3632718 Y=GAMMA(2); Y=1 X=MOD(10,2); X=0 X=MOD(-12,-5); X=-2 X=LOG(5); X=1.6094379 X=LOG(EXP(1)); X=1 X=CEIL(-2.4); X=-2 X=CEIL(2.01); X=3 X=FLOOR(-2.4); X=-3 X=FLOOR(2.01); X=2 X=INT(4.7); X=4 X=INT(-3.2); X=-3 X=ROUND(12.65); X=13 X=ROUND()12.65, 0.1); X=12.7

51

2. Skaitinių charakteristikų funkcijos

2.3 lentelėje pateikiamos SAS realizuotos skaitinių charakteristikų funkcijos. Dau-gumą šių skaitinių charakteristikų galima apskaičiuoti ir su procedūra MEANS, skaičiavimo metodas toks pats (žr. III sk., 2 skyrelį). Skirtumas tas, kad su funkcija galima apskaičiuoti nurodytų reikšmių skaitinę charakteristiką, o su procedūra – kintamojo (stulpelio) nurodytų reikšmių skaitinę charakteristiką. 2.4 lentelėje pateikiami funkcijų panaudojimo pavyzdžiai. P a s t a b a. Skaičiuojant imamos tik nepraleistos argumentų reikšmės.

2.3 lentelė. Skaitinių charakteristikų funkcijos Sintaksė Aprašymas

CSS(argumentas1, argumentas2,...) Koreguota kvadratų suma. CV(argumentas1, argumentas2,...) Variacijos koeficientas. GEOMEAN(argumentas1, argumentas2,...)

Geometrinis vidurkis: ,*...** 21n

nxxx čia n – skaičius argu-

mentų, kurių reikšmė nėra praleistas stebėjimas, o nxx ,...,1 tų

argumentų reikšmės; argumentas – neneigiama konstanta, kinta-masis, reiškinys.

HARMEAN(argumentas1, argumentas2,...)

Harmoninis vidurkis: ),.../( 112

11

−−− +++ nxxxn čia n – skaičius

argumentų, kurių reikšmė nėra praleistas stebėjimas, o nxx ,...,1

tų argumentų reikšmės; argumentas – neneigiama konstanta, kintamasis, reiškinys.

IQR(argumentas1, argumentas2) Tarpkvartilinis plotis. KURTOSIS(argumentas1, argumentas2,...) Eksceso koeficientas. LARGEST(K, reikšmė1, reikšmė2,...) K-toji didžiausia nepraleista reikšmė; K ir nurodytos reikšmės

gali būti: skaitinė konstanta, kintamasis, reiškinys. MAX(argumentas1, argumentas2,...) Didžiausia reikšmė. MEAN(argumentas1, argumentas2,...) Aritmetinis vidurkis (vidutinė reikšmė). MEDIAN(argumentas1, argumentas2,...) Mediana (vidurinė reikšmė). MIN(argumentas1, argumentas2,...) Mažiausia reikšmė. MISSING(skaitinio_tipo_reiškinys | simbolinio_tipo_ reiškinys)

skaitinio_tipo_reiškinys – apibrėžia skaitinio tipo duomenis; simbolinio_tipo_ reiškinys – simbolinio tipo kintamojo vardas arba reiškinys, kurio reikšmė yra simbolinio tipo; ši funkcija tikrina skaitinio arba simbolinio tipo reiškinį ir įgyja reikšmę 1, jei reikšmė praleista, reikšmę 0, jei nepraleista.

N(argumentas1, argumentas2,...) Nepraleistų reikšmių skaičius. NMISS(argumentas1, argumentas2,...) Praleistų reikšmių skaičius. ORDINAL(K, reikšmė1, reikšmė2,...) K-oji pozicinė statistika (K-tas variacinės eilutės narys ); skai-

čiuoja ir praleistas reikšmes. PCTL<n>(p, reikšmė1, reikšmė2,...) p-tas procentilis ( 1000 ≤≤ p ), n – procentilių apskaičiavimo

metodo numeris (n=1,2,…,5). RANGE(reikšmė1, reikšmė2,...) Skirtumas tarp didžiausios ir mažiausios reikšmės. RMS(argumentas1, argumentas2,...)

nxxx n /)...( 222

21 +++ čia n – skaičius argumentų, kurių

reikšmė nėra praleistas stebėjimas, o nxx ,...,1 tų argumentų

reikšmės; argumentas – neneigiama skaitinio tipo konstanta, kintamasis, reiškinys.

SKEWNESS(argumentas1,argumentas2,...) Asimetrijos koeficientas. SMALLEST(K, reikšmė1, reikšmė2,...) K-toji mažiausia nepraleista reikšmė; K ir nurodytos reikšmės

gali būti: skaitinė konstanta, kintamasis, reiškinys. STD(argumentas1, argumentas2,...) Standartinis nuokrypis STDERR(argumentas1, argumentas2,...) Standartinė vidurkio paklaida. SUM(argumentas1, argumentas2,...) Nepraleistų reikšmių suma. USS(argumentas1, argumentas2,...) Nekoreguota kvadratų suma. VAR(argumentas1, argumentas2,...) Dispersija.

52

2.4 lentelė. Skaitinių charakteristikų funkcijų panaudojimo pavyzdžiai. Pavyzdys Rezultatas Pavyzdys Rezultatas

Y=GEOMEAN(2, . , 1); Y=1.4142 Y=GEOMEAN(2, 5, 6); Y=3.9149 Y=LARGEST(2, 5, 4, . , 6); Y=5 Y=SMALLEST(1, 5, 4, . , 6); Y=4 Y=MEAN(1, . , 4); Y=2.5 X=5;

Y=MEAN(2*5, X, X-2); Y=4

X1=1; X2=. ; X3=. ; Y=MISSING(X1+X2+X3);

Y=1 X1=2; X2=3; X3=1; Y=MISSING(X1+X2+X3);

Y=0

X1=2; X2=. ; X3=1; Y=N(OF X1-X3);

Y=2 Y=N(2, . , 3); 2

X1=5; X2=. ; X3=. ; X4=4; X5=6; Y=ORDINAL(2, OF X1-X5);

Y=. X1=5; X2=. ; X3=. ; X4=4; X5=6; Y=ORDINAL(4, OF X1-X5);

Y=5

Y=SUM(2, 3, .); Y=5 Y=SUM(MEAN(1, 3), MEAN (4, 5)); Y=6.5

3. Tikimybinių skirstinių funkcijos

SAS yra numatyta galimybė įvairiems tikimybiniams skirstiniams apskaičiuoti tokių funkcijų reikšmes: 1) skirstinio funkcija (cumulative distribution function); 2) tankio funkcija (probability density (mass) function); 3) išgyvenimo funkcija (survival function). Skirstinio funkcijos rekšmėms apskaičiuoti yra skirta funkcija CDF, tankio funkcijos reikšmėms – funkcija PDF, o išgyvenimo funkcijos reikšmėms funkcija SDF (S(x)=1-F(x), čia F – skirstinio funkcija, o S – išgyvenimo funkcija). Visų šių funkcijų sintaksė yra tokia pati:

CDF(’skirstinys’, argumentas <, parametras_1,...,parametras_k>)

PDF(’skirstinys’, argumentas <, parametras_1,...,parametras_k>)

SDF(’skirstinys’, argumentas <, parametras_1,...,parametras_k>)

čia skirstinys – žodis, identifikuojantis skirstinį; galimi skirstiniai yra pateikti 2.5 lentelėje; argumentas – taškas, kuriame norime apskaičiuoti funkcijos reikšmę; parametras_1, ..., parametras_k – yra nebūtini formos, padėties, mastelio parametrai.

2.6 lentelėje pateikiama funkcijos CDF sintaksė įvairių skirstinių atveju. Funkcijų PDF ir SDF sintaksė analogiška.

2.5 lentelė. Skirstinius identifikuojantys raktiniai žodžiai Skirstinio pavadinimas Raktinis žodis Skirstinio pavadinimas Raktinis žodis Bernulio ’BERNOULLI’ Logistinis ’LOGISTIC’ Beta ’BETA’ Lognormalusis ’LOGNORMAL’ Binominis ’BINOMIAL’ Neigiamas binominis ’NGBINOMIAL’ Koši ’CAUCHY’ Normalusis ’NORMAL’ Chi-kvadrato ’CHISQUARE’ Normalių mišinys ’NORMALMIX’ Eksponentinis ’EXPONENTIAL’ Pareto ’PARETO’ Fišerio ’F’ Puasono ’POISSON’ Gama ’GAMMA’ Stjudento ’T’ Geometrinis ’GEOMETRIC’ Tolygus ’UNIFORM’ Hipergeometrinis ’HYPERGEOMETRIC’ Valdo (atvirkštinis Gauso) ’WALD’|’IGAUSS’

Laplaso ’LAPLACE’ Veibulo ’WEIBULL’

53

2.6 lentelė. CDF funkcijos sintaksė Skirstinys CDF funkcija (skirstinio funkcija)

Bernulio

CDF(’BERN’,x,p)=

≥

<≤−

<

.1,1

,10,1

,0,0

x

xp

x

čia 10 ≤≤ p sėkmės tikimybė;

Beta

CDF(’BETA’,x,a,b, l,r)=

>

≤<−

−−≤

∫ −+

−−

;,1

,,)(

)()1(

),(

1

,1,0

1

11

rx

rxldxlr

xrx

ba

xx

lba

ba

β

čia a>0, b>0, r>l; parametrai r ir l nebūtini (pagal nutylėjimą l=0, r=1),

,)(

)()(),(

ba

baba

+Γ

ΓΓ=β ∫

∞−−=Γ

0

1)( dxexaxa ;

Binomial CDF(’BINOM’,m,p,n)= ∑

=

−−

m

j

jnjpp

i

n

0,)1( čia m=0,1,...,n – sėkmių skaičius,

10 ≤≤ p sėkmės tikimybė, n=0,1,... – nepriklausomų Bernulio eksperimentų

skaičius; Koši

CDF(’CAUCHY’,x,θ,λ)= ,tan1

2

1 1

−+ −

λθ

πx

parametrai θ, λ>0 nebūtini (pagal

nutylėjimą θ=0, λ=1); Chi-kvadrato

CDF(’CHISQ’,x,ν,λ)= ,)2,(!

)2/(

0

2/∑∞

=

− +j

c

j

jxPj

e νλλ x>0; čia ν >0 – laisvės

laipsniai, 0≥λ - nebūtinas necentriškumo parametras, jei parametro λ nenurodome, tai centrinis chi-kvadrato skirstinys;

)2/,2/(),( axPaxP gc = - centrinio chi-kvadrato skirstinio tikimybė;

∫−−

Γ=

ybv

g dvveb

byP

0

1

)(

1),( - gama skirstinio tikimybė;

Eksponentinis CDF(’EXPO’,x,λ)= ,1 / λxe

−− ,0≥x 0>λ - nebūtinas parametras (pagal nutylėjimą 1=λ ) ;

Fišerio CDF(’F’,x, ,1v ,2v λ)= ,),2,(

!

)2/(

021

2/∑∞

=

− +j

f

j

vjvxPj

eλλ ,0≥x čia 01 >v –

skaitiklio laisvės laipsniai, 02 >v – vardiklio laisvės laipsniai, 0≥λ - nebūtinas

necentriškumo parametras, jei parametro λ nenurodome, tai centrinis Fišerio skirstinys;

)2/,2/),/((),,( 2121121 uuuxuxuPuuxP Bf += - centrinio Fišerio skirstinio tiki-

mybė; ),,( baxPB - standartinio beta skirstinio tikimybė;

Gama CDF(’GAMMA’,x,a,λ)= ,

)(

1

0

/1∫

−−

Γ

xva

advev

a

λ

λ ,0≥x čia 0>a , 0>λ -

nebūtinas parametras (pagal nutylėjimą 1=λ ); Geometrinis

CDF(’GEOM’,m,p)= ,)1(0

∑≤

=−

mj

j

jpp čia ,...1,0=m , 10 ≤≤ p sėkmės tikimybė;

Hipergeometrinis

CDF(’HYPER’,x,N,R,n,o)= ,),min(

),0max(

0

∑

∑

−+=

=

−

−

−

−

nR

NnRj

j

x

i

i

ojn

RN

j

R

oin

RN

i

R

čia

),,min(),0max( nRxNnR <<−+ ...2,1=N - populiacijos dydis, NR ,...1,0= -

elementų, turinčių dominančią savybę skaičius, Nn ,...1= - imties dydis, o>0 – nebūtinas parametras;

54

2.6 lentelės tęsinys. CDF funkcijos sintaksė Skirstinys CDF funkcija (skirstinio funkcija)

Laplaso

CDF(’LAPLACE’,x,θ,λ)=

≥−

<

−−

−

,0,2

11

,0,2

1

/)(

/)(

xe

xe

x

x

λθ

λθ

čia θ ir 0>λ - nebūtini

parametrai (pagal nutylėjimą ,0=θ 1=λ );

Logistinis CDF(’LOGISTIC’,x,θ,λ)=

λθ /)(1

1−−+ x

e čia θ ir 0>λ - nebūtini parametrai

(pagal nutylėjimą ,0=θ 1=λ );

Lognormalus CDF(’LOGN’,x,θ,λ)= ∫ >

−−

)log(

02

2

,0,2

)(exp

2

1 x

xdvv

λ

θ

πλ čia θ ir 0>λ -

nebūtini parametrai (pagal nutylėjimą ,0=θ 1=λ );

Neigiamas binominis CDF(’NEGB’,m,p,n)= ∑

=−

−+m

j

jnp

j

jnp

0,)1(

1 čia m=0,1,... – nesėkmių skaičius,

n=0,1,... – sėkmių skaičius, 10 ≤≤ p sėkmės tikimybė;

Normalusis CDF(’NORMAL’,x,θ,λ)= ∫

∞−

−−

x

dvv

,2

)(exp

2

12

2

λ

θ

πλ čia θ ir 0>λ - nebūtini

parametrai (pagal nutylėjimą ,0=θ 1=λ );

Normalių mišinys CDF(’NORMALMIX’,x, n, npp ,...,1 , ,,...,1 nmm nss ,...,1 )=

∑=

=n

iii smxNORMALCDFp

11 ),,,'('* , čia ,...2,1=n mišinių skaičius; npp ,...,1 -

proporcijos, 11

1 =∑=

n

i

p ; nmm ,...,1 - vidurkiai; nss ,...,1 - standartiniai nuokrypiai,

;,...,1,0 nisi =>

Pareto CDF(’PARETO’,x,a,k)= ( )

≥−

<

;,/1

;,0

kxxk

kxa , čia a>0, k>0 – nebūtinas parametras

(pagal nutylėjimą 1=k ); Puasono

CDF(’POISSON’,n,m)= ,!0

∑=

−n

i

mi

ei

m čia ,...1,0=n , m>0 – vidurkis;

Stjudento CDF(’T’,t,v,λ) čia v>0 – laisvės laipsniai, λ - necentriškumo parametras (nebūtinas parametras), nebūtinai sveikas skaičius, jei λ nenurodome, tai centrinis Stjudento skirstinys;

Tolygusis

CDF(’UNIFORM’,x,l,r)=

≥

<≤−−

<

;,1

,),/()(

,,0

rx

rxllrlx

lx

čia l ir r (r>l) nebūtini

parametrai (pagal nutylėjimą ,0=l 1=r );

Valdo (atvirkštinis Gauso)

CDF(’WALD’,x,d)=CDF(’IGAUSS’,x,d) =

;0,)1()1( 2 >

+−Φ+

−Φ= x

x

dxe

x

dx

d čia parametras d>0, Φ -

standartinio normalaus skirstinio pasiskirstymo funkcija; Veibulo

CDF(’WEIBULL’,x,a,λ)= ;0,exp1 ≥

−− x

xa

λ čia a>0, nebūtinas parametras

0>λ (pagal nutylėjimą 1=λ );

55

2.2 p a v y z d y s. a) Apskaičiuokime normalaus skirstinio su vidurkiu 5 ir dispersija 1 skirstinio funkcijos ir tankio reikšmę taške 3.1. Editor lange įvedame:

data d1;

s1=CDF(’NORMAL’,3.1,5,1); /*skirstinio funkcija*/

t1=PDF(’NORMAL’,3.1,5,1); /*tankio funkcija*/

run;

Gauname s1=0,0287165598; t1=0.0656158148.

b) Apskaičiuokime centrinio chi-kvadrato skirstinio su 6 laisvės laipsniais tankio funkcijos reikšmę taške 5.1. Editor lange įvedame:

data d2;

s=PDF(’CHISQ’,5.1,6);

run;

Gauname s=0.1269315083.

c) Apskaičiuokime necentrinio Stjudento skirstinio su 2 laisvės laipsniais ir necentriškumo parametru 3.6 tankio funkcijos reikšmę taške 6.8. Editor lange įvedame:

data d3;

t=PDF(’T’,6.8,2,3.6);

run;

Gauname t=0.0612465389.

2.3 p a v y z d y s. Užduotis: kam lygi tikimybė, kad tris kartus metant idealią monetą, iškris: a) tris kartus skaičius; b) du kartus skaičius ir vieną kartą herbas? Sprendimas. Turime Bernulio schemos realizaciją. Bandymų skaičius n=3; jeigu moneta ideali, tai tikimybė, kad iškris skaičius yra lygi p=0.5. Taigi, reikia apskaičiuoti Binominio skirstinio tikimybes. Editor lange įvedame:

data moneta;

tik1=PDF(’BINOMIAL’,3,0.5,3); /* a punktas */

tik2=PDF(’BINOMIAL’,2,0.5,3); /* b punktas */

run;

Gauname: tikimybė, kad tris kartus metant idealią monetą tris kartus iškris skaičius yra lygi 0,125; tikimybė, kad tris kartus metant idealią monetą du kartus iškris skaičius ir vieną kartą herbas yra lygi 0,375.

SAS funkcija PROBBNRM yra skirta dvimačio normaliojo skirstinio su vidurkiu 0, dispersija 1 ir koreliacijos koeficientu r pasiskirstymo funkcijos reikšmėms apskaičiuoti:

PROBBNRM(x,y,r)= ∫ ∫∞− ∞−

−

+−−

−=≤≤

x y

dvdur

vruvu

ryYxXP

)1(2

2exp

12

1},{

2

22

2π,

čia x ir y yra skaitiniai kintamieji, r – koreliacijos koeficientas ( 11 ≤≤− r ).

2.4 p a v y z d y s. Funkcijos PROBBNRM panaudojimo pavyzdžiai Pavyzdys Rezultatas

Tik1= PROBBNRM(2, 3.1, 0.9); Tik1=0.9772359531 Tik2= PROBBNRM(0.4, 0.8, 0.6); Tik2=0.5893469719

4. Kvantilių funkcijos

SAS funkcija QUANTILE skirta įvairių tikimybinių skirstinių p-tojo kvantilio apskaičiavimui. Sintaksė:

QUANTILE(’skirstinys’, p <, parametras_1,...,parametras_k>)

56

čia skirstinys – žodis, identifikuojantis skirstinį (žr. 2.5 lentelę); apskaičiuojamas p-tasis kvantilis ( 10 << p ); parametras_1, ..., parametras_k – yra nebūtini formos, padėties, mastelio parametrai (skirstinio parametrus nurodome taip pat, kaip ir funkcijoje CDF (žr.2.6 lentelę)).

2.5 p a v y z d y s. Funkcijos QUANTILE panaudojimo pavyzdžiai Pavyzdys Paaiškinimas Rezultatas

Q1=QUANTILE(’EXPO’, 0.6); (0.6)- tasis standartinio eksponentinio skirstinio (t.y. vidurkis lygus 1) kvantilis

Q1=0,9162907319

Q2=QUANTILE(’T’, 0.8, 5); (0.8)- tasis centrinio Stjudento skirsti-nio su 5 laisvės laipsniais kvantilis

Q2=0,9195437802

2.7 lentelė. Konkrečių skirstinių kvantilių funkcijos.

Skirstinys Funkcija Aprašymas Beta BETAINV(p,a,b) p-tasis kvantilis; a>0, b>0 Beta skirstinio parametrai; Chi-kvadrato CINV(p,ν,λ) p-tasis kvantilis; ν>0 - laisvės laipsniai, 0≥λ (nebūtinas

parametras) - necentriškumo parametras; Fišerio FINV(p, ,1v ,2v λ) p-tasis kvantilis; 01 >v – skaitiklio laisvės laipsniai, 02 >v –

vardiklio laisvės laipsniai, 0≥λ (nebūtinas parametras)- necentriškumo parametras;

Gama GAMAINV(p,a) 0>a gama skirstinio parametras; Standartinis normalusis

PROBIT(p) p-tasis kvantilis;

Stjudento TINV(p,v,λ) p-tasis kvantilis; v>0 – laisvės laipsniai, λ - nebūtinas necentriškumo parametras;

SAS yra keletas funkcijų skirtų konkrečių tikimybinių skirstinių kvantilių apskaičiavimui, jos pateikiamos 2.7 lentelėje (skirstinių parametrų pažymėjimai ir apibrėžimai analogiški nurodomiems funkcijoje CDF (žr. 2.6 lentelę)).

2.6 p a v y z d y s. Kvantilių funkcijų panaudojimo pavyzdžiai Pavyzdys Paaiškinimas Rezultatas

b=BETAINV(0.5, 4, 2); 50-tasis Beta skirstinio su parametrais 4 ir 2 procentilis;

b=0.6861898295

Chi1=CINV(0.95, 4); 95-tasis chi-kvadrato skirstinio su 4 laisvės laipsniais procentilis;

Chi1=9.4877290368

Chi2=CINV(0.95, 4.1, 4.8); 95-tasis chi-kvadrato skirstinio su 4.1 laisvės laipsniais ir necentiškumo parametru 4.8 procentilis;

Chi2=18.793397996

F1=FINV(0.9, 2, 6); (0.9)-tasis Fišerio skirstinio su 2 ir 6 laisvės laips-niais kvantilis;

F1=3.4633040701

F2=FINV(0.9, 2, 6.1, 3); (0.9)-tasis Fišerio skirstinio su 2 ir 6.1 laisvės laips-niais, ir necentiškumo parametru 3 kvantilis;

F2=8.1926587045

Pavyzdys Paaiškinimas Rezultatas G1=GAMINV(0.1, 3.2); (0.1)-tasis gama skirstinio su parametru 3.2 kvantilis; 1.2260018937= N=PROBIT(0.95); (0.95)-tasis standartinio normalaus skirstinio

kvantilis; N=1.644853627

T1=TINV(0.9, 5); (0.9)-tasis Stjudento skirstinio su 5 laisvės laips-niais kvantilis;

T1=1.4758840488

T2=TINV(0.9, 3.2, 4); (0.9)-tasis Stjudento skirstinio su 3.2 laisvės laips-niais ir necentiškumo parametru 4 kvantilis;

T2=9.1167128952

5. Atsitiktinių dydžių modeliavimas

Su kompiuteriu galima generuoti pseudoatsitiktinius skaičius. Šie skaičiai nėra tikri atsitiktiniai skaičiai, nes apskaičiuojami naudojant tam tikrą algoritmą, tačiau jų savybės tokios pačios kaip ir tikrai atsitiktinių skaičių. SAS yra keletas funkcijų, skirtų atsitiktinių dydžių modeliavimui. Funkcijose reikia nurodyti pradinį skaičių (seed). Šis pradinis skaičius turi būti sveikas neneigiamas skaičius, mažesnis už 231-1. Jeigu nurodome 0, tai modeliuojama atsižvelgiant į kompiuterio laikrodį.

57

P a s t a b a. Jeigu nurodome skaičių, didesnį už 0, tai atlikę kelis kartus tą patį Data žingsnį gausime tą pačią skaičių seką, o jeigu 0, tai skaičių seka priklauso nuo laiko momento ir tos pačios sekos nebepakartosime. SAS funkcija RAND yra skirta modeliuoti atsitiktinius dydžius įvairių skirstinių atveju. Sintaksė:

RAND(’skirstinys’, skirstinio_parametrai)

čia skirstinys – žodis, identifikuojantis skirstinį; galimi skirstiniai yra pateikti 2.8 lentelėje; skirstinio_parametrai – sąrašas formos, padėties, mastelio parametrų. 2.9 lentelėje pateikiama funkcijos RAND sintaksė įvairių skirstinių atveju.

2.8 lentelė. Skirstinius identifikuojantys raktiniai žodžiai Skirstinio

pavadinimas Raktinis žodis Skirstinio pavadinimas Raktinis žodis

Bernulio ’BERNOULLI’ Hipergeometrinis ’HIPERGEOMETRIC’ Beta ’BETA’ Lognormalus ’LOGNORMAL’ Binominis ’BINOMIAL’ Neigiamas binominis ’NEGBINOMIAL’ Koši ’CAUCHY’ Normalus ’NORMAL’|’GAUSSIAN’ Chi-kvadrato ’CHISQUARE’ Puasono ’POISSON’ Erlango ’ERLANG’ Stjudento ’T’

Eksponentinis ’EXPONENTIAL’ Diskretus ’TABLE’ Fišerio ’F’ Trikampio ’TRIANGLE’ Gama ’GAMMA’ Tolygus ’UNIFORM’ Geometrinis ’GEOMETRIC’ Veibulo ’WEIBULL’

P a s t a b a. Jei norime, kad pakartoję tą patį Data žingsnį gautume tą pačią seką, tai Data žingsnyje prieš funkciją RAND reikia panaudoti komandą CALL STREAMINT, kurioje nurodomas pradinis skaičius, jei šios komandos nepanaudojame, tai kelis kartus kartojant tą patį Data žingsnį gausime vis kitą seką. Sintaksė:

CALL STREAMINT(sk);

čia sk - skaičius didesnis už 0 ir mažesnis už 231-1. 2.9 lentelė. Funkcijos RAND sintaksė

Sintaksė X tankio funkcija (tolydus skirstinys) / tikimybė (diskretus skirstinys) RAND(’BERN’,x,p)

==

=<<−

==

== −

,1,1,1

,1,0,10,)1(

,0,0,0

}|{ 1

xp

xppp

xp

pxXxxP čia p - sėkmės tikimybė;

RAND(’BETA’,a,b) 0,0,10,)1(

)()(

)()( 11 >><<−

ΓΓ

+Γ= −−

baxxxba

baxf

ba ;

RAND(’BINOMIAL’,p,n)

==

=−

==

== −

,1,11

,,...,1,0,)1(

,0,00

},|{

xp

nxppC

xp

npxXxnxx

nP čia x – sėkmių skaičius,

p - sėkmės tikimybė, n=0,1,... – nepriklausomų Bernulio eksperimentų skaičius;

RAND(’CAUCHY’) ;,

)1(

1)(

2+∞<<∞−

+= x

xxf

π

RAND(’CHISQUARE’,ν) ;0,

)2/(

2)( 2/12/

2/>

Γ= −−

−xex

vxf

xvν

čia ν >0 – laisvės laipsniai;

RAND(’ERLANG’,a) ,...2,1,0,

)(

1)( 1 =>

Γ= −−

axexa

xfxa ;

RAND(’EXPONENTIAL’) ;0,)( >= −xexf

x

58

2.9 lentelės tęsinys. Funkcijos RAND sintaksė Sintaksė X tankio funkcija (tolydus skirstinys) / tikimybė (diskretus skirstinys)

RAND(’F’, ,1v 2v )

,)()2/()2/(

2)(

2/)(21

122/2

2/1

21

21

21

121

vv

vvv

vv

xvv

vv

vv

xf+

−

+ΓΓ

+Γ

= ,0>x čia 01 >v – skaitiklio

laisvės laipsniai, 02 >v – vardiklio laisvės laipsniai;

RAND(’GAMMA’,a) ,

)(

1)( 1 xa

exa

xf−−

Γ= ,0>x 0>a ;

RAND(’GEOMETRIC’,p)

==

=<<−==

−

;1,1,1

,...,2,1,10,)1(}|{

1

xp

xppppxXP

x

čia p - sėkmės tikimybė;

RAND(’HYPER’,N,R,n)

,}{

−

−

==

n

N

xn

RN

x

R

xXP čia ),,min())),...,((,0max( RnRNnx −−=

...2,1=N - populiacijos dydis, NR ,...1,0= - elementų, turinčių dominančią savybę, skaičius, Nn ,...1= - imties dydis;

RAND(’LOGNORMAL’) ;0,

2

}2/)(lnexp{)(

2

≥−

= xx

xxf

π

RAND(’NEGBIN’,p,k)

==

=<<−

−

−+==

,0,1,1

,...,1,0,10,)1(1

1}{

xp

xpppk

kx

xXPkx

čia k=1,2,... –

sėkmių skaičius, 10 ≤< p sėkmės tikimybė;

RAND(’NORMAL’ <,θ,λ>) ,

2

)(exp

2

1)(

2

2

−−

λ

θ

πλ

xxf čia θ - vidurkis, 0>λ standartinis nuokrypis

( nebūtini parametrai; pagal nutylėjimą ,0=θ 1=λ );

RAND(’POISSON’,m) ,

!}{ m

x

ex

mxXP

−== čia ,...1,0=x , m>0 – vidurkis;

RAND(’T’,v)

,,1)2/(

2

1

)(

2/)1(2+∞<<∞−

+

Γ

+Γ

=

+−

xv

x

vv

v

xf

v

π čia 0>v – laisvės

laipsnių skaičius; RAND(’TABLE’, ,..., 21 pp ) A.d. X įgyja reikšmes 1,2,…,n su tikimybėmis nppp ,...,, 21

( 1,...,,0 21 ≤≤ nppp ); 11

=∑=

n

iip ;

RAND(’TRIANGLE’,h)

≤<−

−≤≤

==,1,

1

)1(2,0,/2

}{xh

h

xhxhx

xXP čia 10,10 ≤≤≤≤ hx ;

RAND(’UNIFORM’) 10,1)( <<= xxf ;

RAND(’WEIBULL’,a,b) ,0,exp)( 1 ≥

−= −

xb

xx

b

axf

aa

a čia a>0, b>0;

2.7 p a v y z d y s. Tarkime, kad reikia sumodeliuoti atsitiktinio dydžio, kurio skirstinys yra Stjudento skirstinys su 6 laisvės laipsniais, dydžio 200 imtį. Editor lange įvedame:

%LET ll=6; %LET n=200;

DATA modeliavimas; DATA modeliavimas;

DO i=1 TO &n; arba DO i=1 TO 200;

t=RAND(’T’,&ll); t=RAND(’T’,6);

59

OUTPUT; OUTPUT;

END; END;

RUN; RUN;

Toliau yra pateikiamas kitų SAS atsitiktinių dydžių modeliavimo funkcijų aprašymas, jose be skirstinio parametrų reikia nurodyti pradinį skaičių (sk), aprašytą šio skyrelio pradžioje. Funkcijos UNIFORM(sk) ir RANUNI(sk) yra skirtos modeliuoti tolygų intervale (0,1) atsitiktinį dydį. Tolygų intervale (a,b) atsitiktinį dydį galime modeliuoti taip:

kint=(b-a)*uniform(sk)+a; arba kint=(b-a)*ranuni(sk)+a;

2.8 p a v y z d y s. Modeliuoti atsitiktinio dydžio, pasiskirsčiusio pagal tolygų dėsnį intervale (0,1), dydžio n=100 imtį.

DATA tolygus;

DO i=1 TO 100;

Y=UNIFORM(0);

OUTPUT;

END;

RUN;

Funkcija NORMAL(sk) yra skirta modeliuoti standartinį normalų atsitiktinį dydį (t.y. vidurkis lygus 0, o standartinis nuokrypis 1. Atsitiktinį dydį, kurio skirstinys yra normalus su vidurkiu θ ir standartiniu nuokrypiu λ (žr. 2.9 lentelę), galime modeliuoti taip:

Y=θ+λ*NORMAL(sk);

Funkcija RANBIN(sk,n,p) yra skirta modeliuoti atsitiktinį dydį, kurio skirstinys yra binominis su parametrais n ir p (n – nepriklausomų Bernulio eksperimentų skaičius, p – sėkmės tikimybė; žr.2.9 lentelę). Funkcija RANEXP(sk) yra skirta modeliuoti atsitiktinį dydį, kurio skirstinys yra eksponentinis su vidurkiu 1 (žr. 2.9 lentelę). Atsitiktinį dydį, kurio skirstinys yra eksponentinis su vidurkiu 1/λ, t.y. tankio funkcija yra 0,0,)( >>= − λλ λ

xexfx , galime

modeliuoti taip:

y=RANEXP(sk)/ λ;

Funkcija RANGAM(sk,a) yra skirta modeliuoti atsitiktinį dydį, kurio skirstinys yra gama su parametru a (žr. 2.9 lentelę). Atsitiktinį dydį, kurio skirstinys yra gama su

parametrais a ir λ, t.y. tankio funkcija yra 0,0,0,)(

1)( /1 >>>

Γ= −−

axexa

xfxa

aλ

λλ

galime modeliuoti taip:

y=λ*RANGAM(sk,a);

Funkciją RANGAM galime panaudoti atsitiktinio dydžio, kurio skirstinys yra chi-kvadrato skirstinys su 2*η (sveikas skaičius) laisvės laipsnių, modeliavimui:

X=2*RANGAM(sk, η);

Funkciją RANGAM galime panaudoti atsitiktinio dydžio X∼Be(γ, η), t.y. X skirstinys yra Beta skirstinys su parametrais γ ir η, modeliavimui:

y1=RANGAM(sk, γ); y2=RANGAM(sk, η); X=y1/(y1+y2);

Funkcija RANPOI(sk, λ) yra skirta modeliuoti atsitiktinį dydį, kurio skirstinys yra Puasono skirstinys su vidurkiu λ (žr. 2.9 lentelę). Diskretų atsitiktinį X, įgyjantį reikšmės 1,2,...,n su tikimybėmis nppp ,...,, 21

( 1...21 =+++ nppp ) galime modeliuoti su funkcija RANTBL(sk, nppp ,...,, 21 ).

60

2.9 p a v y z d y s. Tegu reikia modeliuoti atsitiktinio dydžio, įgyjančio reikšmes 2, 4, 6 su tikimybėmis 0.3, 0.1, 0.6, dydžio 50 imtį. Editor lange įveskime:

DATA diskretus;

ARRAY m{3} m1-m3 (2 4 6); ARRAY p{3} p1-p3 (0.3 0.1 0.6);

DO i=1 TO 50;

x=m{RANTBL(0, of p1-p3)}; OUTPUT;

END;

RUN;

Tą patį uždavinį galime išspręsti ir nenaudojant funkcijos RANTBL. Galime panaudoti tokią procedūrą. Tegu X diskretus a.d., įgyjantis reikšmes nxxx ,...,, 21 su

tikimybėmis nixXPp i ,...,2,1},{1 === . Daliname intervalą (0,1) į nesikertančius ilgio

nppp ,...,, 21 intervalus. Generuojame tolygaus intervale (0,1) atsitiktinio dydžio realizaciją; į

kurį intervalą pateko generuota reikšmė, tokią reikšmę ir įgijo atsitiktinis dydis X. Naudodami šią procedūrą modeliuokime atsitiktinio dydžio, įgyjančio reikšmes 2, 4, 6 su tikimybėmis 0.3, 0.1, 0.6, dydžio 50 imtį. Editor lange įveskime:

DATA diskretus;

DO i=1 TO 50;

u=UNIFORM(0);

if 0<u<=0.3 then x=2; ELSE IF 0.3<u<0.4 then x=4; ELSE x=6; OUTPUT;

END; RUN;

P a s t a b a. a ) Kitus skirstinius galima modeliuoti naudojant atsitiktinių dydžių transformacijas (žr.[5]). b) Atsitiktinių dydžių modeliavimui galime naudoti atvirkštinės transformacijos metodą. Tegu X tolydus atsitiktinis dydis su pasiskirstymo funkcija F(x). Tada atsitiktinio dydžio U=F(X) skirstinys yra tolygusis intervale (0,1). Taigi, jei

nUUU ,...,, 21 yra atsitiktinio dydžio U imtis, tai niUFX ii ,...,1),(1 == − yra atsitiktinio

dydžio X imtis.

6. Simbolinės funkcijos

Šios funkcijos yra skirtos darbui su simbolinio tipo duomenimis, pavyzdžiui, apjungti dvi simbolinio tipo reikšmes į vieną, pakeisti mažąsias raides didžiosiomis, išskirti dalį simbolių iš reikšmės, panaikinti tarpus ir pan. 2.10 lentelėje yra pateikti funkcijų pavyzdžiai, o 2.11 lentelėje funkcijų naudojimo pavyzdžiai. Pilną funkcijų sąrašą galima pasižiūrėti pagrindiniame meniu pasirinkus punktą Help→SAS Help and Documentation.

2.10 lentelė. Funkcijų pavyzdžiai Sintaksė Apibrėžimas

REPEAT(arg,n)

Argumento reikšmę pakartoja n kartų; arg – simbolinio tipo reiškinys;

LEFT(arg) Išlygiuoja simbolinį reiškinį į kairę pusę; LENGTH(arg) Argumento ilgis (simboliais), neįskaičiuojant

tarpų gale reikšmės; praleisto stebėjimo ilgis 1; SUBSTR(arg, k, n) Išskiria dalį argumento; pradedant nuo k-tuoju

simboliu išskiria n simbolių; TRANSLATE(arg, į_1, iš_1,…, į_n, iš_n)

Pakeičia argumente simbolius: simbolius iš_1 pakeičia simboliais į_1,..., simbolius iš_n pakeičia simboliais į_n (iš_n ir į_n simbolių skaičius vienodas);

TRIM(arg) Panaikina tarpus argumento pabaigoje; UPCASE(arg) Mažąsias raides pakeičia didžiosiomis; PROPCASE(arg) Pakeičia žodžius taip: pirma raidė didžioji, kitos

mažosios;

61

2.11 lentelė. Funkcijų naudojimo pavyzdžiai. Pavyzdys Rezultatas Pavyzdys Rezultatas Y=REPEAT(‘Dd’,3); Y=‘DdDdDd‘ Y=REPEAT(‘0’,3); Y=‘000‘ a=’ ddd’; X=LEFT(a);

X=’ddd ’ A=’ mano’; Y=LEFT(a);

Y=’mano ’

a=’ddd’; X=LENGTH(a);

X=3 A=’ mano ’; y=LENGTH(a);

Y=5

a=’(916)734-6281’; X=SUBSTR(a,2,3);

X=’916’ Y=SUBSTR(‘abc’,2); Y=’bc’

a=’6/16/99’; X=TRANSLATE(a,’-’,’/’);

X=’6-16-99’ A=’bc bc’; Y=TRANSLATE(a,’b’,’c’);

Y=’bb bb’

a=’vienas ’; b=’du’; X=TRIM(a)||b;

X=’vienasdu’ A=’du ’; Y=TRIM(a);

Y=’du’

a=’Rasa’; X=UPCASE(a);

X=’RASA’ Y=UPCASE(’raSa’); Y=’RASA’

X=PROPCASE(’aAAa ’); X=’Aaaa’ Y=PROPCASE(’rasa rasytė ’); Y=’Rasa Rasytė’

7. Datos ir laiko funkcijos

Šios funkcijos yra skirtos darbui su laiko ir datos duomenimis. 2.12 lentelėje yra pateikti funkcijų pavyzdžiai. Pilną funkcijų sąrašą galima pasižiūrėti pagrindiniame meniu pasirinkus punktą Help→SAS Help and Documentation.

2.12 lentelė. Funkcijų pavyzdžiai Sintaksė Apibrėžimas DAY(arg) Mėnesio diena; arg – SAS datos reikšmė; QTR(arg) Metų ketvirtis; arg – SAS datos reikšmė; TODAY( ) Šios dienos data (SAS datos reikšmė) DATEPART(arg) Išskiria datą iš SAS datos-laiko reikšmės; HOUR(arg) Išskiria valandą iš SAS datos-laiko arba laiko

reikšmės; TIME(arg) Dabartinio laiko reikšmė;

P a s t a b a. SAS datos reikšmė – dienų skaičius nuo 1960.01.01; laiko reikšmė yra skaičius sekundžių po vidurnakčio; datos-laiko reikšmė yra sekundžių skaičius nuo 1960.01.01 vidurnakčio.

2.10 p a v y z d y s. Editor lange įveskime: DATA pavyzdys;

INPUT data yymmdd10. +1 laikas hhmmss8.;

diena=DAY(data);

ketvirtis=QTR(data);

valanda=HOUR(laikas);

DATALINES;

1960.01.01 00:01:00

1960.01.02 00:00:12

1959.12.30 00:01:00

2005.02.01 12:00:00

;

RUN;

PROC PRINT DATA=pavyzdys;

RUN;

Output lange gauname tokį rezultatą:

Obs data laikas diena ketvirtis valanda

1 0 60 1 1 0

2 1 12 2 1 0

3 -2 60 30 4 0

4 16468 43200 1 1 12

62

8. Masyvų funkcijos

SAS yra trys funkcijos, skirtos darbui su masyvais (žr. I sk.,13 skyrelį): 1) DIM funkcijos rezultatas yra masyvo elementų skaičius. Sintaksė:

DIM<n>(vardas) arba DIM(vardas <, n>)

čia n nurodo daugiamačio masyvo dimensijos, kurioje norime sužinoti elementų skaičių, numerį; vardas – masyvo vardas.

2.11 p a v y z d y s. a) DATA pavyzdys;

ARRAY masyvas{4} el1-el4;

DO i=1 TO DIM(masyvas);

Y=2*i;

END; RUN;

Šiame pavyzdyje funkcijos DIM reikšmė yra 4, todėl ciklas atliekamas keturis kartus.

b) I variantas II variantas DATA pavyzdys;

ARRAY masyvas{4,8,3}el1-el4(14*1);

X1=DIM(masyvas,1);

X2=DIM(masyvas,2);

X3=DIM(masyvas,3);

DROP el1-el14; RUN;

DATA pavyzdys;

ARRAY masyvas{4,8,3}el1-el4(14*1);

X1=DIM(masyvas);

X2=DIM2(masyvas);

X3=DIM3(masyvas);

DROP el1-el14; RUN;

Atlikę šį Data žingsnį gausime tokią duomenų lentelę „pavyzdys“:

X1 X2 X3 4 8 3

2) HBOUND funkcijos rezultatas yra viršutinis nurodytos masyvo dimensijos rėžis. Sintaksė:

HBOUND<n>(vardas) arba HBOUND(vardas <, n>)

čia n yra daugiamačio masyvo dimensijos numeris; vardas – masyvo vardas. 3) LBOUND funkcijos rezultatas yra apatinis nurodytos masyvo dimensijos rėžis. Sintaksė:

LBOUND<n>(vardas) arba LBOUND(vardas <, n>)

čia n yra daugiamačio masyvo dimensijos numeris; vardas – masyvo vardas.

2.12 p a v y z d y s. DATA pavyzdys;

ARRAY m(2:6,4:13,2) k1-k100;

DO i=LBOUND(m,3) TO HBOUND(m,2);

Y=2*i;

END;

RUN;

Šiame Data žingsnyje užrašytas ciklas ekvivalentus tokiam ciklui: DO i=1 TO 13;

Y=2*i;

END; RUN;

63

III skyrius. APRAŠOMOJI STATISTIKA

Surinkus duomenis prieš atliekant sudėtingesnę duomenų analizę naudinga atlikti pradinę duomenų analizę, nes tai a) leidžia surasti duomenų įvedimo klaidas; b) daryti išvadas apie duomenų savybes ir skirstinio pavidalą. Aprašomoji statistika, tai duomenų sisteminimo ir grafinio vaizdavimo metodai, kuriuos naudojant galima daryti išvadas apie nagrinėjamos populiacijos savybes. Aprašomoji statistika apima dvi grupes metodų: skaitiniai ir grafiniai metodai. Derinant šiuos metodus galima gauti daug naudingos informacijos apie tiriamos populiacijos savybes. Kokius grafikus braižyti ir kokias skaitines charakteristikas skaičiuoti priklauso nuo turimų duomenų tipo, t.y. buvo tirti kokybiniai ar kiekybiniai kintamieji. Yra keturios kintamųjų matavimo skalės. 1) Nominalioji. Matuojami požymiai užkoduojami simbolių sekomis, kurios tarpusavyje nepalyginamos, pavyzdžiui, 1 – matematika, 2 – fizika, 3 – lietuvių kalba. Kintamieji matuojami nominalioje skalėje vadinami nominaliaisiais kintamaisiais. Atskiras nominalios matavimų skalės atvejis yra dichotominė matavimų skalė, kurioje yra tik dvi reikšmės, pavyzdžiui, 1 – vyras, 0 - moteris. 2) Ranginė. Matuojami požymiai žymimi simbolių sekomis, kurias galima tarpusa-vyje palyginti, bet negalime pasakyti kokiu didumu skiriasi, pavyzdžiui, 1 – geriausias studentas, 2 – blogesnis, 3 – dar blogesnis. Kintamieji matuojami ranginėje skalėje vadinami ranginiais kintamaisiais. 3) Intervalinė. Parodo kokiu didumu skiriasi, bet nėra tikro nulio (atskaitos pradžios), pavyzdžiui, testo rezultatai (nulinis įvertinimas nebūtinai reiškia, kad nieko nežino). Kinta-mieji matuojami intervalinėje skalėje vadinami intervaliniais kintamaisiais. 4) Santykinė. Panaši į intervalinę, skiriasi tik tuo, kad yra absoliutus nulis (atskaitos pradžia), kuris rodo tiriamos savybės nebuvimą, pavyzdžiui, atstumas. Kintamieji matuojami santykinėje skalėje vadinami santykiniais kintamaisiais. Ranginiai ir nominalieji kintamieji vadinami kokybiniais, o intervaliniai ir santykiniai – kiekybiniais kintamaisiais. Šio skyriaus pirmame skyrelyje aprašomos dažnių lentelės, antrame – skaitinės kintamųjų charakteristikos, o trečiame – grafiniai duomenų vaizdavimo metodai.

1. Dažnių lentelės

Dažnių lentelės padeda lengviau pastebėti duomenų savybes, pavyzdžiui, kiek yra skirtingų reikšmių, kokia didžiausia ir mažiausia reikšmė, kuri reikšmė pasikartojo daugiausiai kartų ir pan. Jei yra matuojamas tolydus kintamasis, pavyzdžiui ūgis, svoris, tai stebėjimus reikia sugrupuoti į intervalus ir tada skaičiuoti dažnius. Duomenis sugrupuoti galima su sąlyginiu sakiniu (žr. I sk., 5.2 skyrelį), panaudojant vartotojo sukurtus formatus (žr. I sk., 15 skyrelį). Šiame skyrelyje nagrinėsime vieno kintamojo ir kryžmines dažnių lenteles.

1.2. Vieno kintamojo dažnių lentelės

Tarkime, kad tirdami tam tikrą požymį išmatavome n objektų. Turime statistinę eilutę

nXXX ,...,, 21 . Kai kurios reikšmės statistinėje eilutėje gali kartotis. Sudarykime variacinę

eilutę, t.y. išdėstykime reikšmes iX didėjančia tvarka: ,,...,, )()2()1( nXXX čia

)()2()1( ... nXXX ≤≤≤ . Tarkime, kad yra k skirtingų reikšmių **2

*1 ,...,, kXXX . Pažymėkime if

- i-tosios reikšmės pasikartojimų skaičių. Šis skaičius vadinamas reikšmės dažniu (frequency).

Akivaizdu, kad .1

nfk

i

i =∑=

Dydis

64

n

ff i

i =* (3.1)

yra vadinamas i-tosios reikšmės santykiniu dažniu (relative frequency). Tegu iF yra i-tosios reikšmės sukauptas dažnis (cumulative frequency), jis parodo

kiek yra reikšmių mažesnių arba lygių i-tajai reikšmei. Dydis

n

FF i

i =* (3.2)

yra vadinamas i-tosios reikšmės santykiniu sukauptu dažniu (relative cumalative frequency). Sudarant dažnių lenteles dar yra skaičiuojami tokie dažniai:

,100*~*

n

ff i

i = (3.3)

.100*~*

n

FF i

i = (3.4)

čia *~if yra procentinis dažnis (percent), o *~

iF - sukauptas procentinis dažnis (cumulative

percent).

3.1 p a v y z d y s. Tegu turime tokius duomenis:

iX : 1, 2, 5, 4, 3, 2, 1, 2, 3, 2.

Sudarome variacinę eilutę:

)(iX : 1, 1, 2, 2, 2, 2, 3, 3, 4, 5.

Iš viso reikšmių yra n=10, o skirtingų reikšmių yra k=5. Gauname tokią dažnių lentelę:

*iX *~

if *if iF *

iF *~if *~

iF

1 2 2/10=0.2 2 2/10=0.2 20 20 2 4 4/10=0.4 6 6/10=0.6 40 60 3 2 2/10=0.2 8 8/10=0.8 20 80 4 1 1/10=0.1 9 9/10=0.9 10 90 5 1 1/10=0.1 10 10/10=1 10 100

Dažnius galima apskaičiuoti su SAS procedūra FREQ. Sintaksė:

PROC FREQ pasirinktys;

TABLES kintamieji / pasirinktys;

RUN;

P a s t a b a. Kintamieji, nurodyti TABLES sakinyje, gali būti skaitinio arba simbo-linio tipo. Sudaroma atskira dažnių lentelė kiekvienam nurodytam kintamajam.

TABLES sakinyje galima nurodyti tokias pasirinktis: OUT=lentelė nurodo dažnius surašyti į duomenų lentelę; MISSPRINT nurodo įtraukti į dažnių lentelę praleistus stebėjimus, t.y. skaičiuojant procentinius, sukauptus ir sukauptus procentinius dažnius praleisti stebėjimai neįtraukiami į skaičiavimus, o tik spausdinamas praleistų stebėjimų dažnis; MISSING nurodo įtraukti praleistus stebėjimus į skaičiavimus; NOCUM nurodo neskaičiuoti sukauptų ir procentinių sukauptų dažnių; NOPERCENT nurodo neskaičiuoti procentinių dažnių.

PROC FREQ sakinyje galima nurodyti:

65

DATA=lentelė nurodome kokios lentelės duomenis analizuosime; jeigu ši pasirinktis nėra nurodyta, tai analizuojami paskutinės sukurtos lentelės duomenys; ORDER=DATA | FORMATTED | FREQ | INTERVAL nurodo kokia tvarka spausdinti dažnius. Ši pasirinktis netaikoma praleistiems stebėjimams, kurie visada spausdinami pradžioje; DATA nurodo išdėstyti dažnius tokia tvarka kaip išdėstytos reikšmės duomenų lentelėje; FORMATTED nurodo dažnius išdėstyti pagal formatuotas reikšmes; FREQ nurodo išdėstyti reikšmes pagal mažėjantį dažnį; INTERVAL pagal neformatuotas reikšmes, t.y. tokia tvarka kaip surūšiuotų procedūra SORT; šis dažnių išdėstymo būdas yra pagal nutylėjimą. Procedūroje FREQ galima nurodyti sakinį

WEIGHT kintamasis;

čia kintamasis – skaitinio tipo kintamasis, kurio reikšmės yra stebėjimų dažniai. Šiuo atveju vienas stebėjimas atitinka n stebėjimų, kur n nurodyto kintamojo reikšmė. Nurodyto kintamojo reikšmė nebūtinai sveikas skaičius, bet, kai reikšmė yra 0 arba praleista, tai atitinkamas stebėjimas ignoruojamas.

3.2 p a v y z d y s. a) Tarkime, kad turime tokius pačius duomenis kaip 3.1 pavyzdyje. Apskaičiuokime dažnius su procedūra FREQ. Editor lange įvedame:

DATA d1;

INPUT x @@;

DATALINES;

1 2 5 4 3 2 1 2 3 2

;

PROC FREQ DATA=d1;

TABLES x;

RUN;

Output lange gauname tokią dažnių lentelę: x Frequency Percent Cumulative Frequency Cumulative Percent

1 2 20 2 20

2 4 40 6 60

3 2 20 8 80

4 1 10 9 90

5 1 10 10 100

Pirmajame stulpelyje yra skirtingos reikšmės *iX , antrajame stulpelyje – reikšmių

dažniai if , trečiajame stulpelyje procentiniai dažniai *~if (žr.(3.3)), ketvirtajame – sukaupti

dažniai iF (žr.(3.2)), o paskutiniame stulpelyje – sukaupti procentiniai dažniai *~iF (žr.(3.4)).

Iš dažnių lentelės matome, kad mažiausia reikšmė yra 1, didžiausia reikšmė yra 5, daugiausiai kartų pasikartojo reikšmė 2 ir t.t.

b) DATA d1; INPUT x @@;

DATALINES;

1 2 1 . 2 1 1 1 . 2

;

PROC FREQ DATA=d1;

TABLES x;

RUN;

Output lange gauname tokią dažnių lentelę:

x Frequency Percent Cumulative Frequency Cumulative Percent

1 5 62.50 5 62.50

2 3 37.50 8 100

Frequency missing = 2

66

Šiame pavyzdyje stebėjimų yra n=10, skirtingų reikšmių k=3. Pagal nutylėjimą praleisti stebėjimai nėra įtraukiami į dažnių lentelę, tik apačioje parašoma kiek tokių stebėjimų yra, todėl dažniai yra skaičiuojami tik kintamojo x reikšmėms 1 ir 2, be to, pagal

nutylėjimą skaičiuojant procentinius ( *~if ), sukauptus iF ir sukauptus procentinius dažnius

*~iF praleisti stebėjimai į skaičiavimus neįtraukiami, t.y. juos skaičiuojant naudojamas

nepraleistų stebėjimų skaičius, kuris šiame pavyzdyje yra 8, pavyzdžiui, reikšmės x=1 procentinis dažnis apskaičiuojamas taip: 5/8*100=62.50.

c) Tegu turime tokius pačius duomenis kaip punkte b. PROC FREQ DATA=d1;

TABLES x / MISSPRINT;

RUN;



. 2 . . .

1 5 62.50 5 62.50

2 3 37.50 8 100


Kadangi nurodėme pasirinktį MISSPRINT, tai praleisti stebėjimai yra įtraukiami į dažnių lentelę (spausdinamas jų dažnis), tačiau skaičiuojant procentinius, sukauptus ir su-kauptus procentinius dažnius naudojamas nepraleistų stebėjimų skaičius, t.y. kaip ir punkte b.

d) Tegu turime tokius pačius duomenis kaip punkte b. PROC FREQ DATA=d1;

TABLES x / MISSING MISSPRINT;

RUN;



. 2 20 2 20

1 5 50 7 70

2 3 30 10 100


Kadangi panaudojome MISSING ir MISSPRINT, tai praleisti stebėjimai yra įtraukiami į procentinių, sukauptų ir sukauptų procentinių dažnių skaičiavimą.

e) Tegu turime tokius pačius duomenis kaip punkte b.

PROC FREQ DATA=d1;

TABLES x / MISSING MISSPRINT OUT=d2;

RUN;

Rezultatai bus ne tik Output lange, bet ir bus įrašyti į duomenų lentelę „d2“. Gausime tokią lentelę:

x Frequency Count Percent of total frequency . 2 20 1 5 50 2 3 30

f) DATA d1; INPUT x @@;

DATALINES;

2 1 1 . 2 4 1 1 . 2

;

PROC FREQ DATA=d1 ORDER=DATA;

TABLES x;

RUN;

67



2 3 37.5 3 37.5

1 4 50.0 7 87.5

4 1 12.5 8 100


Kadangi nurodėme ORDER=DATA, tai kintamojo x reikšmės dažnių lentelėje išdėstytos taip, kaip jos yra išdėstytos duomenų lentelėje.

g) Tegu duomenys tokie patys kaip punkte f.

PROC FREQ DATA=d1 ORDER=FORMATTED;

TABLES x;

FORMAT x words10.;

RUN;



four 1 12.5 1 12.5

one 4 50.0 5 62.5

two 3 37.5 8 100


Kadangi nurodėme ORDER=FORMATTED, tai kintamojo x reikšmės dažnių lentelėje išdėstytos pagal formatuotas reikšmes.

h) Tegu duomenys tokie patys kaip punkte f.

PROC FREQ DATA=d1 ORDER=FREQ;

TABLES x / missprint;

RUN;



. 2 . . .

1 4 50.0 4 50.

2 3 37.5 7 87.5

4 1 12.5 8 100


Kadangi nurodėme ORDER=FREQ, tai kintamojo x reikšmės dažnių lentelėje išdėstytos mažėjančio dažnio tvarka, išskyrus praleistus stebėjimus, kurie visada spausdinami pradžioje.

i) Tarkime, kad duomenys yra tekstinėje byloje „duomenys.txt“. Duomenys yra tokie:

kintamojo x reikšmės: a b . a a a b c . a

kintamojo y reikšmės: 1 2 1 2 1 2 1 1 1 1

Sudarykime atskirą dažnių lentelę kiekvienai kintamojo y reikšmei.

DATA d2;

INFILE ’c:\duomenys.txt’;

INPUT x $ y;

PROC SORT DATA=d2;

BY y;

PROC FREQ DATA=d2;

TABLES x / missprint;

BY y;

RUN;

Kadangi nurodėme BY sakinį, tai Output lange gauname atskiras lenteles kiekvienai kintamojo y reikšmei:

68

--------------------------------y=1-------------------------------


2 . . .

a 3 60 3 60

b 1 20 4 80

c 1 20 5 100


--------------------------------y=2-------------------------------


a 2 66.67 2 66.67

b 1 33.33 3 100

Kadangi procedūroje FREQ naudojame sakinį BY, tai prieš tai reikia surūšiuoti pradinę duomenų lentelę pagal BY kintamuosius.

j)

DATA d1;

INPUT x $ y @@;

DATALINES;

a 1 b 2 a 1 a 2 c 1 . 1 b 3 . 4 b 1 a 1

;

PROC FREQ DATA=d1;

TABLES x; WEIGHT y; RUN;



a 5 41.67 5 41.67

b 6 50.00 11 91.67

c 1 8.33 12 100


WEIGHT sakinyje nurodytame kintamajame y yra stebėjimo dažnis.

1.2. Kryžminės dviejų kintamųjų dažnių lentelės

Kryžminės dažnių lentelės sudaromos, kai turime du kintamuosius ir norime apskaičiuoti kiek kartų pasikartojo kintamųjų reikšmių deriniai. Kryžminėms dažnių lentelėms taip pat naudojama procedūra FREQ. Skiriasi tik TABLES sakinio sintaksė:

TABLES kintamasis_1 * kintamasis_2 / pasirinktys;

čia kintamasis_1, kintamasis_2 – kintamieji, kurių kryžminę dažnių lentelę norime sudaryti. Galima naudoti tokias pačias pasirinktis kaip ir sudarant vieno kintamojo dažnių lenteles, be to, TABLES sakinyje galima nurodyti tokias papildomas pasirinktis: NOCOL – neskaičiuoti stulpelių procentinių dažnių; NOROW - neskaičiuoti eilučių procentinių dažnių; NOFREQ - neskaičiuoti dažnių kiekvienam lentelės langeliui; NOPERCENT - neskaičiuoti procentinių dažnių (t.y. spausdinti tik dažnį, eilučių ir stulpelių procentinius dažnius). Taip pat galima naudoti WEIGHT ir BY sakinius kaip ir sudarant vieno kintamojo dažnių lenteles.

3.3 p a v y z d y s. Pateiksime kryžminės dviejų kintamųjų dažnių lentelės pavyzdį. Editor lange įveskime:

DATA pavyzdys;

INPUT x $ y @@;

DATALINES;

a 1 b 2 a 1 a 2 . 1 b 3 . 4 b 1 a 1

;

PROC FREQ DATA=pavyzdys;

TABLES x*y; RUN;

69

Output lange gauname tokią dažnių lentelę: x y

Frequency

Percent

Row Pct

Col Pct 1 2 3 4 Total

a 3 1 0 0 4

42.86 14.29 0.00 0.00 57.14

75.00 25.00 0.00 0.00

75.00 50.00 0.00 .

b 1 1 1 0 3

14.29 14.29 14.29 0.00 42.86

33.33 33.33 33.33 0.00

25.00 50.00 100.00 .

Total 4 2 1 0 7

57.14 28.57 14.29 0.00 100.00

Frequency Missing = 2

Šioje lentelėje kiekvienam kintamųjų x ir y reikšmių deriniui yra spausdinamas dažnis, procentinis dažnis, procentinis eilutės dažnis ir procentinis stulpelio dažnis.

2. Skaitinės charakteristikos

Skaitines charakteristikas galima suskirstyti į tokias tris grupes: 1) duomenų padėties; 2) duomenų sklaidos; 3) dažnių skirstinio formos. Pagrindinės duomenų padėties charakteristikos yra vidurkis, moda, mediana, kvantiliai. Pagrindinės duomenų sklaidos charakteristikos yra dispersija, standartinis nuo-krypis, duomenų aibės plotis, koreguota ir nekoreguota kvadratų suma, variacijos koeficientas. Pagrindinės dažnių skirstinio formos charakteristikos yra asimetrijos ir eksceso koeficientai. Šiame skyrelyje aprašysime įvairias skaitines charakteristikas, pateiksime jų statistinę interpretaciją, formules skaitinių charakteristikų apskaičiavimui bei paaiškinsime kaip jas apskaičiuoti naudojant SAS procedūras MEANS ir UNIVARIATE.

2.1. Skaitinės charakteristikos su procedūromis MEANS ir UNIVARIATE

Su procedūra MEANS galima apskaičiuoti įvairias skaitines kintamųjų charakte-ristikas. Procedūros MEANS sintaksė:

PROC MEANS <DATA=lentelė> <pasirinktys> <skaitinės_charakteristikos>;

VAR kintamieji;

RUN;

Nebūtina pasirinktis DATA=lentelė nurodo, kokios lentelės duomenis analizuosime.

Pagal nutylėjimą procedūra MEANS apskaičiuoja: stebėjimų, panaudotų skaičia-vimuose, skaičių N (t.y. nepraleistų stebėjimų skaičių), vidurkį (mean), standartinį nuokrypį (standard deviation), didžiausią (max) ir mažiausią (min) reikšmę. Jeigu išvardiname skaitines charakteristikas, tai apskaičiuos tik nurodytas. 3.1 lentelėje yra pateiktas sąrašas skaitinių charakteristikų, kurias galima apskaičiuoti su procedūra MEANS. P a s t a b a. Procedūra MEANS modos neskaičiuoja.

70

3.1 lentelė. Skaitinių charakteristikų sąrašas Raktinis žodis Skaitinė charakteristika

CSS koreguota kvadratų suma CV variacijos koeficientas (procentais) KURTOSIS | KURT eksceso koeficientas MAX maksimali reikšmė MEAN aritmetinis vidurkis MIN minimali reikšmė MODE Moda N stebėjimų, panaudotų skaičiavimuose, skaičius NMISS praleistų stebėjimų skaičius NOBS stebėjimų skaičius, t.y. N+NMISS RANGE duomenų aibės plotis SKEWNESS | SKEW asimetrijos koeficientas STD | STD standartinis nuokrypis STDERR | STDMEAN standartinė vidurkio paklaida SUM stebėjimų suma SUMWGT svorių suma USS nekoreguota kvadratų suma VAR Dispersija MEDIAN Mediana P1 pirmas procentilis P5 denktas procentilis P10 dešimtas procentilis P90 devyniasdešimtas procentilis P95 devyniasdešimt penktas procentilis P99 devyniasdešimt devintas procentilis Q1 pirmas kvartilis Q3 trečias kvartilis QRANGE tarpkvartilinis plotis

Jeigu procedūroje MEANS nenurodome sakinio VAR, tai skaitinės charakteristikos bus apskaičiuotos visiems skaitinio tipo kintamiesiems iš pradinės duomenų lentelės. Jeigu nurodome VAR sakinį, tai skaitinės charakteristikos bus apskaičiuotos tik nurodytiems kintamiesiems.

P a s t a b a. Procedūra MEANS nenaudoja skaičiavimuose stebėjimų, kuriems anali-zuojamo kintamojo reikšmė yra praleista.

MEANS sakinyje galima nurodyti tokias pasirinktis: MAXDEC=n nurodo maksimalų skaičių skaitmenų po kablelio, kuris yra spausdinamas; galimos n reikšmės: nuo 0 iki 8. VARDEF=sk nurodo dispersijos daliklį, čia sk=n-1 (pagal nutylėjimą) arba sk=n, kur n – stebėjimų skaičius.

3.4 p a v y z d y s.

a) PROC MEANS DATA=d1 MAXDEC=3 VAR MEAN;

Visiems skaitinio tipo kintamiesiems bus apskaičiuota dispersija ir vidurkis; rezultatai bus spausdinami su dviem skaitmenimis po kablelio.

b) PROC MEANS DATA=d1; VAR X Y;

71

Kintamiesiems X ir Y bus apskaičiuotas stebėjimų, panaudotų skaičiavimuose, skaičius; vidurkis; standartinis nuokrypis; didžiausia ir mažiausia reikšmė.

Procedūroje MEANS galima nurodyti tokius sakinius:

BY kintamieji;

Bus atliekama atskira analizė kiekvienai kintamųjų, nurodytų po BY, reikšmių grupei; jei naudojame BY sakinį, tai prieš tai reikia surūšiuoti pagal kintamuosius, nurodytus po BY. Jei nurodyto kintamojo (kintamųjų) reikšmė praleista, tai su ja elgiamasi kaip su bet kuria kita reikšme.

CLASS kintamieji;

Bus atliekama atskira analizė kiekvienai kintamųjų, nurodytų po CLASS, reikšmių grupei. Rezultatai spausdinami kompaktiškesne forma negu su BY sakiniu, be to, duomenų prieš tai nereikia surūšiuoti. Kai nurodome CLASS sakinį, tai pagal nutylėjimą yra skaičiuojama dar viena papildoma skaitinė charakteristika „N Obs“ – stebėjimų skaičius kiekvienoje CLASS kintamųjų reikšmių grupėje. Jei nurodyto kintamojo (kintamųjų) reikšmė yra praleista, tai atitinkamas stebėjimas neįtraukiamas į analizę, nebent nurodome MISSING pasirinktį PROC arba CLASS sakinyje.

FREQ kintamasis;

Nurodyto kintamojo reikšmės yra stebėjimų dažniai, t.y. vienas stebėjimas atitinka kelis stebėjimus. Jeigu kintamojo reikšmė nesveikas skaičius, tai trupmeninė dalis atmetama. Jei reikšmė mažesnė už vienetą arba praleistas stebėjimas, tai atitinkamas stebėjimas neįtrau-kiamas į skaičiavimus.

WEIGHT kintamasis;

Nurodome svorius. Kintamojo reikšmės nebūtinai sveiki skaičiai. Jeigu kintamojo reikšmė 0, tai stebėjimas įtraukiamas į bendrą stebėjimų skaičių. Jei kintamojo reikšmė mažesnė už 0, tai ji konvertuojama į 0 ir atitinkamas stebėjimas įtraukiamas į bendrą stebėjimų skaičių. Jeigu kintamojo reikšmė praleista, tai atitinkamas stebėjimas neįtraukiamas į analizę. Jei norime išbraukti stebėjimus su neigiamais ir nuliniais svoriais iš analizės, tai reikia PROC sakinyje nurodyti pasirinktį EXCLNPWGT.

Procedūra UNIVARIATE apskaičiuoja tokias pačias skaitines kintamųjų charak-teristikas (žr. 3.1 lentelę) kaip ir procedūra MEANS, tačiau pagal nutylėjimą ji spausdina praktiškai visas skaitines charakteristikas: 1) momentų lentelė (stebėjimų, panaudotų skaičiavimuose, skaičius, vidurkis, standartinis nuokrypis, asimetrijos ir eksceso koeficientai, koreguota ir nekoreguota kvadratų sumos, variacijos koeficientas, reikšmių suma, svorių suma, dispersija, standartinė vidurkio paklaida); 2) pagrindinių skaitinių charakteristikų lentelė (vidurkis, mediana, moda, standartinis nuokrypis, dispersija, duomenų aibės plotis, tarpkvartilinis plotis); 3) kvantilių lentelė; 4) ekstremalių reikšmių lentelė (pagal nutylėjimą penkios didžiausios ir penkios mažiausios reikšmės).

P a s t a b a. Paprastai procedūra MEANS yra naudojama, kai norime apskaičiuoti tik keletą skaitinių charakteristikų, o procedūra UNIVARIATE, kai norime atlikti pilną kiekvieno kintamojo analizę.

Procedūros UNIVARIATE sintaksė:

PROC UNIVARIATE <DATA=lentelė> <pasirinktys> ;

VAR kintamieji;

RUN;

72

Procedūroje UNIVARIATE galima naudoti pasirinktis VARDEF, EXCLNPWGT, bei sakinius BY, FREQ, WEIGHT. Jų sintaksė ir paskirtis tokia pati kaip ir procedūroje MEANS. Procedūros UNIVARIATE PROC sakinyje galima nurodyti pasirinktį MODES, kuri nurodo apskaičiuoti visas modas, nes pagal nutylėjimą yra spausdinama mažiausia moda. Galima nurodyti sakinį

ID kintamasis;

tada nurodyto kintamojo reikšmės bus panaudotos identifikuoti ekstremalias analizuojamo kintamojo reikšmes ekstremalių reikšmių lentelėje.

3.5 p a v y z d y s. PROC UNIVARIATE DATA=duomenys;

VAR svoris;

ID nr;

RUN;

Šiame pavyzdyje analizuojamas kintamasis yra svoris. Kintamojo nr reikšmės bus panaudotos identifikuoti ekstremalias kintamojo svoris reikšmes ekstremalių reikšmių lentelėje.

P a s t a b a. Su praleistais stebėjimais procedūroje UNIVARIATE elgiamasi taip pat kaip ir procedūroje MEANS.

Toliau pateiksime formules, kurios naudojamos apskaičiuojant skaitines charak-teristikas bei skaitinių charakteristikų savybes. Tegu ix - analizuojamo kintamojo i-tojo stebėjimo reikšmė (imami tik nepraleisti

stebėjimai); if - i-tosios reikšmės ix dažnis, jeigu naudojame FREQ sakinį. Jei FREQ

sakinio nenaudojame, tai 1=if kiekvienam i; iw - i-tosios reikšmės ix svoris, jeigu

naudojame WEIGHT sakinį. Jei WEIGHT sakinio nenaudojame, tai 1=iw kiekvienam i; n –

nepraleistų stebėjimų skaičius. Jei nurodome pasirinktį EXCLNPWGT ir WEIGHT sakinį, tai n nepraleistų stebėjimų su teigiamais svoriais skaičius.

Duomenų padėties charakteristikos:

1) vidurkis (mean): ./∑∑= iii wxwx (3.5)

Vidurkis – vidutinė stebėjimų reikšmė. Jis skaičiuojamas tik kiekybiniams duomenims. Tai dažniausiai naudojama duomenų padėties skaitinė charakteristika. Vidurkis pasižymi tokiomis savybėmis. Tegu turime tokius duomenis: .,...,1 nyy

Pažymėkime y - aritmetinis vidurkis.

a) Padauginkime kiekvieną reikšmę iy iš tam tikro skaičius u, t.y. ii yuv *= . Tada

nvv ,...,1 aritmetinis vidurkis yra .* yuv =

b) Pridėkime (atimkime) prie kiekvienos reikšmės iy tam tikrą skaičių u, t.y.

uyv ii ±= . Tada nvv ,...,1 aritmetinis vidurkis yra .uyv ±=

Vidurkį nepatariama naudoti, kai yra viena ar keletas stipriai išsiskiriančių (labai mažų arba labai didelių) reikšmių. 2) Moda 0M (mode) – reikšmė, kurios dažnis didžiausias. Moda gali būti skaičiuo-

jama ir kiekybiniams, ir kokybiniams duomenims. Moda gali neegzistuoti – visos reikšmės pasikartoja vienodą skaičių kartų. Jei yra viena moda – tai dažnių skirstinys vadinamas unimodiniu, jei yra dvi modos – bimodiniu, jei daugiau negu dvi modos, tai multimodiniu. 3) Procentiliai (percentile) – skaičiai, suskirstantys variacinę eilutę į 100 vienodų dalių; procentilis ap (a-tasis procentilis, a=1,...,100) yra skaičius variacinėje eilutėje, nuo

kurio į kairę yra a% duomenų, o į dešinę (100-a) % duomenų (žr. 3.1 pav.).

73

3.1 pav. Procentilis ap

Kvartiliai – skaičiai, suskirstantys variacinę eilutę į keturias lygias dalis (žr. 3.2 pav.).

3.2 pav. Kvartiliai

Apatinis (pirmasis) kvartilis 1Q - skaičius variacinėje eilutėje, nuo kurio į kairę yra 25% duomenų, o į dešinę 75% duomenų, jis yra 25-tasis procentilis. Viršutinis (trečiasis) kvartilis 3Q - skaičius variacinėje eilutėje, nuo kurio į kairę yra 75% duomenų, o į dešinę

25% duomenų, jis yra 75-tasis procentilis. Mediana dM - skaičius, už kurį 50% variacinės eilutės reikšmių yra nedidesnės ir

50% nemažesnės (žr. 3.2 pav.), t.y. mediana yra vidurinė reikšmė. Mediana kaip ir vidurkis charakterizuoja duomenų centro padėtį. Ją patariama naudoti, kai duomenų aibėje yra ekstremalių reikšmių (išskirčių). Kai dažnių skirstinys simetriškas ir unimodalus, tai .0MMX d ==

SAS yra realizuoti penki procentilių apskaičiavimo metodai. Metodas yra nurodomas su PCTLDEF=metodas (čia metodas=1, 2, 3, 4, 5) pasirinktimi procedūros MEANS arba UNIVARIATE PROC sakinyje.Tegu n yra analizuojamo kintamojo nepraleistų stebėjimų skaičius. Tarkime, kad reikšmes nxx ,...,1 išdėstėme į variacinę eilutę: )()2()1( ... nxxx ≤≤≤ .

Reikia apskaičiuoti t-ąjį procentilį. pažymėkime .100/tp = Tegu j yra sveikoji np dalis, o g yra np arba (n+1)p trupmeninė dalis, t.y.

.4PCTLDEFkai,)1(

;5arba3,2,1PCTLDEFkai,

=+=+

=+=

gjpn

gjnp

Formulės procentilių apskaičiavimui pateiktos 3.2 lentelėje. Kai nurodome WEIGHT sakinį, tai t-asis procentilis y yra apskaičiuojamas taip:

<<

=+

∑∑

∑+

==+

=+

,kai,

,kai,2/)(

1

11)1(

1)1()(

i

j

j

i

j

ji

i

j

jii

wpWwx

pWwxx

čia iw yra reikšmės )(ix dažnis, o .1

∑=

=n

i

iwW Kai stebėjimų svoriai vienodi, tai svertiniai

procentiliai yra nesvertiniai procentiliai, apskaičiuoti naudojant metodą 5.

Atskiru atveju (kai PCTLDEF=5) mediana (50-tasis procentilis) apskaičiuojama taip:

( )

>

=+=

+

+

lyginis.t.y.,0kai,

lyginis,t.y.,0kai,2

1

)1]2/([

)1]2/([])2/([

nengx

ngxxM

n

nnd (3.7)

74

3.2 lentelė. Procentilių apskaičiavimo metodai PCTLDEF= Formulė 1

)1()0()1()( ,)1( xxgxxgy jj =+−= + ;

2

=

=

≠

=

+ nelyginis,ir2/1kai,

lyginis,ir2/1kai,

,2/1kai,

)1(

)(

)(

jgx

jgx

gx

y

j

j

i

čia i yra 2/1+np sveikoji dalis;

3

>

==

+ ;0kai,

,0kai,

)1(

)(

gx

gxy

j

j

4 )()1()1()( ,)1( nnjj xxgxxgy =+−= ++ ;

5 (pagal nu-tylėjimą)

>

=+=

+

+

;0kai,

,0kai,2/)(

)1(

)1()(

gx

gxxy

j

jj

Duomenų sklaidos charakteristikos parodo duomenų išsidėstymą apie duomenų centrą): 1) duomenų aibės plotis (range) – skirtumas tarp didžiausios ir mažiausios reikšmės. Ši charakteristika labai jautri išskirtims. 2) Tarpkvartilinis plotis (interquartile range):

,13 QQIQR −= (3.8)

t.y. skirtumas tarp trečio ir pirmo kvartilio. 3) Dispersija (variance):

22 )(1

xxwd

s ii −= ∑ , (3.9)

čia d yra dispersijos daliklis. Jis nurodomas su pasirinktimi VARDEF=d procedūros MEANS arba UNIVARIATE PROC sakinyje. Galimos d reikšmės pateiktos 3.3 lentelėje, kurioje n -stebėjimų skaičius, o iw - i-tojo stebėjimo svoris. VARDEF=DF yra pagal nutylėjimą.

Dispersija parodo reikšmių išsibarstymą apie vidurkį. Dispersijos savybės: a) jei visas kintamojo reikšmes padauginame iš to paties skaičiaus, tai gauta dispersija bus padauginta iš to paties skaičiaus kvadrato; b) pridedant arba atimant tą patį skaičių iš kiekvienos reikšmės, dispersija nesikeičia.

3.3 lentelė. Dispersijos daliklio reikšmės Kai VARDEF= d lygu N N

DF n-1 WEIGHT ∑ iw

WDF 1−∑ iw

4) Vidutinis kvadratinis arba standartinis nuokrypis (standard deviation) kaip ir dispersija parodo duomenų sklaidą apie vidurkį. Tai dažniausiai skaičiuojama duomenų sklaidos charakteristika. Šios charakteristikos vienas iš privalumų, kad ji matuojama tais pačiais matavimo vienetais kaip ir pradiniai duomenys, tuo tarpu dispersijos matavimo vienetai yra duomenų matavimo vienetai kvadratu. Vidutinis kvadratinis nuokrypis gaunamas ištraukus kvadratinę šaknį iš dispersijos, t.y.

,2ss = (3.10)

75

čia 2s yra dispersija.

5) Standartinė vidurkio paklaida (standard error of mean):

,/STDERR ∑= iws (3.11)

čia s yra standartinis nuokrypis, iw yra reikšmės ix dažnis. Ši charakteristika skaičiuojama

tik tada, kai VARDEF=DF, kitais atvejais neskaičiuojama. 6) Nekoreguota kvadratų suma (uncorrected sum of squares):

.USS 2ii xw∑= (3.12)

7) Koreguota kvadratų suma (corrected sum of squares):

.)(CSS 2xxw ii∑ −= (3.13)

8) Variacijos koeficientas (coefficient of variation) procentais:

.100

CVx

s= (3.14)

Variacijos koeficientas bedimensinis dydis, jis naudojamas lyginant skirtingų duomenų aibių sklaidas. Jis taip pat gali būti naudojamas, kai norime palyginti skirtingais matavimo vienetais matuotų duomenų aibių sklaidą.

Dažnių skirstinio formos charakteristikos: 1) asimetrijos koeficientas (skewness) charakterizuoja dažnių skirstinio formos simetriškumą. Kai pasirinktis VARDEF=DF, tai asimetrijos koeficientas apskaičiuojamas taip:

,)2)(1(

g 31 ∑−−= iz

nn

n (3.15)

čia sxxi /)(z i −= standartizuoti stebėjimai.

Kai pasirinktis VARDEF=N, tai asimetrijos koeficientas apskaičiuojamas taip:

,1

g 31 ∑= iz

n (3.16)

Kadangi asimetrijos koeficientas bedimensinis dydis, tai jį galime naudoti kelių duomenų aibių dažnių skirstinių asimetriškumui palyginti. Kai skirstinys simetriškas, tai

.0g1 ≈ Jeigu 1g teigiamas, tai teigiama asimetrija (dešinioji), jei neigiamas – neigiama asimetrija (kairioji). 3.3 pav. pavaizduoti visi trys atvejai.

3.3 pav. Simetriško ir asimetriškų skirstinių pavyzdžiai

Jeigu 1g arti nulio, bet sunku nuspręsti ar yra asimetrija, ar ne galima apskaičiuoti pirmąjį ir antrąjį Pirsono koeficientus (žr.[1]). Pirmasis Pirsono asimetrijos koeficientas apskaičiuojamas taip:

,)(30)1(

s

MX

s

MXA d

s

−≈

−= (3.17)

76

čia X - aritmetinis vidurkis, 0M - moda, dM - mediana, s - standartinis nuokrypis. Jeigu

,15,0|| )1( <sA skirstinys simetriškas,

,1||15,0 )1( << sA nedidelė asimetrija, (3.18)

,1|| )1( >sA didelė asimetrija,

arba ,0)1( ≈sA skirstinys simetriškas,

,0)1( >sA teigiama asimetrija, (3.19)

,0| )1( <sA neigiama asimetrija,

Antrasis Pirsono asimetrijos koeficientas apibrėžiamas taip:

,2

13

13)2(

QQ

MQQA d

s −

−+= (3.20)

čia 1Q ir 3Q - pirmasis ir trečiasis kvartiliai, dM - mediana. Asimetriškumo kriterijus toks

pats kaip ir pirmajam Pirsono koeficientui. 2) eksceso koeficientas (kurtosis) – dažnių skirstinio lėkštumo matas. Kai VARDEF=DF, tai eksceso koeficientas skaičiuojamas taip:

,)3)(2(

)1(3

)3)(2)(1(

)1(g 4

2 −−−

−−−−

+= ∑

nn

nz

nnn

nni (3.21)

čia sxxi /)(z i −= standartizuoti stebėjimai.

Kai VARDEF=N, tai eksceso koeficientas apskaičiuojamas taip:

.31

g 42 −= ∑ iz

n (3.22)

Normaliojo skirstinio eksceso koeficientas .0g 2 = Jeigu 0g1 > , tai dažnių skirstinio

grafikas smailesnis negu normaliojo skirstinio; jeigu 0g1 < , tai – lėkštesnis. 3.4 pav. pavaizduoti visi trys atvejai.

Teigiamas ekscesas Nulinis ekscesas Neigiamas ekscesas

3.4 pav. Skirstinio su teigiamu, nuliniu ir neigiamu ekscesu pavyzdžiai

Kitos skaitinės charakteristikos, kurias skaičiuoja procedūros MEANS ir UNIVA-RIATE: 1) maksimali reikšmė (MAX); 2) minimali reikšmė (MIN); 3) N – nepraleistų stebėjimų skaičius. Stebėjimai, kuriems dažnis mažesnis už 1, reikšmė praleista, svoris mažesnis arba lygus nuliui (kai naudojama pasirinktis EXCLNPWGT), neįtraukiami į N skaičiavimą;

77

4) NMISS – praleistų stebėjimų skaičius. Stebėjimai, kuriems dažnis mažesnis už 1, svoris mažesnis arba lygus nuliui (kai naudojama pasirinktis EXCLNPWGT), neįtraukiami į NMISS skaičiavimą; 5) NOBS – bendras stebėjimų skaičius, t.y. NOBS=N+NMISS; 6) reikšmių suma (sum): .ii xwSUM ∑=

7) svorių suma (sum of weights): .∑= iwW

3.6 p a v y z d y s. Buvo išmatuotas 20 vaikų ūgis.Gauti tokie rezultatai (cm):

124 122 123 134 124 123 121 124 128 123 126 125 131 119 122 125 130 122 125 121

Reikia apskaičiuoti vidurkį, dispersiją, standartinį nuokrypį, pirmą kvartilį ir medianą. Interpretuoti gautus rezultatus. Analizę atliksime su procedūra MEANS. Editor lange įveskime:

DATA vaikai;

INFILE ’c:\vaikai.txt’;

INPUT ugis @@;

PROC MEANS DATA=vaikai MAXDEC=2 MEAN VAR STD Q1 MEDIAN;

RUN;

Output lange gauname tokius rezultatus:

The MEANS Procedure

Analysis Variable : ugis

Lower

Mean Variance Std Dev Quartile Median

124.60 13.62 3.69 122.00 124.00

Kadangi nurodėme MAXDEC=DF, tai rezultatai spausdinami su dviem skaitmenimis po kablelio. Kadangi nurodėme statistikų sąrašą, tai buvo apskaičiuotos tik nurodytos skaitinės charakteristikos. Kai nenurodome VAR sakinio, tai skaitinės charakteristikos apskaičiuojamos visiems kintamiesiems iš pradinės duomenų lentelės. DATA=vaikai nurodo kokios lentelės duomenis analizuosime. Gavome, kad vidutinis vaikų ūgis yra 124.6 cm; standartinis nuokrypis yra 3.69, o dispersija yra 13.62, šios dvi skaitinės charakteristikos parodo duomenų išsidėstymą apie vidurkį; pirmasis kvartilis lygus 122 cm, t.y. 5 (t.y. 25%) vaikų ūgis mažesnis už 122 cm ir 15 (t.y.75%) vaikų ūgis didesnis už 122 cm.

Tokius pačius rezultatus gautume ir su procedūra UNIVARIATE, Editor lange įvedę:

PROC UNIVARIATE DATA=vaikai MAXDEC=2; RUN;

3.7 p a v y z d y s. Tarkime, kad duota SAS duomenų lentelė „Kineskopai“, kurioje yra 200 kineskopų (4 paletai po 50 kineskopų) parametrų matavimai dviejose gamybinėse operacijos (I testeris ir II testeris). I testeryje buvo matuoti tokie parametrai: spindulio R srovės stiprumas (i_katodo_r), spindulio G srovės stiprumas (i_katodo_g), spindulio B srovės stiprumas (i_katodo_b); II testeryje buvo matuoti tokie parametrai: spindulio R srovės stiprumas (i_r), spindulio G srovės stiprumas (i_g), spindulio B srovės stiprumas (i_b). Be paminėtų stulpelių lentelėje yra dar du stulpeliai: kineskopo numeris (kin_nr) ir paleto numeris (paleto_nr). Tarkime, kad reikia apskaičiuoti vidurkį, standartinį nuokrypį, minimalią ir maksi-malią reikšmę I testeryje matuotiems parametrams atskirai kiekvienam paletui. Šio uždavinio sprendimui panaudosime procedūrą MEANS. Editor lange įveskime:

PROC MEANS DATA=kineskopai MAXDEC=4;

VAR i_katodo_r i_katodo_g i_katodo_b;

CLASS paleto_nr;

RUN;


78

The MEANS Procedure

N

paleto_nr Obs Variable Label N Mean Std Dev Minimum Maximum

1 50 i_katodo_r i_katodo_r 47 6.6915 0.3815 6.0000 9.0000

i_katodo_g i_katodo_g 47 6.5851 0.3557 6.0000 8.8000

i_katodo_b i_katodo_b 47 6.5617 0.3281 6.0000 8.6000










Kadangi nurodėme CLASS sakinį, tai stebėjimai buvo suskirstyti į grupes pagal kintamojo, nurodyto po CLASS, reikšmes ir atlikta atskira analizė kiekvienai grupei (t.y. atskira analizė kiekvienam paletui). Sakinyje VAR nurodome kurių kintamųjų skaitines charakteristikas reikia apskaičiuoti. Kiekvienam kintamajam gavome tokias skaitines charakteristikas: 1) N Obs – stebėjimų skaičius; 2) N – parodo kiek stebėjimų buvo panaudota apskaičiuojant kintamojo skaitines charakteristikas, pavyzdžiui, apskaičiuojant kintamojo i_katodo_r skaitines charakteristikas antrajame palete buvo panaudoti 49 stebėjimai (vienas stebėjimas neįtrauktas į analizę, nes jo reikšmė praleista); 3) vidurkis (Mean); matome, kad, pavyzdžiui, i_katodo_r vidurkis antrajame palete yra 6.6, o trečiajame palete yra 6.5898; 4) standartinis nuokrypis (Std Dev); matome, kad, pavyzdžiui, i_katodo_r standartinis nuokrypis antrajame palete yra 0.1555, o trečiajame palete yra 0.1584; 5) minimali reikšmė (Minimum); matome, kad, pavyzdžiui, pirmame palete visų srovių minimali reikšmė yra 6; 6) maksimali reikšmė (Maximum); matome, kad, pavyzdžiui, ketvirtajame palete visų srovių maksimali reikšmė yra 6.8. Atlikime išsamesnę kurio nors kintamojo, pavyzdžiui, i_katodo_r, stebėjimų pirma-jame palete analizę. Editor lange įveskime:

PROC UNIVARIATE DATA=kineskopai;

VAR i_katodo_r;

WHERE paleto_nr=1;

RUN;


The UNIVARIATE Procedure

Variable: i_katodo_r (i_katodo_r)

Moments

N 47 Sum Weights 47

Mean 6.69148936 Sum Observations 314.5

Std Deviation 0.38154707 Variance 0.14557817

Skewness 4.85337467 Kurtosis 30.3015408

Uncorrected SS 2111.17 Corrected SS 6.69659574

Coeff Variation 5.70197532 Std Error Mean 0.05565436

Basic Statistical Measures

Location Variability

Mean 6.691489 Std Deviation 0.38155

79

Median 6.700000 Variance 0.14558

Mode 6.600000 Range 3.00000

Interquartile Range 0.30000

Quantiles (Definition 5)

Quantile Estimate

100% Max 9.0

99% 9.0

95% 6.9

90% 6.8

75% Q3 6.8

50% Median 6.7

25% Q1 6.5

10% 6.5

5% 6.4

1% 6.0

0% Min 6.0

Extreme Observations

----Lowest---- ----Highest---

Value Obs Value Obs

6.0 2 6.8 36

6.4 50 6.9 21

6.4 43 6.9 24

6.4 40 6.9 48

6.5 49 9.0 12

Gavome, kad pirmajame palete vidutinis spindulio R srovės stiprumas yra 6.69148936; standartinis nuokrypis yra 0.38154707; asimetrijos koeficientas yra 4.85337467, taigi, skirstinys asimetriškas; eksceso koeficientas yra 30.3015408, taigi, dažnių skirstinys žymiai smailesnis negu normaliojo skirstinio; trečiasis kvartilis lygus 6.8, t.y. 75% kineskopų spindulio R srovės stiprumas yra mažesnis už 6.8; mediana lygi 6.7, t.y. 50% kineskopų spindulio R srovės stiprumas yra mažesnis už 6.7.

2.2. Standartizuotos reikšmės

Tarkime, kad turime duomenų aibę .,...,, 21 nxxx Tada standartizuotos reikšmės ,iz

ni ,....,1= apskaičiuojamos taip:

,,...,1, nis

xxz i

i =−

= (3.23)

čia x yra reikšmių nxxx ,...,, 21 aritmetinis vidurkis, o s – standartinis nuokrypis.

Gautos duomenų aibės nzzz ,...,, 21 aritmetinis vidurkis yra lygus 0, o standartinis

nuokrypis lygus 1. Standartizuotos reikšmės yra bedimensiniai dydžiai ir gali būti panaudotos palyginti skirtingas duomenų aibes.

3.8 p a v y z d y s. Tarkime, kad turime duomenis iš 3.6 pavyzdžio, šiame pavyzdyje buvome gavę, kad vaikų ūgių vidurkis yra 124.6, o standartinis nuokrypis 3.69. Standartizuokime duomenis. Editor lange įveskime:

DATA vaikai;

SET vaikai;

st_ugis=(ugis-124.6)/3.69;

RUN; Atlikus šį Data žingsnį lentelėje „vaikai“ bus sukurtas dar vienas stulpelis „st_ugis“, kuriame bus standartizuotos kintamojo „ugis“ reikšmės.

80

2.3 Išskirtys

Išskirtys – reikšmės stipriai išsiskiriančios iš kitų reikšmių. Jos iškraipo skaičiavimus, apskaičiuotos charakteristikos yra nestabilios, todėl prieš atliekant duomenų analizę reikėtų patikrinti ar nėra išskirčių. Jeigu yra, tai reikia nustatyti išskirties atsiradimo priežastį, galbūt, tai duomenų įvedimo klaida, pasikeitė eksperimento sąlygos, labai retas įvykis ir pan. Matavimo rezultatai su išskirtimis kartais lengvai pastebimi, nes jie žymiai skiriasi nuo kitų. Abejotinais atvejais atliekama analizė, padedanti surasti išskirtis. Kai duomenų skirstinys normalusis, duomenų aibės išskirtys nustatomos naudojant standartizuotas reikšmes nzzz ,...,, 21 . Galima naudotis tokia taisykle: reikšmė ix yra sąlyginė

išskirtis, jei atitinkama reikšmė iz tenkina sąlygą: ;3||2 << iz reikšmė ix yra išskirtis, jei

atitinkama reikšmė iz tenkina sąlygą: .3|| >iz

Kai duomenų skirstinys nėra artimas normaliajam skirstiniui galima naudotis tokia taisykle (žr. [3]): reikšmė yra sąlyginė išskirtis, jei ji priklauso intervalui: [Q1-3*IQR, Q1-1.5*IQR) arba (Q3+1.5*IQR, Q3+3*IQR]; reikšmė yra išskirtis, jei ji mažesnė už Q1-3*IQR arba didesnė už Q3+3*IQR, čia Q1 – pirmasis kvartilis, Q3 – trečiasis kvartilis, IQR=Q3-Q1 tarpkvartilinis plotis.

3.9 p a v y z d y s. Buvo išmatuotas 20 vaikų ūgis.Gauti tokie rezultatai (cm):

124 122 123 134 124 123 121 124 128 123 126 125 131 119 122 125 130 122 125 121

Duomenų lentelę galime sukurti su tokiu Data žingsniu:

DATA vaikai;


INPUT ugis @@;

RUN;

Norint apskaičiuoti išskirtis ir sąlygines išskirtis, reikia žinoti pirmojo Q1, trečiojo Q3 kvartilio ir trapkvartilinio pločio IQR=Q3-Q1 reikšmes. Jas galima apskaičiuoti su procedūra MEANS:

PROC MEANS DATA=vaikai Q1 Q3 QRANGE;

var ugis;

RUN; Output lange gauname:

The MEANS Procedure

Analysis Variable : ugis

Lower Upper Quartile

Quartile Quartile Range

122.0000000 125.5000000 3.5000000

Apskaičiuojame sąlyginių išskirčių intervalus:

[Q1-3*IQR, Q1-1.5*IQR)=[122-3*3.5, 122-1.5*3.5) =[111.5, 116.75) arba (Q3+1.5*IQR, Q3+3*IQR]=(125.5+1.5*3.5, 125.5+3*3.5] =(130.75, 136].

Palyginę gautas reikšmes su pradiniais duomenimis matome, kad reikšmės 131 ir 134 yra sąlyginės išskirtys. Reikšmė yra išskirtis, jei ji mažesnė už Q1-3*IQR=122-3*3.5=111.5 arba didesnė už Q3+3*IQR=125.5+3*3.5=136. Palyginę gautas reikšmes su pradiniais duomenimis matome, kad išskirčių nėra.

2.4. Skaitinių charakteristikų įrašymas į duomenų lentelę

Visose SAS procedūrose yra numatyta galimybė gautus rezultatus įrašyti į lentelę. Aprašysime kaip skaitines charakteristikas, apskaičiuotas su procedūra MEANS arba Univariate įrašyti į lentelę.

81

Procedūroje MEANS galima naudoti sakinį OUTPUT, kuris nurodo, kad rezultatus įrašyti į SAS lentelę. Sintaksė:

OUTPUT OUT = lentelė statistikų_sąrašas;

čia lentelė – lentelės vardas, į kurią norime įrašyti rezultatus, statistikų_sąrašas - išvardiname skaitines charakteristikas, kurias norime įrašyti į lentelę. Galima naudoti kelis OUTPUT sakinius arba kelis statistikų sąrašus.Viena iš galimų statistikų sąrašo formų:

statistika (kintamieji)=vardų_sąrašas

čia statistika – nurodome kokią skaitinę charakteristiką įrašyti (pavyzdžiui, jei norime įrašyti vidurkį, tai rašome MEAN; galimų raktinių žodžių sąrašą žr. 3.1 lentelėje), kintamieji – analizuojami kintamieji, vardų_sąrašas – kokiais vardais pavadinti stulpelius rezultatų lentelėje; analizuojamų kintamųjų ir vardų sąrašo tvarka susijusi.

3.10 p a v y z d y s. PROC MEANS DATA=d1 NOPRINT;

VAR k1 k2 k3;

OUTPUT OUT=nauja SUM(k1 k3)=suma_k1 suma_k3;

RUN;

Nebūtina pasirinktis NOPRINT nurodo, kad rezultatus įrašyti į lentelę, bet Output lange nespausdinti. Bus sukurta lentelė „nauja“ su dviem stulpeliais suma_k1 ir suma_k3 ir vienu stebėjimu (eilute), pirmame stulpelyje bus kintamojo k1 reikšmių suma, o antrame kintamojo k3 reikšmių suma.

3.11 p a v y z d y s. Tarkime, kad turime tokius pačius duomenis kaip 3.7 pavyzdyje, t.y. duomenų lentelė „Kineskopai“, kurioje yra 200 kineskopų (4 paletai po 50 kineskopų) parametrų matavimai dviejose gamybinėse operacijos (I testeris ir II testeris). Apskaičiuokime II testeryje matuotų parametrų (t.y. spindulio R srovės stiprumo (i_r), spindulio G srovės stiprumo (i_g), spindulio B srovės stiprumo (i_b)) vidurkius atskirai kiekvienam paletui ir įrašykime į lentelę „vidurkiai_1“.

PROC MEANS NOPRINT DATA=Kineskopai;

BY paleto_nr;

VAR i_r i_g i_b;

OUTPUT OUT=vidurkiai MEAN (i_r i_g i_b)=vid_i_r vid_i_g vid_i_b;

RUN;

Gausime tokią lentelę “vidurkiai_1”:

paleto_nr _TYPE_ _FREQ_ vid_i_r Vid_i_g vid_i_b 1 0 50 6.244 6.212 6.268 2 0 50 6.202 6.174 6.208 3 0 50 6.138 6.162 6.186 4 0 50 6.238 6.188 6.266

Stulpelio _TYPE_ reikšmė 0 reiškia, kad apskaičiuotas bendras vidurkis kiekviename palete; stulpelyje _FREQ_ yra stebėjimų, panaudotų skaičiuojant vidurkį, skaičius; kituose stulpeliuose yra analizuojamų kintamųjų vidurkiai.

Procedūroje UNIVARIATE galima naudoti sakinį OUTPUT, kuris nurodo, kad rezultatus įrašyti į SAS lentelę. Sintaksė:

OUTPUT OUT=lentelė statistikų_sąrašas=stulpelių_vardai;

3.12 p a v y z d y s. Duota lentelė „Testas“, kurioje yra tokie duomenys: studento pažymėjimo numeris (nr), dviejų testų (testas_1 ir testas_2) ir egzamino (egzaminas) rezultatai. Apskaičiuosime pirmo ir antro testo vidurkį, bei pirmojo testo standartinį nuokrypį. Duomenis įrašysime į lentelę „Rezultatai“.

82

DATA Testas;

INPUT nr $ testas_1 testas_2 egzaminas @@;

DATALINES;

01145 6 8 7 01147 9 10 10

01148 7 7 6 01149 6 6 7

01150 9 9 9 01152 8 9 8

01153 8 8 9 01154 9 9 8

01155 8 9 8 01156 9 10 10

01157 9 10 8 01158 6 7 6

;

PROC UNIVARIATE DATA=Testas NOPRINT;

VAR testas_1 testas_2;

OUTPUT OUT=Rezultatai MEAN=vid_test1 vid_test2 STD=stand_nuokr_test1;

RUN;

Į lentelę įrašys pirmo ir antro testų vidurkius (stulpeliai vadinsis vid_test1 ir vid_test2); kintamojo testas_1 standartinį nuokrypį (stulpelis vadinsis stand_nuokr_test1). Lentelėje ”Rezultatai” gausime: vid_test1=7.833, vid_test2=8.5, stand_nuokr_test1=1.2673.

2.5. Skaitinių charakteristikų apjungimas su pradiniais duomenimis

Iliustruosime kaip su procedūra MEANS arba UNIVARIATE apskaičiuotas ir įrašytas į lentelę statistikas apjungti su pradinės lentelės duomenimis.

3.13 pavyzdys. Duota lentelė ”Duomenys”, kurioje yra trys kintamieji: prekės pavadinimas (pavad), diena (diena), parduotų vienetų skaičius (kiekis). Reikia paruošti ataskaitą atskirai kiekvienai dienai ir apskaičiuoti procentą parduotų to pavadinimo prekių tarp tą dieną parduotų prekių. Editor lange įveskime:

DATA Duomenys;

INPUT pavad $ diena $ kiekis;

LABEL pavad=’Prekės pavadinimas’

diena=’Diena’

kiekis=’Parduotų vienetų skaičius’;

DATALINES;

x1 1 15

x2 1 20

x3 2 31

x4 1 22

x5 3 41

x6 2 18

;

PROC SORT DATA=Duomenys;

BY diena;

PROC MEANS NOPRINT DATA=Duomenys;

VAR kiekis;

BY diena;

OUTPUT OUT=Rezultatai SUM(kiekis)=bendras_sk;

PROC PRINT DATA=Rezultatai; RUN;

Data žingsnyje yra sukuriama pradinių duomenų lentelė „Duomenys“. Procedūra MEANS apskaičiuoja kiekvieną dieną parduotų prekių skaičių (bendras_sk) ir duomenis įrašo į lentelę „Rezultatai“. Kadangi procedūroje MEANS naudojame BY sakinį, tai prieš tai reikia surūšiuoti (su procedūra SORT) pagal kintamąjį, nurodytą po BY. Rezultatas:

Obs diena _TYPE_ _FREQ_ bendras_sk

1 1 0 3 57

2 2 0 2 49

3 3 0 1 41

DATA Procentai;

MERGE Duomenys Rezultatai;

BY diena;

83

Procentai=kiekis/bendras_sk*100;

PROC PRINT DATA=Procentai;

BY diena; ID diena;

VAR pavad kiekis bendras_sk procentai;

RUN;

Data žingsnyje yra apjungiama pradinių duomenų lentelė „Duomenys“ su lentelė „Rezultatai“, kurioje yra apskaičiuoti vidurkiai ir apskaičiuojami procentai. Rezultatas:

diena pavad kiekis bendras_sk procentai

1 x1 15 57 26.316

x2 20 57 35.088

x4 22 57 38.596

2 x3 31 49 63.265

x6 18 49 36.735

3 x5 41 41 100.000

Su procedūra MEANS arba UNIVARIATE galima sukurti lentelę, kurioje vietoje grupių sumų būtų bendra suma. Tačiau šiuo atveju mes negalime naudoti MERGE, nes nėra bendrų kintamųjų. Daroma taip (žr. [7]):

DATA nauja_lentelė;

IF _N_=1 THEN SET bendra_suma;

SET pradinė_lentelė;

RUN;

čia bendra_suma – lentelė su vienu stebėjimu, kurioje yra bendra suma; pradinė_lentelė – lentelė su daugiau negu vienu stebėjimu (pradinė duomenų lentelė). P a s t a b a. Tokią procedūrą galima taikyti bet kada, kai reikia apjungti lentelę su vienu stebėjimu su lentelė, kurioje yra daugiau negu vienas stebėjimas ir lentelės neturi bendrų kintamųjų.

3.14 p a v y z d y s. Tarkime, kad turime tokius pačius duomenis kaip 3.9 pavyzdyje. Šiame pavyzdyje mes tikrinome ar duomenų aibėje yra sąlyginių išskirčių arba išskirčių, tačiau tai mes atlikome rankiniu būdu. Gavome, kad reikšmės 131 ir 134 yra sąlyginės išskirtys. Parašykime programą, kuri sukurtų lentelę, kurioje būtų sąlyginės išskirtys. Iš pradžių reikia apskaičiuoti pirmą ir trečią kvartilius, juos įrašyti į lentelę, paskui šias skaitines charakteristikas apjungti su pradiniais duomenimis ir lentelėje palikti tik tuos stebėjimus, kurie yra sąlyginės išskirtys. Editor lange įveskime:

DATA vaikai;

INPUT ugis @@;

DATALINES;

124 122 123 134 124 123 121 124 128 123 126 125 131 119

122 125 130 122 125 121

;

RUN;

PROC MEANS NOPRINT DATA=vaikai;

VAR ugis;

OUTPUT OUT=pagalbinis Q1(ugis)=Q1 Q3(ugis)=Q3;

RUN;

DATA rezultatas;

IF _N_=1 THEN SET pagalbinis;

SET vaikai;

RUN;

DATA rezultatas;

SET rezultatas;

IQR=Q3-Q1;

IF Q1-3*IQR<=ugis<Q1-1.5*IQR OR Q3+1.5*IQR<ugis<=Q3+3*IQR;

KEEP ugis;

RUN;

84

Lentelėje „rezultatas“ bus tik tie stebėjimai iš pradinės duomenų lentelės, kurie yra sąlyginės išskirtys, t.y. reikšmės 131 ir 134.

3. Grafiniai duomenų analizės metodai

Grafikai suteikia informacijos apie duomenų skirstinio formą, išskirtis, modą, didžiausią ir mažiausią reikšmes ir pan. Pavaizdavus duomenis grafiškai, lengviau juos interpretuoti. Yra labai daug įvairių grafikų. Vieni grafikai braižomi kokybiniams, kiti kiekybiniams duomenims, yra grafikų skirtų vienam kintamajam, poriniams stebėjimams ir pan. Šiame skyrelyje aprašysime kai kurių dažniausiai naudojamų grafikų ir diagramų braižymą su SAS.

3.1. Stulpelių diagramos

Stulpelių diagramos braižomos kokybiniams arba kiekybiniams kintamiesiems, kurie įgyja ne daug reikšmių. Šiose diagramose dažnį atitinka stulpelio aukštis. Braižomos horizontalių ir vertikalių stulpelių diagramos. Galima braižyti dažnių, procentinių dažnių, sukauptų arba sukauptų procentinių dažnių diagramas. SAS taip pat yra numatyta galimybė braižyti palyginamąsias stulpelių diagramas, o taip pat vidurkių ir sumų stulpelių diagramas.

3.1.1. Dažnių stulpelių diagramos

Stulpelių diagramos (Bar charts) yra braižomos su SAS modulio BASE procedūra CHART arba su SAS modulio GRAPH procedūra GCHART. Su procedūra GCHART galima nubraižyti aukštesnės kokybės grafikus. Iš pradžių aprašysime kaip braižyti su procedūra CHART. Vertikalių stulpelių diagrama:

PROC CHART DATA=lentelė;

VBAR kintamieji / pasirinktys;

RUN;

Horizontalių stulpelių diagrama :


HBAR kintamieji / pasirinktys;

RUN;

čia lentelė – duomenų lentelės vardas; kiekvienam nurodytam kintamajam braižoma atskira diagrama. VBAR ir HBAR sakinuose galima nurodyti tokias pasirinktis: grafiko tipas: TYPE =FREQ dažnių grafikas; TYPE =PECENT procentinių dažnių grafikas; TYPE =CFREQ sukauptų dažnių grafikas; TYPE =CPERCENT sukauptų procentinių dažnių grafikas; MISSING - praleisti stebėjimai pavaizduojami atskiru stulpeliu. Pagal nutylėjimą tariama, kad skaitinio tipo kintamasis yra tolydus ir procedūra sugrupuoja duomenis į intervalus. Jei skaitinio tipo kintamasis įgyja tik keletą reikšmių ir norime atskiro stulpelio kiekvienai reikšmei, tai nurodome pasirinktį DISCRETE. Kaip duomenis sugrupuoti į intervalus galima nurodyti su MIDPOINTS=reikšmės, čia reikšmės, tai grupavimo intervalo vidurio taškai (išdėstyti didėjančia tvarka), pavyzdžiui, MIDPOINTS=5.5 6.5 7.5; arba LEVELS=n, čia n – stulpelių skaičius.


INPUT x $ @@;

DATALINES;

a b c a a b a c b a

;

RUN;

PROC CHART DATA=d1;

85

HBAR x / TYPE=CFREQ;

RUN;

PROC CHART DATA=d1;

VBAR x;

RUN;

Pirmosios procedūros CHART rezultatas yra kintamojo x sukauptų dažnių horizontalių stulpelių diagrama (žr. 3.5 pav.), nes nurodėme TYPE=CFREQ. Antrosios procedūros CHART rezultatas yra kintamojo x dažnių vertikalių stulpelių diagrama (žr. 3.6 pav).

3.5 pav. Sukauptų dažnių horizontalių stulpelių diagrama

3.6 pav. Dažnių vertikalių stulpelių diagrama


INPUT x $ @@;

DATALINES;

a b c . a b . b b b

;

RUN;

PROC CHART DATA=d2;

VBAR x;

RUN;

PROC CHART DATA=d2;

VBAR x / MISSING;

RUN;

Šių procedūrų rezultatai pateikti 3.7 pav. Antrojoje diagramoje praleisti stebėjimai pavaizduoti atskiru stulpeliu, nes procedūroje nurodėme MISSING.

86

Pirmosios procedūros CHART rezultatas Antrosios procedūros CHART rezultatas

3.7 pav. Stulpelių diagramos

P a s t a b a. Procedūroje CHART kaip ir kitose SAS procedūrose galima naudoti sakinius: BY (atskiras grafikas kiekvienai stebėjimų grupei), WHERE (grafikas imant dalį pradinių duomenų), žr. I sk. 14 skyrelį. Su procedūra GCHART galima nubraižyti geresnės kokybės grafikus. Galima naudoti tokias pačias pasirinktis kaip ir procedūroje CHART, be to, yra daug kitų pasirinkčių, kurių sąrašą galima pasižiūrėti pagrindiniame meniu pasirinkus Help→SAS Help and Documen-tation. Pateiksime pavyzdį.


INPUT x @@;

DATALINES;

1 2 1 2 3 1 1

;

RUN;

pattern color=blue;

PROC GCHART DATA=d1;

VBAR x / DISCRETE; /* atskiras stulpelis kiekvienai x reikšmei*/

RUN;

pattern color=green; /* nurodome stulpelių spalvą*/


HBAR x / TYPE=CFREQ DISCRETE; /* sukauptų dažnių stulpelių diagrama*/

RUN; QUIT;

Šių procedūrų rezultatas pateiktas 3.8 pav. Kadangi nurodėme DISCRETE, tai braižomas atskiras stulpelis kiekvienai x reikšmei. Sakinyje PATTERN su COLOR pasirinktimi nurodėme stulpelio spalvą. Antrojoje procedūroje CHART nurodėme TYPE=CFREQ, todėl nubraižė sukauptų dažnių diagramą.

87

Pirmosios procedūros GCHART rezultatas Antrosios procedūros GCHART rezultatas


Paminėsime dar kelias pasirinktis, naudojamas HBAR arba VBAR sakiniuose: ASCENDING – išdėsto stulpelius pagal aukštį didėjančia tvarka; DESCENDING – išdėsto stulpelius pagal aukštį mažėjančia tvarka; SPACE=n – nurodome tarpų tarp stulpelių dydį (čia n – neneigiamas skaičius; pavyzdžiui, SPACE=0 – nebus tarpų tarp stulpelių); WIDTH=n – nurodome stulpelių plotį (čia n - stulpelio plotis).


INPUT x @@;

DATALINES;

1 2 1 2 3 1 1

;

RUN;

PATTERN COLOR=BLUE;


VBAR x / DISCRETE;

RUN;

PATTERN COLOR=GREEN;


VBAR x / DISCRETE ASCENDING WIDTH=1.5 ;

RUN; QUIT;

Rezultatas pateiktas 3.9 paveiksle.



88

3.1.2. Sumų ir vidurkių stulpelių diagramos

Galima stulpelių diagramoje pavaizduoti ne kintamojo dažnius, o tam tikro kito kinta-mojo reikšmių sumas arba vidurkius analizuojamo kintamojo reikšmėms. Sintaksė:


VBAR kintamieji / pasirinktys;

RUN;

Nurodytų kintamųjų reikšmės atidedamos horizontalioje ašyje. Braižoma atskira diagrama kiekvienam nurodytam kintamajam. Pasirinktys: SUMVAR=kintamasis, čia kintamasis, kurio reikšmės sumuojamos arba skaičiuojamas reikšmių vidurkis; apskaičiuotos charakteristikos atidedamos vertikalioje ašyje; TYPE=MEAN | SUM, jei nurodome MEAN - braižoma vidurkių diagrama, jei – SUM, tai reikšmių sumų diagrama; pagal nutylėjimą, kai nurodyta pasirinktis SUMVAR=kintamasis yra braižoma reikšmių sumų diagrama. Kaip ir dažnių stulpelių diagramose galima naudoti DISCRETE, MIDPOINTS, LEVELS pasirinktis (žr. 3.1.1 skyrelį).

3.19 pavyzdys. DATA d1;

INPUT x y @@;

DATALINES;

1 4 2 5 1 3 3 5 2 1 1 1 1 3

;

RUN;

PROC CHART DATA=d1;

VBAR x / DISCRETE SUMVAR=y TYPE=MEAN;

RUN;

PATTERN COLOR=GREEN;


VBAR x / DISCRETE SUMVAR=y TYPE=MEAN;

RUN; QUIT;

Rezultatas pateiktas 3.10 paveiksle. Horizontalioje ašyje yra atidėtos kintamojo x reikšmės: 1, 2, 3 ir braižomas atskiras stulpelis kiekvienai x reikšmei, nes nurodme DISCRETE. Parinktis TYPE=MEAN nurodo, kad braižoma vidurkių stulpelių diagrama, o parinktis SUMVAR=y nurodo, kad vertikalioje ašyje atidedami kintamojo y reikšmių vidurkiai kiekvienai x reikšmei (kai x=1, tai stulpelio aukštis yra (4+3+1+3)/4=2.75; kai x=2, tai stulpelio aukštis yra (5+1)/2=3; kai x=3, tai stulpelio aukštis yra 5).

Procedūros CHART rezultatas Procedūros GCHART rezultatas


89

3.1.3. Grupės ir pogrupiai stulpelių diagramoje

Procedūros CHART sakinyje HBAR arba VBAR galima nurodyti pasirinktis: GROUP=kintamasis; braižomi keli stulpeliai vienas šalia kito, po vieną stulpelį kiekvienai nurodyto kintamojo reikšmei; kintamasis turi būti diskretus, gali būti skaitinio arba simbolinio tipo; SUBGROUP=kintamasis; stulpelis padalinamas nuodyto kintamojo reikšmėmis; pirmas reikšmės simbolis naudojamas stulpeliui užpildyti. GROUP ir SUBGROUP galima naudoti ir kartu. Galima braižyti ne tik dažnių, bet ir sumų bei vidurkių stulpelių diagramas (reikia nurodyti SUMVAR ir TYPE=MEAN | SUM). Tokias pačias pasirinktis galima naudoti ir GCHART procedūroje.

3.20 p a v y z d y s. Duota lentelė „Duomenys“, kurioje yra tokie kintamieji: parduotuvės numeris (numeris), prekių tipas (tipas), metai, parduotų prekių skaičius (parduota). Editor lange įveskime:

DATA Duomenys;

INPUT numeris $ tipas $ metai parduota ;

DATALINES;

15 tipas1 2004 251

15 tipas1 2005 280

15 tipas2 2004 150

15 tipas2 2005 168

16 tipas1 2004 315

16 tipas1 2005 390

16 tipas2 2004 280

16 tipas2 2005 305

;

RUN;

PROC GCHART DATA=Duomenys;

VBAR tipas / SUBGROUP=numeris SUMVAR=parduota;

RUN; QUIT;

PROC GCHART DATA=Duomenys;

VBAR tipas / GROUP=metai SUBGROUP=numeris SUMVAR=parduota TYPE=MEAN;

RUN; QUIT;



Rezultatas pateiktas 3.11 paveiksle. Pirmosios GCHART procedūros rezultatas yra vertikalių stulpelių diagrama: vienas stulpelis kiekvienai kintamojo „tipas“ reikšmei;

90

stulpeliai padalinti kintamojo „numeris“ reikšmėmis; horizontalioje ašyje atidėtos kintamojo „parduota“ reikšmių sumos. Antrosios GCHART procedūros rezultatas yra vertikalių stulpelių diagrama: braižomos stulpelių grupės (kintamojo „metai“ reikšmės); kiekvienoje stulpelių grupėje po vieną stulpelį kiekvienai kintamojo „tipas“ reikšmei; stulpeliai padalinti kintamojo „numeris“ reikšmėmis; horizontalioje ašyje atidėti kintamojo „parduota“ reikšmių vidurkiai.

Kai braižome horizontalių stulpelių diagramą, tai pagal nutylėjimą dažnių, procentinių, sukauptų procentinių dažnių diagramose spausdinamas dažnis, sukauptas, procentinis, sukauptas procentinis dažnis. Jeigu nurodysime kokias skaitines charakteristikas spausdinti, tai spausdins tik nurodytas ir dažnį. Galima nurodyti: CFREQ sukauptas dažniai; CPERCENT sukauptas procentinis dažnis; FREQ dažnis; PERCENT procentinis dažnis; MEAN vidurkis (galima naudoti tik su SUMVAR ir TYPE=MEAN); SUM suma (galima naudoti tik su SUMVAR ir TYPE=SUM); NOSTATS nespausdinti statistikų horizontalių stulpelių diagramoje;

P a s t a b a. Jei nurodėme TYPE=MEAN, tai galima apskaičiuoti tik vidurkį ir dažnį; jei nurodėme TYPE=SUM, tai galima apskaičiuoti tik sumą ir dažnį; Jei nurodome NOZEROS pasirinktį, tai diagramoje nebus stulpelių su nuliniu dažniu. Ši pasirinktis naudojama su HBAR ir VBAR sakiniais. Galima nurodyti FREQ=kintamasis pasirinktį; čia kintamojo reikšmės nurodo stebėjimo dažnį. Jei nenurodome, tai kiekvieno stebėjimo dažnis yra lygus 1. Jei FREQ kintamojo reikšmės nėra sveiki skaičiai, tai trupmeninė dalis yra atmetama. Jei naudojame SUMVAR, tai sumos dauginamos iš nurodyto kintamojo reikšmių.

3.2. Diagrama medis

Diagrama medis (steam and leaf plot) parodo kiek kartų pasikartojo reikšmė. Iš jos galima spręsti apie duomenų skirstinį, modą, asimetriškumą, matomos išsiskiriančios reikš-mės ir pan. Šios diagramos privalumas lyginant su grupuotų duomenų stulpelių diagrama tas, kad neprarandama pradinė informacija, kuri dingsta grupuojant duomenis. Ši diagrama braižoma taip: jei skaičius susideda iš dviejų ar daugiau skaitmenų, tai jį galima išskaidyti į šaką ir lapą. Šaka yra pirmasis skaitmuo (pirmieji skaitmenys). Lapas – paskutinis skaitmuo (paskutiniai skaitmenys), pavyzdžiui, skaičių 367 galima išskaidyti dviem būdais: a) 3|67, čia 3 – šaka, 67 – lapas; b) 36|7, čia 36 – šaka, 7- lapas.

3.21 p a v y z d y s. Tarkime, kad gavome tokią diagramą: 3|2 0 1 4

5|5 6 3 2 9

7|1 0 4 3 6 7

10|5 4

Iš diagramos matome, kad pasirodė tokios kintamojo reikšmės: 32, 30, 31, 34, 55, 56 ir t.t. Diagramą medį galima nubraižyti su procedūra UNIVARIATE, reikia nurodyti pasirinktį PLOTS.

3.22 p a v y z d y s. Tarkime, kad sukūrėme lentelę su tokiu DATA žingsniu:

DATA Duomenys;

INPUT x @@;

DATALINES;

11 12 15 28 25 23 13 22 31 16 21 18

; RUN;

PROC UNIVARIATE DATA=Duomenys PLOTS;

VAR x; RUN;

91

Output lange gauname diagramą, pavaizduotą 3.12 paveiksle.

3.12 pav. Diagrama medis

Iš diagramos matome, kad kintamasis x įgijo tokias reikšmes: 11, 12, 13, 15, 16, 18, 21, 22, 23, 25, 28, 31.

3.3 Histograma

Histograma (histogram) – empirinis tankio analogas. Ji skiriasi nuo stulpelių diagra-mos tuo, kad histogramoje dažnį charakterizuoja stulpelio plotas, o ne stulpelių aukštis. Histograma braižoma tolydiems kintamiesiems. Duomenys yra sugrupuojami į intervalus. Knygoje [1] intervalų skaičių rekomenduojama pasirinkti taip: intervalų skaičius k=5, kai

stebėjimų skaičius 25≤n ir ,nk ≈ kai n>25. Taip pat galima naudotis Sturgeso formule: .ln22.31 nk +≈ Pasirinkę intervalų skaičių, apskaičiuojame grupavimo intervalo ilgį:

,/)( minmax kxxh −= čia maxx - maksimali analizuojamo kintamojo reikšmė, o minx -

minimali. Suskaičiuojame kiek reikšmių pateko į kiekvieną intervalą, t.y. nagrinėjame intervalą [ minx , minx +h), suskaičiuojame kiek kintamojo x reikšmių pateko į šį intervalą;

nagrinėjame intervalą [ minx +h, minx +2h], suskaičiuojame kiek kintamojo x reikšmių pateko į šį intervalą ir t.t. Braižome stulpelius, kurių plotis lygus intervalo ilgiui h, o j-tojo stulpelio aukštis ,/ hp j čia jp yra į j-ąjį intervalą patekusių reikšmių skaičius padalintas iš visų

reikšmių skaičiaus, t.y. santykinis dažnis. Taigi, j-tojo stulpelio plotas yra jp . 3.13 pav. yra

schematiškai pavaizduotas empirinis tankio analogas

,,)(ˆi

i

n Ixnh

nxf ∈=

čia iI yra i-tasis intervalas, in - reikšmių, patekusių į i-tąjį intervalą skaičius, h – intervalo

ilgis, n – stebėjimų skaičius.

3.13 pav. Histograma

Histogramą galima nubraižyti su procedūra UNIVARIATE. Pateiksime pavyzdį (žr.[9]).

92

3.23 p a v y z d y s. DATA Duomenys;

DROP i;

LABEL n_x='Normalusis atsitiktinis dydis'

e_x ='Exponentinis atsitiktinis dydis';

DO i=1 TO 200;

n_x=2*normal(0)+10;

e_x=ranexp(0);

OUTPUT;

END;

RUN;

PROC UNIVARIATE DATA=Duomenys NOPRINT;

VAR n_x;

HISTOGRAM n_x / NORMAL(NOPRINT) CBARLINE=GREY;

RUN;


VAR e_x;

HISTOGRAM /EXP(FILL l=3) CFILL=YELLOW

MIDPOINTS=.05 TO 5.55 BY .25;

RUN;

Pirmosios procedūros UNIVARIATE rezultatas Antrosios procedūros UNIVARIATE rezultatas

3.14 pav. Histogramos

Paaiškinimai: 1) pasirinktis NOPRINT procedūros UNIVARIATE PROC sakinyje nurodo nespausdinti

statistikų lentelių; 2) VAR sakinyje nurodome analizuojamą kintamąjį; 3) HISTOGRAM sakinyje nurodome analizuojamą kintamąjį; 4) HISTOGRAM sakinyje po “/” galime nurodyti įvairias pasirinktis; NORMAL reiškia,

kad histogramą norime palyginti su normalaus skirstinio tankiu; EXP, kad norime palyginti su eksponentinio skirstinio tankiu (kiti galimi skirstiniai: beta, gamma, lognormal, weibull, žr. [9]); toliau skliausteliuose galime nurodyti tankio kreivės pasirinktis: NOPRINT – braižyti tik grafiką (jei nenurodysime spausdins suderinamumo kriterijus); FILL – nurodo nuspalvinti plotą po tankio kreive su spalva nurodyta su CFILL=spalva pasirinktimi; COLOR=spalva nurodome tankio kreivės spalvą; L= nurodome tankio kreivės tipą; W= nurodome tankio kreivės storį;

5) toliau (po skliaustų) galime nurodyti histogramos pasirinktis: CBARLNE=spalva nurodome histogramos stulpelių linijų spalvą; MIDPOINTS=”nuo” TO “iki” BY “žingsnis” nurodome histogramos stulpelių vidurio taškus; CFILL=spalva histogramos stulpelių spalva arba spalva, kuria nuspalvinamas plotas po tankio kreive, kai nurodome FILL skliaustuose po skirstinį identifikuojančio žodžio.

P a s t a b a. Jei po HISTOGRAM nurodome tik kintamąjį, tai braižys tik histogramą, nelygins su tankiu.

93

Jeigu procedūroje UNIVARIATE nurodome CLASS sakinį, tai braižomos palygina-mosios histogramos (po vieną histogramą kiekvienai po CLASS nurodyto kintamojo reikšmei). Pateiksime pavyzdį.

3.24 p a v y z d y s. Tarkime, kad turime tokius pačius duomenis kaip 3.7 pavyzdyje (kineskopų parametrų matavimai; lentelė „Kineskopai“). Nubraižysime kintamojo i_r palyginamąsias histogramas trečiam ir ketvirtam paletui (po vieną histogramą kiekvienam paletui).

PROC UNIVARIATE DATA=Kineskopai;

VAR i_r;

CLASS paleto_nr;

HISTOGRAM i_r;

WHERE paleto_nr=3 or paleto_nr=4;

RUN;

Gautos histogramos pateiktos 3.15 paveiksle.

3.15 pav. Palyginamosios histogramos

3.4. Tikimybinės kreivės grafikas

Tikimybinės kreivės grafikas skirtas palyginti empirinę pasiskirstymo fukciją su teorine. Ašys transformuojamos taip, kad teorinė pasiskirstymo funkcija transformuojama į tiesę. Jei taškai grafike išsidėstę apie tiesę, tai galime teigti, kad duomenys gauti stebint atsitiktinį dydį, kurio skirstinys yra tas, su kuriuo lyginome.

3.25 p a v y z d y s. DATA Duomenys;

DROP i;

LABEL n_x='Normalusis atsitiktinis dydis';

DO i=1 TO 200;

n_x=2*normal(0)+10;

OUTPUT;

END;

RUN;

GOPTIONS HTITLE=1 HTEXT=1 FTEXT=swissb FTITLE=swissb;

SYMBOL VALUE=star;


VAR n_x;

PROBPLOT n_x /NORMAL(MU=est SIGMA=est);

TITLE 'Pavyzdys, X~N(10,4)';

RUN;

Gautas tikimybinės kreivės grafikas pateiktas 3.16 paveiksle. Paaiškinimai: 1) Globalioje komandoje GOPTIONS panaudoti HTITLE ir HTEXT apibrėžia šrifto

dydį; FTITLE ir FTEXT - šrifto tipą;

94

2) SYMBOL sakinyje panaudotas VALUE=star nurodo kokie simboliai braižomi grafike (pagal nutylėjimą “+”; kadangi nurodėme „star, tai bus žvaigždutės“);

3) PROBPLOT sakinyje reikia nurodyti su kokiu skirstiniu norime palyginti, pavyzdžiui, NORMAL(mu=est sigma=est) – normalusis skirstinys, LOGNORMAL(sigma=est) – lognormalusis skirstinys ir pan.

3.16 pav. Tikimybinės kreivės grafikas

3.5. Sklaidos diagrama

Sklaidos diagramos skirtos pastebėti sąryšį tarp dviejų kintamųjų. Sklaidos diagramą galima nubraižyti su SAS/BASE procedūra PLOT arba SAS/GRAPH procedūra GPLOT. Su procedūra GPLOT galima nubraižyti aukštesnės kokybės grafikus (spalvoti, daugiau pasirink-čių). Iš pradžių aprašysime kaip nubraižyti sklaidos diagramą su procedūra PLOT. Sintaksė:

PROC PLOT DATA=lentelė;

PLOT kintamieji / pasirinktys;

RUN;

Kintamuosius galima nurodyti trimis būdais: a) kintamasis1*kintamasis2; b) kintamasis1*kintamasis2=‘simbolis‘; c) kintamasis1*kintamasis2=kintamasis3; čia kintamojo1 reikšmės atidedamos vertikalioje ašyje, kintamojo2 reikšmės – horizontalioje ašyje. Atveju a) taškai žymimi raide „A“, jei du taškai sutampa, tai raide „B“, jei trys taškai sutampa – raide „C“ ir t.t. Atveju b) visi taškai žymimi nurodytu simboliu. Atveju c) taškas žymimas nurodyto kintamojo (kintamasis3) atitinkamo stebėjimo reikšmės pirmąja raide; jeigu keli taškai sutampa, tai bus pažymėtas pačio pirmo (iš sutampančių) reikšme ir bus parašyta pastaba, kad yra paslėptų stebėjimų. Galima nurodyti kelis PLOT sakinius arba kelis kintamųjų sąrašus, tada bus braižomi keli atskiri grafikai, pavyzdžiui, plot k1*k2 k3*k4; gausime du grafikus. PLOT sakinyje galima nurodyti tokias pasirinktis: VAXIS=reikšmių_sąrašas apibrėžia vertikalios ašies gradaciją, pavyzdžiui, VAXIS=10 20 30 40 (arba VAXIS=10 TO 40 BY 10); HAXIS=reikšmių_sąrašas apibrėžia horizontalios ašies gradaciją, pavyzdžiui, HAXIS=5 TO 15 (pagal nutylėjimą žingsnis 1); VREF=reikšmių_sąrašas nurodo nubrėžti horizontalias linijas nurodytoms reikšmėms, pavyzdžiui, VREF=5; VREF=reikšmių_sąrašas nurodo nubrėžti vertikalias linijas nurodytoms reikšmėms, pavyzdžiui, HREF=6 TO 14 BY 2 brėžia vertikalias linijas horizontalios ašies reikšmėms 6, 8, 10, 12, 14;

95

OVERLAY nurodo, kad vertikalioje ašyje atidedamos kelių kintamųjų reikšmės (t.y. keli grafikai viename), pavyzdžiui, PLOT y1*x=’A’ y2*x=‘B‘ / OVERLAY. P a s t a b a. Jei nurodome BY sakinį, tai braižys atskirus grafikus stebėjimų grupėms.

3.26 p a v y z d y s. DATA duomenys;

INPUT x y;

DATALINES;

1.2 3.4

2.6 3.0

1.6 3.8

1.3 3.5

3.9 1.6

2.2 2.5

;

PROC PLOT DATA=duomenys;

PLOT y*x='*'/VREF=1 TO 4; RUN;

Šios procedūros rezultatas (žr. 3.17 pav.) yra kintamųjų y ir x sklaidos diagrama; kintamojo y reikšmės atidedamos ant vertikalios ašies, o x – ant horizontalios; nurodėme, kad taškus žymėtų simboliu “*“; VREF nurodo nubraižyti horizontalias linijas kintamojo y reikšmėms 1, 2, 3, 4.

3.17 pav. Kintamųjų x ir y sklaidos diagrama

Sklaidos diagramas galima braižyti ir su procedūra GPLOT. Pateiksime pavyzdį.

3.26 p a v y z d y s (tęsinys). Nubraižysime tų pačių duomenų sklaidos diagramą su procedūra GPLOT. Editor lange parašome:

PROC GPLOT DATA=duomenys;

PLOT y*x / VREF=1 TO 4; RUN;

Gauta sklaidos diagrama pateikta 3.18 paveiksle.

3.18 pav. Sklaidos diagrama

96

Pateiksime OVERLAY panaudojimo su procedūra GPLOT pavyzdį.

3.27 p a v y z d y s. Editor lange įveskime: DATA duomenys;

INPUT x y1 y2;

DATALINES;

1.2 3.4 4.1

2.6 3.0 4.5

1.6 3.8 2.9

1.3 3.5 3.2

3.9 1.6 2.5

2.2 2.5 3.4

;

RUN;

GOPTIONS RESET=(axis, legend, pattern, symbol, title, footnote)

INTERPOL=none;

SYMBOL1 height=1.5 cv=red value=star;

SYMBOL2 height=1.5 cv=green value=circle;

AXIS1 color=blue width=2.0 ORDER=(0 to 4 BY 1) MINOR=(NUMBER=4);

AXIS2 color=blue width=2.0

LABEL=(FONT='Times New Roman' HEIGHT=12pt JUSTIFY=Right 'y1,y2');


PLOT (y1 y2)*x /overlay HAXIS=AXIS1 VAXIS=AXIS2 FRAME

LVREF=1 CVREF=BLACK VREF=2 4;

RUN; QUIT;

Sakinyje GOPTIONS panaudota komanda RESET atstato išvardintų skliaustuose sakinių pasirinktis į tokias, kokios yra pagal nutylėjimą; INTERPOL=none nurodo, kad simboliai nejungiami. SYMBOL1 sakinys nurodo kaip pavaizduojamos kintamojo y1 reikšmės, o SYMBOL2 – kintamojo y2 (SYMBOL sakinių turime nurodyti tiek, kiek kintamųjų norime atidėti ant vertikalios ašies); VALUE nurodo kokiu simboliu bus pavaizduoti taškai grafike (šiame pavyzdyje taškai (x, y1) bus pavaizduoti žvaigždutėmis (star), o taškai (x, y2) – apskritimais (circle)); CV nurodo simbolių spalvą; HEIGHT – simbolių aukštį. AXIS sakiniai apibrėžia koordinačių ašis; šiame pavyzdyje AXIS1 – horizontali ašis, AXIS2 – vertikali ašis; COLOR nurodo ašies spalvą, WIDTH – linijos storį, ORDER – kaip sunumeruotos reikšmės ant ašies, MINOR – kiek mažų brūkšnelių tarp reikšmių ant ašies; LABEL – aprašo koordinačių ašies žymę. Procedūros GPLOT sakinyje PLOT nurodėme, kad kintamųjų y1, y2 reikšmės atidedamos ant vertikalios ašies, o x – ant horizontalios; FRAME – nurodo braižyti rėmelį apie grafiką; VREF kokioms kintamojo, atidėto vertikalioje ašyje, reikšmėms braižomos horizontalios linijos, CVREF – linijų spalva, LVREF – linijos tipas. Gautas grafikas pateiktas 3.19 paveiksle.

3.19 pav. Sklaidos diagrama

97

3.6. Linijinė diagrama

Linijinės diagramos naudojamos, kai norime pavaizduoti kintamųjų (kintamojo) kitimą kito kintamojo atžvilgiu. Dažniausiai naudojamos laiko eilutėms. Galima palyginti kelias laiko eilutes. Linijines diagramas galima nubraižyti su procedūra GPLOT (žr.3.5 skyrelį). Reikia nurodyti, kad sujungtų taškus. Pateiksime pavyzdį.

3.28 p a v y z d y s. DATA duomenys;

INPUT metai parduota_1 parduota_2;

DATALINES;

1995 290 260

1996 301 290

1997 305 300

1998 309 315

1999 315 300

2000 310 305

2001 301 310

2002 305 300

2003 310 315

2004 315 320

;

RUN;

GOPTIONS RESET=(axis, legend, pattern, symbol, title, footnote)

INTERPOL=JOIN;

SYMBOL1 height=1 cv=red value=circle;

SYMBOL2 height=1 cv=green value=circle;


PLOT (parduota_1 parduota_2)*metai /overlay FRAME

LVREF=1 CVREF=BLACK VREF=270 290 310;

RUN; QUIT;

INTERPOL=JOIN nurodo, kad taškai sujungiami atkarpomis.

3.20 pav. Linijinė diagrama

Pirmosios procedūros GPLOT rezultatas pateiktas 3.20 paveiksle. Iš diagramos matome kaip keičiasi kintamojo „parduota_1“ reikšmės priklausomai nuo kintamojo „metai“ reikšmių. Antrosios procedūros GPLOT rezultatas pateiktas 3.21 paveiksle. Grafike pavaiz-duotos dvi laiko eilutės.

98

3.21 pav. Linijinė diagrama

3.7. Skritulinė diagrama

Skritulinė diagrama naudojama, kai kintamasis įgyja nedaug reikšmių. Skritulinės diagramos vaizdžiai atspindi dažnių skirstinį tarp kategorijų. Skritulys atitinka visą populiaciją (100%), o išpjovos – kategorijas, proporcingai jų santykiniam dažniui. Skritulinės diagramos nevaizdžios, kai yra daug dalių ir dalys mažos. Skritulinės diagramos braižomos su SAS procedūra GCHART. Sintaksė:


PIE kintamieji / pasirinktys;

RUN;

čia lentelė – duomenų lentelės vardas; kiekvienam nurodytam kintamajam braižoma atskira diagrama. Pilną pasirinkčių, naudojamų PIE sakinyje, sąrašą galima pasižiūrėti pagrindiniame meniu pasirinkus Help→SAS Help and Documentation, čia pateiksime tik keletą iš jų: TYPE =statistika nurodo kokia skaitinė charakteristika bus pavaizduota diagramoje, čia statistika gali būti: FREQ (dažnis), PERCENT (procentinis dažnis), MEAN (vidurkis), SUM (suma); MEAN ir SUM galima naudoti tik tada, kai panaudota SUMVAR=kintamasis pasirinktis. SUMVAR=kintamasis, čia kintamasis, kurio reikšmės sumuojamos arba skaičiuo-jamas reikšmių vidurkis. MISSING - praleisti stebėjimai pavaizduojami atskira išpjova. Pagal nutylėjimą tariama, kad skaitinio tipo kintamasis yra tolydus ir procedūra sugrupuoja duomenis į intervalus. Jei skaitinio tipo kintamasis įgyja tik keletą reikšmių ir norime atskiros išpjovos kiekvienai reikšmei, tai nurodome pasirinktį DISCRETE. Kaip duomenis sugrupuoti į intervalus galima nurodyti su MIDPOINTS=reikšmės, čia reikšmės, tai grupavimo intervalo vidurio taškai (išdėstyti didėjančia tvarka) arba LEVELS=n, čia n – išpjovų skaičius. GROUP=kintamasis, sugrupuoja stebėjimus į grupes pagal nurodyto kintamojo reikšmes ir braižoma atskira diagrama kiekvienai stebėjimų grupei. SUBGROUP=kintamasis, diagrama padalinama į žiedus pagal nurodyto kintamojo reikšmes. EXPLODE=reikšmių_sąrašas, atitraukia atitinkamas išpjovas nuo skritulio centro, čia reikšmių_sąrašas yra sudarytas iš kai kurių braižomo kintamojo reikšmių (jei kiekvienai reikšmei braižoma atskira išpjova) arba kai kurių grupavimo intervalo vidurio taškų (jei duomenys grupuojami). OTHER=procentas, nurodome kokias reikšmes apjungti į išpjovą „Kiti“; įtraukiamos tos, kurioms skaičiuojamos charakteristikos reikšmės yra mažesnės arba lygios nurodytam

99

procentui; pagal nutylėjimą 4%; su OTHERLABEL=‘simboliai‘ galime nurodyti kaip vadinsis išpjova. PERCENT=ARROW | INSIDE | NONE | OUTSIDE nurodome kurioje vietoje spausdinamas procentas, kurį užima išpjova. Pagal nutylėjimą NONE (nespausdinamas). 3.6 pav. parodyta kurioje vietoje spausdinama priklausomai nuo PERCENT pasirinkties reikšmių.

3.22 pav. Užrašų išdėstymo variantai

SLICE=ARROW | INSIDE | NONE | OUTSIDE nurodome kurioje vietoje spausdinamos analizuojamo kintamojo reikšmė. Pagal nutylėjimą OUTSIDE. VALUE=ARROW | INSIDE | NONE | OUTSIDE nurodome kurioje vietoje spausdinamos braižomos diagramoje statistikos reikšmės. Pagal nutylėjimą OUTSIDE. Galima nurodyti FREQ=kintamasis pasirinktį; čia kintamojo reikšmės nurodo stebėjimo dažnį. Jei nenurodome, tai kiekvieno stebėjimo dažnis yra lygus 1. Jei FREQ kintamojo reikšmės nėra sveiki skaičiai, tai trupmeninė dalis yra atmetama.

3.29 p a v y z d y s. Editor lange įveskime: DATA duom;

INPUT x $ @@;

DATALINES;

a a b c b b c b b b . . d e b b a a a a c c

;

RUN;

PROC GCHART DATA=duom;

PIE x;

RUN; QUIT;


PIE x / TYPE=PERCENT MISSING;

RUN; QUIT;


PIE x / TYPE=PERCENT EXPLODE='a';

RUN; QUIT;


PIE x/PERCENT=INSIDE;

RUN; QUIT;

Gautos skritulinės diagramos pateiktos 3.23 paveiksle. Paaiškinsime skritulines diagramas, pateiktas 3.23 paveiksle. Pirmojoje skritulinėje diagramoje yra pateikti kintamojo x dažniai (reikšmės pasikartojimų skaičius), praleisti stebėjimai pagal nutylėjimą neįtraukiami į diagramą. Antrojoje skritulinėje diagramoje yra pateikti kintamojo x procentiniai dažniai (pavyzdžiui, kintamojo x reikšmės „a“ procentinis dažnis gaunamas taip: %,27.27%100*)22/6(%100*)/( ≈=nna čia an - reikšmės „a“ pasi-

kartojimų skaičius, n – bendras stebėjimų skaičius), nes nurodėme TYPE=PERCENT; nurodėme MISSING, todėl praleisti stebėjimai įtraukiami į diagramą. Trečiojoje skritulinėje diagramoje taip pat yra pateikti kintamojo x procentiniai dažniai, nes nurodėme TYPE=PERCENT; nurodėme EXPLODE=‘a‘, todėl reikšmę „a“ atitinkanti išpjova yra atitraukta nuo skritulio centro. Ketvirtojoje skritulinėje diagramoje yra pateikti kintamojo x

100

dažniai, be to ant išpjovų yra parašyti procentiniai dažniai, nes nurodėme PERCENT=INSIDE.


Trečiosios procedūros GCHART rezultatas Ketvirtosios procedūros GCHART rezultatas

3.23 pav. Skritulinės diagramos

Pateiksime pasirinkties SUMVAR panaudojimo pavyzdį.

3.30 p a v y z d y s. Editor lange įveskime: DATA duom1;

INPUT x $ y @@;

DATALINES;

a 5 a 10 b 3 c 2 b 12 b 1 c 9 b 4 b 3 b 1

d 4 e 8 b 3 b 3 a 3 a 10 a 3 a 3 c 1 a 2

;

RUN;

PROC GCHART DATA=duom1;

PIE x/ SUMVAR=y;

RUN; QUIT;

PROC GCHART DATA=duom1;

PIE x/ SUMVAR=y TYPE=MEAN;

RUN; QUIT;

Gautos diagramos pateiktos 3.24 paveiksle. Paaiškinsime skritulines diagramas, pateiktas 3.24 paveiksle. Pirmojoje skritulinėje diagramoje yra pateiktos kintamojo y reikšmių sumos kiekvienai kintamojo x reikšmei, nes nurodėme SUMVAR pasirinktį. Antrojoje skritulinėje diagramoje yra pateikti kintamojo y reikšmių aritmetiniai vidurkiai, kiekvienai kintamojo x reikšmei, nes nurodėme SUMVAR ir TYPE=MEAN.

101


3.24 pav. Kintamojo y sumų ir vidurkių skritulinės diagramos

3.31 p a v y z d y s. Sukurkime duomenų lentelę su tokiu Data žingsniu:

DATA duom2;

INPUT x $ y $ @@; DATALINES;

a I a I b I c I b I b I c I b I b I b I

c II c II b II b II a II a II a II a II c II a II

; RUN;

a) PROC GCHART DATA=duom2; PIE x/ GROUP=y across=2 percent=inside;

RUN; QUIT;

Šios procedūros GCHART rezultatas pateiktas 3.25 paveiksle; nurodėme GROUP=y, todėl braižoma atskira skritulinė diagrama kiekvienai kintamojo y reikšmei (šiame pavyzdyje kintamasis y įgyja tik dvi reikšmes, todėl braižomos dvi skritulinės diagramos); ACROSS=2 nurodo, kad vienoje eilutėje turi būti spausdinamos dvi skritulinės diagramos; PERCENT=INSIDE nurodo, kad ant išpjovų turi būti parašyti procentiniai dažniai.

3.25 pav. Skritulinės diagramos

b) PROC GCHART DATA=duom2; PIE x/ SUBGROUP=y percent=inside;

RUN; QUIT;

Šios procedūros GCHART rezultatas pateiktas 3.26 paveiksle; nurodėme SUBGROUP=y, todėl skritulys yra padalinamas į žiedus, žiedų yra tiek, kiek yra skirtingų kintamojo y reikšmių (šiame pavyzdyje kintamasis y įgyja tik dvi reikšmes, todėl yra du žiedai); kiekvienas žiedas suskirstomas į sektorius, kurių dydžiai proporcingi kintamojo x reikšmių dažniams (šiame pavyzdyje kintamasis x įgyja tris reikšmes, todėl kiekvienas žiedas padalinamas į tris dalis); PERCENT=INSIDE nurodo, kad ant išpjovų turi būti parašyti procentiniai dažniai.

102

3.26 pav. Skritulinė diagrama

3.8. Stačiakampė diagrama

Stačiakampė diagrama (Box and Whiskers Plot) padeda nustatyti išskirtis, simet-riškumą. Šioje diagramoje yra atidedamas vidurkis, mediana, pirmas ir trečias kvartiliai. Schematiškai stačiakampė diagrama pavaizduota 3.27 pav. Brėžiamas stačiakampis, kurio viršutinis kraštas atitinka viršutinį (trečią) kvartilį (Q3), apatinis stačiakampio kraštas atitinka apatinį (pirmą) kvartilį (Q1), stačiakampio aukštis lygus tarpkvartiliniam pločiui (Q3-Q1). Horizontali linija viduje stačiakampio žymi medianą, pliuso ženklas (+) žymi vidurkį. Nuo stačiakampio kraštų brėžiamos atkarpos: pirmoji atkarpa (į apačią nuo Q1) jungia Q1 su mažiausia reikšme, nutolusia ne daugiau kaip 1.5 tarpkvartilinio pločio nuo Q1; antroji atkarpa (į viršų nuo Q3) jungia Q3 su didžiausia reikšme, nutolusia ne daugiau kaip 1.5 tarpkvartilinio pločio nuo Q3. Reikšmės, esančios už atkarpų, yra išskirtys, jos žymimos atskirais simboliais. Jei reikšmė yra tarp 1.5 ir 3 tarpkvartilinių pločių nuo viršutinio arba apatinio stačiakampio krašto, tai žymima nuliu (0), t.y. sąlyginė išskirtis; žymima žvaigždute (*), jei reikšmė nutolusi daugiau negu per 3 tarpkvartilinius pločius (išskirtis).

3.27 pav. Stačiakampė diagrama

Stačiakampę diagrama galima nubraižyti procedūroje UNIVARIATE nurodžius pasirinktį PLOTS. Jei nurodome BY sakinį, tai braižomos palyginamosios stačiakampės diagramos.

103

3.32 p a v y z d y s. DATA duom;

INPUT x @@;

DATALINES;

480 371 397 360 550 250 375 429 482 336 440 451 280 353 404

368 373 520 446 385 433 426 450 407 412 645 366 329 700

;

RUN;

PROC UNIVARIATE DATA=duom PLOTS;

VAR x;

RUN;

Output lange gausime stačiakampę diagramą, pavaizduotą 3.28 pav.

3.28 pav. Stačiakampė diagrama (dešinėje), nubraižyta su procedūra UNIVARIATE

Jeigu turime SAS/STAT modulį, tai stačiakampę diagramą galime nubraižyti su procedūra BOXPLOT.

3.32 p a v y z d y s (tęsinys). Editor lange įveskime:

DATA duom; /* pertvarkome lentelę */

SET duom;

pag=1;

RUN;

PROC BOXPLOT DATA=duom; /* braižome stačiakampę diagramą*/

PLOT x*pag / BOXSTYLE=schematic;

RUN; QUIT;

PROC BOXPLOT DATA=duom; /* braižome stačiakampę diagramą*/

PLOT x*pag / BOXSTYLE=skeletal;

RUN; QUIT;

Gausime kintamojo x stačiakampes diagramas, pavaizduotas 3.29 pav.

Pirmosios procedūros BOXPLOT rezultatas Antrosios procedūros BOXPLOT rezultatas

3.29 pav. Stačiakampės diagramos

104

BOXSTYLE=schematic nurodo, kad braižoma tokio tipo diagrama kaip pavaizduota 3.27 paveiksle; kai nurodome BOXSTYLE=skeletal, tai nuo stačiakampio kraštų brėžiamos atkarpos jungia: Q1 su mažiausia reikšme (apatinė atkarpa) ir Q3 su didžiausia reikšme (viršutinė atkarpa).

Su procedūra BOXPLOT galime nubraižyti palyginamąsias stačiakampes diagramas.

3.33 p a v y z d y s. Tarkime, kad turime tokius pačius duomenis kaip 3.7 pavyzdyje (duomenų lentelė „Kineskopai“, kurioje yra 200 kineskopų (4 paletai po 50 kineskopų) parametrų matavimai dviejose gamybinėse operacijos (I testeris ir II testeris)) Nubraižykime kintamojo i_r (spindulio R srovės stiprumas II testeryje) palyginamąsias stačiakampes diagramas (grupuojantis kintamasis paleto numeris (paleto_nr). Editor lange įveskime:

PROC BOXPLOT DATA=Kineskopai;

PLOT i_r*paleto_nr / BOXSTYLE=schematic;

RUN; QUIT;

Gauname stačiakampes diagramas, pavaizduotas 3.30 paveiksle. Braižoma atskira stačiakampė diagrama kiekvienam paletui.

3.29 pav. Palyginamosios diagramos (atskira diagrama kiekvienam paletui)

105

IV skyrius. TAŠKINIAI PARAMETRŲ ĮVERČIAI IR

PASIKLIAUTINIEJI INTERVALAI

Trečiame skyriuje aptarėme aprašomosios statistikos metodus, t.y. duomenų sistemi-nimo ir jų pateikimo metodus. Šiame ir tolesniuose skyreliuose nagrinėsime matematinės statistikos metodus, t.y. parametrų vertinimo ir hipotezių tikrinimo uždavinius. Pirmame skyrelyje pateikiamos pagrindinės matematinės statistikos sąvokos: statistika, pilna, pakankama statistika; taškiniai parametrų įverčiai (nepaslinkti, suderinti, minimalios dispersijos); įverčių radimo metodai; pasikliautinieji parametrų intervalai. Antrajame skyrelyje pateikiamos taškinių parametrų įverčių ir pasikliautinųjų intervalų išraiškos bei kaip juos apskaičiuoti su SAS kai kurių skirstinių atveju (įverčių išraiškas šiame skyriuje nepaminėtiems skirstiniams žr., pavyzdžiui, [5]). SAS yra realizuoti normalaus skirstinio parametrų vertinimo algoritmai, binominio skirstinio sėkmės tikimybės vertinimo algoritmai, vertinant kitų skirstinių parametrus reikia išraiškas patiems užprogramuoti. Tai nesunku atlikti naudojant pirmame ir antrame skyriuje aprašytas komandas.

1. Pagrindinės sąvokos ir apibrėžimai

Pradžioje apibrėšime kai kurias matematinės statistikos sąvokas. Generaline aibe arba populiacija vadinama tiriamų objektų aibė. Populiacija gali būti baigtinė arba begalinė. Kadangi dažnai visos aibės ištirti negalime arba toks tyrimas reikalauja daug laiko ir lėšų, tai iš populiacijos paimama dalis objektų ir juos analizuojant stengiamasi apibūdinti populiacijos tikimybinį skirstinį. Matematinės statistikos metodai taikytini tik tada, kai stebėjimo rezultatai yra reprezentatyvūs, t.y. teisingai atspindi galimų reikšmių proporcijas generalinėje aibėje. Trumpai paminėsime kai kurias toliau naudojamas matematinės statistikos sąvokas. Tarkime, kad atliekant tam tikrą eksperimentą gaunamas stebėjimų vektorius

),...,,( 21 nxxx=x , kuris yra tam tikro a.v. ),...,,( 21 nXXX=X realizacija. Atsitiktinį vektorių

),...,,( 21 nXXX=X vadinsime tūrio n atsitiktine imtimi, o jo konkrečiame eksperimente įgytą

reikšmę ),...,,( 21 nxxx=x ,- atsitiktinės imties realizacija. Parametriniuose matematinės

statistikos modeliuose priimama prielaida, kad a.v. X tikimybinio skirstinio pavidalas yra žinomas, tačiau jis priklauso nuo nežinomo parametro θ , t.y. tariama, kad a.v. X skirstinys priklauso skirstinių šeimai },{ Θ∈θθP .

Diskrečiuoju atveju skirstinius θP galima vienareikšmiškai nusakyti tikimybėmis

,,},|{)( X∈Θ∈== xθθxXPxθp (4.1)

čia nR⊂X yra a.v. X įgyjamų reikšmių aibė.

Absoliučiai tolydžiu atveju skirstinius θP galima nusakyti n-mate pasiskirstymo

funkcija )|( θxF arba tankio funkcija )|( θxf . Nepriklausomą nuo nežinomo parametro θ imties funkciją == )(XTT

),...,( 1 nXXT= vadiname statistika.

Parametro )(θγγ = taškiniu įverčiu vadiname nepriklausomą nuo nežinomo

parametro θ imties funkciją (statistiką), kurią žymėsime == )(ˆˆ Xγγ ),...,(ˆ 1 nXXγ . Funkciją

γ̂ galima parinkti įvairiai. Todėl yra kriterijai, kurie leidžia parinkti tam tikra prasme geres-nius įverčius. Įvertį γ̂ vadiname suderintu, jeigu didėjant imties dydžiui jis artėja prie tikros

parametro reikšmės γ , t.y. kiekvienam fiksuotam ε>0

.kai,0}|ˆ({| ∞→→>− nεγγP

106

Įvertį γ̂ vadiname nepaslinktuoju (be poslinkio), jeigu jo vidurkis visoms parametro Θ∈θ reikšmėms sutampa su vertinamu parametru )(θγγ = :

.),()|ˆ( Θ∈∀≡ θθθE γγ (4.2)

Nepaslinktųjų įverčių irgi gali būti daug. Išrinkime iš jų tarpo tokį, kuris turi mažiausią išsibarstymą. Įvertį *γ̂ vadiname nepaslinktuoju minimalios dispersijos (NMD) įverčiu, jeigu jis tenkina (4.2) ir jeigu

.),|*ˆ()|ˆ(min Θ∈∀= θθVθV γγ (4.3)

Įverčių radimui yra svarbi pakankamosios statistikos sąvoka. Statistiką )(XTT =

vadiname šeimos },{ Θ∈θθP arba parametro Θ∈θ pakankamąja statistika, jeigu sąlyginis

a.v. X skirstinys, kai tT = yra fiksuota, nepriklauso nuo nežinomo parametro. Kitaip sakant, žinant pakankamąją statistiką T imtyje nėra jokios papildomos informacijos apie nežinomą parametrą Θ∈θ . Pakankamoji statistika įgalina redukuoti imtį, t.y. sumažinti imties matavimą, neprarandant informacijos. Tą faktą, kad ieškant NMD įverčių pakanka apsiriboti funkcijomis nuo pakankamos statistikos, patvirtina pateikiama teorema. T e o r e m a. (Rao-Blekuelo). Tarkime, kad egzistuoja parametro )(θγγ = nepaslink-

tas įvertis γ̂ ir )(XTT = yra pakankamoji parametro θ statistika. Tada egzistuoja kitas nepaslinktas įvertis ),(~~ Tγγ = kuris yra tik pakankamos statistikos T funkcija, ir kuris ne blogesnis dispersijos minimizavimo prasme:

.),|ˆ()|~( Θ∈∀≤ θθVθV γγ (4.4)

NMD įverčių radimą žymiai palengvina pakankamos statistikos T savybė vadinama jos pilnumu. Pakankamoji statistika T vadinama pilnąja, jeigu egzistuoja vienintelė T funkcija tapatingai lygi 0, kuri yra nepaslinktas nulio įvertis, t.y. iš sąlygos

,,0)|)(( Θ∈∀≡ θθE Tϕ (4.5)

išplaukia, kad .0)( =tϕ Teisingas toks tvirtinimas. T e o r e m a. Jeigu T yra pilnoji ir pakankamoji parametro θ statistika ir egzistuoja nepaslinktas parametro )(θγγ = įvertis ),(~~ Tγγ = kuris yra funkcija tik nuo statistikos T, tai jis yra vienintelis. Tokiu būdu, bet kuri pilnos ir pakankamos statistikos T funkcija )(Tφ yra savo vidurkio )|)(( θE Tφ NMD įvertis. Iš čia galime suformuluoti tokį NMD įverčių radimo metodą. Jeigu T yra pakankamoji ir pilnoji parametro θ statistika, tai norint rasti parametro

)(θγγ = NMD įvertį, tereikia išspręsti funkcionalinę lygtį

,),()|)(( Θ∈∀≡ θθθE γφ T (4.6)

funkcijos )(Tφ atžvilgiu. Tada )()(~ TT φγ = yra parametro )(θγγ = NMD įvertis. Šį metodą galime naudoti, jeigu egzistuoja pilna ir pakankama statistika, tačiau pilnosios ir pakankamos statistikos ne visada egzistuoja. Aptarsime kitus įverčių radimo metodus.

Momentų metodas. Tai paprasčiausias ir istoriškai pirmasis taškinių įverčių radimo metodas. Tarkime, kad ),...,( 1 nXX=X yra paprasčiausioji atsitiktinė imtis, gauta stebint a.d.

X , t.y. nXX ,...,1 yra vienodai pasiskirstę a.d., turintieji tą patį skirstinį, kaip ir a.d. X. Tegu

a.d. X skirstinys priklauso šeimai },{ Θ∈θθP , priklausančiai nuo k-mačio parametro

107

.),...,( 1 Θ∈= kθθθ Pažymėkime ,),...,( 1j

kjj XE== θθαα ,...2,1=j , a.d. X j-tąjį pradinį

momentą. Šių momentų empiriniai analogai (įverčiai) yra

∑=

==n

i

j

ij jXn

a1

,...2,1,1

(4.7)

Pirmasis momentas 1a (aritmetinis vidurkis) paprastai žymimas X . Empirinių momentų (4.7) pirmųjų momentų išraiškos yra tokios:

.),cov(,,2

2

naa

naa

jjjj

jj

jj

jjj

′′+′

−=

−==

αααααα VE (4.8)

Kadangi momentai (4.7) yra vienodai pasiskirsčiusių nepriklausomų a.d. sumos, tai joms bendromis sąlygomis galioja centrinė ribinė teorema ir jų skirstinius prie pakankamai didelių n galima apytiksliai aproksimuoti normaliuoju skirstiniu

Za

n

jj

jj ⇒−

−2

2 αα

α ∼ ,...2,1,),1,0( =∞→ jnN (4.9)

Pagal momentų metodą teorinius momentus jα prilyginame atitinkamiems empiri-

niams momentams ja . Gauname lygčių sistemą

==

==

==

).,...,(

),,...,(

),,...,(

1

1222

1111

kkkk

k

k

a

a

a

θθαα

θθααθθαα

L

Šios lygčių sistemos sprendiniai ,,...,2,1,ˆ kjj =θ parametrų kθθθ ,...,, 21 atžvilgiu yra

vadinami momentų metodu gautais įverčiais. Jie yra empirinių momentų (4.7) funkcijos

.,...,2,1),,...,(ˆˆ1 kjaa kjj ==θθ

Šių įverčių savybes galime gauti iš žemiau pateikiamo tvirtinimo apie empirinių momentų funkcijas. T e o r e m a. Tegu ),...,( 1 kaaHH = yra empirinių momentų kaa ,...,1 funkcija

tenkinanti sąlygą: ji yra tolydi ir turi tolydžias pirmos ir antros eilės dalines išvestines savo argumentų atžvilgiu taško ),...,( 1 kαα aplinkoje. Tada funkcija H (kaip ir atskiras jos

argumentas) tenkina asimptotinio normalumo sąlygą

ZB

HHn

H

⇒− 0 ∼ ,),1,0( ∞→nN (4.10)

čia HE ∼ ),,...,( 10 kHH αα=

HV ∼ ),,cov(1

22

jjj

jj

j

k

j

jjH aaHHaH

n

B′′

′≠=∑∑ += V

.,...,2,1,| ),...,( 11kj

a

HH

kkaa

j

j =∂∂

= == αα

Imdami vietoje H kurį nors įvertį iš (4.10) gauname

108

ZB

n

j

jj ⇒−

θ

θθ

ˆ

ˆ∼ .,...,2,1,),1,0( kjnN =∞→ (4.11)

Maksimalaus tikėtinumo metodas. Įrašykime į skirstinį (4.1) vietoje argumento ),...,( 1 nxx=x atsitiktinę imtį ),...,( 1 nXX=X . Gautąją funkciją vadiname maksimalaus

tikėtinumo funkcija

).()|( XXθ θpL = (4.12)

Diskrečiuoju atveju )(xθp yra tikimybė to, kad a.v. X realizacija yra lygi

),...,( 1 nxx=x , kai tikroji parametro reikšmė yra θ . Pastumkime parametrą θ taip, kad

tikimybė gauti tą imtį, kurią faktiškai gavome, būtų kuo didesnė, t.y. ieškome labiausiai tikėtinos parametro θ reikšmės. Tai ir yra maksimalaus tikėtinumo metodo esmė.

Parametro θ įvertis θ~

, kuris gaunamas iš sąlygos

),|~

()|(max XθXθ LL = (4.13)

vadinamas maksimalaus tikėtinumo įverčiu. Vietoje (4.13) dažnai yra patogiau maksimizuoti

funkcijos )|( XθL logaritmą, t.y. ieškoti θ~

iš sąlygos

).|~

()|(max))|(ln(max XθXθXθ llL == (4.14)

Jeigu funkcijos )|( Xθl maksimumas pasiekiamas vidiniame srities Θ taške ir

)|( Xθl diferencijuojama pagal ,,...,, 21 kθθθ tai įvertis θ~

tenkina maksimalaus tikėtinumo

lygčių sistemą :

.,...,2,1,0)|())|(ln(

kjXlXL

jj

==∂

∂=

∂∂

θθ

θθ

(4.15)

Gauti iš (4.15) įverčiai tenkina asimptotinio normalumo sąlygą:

Z

I j

jj ⇒−

)(

1

~

θ

θθ∼ .,...,2,1,),1,0( kjnN =∞→ (4.16)

Čia )( jI θ yra taip vadinamas Fišerio informacijos kiekis apie parametrą jθ imtyje

),...,( 1 nXX=X :

.)|(ln)|(ln

)(2

22

∂∂

−=

∂∂

=jj

j

XLXLI

θθ

θθ

θ EE (4.17)

Funkcijos )(θγγ = maksimalaus tikėtinumo įvertis γ~ yra )~

(~ θγγ = , jei θ~

yra parametro θ maksimalaus tikėtinumo įvertis. Informacijos kiekis apie parametrą )(θγγ = (tariame, kad parametras θ yra vienmatis) yra gaunamas tokiu būdu

.))((

)()(

2θγθ

γ′

=I

I

Jeigu egzistuoja pakankama statistika T, tai maksimalaus tikėtinumo įvertis θ~

yra tik pakankamos statistikos T funkcija. Šia prasme maksimalaus tikėtinumo įverčiai gali turėti

109

privalumą lyginant jį su momentų metodu gautais įverčiais, kurie yra empirinių momentų funkcijos. Suprantama, kad pastarieji nebūtinai sutampa su pakankamąją statistika. Jeigu )|( XθL tenkina gana bendras reguliarumo sąlygas (žr. [5]), tai nepaslinktam

parametro jθ įverčiui galioja Rao-Kramero nelygybė: įverčio dispersija yra apribota iš

apačios:

.)(

1ˆj

jI θ

θ ≥V (4.18)

Praktikoje dažniausiai naudojamų skirstinių atveju lygčių sistema, gauta momentų metodu yra paprastesnė ir lengviau išsprendžiama. Tuo tarpu sistema (4.15) dažnai būna sudėtinga ir ją tenka spręsti artutiniais iteraciniais metodais. Dažnai rekomenduojama elgtis tokiu būdu: pradiniame etape rasti įverčius momentų metodu ir panaudoti juos kaip pradinį artinį tikslinant įverčius maksimalaus tikėtinumo metodu.

Parametrų pasikliautinieji intervalai. Taškiniai parametrų įverčiai yra atsitiktinės imties funkcijos, t.y. jie irgi yra atsitiktiniai dydžiai. Todėl įverčių tikslumą galima apibūdinti

tik tikimybiškai. Pavyzdžiui, negalima tvirtinti, kad sukonstruotas parametro θ įvertis θ̂ bus nukrypęs nuo tikros parametro reikšmės mažiau už pasirinktą skaičių 0>ε , o galima kalbėti tik apie tokio įvykio tikimybę:

,}||ˆ{| Q><− θεθθP

kuri tam tikra prasme apibūdina įverčio tikslumą, jeigu Q yra artimas vienetui. Norint kad surastas įvertis kartu charakterizuotų ir jo tikslumą, greta taškinių įverčių matematinėje statistikoje naudojami ir intervaliniai įverčiai (pasikliautinieji intervalai). Tarkime, kad paprasta atsitiktinė dydžio n imtis ),...,( 1 nXX=X yra gauta stebint a.d.

X, kurio skirstinys priklauso šeimai },{ Θ∈θθP . Pradžioje aptarsime paprastesnį atvejį, kai 1

R⊂Θ∈θ yra vienmatis parametras. Parametro θ pasikliautinuoju intervalu su reikšmingumo lygmeniu Q vadiname porą nepriklausančių nuo nežinomų parametrų imties ),...,( 1 nXX=X funkcijų (statistikų), kurias

žymėsime )(Xθθ = ir )(Xθθ = , θ≤θ . Tikimybę Q, su kuria intervalas ),( θθ uždengia tikrąją parametro reikšmę vadiname intervalo pasikliovimo lygmeniu (pasikliovimo lygmuo parenkamas iš anksto ir, paprastai, imama Q=0,9; 0,95; 0,99 ir pan.):

.,}|{ Θ∈∀≥≤≤ θθθθθ QP (4.19)

Kai egzistuoja vienmatė pakankamoji statistika )(XTT = , tai pakanka nagrinėti tik tokius intervalus, kurių rėžiai yra statistikos T funkcijos. Tegu T yra pakankamoji statistika, o jos pasiskirstymo funkcija )|( θtH yra monotoniškai mažėjanti parametro θ funkcija. Tada pasikliautinojo intervalo su pasikliovimo lygmeniu Q rėžiai gaunami iš lygčių

.2

1,)|0(,1)|(

QPPTHPTH

−==+−= θθ (4.20)

Jeigu )|( θtH yra monotoniškai didėjanti θ funkcija, tada intervalo rėžiai gaunami iš lygčių .1)|(,)|0( PTHPTH −==+ θθ (4.21)

Kaip ir taškinių įverčių radimo atveju šis metodas nepritaikomas, kai pakankamoji statistika neegzistuoja, arba kai nesugebame rasti jos skirstinio. Jeigu surastas taškinis

parametro θ įvertis θ̂ , kurio skirstinys asimptotiškai normalus, tai apytikslį pasikliautinąjį

110

intervalą prie pakankamai didelių n galime rasti naudodami normaliąją aproksimaciją. Tegu

θ̂ yra parametro θ įvertis, kuriam galioja centrinė ribinė teorema (žr., pavyzdžiui, momentų ar maksimalaus tikėtinumo metodais rastus įverčius):

Z⇒−

θ

θθˆ

ˆ

V∼ .),1,0( ∞→nN

Tada galime parašyti apytikslę lygybę

,1ˆ

ˆ2/2/ α

θ

θθαα −=≈

<−

<− QzzV

P (4.22)

čia αz yra standartinio normalaus skirstinio α lygmens kritinė reikšmė.

Jeigu vardiklyje po šaknimi parašyta dispersija nepriklauso nuo nežinomo parametro, tai perrašę skliaustuose parašytas nelygybes θ atžvilgiu, gausime jo apytikslį pasikliautinąjį

intervalą. Jeigu θ̂V priklauso nuo vienintelio vienmačio parametro θ , tai skliaustuose parašytas nelygybes irgi kartais galime perrašyti θ atžvilgiu. Kito metodo, kurį naudojant galima iš (4.22) rasti apytikslį pasikliautinąją intervalą,

esmė yra ta, kad dispersija θ̂V keičiama jos įverčiu θ̂V̂ . Paprasčiausiu atveju dispersijos

θ̂V išraiškoje esantys parametrai tiesiog pakeičiami jų įverčiais. Šiek tiek tikslesnį atsakymą

gauname, kai pavyksta sukonstruoti dispersijos θ̂V nepaslinktą įvertį.

2.Taškinių parametrų įverčių ir pasikliautinųjų intervalų pavyzdžiai

Šiame skyrelyje pateiksime kai kurių tikimybinių skirstinių parametrų taškinių įverčių ir pasikliautinųjų intervalų pavyzdžius (žr. [5]).

2.1. Vienmatis normalusis skirstinys Tegu imtis nXXX ,...,, 21 yra gauta stebint a.d. X, kurio skirstinys yra normalusis su

vidurkiu µ ir dispersija 2σ , t.y. ),(~ 2σµNX . Vidurkio µ NMD įvertis yra

.1

ˆ1

∑=

==n

i

iXn

Xµ (4.23)

Praktikoje vidurkis dažniausiai nežinomas, todėl dispersijos ir standartinio nuokrypio įverčius pateiksime tik šiuo atveju (įverčių išraiškas, kai vidurkis žinomas žr. [5]). Dispersijos

2σ NMD įvertis, kai vidurkis µ nežinomas yra

.)(1

1ˆ

1

222 ∑=

−−

==n

i

i XXn

sσ (4.24)

Standartinio nuokrypio σ įvertis 2ˆˆ σσ = yra paslinktas. Standartinio nuokrypio σ NMD įvertį, kai vidurkis nežinomas gauname taip:

.)2/)1((

)2/(

1

2,ˆ 1

1 −ΓΓ

−== −

− n

n

nM

M

sn

n

σ (4.25)

111

4.1 p a v y z d y s. Modeliuokime a.d. )4,5(~ NX dydžio 100=n imtį: %LET n=100;

%LET miu=5;

%LET sigma=2;

DATA normalusis;

DO i=1 TO &n;

Y=&miu+&sigma*NORMAL(10);

OUTPUT;

END;

RUN;

Apskaičiuokime parametrų taškinius įverčius:

PROC MEANS DATA=normalusis MEAN VAR STD;

OUTPUT OUT=rezultatas MEAN(Y)=vid_y VAR(Y)=dispers_y STD(Y)=std_y;

VAR Y; RUN;


Mean Variance Std Dev

5.0332621 3.9820280 1.9955019

Taigi, vidurkio µ NMD įvertis (4.23) yra 5.0332621; dispersijos 2σ NMD įvertis (4.24) yra 3.9820280; standartinio nuokrypio σ įvertis (paslinktas) yra 1.9955019. Apskaičiuokime standartinio nuokrypio σ nepaslinktą įvertį. Editor lange įveskime:

DATA std;

SET rezultatas;

pag=sqrt(2/(&n-1))*gamma(&n/2)/gamma((&n-1)/2);

std_nepaslinktas=std_y/pag;

KEEP std_nepaslinktas;

RUN;

Lentelėje „std“ gauname nepaslinktą standartinio nuokrypio įvertį: 2.0005473739.

Kai dispersija 2σ nežinoma, tai vidurkio µ pasikliautinasis intervalas su pasiklio-vimo lygmeniu α−= 1Q yra:

,,),( )1,2/1()1,2/1(

+−= −−−−

n

stX

n

stX nn ααµµ (4.26)

čia )1,2/1( −− nt α - Stjudento skirstinio su n-1 laivės laipsniu (1-α/2)-tasis kvantilis, X ir s

apibrėžti (4.23) ir (4.24) atitinkamai.

Kai vidurkis µ nežinomas, tai dispersijos 2σ pasikliautinasis intervalas su pasiklio-vimo lygmeniu α−= 1Q yra:

,)1(

,)1(

),(2

)1,2/(

2

2)1,2/1(

222

−−=

−−− nn

nsns

αα χχσσ (4.27)

čia )1,( −nPt yra chi-kvadrato skirstinio su n-1 laivės laipsniu P-tasis kvantilis, s apibrėžtas

(4.24).

Kadangi 2σσ = yra monotoniška 2σ funkcija, tai standartinio nuokrypio pasikliautinąjį intervalą gauname (4.27) formulės:

.,),( 22

= σσσσ (4.28)

112

Vidurkio µ pasikliautinąjį intervalą galima apskaičiuoti su SAS procedūra MEANS. Jeigu nurodome CLM, tai apskaičiuos dvipusį vidurkio µ pasikliautinąjį intervalą su pasikliovimo lygmeniu α−= 1Q (4.26).

Pagal nutylėjimą pasikliovimo lygmuo 95%, t.y. α=0.05. Jeigu norime apskaičiuoti pasikliautinąjį intervalą su kitokiu pasikliovimo lygmeniu, tai nurodome ALPHA=α, pavyzdžiui, jei parašysime

PROC MEANS DATA=d1 ALPHA=0.1 CLM;

VAR x; RUN;

tai bus apskaičiuotas dvipusis vidurkio pasikliautinasis intervalas su pasikliovimo lygmeniu 0.90. Jeigu nurodome LCLM, tai apskaičiuos apatinį vidurkio pasikliautinojo intervalo rėžį. Vidurkio vienpusio pasikliautinojo intervalo su pasikliovimo lygmeniu (1-α) apatinis rėžis yra:

.)1,1(n

stX n−−−= αµ (4.29)

Jeigu nurodome UCLM, tai apskaičiuos viršutinį vidurkio pasikliautinojo intervalo rėžį. Vidurkio vienpusio pasikliautinojo intervalo su pasikliovimo lygmeniu (1-α) viršutinis rėžis yra:

.)1,1(n

stX n−−+= αµ (4.30)

4.1 p a v y z d y s (tęsinys). Apskaičiuokime vidurkio pasikliautinąjį intervalą su pasikliovimo lygmeniu 0.99. Editor lange parašykime:

PROC MEANS DATA=normalusis ALPHA=0.01 MEAN CLM;

VAR Y; RUN;

Output lange gauname: The MEANS Procedure

Analysis Variable : Y

Lower 99% Upper 99%

Mean CL for Mean CL for Mean

5.0332621 4.5091624 5.5573618

Vidurkio taškinis įvertis yra 5.0332621, o vidurkio 99% pasikliautinasis intervalas yra (4.5091624, 5.5573618). Jeigu nebūtume nurodę ALPHA=0.01, tai būtų apskaičiuotas vidurkio 95% pasikliautinasis intervalas. Su procedūra UNIVARIATE galima apskaičiuoti vidurkio, dispersijos, standartinio nuokrypio ir kvantilių pasikliautinuosius intervalus normaliajam skirstiniui, o taip pat kvantilių pasikliautinuosius intervalus, kai skirstinys nėra normalusis. Procedūroje galima nurodyti tokias pasirinktis: ALPHA=α, čia α=1-Q, Q – pasikliovimo lygmuo; CIBASIC <( <TYPE=Tipas > < ALPHA = α > ) > vidurkio, standartinio nuokrypio ir dispersijos pasikliautinasis intervalas. Tariama, kad duomenų skirstinys normalusis. Ši prielaida didelėms imtims nėra būtina, nes galime naudoti centrinę ribinę teoremą, t.y. aproksimuojame normaliu skirstiniu. Tipas=LOWER | UPPER | TWOSIDED (apatinis vienpusio pasikliautinojo intervalo rėžis | viršutinis vienpusio pasikliautinojo intervalo rėžis | dvipusis pasikliautinasis intervalas; pagal nutylėjimą TWOSIDED). CIPCTLNORMAL <(< TYPE = tipas > < ALPHA = α >) > kvantilių pasikliautinieji intervalai. Tariama, kad duomenų skirstinys normalusis. Tipas=LOWER | UPPER | TWOSIDED (apatinis vienpusio pasikliautinojo intervalo rėžis | viršutinis vienpusio

113

pasikliautinojo intervalo rėžis | dvipusis pasikliautinasis intervalas; pagal nutylėjimą TWOSIDED). CIPCTLDF <( <TYPE=tipas > <ALPHA=α> )> kvantilių pasikliautinieji intervalai (nereikalaujama, kad duomenų skirstinys normalusis). Tipas=LOWER| UPPER | SYMMETRIC | ASYMMETRIC (apatinis vienpusio pasikliautinojo intervalo rėžis | viršutinis pasikliautinojo intervalo rėžis | simetriškas dvipusis pasikliautinasis intervalas | asimetriškas dvipusis pasikliautinasis intervalas; pagal nutylėjimą SYMMETRIC), pavyzdžiui, 1) PROC UNIVARIATE data=d1 CIBASIC; apskaičiuos vidurkio, dispersijos ir standartinio nuokrypio dvipusį pasikliautinąjį intervalą su pasikliovimo lygmeniu 0.95. 2) PROC UNIVARIATE data=d1 CIBASIC (TYPE=LOWER ALPHA=0.1); apskaičiuos vidurkio, dispersijos ir standartinio nuokrypio apatinį vienpusio pasikliautinojo intervalo su pasikliovimo lygmeniu 0.90 rėžį.

4.1 p a v y z d y s (tęsinys). a) Apskaičiuokime vidurkio, dispersijos ir standartinio nuokrypio dvipusį 95% pasikliautinąjį intervalą; b) vienpusio 95% pasikliautinojo intervalo viršutinį rėžį; c) dvipusius kvantilių 90% pasikliautinuosius intervalus. Editor lange parašykime:

PROC UNIVARIATE DATA=normalusis CIBASIC; /* a punktas */

VAR Y; RUN;

PROC UNIVARIATE DATA=normalusis CIBASIC(TYPE=UPPER) /* b,c punktai*/

CIPCTLNORMAL(ALPHA=0.1);

VAR Y; RUN;

Pirmosios procedūros UNIVARIATE rezultatas (pateikiame tik dalį spausdinamų statistikų):


Variable: Y

Basic Statistical Measures

Location Variability

Mean 5.033262 Std Deviation 1.99550

Median 4.841455 Variance 3.98203

Basic Confidence Limits Assuming Normality

Parameter Estimate 95% Confidence Limits

Mean 5.03326 4.63731 5.42921

Std Deviation 1.99550 1.75206 2.31813

Variance 3.98203 3.06973 5.37370

Antrosios procedūros UNIVARIATE rezultatas:


Variable: Y


Parameter Estimate Upper 95% CL

Mean 5.03326 5.36459

Std Deviation 1.99550 2.26201

Variance 3.98203 5.11667

Quantiles (Definition 5)

90% Confidence Limits

Quantile Estimate Assuming Normality

100% Max 9.768708

99% 9.714071 9.10420 10.38911

95% 8.197070 7.85556 8.87767

90% 7.850342 7.18178 8.07989

75% Q3 6.364037 6.03320 6.76861

50% Median 4.841455 4.70193 5.36459

114

25% Q1 3.787134 3.29791 4.03333

10% 2.279383 1.98663 2.88475

5% 1.727020 1.18885 2.21096

1% 0.927769 -0.32258 0.96233

0% Min 0.239332

Gauname: a) vidurkio 95% dvipusis pasikliautinasis intervalas yra (4.63731, 5.42921); disper-sijos 95% dvipusis pasikliautinasis intervalas yra (3.06973, 5.37370); standartinio nuokrypio 95% dvipusis pasikliautinasis intervalas yra (1.75206, 2.31813); b) vidurkio 95% vienpusio pasikliautinojo intervalo viršutinis rėžis yra 5.36459; dispersijos 95% vienpusio pasikliautinojo intervalo viršutinis rėžis yra 5.11667; standartinio nuokrypio 95% vienpusio pasikliautinojo intervalo viršutinis rėžis yra 2.26201; c) dešimtojo procentilio 95% dvipusis pasikliautinasis intervalas yra (1.98663, 2.88475); pirmojo kvartilio 95% dvipusis pasikliautinasis intervalas yra (3.29791, 4.03333) ir t.t.

2.2. Dvimatis normalusis skirstinys

Tarkime, kad ),,( ii YX ni ,...,1= yra dydžio n imtis, gauta stebint atsitiktinį vektorių,

kurio skirstinys yra dvimatis normalusis su vidurkių vektoriumi µ ir kovariacijų matrica Σ ,

t.y. ),(~),( 2 ΣµNYX , čia

.1||,,0,

,,),,(

1122222112

21122111

1121

<+∞<<

==

===

+∞<<∞−=

ρσσσσσρσσ

σρσσσσ

µµµµ

Σ

µ

(4.31)

Parametrų 22

2121 ,,, σσµµ taškiniai įverčiai randami panašiai kaip ir tuo atveju, kai

skirstinys yra vienmatis normalusis (žr. 2.1 skyrelį):

.)(1

1ˆ,)(

1

1ˆ

,1

ˆ,1

ˆ

1

222

22

1

221

21

12

11

∑∑

∑∑

==

==

−−

==−−

==

====

n

i

i

n

i

i

n

i

i

n

i

i

YYn

sXXn

s

Yn

YXn

X

σσ

µµ (4.32)

Koreliacijos koeficiento ρ įverčiu imamas jo empirinis analogas (Pirsono koreliacijos koeficientas):

,

)()(

))((ˆ

11

1

∑∑

∑

==

=

−−

−−==

n

i

i

n

i

i

n

i

ii

YYXX

YYXX

rρ (4.33)

čia YX , apibrėžti (4.32). Koreliacijos koeficientą (4.33) galime apskaičiuoti su SAS procedūra CORR. Sintaksė:

PROC CORR DATA=lentelė;

VAR kintamieji;

RUN;

VAR sakinyje nurodome kintamuosius, kurių koreliacijos koeficientus norime apskaičiuoti.

115

4.2 p a v y z d y s. Modeliuokime a.v. ),(~),( 2 ΣµNYX dydžio 100=n imtį, čia

,16.1

6.14),3,2(

== Σµ t.y. 6.0=ρ . Editor lange įveskime:

%LET n=100;

%LET miu1=2; %LET miu2=3;

%LET sigma1=2; %LET sigma2=1;

%LET ro=0.6;

DATA dvimatis;

DO i=1 TO &n;

X=&miu1+&sigma1*NORMAL(10);

vid=&miu2+&ro*(&sigma2/&sigma1)*(X-&miu1);

std=sqrt(&sigma2*(1-&ro*&ro));

Y=vid+std*NORMAL(10);

OUTPUT;

END;

RUN;

Apskaičiuokime parametrų ρσσµµ ,,,, 22

2121 taškinius įverčius. Editor lange

parašykime:

PROC MEANS DATA=dvimatis MEAN VAR;

VAR X Y;

RUN;

PROC CORR DATA=dvimatis;

VAR X Y;

RUN; Output lange gauname:

The MEANS Procedure

Variable Mean Std Dev Variance

X 1.6761400 1.8581382 3.4526775

Y 2.9474044 1.0639310 1.1319491

The CORR Procedure

2 Variables: X Y

Simple Statistics

Variable N Mean Std Dev Sum Minimum Maximum

X 100 1.67614 1.85814 167.61400 -1.38379 6.76871

Y 100 2.94740 1.06393 294.74044 0.68343 5.55309

Pearson Correlation Coefficients, N = 100

Prob > |r| under H0: Rho=0

X Y

X 1.00000 0.56355

<.0001

Y 0.56355 1.00000

<.0001

Gavome tokius taškinius įverčius: ,67612.1ˆ1 =µ ,94740.2ˆ 2 =µ ,4526775.3ˆ 21 =σ

,1319491.1ˆ 22 =σ 56355.0ˆ =ρ .

Koreliacijos koeficiento empirinio analogo r, apibrėžto (4.33) tankis yra gana sudė-tingas (žr. [5]), todėl praktikoje konstruojant r pasikliautinuosius intervalus dažniausiai naudojama Fišerio aproksimacija. Naudojamasi faktu, kad

),1,0(~ NZV

VV⇒

−

D

M (4.34)

čia

116

,1

1ln

2

1

r

rV

−+

= (4.35)

,...)3(4

31

)3(21

1ln

2

1 2

+

−−

−−

+−+

=nn

Vρρ

ρρ

M

....)3(6

362

)3(21

3

12

422

+

−

+−−

−−

−=

nnnZ

ρρρD

Taikydami šią aproksimaciją ir apsiribodami pirmaisiais MV ir DV nariais, gauname apytikslį koreliacijos koeficiento ρ pasikliautinąjį intervalą su pasikliovimo lygmeniu

α−= 1Q :

,1

1,

1

1),(

2

2

1

1

2

2

2

2

+

−

+

−=

V

V

V

V

e

e

e

eρρ (4.36)

čia

.3

1

1

1ln

2

1,

3

1

1

1ln

2

12/122/11

−+

−+

=−

−−+

= −−n

zr

rV

nz

r

rV αα (4.37)

kur 2/1 α−z yra standartinio normalaus skirstinio (1-α/2)-tasis kvantilis.

Pasikliautinąjį koreliacijos koeficiento ρ intervalą galima apskaičiuoti su SAS procedūra CORR. Ši procedūra apskaičiuoja (4.36) intervalą arba intervalą su pataisa, t.y. tokį pasikliautinąjį intervalą:

,1

1,

1

1),(

*2

*2

*2

*2

koregkoreg 2

2

1

1

+

−

+

−=

V

V

V

V

e

e

e

eρρ (4.38)

čia

.3

1

1

1ln

2

1*,

3

1

1

1ln

2

1* 2/122/11

−+−

−+

=−

−−−+

= −−n

zwr

rV

nzw

r

rV αα (4.39)

čia

.)1(2 −

=n

rw (4.40)

Pasikliautinasis intervalas apskaičiuojamas, jeigu Proc sakinyje nurodome FISHER<(pasirinktys)>, čia pasirinktys: ALPHA=α, čia α=1-Q, Q – pasikliovimo lygmuo; TYPE=LOWER| UPPER | TWOSIDED (apatinis vienpusio pasikliautinojo intervalo rėžis | viršutinis pasikliautinojo intervalo rėžis | dvipusis pasikliautinasis intervalas; pagal nutylėjimą TWOSIDED, BIASADJ=YES|NO, jeigu nurodome „NO“, tai apskaičiuojamas pasikliautinasis intervalas (4.36), jeigu nurodome „YES“ arba šios parinkties nenurodome, tai naudojama pataisa ir apskaičiuojamas pasikliautinasis intervalas (4.38); jeigu skaičiuojamas (4.38) intervalas, tai papildomai dar spausdinamas toks koreliacijos koeficiento įvertis:

,1

1)(2

)(2

koreg +

−=

−

−

wV

wV

e

er (4.41)

čia V ir w apibrėžti (4.35) ir (4.40) atitinkamai.

117

4.2 p a v y z d y s (tęsinys). a) Apskaičiuokime koreliacijos koeficiento 95% pasikliautinąjį intervalą naudojant pataisą (žr. (4.38)). Editor lange įveskime:

PROC CORR DATA=dvimatis FISHER;

VAR X Y;

RUN;

Output lange gauname:

Pearson Correlation Statistics (Fisher's z Transformation)

With Sample Bias Correlation

Variable Variable N Correlation Fisher's z Adjustment Estimate

X Y 100 0.56355 0.63802 0.00285 0.56160


With p Value for

Variable Variable 95% Confidence Limits H0:Rho=0

X Y 0.410464 0.682713 <.0001

Gauname: imties koreliacijos koeficientas 56355.0=r ; Fisher‘s z apskaičiuojamas pagal (4.35) formulę; pataisa 00285.0=w (žr. (4.40); Bias adjustment); koreguotas kore-liacijos koeficiento įvertis 56160.0koreg =r (žr. (4.41); Correlation Estimate); koreliacijos

koeficiento 95% pasikliautinasis intervalas (4.38) yra: ( )682713.0,410464.0),( koregkoreg=ρρ .

b) Apskaičiuokime koreliacijos koeficiento 90% pasikliautinąjį intervalą (4.36), t.y. be pataisos. Editor lange įveskime:

PROC CORR DATA=dvimatis FISHER(ALPHA=0.1 BIASADJ=NO);

VAR X Y;

RUN;

Output lange gauname: The CORR Procedure


With Sample p Value for

Variable Variable N Correlation Fisher's z 90% Confidence Limits H0:Rho=0

X Y 100 0.56355 0.63802 0.439015 0.666839 <.0001

Gauname: imties koreliacijos koeficientas 56355.0=r ; koreliacijos koeficiento 90% pasikliautinasis intervalas (4.36) yra: ( )666839.0,439015.0),( =ρρ .

2.3. Binominis skirstinys

Tegu imtis nXXX ,...,, 21 yra gauta stebint a.d. X, kurio skirstinys priklauso

binominių skirstinių šeimai }10),,1({ <<= ppBP , t.y. a.d. X gali įgyti tik dvi reikšmes. Binominio skirstinio parametro p įvertį galima apskaičiuoti su SAS procedūra FREQ (ši procedūra buvo aprašyta III sk. 1 skyrelyje). Šiame skyrelyje pateiksime pasirinktis, kurios naudojamos parametro p taškinio įverčio ir pasikliautinųjų intervalų apskaičiavimui. Jos rašomos TABLES sakinyje. Sintaksė:

PROC FREQ DATA=lentelė;

TABLES kintamasis / BINOMIAL(LEVEL=’reikšmė’);

RUN;

čia kintamasis analizuojamas kintamasis (gali būti skaitinio arba simbolinio tipo), įgyjantis dvi reikšmes, reikšmė – nurodyto kintamojo reikšmė. Ši procedūra apskaičiuos: 1) tikimybės }{ rXPp == įvertį

,/ˆ nnp r= (4.42)

118

čia r - nurodyta reikšmė, rn - reikšmių r skaičius, n – bendras stebėjimų skaičius;

2) tikimybės įverčio p̂ standartinį nuokrypį

;/)ˆ1(ˆˆ nppss p −== (4.43)

3) asimptotinį pasikliautinąjį p intervalą, kuris gaunamas naudojant normaliąją aprok-simaciją. Asimptotinis tikimybės p pasikliautinasis intervalas su pasikliovimo lygmeniu

α−= 1Q yra

),ˆ,ˆ(),( 2/12/1 szpszppp αα −− +−= (4.44)

čia 2/1 α−z yra standartinio normalaus skirstinio (1-α/2)-tasis kvantilis. Pagal nutylėjimą yra

skaičiuojamas 95% pasikliautinasis intervalas. Kokį pasikliautinąjį intervalą skaičiuoti galima nurodyti su ALPHA=α, čia α=1-Q, Q – pasikliovimo lygmuo (ši pasirinktis rašoma TABLES sakinyje); 4) tikslų pasikliautinąjį p intervalą

),,1(),1,((),( 2/12/ rrrr nnnXnnnXpp −++−= −αα

čia vX yra beta skirstinio v-tasis kvantilis, rn - apibrėžtas (4.42).

Jeigu TABLES sakinyje nurodome BINOMIALC(LEVEL=reikšmė), tai skaičiuojant asimptotinį p pasikliautinąjį intervalą yra naudojama tolydumo pataisa 1/2n, t.y. asimptotinis tikimybės p pasikliautinasis intervalas su pasikliovimo lygmeniu α−= 1Q yra apskaičiuojamas taip:

)),2/1(ˆ,2/1(ˆ(),( 2/12/1koregkoregnszpnszppp +++−= −− αα (4.45)

čia 2/1 α−z yra standartinio normalaus skirstinio (1-α/2)-tasis kvantilis.

4.3 p a v y z d y s. Modeliuokime a.d. X, kurio skirstinys yra binominis su parametrais 1 ir p=0.4, t.y. X~B(1,p) dydžio 50=n imtį. Editor lange įveskime:

%LET n=50;

%LET p=0.4;

DATA binominis;

DO i=1 TO &n;

X=ranbin(10,1,&p);

OUTPUT;

END;

RUN;

Apskaičiuokime tikimybės p įvertį ir pasikliautinąjį intervalą su pasikliovimo lygmeniu 0.9. Editor lange parašome:

PROC FREQ DATA=binominis;

TABLES x / BINOMIAL(LEVEL=’0’) ALPHA=0.1;

RUN;

Output lange gauname: The FREQ Procedure

Cumulative Cumulative

X Frequency Percent Frequency Percent

0 24 48.00 24 48.00

1 26 52.00 50 100.00

Binomial Proportion for X = 0

Proportion 0.4800

119

ASE 0.0707

90% Lower Conf Limit 0.3638

90% Upper Conf Limit 0.5962

Exact Conf Limits

90% Lower Conf Limit 0.3573

90% Upper Conf Limit 0.6046

Sample Size = 50

Pirma spausdinama lentelė yra kintamojo x dažnių lentelė (tokias lentelės aptarėme III sk. 1 skyrelyje). Iš lentelės „Binomial Proportion for X=0“ gauname, kad tikimybės p įvertis (4.42) yra ;48.050/24/ˆ 0 === nnp tikimybės įverčio p̂ standartinis nuokrypis

0707.0ˆ == pss (ASE; žr. (4.43)); asimptotinis pasikliautinasis p intervalas (žr. (4.44)) su

pasikliovimo lygmeniu 0.9 yra );5962.0,3638.0(),( =pp tikslus pasikliautinasis p intervalas

(Exact Conf Limits) yra (0.3573, 0.6046).

2.4 Puasono skirstinys

Tegu imtis nXXX ,...,, 21 yra gauta stebint a.d. X, kurio skirstinys yra Puasono su

parametru λ. Parametro λ NMD įvertis yra

.1ˆ

1∑=

==n

i

iXn

Xλ (4.46)

Parametro λ įvertį galime apskaičiuoti su procedūra MEANS arba UNIVARIATE.

4.4 p a v y z d y s. Modeliuokime a.d. X, kurio skirstinys yra Puasono su parametru λ=2 dydžio 100=n imtį. Editor lange įveskime:

%LET n=100;

%LET lambda=2;

DATA puasono;

DO i=1 TO &n;

X=ranpoi(10,&lambda);

OUTPUT;

END;

RUN;

Apskaičiuokime parametro λ taškinį įvertį. Editor lange parašome:

PROC MEANS DATA=puasono MEAN;

VAR X;

RUN;

Output lange gauname: The MEANS Procedure

Analysis Variable : X

Mean

2.1400000

Taigi, gauname, kad .14.2ˆ =λ

Parametro λ pasikliautinasis intervalas su pasikliovimo lygmeniu α−= 1Q yra apskaičiuojamas taip:

,)22(2

1),2(

2

1),( 2

2/12

2/

+= − nn Sn

Sn

αα χχλλ (4.47)

čia 2Pχ yra chi-kvadrato skirstinio P-tasis kvantilis, ....1 nn XXS ++=

120

4.4 p a v y z d y s (tęsinys). Apskaičiuokime parametro λ pasikliautinąjį intervalą su pasikliovimo lygmeniu 0.95. Reikia parašyti programą, kuri apskaičiuotų ),( λλ , apibrėžtą (4.47). Editor lange parašome:

%LET n=100; /* stebėjimų skaičius*/

%LET alpha=0.05; /* 0.95 pasikl. intervalas*/

PROC MEANS NOPRINT DATA=puasono;

VAR X; /*analizuojamas kintamasis*/

OUTPUT OUT=intervalas SUM(X)=suma; /*apskaičiuojame reikšmių sumą*/

RUN; /*ir įrašome į lentelę intervalas*/

DATA intervalas;

SET intervalas;

lambda_apat=CINV(&alpha/2,2*suma)/2/&n; /*viršutinis intervalo rėžis */

lambda_virsut=CINV(1-&alpha/2,2*suma+2)/2/&n; /*apatinis intervalo rėžis*/

KEEP lambda_apat lambda_virsut;

RUN;

Rezultatą gauname lentelėje „intervalas“; parametro λ pasikliautinasis intervalas su pasikliovimo lygmeniu 0.95 yra (1.8628677697, 2.4467383229).

2.5 Gama skirstinys

Tegu imtis nXXX ,...,, 21 yra gauta stebint a.d. X, kurio skirstinys yra gama su

parametrais λ>0 ir a>0, t.y. X tankis yra

.)(

),|( 1 xaa

exa

axfλλ

λ −−

Γ= (4.47)

Parametrų λ ir a momentų metodu gauti įverčiai yra tokie (žr., pavyzdžiui, [5]):

,/ˆ,/ˆ 222sXasX ==λ (4.48)

čia 2, sX yra imties vidurkis ir dispersija.

Parametrų λ ir a įverčius galime apskaičiuoti su procedūra MEANS arba UNIVARIATE.

4.5 p a v y z d y s. Modeliuokime a.d. X, kurio skirstinys yra gama su parametrais λ=0.5 ir 5=a dydžio 200=n imtį. Editor lange įveskime:

DATA gama;

DO i=1 TO 200;

x=2*rangam(10,5);

OUTPUT;

END;

RUN; Apskaičiuokime parametrų λ ir a momentų metodu gautus įverčius (žr.(4.48)). Editor lange parašykime:

PROC MEANS NOPRINT DATA=gama;


OUTPUT OUT=Param MEAN(X)=vid VAR(X)=disp; /*apskaičiuojame vidurkį ir*/

RUN; /*dispersiją; įrašome į lentelę Param*/

DATA Param;

SET Param;

lambda=vid/disp; /*parametro lambda įvertis */

a=(vid**2)/disp; /*parametro a įvertis*/

KEEP lambda a;

RUN;

Rezultatą gauname lentelėje „Param“; parametro λ įvertis ,4867363039.0ˆ =λ para-

metro a įvertis 9916562109.4ˆ =a .

121

Ieškant parametrų įverčių maksimalaus tikėtinumo metodu reikia maksimizuoti maksimalaus tikėtinumo funkciją:

.)(

),;,...,,(1

121 ∏

=

−−

Γ==

n

i

Xa

i

a

nieX

aaXXXLL

λλλ (4.49)

Šis maksimizavimo uždavinys yra ekvivalentus tikėtinumo funkcijos L logaritmo maksi-mizavimo uždaviniui, t.y. reikia maksimizuoti funkciją

,ln1

∑=

=n

i

ilL (4.50)

čia ).(lnlnln)1( aaXXal iii Γ−+−−= λλ (4.51)

SAS yra procedūros, skirtos maksimizuoti (arba minimizuoti) funkcijas su tiesiniais arba netiesiniais apribojimais. Viena iš jų yra SAS/IML modulio procedūra IML. Kita procedūra, skirta funkcijų maksimizavimui (arba minimizavimui) yra SAS/OR modulio procedūra NLP. Pilną šių procedūrų aprašymą galima pasižiūrėti pagrindiniame meniu pasirinkus punktą Help→SAS Help and Documentation. Pateiksime pavyzdį, iliustruojantį kaip su procedūra NLP apskaičiuoti gama skirstinio parametrų maksimalaus tikėtinumo įverčius.

4.6 p a v y z d y s. Tarkime, kad turime 4.5 pavyzdyje modeliuotus duomenis. Apskaičiuokime parametrų λ ir a maksimalaus tikėtinumo įverčius.

PROC NLP DATA=gama;

MAX loglik;

PARMS a=2, lambda=1;

BOUNDS a > 1e-12, lambda > 1e-12;

loglik=(a-1)*log(x)-x*lambda+a*log(lambda)-log(gamma(a));

run; Naudojame sakinį MAX, nes reikia funkciją maksimizuoti; jame nurodome funkcijos, kurią maksimizuosime vardą; pati funkcija apibrėžiama vėliau (sakinyje prieš RUN). PARMS sakinyje nurodome parametrus (t.y. kintamuosius, kurių atžvilgiu maksimi-zuosime funkciją). BOUNDS sakinyje nurodome apribojimus (gama skirstinio parametrai turi būti didesni už nulį, todėl nurodome labai mažą teigiamą skaičių 1e-12). Output lange gauname (pateikiame tik dalį spausdinamų charakteristikų):

PROC NLP: Nonlinear Maximization

Optimization Results

Parameter Estimates

Gradient

Objective

N Parameter Estimate Function

1 a 5.162675 0.000000806

2 lambda 0.503412 9.8321755E-8

Taigi, parametrų λ ir a maksimalaus tikėtinumo įverčiai yra ,503412.0ˆ =λ

.162675.5ˆ =a

2.6 Beta skirstinys

Tegu imtis nXXX ,...,, 21 yra gauta stebint a.d. X, kurio skirstinys yra beta su

parametrais γ>0 ir η>0, t.y. X tankis yra

122

.)1()()(

)(),|( 11 −− −

ΓΓ+Γ

= ηγ

ηγηγ

ηγ xxxf (4.52)

Parametrų γ ir η momentų metodu gauti įverčiai yra tokie (žr., pavyzdžiui, [5]):

,1)1(

)1(ˆ,1)1(

ˆ22

−

−−=

−

−=

s

XXX

s

XXX ηγ (4.53)

čia 2, sX yra imties vidurkis ir dispersija.

Parametrų γ ir η įverčius galime apskaičiuoti su procedūra MEANS arba UNIVARIATE.

4.6 p a v y z d y s. Modeliuokime a.d. X, kurio skirstinys yra beta su parametrais γ=1.5 ir 3=η dydžio 200=n imtį. Editor lange įveskime:

DATA beta;

call streaminit(10);

DO i=1 TO 200;

x=rand(’BETA’,1.5,3);

OUTPUT;

END; RUN;

Apskaičiuokime parametrų γ ir η momentų metodu gautus įverčius (žr.(4.53)). Editor lange parašykime:

PROC MEANS NOPRINT DATA=beta;


OUTPUT OUT=Param MEAN(X)=vid VAR(X)=disp; /*apskaičiuojame vidurkį ir*/

RUN; /*dispersiją; įrašome į lentelę Param*/

DATA Param;

SET Param;

gama=vid*(vid*(1-vid)/disp-1); /*parametro gama įvertis */

eta=(1-vid)*(vid*(1-vid)/disp-1); /*parametro eta įvertis*/

KEEP gama eta;

RUN;

Rezultatą gauname lentelėje „Param“; parametro γ įvertis ,3893051547.1ˆ =γ para-

metro η įvertis 80778468.2ˆ =η .

Ieškant parametrų įverčių maksimalaus tikėtinumo metodu reikia maksimizuoti maksimalaus tikėtinumo funkciją:

.)1()()(

)(),;,...,,(

1

1121 ∏

=

−− −ΓΓ+Γ

==n

i

iin XXXXXLLηγ

ηγηγ

ηγ (4.54)

Šis maksimizavimo uždavinys yra ekvivalentus tikėtinumo funkcijos L logaritmo maksi-mizavimo uždaviniui, t.y. reikia maksimizuoti funkciją

,ln1

∑=

=n

i

ilL (4.55)

čia ).1ln()1(ln)1()(ln)(ln)(ln iii XXl −−+−+Γ−Γ−+Γ= ηγηγηγ (4.56)

Kaip ir gama skirstinio atveju (žr. 2.5 skyrelį) ieškant maksimalaus tikėtinumo įverčių galima naudoti procedūrą NLP.

4.7 p a v y z d y s. Tarkime, kad turime 4.6 pavyzdyje modeliuotus duomenis. Apskaičiuokime parametrų γ ir η maksimalaus tikėtinumo įverčius.

123

PROC NLP DATA=beta;

MAX loglik;

PARMS gama=2, eta=2;

BOUNDS gama > 1e-12, eta > 1e-12;

loglik=log(gamma(gama+eta))-log(gamma(gama))-log(gamma(eta))+

(gama-1)*log(x)+(eta-1)*log(1-x);

run; Naudojame sakinį MAX, nes reikia funkciją maksimizuoti; jame nurodome funkcijos, kurią maksimizuosime vardą; pati funkcija apibrėžiama vėliau (sakinyje prieš RUN). PARMS sakinyje nurodome parametrus (t.y. kintamuosius, kurių atžvilgiu maksimi-zuosime funkciją). BOUNDS sakinyje nurodome apribojimus (beta skirstinio parametrai turi būti didesni už nulį, todėl nurodome labai mažą teigiamą skaičių 1e-12). Output lange gauname (pateikiame tik dalį spausdinamų charakteristikų):

PROC NLP: Nonlinear Maximization

Optimization Results

Parameter Estimates

Gradient

Objective

N Parameter Estimate Function

1 gama 1.499573 0.000003748

2 eta 2.975147 0.000000557

Value of Objective Function = 53.778768607

Taigi, parametrų γ ir η maksimalaus tikėtinumo įverčiai yra ,499573.1ˆ =γ

.975147.2ˆ =η

V skyrius. PARAMETRINIŲ HIPOTEZIŲ TIKRINIMO UŽDAVINIAI

1. Pagrindinės sąvokos ir apibrėžimai

Bet koks teiginys apie stebimo a.d. tikimybinio skirstinio parametrų reikšmes yra vadinamas parametrine hipoteze. Tarkime, kad nXXX ,...,, 21 yra imtis, gauta stebint a.d. X, kurio skirstinys priklauso

šeimai },{ Θ∈= θθPP , čia ),...,( 1 kθθ=θ nežinomas parametras, o kR⊂Θ . Tarkime, kad

0Θ yra aibės Θ poaibis. Parametrine hipoteze 0H vadiname teiginį:

.:H 00 Θ∈θ

Tvirtinimą, kuris priešpastatomas hipotezei, vadiname alternatyva:

.:H 01 Θ∉θ

Priimdami arba atmesdami hipotezę 0H galime padaryti dviejų rūšių klaidas. Jos

vadinamos pirmos ir antros rūšies klaidomis. Pirmos (I) rūšies klaida: hipotezė 0H atmetama,

kai ji yra teisinga. Antros (II) rūšies klaida: hipotezė 0H priimama, kai ji yra klaidinga.

Taisyklė, kuria remiantis darome išvadą apie hipotezės teisingumą arba klaidingumą, vadinama statistiniu kriterijumi. Kriterijus yra tuo geresnis, kuo mažesnės abiejų rūšių klaidų tikimybės. Dažniausiai daroma taip: pirmos rūšies klaidos tikimybė yra fiksuojama, t.y. pasirenkamas skaičius α (reikšmingumo lygmuo; mažas teigiamas skaičius; dažniausiai imama 01,0;05,0;1,0=α ) ir minimizuojama antros rūšies klaidos tikimybė su sąlyga, kad

124

pirmos rūšies klaidos tikimybė yra fiksuota ir lygi α. Reikšmingumo lygmuo, tai tikimybė su kuria sutinkame padaryti pirmos rūšies klaidą, t.y. atmesti teisingą hipotezę. Pavyzdžiui, jeigu pasirenkame ,05,0=α tai daug kartų tikrindami hipotezę vidutiniškai penkis kartus iš šimto teisingą hipotezę atmesime. Sprendimui priimti naudojama statistika ),...,,( 21 nXXXT vadinama kriterijaus

statistika. Statistika T parenkama taip, kad jos skirstinys būtų žinomas, kai hipotezė 0H

teisinga. Priimti ar atmesti hipotezę yra sprendžiama atsižvelgiant į stebėtą statistikos reikšmę (realizaciją). Jeigu T realizacija patenka į kritinę (atmetimo) sritį W, tenkinančią tam tikras sąlygas, tai hipotezė 0H atmetama.

Dažniausiai yra skaičiuojama ne antrosios rūšies klaida, o jai priešingo įvykio tiki-mybė – kriterijaus galia 1-β (čia β - antros rūšies klaidos tikimybė), t.y. tikimybė atmesti hipotezę 0H , kai ji klaidinga. Geresnis (galingesnis) tas kriterijus, kurio galia yra didesnė.

Yra du alternatyvūs tikrinimo būdai. Kai turime statistines lenteles, tai hipotezių tikrinimui naudojame atitinkamo skirstinio kvantilius arba kritines reikšmes (α-toji kritinė reikšmė yra (1-α)-tasis kvantilis), kurias lyginame su stebėta statistikos reikšme. Statistiniai paketai apskaičiuoja P-reikšmę (P-value). Apskaičiuota P-reikšmė nepriklauso nuo pasirinkto reikšmingumo lygmens (t.y. turėdami P-reikšmę hipotezę galime tikrinti su kokiu norime reikšmingumo lygmeniu). P-reikšmė, tai tikimybė gauti didesnę statistikos reikšmę (alternatyvos kryptimi) negu iš tikrųjų buvo stebėta. Gautą P-reikšmę lyginame su pasirinktu reikšmingumo lygmeniu:

jei P-reikšmė < α (reikšmingumo lygmuo), tai hipotezę atmetame; (5.1) jei P-reikšmė ≥ α (reikšmingumo lygmuo), tai hipotezė neatmetama;

Kuo mažesnė P-reikšmė, tuo stipresnis akivaizdumas atmesti hipotezę.

2. Hipotezė apie vidurkio reikšmę

Tegu imtis ),...,,( 21 nXXX=X yra gauta stebint a.d. X, kurio skirstinys yra normalu-

sis su vidurkiu µ ir dispersija 2σ , t.y. ),(~ 2σµNX . Reikia patikrinti hipotezę 0H , kad X

vidurkio µ reikšmė lygi skaičiui 0µ , t.y. .:H 00 µµ =

Nagrinėsime du atvejus: 1) dispersija 2σ yra žinoma; 2) dispersija 2σ yra nežinoma.

2.1. Hipotezė apie vidurkio reikšmę, kai dispersija žinoma

Tarkime, kad dispersijos 2σ reikšmė yra žinoma ir lygi .20σ Kritinė sritis sudaroma

remiantis tuo, kad

0

0

σµ−

=X

nZ (5.2)

skirstinys yra standartinis normalusis (t.y. normalusis skirstinys su vidurkiu 0 ir dispersija 1),

kai hipotezė 00 :H µµ = yra teisinga, čia .1

1∑=

=n

i

iXn

X

1) Tarkime, kad reikia patikrinti hipotezę 00 :H µµ = (arba 0µµ ≤ ) su alternatyva

01 :H µµ > (vienpusė alternatyva).

Kritinė sritis W: hipotezė 0H atmetama, kai Z> αz , čia Z – apibrėžta (5.2), αz yra

standartinio normalaus skirstinio α-toji kritinė reikšmė. 5.1 pav. schematiškai yra pažymėta kritinė sritis, reikšmingumo lygmuo, kritinė reikšmė, P-reikšmė. 5.1 a) pav. pavaizduota situacija, kai statistikos reikšmė pateko į kritinę sritį, t.y. hipotezė atmetama. 5.1 b) pav. pavaizduota situacija, kai statistikos reikšmė

125

nepateko į kritinę sritį, t.y. hipotezė priimama. Ši schema vaizdžiai iliustruoja tikrinimo būdą, kai P-reikšmė lyginama su pasirinktu reikšmingumo lygmeniu α. Kai P-reikšmė < α, tai statistikos Z reikšmė pateko į kritinę sritį ir hipotezė atmetama (žr.5.1 pav., a); kai P-reikšmė > α, tai statistikos Z reikšmė nepateko į kritinę sritį ir hipotezė priimama (žr.5.1 pav., b). a)

b)

5.1 pav. Kritinė sritis, kritinė reikšmė, P-reikšmė

5.2 pav. schematiškai pavaizduota kritinė sritis, reikšmingumo lygmuo, kriterijaus galia (pažymėjimai tokie patys kaip 1 skyrelyje).

5.2 pav. Kritinė sritis, reikšmingumo lygmuo, kriterijaus galia

2) Tarkime, kad reikia patikrinti hipotezę 00 :H µµ = (arba 0µµ ≥ ) su alternatyva

01 :H µµ < (vienpusė alternatyva).

Kritinė sritis W: hipotezė 0H atmetama, kai Z<- αz , čia Z – apibrėžta (5.2), αz yra

standartinio normalaus skirstinio α-toji kritinė reikšmė. 3) Tarkime, kad reikia patikrinti hipotezę 00 :H µµ = su alternatyva 01 :H µµ ≠

(dvipusė alternatyva). Kritinė sritis W: hipotezė 0H atmetama, kai |Z|> 2/αz , čia Z – apibrėžta (5.2), αz yra

standartinio normalaus skirstinio α-toji kritinė reikšmė.

126

5.1 p a v y z d y s. Sukurkime duomenų lentelę su tokiu Data žingsniu: DATA normalusis;

DO i=1 TO 100;

Y=5+NORMAL(10); OUTPUT;

END; RUN;

Patikrinkime hipotezę, kad vidurkis lygus 5 su alternatyva, kad nelygus; tariame, kad dispersija yra žinoma ir lygi 1; imkime reikšmingumo lygmenį 0,05. Editor lange parašykime:

PROC MEANS DATA=normalusis N MEAN;

OUTPUT OUT=rezultatas MEAN(Y)=vid_y N(Y)=N;

VAR Y; RUN;

DATA rezultatas;

SET rezultatas;

Z=sqrt(N)*(vid_y-5)/1;

krit_r=PROBIT(1-0.05/2);

KEEP Z krit_r;

RUN;

Lentelėje „rezultatas“ gauname, kad kriterijaus statistikos reikšmė 1663105735.0=Z , o kritinė reikšmė .9599639845.12/05.02/ == zzα Statistikos reikšmė nepateko į kritinę sritį,

todėl galime teigti: hipotezė 5:H 0 =µ su alternatyva 5:H1 ≠µ yra priimama su

reikšmingumo lygmeniu .05.0=α

Hipotezę apie vidurkio lygybę skaičiui galima patikrinti naudojant vidurkio pasikliautinąjį intervalą. Tarkime, kad reikia patikrinti hipotezę 00 :H µµ = (arba 0µµ ≤ ) su alternatyva

01 :H µµ > ; reikšmingumo lygmuo α . Tarkime, kad µ yra vienpusio vidurkio µ

pasikliautinojo intervalo su pasikliovimo lygmeniu 1-α apatinis rėžis. Tada hipotezė 0H

atmetama su reikšmingumo lygmeniu α , jei µµ <0 .

Tarkime, kad reikia patikrinti hipotezę 00 :H µµ = (arba 0µµ ≥ ) su alternatyva

01 :H µµ < ; reikšmingumo lygmuo α . Tarkime, kad µ yra vienpusio vidurkio µ

pasikliautinojo intervalo su pasikliovimo lygmeniu 1-α viršutinis rėžis. Tada hipotezė 0H

atmetama su reikšmingumo lygmeniu α , jei µµ >0 .

Tarkime, kad reikia patikrinti hipotezę 00 :H µµ = su alternatyva 01 :H µµ ≠ ;

reikšmingumo lygmuo α . Tarkime, kad ),( µµ yra vidurkio µ pasikliautinasis intervalas su

pasikliovimo lygmeniu 1-α . Tada hipotezė 0H atmetama su reikšmingumo lygmeniu α , jei

µµ <0 arba µµ >0 .

5.1 p a s t a b a. Analogiškai galima patikrinti hipotezę apie bet kokio kito parametro reikšmes, t.y. jeigu sukonstravome parametro pasikliautinąjį intervalą, tai galime patikrinti hipotezę apie to parametro reikšmę.

2.2. Hipotezė apie vidurkio reikšmę, kai dispersija nežinoma

Tarkime, kad dispersijos 2σ reikšmė yra nežinoma. Kritinė sritis sudaroma remiantis tuo, kad

s

XnT 0µ−

= (5.3)

skirstinys yra Stjudento skirstinys su n-1 laisvės laipsniu, kai hipotezė 00 :H µµ = yra

teisinga, čia ,1

∑=

=n

i

iXX .)(1

1

1

2∑=

−−

=n

i

i XXn

s

127

1) Tarkime, kad reikia patikrinti hipotezę 00 :H µµ = (arba 0µµ ≤ ) su alternatyva

.:H 01 µµ >

Kritinė sritis W: hipotezė 0H atmetama, kai T> αt , čia T – apibrėžta (5.3), αt yra

Stjudento skirstinio su n-1 laisvės laipsniu α-toji kritinė reikšmė. 2) Tarkime, kad reikia patikrinti hipotezę 00 :H µµ = (arba 0µµ ≥ ) su alternatyva

.:H 01 µµ <

Kritinė sritis W: hipotezė 0H atmetama, kai T<- αt , čia T – apibrėžta (5.3), αt yra

Stjudento skirstinio su n-1 laisvės laipsniu α-toji kritinė reikšmė. 3) Tarkime, kad reikia patikrinti hipotezę 00 :H µµ = su alternatyva .:H 01 µµ ≠

Kritinė sritis W: hipotezė 0H atmetama, kai |T|> 2/αt , čia T – apibrėžta (5.3), αt yra

Stjudento skirstinio su n-1 laisvės laipsniu α-toji kritinė reikšmė.

Su procedūra MEANS galima patikrinti hipotezę apie vidurkio lygybę nuliui, kai dispersija nežinoma. Jeigu norime patikrinti hipotezę 0:H 0 =µ su alternatyva 0:H1 ≠µ ,

tai PROC sakinyje reikia nurodyti: T (spausdins kriterijaus statistikos reikšmę, žr.(5.3)), PROBT (spausdins dvipusę P-reikšmę; žr. 5.3 pav.).

5.3 pav. Dvipusė P-reikšmė

5.2 p a s t a b a. 1) Jeigu norime patikrinti hipotezę su vienpuse dešinine alternatyva (t.y. 01 :H µµ > ), tai: a) kai apskaičiuota kriterijaus statistikos T reikšmė yra neigiama, tai

hipotezė priimama su bet kokiu reikšmingumo lygmeniu α mažesniu už 0.5 (žr. 5.4 pav); b) kai apskaičiuota kriterijaus statistikos T reikšmė yra teigiama, tai gautą dvipusę P-reikšmę PROBT daliname pusiau ir lyginame su pasirinktu reikšmingumo lygmeniu α; 2) Jeigu norime patikrinti hipotezę su vienpuse kairine alternatyva (t.y. 01 :H µµ < ),

tai: a) kai apskaičiuota kriterijaus statistikos T reikšmė yra teigiama, tai hipotezė priimama su bet kokiu reikšmingumo lygmeniu α mažesniu už 0.5 (žr. 5.5 pav); b) kai apskaičiuota kriterijaus statistikos T reikšmė yra neigiama, tai gautą dvipusę P-reikšmę PROBT daliname pusiau ir lyginame su pasirinktu reikšmingumo lygmeniu α.

5.4 pav. Dešininė alternatyva, T - neigiama

128

5.5 pav. Kairinė alternatyva, T - teigiama


DO i=1 TO 100;

Y=5+NORMAL(10);

OUTPUT;

END;

RUN;

Patikrinkime hipotezę, kad vidurkis lygus nuliui su alternatyva, kad nelygus; tariame, kad dispersija yra nežinoma; imkime reikšmingumo lygmenį 0,05. Editor lange parašykime:

PROC MEANS DATA=normalusis T PROBT;

VAR Y; RUN;

RUN;


The MEANS Procedure

Analysis Variable : Y

t Value Pr > |t|

50.28 <.0001

Gauname, kad kriterijaus statistikos reikšmė 28.50=T (t value), dvipusė P-reikšmė (Pr>|t|) yra mažesnė už 0.0001, taigi, hipotezė 0:H0 =µ yra atmetama su reikšmingumo

lygmeniu .05.0=α

Su procedūra UNIVARIATE galima patikrinti hipotezę apie vidurkio reikšmę, kai dispersija nežinoma. Jeigu norime patikrinti hipotezę 00 : µµ =H su alternatyva 01 : µµ ≠H ,

tai Proc sakinyje reikia nurodyti MU0= 0µ , pagal nutylėjimą 0µ =0. Jeigu norime patikrinti

hipotezę su vienpuse alternatyva, tai naudojame metodą, pateiktą 5.2 pastaboje.

5.3 p a v y z d y s. Buvo išmatuotas 24 atsitiktinai atrinktų vaikų ūgis.Gauti tokie rezultatai (cm):

124 122 123 134 124 123 121 124 128 123 126 125 131 119 122 125 130 122 125 121 132 128 131 127

Sukurkime duomenų lentelę su tokiu Data žingsniu:

DATA vaikai;


INPUT ugis @@;

a) Ar galime teigti, kad vidutinis vaikų ūgis yra nemažesnis už 127 cm? Taigi, reikia patikrinti hipotezę 127:H 0 ≥µ su alternatyva .127:H1 <µ Tarkime, kad reikšmingumo

lygmuo .05.0=α Naudosime procedūrą UNIVARIATE. Editor lange įveskime:

PROC UNIVARIATE DATA=vaikai MU0=127; VAR ugis; RUN;

129

Output lange gauname lentelę „Tests for Location: Mu0=127“. Pirmoje šios lentelės eilutėje (paryškinta) spausdinama kriterijaus statistika (5.3) ir dvipusė P-reikšmė, t.y. P-reikšmė, skirta patikrinti hipotezę 00 :H µµ = su alternatyva ,:H 01 µµ ≠ 127=µ . Pagal

uždavinio sąlygą reikia patikrinti hipotezę su vienpuse kairine alternatyva, todėl iš pradžių žiūrime į kriterijaus statistikos ženklą; T neigiama; apskaičiuotą dvipusę P-reikšmę (p Value) 0.0607 daliname iš 2 ir lyginame su pasirinktu reikšmingumo lygmeniu α. Gauname 0.03<0.05, todėl hipotezę atmetame su reikšmingumo lygmeniu 0.05. Taigi, vidutinis vaikų ūgis mažesnis už 127.

Tests for Location: Mu0=127

Test -Statistic- -----p Value------

Student's t t -1.97205 Pr > |t| 0.0607

Sign M -4.5 Pr >= |M| 0.0931

Signed Rank S -60 Pr >= |S| 0.0658

b) Ar galime teigti, kad vidutinis vaikų ūgis yra 125 cm? Taigi, reikia patikrinti hipotezę 125:H 0 =µ su alternatyva .125:H1 ≠µ Tarkime, kad reikšmingumo lygmuo

.05.0=α Naudosime procedūrą UNIVARIATE. Editor lange įveskime:

PROC UNIVARIATE DATA=vaikai MU0=125;

VAR ugis;

RUN;

Output lange gauname lentelę „Tests for Location: Mu0=125“, kurios pirmoje eilutėje (paryškinta) spausdinama kriterijaus statistika T=0.518961 ir dvipusė P-reikšmė 0.6087, t.y. P-reikšmė, skirta patikrinti hipotezę 125:H 0 =µ su alternatyva 125:H1 ≠µ . Lyginame P-

reikšmę su reikšmingumo lygmeniu: 0.6087>0.05, todėl hipotezė: vidutinis vaikų ūgis lygus 125 priimama su reikšmingumo lygmeniu 0.05.


Variable: ugis



Student's t t 0.518961 Pr > |t| 0.6087

Sign M -1.5 Pr >= |M| 0.6636

Signed Rank S 8.5 Pr >= |S| 0.7749

Hipotezę apie vidurkio reikšmę galima patikrinti ir su SAS modulio STAT procedūra TTEST. Sintaksė:

PROC TTEST DATA=lentelė <H0=reikšmė>;

VAR kintamasis;

RUN;

čia kintamasis – analizuojamas kintamasis; nebūtina pasirinktis H0=reikšmė nurodo hipotetinę vidurkio reikšmę 0µ , pagal nutylėjimą 0µ =0. Jeigu norime patikrinti hipotezę su

vienpuse alternatyva, tai naudojame metodą, pateiktą 5.2 pastaboje.

5.3 p a v y z d y s (tęsinys). Patikrinkime hipotezę, kad vidutinis vaikų ūgis yra 125 cm. Taigi, reikia patikrinti hipotezę 125:H 0 =µ su alternatyva .125:H1 ≠µ Tarkime, kad

reikšmingumo lygmuo .05.0=α Naudosime procedūrą TTEST. Editor lange įveskime:

PROC TTEST DATA=vaikai H0=125;

VAR ugis;

RUN;

130

Output lange gauname: The TTEST Procedure

Statistics

Lower CL Upper CL Lower CL Upper CL

Variable N Mean Mean Mean Std Dev Std Dev Std Dev Std Err

ugis 24 123.76 125.42 127.08 3.057 3.9333 5.5175 0.8029

T-Tests

Variable DF t Value Pr > |t|

ugis 23 0.52 0.6087

Procedūra spausdina stebėjimų skaičių (N), vidurkio taškinį įvertį (Mean, žr.(4.23)) ir pasikliautinąjį intervalą (Lower CL Mean, Upper CL Mean; žr. (4.26)); standartinio nuokrypio vidurkio taškinį įvertį (Std Dev, žr.(4.24)) ir pasikliautinąjį intervalą (Lower CL Std Dev, Upper CL Std Dev; žr. (4.28)); pagal nutylėjimą yra apskaičiuojami pasikliautinieji intervalai su pasikliovimo lygmeniu 0,95; jeigu norime, kad apskaičiuotų su kitu pasikliovimo lygmeniu, tai Proc sakinyje nurodome ALPHA=1-Q, čia Q – pasikliovimo lygmuo. Lentelėje „T-Tests“ spausdinama kriterijaus statistikos reikšmė (t Value, žr.(5.3)), P-reikšmė (Pr>|t|), skirta patikrinti hipotezę apie vidurkio reikšmę su dvipuse alternatyva. Kadangi P-reikšmė didesnė už pasirinktą reikšmingumo lygmenį 0.05, tai hipotezė: vidutinis vaikų ūgis lygus 125 priimama su reikšmingumo lygmeniu 0.05.

3. Hipotezė apie dispersijos reikšmę

Tegu imtis ),...,,( 21 nXXX=X yra gauta stebint a.d. X, kurio skirstinys yra normalu-

sis su vidurkiu µ ir dispersija 2σ , t.y. ),(~ 2σµNX . Reikia patikrinti hipotezę 0H , kad X

dispersijos 2σ reikšmė lygi skaičiui 20σ , t.y. .:H 2

02

0 σσ =

Nagrinėsime du atvejus: 1) vidurkis µ yra žinomas; 2) vidurkis µ yra nežinomas.

3.1. Hipotezė apie dispersijos reikšmę, kai vidurkis žinomas

Tarkime, kad vidurkio µ reikšmė yra žinoma ir lygi .0µ Kritinė sritis sudaroma

remiantis tuo, kad

20

20

20

1

20

2

)(

σσ

µns

X

Y

n

i

i

=−

=∑= (5.4)

skirstinys yra chi-kvadrato skirstinys su n laisvės laipsnių, kai hipotezė 20

20 :H σσ = yra

teisinga, čia .)(1

1

20

20 ∑

=

−=n

i

iXn

s µ

1) Tarkime, kad reikia patikrinti hipotezę 20

20 :H σσ = (arba 2

02 σσ ≤ ) su alternatyva

20

21 :H σσ > (vienpusė dešininė alternatyva).

Kritinė sritis W: hipotezė 0H atmetama, kai )(22nY αχ> , čia 2

Y – apibrėžta (5.4),

)(2nαχ yra chi-kvadrato skirstinio su n laisvės laipsnių α-toji kritinė reikšmė.


20 :H σσ = (arba 2

02 σσ ≥ ) su alternatyva

20

21 :H σσ < (vienpusė kairinė alternatyva).

Kritinė sritis W: hipotezė 0H atmetama, kai )(21

2nY αχ −< , čia 2

Y – apibrėžta (5.4),

)(2nαχ yra chi-kvadrato skirstinio su n laisvės laipsnių α-toji kritinė reikšmė.

131


20 :H σσ = alternatyva 2

02

1 :H σσ ≠

(dvipusė alternatyva). Kritinė sritis W: hipotezė 0H atmetama, kai )(2

2/12

nY αχ −< arba )(22/

2nY αχ> , čia

2Y – apibrėžta (5.4), )(2 nvχ yra chi-kvadrato skirstinio su n laisvės laipsnių v-toji kritinė

reikšmė.


DO i=1 TO 100;

X=2*NORMAL(10);

OUTPUT;

END;

RUN;

Patikrinkime hipotezę, kad dispersija lygi 4 su alternatyva, kad nelygi (t.y. 4:H 2

0 =σ alternatyva 4:H 21 ≠σ ); tariame, kad vidurkis yra žinomas ir lygus 0; imkime

reikšmingumo lygmenį 0,05. Editor lange parašykime:

%LET muo=0; /*vidurkio reikšmė žinoma ir lygi 0*/

%LET disp_0=4; /* hipotetinė dispersijos reikšmė 4 */

DATA normalusis;

SET normalusis;

U=X-&muo;

RUN;

PROC MEANS DATA=normalusis N USS;

OUTPUT OUT=rezultatas USS(U)=kv_suma N(U)=N;

VAR U; RUN;

DATA rezultatas;

SET rezultatas;

Y_2=kv_suma/&disp_0; /* apskaičiuojame statistikos reikšmę*/

krit_k=CINV(0.05/2,N); /*kritinė reikšmė kairėje pusėje*/

krit_d=CINV(1-0.05/2,N); /*kritinė reikšmė dešinėje pusėje*/

KEEP Y_2 krit_k krit_d;

RUN;

Procedūra MEANS apskaičiuoja ir įrašo į lentelę „rezultatas“ nekoreguotą kvadratų

sumą ∑=

=n

i

iU1

2USS (čia 0µ−= ii XU , 0µ - žinomas vidurkis, iX - pradiniai duomenys) ir

stebėjimų skaičių n. Paskutiniame Data žingsnyje apskaičiuojame statistikos reikšmę ir kritinės srities kraštines reikšmes; funkcija CINV(v,n) apskaičiuoja chi-kvadrato skirstinio su n laisvės laipsnių v-tąjį kvantilį (apie kvantilių funkcijas žr.II sk., 4 skyrelį). Lentelėje „rezultatas“ gauname, kad kritinė sritis W yra tokia: hipotezė atmetama, kai gauta statistikos reikšmė mažesnė už 74.2219 arba didesnė už 129.5612; apskaičiuota statistikos reikšmė yra 98.5829, todėl hipotezė priimama su reikšmingumo lygmeniu 0.05.

3.2. Hipotezė apie dispersijos reikšmę, kai vidurkis nežinomas

Tarkime, kad vidurkio µ reikšmė yra nežinoma. Kritinė sritis sudaroma remiantis tuo, kad

20

2

20

1

2

2 )1()(

σσ−

=−

=∑= ns

XX

T

n

i

i

(5.5)

skirstinys yra chi-kvadrato skirstinys su n-1 laisvės laipsniu, kai hipotezė 20

20 :H σσ = yra

teisinga, čia .)(1

1

1

22 ∑=

−−

=n

i

i XXn

s

132

Kritinės sritys įvairių alternatyvų atveju pateiktos 5.1 lentelėje. Šioje lentelėje 2T ,

apibrėžta (5.5); α - pasirinktas reikšmingumo lygmuo; )1(2 −nvχ yra chi-kvadrato skirstinio

su n-1 laisvės laipsniu v-toji kritinė reikšmė.

5.1 lentelė. Kritinės sritys Alternatyva 1H Kritinė (atmetimo) sritis W:

20

2 σσ ≠ )1(22/1

2 −< − nT αχ arba )1(22/

2 −> nT αχ 20

2 σσ > )1(22 −> nT αχ 20

2 σσ < )1(21

2 −< − nT αχ


DO i=1 TO 100;

X=2+1.5*NORMAL(10);

OUTPUT;

END;

RUN;

Ar galime teigti, kad standartinis nuokrypis nedidesnis už 1.5; reikšmingumo lygmuo 0.05; tariame, kad vidurkis nežinomas. Taigi, reikia patikrinti hipotezę 5.1:H 0 ≤σ su

alternatyva 5.1:H1 >σ . Šis uždavinys ekvivalentus tokiam uždaviniui: reikia patikrinti

hipotezę 25.2:H 20 ≤σ su alternatyva 25.2:H 2

1 >σ (t.y. hipotezę apie dispersijos

reikšmę).

I būdas. Editor lange įveskime:

%LET disp_0=2.25; /* hipotetinė dispersijos reikšmė 2.25 */

PROC MEANS DATA=normalusis N VAR;

OUTPUT OUT=rezultatas VARUSS(X)=disp N(X)=N;

VAR X; RUN;

DATA rezultatas;

SET rezultatas;

T_2=disp*(n-1)/&disp_0; /* apskaičiuojame statistikos reikšmę*/

krit_r=CINV(1-0.05,N-1); /*kritinė reikšmė */

KEEP T_2 krit_r;

RUN;

Lentelėje „rezultatas“ gauname, kad kritinė sritis W yra tokia: hipotezė atmetama, kai gauta statistikos reikšmė yra didesnė už 123.225; apskaičiuota statistikos reikšmė 98.555 yra mažesnė už kritinę reikšmę, todėl hipotezė priimama su reikšmingumo lygmeniu 0.05.

II būdas. Hipotezę galime patikrinti naudojant dispersijos pasikliautinąjį intervalą. Kadangi reikia patikrinti hipotezę su dešinine alternatyva (reikšmingumo lygmuo 0.05), tai reikia apskaičiuoti vienpusio dispersijos 2σ pasikliautinojo intervalo su pasikliovimo lygmeniu 1-α =1-0.05=0.95 apatinį rėžį 2σ (žr. 2.1 skyrelį). Kritinė sritis: hipotezė 0H

atmetama su reikšmingumo lygmeniu α =0.05, jeigu 220 σσ < . Naudosime procedūrą

UNIVARIATE. Editor lange parašykime:

PROC UNIVARIATE DATA=normalusis CIBASIC(TYPE=LOWER ALPHA=0.05);

VAR X; RUN;



Parameter Estimate Lower 95% CL

Mean 2.02495 1.77645

Std Deviation 1.49663 1.34147

Variance 2.23989 1.79954

133

Taigi, gavome, kad vienpusio dispersijos 2σ pasikliautinojo intervalo su pasikliovimo

lygmeniu apatinis rėžis 2σ =1.79954. Kadangi jis mažesnis už 25.220 =σ , tai hipotezė

priimama su reikšmingumo lygmeniu 0.05.

4. Hipotezė apie proporciją

Tegu imtis ),...,,( 21 nXXX=X yra gauta stebint a.d. X, kurio skirstinys priklauso

binominių skirstinių šeimai }10),,1({ <<= ppBP , t.y. a.d. X gali įgyti tik dvi reikšmes.

Reikia patikrinti hipotezę 00 :H pp = . Šiame skyrelyje pateikiami du kriterijai: 1) tikslus

kriterijus; taikomas, kai imtis maža; 2) normalioji aproksimacija; taikoma, kai imtis didelė.

4.1. Tikslus kriterijus

Kritinė sritis sudaroma remiantis tuo, kad

∑=

=n

i

in XS1

(5.6)

skirstinys yra binominis su parametrais n ir 0p , kai hipotezė 00 :H pp = yra teisinga.

Kritinės sritys įvairių alternatyvų atveju pateiktos 5.2 lentelėje. Šioje lentelėje m – imties vienetų (įvykių) skaičius; α - pasirinktas reikšmingumo lygmuo.

5.2 lentelė. Kritinės sritys Alternatyva 1H Kritinė (atmetimo) sritis W

0pp ≠ 2/}{ α<≥ mSnP arba 2/}{ α<≤ mSnP

0pp > α<≥ }{ mSnP

0pp < α<≤ }{ mSnP

Tikimybių iš 5.2 lentelės apskaičiavimui galima panaudoti SAS funkciją PROBBNML( 0p ,n,m)= )( mSP n ≤ ; )1(1)( −≤−=≥ mSPmSP nn .

Patikrinti hipotezę apie proporciją galima su procedūra FREQ. Reikia EXACT sakinyje nurodyti pasirinktį BINOMIAL.


TABLES kintamasis / BINOMIAL (P=p0 LEVEL=’reikšmė’);

EXACT BINOMIAL;

RUN;

čia kintamasis analizuojamas kintamasis (gali būti skaitinio arba simbolinio tipo), įgyjantis dvi reikšmes; reikšmė – nurodyto kintamojo reikšmė; su P=p0 nurodome hipotetinę reikšmę

0p (pagal nutylėjimą 0.5).

Ši procedūra apskaičiuoja dvipusę P-reikšmę 2P ir vienpusę P-reikšmę 1P (žr.5.2 lentelę): .2}};|{},|{min{ 12001 PPpmSpmSP nn =≥≤= PP (5.7)


%LET n=50;

%LET p=0.4;

DATA binominis;

DO i=1 TO &n;

X=ranbin(10,1,&p);

OUTPUT;

END; RUN;

134

Patikrinkime hipotezę, kad reikšmių „1“ yra 55%, reikšmingumo lygmuo 0.05. Suformuluojame hipotezę ir alternatyvą: hipotezė 55.0:H 0 =p , alternatyva 55.0:H1 ≠p .

Editor lange parašome:


TABLES x / BINOMIAL(P=0.55 LEVEL=’1’);

EXACT BINOMIAL;

RUN;

Output lange gauname lentelę „Test of H0: Proportion = 0.55”. Žiūrime į “Exact tests” (tikslus kriterijus). Eilutėje „One-sided“ spaudinama vienpusė P-reikšmė, eilutėje „Two-sided“ spaudinama dvipusė P-reikšmė. Reikia patikrinti hipotezę su dvipuse alternatyva, todėl dvipusę P-reikšmę 0.7732 lyginame su reikšmingumo lygmeniu 0.05, gauname, kad hipotezė neatmetama (0.7732>0.05). The FREQ Procedure Binomial Proportion for X = 1 Test of H0: Proportion = 0.55 ASE under H0 0.0704 Z -0.4264 One-sided Pr < Z 0.3349 Two-sided Pr > |Z| 0.6698 Exact TestExact TestExact TestExact Test One One One One----sided Pr <= P 0.3866sided Pr <= P 0.3866sided Pr <= P 0.3866sided Pr <= P 0.3866 Two Two Two Two----sided = 2 * Onesided = 2 * Onesided = 2 * Onesided = 2 * One----sided 0.7732sided 0.7732sided 0.7732sided 0.7732 Sample Size = 50

4.2. Normalioji aproksimacija

Naudojama statistikos nS aproksimacija normaliuoju skirstiniu. Kriterijaus statistika

,/)1(

ˆ

)1( 00

0

00

0

npp

pp

pnp

npmZ

−

−=

−

−= (5.8)

čia m – imties vienetų (įvykių) skaičius, nmp /ˆ = . Kritinės sritys įvairių alternatyvų atveju pateiktos 5.3 lentelėje. Šioje lentelėje m – imties vienetų (įvykių) skaičius; α - pasirinktas reikšmingumo lygmuo; vz yra standartinio

normalaus skirstinio v-toji kritinė reikšmė.

5.3 lentelė. Kritinės sritys Alternatyva 1H Kritinė (atmetimo) sritis W:

0pp ≠ 2/|| αzZ >

0pp > αzZ >

0pp < αzZ −<

5.3 p a s t a b a. Nėra vieningos nuomonės kokioms n ir p0 reikšmėms normalioji aproksimacija yra pakankamai tiksli (žr. [3]). Kartais reikalaujama, kad tarp n ir p0 galiotų toks sąryšis:

,)1(

)21(25,

1

5,

5max

00

20

00

−

−

−≥

pp

p

ppn (5.9)

135

pavyzdžiui, jei 2.00 =p , tai 57≥n ; jei 5.00 =p , tai 10≥n . Kartais reikalaujama, kad

( ) 30)1(,max 00 ≥− pnnp .

Patikrinti hipotezę apie proporciją galima su procedūra FREQ. Reikia TABLES sakinyje nurodyti pasirinktį BINOMIAL.


TABLES kintamasis / BINOMIAL (P=p0 LEVEL=’reikšmė’);

RUN;

čia kintamasis analizuojamas kintamasis (gali būti skaitinio arba simbolinio tipo), įgyjantis dvi reikšmes, reikšmė – nurodyto kintamojo reikšmė; su P=p0 nurodome hipotetinę reikšmę

0p (pagal nutylėjimą 0.5).

Jeigu vietoje BINOMIAL nurodome BINOMIALC, tai taikoma tolydumo pataisa, t.y.

,/)1(

2/1ˆ

00

0

npp

nppZ

−

−−= kai 0ˆ 0 >− pp ; priešingu atveju .

/)1(

2/1ˆ

00

0

npp

nppZ

−

+−= (5.10)

Ši procedūra apskaičiuoja dvipusę P-reikšmę 2P ir vienpusę P-reikšmę 1P . Kai Z>0, tai apskaičiuojama dešininė P-reikšmė, t.y. tikimybė gauti didesnę statistikos reikšmę negu stebėta, kai hipotezė teisinga, t.y. };{1 ZYP >= P kai Z≤ 0, tai apskaičiuojama kairinė P-reikšmė, t.y. tikimybė gauti mažesnę statistikos reikšmę negu stebėta, t.y.

};{1 ZYP <= P čia Y~N(0,1). Dvipusė P-reikšmė: |}.||{|1 ZYP >= P


%LET n=50;

%LET p=0.4;

DATA binominis;

DO i=1 TO &n;

X=ranbin(10,1,&p);

OUTPUT;

END;

RUN;

Patikrinkime hipotezę, kad reikšmių „0“ yra ne mažiau kaip 60%, reikšmingumo lygmuo 0,05. Suformuluojame hipotezę ir alternatyvą: hipotezė 6,0:H 0 ≥p , alternatyva

6,0:H1 <p . Editor lange parašome:


TABLES x / BINOMIAL(P=0.6 LEVEL=’0’);

RUN;

Output lange gauname: Test of H0: Proportion = 0.6 ASE under H0 0.0693 Z -1.7321 One-sided Pr < Z 0.04160.04160.04160.0416 Two-sided Pr > |Z| 0.0833 Sample Size = 50

Kriterijaus statistikos reikšmė -1.7321. Kairinė vienpusė reikšmė 0.0416 yra mažesnė už pasirinktą reikšmingumo lygmenį 0.05, todėl hipotezė atmetama su reikšmingumo lygmeniu 0,05.

136

5. Dviejų dispersijų palyginimo hipotezės

Tarkime, kad ),...,,( 21 nXXX=X ir ),...,,( 21 mYYY=Y yra nepriklausomos

atsitiktinių dydžių X ir Y imtys, atsitiktinio dydžio X skirstinys yra normalusis su vidurkiu 1µ

ir dispersija 21σ , atsitiktinio dydžio Y skirstinys yra normalusis su vidurkiu 2µ ir dispersija

22σ , t.y. X~N( 1µ , 2

1σ ), Y~N( 2µ , 22σ ).

Reikia patikrinti hipotezę 220

210 :H σσ k= , čia konstanta 0k >0. Kritinė sritis sudaroma

remiantis tuo, kad

220

21

1

20

1

2

)1()(

)1()(

sk

s

nYYk

mXX

Fm

j

j

n

i

i

=−−

−−=

∑

∑

=

= (5.11)

skirstinys yra Fišerio skirstinys su n-1 ir m-1 laisvės laipsniu, kai 220

21 σσ k= , čia

,)(1

1

1

221 ∑

=

−−

=n

i

i XXn

s .)(1

1

1

222 ∑

=

−−

=m

j

i YYm

s

Kritinės sritys įvairių alternatyvų atveju pateiktos 5.4 lentelėje. Šioje lentelėje F, apibrėžta (5.11); α - pasirinktas reikšmingumo lygmuo; )1,1( −− mnFv yra Fišerio skirstinio

su n-1 ir m-1 laisvės laipsniu v-toji kritinė reikšmė.

5.4 lentelė. Kritinės sritys Hipotezė 0H Alternatyva 1H Kritinė (atmetimo) sritis W:

)( 220

21

220

21 σσσσ kk =≤ 2

2021 σσ k> )1,1( −−> mnFF α

)( 220

21

220

21 σσσσ kk =≥ 2

2021 σσ k< )1,1(1 −−< − mnFF α

220

21 σσ k= 2

2021 σσ k≠ )1,1(2/1 −−< − mnFF α arba

)1,1(2/ −−> mnFF α

Atskiru atveju, kai 10 =k , gauname hipotezę apie dispersijų lygybę: 22

210 :H σσ = .

Kriterijaus statistika (5.11) šiuo atveju yra 22

21 / ssF = . Kriterijaus statistiką galima apibrėžti

ir taip:

.},min{

},max{22

21

22

21

ss

ssF =′ (5.12)

Statistika F ′ yra nemažesnė už 1. Hipotezę apie dispersijų lygybę galima patikrinti su SAS modulio STAT procedūra TTEST, ši hipotezė automatiškai tikrinama, kai lyginame dviejų nepriklausomų imčių vidurkius. Sintaksė:

PROC TTEST DATA=lentelė;

CLASS kint1

VAR kint2;

RUN;

čia kint1 – klasifikuojantis kintamasis, t.y. kintamasis kuris parodo, iš kurios imties yra stebėjimas; kint2 – analizuojamas kintamasis. Procedūra spausdina dvipusę P-reikšmę, t.y. galime patikrinti hipotezę 2

2210 :H σσ =

su alternatyva 22

211 :H σσ ≠ .

137

5.8 p a v y z d y s. Tarkime, kad turime duomenis iš 3.7 pavyzdžio. Ar galime teigti, kad spindulio R srovės stiprumo dispersija antrajame testeryje pirmo ir antro paleto yra tokia pati? Turime dvi nepriklausomas imtis (matuojami skirtingi kineskopai). Analizuojamas kintamasis „i_r“, kintamasis „paleto_nr“ parodo, kuriam paletui priklauso kineskopas. Suformuluojame hipotezę ir alternatyvą: hipotezė 2

2210 :H σσ = , alternatyva 2

2211 :H σσ ≠ .


PROC TTEST DATA=kineskopai;

CLASS paleto_nr;

VAR i_r;


RUN;


Statistics


Variable paleto_nr N Mean Mean Mean Std Dev Std Dev Std Dev Std Err

i_r 50 6.1946 6.244 6.2934 0.1453 0.174 0.2168 0.0246

1

i_r 50 6.157 6.202 6.247 0.1323 0.1584 0.1974 0.0224

2

i_r Diff (1-2) -0.024 0.042 0.108 0.146 0.1664 0.1934 0.0333

T-Tests

Variable Method Variances DF t Value Pr > |t|

i_r Pooled Equal 98 1.26 0.2099

i_r Satterthwaite Unequal 97.2 1.26 0.2099

Equality of Variances

Variable Method Num DF Den DF F Value Pr > F

i_r Folded F 49 49 1.21 0.5145

Procedūra spausdina stebėjimų skaičių (N), vidurkio taškinį įvertį (Mean, žr.(4.23)) ir pasikliautinąjį intervalą (Lower CL Mean, Upper CL Mean; žr. (4.26)); standartinio nuokrypio vidurkio taškinį įvertį (Std Dev, žr.(4.24)) ir pasikliautinąjį intervalą (Lower CL Std Dev, Upper CL Std Dev; žr. (4.28)); pagal nutylėjimą yra apskaičiuojami pasikliautinieji intervalai su pasikliovimo lygmeniu 0,95; jeigu norime, kad apskaičiuotų su kitu pasikliovimo lygmeniu, tai Proc sakinyje nurodome ALPHA=1-Q, čia Q – pasikliovimo lygmuo. Lentelėje „Equality of Variances“ (dispersijų lygybė) spausdinama kriterijaus statistikos reikšmė (F Value, žr.(5.12)), P-reikšmė (Pr>F), skirta patikrinti hipotezę apie dispersijų lygybę su dvipuse alternatyva. Kadangi P-reikšmė (0,5145) didesnė už pasirinktą reikšmingumo lygmenį 0.05, tai hipotezė priimama su reikšmingumo lygmeniu 0.05, t.y. galime teigti, kad spindulio R srovės stiprumo dispersija antrajame testeryje pirmo ir antro paleto yra tokia pati.

6. Dviejų vidurkių palyginimo hipotezės

Nagrinėsime du atvejus: 1) nepriklausomos imtys, 2) priklausomos imtys. Prieš tikrinant hipotezę apie vidurkių lygybę reikia nustatyti ar imtys priklausomos, ar nepriklausomos. Priklausomos imtys, jei tie patys objektai tiriami kelis kartus, pavyzdžiui, lyginame studentų testo rezultatus semestro pradžioje ir pabaigoje. Nepriklausomos imtys, jei tiriamos kelios objektų grupės, pavyzdžiui, lyginame dviejų studentų grupių testo rezultatus. Jeigu imtys nepriklausomos, tai prieš tikrinant vidurkių lygybę reikia patikrinti dispersijų lygybę (žr. 5 skyrelį).

138

6.1. Hipotezė apie vidurkių lygybę, kai imtys nepriklausomos

Tarkime, kad ),...,,( 21 nXXX=X ir ),...,,( 21 mYYY=Y yra nepriklausomos

atsitiktinių dydžių X ir Y imtys, atsitiktinio dydžio X skirstinys yra normalusis su vidurkiu 1µ

ir dispersija 21σ , atsitiktinio dydžio Y skirstinys yra normalusis su vidurkiu 2µ ir dispersija

22σ , t.y. X~N( 1µ , 2

1σ ), Y~N( 2µ , 22σ ).

Nagrinėsime kelis atvejus. 1) Tarkime, kad dispersijos lygios, t.y. 2

221 σσ = . Reikia patikrinti hipotezę

,:H 0210 βµµ =− (5.13)

čia 0β žinoma konstanta. Kritinė sritis sudaroma remiantis tuo, kad

,11

0

mns

YXt

+

−−=

β (5.14)

skirstinys yra Stjudento skirstinys su n+m-2 laisvės laipsniais, kai hipotezė 0210 :H βµµ =−

teisinga; čia ∑=

=n

i

iXn

X1

1, ∑

=

=m

j

iYm

Y1

1,

.)(

1

1,)(

1

1

,2

)1()1(

1

222

1

221

22

212

∑∑==

−−

=−−

=

−+

−+−=

m

j

i

m

j

i YYm

sXXn

s

mn

smsns

(5.15)

Kritinės sritys įvairių alternatyvų atveju pateiktos 5.5 lentelėje. Šioje lentelėje t, apibrėžta (5.14); α - pasirinktas reikšmingumo lygmuo; )2( −+ mntv yra Stjudento

skirstinio su n-2 laisvės laipsniais v-toji kritinė reikšmė.

5.5 lentelė. Kritinės sritys Hipotezė 0H Alternatyva 1H Kritinė (atmetimo) sritis W:

)( 021021 βµµβµµ =−≤− 021 βµµ >− )2( −+> mntt α

)( 021021 βµµβµµ =−≥− 021 βµµ <− )2( −+−< mntt α

)( 021 βµµ =− 021 βµµ ≠− )2(|| 2/ −+> mntt α

2) Tarkime, kad dispersijos lygios, t.y. 22

21 σσ = . Reikia patikrinti hipotezę

.:H 210 µµ = (5.16)

5.4 p a s t a b a. Hipotezė 210 :H µµ = yra atskiras atvejis hipotezės, nagrinėtos

pirmame punkte, kai 00 =β . Hipotezę tikriname naudodami 5.5 lentelę.

3) Tarkime, kad dispersijos nežinomos ir nelygios, t.y. 22

21 σσ ≠ . Reikia patikrinti

hipotezę (5.16). Tada galima sukonstruoti tik apytikslį kriterijų. Kriterijaus statistika

,21 ww

YXt

+

−=′ (5.17)

čia

139

.,22

2

21

1m

sw

n

sw == (5.18)

Tegu tikriname hipotezę 210 :H µµ = su alternatyva 211 :H µµ ≠ . Hipotezė atmetama

su reikšmingumo lygmeniu α , jeigu )(2 kt|t| α/>′ , čia )(2 ktα/ yra Stjudento skirstinio su k

laisvės laipsnių )2/(α - toji kritinė reikšmė;

.

11

)(22

21

221

−+

−

+=

m

w

n

w

wwk (5.19)

Vienpusėms alternatyvoms naudojama ta pati statistika (5.18). Vienpusei alternatyvai

211 :H µµ > kritinė sritis W: hipotezė atmetama su reikšmingumo lygmeniu α , kai

)(ktt α>′ . Vienpusei alternatyvai 211 :H µµ < kritinė sritis W: hipotezė atmetama su

reikšmingumo lygmeniu α , kai )(ktt α−<′ .

Hipotezę apie vidurkių lygybę ( .:H 210 µµ = ) galima patikrinti su SAS modulio

STAT procedūra TTEST. Sintaksė:

PROC TTEST DATA=lentelė;

CLASS kint1

VAR kint2;

RUN;

čia kint1 – klasifikuojantis kintamasis, t.y. kintamasis kuris parodo, iš kurios imties yra stebėjimas; kint2 – analizuojamas kintamasis. Procedūra lentelėje „T-Tests“ spausdina dvi statistikas ir atitinkamas P-reikšmes. Kurią eilutę naudoti nusprendžiame patikrinę hipotezę apie dispersijų lygybę (žr. 5 skyrelį). Jeigu dispersijos lygios, tai žiūrime į eilutę, kurioje parašyta „Equal“ (stulpelis „Variances“). Šioje eilutėje pateikiamas laisvės laipsnių skaičius n+m-2 (stulpelis „DF“), statistikos t reikšmė (stulpelis „t Value“) ir dvipusė P-reikšmė (stulpelis „Pr>|t|“). Jeigu dispersijos nelygios, tai žiūrime į eilutę, kurioje parašyta „Unequal“ (stulpelis „Variances“). Šioje eilutėje pateikiamas laisvės laipsnių skaičius k (žr.(5.19), stulpelis „DF“), statistikos t ′ reikšmė (žr. (5.17), stulpelis „t Value“) ir dvipusė P-reikšmė (stulpelis „Pr>|t|“). Procedūra spausdina dvipusę P-reikšmę, t.y. galime patikrinti hipotezę 2

2210 :H σσ =

su alternatyva 22

211 :H σσ ≠ . Jeigu norime patikrinti hipotezę su vienpuse alternatyva, tai

naudojame metodą, pateiktą 5.2 pastaboje. Su procedūra TTEST galima patikrinti hipotezę .:H 0210 βµµ =− Šiuo atveju Proc

sakinyje reikia nurodyti H0= 0β . Pagal nutylėjimą 00 =β , t.y. tikrinama hipotezė

210 :H µµ = .

5.9 p a v y z d y s. Tarkime, kad turime duomenis iš 3.7 pavyzdžio. a) Ar galime teigti, kad vidutinis spindulio G srovės stiprumas antrajame testeryje pirmo ir antro paleto yra toks pats? Reikšmingumo lygmuo 0.05. Turime dvi nepriklausomas imtis (matuojami skirtingi kineskopai). Analizuojamas kintamasis „i_g“, kintamasis „paleto_nr“ parodo, kuriam paletui priklauso kineskopas. Suformuluojame hipotezę ir alternatyvą: hipotezė 210 :H µµ = , alternatyva 211 :H µµ ≠ .



CLASS paleto_nr;

VAR i_g;


RUN;

140


Statistics



i_g 50 6.1696 6.212 6.2544 0.1247 0.1493 0.1861 0.0211

1

i_g 50 6.1271 6.174 6.2209 0.1379 0.1651 0.2058 0.0234

2

i_g Diff (1-2) -0.024 0.038 0.1005 0.1381 0.1574 0.183 0.0315

T-Tests


i_g Pooled Equal 98 1.21 0.2304

i_g Satterthwaite Unequal 97 1.21 0.2304



i_g Folded F 49 49 1.22 0.4842

Lentelėje „Statistics“ spausdinami vidurkio bei standartinio nuokrypio taškiniai įverčiai bei pasikliautinieji intervalai; pagal nutylėjimą yra apskaičiuojami pasikliautinieji intervalai su pasikliovimo lygmeniu 0,95; jeigu norime, kad apskaičiuotų su kitu pasikliovimo lygmeniu, tai Proc sakinyje nurodome ALPHA=1-Q, čia Q – pasikliovimo lygmuo. Patikrinsime hipotezę apie vidurkių lygybę. Patikriname hipotezę apie dispersijų lygybę. Žiūrime į lentelę „Equality of Variances“. Kadangi P-reikšmė (stulpelis „Pr>F“) 0.4842 yra didesnė už pasirinktą reikšmingumo lygmenį 0.05, tai hipotezė priimama, t.y. dispersijos lygios. Tada žiūrime į lentelę „T-Tests“. Kadangi dispersijos lygios, tai imame P-reikšmę (stulpelis „Pr>|t|“) iš eilutės „Equal“ (stulpelis „Variances“). Kadangi P-reikšmė 0.2304 yra didesnė už pasirinktą reikšmingumo lygmenį 0.05, tai hipotezė priimama, t.y. duomenys neprieštarauja hipotezei, kad vidutinis spindulio G srovės stiprumas antrajame testeryje pirmo ir antro paleto yra toks pats.

b) Ar galime teigti, kad vidutinis spindulio R srovės stiprumas pirmajame testeryje pirmo ir antro paleto yra toks pats? Reikšmingumo lygmuo 0.05 Analizuojamas kintamasis „i_katodo_r“, klasifikuojantis kintamasis „paleto_nr“. Suformuluojame hipotezę ir alternatyvą: hipotezė 210 :H µµ = , alternatyva 211 :H µµ ≠ .



CLASS paleto_nr;

VAR i_katodo_r;


RUN;


Statistics



i_ 47 6.5795 6.6915 6.8035 0.3171 0.3815 0.4792 0.0557

katodo_r 1

i_ 49 6.5553 6.6 6.6447 0.1296 0.1555 0.1942 0.0222

katodo_r 2

i_ Diff (1-2) -0.026 0.0915 0.2087 0.253 0.2891 0.3373 0.059

katodo_r

141

T-Tests


i_katodo_r Pooled Equal 94 1.55 0.1245

i_katodo_r Satterthwaite Unequal 60.3 1.53 0.1320



i_katodo_r Folded F 46 48 6.02 <.0001

Patikriname hipotezę apie dispersijų lygybę. Kadangi P-reikšmė mažesnė už 0.0001, tai hipotezę atmetame, t.y. dispersijos nelygios. Tada žiūrime į lentelę „T-Tests“. Kadangi dispersijos nelygios, tai imame P-reikšmę (stulpelis „Pr>|t|“) iš eilutės „Unequal“ (stulpelis „Variances“). Kadangi P-reikšmė 0.1320 yra didesnė už pasirinktą reikšmingumo lygmenį 0.05, tai hipotezė priimama, t.y. duomenys neprieštarauja hipotezei, kad vidutinis spindulio R srovės stiprumas pirmajame testeryje pirmo ir antro paleto yra toks pats.

6.2. Hipotezė apie vidurkių lygybę, kai imtys priklausomos

Tarkime, kad ),,( ii YX ni ,...,1= yra dydžio n imtis, gauta stebint du priklausomus

normaliuosius atsitiktinius dydžius: ),(~ 211 σµNX , ),(~ 2

22 σµNY , vidurkiai ir dispersijos nežinomos. Reikia patikrinti hipotezę 210 : µµ =H . Patikrinti šiai hipotezei yra naudojamas

porinis (paired) t kriterijus. Jis grindžiamas tuo, kad dviejų normaliųjų atsitiktinių dydžių skirtumas irgi turi normalųjį skirstinį, t.y. YXZ −= skirstinys yra normalusis su vidurkiu

21 µµµ −=d . Taigi, 21: µµ =H yra ekvivalenti hipotezei 0: 21 =−= µµµ dH . Kaip

patikrinti hipotezę apie vidurkio reikšmę, kai dispersija nežinoma aprašėme 2.2 skyrelyje.

5.10 p a v y z d y s. Tarkime, kad turime duomenis iš 3.7 pavyzdžio. Ar galime teigti, kad vidutinis spindulio R srovės stiprumas pirmajame ir antrajame testeryje yra toks pats? Reikšmingumo lygmuo 0.05. Turime dvi priklausomas imtis, nes tie patys kineskopai matuojami du kartus. Analizuojami kintamieji i_katodo_r ir i_r. Reikia patikrinti hipotezę apie vidurkių lygybę. Sukuriame naują sk_r kintamąjį: skirtumai tarp i_katodo_r ir i_r ir tikriname hipotezę, kad kintamojo sk_r vidurkis lygus 0 su alternatyva, kad nelygus 0. Naudosime procedūrą UNIVARIATE. Editor lange parašome:

DATA skirtumas;

SET kineskopai;

sk_r=i_katodo_r-i_r; /*sukuriame naują kintamąjį*/

RUN;

PROC UNIVARIATE DATA=skirtumas;

VAR sk_r;

RUN;

Output lange gauname: The UNIVARIATE Procedure

Variable: sk_r

Moments

N 194 Sum Weights 194

Mean 0.42010309 Sum Observations 81.5

Std Deviation 0.26203269 Variance 0.06866113

Skewness 4.08555432 Kurtosis 35.7253939

Uncorrected SS 47.49 Corrected SS 13.2515979

Coeff Variation 62.373425 Std Error Mean 0.01881285

142



Student's t t 22.33065 Pr > |t| <.0001

Sign M 92.5 Pr >= |M| <.0001

Signed Rank S 9088 Pr >= |S| <.0001

Žiūrime į lentelę „Tests for Location: Mu0=0“ (hipotezė apie vidurkio lygybę nuliui). Kadangi P-reikšmė (p Value) yra mažesnė už 0.0001, tai hipotezė atmetama, t.y. kad vidutinis spindulio R srovės stiprumas pirmajame ir antrajame testeryje skiriasi.

7. Hipotezė apie koreliacijos koeficiento reikšmę

Tarkime, kad ),,( ii YX ni ,...,1= yra dydžio n imtis, gauta stebint atsitiktinį vektorių,

kurio skirstinys yra dvimatis normalusis su vidurkių vektoriumi µ ir kovariacijų matrica Σ ,

t.y. ),(~),( 2 ΣµNYX , čia

.1||,,0,

,,),,(

1122222112

21122111

1121

<+∞<<

==

===

+∞<<∞−=

ρσσσσσρσσ

σρσσσσ

µµµµ

Σ

µ

(5.20)

Hipotezių )(:H 00(1)0 ρρρρ =≤ , )(:H 00

(2)0 ρρρρ =≥ , 0

(3)0 :H ρρ = atitinkamai

su alternatyvomis 0(1)1 :H ρρ > , 0

(2)1 :H ρρ < , 0

(3)1 :H ρρ ≠ tikrinimo kriterijai grindžiami

empiriniu koreliacijos koeficientu (Pirsono koreliacijos koeficientu)

,

)()(

))((ˆ

11

1

∑∑

∑

==

=

−−

−−==

n

i

i

n

i

i

n

i

ii

YYXX

YYXX

rρ (5.21)

čia ,1

1∑=

=n

i

iXn

X ∑=

=n

i

iYn

Y1

1.

Tarkime, kad 00 =ρ . Tada, sudarydami kriterijus, galime remtis tuo, kad statistikos

),2(~1

22

−−

−= nSr

rnt (5.22)

kai 00 == ρρ . Hipotezės ,H (1)0 ,H (2)

0 (3)0H atmetamos, kai atitinkamai

);2(||);2();2( 2/ −>−−<−> nttnttntt ααα (5.23)

čia )2( −ntv yra Stjudento skirstinio su n-2 laisvės laipsniais v-toji kritinė reikšmė.

Tarkime, kad 00 ≠ρ . Galima sudaryti apytikslius kriterijus naudojant Fišerio

pasiūlytą atsitiktinio dydžio

r

rV

−+

=1

1ln

2

1 (5.24)

aproksimaciją normaliuoju skirstiniu (žr. (4.35)). Kritinė sritis sudaroma remiantis tuo, kad

)1(21

1ln

2

1

1

1ln

2

1 0

0

0

−−

−

+−

−+

nr

r ρρρ

(5.25)

turi normalųjį skirstinį su nuliniu vidurkiu ir dispersija 1/(n-3), kai hipotezė teisinga. Dydis ))1(2/(0 −nρ yra poslinkio pataisa.

143

Patikrinti hipotezę 00 :H ρρ = galima su SAS procedūra CORR. Sintaksė:

PROC CORR DATA=lentelė FISHER(pasirinktys);

VAR kintamieji;

RUN;

čia pasirinktys: ALPHA=α, čia α=1-Q, Q – pasikliovimo lygmuo; RHO0=ro0, čia ro0= 0ρ hipotetinė koreliacijos koeficiento reikšmė;

TYPE=LOWER| UPPER | TWOSIDED (apatinis vienpusio pasikliautinojo intervalo rėžis ir P-reikšmė vienpusei dešininei alternatyvai | viršutinis pasikliautinojo intervalo rėžis ir P-reikšmė vienpusei kairinei alternatyvai | dvipusis pasikliautinasis intervalas ir P-reikšmė dvipusei alternatyvai; pagal nutylėjimą TWOSIDED. VAR sakinyje nurodome analizuojamus kintamuosius. Pataisa ))1(2/(0 −nρ skaičiuojant P-reikšmes su procedūra CORR visada naudojama;

pasikliautinuosius intervalus galima apskaičiuoti su pataisa arba be (žr. 4 sk., 2.2 skyrelį).

5.11 p a v y z d y s. Tarkime, kad turime 4.2 pavyzdyje modeliuotus duomenis, t.y.

a.v. ),(~),( 2 ΣµNYX dydžio 100=n imtį, čia ,16.1

6.14),3,2(

== Σµ t.y. 6,0=ρ .

Patikrinkime hipotezę, kad koreliacijos koeficientas lygus 0,6. Reikšmingumo lygmuo 0,05. Suformuluojame hipotezę ir alternatyvą: hipotezė 6,0:H0 =ρ , alternatyva

.6,0:H1 ≠ρ Editor lange parašome:

PROC CORR DATA=dvimatis FISHER(RH0=0.6);

VAR X Y;

RUN; Output lange gauname: The CORR Procedure

2 Variables: X Y

Simple Statistics

Variable N Mean Std Dev Sum Minimum Maximum

X 100 1.67614 1.85814 167.61400 -1.38379 6.76871

Y 100 2.94740 1.06393 294.74044 0.68343 5.55309

Pearson Correlation Coefficients, N = 100

Prob > |r| under H0: Rho=0

X Y

X 1.00000 0.56355

<.0001

Y 0.56355 1.00000

<.0001


With Sample Bias Correlation

Variable Variable N Correlation Fisher's z Adjustment Estimate

X Y 100 0.56355 0.63802 0.00285 0.56160


With ------H0:Rho=Rho0-----

Variable Variable 95% Confidence Limits Rho0 p Value

X Y 0.410464 0.682713 0.60000 0.5668

144

Gavome, kad koreliacijos koeficiento taškinis įvertis 56355,0=r (Sample Correlation, žr. (5.21)); koreguotas koreliacijos koeficiento taškinis įvertis naudojant pataisą (žr. (4.41)) 56160.0koreg =r (žr. (4.41); Correlation Estimate); koreliacijos koeficiento 95%

pasikliautinasis intervalas (žr. (4.38)) yra: ( )682713.0,410464.0),( koregkoreg=ρρ .

Lentelėje “Pearson Correlation Coefficients” pirmasis skaičius yra imties koreliacijos koeficientas (5.21), antrasis skaičius yra P-reikšmė hipotezei 0:H0 =ρ su dvipuse

alternatyva. Kadangi P-reikšmė yra mažesnė už 0.0001, tai hipotezė apie koreliacijos koeficiento lygybę nuliui atmetama. Lentelėje “Pearson Correlation Statistics (Fisher's z Transformation)” yra pateikiama P-reikšmė (p Value) hipotezei 6,0:H0 =ρ su dvipuse alternatyva. Kadangi P-reikšmė

0.5668 yra didesnė už pasirinktą reikšmingumo lygmenį 0.05, tai hipotezė neatmetama.

VI skyrius. Neparametriniai kriterijai

V skyriuje nagrinėjome parametrinių hipotezių tikrinimo uždavinius. Tarėme, kad stebimo atsitiktinio dydžio tikimybinis skirstinys priklauso šeimai P , kuri aprašoma žinomos analizinės išraiškos pasiskirstymo funkcija, priklausančia nuo k-mačio parametro, ir tikrinome hipotezes apie parametro reikšmes. Šiame skyriuje aptarsime hipotezių tikrinimo uždavinius, kai šeimos P skirstinių funkcinė išraiška nežinoma. Tarkime, kad ),...,,( 21 nXXX=X yra

atsitiktinio dydžio X imtis. Tegu a.d. X skirstinys priklauso šeimai },{ FP ∈= FF , čia F -

tam tikra pasiskirstymo funkcijų aibė. Tarkime, kad 0F yra aibės F poaibis.

Neparametrine hipoteze vadiname tvirtinimą:

,,)(~:H 000 FFF ⊂∈xFX (6.1)

t.y. a.d. X pasiskirstymo funkcija )(xF priklauso aibei 0F .

Pagrindiniai neparametrinių hipotezių tipai (žr. [5]): 1) Suderinamumo hipotezės. Tarkime, kad ),...,,( 21 nXXX=X yra atsitiktinio dydžio

X imtis ir a.d. X skirstinys priklauso šeimai },{ FP ∈= FF . Paprastąją suderinamumo hipo-

teze vadiname tvirtinimą: ),()(~:H 00 xFxFX ≡ (6.2)

čia )(0 xF - pilnai nusakyta aibės F pasiskirstymo funkcija, t.y. aibė 0F susideda iš

vienintelio elemento )(0 xF .

Sudėtingąja suderinamumo hipoteze vadiname tvirtinimą:

,}),,({,)(~:H 000 FFF ⊂Θ∈=∈ θθxFxFX (6.3)

čia ),( θxF - žinomos analizinės išraiškos pasiskirstymo funkcija, kuri priklauso nuo parametro θ . Pateiksime pavyzdį. Tvirtinimas )4,2(~:H 0 −NX (t.y. X skirstinys normalusis su

vidurkiu -2 ir dispersija 4) yra paprastoji suderinamumo hipotezė. Tvirtinimas ,)(~:H 00 F∈xFX FF ⊂>∞<<∞−= }0,),,({ 2

0 σµσµN (t.y. X skirstinys normalusis)

yra sudėtingoji suderinamumo hipotezė. 2) Nepriklausomumo hipotezė. Stebime ),(~),( yxFYX . Tikriname:

)()(),(~),(:H 0 yGxFyxFYX ≡ , yx,∀ (6.4)

t.y. a.d. X ir Y nepriklausomi. 3) Homogeniškumo hipotezė. Stebime )(~ xFX , )(~ yGY . Tikriname:

145

)()(:H 0 xGxF ≡ , x∀ (6.5)

t.y. X ir Y pasiskirstymo funkcijos sutampa. Galima apibendrinti daugiau negu dviejų atsitiktinių dydžių atvejui. Neparametrinių hipotezių tikrinimo metodus galima suskirstyti į dvi grupes: I) Keitimas parametrine hipoteze. Tikimybinių skirstinių šeimą },{ FP ∈= FF

keičiame šeima }),,({ Θ∈= θθxFP , kurios pasiskirstymo funkcijos ),( θxF analizinė išraiška yra žinoma. Neparametrinius hipotezių apytikslius kriterijus gauname tikrindami parametrines hipotezes apie θ reikšmes. II) Su skirstiniais nesusijusių kriterijų parinkimas. Ieškome tokių statistinių kriterijų, kuriuos galėtume taikyti, kai skirstinių šeima platesnė (pavyzdžiui, visi tolydieji skirstiniai). Tokius kriterijus vadiname nesusijusiais su skirstiniais. Jų taikymo galimybės nepriklauso nuo skirstinio išraiškos. Yra trys tokių kriterijų tipai: a) Chi-kvadrato kriterijus. Naudojame ne pradinius stebėjimus, o tik patekimo į tam tikrus intervalus dažnumus. b) Kriterijai, grindžiami statistikomis, kurios priklauso nuo empirinės ir teorinės pasiskirstymo funkcijos skirtumo. c) Ranginiai kriterijai. Naudojami ne patys stebėjimai, bet jų išsidėstymo variacinėje eilutėje numeriai.

1. Chi-kvadrato kriterijus neparametrinėms hipotezėms tikrinti

Chi-kvadrato kriterijus yra universalus. Jį galima naudoti suderinamumo, nepriklau-somumo ir homogeniškumo hipotezėms tikrinti. Šis kriterijus remiasi dviem teoremomis. Tarkime, kad atliekame bandymą, kurio metu įvyksta vienas iš nesutaikomų įvykių

,,...,, 21 kAAA sudarančių pilnąją įvykių grupę. Kiekviename bandyme tikimybė, kad įvyks

įvykis iA lygi ip ( ,,...,1 ki = 1...1 =++ kpp ) ir nepriklauso nuo kitų bandymų rezultatų.

Atlikus n bandymų, įvykusių įvykių kAAA ,...,, 21 skaičių pažymėkime kVVV ,...,, 21 . Tada

atsitiktinių dydžių kVVV ,...,, 21 ( nVVV k =+++ ...21 ) tikimybinis skirstinys yra polinominis:

....!!...!

!},...,,{ 21

2121

221kn

k

nn

k

kkk pppnnn

nnVnVnV ====P (6.6)

6.1 t e o r e m a. Tegu ,0>ip .,...,1 ki = Apibrėžkime

.)(

1

2

1

22 ∑∑

==

−=−

=k

i i

ik

i i

ii nnp

V

np

npVX (6.7)

Tada atsitiktinio dydžio 2X tikimybinis skirstinys silpnai konverguoja į chi-kvadrato

skirstinį su k-l laisvės laipsniu, kai ∞→n .

6.2 t e o r e m a. Tarkime, kad tikimybės ip yra tam tikros nežinomų parametrų

sθθθ ,...,, 21 funkcijos ( ),...,,( 21 sii pp θθθ= ), kurios kiekviename s-mačio neišsigimusio

intervalo Θ taške tenkina sąlygas:

a) ;1),...,(1

1 =∑=

k

i

sip θθ

b) ,0),...,( 21 >> cp si θθ ;,...,1 ki =

c) egzistuoja tolydžios dalinės išvestinės ,j

ip

θ∂∂

lj

ip

θθ ∂∂

∂ 2

( ;,...,1 ki = slj ,...,1, = );

146

d) matricos j

ip

θ∂∂

=D , ,,...,1 ki = sj ,...,1= , rangas lygus s.

Tarkime, kad n kartų atlikome prieš 6.1 teoremą aprašytą bandymą, kuriame tikimybė, kad įvyks įvykis iA , lygi ),,...,( 00

10

sii pp θθ= čia ),...,( 0010 sθθ=θ yra vidinis intervalo Θ

taškas. Parametro θ įvertį galima gauti modifikuotuoju 2χ minimumo metodu (žr.[5]), t.y. θ įvertis yra lygčių sistemos

,,...,1,0),...,(

),...,(

11 1

1 sjp

p

Vp

p

npV k

i j

i

i

ik

i j

i

si

sii ==∂

∂=

∂

∂−∑∑== θθθθ

θθ (6.8)

sprendinys.

Kai minėtos sąlygos patenkintos, tai lygčių sistema (6.8) turi vienintelį sprendinį θ̂ , kuris pagal tikimybę konverguoja į 0θ , kai ∞→n . Statistika

∑=

−==

k

i si

sii

np

npVXX

1 1

212

12

1)ˆ,...,ˆ(

))ˆ,...,ˆ(()ˆ(

θθ

θθp (6.9)

asimptotiškai pasiskirsčiusi pagal chi-kvadrato skirstinį su k-l-s laisvės laipsnių.

1.1. Paprastosios suderinamumo hipotezės tikrinimas

Tarkime, kad ),...,,( 21 nXXX=X yra atsitiktinio dydžio X imtis. Tegu a.d. X

skirstinys priklauso šeimai },{ FP ∈= FF . Tikriname paprastąją hipotezę

,),()(:H 00 RxxFxF ∈≡ (6.10)

čia )(xF yra X pasiskirstymo funkcija, )(0 xF - pilnai nusakyta šeimos F pasiskirstymo

funkcija. X galimų reikšmių sritį suskirstykime į k intervalų. Tegu ix yra i-tojo intervalo vidurio

taškas, o ih intervalo ilgis. Pažymėkime iA įvykį, kuris reiškia, kad stebimasis dydis įgijo

reikšmę iš i-tojo intervalo. Tada atsitiktinio dydžio ),...,( 1 kVV=V (čia iV - imties reikšmių,

patekusių į i-tąjį intervalą, skaičius) skirstinys yra polinominis (žr. aprašymą prieš 6.1 teoremą). Hipotezė (6.10) keičiama hipoteze

,,...,1,:H 00 kipp ii ==′ (6.11)

čia 0ip yra patekimo į i-tąjį intervalą, kai hipotezė teisinga, tikimybė;

).2/()2/( 000

iiiii hxFhxFp −−+= (6.12)

Alternatyva: ,:H 01 ii pp ≠′ bent vienam .,...,1 ki =

Pagal 6.1 teoremą, jeigu hipotezė (6.11) teisinga, tai statistika

∑∑==

−=−

=k

i i

ik

i i

ii nnp

V

np

npVX

10

2

10

202 )(

(6.13)

asimptotiškai ( ∞→n ) pasiskirsčiusi pagal chi-kvadrato skirstinį su k-l laisvės laipsniu.

147

Hipotezė 0H′ atmetama su reikšmingumo lygmeniu α , kai ),1(22 −> kX αχ čia

)1(2 −kαχ yra chi-kvadrato skirstinio su k-l laisvės laipsniu α -toji kritinė reikšmė.

6.1 p a s t a b a. Praktikoje rekomenduojama taikyti, kai 50 ≥inp .

Paprastąją suderinamumo hipotezę galima patikrinti su SAS procedūra FREQ (žr. III sk., 1 skyrelį). Reikia TABLES sakinyje nurodyti CHISQ. Pagal nutylėjimą tikrinama hipotezė (6.11) su kpi /10 = , ki ,,1K= , t.y.

,,,1,/1:H 00 kikpp ii K===′

t.y. vienodos tikimybės. Jei norime patikrinti hipotezę su skirtingomis tikimybėmis 0ip , tai

reikia papildomai nurodyti TESTP=( 01p 0

2p 03p ... 0

kp ) arba TESTF=( 01np 0

2np 03np ...

0knp ) , čia 0

inp - tikėtinas dažnis, n – stebėjimų skaičius, k – įvykių skaičius, ip - i-tojo

įvykio tikimybė.

6.1 p a v y z d y s. Duomenys iš [5]. Per ilgą laikotarpį nustatyta, kad gamykla vidutiniškai pagamina 35% pirmosios rūšies, 60% antrosios rūšies gaminių, o 5% produkcijos sudaro brokas. Patikrinus 300 gaminių partiją buvo rasta 115 gaminių pirmosios rūšies, 165 – antrosios ir 20 – su defektais. Ar galime teigti, kad gaminių kokybė nepasikeitė? Reikš-mingumo lygmuo 0.05. Šiame pavyzdyje ,1151 =V ,1652 =V ;203 =V reikia patikrinti hipotezę

.05,0,6,0,35,0:H 3210 ===′ ppp

Sukurkime duomenų lentelę. Editor lange parašykime:

DATA duomenys;

INPUT Rusis $ Kiekis;

Label Rusis=’Rūšis’;

DATALINES;

pirma 115

antra 165

brokas 20

;

RUN;

Naudosime procedūrą FREQ. Editor lange parašome:

PROC FREQ DATA=duomenys ORDER=DATA;

WEIGHT Kiekis;

TABLES Rusis / NOCUM TESTP=(35 60 5);

RUN;

ORDER=DATA nurodo, kad atitinkamos tikimybės, nurodytos su TESTP, išdėstytos tokia pačia tvarka kaip reikšmės duomenų lentelėje. Kintamasis „Kiekis“ nurodo reikšmių dažnius. Output lange gauname:

The FREQ Procedure

Rušis

Test

Rusis Frequency Percent Percent

pirma 115 38.33 35.00

antra 165 55.00 60.00

brokas 20 6.67 5.00

Chi-Square Test

for Specified Proportions

Chi-Square 3.8690

DF 2

Pr > ChiSq 0.1445

Sample Size = 300

148

Pirmojoje lentelėje spausdinamas (žr. III skyrius, 1 skyrelis) reikšmių dažnis (Fre-quency), procentinis dažnis (Percent) ir hipotetinės reikšmės 05,0,6,0,35,0 0

302

01 === ppp

(procentais). Lentelėje „Chi-Square Test for Specified Proportions“ pateikiama statistikos 2X

reikšmė 3,869. Gauta P-reikšmė 0,1445 didesnė už pasirinktą reikšmingumo lygmenį, todėl hipotezę neatmetama, t.y. galime teigti, kad gaminių kokybė nepasikeitė.

1.2. Sudėtingosios suderinamumo hipotezės tikrinimas

Tarkime, kad ),...,,( 21 nXXX=X yra atsitiktinio dydžio X imtis. Tegu a.d. X

skirstinys priklauso šeimai },{ FP ∈= FF . Reikia patikrinti sudėtingąją hipotezę:

,)(:H 00 F∈xF (6.14)

čia )(xF yra X pasiskirstymo funkcija, ,}),,({0 FF ⊂Θ∈= θθxF ),( θxF - pasiskirstymo

funkcija, kurios analizinės išraiškos žinoma, o .),...,( 1s

s R⊂Θ∈= θθθ

X galimų reikšmių sritį suskirstykime į k intervalų. Tegu ix yra i-tojo intervalo vidurio

taškas, o ih intervalo ilgis. Pažymėkime iA įvykį, kuris reiškia, kad stebimasis dydis įgijo

reikšmę iš i-tojo intervalo. Tada atsitiktinio dydžio ),...,( 1 kVV=V (čia iV - imties reikšmių,

patekusių į i-tąjį intervalą, skaičius) skirstinys yra polinominis (žr. aprašymą prieš 6.1 teoremą). Hipotezė (6.14) keičiama hipoteze

,,...,1),,...,(:H 10 kipp sii ==′ θθ (6.15)

čia ).,...,,2/(),...,,2/(),...,( 111 siisiisi hxFhxFp θθθθθθ −−+= (6.16)

Alternatyva: ),,...,(:H 11 sii pp θθ≠′ bent vienam .,...,1 ki =

Pagal 6.2 teoremą, jeigu hipotezė (6.15) teisinga, tai statistika 21X , apibrėžta (6.9),

asimptotiškai ( ∞→n ) pasiskirsčiusi pagal chi-kvadrato skirstinį su k-s-l laisvės laipsniu. Hipotezė 0H′ atmetama su reikšmingumo lygmeniu α , kai ),1(22

1 −−> skX αχ čia

)1(2 −− skαχ yra chi-kvadrato skirstinio su k-s-l laisvės laipsniu α -toji kritinė reikšmė.

6.2 p a s t a b a. Vertinant parametrą θ , tenka spręsti gana sudėtingą (6.8) sistemą. Tačiau praktikoje rasti tos sistemos apytikslius sprendinius palyginti nesunku. Pavyzdžiui (žr.[5]), kai skirstinys yra Puasono, parametro λ apytiksliu įverčiu galime imti imties vidurkį X ; kai skirstinys yra normalusis su vidurkiu µ ir dispersija 2σ , tai µ ir 2σ apytiksliais

įverčiais galime imti statistikas X ir 2s , apskaičiuotas remiantis sugrupuotais stebėjimo

rezultatais.

6.2 p a v y z d y s. Tarkime, kad turime duomenų lentelę, sukurtą su tokiu Data žingsniu:

%LET n=300;

DATA duom;

DO i=1 to &n;

X=3+2*NORMAL(10);

OUTPUT;

END;

RUN;

Patikrinkime sudėtingąją suderinamumo hipotezę: duomenys yra gauti stebint nor-malųjį atsitiktinį dydį. Reikšmingumo lygmuo 0,05. Imkime intervalų skaičių 8=k . Apskaičiuokime intervalo ilgį. Editor lange parašykime:

149

%LET k=8; /*intervalų skaičius*/

PROC MEANS DATA=duom MIN MAX;

OUTPUT OUT=pag MIN(X)=min MAX(X)=max;

VAR X;

RUN;

DATA pag;

SET pag;

CALL SYMPUT(”maksimali”, max); /* sukuriami makrokintamieji: */

CALL SYMPUT(”minimali”, min); /* maksimali, minimali reikšmė */

intervalas=(max-min)/&k; /* intervalo ilgis */

CALL SYMPUT(”h”, intervalas);

RUN;

Sugrupuojame stebėjimus į intervalus ir suskaičiuojame kiek į kiekvieną intervalą pateko reikšmių. Editor lange parašome:

DATA duom; /* lentelėje sukuriame stulpelį, kuriame būtų*/

SET duom; /* intervalo numeris*/

IF &minimali<=X<&minimali+&h THEN numeris=1;

ELSE IF &minimali+&h<=X<&minimali+2*&h THEN numeris=2;

ELSE IF &minimali+2*&h<=X<&minimali+3*&h THEN numeris=3;





ELSE numeris=8; /* sakinių tiek, kiek intervalų*/

RUN;

PROC FREQ DATA=duom;

TABLES numeris / OUT=dazniai;

RUN;

DATA dazniai;

SET dazniai;

reiksme=&minimali+numeris*&h-&h/2; /* intervalo vidurio taskas*/

KEEP count reiksme;

RUN;

Apskaičiuojame µ ir 2σ įverčius grupuotiems duomenims ir įrašome į lentelę ir apjungiame su pradiniais duomenimis.

PROC MEANS DATA=dazniai MEAN VAR;

OUTPUT OUT=skaic1 MEAN(reiksme)=vidurkis VAR(reiksme)=dispersija;

VAR reiksme;

FREQ count;

RUN;

DATA skaiciavimai;

IF _N_=1 THEN SET skaic1;

SET dazniai; RUN;

Šiame pavyzdyje )/)2/(()/)2/((),( 2 σµσµσµ −−Φ−−+Φ= iiiii hxhxp .

Apskaičiuojame statistikos 21X reikšmę ir chi-kvadrato skirstinio kritinę reikšmę

)5()128()1( 205.0

205.0

2 χχχα =−−=−− sk ir įrašome į lentelę „Rezultatas“.

DATA skaiciavimai;

SET skaiciavimai;

if _N_=1 then p=cdf(’NORMAL’,(reiksme+&h/2-vidurkis)/sqrt(dispersija));

else

if _N_=&k then p=1-cdf(’NORMAL’,(reiksme-&h/2-vidurkis)/sqrt(dispersija));

else

p=cdf(’NORMAL’,(reiksme+&h/2-vidurkis)/sqrt(dispersija))-

cdf(’NORMAL’,(reiksme-&h/2-vidurkis)/sqrt(dispersija));

s1=((count-&n*p)**2)/&n/p;

RUN;

PROC MEANS DATA=skaiciavimai SUM;

OUTPUT OUT=Rezultatas SUM(s1)=X_2;

VAR s1;

150

RUN;

DATA Rezultatas;

SET Rezultatas;

s=2; /* įvertintų parametrų skaičius*/

kritine_reiksme=cinv(1-0.05,&k-s-1);

RUN;

Lentelėje „Rezultatas“ gauname 2871,321 =X < 0705,11)5(2

05.0 =χ , todėl hipotezė

neatmetama su reikšmingumo lygmeniu 0,05.

Atlikime skaičiavimus su tokiais duomenimis:

%LET n=300;

DATA duom;

DO i=1 TO 200;

x=2*rangam(10,5);

OUTPUT;

END;

RUN; Lentelėje „Rezultatas“ gauname 9789,492

1 =X > 0705,11)5(205.0 =χ , todėl hipotezė

atmetama su reikšmingumo lygmeniu 0,05.

1.3. Nepriklausomumo tikrinimas

Tarkime, kad ),,( ii YX ,,...,1 ni = yra dydžio n imtis diskrečiojo atsitiktinio vektoriaus

),,( YX kurio galimos reikšmės yra ),,( ji yx ,,...,1 si = rj ,...,1= Pažymėkime ijV reikšmės

),( ji yx pasikartojimų skaičių imtyje. Stebėjimo rezultatai pateikti 6.1 lentelėje.

6.1 lentelė. Reikšmių dažniai j

i 1y 2y ...

ry Σ

1x 11V 12V ... rV1 ⋅1V

2x 21V 22V ... rV2 ⋅2V

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

sx 1sV 2sV ... srV ⋅sV

Σ 1⋅V 2⋅V ... rV⋅ n

Čia

,,...,1,,,...,1,11

rjVVsiVVs

i

ijj

r

j

iji ==== ∑∑=

⋅=

⋅ (6.17)

.1 1

∑∑= =

=s

i

r

j

ijVn

Gali įvykti įvykiai srAA ,...,11 . Pažymėkime

.1,,...,1,,...,1

},{},{},,{

11

====

=======

∑∑==

r

j

j

s

i

i

ijiiiiij

qprjsi

yYqxXpyYxXp PPP

(6.18)

Nepriklausomumo hipotezė (6.4) keičiama hipoteze:

.,...,1,,...,1,:H 0 rjsiqpp jiij ===′ (6.19)

151

Alternatyva: ,:H1 jiij qpp ≠′ bent vienai porai (i,j).

Jeigu hipotezė (6.19) teisinga, tai ijp yra s+r-2 parametrų 1111 ,...,,,..., −− rs qqpp

funkcijos (tikimybes sp ir rq galima išreikšti tikimybėmis 1111 ,...,,,..., −− rs qqpp ). Tarkime,

kad parametrų ip ir jq , rjsi ,...,1,,...,1 == įverčiai ip̂ ir jq̂ yra (6.8) lygčių sistemos

sprendinys. Pagal 6.2 teoremą, kai hipotezė (6.19) teisinga, statistika 21X , apskaičiuota pagal

(6.9) formulę, asimptotiškai ( ∞→n ) pasiskirsčiusi pagal chi-kvadrato skirstinį su rs-1-(r+s-2)=(r-1)(s-1) laisvės laipsnių. Gauname

rjnVqsinVp jjii ,...,1,/ˆ,,...,1,/ˆ ==== ⋅⋅ (6.20)

ir

.1ˆˆ

)ˆˆ()ˆ,ˆ(

1 1

2

1 1

222

1

−=

−== ∑∑∑∑

= = ⋅⋅= =

s

i

r

j ji

ijs

i

r

j ji

jiij

jiVV

Vn

qpn

qpnVqpXX (6.21)

Hipotezė 0H′ atmetama su reikšmingumo lygmeniu α , kai )),1)(1((221 −−> rsX αχ

čia ))1)(1((2 −− rsαχ yra chi-kvadrato skirstinio su (s-1)(k-l) laisvės laipsniu α -toji kritinė

reikšmė.

Nepriklausomumą galima patikrinti su SAS procedūra FREQ. Sintaksė: a) tarkime, kad turime tris kintamuosius: kintamasis eilutė, kintamasis stulpelis, reikšmių skaičius, t.y. lentelė buvo sukurta, pavyzdžiui, su tokiu Data žingsniu:

DATA lentelė;

INPUT kint_eilutė $ kint_stulpelis $ skaičius;

DATALINES;

eilutės_reikšmė stulpelio_reikšmė skaičius_ląstelėje

...

eilutės_reikšmė stulpelio_reikšmė skaičius_ląstelėje

;

RUN;

Tada naudojame tokią procedūros FREQ sintaksę:


TABLES kint_eilute * kint_stulpelis / pasirinktys;

WEIGHT skaičius;

RUN;

b) tarkime, kad turime du kintamuosius (t.y. nesusumuoti duomenys): kintamasis eilutė, kintamasis stulpelis, t.y. lentelė buvo sukurta , pavyzdžiui, su tokiu Data žingsniu:

DATA lentelė;

INPUT kint_eilutė $ kint_stulpelis $;

DATALINES;

eilutės_reikšmė stulpelio_reikšmė

...

eilutės_reikšmė stulpelio_reikšmė

;

RUN;

Tada naudojame tokią procedūros FREQ sintaksę:


TABLES kint_eilute * kint_stulpelis / pasirinktys;

RUN;

čia kintamasis eilutė, kintamasis stulpelis - skaitinio arba simbolinio tipo kintamieji. Pasirinktys: ALL - įvairūs testai (tame tarpe ir 2χ ) bei sąryšio matai, bet ne visi atspausdinti tinka, reikia atsižvelgti į matavimo skalę;

152

CHISQ - 2χ kriterijus nepriklausomumui ir homogeniškumui tikrinti, sąryšio matai. EXPECTED – spausdina tikėtinus ląstelių dažnius.

6.3 p a v y z d y s. Tarkime, kad turime duomenis pateiktus 6.2 lentelėje. Reikia patikrinti ar X ir Y yra priklausomi.

6.2 lentelė. Duomenys (6.3 pavyzdys) jy

ix

5 4 3 2 Σ

4-5 110 70 60 10 250 3 0 10 10 30 50 Σ 110 80 70 40 300

Patikrinsime su chi-kvadrato kriterijumi. Hipotezė: X ir Y yra nepriklausomi. Naudosime proce-dūrą FREQ. Editor lange parašome:

DATA duomenys; /*sukuriame duomenų lentelę*/

INPUT X $ Y $ sk;

DATALINES;

4-5 5 110

4-5 4 70

4-5 3 60

4-5 2 10

3 5 0

3 4 10

3 3 10

3 2 30

;

RUN;

PROC FREQ DATA=duomenys ORDER=DATA;

TABLES X*Y / CHISQ;

WEIGHT sk;

RUN;

Output lange gauname: The FREQ Procedure Table of X by Y X Y Frequency‚ Percent ‚ Row Pct ‚ Col Pct ‚5 ‚4 ‚3 ‚2 ‚ Total 4-5 ‚ 110 ‚ 70 ‚ 60 ‚ 10 ‚ 250 ‚ 36.67 ‚ 23.33 ‚ 20.00 ‚ 3.33 ‚ 83.33 ‚ 44.00 ‚ 28.00 ‚ 24.00 ‚ 4.00 ‚ ‚ 100.00 ‚ 87.50 ‚ 85.71 ‚ 25.00 ‚ 3 ‚ 0 ‚ 10 ‚ 10 ‚ 30 ‚ 50 ‚ 0.00 ‚ 3.33 ‚ 3.33 ‚ 10.00 ‚ 16.67 ‚ 0.00 ‚ 20.00 ‚ 20.00 ‚ 60.00 ‚ ‚ 0.00 ‚ 12.50 ‚ 14.29 ‚ 75.00 ‚ Total 110 80 70 40 300 36.67 26.67 23.33 13.33 100.00 Statistics for Table of X by Y Statistics for Table of X by Y Statistics for Table of X by Y Statistics for Table of X by Y Statistic DF Value Prob Chi Chi Chi Chi----Square 3 121.2857 <.0001Square 3 121.2857 <.0001Square 3 121.2857 <.0001Square 3 121.2857 <.0001 Likelihood Ratio Chi-Square 3 107.6504 <.0001 Mantel-Haenszel Chi-Square 1 86.0072 <.0001 Phi Coefficient 0.6358

153

Contingency Coefficient 0.5366 Cramer's V 0.6358 Sample Size = 300

Procedūra spausdina kryžminę dažnių lentelę (žr. III sk., 1 skyrelis), kurios kiekvieno langelio pirmoje eilutėje yra dažnis, t.y. gauname tokią pačią lentelę kaip 6.2 lentelė. Lentelės „Statistics for Table of X by Y“ pirmoje eilutėje yra spausdinama statistikos (6.21) reikšmė 2857,1212

1 =X (Value) ir P-reikšmė, kuri šiame pavyzdyje yra mažesnė už 0,0001, todėl hipotezė atmetama, taigi, gauname, kad X ir Y yra priklausomi.

1.4. Homogeniškumo tikrinimas

Tarkime, kad ,,...,, 21 iinii XXX si ,...,1= yra nepriklausomų atsitiktinių dydžių

sXXX ,...,, 21 atitinkamai dydžio snnn ,...,, 21 imtys, o visi atsitiktiniai dydžiai sXXX ,...,, 21

yra diskretieji ir jų įgyjamos reikšmės yra rxxx ,...,, 21 . Pažymėkime ijV , si ,...,1= , rj ,...,1= ,

i-tosios imties stebėjimų, lygių jx , skaičių. Stebėjimo rezultatai pateikti 6.3 lentelėje.

6.3 lentelė. Reikšmių dažniai j

i 1 2 ... r Σ

1 11V 12V ... rV1 1n

2 21V 22V ...

rV2 2n

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. s 1sV 2sV ...

srV sn

Σ 1⋅V 2⋅V ... rV⋅ n

Čia

.

,,...,1,,,...,1,

1

11

∑

∑∑

=

=⋅

=

=

====

s

i

i

s

i

ijj

r

j

iji

nn

rjVVsiVn

(6.22)

Gali įvykti įvykiai sAAA ,...,, 21 su tikimybėmis isii ppp ,...,, 21 atitinkamai,

1...21 =+++ isii ppp , si ,...,1= ( ijp yra tikimybė, kad i-tasis atsitiktinis dydis įgijo j-tąją

reikšmę.

Homogeniškumo hipotezė

)(...)()(:H 210 xFxFxF s≡≡≡ (6.23)

t.y. sXXX ,...,, 21 pasiskirstymo funkcijos sutampa ( iF yra a.d. iX pasiskirstymo funkcija)

keičiama tokia hipoteze:

,,...,1,...:H 210 rjpppp jsjjj =====′ (6.24)

.1...21 =+++ rppp

Alternatyva 1H′ : hipotezė 0H′ neteisinga.

Jeigu hipotezė (6.24) teisinga, tai ijp yra r-1 parametro 11 ,..., −rpp funkcijos (tikimybę

rp galima išreikšti tikimybėmis 11 ,..., −rpp ). Tarkime, kad parametrų jp , rj ,...,1= įverčiai

154

jp̂ yra (6.8) lygčių sistemos sprendinys. Pagal 6.2 teoremą, kai hipotezė (6.24) teisinga,

statistika 21X , apskaičiuota pagal (6.9) formulę, asimptotiškai ( ∞→n ) pasiskirsčiusi pagal

chi-kvadrato skirstinį su r(s-1)-(s-1)=(r-1)(s-1) laisvės laipsnių. Gauname

rjnVp jj ,...,1,/ˆ == ⋅ (6.25)

ir

.1ˆ

)ˆ()ˆ(

1 1

2

1 1

222

1

−=

−== ∑∑∑∑

= = ⋅= =

s

i

r

j ji

ijs

i

r

j ji

jij

jVn

Vn

pn

pnVpXX (6.26)

Hipotezė 0H′ atmetama su reikšmingumo lygmeniu α , kai )),1)(1((221 −−> rsX αχ

čia ))1)(1((2 −− rsαχ yra chi-kvadrato skirstinio su (s-1)(k-l) laisvės laipsniu α -toji kritinė

reikšmė. Matome, kad ir kriterijaus statistika ir sprendimo priėmimo taisyklė yra tokia pati, kaip ir hipotezės apie nepriklausomumą tikrinimo uždavinyje (žr. 1.3 skyrelį). Taigi, galime tikrinti su SAS procedūra FREQ, sintaksė tokia pati kaip 1.3 skyrelyje. Tačiau reikėtų atkreipti dėmesį į tai, kad nors skaičiuojama ir taip pat, tačiau naudojamas kitoks statistinis modelis ir kitaip interpretuojami gauti rezultatai.

6.4 p a v y z d y s. Tarkime, kad pirmojoje imtyje reikšmių „A“ yra 38, reikšmių „B“yra 29, reikšmių „C“ yra 41, reikšmių „D“ yra 67; antrojoje imtyje reikšmių „A“ yra 42, reikšmių „B“yra 35, reikšmių „C“ yra 39, reikšmių „D“ yra 40. Patikrinkime homogeniškumo hipotezę. Reikšmingumo lygmuo 0.05.


INPUT X Y $ sk;

DATALINES;

1 A 38

1 B 29

1 C 41

1 D 67

2 A 42

2 B 35

2 C 39

2 D 40

;RUN;

PROC FREQ DATA=duomenys;

TABLES X*Y / CHISQ;

WEIGHT sk;

RUN;

Output lange gauname: The FREQ Procedure Table of X by Y X Y Frequency‚ Percent ‚ Row Pct ‚ Col Pct ‚A ‚B ‚C ‚D ‚ Total 1 ‚ 38 ‚ 29 ‚ 41 ‚ 67 ‚ 175 ‚ 11.48 ‚ 8.76 ‚ 12.39 ‚ 20.24 ‚ 52.87 ‚ 21.71 ‚ 16.57 ‚ 23.43 ‚ 38.29 ‚ ‚ 47.50 ‚ 45.31 ‚ 51.25 ‚ 62.62 ‚ 2 ‚ 42 ‚ 35 ‚ 39 ‚ 40 ‚ 156 ‚ 12.69 ‚ 10.57 ‚ 11.78 ‚ 12.08 ‚ 47.13 ‚ 26.92 ‚ 22.44 ‚ 25.00 ‚ 25.64 ‚ ‚ 52.50 ‚ 54.69 ‚ 48.75 ‚ 37.38 ‚ Total 80 64 80 107 331 24.17 19.34 24.17 32.33 100.00

155

Statistics for Table of X by YStatistics for Table of X by YStatistics for Table of X by YStatistics for Table of X by Y Statistic DF Value Prob Chi Chi Chi Chi----Square 3 6.5566 0.0875Square 3 6.5566 0.0875Square 3 6.5566 0.0875Square 3 6.5566 0.0875 Likelihood Ratio Chi-Square 3 6.6095 0.0854 Mantel-Haenszel Chi-Square 1 5.0650 0.0244 Phi Coefficient 0.1407 Contingency Coefficient 0.1394 Cramer's V 0.1407 Sample Size = 331

Lentelės „Statistics for Table of X by Y“ pirmoje eilutėje yra spausdinama statistikos (6.26) reikšmė 5566,62

1 =X (Value) ir P-reikšmė, kuri šiame pavyzdyje yra 0,0875. Gauta P-reikšmė yra didesnė už pasirinktą reikšmingumo lygmenį 0,05, todėl hipotezė neatmetama.

1.5. Kriterijai, susiję su chi-kvadrato kriterijumi

Tarkime, kad turime tokius pačius duomenis kaip 1.3 skyrelyje. Tikėtinumo santykio chi-kvadrato kriterijus (Likelihood ratio Chi-square test). Jo paskirtis tokia pati kaip ir chi-kvadrato, gaunami panašūs rezultatai. Kriterijaus statistika

,ln21 1

2 ∑∑= =

=

s

i

r

j ij

ij

ije

VVG (6.27)

čia nVVe jiij /⋅⋅= (6.28)

Statistika 2G , kai hipotezė (6.19) apie nepriklausomumą teisinga, asimptotiškai

( ∞→n ) pasiskirsčiusi pagal chi-kvadrato skirstinį su (r-1)(s-1) laisvės laipsniu. Koreguotas chi-kvadrato kriterijus (Continuity-Adjusted Chi-square test). Naudoja-mas, kai imtis maža

.)]5.0||,0[max(

1 1

2

∑∑= =

−−=

s

i

r

j ij

ijij

Ce

eVQ (6.29)

Statistika CQ , kai hipotezė (6.19) apie nepriklausomumą teisinga, asimptotiškai

( ∞→n ) pasiskirsčiusi pagal chi-kvadrato skirstinį su (r-1)(s-1) laisvės laipsniu. Patariama naudoti, jei 40≤n , o jei visos tikėtinos reikšmės didesnės už 5, tai galima ir, kai 20≤n . Tikėtinumo santykio chi-kvadrato kriterijaus ir koreguoto chi-kvadrato kriterijaus statistikos reikšmė ir P-reikšmė spausdinamos, kai procedūroje FREQ nurodome CHISQ (žr. 1.3 skyrelį).

6.5 p a v y z d y s. Tarkime, kad turime tokius pačius duomenis kaip 6.3 pavyzdyje. Jame tikrinome ar kintamieji X ir Y yra nepriklausomi. Naudojome procedūrą FREQ. Output lange gavome: Statistics for Table of X by Y Statistics for Table of X by Y Statistics for Table of X by Y Statistics for Table of X by Y Statistic DF Value Prob Chi-Square 3 121.2857 <.0001 Likelihood Ratio Chi Likelihood Ratio Chi Likelihood Ratio Chi Likelihood Ratio Chi----Square 3 107.6504 <.0001Square 3 107.6504 <.0001Square 3 107.6504 <.0001Square 3 107.6504 <.0001 Mantel-Haenszel Chi-Square 1 86.0072 <.0001 Phi Coefficient 0.6358 Contingency Coefficient 0.5366 Cramer's V 0.6358 Sample Size = 300

Lentelės „Statistics for Table of X by Y“ antroje eilutėje yra spausdinama statistikos (6.27) reikšmė 6504,1072 =G (Value) ir P-reikšmė, kuri šiame pavyzdyje yra mažesnė už

156

0,0001, todėl hipotezė atmetama, taigi, gauname, kad X ir Y yra priklausomi. Atsakymas toks pats kaip 6.3 pavyzdyje, kuriame naudojame chi-kvadrato kriterijų.

1.6. Sąryšio matai, grindžiami chi-kvadrato kriterijumi

Chi-kvadrato kriterijus nustato ar yra sąryšis tarp kintamųjų, bet nesuteikia informacijos apie sąryšio stiprumą. Šią informaciją galime gauti apskaičiavę sąryšio matus, t.y. patikriname nepriklausomumo hipotezę, jei ji atmetama (kintamieji priklausomi) galime pasakyti, ar stipri priklausomybė. Visiems žemiau aprašytiems sąryšio matams galioja pa pati taisyklė – kuo jie absoliučiu didumu didesni, tuo požymių priklausomybė didesnė; kuo arčiau nulio – tuo priklausomybė silpnesnė. Tarkime, kad turime tokius pačius duomenis kaip 1.3 skyrelyje (žr. 6.1 lentelę).

Pažymėkime ∑∑= =

−=

s

i

r

j ij

ijij

e

eV

1 1

22

)(χ ; ijV stebėta ląstelės (i,j) reikšmė; nVVe jiij /⋅⋅= tikėtina

ląstelės (i,j) reikšmė; s – eilučių skaičius, r – stulpelių skaičius.

Koeficientas Φ (Phi coefficient), kai lentelė 2x2, tai

,2121

21122211

⋅⋅⋅⋅

−=Φ

VVVV

VVVV

kitimo ribos: 11 ≤Φ≤− ; kai lentelė s x r, tai

n

2χ=Φ (6.30)

kitimo ribos: )1,1min(0 −−≤Φ≤ sr . Pirsono kontingencijos koeficientas (Contingency coefficient).

,2

2

χχ+

=n

P (6.31)

kitimo ribos: mmP /)1(0 −≤≤ , ),min( srm = .

Kramerio koeficientas V (Cramer’s V), kai lentelė 2x2, tai

,Φ=V

kitimo ribos: 11 ≤≤− V ; kai lentelė s x r, tai

,)1,1min(

/2

−−=

sr

nV

χ (6.32)

kitimo ribos: 10 ≤≤ V .

Koeficiento Φ, Pirsono kontingencijos koeficiento, Kramerio koeficiento V reikšmės spausdinamos, kai procedūroje FREQ nurodome CHISQ (žr. 1.3 skyrelį).

6.6 p a v y z d y s. Tarkime, kad turime tokius pačius duomenis kaip 6.3 pavyzdyje. Gavome, kad kintamieji X ir Y yra priklausomi. Ištirkime sąryšio stiprumą. Statistics for Table of X by Y Statistics for Table of X by Y Statistics for Table of X by Y Statistics for Table of X by Y Statistic DF Value Prob Chi-Square 3 121.2857 <.0001<.0001<.0001<.0001 Likelihood Ratio Chi-Square 3 107.6504 <.0001

157

Mantel-Haenszel Chi-Square 1 86.0072 <.0001 Phi Coefficient 0.6358Phi Coefficient 0.6358Phi Coefficient 0.6358Phi Coefficient 0.6358 Contingency Coefficient 0Contingency Coefficient 0Contingency Coefficient 0Contingency Coefficient 0.5366.5366.5366.5366 Cramer's V 0.6358 Cramer's V 0.6358 Cramer's V 0.6358 Cramer's V 0.6358 Sample Size = 300

Lentelės „Statistics for Table of X by Y“ eilutėje „Phi Coefficient“ spausdinama koeficiento (6.30) reikšmė 6358,0=Φ ; eilutėje „Contingency Coefficient“ spausdinama koeficiento (6.31) reikšmė 5366,0=P ; eilutėje „Cramer‘s V“ spausdinama koeficiento (6.32) reikšmė 6358,0=V . Gauname, kad ryšys vidutinio stiprumo.

1.7. Fišerio tikslus kriterijus

Chi-kvadrato kriterijus yra apytikslis. Kai analizuojame 2x2 lentelę, geriau naudoti Fišerio tikslų kriterijų. Taip pat Fišerio kriterijų patartina naudoti, kai imtis maža (imties tūrį padalinus iš laisvės laipsnių skaičiaus gauname mažiau už 5). Chi-kvadrato nepatartina naudoti, jei stebėtas dažnis bent vienoje ląstelėje lygus 0 arba, jei tikėtinas dažnis bent vienoje ląstelėje 2x2 lentelėms mažiau už 5, didesnėms lentelėms ne daugiau kaip 20% ląstelių gali turėti mažesnį tikėtiną dažnį už 5. Jei šie reikalavimai netenkinami reikia surinkti daugiau duomenų arba sumažinti klasių skaičių, kad gautume didesnius dažnius, arba naudoti Fišerio tikslų kriterijų. Fišerio kriterijaus statistikos reikšmė ir P-reikšmė spausdinamos, kai procedūros FREQ sakinyje TABLES nurodome CHISQ (žr. 1.3 skyrelį) ir EXACT sakinyje nurodome FISHER. Apskaičiuojamos tikslios P-reikšmės. Skaičiavimai sudėtingi, todėl naudojamas, kai stebėjimų nedaug. SAS procedūra skaičiuoja Fišerio kriterijų ne tik lentelėms 2x2, bet ir didesnėms lentelėms. Iliustruosime (žr. [6]) kaip apskaičiuojamos Fišerio kriterijaus P-reikšmės, kai turime lentelę 2x2, t.y. lentelė yra tokia:

j

i 1y 2y Σ

1x 11V 12V •1V

2x 21V 22V •2V

Σ 1•V 2•V n

Galima apskaičiuoti tikslias tikimybes. Kaip ir anksčiau formuluojamos hipotezės apie nepriklausomumą ir homogeniškumą, kai r=2 ir s=2. Dažnių lentelėje fiksuojant

•••• 2121 ,,, VVVV ir žinant vieną kurį nors dažnį, pavyzdžiui, 11V , galima nustatyti ir kitas

dažnių reikšmes ijV . Tada tikimybė, kad a.d. ijV įgis tam tikrą reikšmę (arba dažnių lentelė –

tam tikrą dažnių rinkinį), apskaičiuojama pagal hipergeometrinio skirstinio formulę:

!!!!

1

!

!!!!),,,(

22211211

212122211211

1

21

2

11

1

VVVVn

VVVV

C

CCVVVV

V

n

V

V

V

V ••••==•

••P . (6.33)

Norint patikrinti hipotezę nepakanka apskaičiuoti tikimybę ),,,( 22211211 VVVVP tik duotai (stebėtai) lentelei. Tikimybes reikia apskaičiuoti ir visoms lentelėms tik su labai didelėmis arba tik su labai mažomis reikšmėmis (ekstremaliomis reikšmėmis). Tada P-reikšmė gaunama sumuojant visas šias tikimybes ),,,( 22211211 VVVVP .

P-reikšmė apskaičiuojama: ,reikšmėP ∑=−

A

p

čia A – aibė lentelių pagal kurias sumuojama, p – hipergeometrinio skirstinio tikimybė.

158

SAS procedūra FREQ lentelėms 2x2 apskaičiuoja dvipusę ir vienpuses P-reikšmes; lentelėms s x r (s,r>2) apskaičiuojama tik dvipusė P-reikšmė.

P-reikšmės apskaičiuojamos taip: dvipusė P-reikšmė: sumuojama pagal lenteles, kurioms p mažesnė arba lygi tikimybei

stebėtos lentelės; kairinė vienpusė P-reikšmė: sumuojama pagal lenteles, kurioms 11V mažesnis arba

lygus negu stebėtas 11V ;

dešininė vienpusė P-reikšmė: sumuojama pagal lenteles, kurioms 11V didesnis arba

lygus negu stebėtas 11V .

6.7 p a v y z d y s. Tarkime, kad turime 2x2 lentelę. Reikia patikrinti ar X ir Y nepriklausomi.

Y X

1 2 Iš viso:

1 4 10 14 2 1 15 16 Iš viso: 5 25 30

Iliustruosime kaip apskaičiuojama dešininė P-reikšmė (kitos analogiškai). Tikimybė gauti stebėjimų lentelę yra:

.112388,0!15!10!4!30

!25!5!16!14)21,1,16,4( ≈=P

Gali būti dar tik viena lentelė su didesne 11V reikšme negu pradinės lentelės:

Y X

1 2 Iš viso:

1 5 9 14 2 0 16 16 Iš viso: 5 25 30

Tikimybė gauti šią stebėjimų lentelę yra:

.0140485,0!16!9!5!30

!25!5!16!14)16,0,9,5( ≈=P

Taigi, dešininė P-reikšmė yra 0,112388+0,0140485=0,1264365, hipotezė apie nepri-klausomumą neatmetama reikšmingumo lygmeniu 0,05.

Patikrinkime nepriklausomumo hipotezę su SAS procedūra FREQ. Naudokime Fišerio tikslų kriterijų. Editor lange parašykime:


INPUT X Y $ sk;

DATALINES;

1 1 4

1 2 10

2 1 1

2 2 15

;RUN;

PROC FREQ DATA=duomenys;

TABLES X*Y / CHISQ;

WEIGHT sk;

EXACT FISHER;

RUN;


159

The FREQ Procedure Table of X by Y X Y Frequency‚ Percent ‚ Row Pct ‚ Col Pct ‚1 ‚2 ‚ Total 1 ‚ 4 ‚ 10 ‚ 14 ‚ 13.33 ‚ 33.33 ‚ 46.67 ‚ 28.57 ‚ 71.43 ‚ ‚ 80.00 ‚ 40.00 ‚ 2 ‚ 1 ‚ 15 ‚ 16 ‚ 3.33 ‚ 50.00 ‚ 53.33 ‚ 6.25 ‚ 93.75 ‚ ‚ 20.00 ‚ 60.00 ‚ Total 5 25 30 16.67 83.33 100.00 Statistics for Table of X by Y Statistic DF Value Prob Chi-Square 1 2.6786 0.1017 Likelihood Ratio Chi-Square 1 2.8008 0.0942 Continuity Adj. Chi-Square 1 1.3125 0.2519 Mantel-Haenszel Chi-Square 1 2.5893 0.1076 Phi Coefficient 0.2988 Contingency Coefficient 0.2863 Cramer's V 0.2988 WARNING: 50% of the cells have expected counts less WARNING: 50% of the cells have expected counts less WARNING: 50% of the cells have expected counts less WARNING: 50% of the cells have expected counts less than 5. Chi than 5. Chi than 5. Chi than 5. Chi----Square may not be a valid test.Square may not be a valid test.Square may not be a valid test.Square may not be a valid test. Fisher's Exact Test Fisher's Exact Test Fisher's Exact Test Fisher's Exact Test Cell (1,1) Frequency (F) 4 Left-sided Pr <= F 0.9860 Right-sided Pr >= F 0.1264 Table Probability (P) 0.1124 Table Probability (P) 0.1124 Table Probability (P) 0.1124 Table Probability (P) 0.1124 Two Two Two Two----sided Pr <= P 0.1571sided Pr <= P 0.1571sided Pr <= P 0.1571sided Pr <= P 0.1571

Sample Size = 30

Procedūra spausdina kryžminę dažnių lentelę (žr. III sk., 1 skyrelis). Procedūra spausdina įspėjimą: 50% ląstelių tikėtinas dažnis yra mažesnis už 5, todėl chi-kvadrato kriterijaus naudoti nerekomenduojama. Naudosime Fišerio tikslų kriterijų. Lentelėje „Fisher‘s Exact Test“ spausdinama Fišerio kriterijaus statistikos reikšmė 0,1124 (Table Probability P), t.y. hipergeometrinė tikimybė gauti stebėtą lentelę; dvipusė P-reikšmė 0,1571 (Two-sided Pr<=P). Kadangi gauta P-reikšmė didesnė už pasirinktą reikšmingumo lygmenį 0,05, tai hipotezė neatmetama, t.y. kintamieji X ir Y nepriklausomi. Kadangi tiriama 2x2 lentelė, tai spausdinamos ir vienpusės P-reikšmės. Dešininė P-reikšmė (Right-sided Pr>=F) lygi 0,1264; kairinė P-reikšmė (Left-sided Pr<=F) lygi 0,9860. Lentelėje „Statistics for Table of X by Y“ yra spausdinama koreguoto 2χ kriterijaus

statistikos (6.29) reikšmė 3125,1=CQ (Value) ir P-reikšmė, kuri šiame pavyzdyje yra

0,2519, todėl hipotezė neatmetama, taigi, gauname, kad X ir Y yra nepriklausomi. Atsakymas toks pats kaip ir su Fišerio kriterijumi.

160

1.8. Maknemaro kriterijus

Maknemaro (Mc Nemar‘s) kriterijus naudojamas 2x2 lentelėms, kai turime priklausomas imtis. Jis naudojamas situacijoms “prieš-po”, kai objektai matuojami skirtingais laikotarpiais, ir norima įsitikinti, ar įvyko tam tikras pakitimas. Pavyzdžiui, apklaustųjų nuomonė kokiu nors klausimu (pritaria, nepritaria) vertinama iki pokalbio su jais ir po pokalbio; pacientų savijauta (gera, bloga) prieš gydymą ir po gydymo. Tiriama charakteristika matuojama du kartus (iki poveikio ir po jo). Dažnai tokio tipo uždaviniuose reikšmės koduojamos “+” , “-” arba “taip”, “ne”.

Tikrinama hipotezė

21120 :H pp = (6.34)

su alternatyva 2112:H ppA ≠ . Testo statistika

2112

22112 )(

VV

VVQM +

−= (6.35)

asimptotiškai (kai ∞→n ) turi 21χ pasiskirstymą, jei H0 teisinga; čia ijV - stebėtas dažnis

ląstelėje (i,j). Maknemaro kriterijaus statistikos reikšmę ir P-reikšmę galima apskaičiuoti su SAS procedūra FREQ. Sakinyje TABLES reikia nurodyti AGREE. Procedūros FREQ sintaksė tokia pati kaip 1.3 skyrelyje.

6.8 p a v y z d y s. Tarkime, kad pirkėjai buvo apklausiami prieš tam tikros prekės reklaminę akciją ir po jos. Reikia nustatyti ar pirkėjų požiūris pasikeitė. Duomenys pateikti lentelėje. DATA Apklausa;

INPUT A $ B $ daznis;

DATALINES;

N N 48

N Y 14

Y N 6

Y Y 32

;

PROC FREQ DATA=Apklausa;

TABLES A*B / AGREE;

WEIGHT daznis;

RUN;

Statistics for Table of A by B McNemar's Test Statistic (S) 3.2000 DF 1 Pr > S 0.0736

Lentelėje „McNemar‘s Test“ yra spausdinama Maknemaro kriterijaus statistikos (6.35) reikšmė 2,3=MQ (Statistic (S)) ir P-reikšmė (Pr>S), kuri šiame pavyzdyje yra 0,0736, todėl hipotezė neatmetama su reikšmingumo lygmeniu 0,05, taigi, gauname, kad reklaminė akcija neturėjo įtakos pirkėjų nuomonei.

Po; B Prieš; A

N Y

N 48 14 Y 6 32

161

2. Kriterijai, grindžiami empirinės ir teorinės pasiskirstymo funkcijų skirtumu

Pirmoje šio skyrelio dalyje pateiksime kriterijus, kurie grindžiami empirinės ir teorinės pasiskirstymo funkcijų skirtumu ir skirti patikrinti suderinamumo hipotezę. Antrojoje dalyje pateiksime kriterijus, skirtus patikrinti homogeniškumo hipotezę.

2.1. Suderinamumo tikrinimas

Kai suderinamumo hipotezė tikrinama su chi-kvadrato kriterijumi, tai duomenys sugrupuojami, todėl imtis turi būti gana didėlė. Jeigu imtis nedidelė, tai geriau taikyti kriterijų, kurio statistika išreiškiama negrupuotais duomenimis. Rekomenduojama suderinamumo hipotezes tikrinti keliais skirtingais būdais, nes taikant keletą kriterijų, gaunama žymiai daugiau informacijos. Šiame skyrelyje pateikiami trys suderinamumo kriterijai (EDF goodness-of-fit tests), kurie grindžiami teorinės ir empirinės pasiskirstymo funkcijų palyginimu. Tarkime, kad nXXX ...,, 21 yra tolydžiojo atsitiktinio dydžio X imtis,

)()2()1( ...,, nXXX - variacinė eilutė, )(xFn - empirinė pasiskirstymo funkcija (EDF):

<

=≤<−

≤

= −

.kai,1

,,,1,kai,/)1(

,kai,0

)(

)(

)()1(

)1(

xX

niXxXni

Xx

xF

n

iin L (6.36)

Tarkime, kad X skirstinys priklauso tolydžiųjų skirstinių šeimai P . Reikia patikrinti hipotezę 0H , kad stebimo atsitiktinio dydžio X pasiskirstymo funkcija yra )(xF (konkreti,

visiškai nusakyta), t.y.

).()(:H 0 xFxFn ≡M (6.37)

Jeigu hipotezė 0H teisinga, tai atsitiktinio dydžio )(XFY = skirstinys yra tolygusis

intervale (0,1). Todėl statistikos, grindžiamos skirtumu )()( XFXFn − , skirstinys, kai

hipotezė 0H teisinga, nepriklauso nuo )(xF , nes atliekant monotonišką abscisių ašies

transformaciją tas skirtumas nesikeičia. I) Nukrypimas nuo hipotezės matuojamas kvadratine metrika, t.y. tikrinama hipotezė

0H su alternatyva 1H , kuri užrašoma taip:

∫+∞

∞−

>− ,0)())(())()((:H 21 xdFxFxFxFn ψM (6.38)

čia )(tψ - neneigiama funkcija, apibrėžta intervale [0,1], be to, )(tψ , )(ttψ ir )(2tt ψ yra

intergruojamos intervale [0,1]. Kriterijaus statistika

∫+∞

∞−

−= ).())(())()(( 22xdFxFxFxFn nn ψω (6.39)

Dažniausiai naudojamos tokios svorio funkcijos: 1)( ≡tψ arba 1))1(()( −−= tttψ .

Cramer von Mises statistika 2W (gaunama (6.39) paėmus 1)( ≡tψ ) apibrėžiama taip:

∫+∞

∞−

−= )())()(( 22xdFxFxFnW n .

Cramer-von Mises statistika 2W apskaičiuojama taip:

162

∑=

+

−−=

n

i

inn

iUW

1

2

)(2 ,

12

1

2

12 (6.40)

čia )( )()( ii XFU = .

Anderson-Darling statistika 2A (gaunama (6.39) paėmus 1))1(()( −−= tttψ ) apibrė-

žiama:

∫+∞

∞−

−−−= )()))(1)((())()(( 122xdFxFxFxFxFnA n .

Anderson-Darling statistika 2A apskaičiuojama taip:

∑=

−−++−−−=n

i

ii UinUin

nA1

)()(2 )]1log()212(log)12[(

1. (6.41)

II) Kolmogorovo kriterijus (SAS vadinamas Kolmogorovo-Smirnovo kriterijumi suderinamumui tikrinti). Nukrypimas nuo hipotezės matuojamas tolygiąją metrika, t.y. tiktinama hipotezė (6.37) su alternatyva: .0|)()(|sup:H1 >−

+∞<<∞−xFxFn

x

M (6.42)

Kriterijaus statistika D apibrėžiama taip:

|)()(|sup xFxFD nx

−=+∞<<∞−

.

Kolmogorovo D statistiką galima apskaičiuoti taip:

,

1max,max

),max(

)(1

)(1

−−=

−=

=

≤≤

−

≤≤

+

−+

n

iUDU

n

iD

DDD

ini

ini

(6.43)

čia )( )()( ii XFU = .

Kolmogorovo, Anderson-Darling ir Cramer-von Mises suderinamumo kriterijų statistikų reikšmės ir P-reikšmės spausdinamos, kai SAS procedūroje UNIVARIATE nurodome HISTOGRAM sakinį (žr. IIIsk., 3.3 skyrelį). SAS numatyta galimybė patikrinti suderinamumo hipotezę tokiems skirstiniams: beta, eksponentinis, gama, lognormalus, normalus, Veibulo. Sintaksė:

PROC UNIVARIATE DATA=lentelė;

VAR kintamieji;

HISTOGRAM kintamieji / pasirinktys;

RUN;

čia kintamieji – analizuojami kintamieji (arba kintamasis); pasirinktys:

skirstinys(parametrų reikšmės);

kur skirstinys – skirstinį apibrėžiantis žodis, skliaustuose nurodome tikimybinio skirstinio parametrų reikšmes. Aptarsime sintaksę kiekvieno skirstinio atveju.

1) Beta skirstinys. Sintaksė:

BETA <(<ALPHA=reikšmė> <BETA=reikšmė>

<SIGMA=reikšmė|EST> <THETA=reikšmė|EST>) > .

Tankis:

163

+≥≤

+<<−+−

= −+

−−

,arbakai0,

,kai,),(

)()(%100

)( 1

11

σθθ

σθθσβα

θσθβα

βα

xx

xB

xxh

xp (6.44)

čia 0,0,0 >>> βασ , θ turi būti mažesnis už minimalią kintamojo reikšmę, σθ + turi būti didesnis už maksimalią kintamojo reikšmę, )(/)()(),( βαβαβα +ΓΓΓ=B , h – histo-gramos plotis. Pagal nutylėjimą (t.y., kai nenurodome) imami α ir β maksimalaus tikėtinumo įverčiai, 1=σ , 0=θ ; jeigu nurodome SIGMA=EST, tai imamas parametro σ įvertis, jeigu nurodome THETA=EST, tai imamas parametro θ įvertis, pavyzdžiui, jei parašysime HISTOGRAM kintamasis / BETA, tai lygins su tokiu beta skirstiniu: 1=σ ,

0=θ , vietoje parametrų βα , bus jų maksimalaus tikėtinumo įverčiai. Kai kurie autoriai naudoja tokią beta skirstinio išraišką:

≥≤

<<−

−−= −+

−−

.arbakai0,

,kai,))(,(

)()()( 1

11

bxax

bxaabqpB

xbax

xp qp

qp

(6.45)

Parametrai iš (6.44) ir (6.45) susiję tokiu būdu: ab −=σ , a=θ , p=α , q=β .

2) Eksponentinis skirstinys. Sintaksė:

EXPONENTIAL <(<SIGMA=reikšmė> <THETA=reikšmė|EST>) >.

Tankis:

<

≥

−−

=,kai0,

,kai,exp%100

)(

θ

θσ

θσ

x

xxh

xp (6.46)

čia ,0>σ h – histogramos plotis. Pagal nutylėjimą (t.y., kai nenurodome) 0=θ , imamas σ maksimalaus tikėtinumo įvertis. Jeigu nurodome THETA=EST, tai imamas parametro θ įvertis, pavyzdžiui, jei parašysime HISTOGRAM kintamasis / EXPONENTIAL(THETA= EST), tai lygins su tokiu eksponentiniu skirstiniu: imami parametrų σ ir θ maksimalaus tikėtinumo įverčiai.

3) Gama skirstinys. Sintaksė:

GAMMA <(<ALPHA=reikšmė> <SIGMA=reikšmė> <THETA=reikšmė|EST>)> .

Tankis:

≤

>

−−

−Γ=

−

,kai0,

,kai,exp)(

%100)(

1

θ

θσ

θσ

θσα

α

x

xxxh

xp (6.47)

čia ,0,0 >> ασ θ turi būti mažesnis už minimalią kintamojo reikšmę, h – histogramos plotis. Pagal nutylėjimą (t.y., kai nenurodome) imami α ir σ maksimalaus tikėtinumo įverčiai, 0=θ ; jeigu nurodome THETA=EST, tai imamas parametro θ įvertis. Gama skirstinio atskiri atvejai yra chi-kvadrato skirstinys (su ν laisvės laipsnių, kai (6.47) imame 2/να = , ,2=σ 0=θ ), eksponentinis skirstinys (kai (6.47) imame 1=α ), Erlango skirstinys (kai (6.47) imame α - teigiamas sveikas skaičius).

4) Lognormalusis skirstinys. Sintaksė:

LOGNORMAL <(<SIGMA=reikšmė> <THETA=reikšmė|EST> <ZETA=reikšmė>) > .

Tankis:

164

≤

>

−−−

−=

,kai0,

,kai,2

))(log(exp

)(2

%100)( 2

2

θ

θσ

ςθ

θπσx

xx

x

h

xp (6.48)

čia ,0, >∞<<∞− σς θ turi būti mažesnis už minimalią kintamojo reikšmę, h – histo-gramos plotis. Pagal nutylėjimą (t.y., kai nenurodome) imami σ ir ς maksimalaus tikėtinumo įverčiai, 0=θ ; jeigu nurodome THETA=EST, tai imamas parametro θ įvertis.

5) Normalusis skirstinys. Sintaksė:

NORMAL <(<MU=reikšmė> <SIGMA=reikšmė> )> .

Tankis:

,,2

1exp

2

%100)(

2

∞<<∞−

−−= x

xhxp

σµ

πσ (6.49)

čia 0>σ (standartinis nuokrypis), µ - vidurkis. Pagal nutylėjimą imami σ ir µ maksimalaus tikėtinumo įverčiai.

6) Veibulo skirstinys. Sintaksė:

WEIBULL <(<C=reikšmė> <SIGMA=reikšmė> <THETA=reikšmė|EST>)> .

Tankis:

≤

>

−−

−=

−

,kai0,

,kai,exp%100)(

1

θ

θσ

θσ

θσ

x

xxxc

hxp

cc

(6.50)

čia ,0,0 >> cσ θ turi būti mažesnis už minimalią kintamojo reikšmę, h – histogramos plotis. Pagal nutylėjimą (t.y., kai nenurodome) imami c ir σ maksimalaus tikėtinumo įverčiai, 0=θ ; jeigu nurodome THETA=EST, tai imamas parametro θ įvertis.

6.9 p a v y z d y s. Tarkime, kad turime duomenų lentelę „Duomenys“, sukurtą su tokiu Data žingsniu:

DATA Duomenys;

DROP i;

DO i=1 TO 200;

X=2*normal(0)+10; /*kadangi skliaustuose 0, tai kelis kartus*/

OUTPUT; /*atlikę Data žingsnį, gausime vis kitus duomenis*/

END;

RUN;

a) Patikrinkime hipotezę, kad X skirstinys yra normalusis su vidurkiu 10 ir dipersija 4. Editor lange parašome:

PROC UNIVARIATE DATA=Duomenys;

VAR X;

HISTOGRAM X / NORMAL(MU=10 SIGMA=2);

RUN;

Sakinyje HISTOGRAM nurodėme NORMAL, todėl tikrins ar skirstinys normalusis su tokiais parametrais, kuriuos nurodėme skliaustuose, t.y. vidurkis 10 ir standartinis nuokrypis 2. Output lange gauname:


Fitted Distribution for X

Parameters for Normal Distribution

Parameter Symbol Estimate

Mean Mu 10

Std Dev Sigma 2

165

Goodness-of-Fit Tests for Normal Distribution

Test ---Statistic---- -----p Value-----

Kolmogorov-Smirnov D 0.07467362 Pr > D 0.211

Cramer-von Mises W-Sq 0.20353382 Pr > W-Sq >0.250

Anderson-Darling A-Sq 1.17335942 Pr > A-Sq >0.250

Lentelėje „Goodness-of-Fit Tests for Normal Distribution” (suderinamumo kriterijai normališkumui tikrinti) spausdinama: Kolmogorovo kriterijaus statistikos (Kolmogorov-Smirnov; (6.43)) reikšmė 07467362,0=D ir P-reikšmė 0,211; Anderson-Darling kriterijaus

statistikos (6.41) reikšmė 17335942,12 =A ir P-reikšmė, kuri šiame pavyzdyje yra didesnė už

0,25; Cramer-von Mises statistikos (6.40) reikšmė 20353382,02 =W ir P-reikšmė, kuri šiame pavyzdyje yra didesnė už 0,25. Visais trimis atvejais gauname, kad hipotezė neatmetama.

b) Patikrinkime hipotezę, kad X skirstinys yra normalusis su vidurkiu 10 ir standartiniu nuokrypiu 1,5 dispersija. Editor lange parašome:


VAR X;

HISTOGRAM X / NORMAL(MU=10 SIGMA=1.5);

RUN;

Output lange gauname: The UNIVARIATE Procedure

Fitted Distribution for X

Parameters for Normal Distribution

Parameter Symbol Estimate

Mean Mu 10

Std Dev Sigma 1.5

Goodness-of-Fit Tests for Normal Distribution

Test ---Statistic---- -----p Value-----

Kolmogorov-Smirnov D 0.10716266 Pr > D 0.020

Cramer-von Mises W-Sq 0.49454993 Pr > W-Sq 0.043

Anderson-Darling A-Sq 4.49379752 Pr > A-Sq 0.005

Gauname, kad Kolmogorovo kriterijaus statistikos reikšmė 10716266,0=D ir P-

reikšmė 0,02; Anderson-Darling kriterijaus statistikos reikšmė 49379752,42 =A ir P-reikšmė

0,005; Cramer-von Mises statistikos reikšmė 49454993,02 =W ir P-reikšmė 0,043. Visi trys kriterijai duoda tą patį atsakymą: hipotezė atmetama su reikšmingumo lygmeniu 0,05.

2.2. Homogeniškumo tikrinimas

Šiame skyrelyje aprašysime kriterijus, kurie grindžiami teorinės ir empirinės pasi-skirstymo funkcijų palyginimu ir skirti patikrinti homogeniškumo hipotezę. Tegu

1...,, 21 nxxx yra a.d. X imtis, o

2...,, 21 nyyy - a.d. Y imtis. Tarkime, kad nieko

nežinome apie stebimų tolydžiųjų atsitiktinių dydžių tikimybinį skirstinį ir reikia patikrinti hipotezę apie skirstinių tapatumą. Pažymėkime 1F - a.d. X pasiskirstymo funkcija, 2F - a.d. Y pasiskirstymo funkcija. Apibrėžkime X ir Y empirines pasiskirstymo funkcijas:

∑=

≤=1

111 }{I

1)(ˆ

n

j

j xxn

xF ; ∑=

≤=2

122 }{I

1)(ˆ

n

j

j yyn

yF . (6.51)

Reikia patikrinti hipotezę

),(ˆ)(ˆ:H 210 xFxF MM ≡ (6.52)

166

t.y. skirstiniai vienodi. Pažymėkime

,ˆ1ˆ ∑=i

ii Fnn

F (6.53)

čia in – i-tosios imties dydis, n – bendras stebėjimų skaičius.

Kolmogorovo-Smirnovo statistika apibrėžiama:

.))(ˆ)(ˆ(1

max 2∑ −=i

jjiij

xFxFnn

KS (6.54)

Asimptotinė Kolmogorovo-Smirnovo statistika:

.nKSKSa = (6.55)

Kai turime dvi imtis, tai Kolmogorovo-Smirnovo tiksli statistika:

|,)(ˆ)(ˆ|max 21 jjj

xFxFD −= (6.56)

vienpusės Kolmogorovo-Smirnovo statistikos:

)).(ˆ)(ˆ(max)),(ˆ)(ˆ(max 1221 jjj

jjj

xFxFDxFxFD −=−= −+ (6.57)

Šias statistikas apskaičiuoja SAS procedūra NPAR1WAY, kai nurodome pasirinktį EDF. Sintaksė:

PROC NPAR1WAY EDF <D> DATA=lentelė;

CLASS kint1;

VAR kint2;

FREQ kint3;

EXACT KS;

RUN;

čia kint1 – klasifikuojantis kintamasis, kuris nurodo, kuriai imčiai priklauso stebėjimas; kint2 – analizuojamas kintamasis; sakinį FREQ reikia nurodyti tik tada, kai turime susumuotus duomenis; sakinį EXACT nurodome, jeigu norime, kad spausdintų tikslias P-reikšmes; nebūtina pasirinktis D nurodo, kad turi būti apskaičiuotos vienpusės Kolmogorovo-Smirnovo statistikos (6.57) ir P-reikšmės.

6.10 p a v y z d y s. Sukurkime duomenų lentelę su tokiu Data žingsniu:

DATA Duomenys;

DROP i;

g=1;

DO i=1 TO 50;

X=normal(10)+1;

OUTPUT;

END;

g=2;

DO i=1 TO 50;

X=normal(10);

OUTPUT;

END; RUN;

Patikrinkime homogeniškumo hipotezę. Editor lange parašykime:

PROC NPAR1WAY EDF DATA=Duomenys;

CLASS g;

VAR X;

RUN;

167

Nurodėme EDF, todėl apskaičiuos Kolmogorovo-Smirnovo kriterijaus statistiką ir P-reikšmę. Output lange gauname: The NPAR1WAY Procedure Kolmogorov-Smirnov Test for Variable X Classified by Variable g EDF at Deviation from Mean g N Maximum at Maximum 1 50 0.140 -1.555635 2 50 0.580 1.555635 Total 100 0.360

Komentaras: N – stebėjimų skaičius; „EDF at maximum“ yra imties (grupės) EDF

(empirinės pasiskirstymo funkcijos; iF̂ ) reikšmė jos maksimalaus nuokrypio nuo jungtinės

EDF ( F̂ ; apibrėžta (6.53)) taške; „Deviation from mean at maximum“ yra )ˆˆ( FFn ii −

reikšmė jos maksimumo taške. Maximum Deviation Occurred at Observation 85 Value of X at Maximum = 0.162299

Komentaras: maksimalus nuokrypis yra 85 stebėjimo; šiam stebėjimui analizuojamo kintamojo reikšmė yra 0,162299. Kolmogorov-Smirnov Two-Sample Test (Asymptotic) KS 0.220000 D 0.440000 KSa 2.200000 Pr > KSa 0.0001

Komentaras: KS yra statistikos (6.54) reikšmė; D yra statistikos (6.56) reikšmė; KSa yra statistikos (6.55) reikšmė ir Pr>Ksa yra atitinkama dvipusė P-reikšmė. Kadangi P-reikšmė 0.0001, tai hipotezė atmetama, t.y. pirmos ir antros imties skirstiniai skiriasi.

3. Ranginiai kriterijai

Šiame skyrelyje nagrinėsime ranginius kriterijus. Konstruojant šiuos kriterijus naudojami ne patys stebėjimai, o jų išsidėstymo variacinėje eilutėje numeriai, kurie vadinami rangais. Pradžioje aptarsime ranginius sąryšio matus, o paskui homogeniškumo hipotezės tikrinimą naudojant ranginius kriterijus.

3.1. Spirmeno ranginės koreliacijos koeficientas

Spirmeno koreliacijos koeficientas (Spearman Rank-Order Correlation) yra Pirsono koreliacijos koeficiento (žr.IV sk., 2.2 skyrelį) neparametrinis analogas. Pirsono koreliacijos koeficientą galima naudoti, kai prielaida apie duomenų normališkumą patenkinta, jeigu ji nepatenkinta, tai reikia naudoti Spirmeno koreliacijos koeficientą. Jis apskaičiuojamas naudojant ne pačius stebėjimus, o jų rangus. Tarkime, kad stebime tolydžiųjų kintamųjų porą (X,Y) ir turime tokius stebėjimus:

),(),...,,( 11 nn yxyx . Duomenis suranguojame. Tarkime, kad xiR yra ix rangas, o yiR yra iy

rangas, ni ,...,1= . Po rangavimo duomenis sudaro poros ),,( yixi RR ni ,...,1= .

Spirmeno koreliacijos koeficientas:

168

∑∑

∑

==

=

−−

−−=

n

i

yyi

n

i

xxi

n

i

yyixxi

s

RRRR

RRRR

r

1

2

1

2

1

)()(

))(( (6.58)

čia xR yra reikšmių xnx RR ,...,1 aritmetinis vidurkis, o yR yra reikšmių yny RR ,...,1 aritmetinis

vidurkis. Iš (6.58) matome, kad Spirmeno koreliacijos koeficientas yra Pirsono koreliacijos koeficientas apskaičiuotas ne pačioms kintamųjų reikšmėms, o jų rangams. Spirmeno koreliacijos koeficientas interpretuojamas taip pat kaip Pirsono koreliacijos koeficientas. Spirmeno koreliacijos koeficiento ženklas parodo neigiamas ar teigiamas ryšys. Teigiama koreliacija: kai vieno kintamojo reikšmės didėja, tai ir kito kintamojo reikšmės didėja. Neigiama koreliacija: kai vieno kintamojo reikšmės didėja, tai kito kintamojo reikšmės mažėja. Kuo koeficientas absoliučiuoju didumu didesnis, tuo ryšys stipresnis (didesnė koreliacija). Galima naudotis tokiomis taisyklėmis: kai koeficiento reikšmė ±1, tai ideali koreliacija; kai ±0.8, tai stipri koreliacija; kai ±0.5, tai vidutinė koreliacija; kai ±0.2, tai silpna koreliacija; kai 0, tai koreliacijos nėra. Prieš darant išvadą apie kintamųjų koreliaciją reikia patikrinti ar koreliacija statistiškai reikšminga, t.y. reikia patikrinti hipotezę

YX ir:H 0 nekoreliuoja (6.59)

su alternatyva YX ir:H1 koreliuoja. Hipotezė (6.59) reiškia, kad koreliacijos koeficientas

sr statistiškai reikšmingai nesiskiria nuo nulio (koreliacija nėra statistiškai reikšminga),

alternatyva – koreliacija statistiškai reikšminga, kintamieji priklausomi. Kriterijaus statistika:

,1

22

s

sr

nrT

−

−= (6.60)

čia sr - imties Spirmeno koreliacijos koeficiento reikšmė, apskaičiuota pagal (6.58).

Tarkime, kad reikšmingumo lygmuo α . Hipotezė 0H atmetama, kai |T|> 2/αt , čia T –

apibrėžta (6.60), αt yra Stjudento skirstinio su n-2 laisvės laipsniais α-toji kritinė reikšmė.

Spirmeno koreliacijos koeficientą galima apskaičiuoti su SAS procedūra CORR. Sintaksė:

PROC CORR DATA=lentelė SPEARMAN;

VAR kintamieji;

RUN;

VAR sakinyje nurodome kintamuosius, kurių koreliacijos koeficientus norime apskaičiuoti. Procedūroje CORR galima naudoti tokius sakinius: BY kintamieji; /*atskira analizė pagal BY kintamųjų reikšmes*/ FREQ kintamasis; /* dažnio kintamasis */ VAR kintamieji; /* stulpelių kintamieji */ WEIGHT kintamasis; /* svorio kintamasis */ WITH kintamieji; /* eilučių kintamieji */

6.11 p a v y z d y s. Modeliuokime a.v. ),(~),( 2 ΣµNYX dydžio 30=n imtį, čia

,16.1

6.14),3,2(

== Σµ t.y. 4,0=ρ . Apskaičiuokime Spirmeno koreliacijos koeficientą ir

patikrinkime ar koreliacija statistiškai reikšminga. Reikšmingumo lygmuo 0,05 Editor lange parašome:

169

%LET n=30;

%LET miu1=2; %LET miu2=3;

%LET sigma1=2; %LET sigma2=1;

%LET ro=0.4;

DATA dvimatis;

DO i=1 TO &n;

X=&miu1+&sigma1*NORMAL(10);

vid=&miu2+&ro*(&sigma2/&sigma1)*(X-&miu1);

std=sqrt(&sigma2*(1-&ro*&ro));

Y=vid+std*NORMAL(10);

OUTPUT;

END;

RUN;

PROC CORR DATA=dvimatis SPEARMAN;

VAR X Y;

RUN; Output lange gauname: The CORR Procedure 2 Variables: X Y Simple Statistics Variable N Mean Std Dev Median Minimum Maximum X 30 1.36643 1.64923 1.15047 -1.28366 6.65943 Y 30 3.02169 0.79639 2.88230 1.52897 4.60821 Spearman Correlation Coefficients, N = 30 Prob > |r| under H0: Rho=0 X Y X 1.00000 0.45362 0.0118 Y 0.45362 1.00000 0.0118 Lentelėje „Simple Statistics“ yra spausdinamos kintamųjų X ir Y skaitinės charakteristikos: stebėjimų skaičius (N), vidurkis (Mean), standartinis nuokrypis (Std Dev), mediana (Median), minimali (Minimum) ir maksimali (Maximum) reikšmės. Lentelėje „Spearman Correlation Coefficients“ spausdinama apskaičiuota pagal imties duomenis Spirmeno koreliacijos koeficiento reikšmė 0,45362 (žr.(6.58)) ir P-reikšmė, skirta patikrinti hipotezę (6.59). Kadangi P-reikšmė yra 0.0118, tai hipotezė atmetama su reikšmingumo lygmeniu 0,05, t.y. kintamieji X ir Y koreliuoja. Kadangi koreliacijos koeficiento reikšmė 0,45362, tai koreliacija teigiama.

Spirmeno koreliacijos koeficientą galima taikyti imties atsitiktinumui tikrinti. Tuomet duomenis sudaro ),(),...,2,(),1,( 21 nxxx n . Imtis nxxx ,...,, 21 atsitiktinė, jeigu priklausomybės

nerandame (hipotezės neatmetame).

3.2. Kendalo ranginės koreliacijos koeficientas

Kendalo ranginės koreliacijos koeficientas (Kendall‘s Tau-b Correlation Coefficient) naudojamas kintamųjų ryšio stiprumui įvertinti. Jis grindžiamas suderintų ir nesuderintų porų skaičiumi. Tarkime, kad stebime tolydžiųjų kintamųjų porą (X,Y) ir turime tokius stebėjimus:

),(),...,,( 11 nn yxyx . Dvi duomenų poros ),( ii yx ir ),( jj yx , ji ≠ yra suderintos, jei ( ji xx >

ir ji yy > ) arba ( ji xx < ir ji yy < ). Dvi duomenų poros ),( ii yx ir ),( jj yx , ji ≠ yra

nesuderintos, jei ( ji xx > ir ji yy < ) arba ( ji xx < ir ji yy > ).

Kendalo ranginės koreliacijos koeficientas:

170

,))((

))sgn()(sgn(

2010 TTTT

yyxxji

jiji

−−

−−

=∑<τ (6.61)

čia ,2/)1(0 −= nnT ,2/)1(1 ∑ −=k

kk ttT ∑ −=l

ll uuT 2/)1(2 ; kt - yra kintamojo X reikšmių

skaičius k-tojoje kintamojo X susietųjų reikšmių grupėje; lu - yra kintamojo Y reikšmių skai-

čius l-tojoje kintamojo Y susietųjų reikšmių grupėje;

<−

=

>

=

.0kai,1

,0kai,0

,0kai,1

)sgn(

z

z

z

z

Susietosiomis reikšmėmis vadinamos reikšmės, kurioms priskiriami vienodi rangai, t.y. sutampančios (pasikartojančios) reikšmės. Kaip ir Spirmeno koeficiento atveju, galima ne tik apskaičiuoti Kendalo koeficientą, bet ir patikrinti, ar gauta koreliacija statistiškai reikšminga. Reikia patikrinti hipotezę

YX ir:H 0 nekoreliuoja (6.62)

su alternatyva YX ir:H1 koreliuoja. Hipotezė (6.62) reiškia, kad koreliacijos koeficientas τ statistiškai reikšmingai nesiskiria nuo nulio (koreliacija nėra statistiškai reikšminga), alternatyva – koreliacija statistiškai reikšminga, kintamieji priklausomi. Kriterijaus statistika:

,)(sV

sZ = (6.63)

čia

,)2)(1()2)(1(,)1()1(

,)52)(1(,)52)(1(

),2)(1(

,)2)(1(9)1(218

)(

,))sgn()(sgn(

21

0

210

−−

−−=

−

−=

+−=+−=

−−=

−−+

−+

−−=

−−=

∑∑∑∑

∑∑

∑<

l

lll

k

kkk

l

ll

k

kk

l

lllu

k

kkkt

ut

ji

jiji

uuutttvuuttv

uuuvtttv

nnnv

nnn

v

nn

vvvvsV

yyxxs

kt - kintamojo X reikšmių skaičius k-tojoje kintamojo X susietųjų reikšmių grupėje; lu - yra

kintamojo Y reikšmių skaičius l-tojoje kintamojo Y susietųjų reikšmių grupėje. Tarkime, kad reikšmingumo lygmuo α . Hipotezė 0H atmetama, kai |Z|> 2/αz , čia Z –

apibrėžta (6.63), αz - standartinio normalaus skirstinio α-toji kritinė reikšmė.

Kendalo koreliacijos koeficientą galima apskaičiuoti su SAS procedūra CORR. Sintaksė:

PROC CORR DATA=lentelė KENDALL;

VAR kintamieji;

RUN;

VAR sakinyje nurodome kintamuosius, kurių koreliacijos koeficientus norime apskaičiuoti.

171

6.12 p a v y z d y s. Tarkime, kad turime duomenis iš 6.11 pavyzdžio. Apskaičiuokime Kendalo koreliacijos koeficientą ir patikrinkime ar jis statistiškai reikšmingas. Editor lange parašykime:

PROC CORR DATA=dvimatis KENDALL;

VAR X Y;

RUN;

Output lange gauname: The CORR Procedure 2 Variables: X Y Simple Statistics Variable N Mean Std Dev Median Minimum Maximum X 30 1.36643 1.64923 1.15047 -1.28366 6.65943 Y 30 3.02169 0.79639 2.88230 1.52897 4.60821 Kendall Tau b Correlation Coefficients, N = 30 Prob > |r| under H0: Rho=0 X Y X 1.00000 0.31034 0.0160 Y 0.31034 1.00000 0.0160

Lentelėje „Simple Statistics“ yra spausdinamos kintamųjų X ir Y skaitinės charakteristikos: stebėjimų skaičius (N), vidurkis (Mean), standartinis nuokrypis (Std Dev), mediana (Median), minimali (Minimum) ir maksimali (Maximum) reikšmės. Lentelėje „Kendall Tau b Correlation Coefficients“ spausdinama apskaičiuota pagal imties duomenis Kendalo koreliacijos koeficiento reikšmė 0,31034 (žr.(6.61)) ir P-reikšmė, skirta patikrinti hipotezę (6.62). Kadangi P-reikšmė yra 0.0160, tai hipotezė atmetama su reikšmingumo lygmeniu 0,05, t.y. kintamieji X ir Y koreliuoja.

3.3. Mano-Vitnio-Vilkoksono kriterijus

Mano-Vitnio-Vilkoksono (Mann-Whitney-Wilcoxon) kriterijus yra Stjudento t kriteri-jaus nepriklausomos imtims neparametrinis analogas. Nereikalaujama duomenų norma-liškumo. Konstruojant kriterijų naudojami duomenų rangai. Tikrinama homogeniškumo hipotezė su alternatyva, kad skirstiniai skiriasi poslinkio parametru. Tarkime, kad turime dvi nepriklausomas imtis:

1,...,1 nxx yra tolydžiojo a.d. X imtis,

2,...,1 nyy yra tolydžiojo a.d. Y

imtis. Tegu a.d. X pasiskirstymo funkcija yra F(x), o a.d. Y pasiskirstymo funkcija yra G(y), F ir G tolydžios pasiskirstymo funkcijos. Reikia patikrinti hipotezę:

,||),()(:0 ∞<≡ ttGtFH (6.64)

su alternatyva :1H skirstiniai nevienodi. Imtis sujungiame į vieną imtį, išdėstome stebėjimus didėjimo tvarka nuo mažiausio iki didžiausio stebėjimo (t.y. sudarome variacinę eilutę). Gausime tokio tipo seką:

a a b a a a b b b b ... a b b

1 2 3 4 5 6 7 8 9 10 ... n-2 n-1 n

čia b yra a.d. X imties nariai; a – a.d. Y imties nariai. 21 nnn += . Apačioje užrašome eilės

numerius (rangus). Tarkime, kad 12 nn ≤ . Tegu 2

,,1 nRR L yra rangai, atitinkantys dydžius a.

Mano-Vitnio-Vilkoksono kriterijaus statistika:

,...21 nRRW ++= (6.65)

172

t.y. imame mažesnio tūrio imtį, išrenkame jos narius ir susumuojame rangus. Asimptotinė kriterijaus statistika:

)1,0()(var

)(

0

0 NW

WEWz

n ∞→⇒

−= , jei 0H teisinga, (6.66)

čia

,1

,)(1

1)(var,)(

11

2210

1

20 ∑∑∑

===

=−−

==n

j

j

n

j

j

n

j

j Rn

aaRn

nn

nWR

n

nWE (6.67)

2n - stebėjimų skaičius mažesnėje imtyje. Mano-Vitnio-Vilkoksono kriterijaus statistikos reikšmę ir atitinkamas P-reikšmes galima apskaičiuoti su SAS modulio STAT procedūra NPAR1WAY. Sintaksė:

PROC NPAR1WAY WILCOXON DATA=lentelė;

CLASS kint1;

VAR kint2;

FREQ kint3;

EXACT;

RUN;

čia kint1 – klasifikuojantis kintamasis, kuris nurodo, kuriai imčiai priklauso stebėjimas; kint2 – analizuojamas kintamasis; sakinį FREQ reikia nurodyti tik tada, kai turime susumuotus duomenis; sakinį EXACT nurodome, jeigu norime, kad spausdintų tikslias P-reikšmes. Apskaičiuojant asimptotinio kriterijaus statistikos reikšmę yra naudojama tolydumo pataisa (jei nenorime, tai PROC sakinyje nurodome CORRECT=NO; apskaičiuos pagal (6.66) formulę):

)(var

5.0)(

0

0

W

WEWz

−−= , jei 0)(0 >− WEW ; (6.68)

)(var

5.0)(

0

0

W

WEWz

+−= , jei 0)(0 <− WEW .

Procedūra NPAR1WAY spausdina asimptotines vienpusę ir dvipusę P-reikšmes: vienpusė P-reikšmė (asimptotinis kriterijus):

<<

>>=

,0kai},{

,0kai},{1

zzZ

zzZP

P

P (6.69)

dvipusė P-reikšmė (asimptotinis kriterijus):

|},||{|2 zZP >= P (6.70)

čia z – apskaičiuota pagal imties duomenis statistikos reikšmė, Z – tikėtina statistikos reikšmė, kai homogeniškumo hipotezė teisinga. Kai nurodome sakinį EXACT, tai apskaičiuojamos tikslios P-reikšmės: vienpusė P-reikšmė (tikslus kriterijus):

≤≤

>≥=

),(kai},{

),(kai},{

00

001

WEWWW

WEWWWP

P

P (6.71)

dvipusė P-reikšmė (tikslus kriterijus):

|},)(||)({| 0002 WEWWEWP −≥−= P (6.72)

čia W – apskaičiuota pagal imties duomenis statistikos reikšmė, 0W – tikėtina statistikos

reikšmė, kai homogeniškumo hipotezė teisinga; )(0 WE apibrėžtas (6.67).

173

6.13 p a v y z d y s. Modeliuokime dvi nepriklausomas imtis, patikrinkime homoge-niškumo hipotezę. Editor lange parašykime:

DATA Duomenys;

DROP i;

g=1;

DO i=1 TO 30;

X=normal(10)+1;

OUTPUT;

END;

g=2;

DO i=1 TO 30;

X=normal(10);

OUTPUT;

END; RUN;

PROC NPAR1WAY WILCOXON DATA=Duomenys;

CLASS g;

VAR X;

EXACT;

RUN;

Output lange gauname: The NPAR1WAY Procedure Wilcoxon Scores (Rank Sums) for Variable X Classified by Variable g Sum of Expected Std Dev Mean g N Scores Under H0 Under H0 Score 1 30 1178.0 915.0 67.638746 39.266667 2 30 652.0 915.0 67.638746 21.733333 Wilcoxon Two-Sample Test Statistic (S) 1178.0000 Normal ApproximationNormal ApproximationNormal ApproximationNormal Approximation Z 3.88093.88093.88093.8809 One-Sided Pr > Z <.0001<.0001<.0001<.0001 Two-Sided Pr > |Z| 0.00010.00010.00010.0001 t Approximation One-Sided Pr > Z 0.0001 Two-Sided Pr > |Z| 0.0003 Exact TestExact TestExact TestExact Test One-Sided Pr >= S 2.916E2.916E2.916E2.916E----05050505 Two-Sided Pr >= |S - Mean| 5.833E5.833E5.833E5.833E----05050505 Z includes a continuity correction of 0.5.

Lentelėje “Wilcoxon Scores (Rank Sums)“ spausdinamas: stebėjimų skaičius (N); rangų suma („Sum of scores“); )(0 WE apibrėžtas (žr. (6.67), „Expected Under H0“);

)(var0 W (žr.(6.67), „Std.Dev under H0“); vidutiniai rangai („Mean Score“; rangų suma

padalinta iš stebėjimų skaičiaus imtyje), parodo kurioje imtyje yra daugiau didesnių reikšmių. Lentelėje „Wilcoxon Two-Sample Test, Normal Approximation“ spausdinama statistikos (6.68) reikšmė z=3,8809; vienpusė P-reikšmė („One-Sided Pr>Z“, žr.(6.69)), kuri šiame pavyzdyje yra mažesnė už 0,0001; dvipusė P-reikšmė („Two-Sided Pr>|Z|“, žr.(6.70)), kuri šiame pavyzdyje yra 0,0001. Kadangi nenurodėme CORRECT=NO, tai skaičiuojant z statistiką buvo panaudota tolydumo pataisa. Gauname, kad hipotezė atmetama, nes gauta P-reikšmė yra mažesnė už pasirinktą reikšmingumo lygmenį, t.y. skirstiniai nevienodi. Kadangi

174

imties su g=1 vidutinis rangas („Mean Score“) didesnis, tai daugiau didesnių reikšmių yra šioje imtyje. Lentelėje „Wilcoxon Two-Sample Test, Exact Test“ spausdinama; vienpusė P-reikšmė („One-Sided Pr>=S“, žr.(6.71)), dvipusė P-reikšmė („Two-Sided Pr>=|S-Mean|“, žr.(6.72)). Palyginę gautas P-reikšmes su pasirinktu reikšmingumo lygmeniu, gauname, kad homo-geniškumo hipotezė (6.64) atmetama, t.y. skirstiniai nevienodi.

3.4. Van der Vardeno kriterijus

Van der Vardeno (Van der Waerden) kriterijaus paskirtis tokia pati kaip ir Mano-Vitnio-Vilkoksono kriterijaus, kurį nagrinėjome 3.3 skyrelyje. Konstruojant kriterijų naudojami duomenų rangai. Tikrinama homogeniškumo hipotezė su alternatyva, kad skirstiniai skiriasi poslinkio parametru. Tarkime, kad turime dvi nepriklausomas imtis:

1,...,1 nxx yra tolydžiojo a.d. X imtis,

2,...,1 nyy yra tolydžiojo a.d. Y imtis. Reikia patikrinti

homogeniškumo hipotezę (6.64). Suranguojame duomenis taip pat kaip 3.3 skyrelyje. Tarkime, kad 12 nn ≤ . Tegu

2,,1 nRR L yra rangai, atitinkantys stebėjimus iš mažesniosios

imties. Van der Vardeno kriterijaus statistika:

),(...)(21 nRaRaS ++= (6.73)

čia ,1

)( 1

+Φ= −

n

RRa

j

j )(xΦ - standartinio normalaus skirstinio pasiskirstymo funkcija.

Asimptotinė kriterijaus statistika:

)1,0()(var

)(

0

0 NS

SESz

n ∞→⇒


čia ,)(1

,))((1

1)(var,)()(

11

2210

1

20 ∑∑∑

===

=−−

==n

j

j

n

j

j

n

j

j Ran

aaRan

nn

nWRa

n

nSE 2n - ste-

bėjimų skaičius mažesnėje imtyje. Van der Vardeno kriterijaus statistikos reikšmę ir atitinkamas P-reikšmes galima apskaičiuoti su SAS modulio STAT procedūra NPAR1WAY. Sintaksė:

PROC NPAR1WAY VW DATA=lentelė;

CLASS kint1;

VAR kint2;

FREQ kint3;

RUN;

čia kint1 – klasifikuojantis kintamasis, kuris nurodo, kuriai imčiai priklauso stebėjimas; kint2 – analizuojamas kintamasis; sakinį FREQ reikia nurodyti tik tada, kai turime susumuotus duomenis.

6.14 p a v y z d y s. Imkime duomenis iš 6.13 pavyzdžio. Patikrinkime homoge-niškumo hipotezę.

PROC NPAR1WAY VW DATA=Duomenys;

CLASS g;

VAR X;

RUN;

Output lange gauname: The NPAR1WAY Procedure Van der Waerden Two-Sample Test Statistic 14.0230 Z 3.8133 One-Sided Pr > Z <.0001 Two-Sided Pr > |Z| 0.0001

175

Lentelėje „Van der Waerden Two-Sample Test“ spausdinama statistikos (6.73) reikšmė S=14,0230; asimptotinės statistikos reikšmė z=3,8133; vienpusė P-reikšmė („One-Sided Pr>Z“), kuri šiame pavyzdyje yra mažesnė už 0,0001; dvipusė P-reikšmė („Two-Sided Pr>|Z|“) 0,0001. Gauname, kad hipotezė atmetama, nes gauta P-reikšmė yra mažesnė už pasirinktą reikšmingumo lygmenį, t.y. skirstiniai nevienodi.

3.5. Kruskalo-Voliso kriterijus

Kruskalo-Voliso (Kruskall-Wallis) kriterijus naudojamas, kai reikia palyginti trijų ar daugiau populiacijų skirstinius, pavyzdžiui, ar trijų skirtingų veislių rugiai vienodai derlingi. Tegu X, Y, Z, ... yra nepriklausomi tolydūs atsitiktiniai dydžiai. Tegu stebint šiuos atsitiktinius dydžius gautos tokios imtys: (

1,..,1 nxx ), (

2,...,1 nyy ); (

3,...,1 nzz ), ... . Reikia

patikrinti hipotezę:

0H : kintamųjų skirstiniai vienodi

su alternatyva 1H : skirstiniai skiriasi. Kruskalo-Voliso kriterijus naudojamas patikrinti homo-geniškumo hipotezę su poslinkio alternatyva, kai turime daugiau negu dvi nepriklausomas imtis. Sudarome jungtinę variacinę eilutę. Duomenis suranguojame. Pažymėkime: jR -

rangai, r – klasių (atsitiktinių dydžių skaičius). Kruskalo-Voliso kriterijaus statistika:

,/))((1

1

202 ∑

=

−=r

i

iii nTETs

C (6.75)

čia ∑= ji RT , sumuojama pagal visus narius iš i-tosios klasės,

anTE ii =)(0 ; ∑=

=n

j

jRn

a1

1; ∑

=

−−

=n

j

j aRn

s1

22 )(1

1. (6.76)

Statistika, kai hipotezė 0H teisinga, asimptotiškai ( ∞→n ) pasiskirsčiusi pagal chi-

kvadrato skirstinį su r-l laisvės laipsniu, t.y. 2

1−∞→

⇒ rn

C χ , jei 0H teisinga.

Kruskalo-Voliso kriterijaus statistikos reikšmę ir atitinkamas P-reikšmes galima apskaičiuoti su SAS modulio STAT procedūra NPAR1WAY. Sintaksė tokia pati kaip ir skaičiuojant Mano-Vitnio-Vilkoksono statistikos reikšmę ir P-reikšmes (žr.3.3 skyrelį):

PROC NPAR1WAY WILCOXON DATA=lentelė;

CLASS kint1;

VAR kint2;

RUN;

čia kint1 – klasifikuojantis kintamasis, kuris nurodo, kuriai imčiai priklauso stebėjimas; kint2 – analizuojamas kintamasis.

6.15 p a v y z d y s. Modeliuokime tris nepriklausomas imtis, patikrinkime homoge-niškumo hipotezę. Editor lange parašykime:

DATA Duomenys;

DROP i;

g=’a’;

DO i=1 TO 30;

X=normal(10)+1;

OUTPUT;

END;

g=’b’;

DO i=1 TO 35;

176

X=normal(10);

OUTPUT;

END;

g=’c’;

DO i=1 TO 30;

X=normal(10)+1;

OUTPUT;

END;

RUN;

PROC NPAR1WAY WILCOXON DATA=Duomenys;

CLASS g;

VAR X;

RUN;

Output lange gauname: Wilcoxon Scores (Rank Sums) for Variable X Classified by Variable g Sum of Expected Std Dev Mean g N Scores Under H0 Under H0 Score a 30 1653.0 1440.0 124.899960 55.100000 b 35 1051.0 1680.0 129.614814 30.028571 c 30 1856.0 1440.0 124.899960 61.866667 Kruskal-Wallis Test Chi-Square 24.4538 DF 2 Pr > Chi-Square <.0001

Lentelėje “Wilcoxon Scores (Rank Sums)“ spausdinamas: stebėjimų skaičius (N) kiekvienoje imtyje; rangų sumos iT (žr. (6.75)„Sum of scores“); )(0 iTE (žr. (6.76),

„Expected Under H0“); standartinis nuokrypis, kai hipotezė teisinga („Std.Dev under H0“); vidutiniai rangai („Mean Score“; rangų suma padalinta iš stebėjimų skaičiaus imtyje), parodo kurioje imtyje yra daugiau didesnių reikšmių. Lentelėje „Kruskall-Wallis Test“ spausdinama statistikos (6.75) reikšmė C=24,4538 („Chi-Square“); P-reikšmė („Pr>Chi-Square“), kuri šiame pavyzdyje yra mažesnė už 0,0001. Gauname, kad hipotezė atmetama, nes gauta P-reikšmė yra mažesnė už pasirinktą reikšmingumo lygmenį, t.y. skirstiniai nevienodi.

3.6 Homogeniškumo hipotezės su mastelio alternatyva tikrinimas

Skyreliuose 3.3-3.5 nagrinėjome kriterijus, kurie naudojami patikrinti homogeniškumo hipotezę 0H : skirstiniai vienodi su poslinkio alternatyva. Šiame skyrelyje pateiksime SAS

realizuotus kriterijus, kurie skirti patikrinti hipotezę 0H su mastelio alternatyva. Galima

taikyti dviems arba daugiau imčių (skiriasi kriterijaus statistikos skaičiavimas). Duomenys išdėstomi į bendrą variacinę eilutę ir suranguojami. Skirtingai ranguojant gaunami įvairūs kriterijai. Skaičiuojama su SAS modulio STAT procedūra NPAR1WAY. I) Dviejų imčių atvejis. Tarkime, kad turime dvi nepriklausomas imtis:

1,...,1 nxx yra

tolydžiojo a.d. X imtis, 2

,...,1 nyy yra tolydžiojo a.d. Y imtis. Tarkime, kad 21 nn ≤ . Tegu

1,,1 nRR L yra mažesnės imties stebėjimų rangai. Kriterijaus statistika yra pavidalo:

),(1

1j

n

j

RaS ∑=

= (6.77)

čia )( jRa yra tam tikra rangų funkcija. Pažymėkime 21 nnn += .

177

1) Siegel-Tukey kriterijų gauname imdami:

,1)1( =a ,2)( =na ,3)1( =−na ,4)2( =a ,5)3( =a ,6)2( =−na ,7)3( =−na ,8)4( =a ... (6.78)

t.y., sudarome bendrą variacinę eilutę ir priskiriame rangus pagal (6.78) taisyklę, pavyzdžiui,

X X Y Y Y ... Y Y X Y

1 3 5 7 9 ... 8 6 4 2

Pagal nutylėjimą, kai taikome dviejų imčių Siegel-Tukey, tai apskaičiuojant asimptotinio kriterijaus statistikos reikšmę yra naudojama tolydumo pataisa 0,5 (žr.3.3 skyrelį); jeigu nenorime, kad būtų taikoma tolydumo pataisa, tai PROC sakinyje nurodome CORRECT=NO. 2) Ansari-Bradley kriterijų gauname imdami:

,1)1( =a ,1)( =na ,2)2( =a ,2)1( =−na ... (6.79)

3) Klotz kriterijų gauname imdami:

,1

)(

2

1

+Φ= −

n

RRa

j

j (6.80)

čia )(xΦ - standartinio normalaus skirstinio pasiskirstymo funkcija. 4) Mood kriterijų gauname imdami:

.2

1)(

2

+−=

nRRa jj (6.81)

Asimptotinė kriterijaus statistika:

)1,0()(var

)(

0

0 NS

SESz

n ∞→⇒


čia S apibrėžta (6.77),

,)(1

,))((1

1)(var,)()(

11

2210

1

10 ∑∑∑

===

=−−

==n

j

j

n

j

j

n

j

j Ran

aaRan

nn

nSRa

n

nSE (6.83)

1n - stebėjimų skaičius mažesnėje imtyje. Procedūra NPAR1WAY spausdina asimptotines vienpusę ir dvipusę P-reikšmes, o taip pat tikslias P-reikšmes, kai nurodome sakinį EXACT. II) Daugiau negu dviejų imčių atvejis. Tegu X, Y, Z, ... yra nepriklausomi tolydūs atsitiktiniai dydžiai. Tegu stebint šiuos atsitiktinius dydžius gautos tokios imtys: (

1,..,1 nxx ),

(2

,...,1 nyy ); (3

,...,1 nzz ), ... . Sudarome jungtinę variacinę eilutę. Duomenis suranguojame.

Pažymėkime: jR - rangai, r – klasių (atsitiktinių dydžių skaičius).

Kriterijaus statistika:

,/))((1

1

202 ∑

=

−=r

i

iii nTETs

C (6.84)

čia ,)(1

∑=

=n

j

jiji RacT t.y. sumuojama pagal stebėjimus iš i-tosios klasės, )( jRa yra tam tikra

rangų funkcija (imdami atitinkamai (6.78)-(6.81) gauname Siegel-Tukey, Ansari-Bradley,

178

Klotz, Mood kriterijus), jR yra j-tojo stebėjimo rangas, ijc - indikatorius, parodantis ar j-tasis

stebėjimas priklauso i-tajai imčiai,

anTE ii =)(0 ; ∑=

=n

j

jRan

a1

)(1

; ∑=

−−

=n

j

j aRan

s1

22 ))((1

1. (6.85)

Statistika, kai hipotezė 0H teisinga, asimptotiškai ( ∞→n ) pasiskirsčiusi pagal chi-

kvadrato skirstinį su r-l laisvės laipsniu, t.y. 2

1−∞→

⇒ rn

C χ , jei 0H teisinga.

Visas išvardintas statistikas galima apskaičiuoti su SAS modulio STAT procedūra NPAR1WAY. Sintaksė:

PROC NPAR1WAY DATA=lentelė <ST> <AB> <KLOTZ> <MOOD>;

CLASS kint1;

VAR kint2;

RUN;

čia kint1 – klasifikuojantis kintamasis, kuris nurodo, kuriai imčiai priklauso stebėjimas; kint2 – analizuojamas kintamasis; ST – Siegel-Tukey kriterijus, AB – Ansari-Bradley kriterijus; KLOTZ – Klotz kriterijus, MOOD – Mood kriterijus. Galima nurodyti EXACT sakinį, tada apskaičiuos tikslias tikimybes.

6.16 p a v y z d y s. Modeliuokime tris nepriklausomas imtis. Editor lange parašykime:

DATA Duomenys;

DROP i;

g=’a’;

DO i=1 TO 30;

X=2*normal(10)+1;

OUTPUT;

END;

g=’b’;

DO i=1 TO 35;

X=2.5*normal(10);

OUTPUT;

END;

g=’c’;

DO i=1 TO 30;

X=normal(10)+1;

OUTPUT;

END;

RUN;

Patikrinkime hipotezę: skirstiniai vienodi. Editor lange parašome:

PROC NPAR1WAY DATA=Duomenys ST AB KLOTZ MOOD;

CLASS g;

VAR X;

RUN;

Output lange gauname: The NPAR1WAY Procedure Siegel-Tukey Scores for Variable X Classified by Variable g Sum of Expected Std Dev Mean g N Scores Under H0 Under H0 Score a 30 1719.0 1440.0 124.899960 57.300000 b 35 1138.0 1680.0 129.614814 32.514286 c 30 1703.0 1440.0 124.899960 56.766667

179

Sieg Sieg Sieg Siegelelelel----Tukey OneTukey OneTukey OneTukey One----Way AnalysisWay AnalysisWay AnalysisWay Analysis Chi-Square 17.4916 DF 2 Pr > Chi-Square 0.0002 Ansari-Bradley Scores for Variable X Classified by Variable g Sum of Expected Std Dev Mean g N Scores Under H0 Under H0 Score a 30 868.0 727.578947 62.460359 28.933333 b 35 577.0 848.842105 64.818177 16.485714 c 30 859.0 727.578947 62.460359 28.633333 Ansari Ansari Ansari Ansari----Bradley OneBradley OneBradley OneBradley One----Way AnalysisWay AnalysisWay AnalysisWay Analysis Chi-Square 17.5960 DF 2 Pr > Chi-Square 0.0002 Klotz Scores for Variable X Classified by Variable g Sum of Expected Std Dev Mean g N Scores Under H0 Under H0 Score a 30 18.281261 27.590043 5.347165 0.609375 b 35 54.959048 32.188383 5.549015 1.570259 c 30 14.128159 27.590043 5.347165 0.470939

Klotz OneKlotz OneKlotz OneKlotz One----Way AnalysisWay AnalysisWay AnalysisWay Analysis Chi-Square 17.0455 DF 2 Pr > Chi-Square 0.0002 Mood Scores for Variable X Classified by Variable g Sum of Expected Std Dev Mean g N Scores Under H0 Under H0 Score a 30 16368.0 22560.0 3062.97894 545.60000 b 35 39737.0 26320.0 3178.60347 1135.34286 c 30 15335.0 22560.0 3062.97894 511.16667 Mood One Mood One Mood One Mood One----Way AnalysisWay AnalysisWay AnalysisWay Analysis Chi-Square 17.8561 DF 2 Pr > Chi-Square 0.0001

Kiekvienam iš nurodytų PROC sakinyje kriterijų spausdinamos dvi lentelės, kurios yra analogiškos Kruskall-Wallis kriterijui spausdinamoms lentelėms, kai imčių daugiau negu dvi ir Mann-Whitney-Wilcoxon kriterijui spausdinamoms lentelėms, kai yra dvi imtys. Palyginę gautas P-reikšmes su pasirinktu reikšmingumo lygmeniu, gauname, kad hipotezė apie skirstinių vienodumą atmetama.

180

4. Kiti neparametriniai kriterijai

Šiame skyrelyje pateiksime du kriterijus, kurie skirti patikrinti hipotezę apie medianą, kai turime vieną imtį, arba apie medianų lygybę, kai turime dvi priklausomas imtis, o taip pat grubių klaidų išskyrimo kriterijų.

4.1. Ženklų kriterijus

Ženklų kriterijus (Sign Test) naudojamas, kai turime vieną imtį ir norime patikrinti hipotezę apie medianos reikšmę, o taip pat homogeniškumo hipotezei tikrinti, kai turime dvi priklausomas imtis. Šis kriterijus yra Stjudento kriterijaus vienai imčiai ir Stjudento kriterijaus priklausomoms imtims neparametrinis analogas. I) Vienos imties atvejis. Tegu imtis nXXX ,...,, 21 yra gauta stebint tolydų atsitiktinį

dydį X. Reikia patikrinti hipotezę:

0H : X mediana lygi 0u (6.86)

su alternatyva 1H : X mediana nelygi 0u .

Kriterijaus statistika: 2/)( −+ −= nnM , (6.87)

čia +n yra skaičius reikšmių, didesnių už u0,

−n yra skaičius reikšmių, mažesnių už u0.

Reikšmės, lygios u0, neįtraukiamos į statistikos skaičiavimą. Dvipusė P-reikšmė apskaičiuojama taip:

∑−+

=

−

=>

),min(

0

1 ,5,0|}||{|nn

j

tn

j

nMP tM (6.88)

čia M – apskaičiuota pagal imties duomenis statistikos (6.87) reikšmė, M - tikėtina statistikos reikšmė, kai hipotezė teisinga, ,−+ += nnnt (6.89)

t.y. imties reikšmių, nelygių 0u , skaičius.

SAS yra realizuotas Vilkoksono ranginis ženklų kriterijus (Wilcoxon signed rank test), kurio paskirtis tokia pati kaip ir ženklų kriterijaus. Jis naudojamas, kai skirstinys simetriškas, grindžiamas duomenų rangais. Tikrinama hipotezė apie medianos reikšmę. Vilkoksono ranginio ženklų kriterijaus statistika:

,4

)1(

0:

+−= ∑

>

+ tt

Xi

i

nnrS

i

(6.90)

čia +ir yra || 0uX i − rangas (ranguojama nuo mažiausio iki didžiausio; prieš ranguojant

stebėjimai, kuriems iX lygus 0u išbraukiami), tn - apibrėžtas (6.89). Susietoms reikšmės

priskiriami vidutiniai rangai. Kai 20≤n , tai apskaičiuojama tiksli P-reikšmė. Kai n>20, tai naudojama aproksimacija. Statistikos

2

1

snV

nsT

−

−= (6.91)

skirstinys, kai hipotezė 0H : X mediana lygi nuliui (su prielaida, kad duomenų skirstinys si-

metriškas) aproksimuojamas Stjudento skirstiniu su n-1 laivės laipsniu. Čia S – apibrėžta (6.90),

∑ −+−++= )1)(1(48

1)12)(1(

24

1iii tttnnnV . (6.92)

181

kur sumuojama pagal susietų reikšmių grupes (reikšmės imamos moduliu); it yra reikšmių

skaičius i-tojoje susietų reikšmių grupėje. Hipotezė atmetama su reikšmingumo lygmeniu α , kai: )1(|| 2/ −> ntT α , čia )1(2/ −ntα yra Stjudento skirtinio su n-1 laisvės laipsniu ( 2/α )-toji

kritinė reikšmė. SAS modulio BASE procedūroje UNIVARIATE yra realizuotas ir ženklų kriterijus ir Vilkoksono ranginis ženklų kriterijus. Šie kriterijai spausdinami automatiškai. Pagal nutylėjimą tikrinama hipotezė su 00 =u . Galime nurodyti kitą reikšmę su MU0 0u= .

Sintaksė:

PROC UNIVARIATE DATA=lentelė <MU0=reikšmė>;

VAR kintamasis;

RUN;

čia kintamasis – analizuojamas kintamasis, reikšmė – hipotetinė medianos reikšmė.

6.17 p a v y z d y s. Buvo išmatuotas 24 atsitiktinai atrinktų vaikų ūgis.Gauti tokie rezultatai (cm):

124 122 123 134 124 123 121 124 128 123 126 125 131 119 122 125 130 122 125 121 132 128 131 127

Sukurkime duomenų lentelę su tokiu Data žingsniu:

DATA vaikai;


INPUT ugis @@;

Ar galime teigti, kad vidutinis vaikų ūgis yra 128 cm? Tarkime, kad reikšmingumo lygmuo .05.0=α Naudosime procedūrą UNIVARIATE. Editor lange įveskime:

PROC UNIVARIATE DATA=vaikai MU0=128;

VAR ugis;

RUN;

Output lange gauname: The UNIVARIATE Procedure Variable: ugis Moments N 24 Sum Weights 24 Mean 125.416667 Sum Observations 3010 Std Deviation 3.93332105 Variance 15.4710145 Skewness 0.61846377 Kurtosis -0.4234167 Uncorrected SS 377860 Corrected SS 355.833333 Coeff Variation 3.13620283 Std Error Mean 0.8028858 Tests for Location: Mu0=128 Tests for Location: Mu0=128 Tests for Location: Mu0=128 Tests for Location: Mu0=128 Test -Statistic- -----p Value------ Student's t t -3.21756 Pr > |t| 0.0038 Sign M -6 Pr >= |M| 0.0169 Signed Rank S -84 Pr >= |S| 0.0035

Lentelėje „Tests for Location: Mu0=128“, spausdinamos trijų kriterijų statistikų reikšmės ir dvipusės P-reikšmės, skirtos patikrinti hipotezę apie vidurkio arba medianos reikšmę. Eilutėje „Student‘s t“ spausdinama Stjudento kriterijaus (žr.V sk., 2.2 skyrelį) statistikos reikšmė -3,21756 ir dvipusė P-reikšmė 0,0038, skirta patikrinti hipotezę, kad vidurkis lygus 128 su alternatyva, kad nelygus. Kitose dviejose eilutėse spausdinamos dviejų neparametrinių kriterijų statistikų reikšmės ir dvipusės P-reikšmės, skirtos patikrinti hipotezę, kad mediana lygi 128 su alternatyva, kad nelygi. Eilutėje „Sign“ spausdinama ženklų

182

kriterijaus statistikos (6.87) reikšmė -6 ir dvipusė P-reikšmė 0,0169, gauname, kad hipotezė atmetama su reikšmingumo lygmeniu 0,05. Eilutėje „Signed Rank“ spausdinama Vilkoksono ranginio ženklų kriterijaus statistikos reikšmė -84 ir dvipusė P-reikšmė 0,0035, gauname, kad hipotezė atmetama su reikšmingumo lygmeniu 0,05. Taigi, su reikšmingumo lygmeniu 0,05 negalime teigti, kad vidutinis vaikų ūgis 128.

II) Dviejų priklausomų imčių atvejis. Tarkime, kad ),,( ii YX ni ,...,1= yra dydžio n

imtis, gauta stebint tolydžiųjų kintamųjų porą (X,Y). Reikia patikrinti hipotezę:

0H : X ir Y medianos lygios (6.93)

su alternatyva 1H : X ir Y medianos nelygios. Sukuriame naują kintamąjį iii YXZ −= ,

ni ,...,1= ir tikriname hipotezę:

0H : YXZ −= mediana lygi nuliui.

Ši hipotezė ekvivalenti pradinei hipotezei (6.93). Taigi, gavome uždavinį, kurį nagrinėjome I) punkte.

6.18 p a v y z d y s. Lentelėje pateikta 10 pacientų, vartojusių migdomuosius vaistus A ir B, papildomo miego trukmė X ir Y (valandomis) (žr. [5]):

i X Y i X Y

1 1.9 0.7 6 4.4 3.4

2 0.8 -1.6 7 5.5 2.7

3 1.1 -0.2 8 1.6 0.8

4 0.1 -1.2 9 4.6 0.0

5 -0.1 -0.1 10 3.4 2.0

Reikia patikrinti hipotezę, kad vaistų poveikis vienodas. Sukuriame duomenų lentelę. Apskaičiuojame naujo kintamojo reikšmes (kintamųjų X ir Y reikšmių skirtumai). Hipotezę tikrinsime su ženklų ir Vilkoksono ranginiu ženklų kriterijumi, naudosime procedūrą UNIVARIATE. Editor lange parašome:

DATA Duomenys;

INPUT Nr X Y @@;

Z=X-Y;

DATALINES;

1 1.9 0.7 6 4.4 3.4

2 0.8 -1.6 7 5.5 2.7

3 1.1 -0.2 8 1.6 0.8

4 0.1 -1.2 9 4.6 0.0

5 -0.1 -0.1 10 3.4 2.0

;


VAR Z;

RUN;

Output lange gauname (dalis spausdinamų rezultatų ): The UNIVARIATE Procedure Variable: Z Moments N 10 Sum Weights 10 Mean 1.68 Sum Observations 16.8 Std Deviation 1.2890996 Variance 1.66177778 Skewness 1.34178443 Kurtosis 2.25393443 Uncorrected SS 43.18 Corrected SS 14.956 Coeff Variation 76.732119 Std Error Mean 0.40764909 Tests for Location: Mu0=0 Tests for Location: Mu0=0 Tests for Location: Mu0=0 Tests for Location: Mu0=0 Test -Statistic- -----p Value------

183

Student's t t 4.121192 Pr > |t| 0.0026 Sign M 4.5 Pr >= |M| 0.0039 Signed Rank S 22.5 Pr >= |S| 0.0039

Gautas P-reikšmes lyginame su pasirinktu reikšmingumo lygmeniu 0,05, gauname, kad hipotezė atmetama, taigi, negalime teigti, kad vaistų poveikis vienodas.

P a s t a b a. Kai duomenų normališkumo sąlyga patenkinta, tai naudojamas Stjudento kriterijus. Kai procedūroje UNIVARIATE nurodome NORMAL ir stebėjimų ne daugiau kaip 2000, tai spausdinama Shapiro-Wilk statistikos reikšmė ir P-reikšmė, skirta patikrinti hipotezę apie duomenų normališkumą.

6.19 p a v y z d y s. Imkime duomenis iš 6.17 pavyzdžio. Patikrinkime duomenų nrmališ-kumą. Editor lange įveskime:

PROC UNIVARIATE DATA=vaikai MORMAL;

VAR ugis;

RUN;

Output lange gauname: Tests for NormalityTests for NormalityTests for NormalityTests for Normality Test --Statistic--- -----p Value------ Shapiro Shapiro Shapiro Shapiro----Wilk W 0.94461 Pr < W 0.2065Wilk W 0.94461 Pr < W 0.2065Wilk W 0.94461 Pr < W 0.2065Wilk W 0.94461 Pr < W 0.2065 Kolmogorov-Smirnov D 0.167182 Pr > D 0.0820 Cramer-von Mises W-Sq 0.099814 Pr > W-Sq 0.1081 Anderson-Darling A-Sq 0.5671 Pr > A-Sq 0.1314

Gavome, kad Shapiro-Wilk statistikos reikšmė lygi 0,9461, P-reikšmė 0,2065, todėl hipotezė apie duomenų normališkumą neatmetama su reikšmingumo lygmeniu 0,05. Taip pat spausdinamos kriterijų, pagrįstų teorinės ir empirinės pasiskirstymo funkcijų skirtumu, statistikų reikšmės ir P-reikšmės (žr.2.2 skyrelį).

4.2. Grubių klaidų išskyrimo kriterijus Grubios klaidos stebėjimo rezultatuose atsiranda pakitus bandymo sąlygoms, netei-singai perskaičius matavimo aparatūros parodymus, apsirikus užrašant matavimo rezultatą ir pan. Matavimo rezultatai su grubiomis klaidomis kartais lengvai pastebimi, nes žymiai skiriasi nuo kitų. Abejotinais atvejais atliekama statistinė analizė. Tarkime, kad turime imtį nXXX ,...,, 21 . Reikia patikrinti hipotezę, kad nXXX ,...,, 21

yra atsitiktinio dydžio X, kurio skirstinys priklauso normaliųjų skirstinių šeimai }0,),,({ 2 ∞<<∞<<∞−= σµσµNP , paprasčiausia atsitiktinė imtis.

Šiame skyrelyje pateiksime Bolševo-Ubaidulajevos sukonstruotą kriterijų (žr. [5]). Tarkime, kad klaidų skaičius ne didesnis už fiksuotą sveikąjį skaičių s. Kriterijus grindžiamas tokiu faktu: variacinės eilutės, gautos stebint normalųjį atsitiktinį dydį, pradžios ir pabaigos taškai, atitinkamai transformuoti, kai imties tūris didelis, gali būti laikomi Puasono proceso šuolių taškais. Atlikime transformaciją:

,1

−Φ−=

σµi

i

XnZ kai ,µ σ žinomi;

,1

1

−

−Φ−=

σXX

n

nnZ i

i kai µ nežinomas, σ žinomas; (6.94)

,1 1

−−= −

s

XTnZ i

ni

µ kai µ žinomas, σ nežinomas;

184

,1 2

−−= −

s

XXTnZ i

ni kai µ , σ nežinomi,

čia

,1

1∑=

=n

i

iXn

X

,)(1

1

22 ∑=

−=n

i

iXn

s µ kai µ žinomas; (6.95)

,)(1

1

22 ∑=

−=n

i

i XXn

s kai µ nežinomas,

)(xΦ - standartinio normalaus skirstinio pasiskirstymo funkcija, )(xTν yra Tompsono

pasiskirstymo funkcija:

.1||,1

1)2/(

)2/)1((

)1(

1)(

1

2/)2(2

+<

+−

Γ+Γ

+= ∫

+−

−

vxv

y

v

v

vxT

x

v

v

vπ

Skaičiuojant funkcijos )(xTν reikšmes galime remtis Tompsono ir Stjudento skirstinių

sąryšiu:

,1

)(2

−+=

xv

vxSxT vv (6.96)

čia )(tSv yra Stjudento skirstinio su v laisvės laipsnių pasiskirstymo funkcija.

Kai alternatyva dvipusė, tai funkcijose Φ , 1−nT , 2−nT reikia imti argumentų

absoliutinius didumus. Sudarome variacinę eilutę )()2()1( ... nZZZ ≤≤≤ ir j(i) pažymime numerį to variacinės

eilutės ),...,( )()1( nZZ nario, kuris atitinka iX .

Tie stebėjimo rezultatai iX , kurių santykis )(/))(( ijZ ij ne didesnis už α (dvipusė

alternatyva), atmetami kaip grubios klaidos, čia α yra reikšmingumo lygmuo. Šis kriterijus nepriklauso nuo s, t.y. galimo grubių klaidų skaičiaus (kai 2,0≤α ).

6.20 p a v y z d y s. Modeliuokime standartinio normalaus atsitiktinio dydžio imtį (imties dydis 100). Papildykime gautą lentelę dviem reikšmėmis 4, -3,5. Suraskime grubias klaidas. Tarkime, kad vidurkis ir dispersija nežinomi. Reikšmingumo lygmuo 0,05. Editor lange parašykime:

DATA Modeliavimas; /*modeliuojame duomenis*/

DROP i;

DO i=1 TO 100;

X=normal(10);

OUTPUT;

END;

RUN;

DATA DD; /*sukuriame atskirą papildomų stebėjimų lentelę*/

X=4; OUTPUT;

X=-3.5; OUTPUT;

RUN;

DATA Duomenys; /*sukuriame duomenų lentelę, kurią analizuosime n=102*/

SET DD Modeliavimas;

RUN;

185

PROC MEANS NOPRINT DATA=Duomenys VARDEF=N;

VAR X;

OUTPUT OUT=pagalbinis MEAN(X)=vidurkis STD(X)=stand_n;

RUN;

DATA Rezultatas;

IF _N_=1 THEN SET pagalbinis;

SET Duomenys;

RUN;

DATA Rezultatas;

SET Rezultatas;

arg=abs((X-vidurkis)/stand_n);

arg2=arg*sqrt(100/(100+1-arg*arg));

Z=102*(1-cdf(’T’,arg2,100));

RUN;

PROC SORT DATA=Rezultatas OUT=Klaidos;

BY Z;

RUN;

DATA Klaidos;

SET Klaidos;

j=_N_;

stat=z/j;

IF stat <= 0.05;

RUN;

Lentelėje „Klaidos“ gausime reikšmes, kurios yra grubios klaidos. Šiame pavyzdyje gauname, kad su reikšmingumo lygmeniu 0,05 galime teigti, kad stebėjimai -3,5 ir 4 yra grubios klaidos.

186

SANTRUMPOS IR ŽYMENYS

Žymenys, naudojami programose SAS komandos parašytos didžiosiomis raidėmis. Tekstas, kurį reikia įvesti Editor lange, parašytas „Courier New“ šriftu. Komandos, nurodytos tarp simbolių „<“ ir „>“, yra nebūtinos (pasirinktinės). Jeigu kelios komandos yra atskirtos simboliais „|“, tai reikia nurodyti vieną iš jų.

Žymenys ir santrumpos, naudojamos tekste

a.d. – atsitiktinis dydis; a.v. – atsitiktinis vektorius; NMD – nepaslinktas minimalios dispersijos (įvertis); TG – tolygiai galingiausias (kriterijus); TGN – tolygiai galingiausias nepaslinktas (kriterijus); EX – a.d. X vidurkis; VX – a.d. X dispersija; cov(X,Y) – a.d. X ir Y kovariacija; B(n,q) – binominis skirstinys su parametrais n ir q;

)(λP - Puasono skirstinys su parametru ;λ N(0,1) – standartinis normalusis skirstinys;

),(N 2σµ - normalusis skirstinys su parametrais µ ir 2σ ; ),( ηλG - gama skirstinys su parametrais λ ir ;η ),(Be ηγ - beta skirstinys su parametrais γ ir ;η

)(S n – Stjudento skirstinys su n laisvės laipsnių; ),(F nm – Fišerio skirstinys su m ir n laisvės laipsnių;

),(N~ 2σµX - a.d. X skirstinys yra normalusis su parametrais µ ir 2σ (analogiškai kitų skirstinių atveju).

187

LITERATŪRA

Literatūra lietuvių kalba

1. Bikelienė V. Taikomosios matematinės statistikos elementai. Vilnius: VU l-ka, 1993, 101 p.

2. Bikelienė V. Neparametrinė statistika: Dažnių lentelėmis pagrįsti statistiniai kriterijai

ir sąryšio matai. Vilnius: VU l-ka, 1986. 3. Čekanavičius V., Murauskas G. Statistika ir jos taikymai.I. Vilnius: TEV, 2000, 240 p. 4. Čekanavičius V., Murauskas G. Statistika ir jos taikymai. II. Vilnius: TEV, 2002,

272p. 5. Kruopis J. Matematinė statistika. Vilnius: Mokslas, 1993, 416 p.

Rusų kalba

6. Афифи А., Эйзен С. Статистический анализ. Подход с использованием ЭВМ. Москва: Мир, 1982, 488 с.

Anglų kalba

7. Delwiche L.D., Slaughter S.J. The Little SAS®

Book: A primer. SAS Press, 1998, 300p.

8. Hatcher L., Stepanski E.J. A Step-by-Step Approach to Using SAS® System for Univariate and Multivariate Statistics. Cary, Nc: SAS Institute Inc., 1994, 552p.

9. SAS® Help and Documentation. Kompaktas (platinamas kartu su SAS® ). 10. Interneto tinklapis http://www.sas.com.

Documents

VILNIAUS UNIVERSITETAS MATEMATIKOS IR …rutal72/Statistika_su_SAS/Statistika_su_SAS.pdf · SPSS ir kt. Kai kurie statistiniai metodai yra realizuoti Microsoft Excel programoje. Statistini