36
Copyright © StatSoft Polska 2010, [email protected] 25 ESTYMACJA I TESTOWANIE HIPOTEZ Andrzej Sokołowski, Uniwersytet Ekonomiczny w Krakowie, StatSoft Polska Sp. z o.o. Wprowadzenie Celem badań statystycznych jest poznanie prawidłowości zachodzących w badanych zja- wiskach. Na każde zjawisko wywierają wpływ tzw. przyczyny główne, wynikające z jego istoty, działające w sposób trwały i ukierunkowany. One powodują powstawanie prawi- dłowości. Jednocześnie działają też przyczyny uboczne (przypadkowe), które działają w sposób różnokierunkowy i nietrwały. Efektem ich działania są zakłócenia w prawidło- wościach. Statystyk w każdym zjawisku dopatruje się efektu oddziaływania przyczyn głównych, czyli składnika systematycznego oraz efektu oddziaływania przyczyn ubocz- nych, czyli składnika losowego. Odróżnienie tych efektów jest możliwe dzięki działaniu prawa wielkich liczb. Badacz interesuje się pewnym ogólnym mechanizmem analizowanego zjawiska. W kla- sycznej statystyce zbiór wszystkich jednostek, na których to zjawisko się realizuje, nazywany jest zbiorowością ogólną (zbiorowością generalną, populacją). Wydaje się, że w większości problemów ta zbiorowość jest nieskończona lub nieokreślona w tym sensie, że nie jesteśmy w stanie zidentyfikować wszystkich tworzących ją jednostek. Trudno wyobrazić sobie, że lekarz zbierze informacje o pacjentach chorujących w danej chwili na pewną chorobę, nie mówiąc o tych, którzy chorowali w przeszłości lub zachorują w przyszłości. Nawet jednak w sytuacji, gdy zbiór jednostek statystycznych jest znany i niewielki, nie powinniśmy twierdzić, że obserwujemy populację generalną. Jeżeli badamy przestrzenne zróżnicowanie zjawiska bezrobocia w Polsce i robimy to w oparciu o dane wojewódzkie, to liczba województw jest oczywiście znana i wynosi 16. Z Głównego Urzę- du Statystycznego łatwo uzyskamy informacje o przeciętnej stopie bezrobocia w woje- wództwach w danym roku (według określonej metodologii liczenia bezrobocia). Nawet gdybyśmy uznali, że dane te nie zawierają żadnych błędów, to zjawisko bezrobocia kształ- towane jest pod wpływem wielu czynników mikroekonomicznych, makroekonomicznych, prawnych, socjologicznych i psychologicznych oraz oczywiście czynników losowych. My obserwujemy pewien efekt końcowy konglomeratu efektów przyczyn głównych i ubocz- nych. Ten wywód ma na celu uzasadnienie stwierdzenia, że w analizie danych zawsze mamy do czynienia z próbą będącą realizacją pewnego mechanizmu. Mechanizm nie jest poznawalny bezpośrednio, obserwujemy tylko efekty jego działania.

Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, [email protected] 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

25

ESTYMACJA I TESTOWANIE HIPOTEZ

Andrzej Sokołowski, Uniwersytet Ekonomiczny w Krakowie, StatSoft Polska Sp. z o.o.

Wprowadzenie

Celem badań statystycznych jest poznanie prawidłowości zachodzących w badanych zja-

wiskach. Na każde zjawisko wywierają wpływ tzw. przyczyny główne, wynikające z jego

istoty, działające w sposób trwały i ukierunkowany. One powodują powstawanie prawi-

dłowości. Jednocześnie działają też przyczyny uboczne (przypadkowe), które działają

w sposób różnokierunkowy i nietrwały. Efektem ich działania są zakłócenia w prawidło-

wościach. Statystyk w każdym zjawisku dopatruje się efektu oddziaływania przyczyn

głównych, czyli składnika systematycznego oraz efektu oddziaływania przyczyn ubocz-

nych, czyli składnika losowego. Odróżnienie tych efektów jest możliwe dzięki działaniu

prawa wielkich liczb.

Badacz interesuje się pewnym ogólnym mechanizmem analizowanego zjawiska. W kla-

sycznej statystyce zbiór wszystkich jednostek, na których to zjawisko się realizuje,

nazywany jest zbiorowością ogólną (zbiorowością generalną, populacją). Wydaje się, że

w większości problemów ta zbiorowość jest nieskończona lub nieokreślona w tym sensie,

że nie jesteśmy w stanie zidentyfikować wszystkich tworzących ją jednostek. Trudno

wyobrazić sobie, że lekarz zbierze informacje o pacjentach chorujących w danej chwili na

pewną chorobę, nie mówiąc o tych, którzy chorowali w przeszłości lub zachorują

w przyszłości. Nawet jednak w sytuacji, gdy zbiór jednostek statystycznych jest znany

i niewielki, nie powinniśmy twierdzić, że obserwujemy populację generalną. Jeżeli badamy

przestrzenne zróżnicowanie zjawiska bezrobocia w Polsce i robimy to w oparciu o dane

wojewódzkie, to liczba województw jest oczywiście znana i wynosi 16. Z Głównego Urzę-

du Statystycznego łatwo uzyskamy informacje o przeciętnej stopie bezrobocia w woje-

wództwach w danym roku (według określonej metodologii liczenia bezrobocia). Nawet

gdybyśmy uznali, że dane te nie zawierają żadnych błędów, to zjawisko bezrobocia kształ-

towane jest pod wpływem wielu czynników mikroekonomicznych, makroekonomicznych,

prawnych, socjologicznych i psychologicznych oraz oczywiście czynników losowych. My

obserwujemy pewien efekt końcowy konglomeratu efektów przyczyn głównych i ubocz-

nych. Ten wywód ma na celu uzasadnienie stwierdzenia, że w analizie danych zawsze

mamy do czynienia z próbą będącą realizacją pewnego mechanizmu. Mechanizm nie jest

poznawalny bezpośrednio, obserwujemy tylko efekty jego działania.

Page 2: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

26

Jako modelu zjawisk, które nas interesują używamy zmiennych losowych. W wersji popu-

larnej powiadamy, że zmienna losowa to taka wielkość, która w wyniku doświadczenia

przyjmuje różne wartości, przy czym przed doświadczeniem nie da się z absolutną pew-

nością przewidzieć, jaka wartość właśnie się zrealizuje. Można co najwyżej podać zbiór

możliwych wartości tej zmiennej losowej oraz odpowiadające im prawdopodobieństwa.

Zmienne losowe wykorzystywane są jako modele skokowych oraz ciągłych cech statys-

tycznych i, tak jak i one, mogą być skokowe lub ciągłe. Pełną informację o zmiennej loso-

wej zawiera rozkład prawdopodobieństwa. Określa on, jak prawdopodobieństwo rozkłada

się na poszczególne wartości lub przedziały zmienności zmiennej losowej. Rozkład

prawdopodobieństwa można przedstawić w formie tabelarycznej, graficznej lub analitycz-

nej. Spośród wielu możliwości analitycznych, najpopularniejsza jest dystrybuanta (skumu-

lowana funkcja rozkładu), która określa prawdopodobieństwo tego, że zmienna losowa

X przyjmie wartość mniejszą od liczby x. Mamy więc F(x)=P(X<x). Przy zmiennych

losowych skokowych prawdopodobieństwo uzyskania konkretnego wyniku podaje funkcja

rozkładu prawdopodobieństwa: P(X=xi)=pi. Wzór ten czytamy w następujący sposób:

„Prawdopodobieństwo tego, że zmienna losowa X przyjmie wartość xi, jest równe pi”.

Odpowiednikiem funkcji rozkładu dla zmiennej ciągłej jest funkcja gęstości prawdopodo-

bieństwa, która jest pochodną dystrybuanty. Wartość tej funkcji nie jest wartością praw-

dopodobieństwa. Prawdopodobieństwo przyjęcia przez ciągłą zmienną losową wartości

z konkretnego przedziału liczbowego jest równe polu pod funkcją gęstości nad tym

przedziałem (pole takie liczymy całką).

Uproszczonym sposobem charakteryzowania zmiennej losowej jest podanie wartości jej

parametrów. Mierzą one różne własności rozkładów: położenie, zmienność, asymetrię, ale

także na przykład skorelowanie składowych przy zmiennych losowych wielowymia-

rowych. Najpopularniejsze parametry jednowymiarowych zmiennych losowych to:

wartość przeciętna (nadzieja matematyczna, wartość oczekiwana) – określająca

przeciętny poziom zmiennej losowej,

modalna (dominanta, wartość najczęstsza) – dla zmiennej skokowej jest to wynik

najbardziej prawdopodobny, a dla ciągłej jest to wartość dla której funkcja gęstości

prawdopodobieństwa osiąga maksimum,

wariancja – mierzy rozrzut wartości zmiennej losowej wokół wartości przeciętnej,

odchylenie standardowe – informuje, o ile przeciętnie różni się pojedyncza wartość

zmiennej od jej wartości przeciętnej,

mediana – taka wartość, która dzieli rozkład prawdopodobieństwa na dwie równe

części. Jest taka sama szansa, że realizacja zmiennej losowej będzie mniejsza od me-

diany, jak ta, że wartość ta będzie większa od mediany.

W praktyce dysponujemy próbą z populacji. Statystyka matematyczna to nauka o metodach

wnioskowania o własnościach populacji na podstawie próby. Oczywiście próba powinna

być reprezentatywna, czyli jej struktura powinna jak najbardziej odpowiadać strukturze

zbiorowości generalnej (populacji). Reprezentatywność próby można osiągnąć poprzez jej

losowy dobór. Najlepiej jeżeli jest to losowanie proste, czyli takie, w trakcie którego

Page 3: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

27

zapewniony jest warunek, że każdy element zbiorowości generalnej ma takie samo praw-

dopodobieństwo trafienia do próby.

Statystyka matematyczna, czyli wnioskowanie statystyczne, obejmuje estymację oraz

weryfikację hipotez. Estymacja to swego rodzaju odgadywanie postaci rozkładu prawdopo-

dobieństwa lub wartości parametrów zmiennej losowej, która wygenerowała dane, jakie

zaobserwowaliśmy w naszej próbie.

Estymacja nieparametryczna

Wyróżniamy dwa rodzaje estymacji: estymację nieparametryczną i estymację para-

metryczną. Celem estymacji nieparametrycznej jest oszacowanie funkcji rozkładu

prawdopodobieństwa. Jeszcze lepiej, jeżeli jesteśmy w stanie stwierdzić, jaki jest typ roz-

kładu, a więc na przykład móc rozsądnie stwierdzić, że próba została wygenerowana przez

zmienną losową podlegającą rozkładowi normalnemu. Najprostszą metodą estymacji

nieparametrycznej jest sporządzenie histogramu i ocena jego kształtu.

Przykład 1 (część 1)

Spośród podatników składających zeznanie podatkowo PIT-37 w pewnym Urzędzie Skar-

bowym i uzyskujących przychody ze stosunku pracy wylosowano próbę liczącą 410

podatników. Dane dotyczą roku 2004. Wybrano pięć cech statystycznych. Początek pliku

danych ilustruje tabela poniżej.

Pierwsze zadanie to oszacowanie rozkładu cechy jakościowej Płeć. Oczywiście w tym

przypadku mechanizmem generującym jest rozkład dwupunktowy. Nie znamy jednak

prawdopodobieństw odpowiadających dwóm wariantom cechy. Z menu Statystyka

wybieramy Statystyki podstawowe i tabele, a następnie Tabele liczności.

Page 4: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

28

W takiej tabeli wystarczą nam informacje dotyczące liczebności oraz procenty, które po

podzieleniu przez 100 będą ocenami prawdopodobieństwa w rozkładzie dwupunktowym.

Wymagania co do postaci tabeli wynikowej ustawiamy w Opcjach.

Otrzymujemy raczej zaskakujący wynik świadczący o tym, że większość w grupie

składającej PIT-37 stanowią kobiety.

Ilustracją tego rozkładu jest histogram, który możemy wywołać choćby z karty Więcej.

Page 5: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

29

Histogram ten wygląda następująco:

Histogram: Płeć

M K

Klasa

0

50

100

150

200

250

300

Lic

zb

a o

bs.

Na podstawie wyników przedstawionych w tabeli możemy zapisać następującą ocenę

funkcji rozkładu prawdopodobieństwa rozkładu dwupunktowego dla zmiennej Płeć.

„Daszek” nad symbolem prawdopodobieństwa oznacza, że mamy do czynienia z oceną,

wyznaczoną na podstawie konkretnej próby, a nie wartością prawdopodobieństwa w po-

pulacji. Dokonaliśmy nieparametrycznej estymacji tego prawdopodobieństwa. Gdybyśmy

wylosowali jednego podatnika składającego PIT-37 w rozważanym Urzędzie Skarbowym

Page 6: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

30

i uzyskującego przychody z wynagrodzenia, to prawdopodobieństwo tego, że trafimy na

kobietę, wynosi 0,559.

Spróbujmy teraz oszacować rozkład wieku podatników. Na wspomnianej karcie Więcej

określamy strukturę szeregu rozdzielczego. W analizach wieku typową jest długość prze-

działu klasowego 5 lat. Początek pierwszego przedziału ustawiamy na 15 lat. Trudno

sądzić, aby był jakiś młodszy podatnik. Od razu wyświetlamy histogram. Na histogramie

automatycznie pojawia się dopasowana funkcja gęstości rozkładu normalnego. Od razu

widać, że rozkład wieku nie jest rozkładem normalnym. Jest to zdecydowanie rozkład

dwumodalny.

Histogram: Wiek

Oczekiwana normalna

15 20 25 30 35 40 45 50 55 60 65 70 75

X < Granica klasy

0

10

20

30

40

50

60

70

80

Lic

zb

a o

bs.

Page 7: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

31

Wyjaśnienie tej dwumodalności jest dość proste. Obserwowany rozkład jest mieszanką

rozkładów dwóch grup: rodziców i ich już pracujących dzieci. Można spodziewać się, że

modalna rozkładu rodziców jest w przedziale 50-55 lat, a modalna rozkładu wieku dzieci

w przedziale 25-30 lat. Można dokonać rozdziału obserwowanej mieszanki na dwa rozkła-

dy składowe. Wykorzystamy w tym celu metodę k-średnich, która podzieli zbiór na dwa

podzbiory, według jednej cechy Wiek. Z menu Data Mining wybieramy Analizę skupień

uogólnioną metodą EM i k-średnich, a następnie metodę k-średnich. Nie ma znaczenia, czy

dane będą standaryzowane, czy nie – gdyż podziału dokonujemy na podstawie jednej cechy.

Metoda k-średnich działa w ten sposób, że po wybraniu wstępnych środków skupień każda

obserwacja jest przyporządkowywana do najbliższego środka.

Page 8: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

32

Potem liczy się nowe środki skupień (jako średnie arytmetyczne) i sprawdza, czy każdy

obiekt ma bliżej do środka „własnego” czy „cudzego”. W tym drugim przypadku obiekt

przesuwa się do grupy, do środka której jest mu najbliżej. Procedura zatrzymuje się, gdy

żaden punkt nie wymaga przesunięcia. Wybranie opcji Maksymalizuj odległości skupień

powoduje, że metoda startuje z dwóch końców szeregu.

Wybieramy Wykres rozkładów.

Wykres rozkładu zmiennej: Wiek

Liczba skupień: 2

Skupienie 1 ~ normal(x;29,478022;5,156566)

Skupienie 2 ~ normal(x;50,991228;6,148022)

Skupienie 1

Skupienie 2

0 10 20 30 40 50 60 70 80

x ( Wiek )

0,00

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

0,09

Gęsto

ść p

raw

do

pod

obie

ństw

a

Mamy oszacowane dwa składniki mieszanki. Rozkład wieku rodziców jest aproksymo-

wany rozkładem normalnym o wartości przeciętnej 51 lat i odchyleniu standardowym

nieco ponad 6 lat, zaś rozkład wieku dzieci, a wartość przeciętną 29 i pół roku,

a odchylenie standardowe niewiele przekraczające pięć lat. Przy okazji szacowania kształtu

rozkładu, oszacowaliśmy również parametry mieszanki – a to już jest domena estymacji

parametrycznej.

Estymacja parametryczna

Estymacja parametrów wykorzystuje pewne funkcje wyników z próby. Nazywają się one

estymatorami i oprócz wyników z próby zależą oczywiście od wartości szacowanego

parametru. Postaci takich estymatorów poszukuje się między innymi poprzez odpowiedź

na pytanie, przy jakiej wartości estymowanego parametru próba, którą zaobserwowaliśmy,

jest najbardziej prawdopodobna. To metoda największej wiarygodności. Estymator jest

zmienną losową, gdyż zależy od wyników próby losowej. Powinien on charakteryzować

się pewnymi własnościami. W miarę wzrostu liczby obserwacji w próbie powinien być

coraz bardziej precyzyjne. Ta własność nazywa się zgodnością. Jako narzędzie szacowania

parametru, estymator nie powinien mieć błędu systematycznego, jego błędy powinny być

spowodowane tylko czynnikami losowymi. Oznacza to, że wartość przeciętna estymatora

Page 9: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

33

powinna być równa nieznanemu parametrowi – ta własność nazywa się nieobciążonością.

Zazwyczaj do estymacji konkretnego parametru można wykorzystywać różne estymatory.

Najlepszy jest ten, którego rozrzut wyników (czyli wariancja) jest najmniejszy. Taki

estymator nazywa się najefektywniejszy. Wreszcie dobrze jest, jeżeli estymator jest

odporny na wartości odstające.

Jeżeli przyjmujemy, że nieznana wartość parametru jest równa ocenie otrzymanej

w próbie, to mamy do czynienia z estymacją punktową. Ocena jest wartością estymatora

otrzymaną z próby. Jest to konkretna liczba (a więc nie zmienna losowa; podobnie nie jest

nią estymowany parametr).

Poniższa tabela podaje przykładowe estymatory.

Co szacujemy? Poziom Zmienność Struktura

Parametr Wartość przeciętna Odchylenie standardowe Wskaźnik struktury

Estymator Średnia arytmetyczna Odchylenie standardowe

z próby (z mianownikiem n)

Wskaźnik struktury

z próby

Własności

estymatora

Zgodny, nieobciążony,

najefektywniejszy,

nieodporny

Obciążony, najefektywniejszy

Zgodny,

nieobciążony,

najefektywniejszy

Przykład 1 (część 2)

Zadaniem jest oszacowanie wartości przeciętnej, odchylenia standardowego, mediany oraz

asymetrii przychodów z wynagrodzeń, dochodów brutto oraz podatku należnego wśród

podatników składających PIT-37 w pewnym Urzędzie Skarbowym. Otwieramy plik

Podatki i z menu Statystyka wybieramy Statystyki podstawowe i tabele. Estymatory

znajdujemy pod Statystykami opisowymi.

Page 10: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

34

Na karcie Więcej wybieramy żądane estymatory, a następnie naciskamy klawisz Statystyki

(estymator jest też statystyką, czyli funkcją wyników z próby) lub Podsumowanie.

Wszystkie analizowane cechy charakteryzują się wyraźną asymetria prawostronną. Średnie

są zdecydowanie większe niż mediany. Przykładowo średni dochód to prawie dokładnie

25000 zł, natomiast połowa podatników nie miała dochodu przekraczającego 19640 zł.

Doskonale ilustruje to histogram, ograniczony do dochodów na poziomie 100000 zł.

Histogram Dochód brutto

10000 20000 30000 40000 50000 60000 70000 80000 90000 100000

Dochód brutto

0

20

40

60

80

100

120

Lic

zb

a o

bs.

Estymacja przedziałowa polega na budowie tzw. przedziałów ufności. Wykorzystuje się

w tym celu rozkład prawdopodobieństwa estymatora. Zakładamy, że punktowa ocena para-

metru, którą otrzymamy, nie znajdzie się na obrzeżach rozkładu. Bierzemy pod uwagę

duży procent centralnie położonych ocen. Ten „duży procent” mierzony jest współczynni-

kiem ufności 1-. Najczęściej ten współczynnik przyjmowany jest na poziomie 0,95. Po

obu stronach wartości estymatora punktowego dodaje odcinki takie, aby szansa pokrycia

nieznanej wartości parametru była w sumie równa 1-. Jeżeli rozkład estymatora jest

symetryczny, to te odcinki są równe, jeżeli asymetryczny, to różne. Jeżeli przyjęliśmy 1-

=0,95, to 95% przedziałów ufności zbudowanych według wyprowadzonych wzorów

pokrywa nieznaną wartość parametru. Jeżeli zbudujemy jeden przedział ufności, to nasze

„zaufanie” do prawdziwości jego wskazań wynosi 95%. Zwracamy uwagę na to, że

przedziały ufności budowane są w oparciu o rozkład estymatora (lub jego funkcji), a nie

w oparciu o rozkład badanej cechy.

Page 11: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

35

Przykład 1 (część 3)

Przedziały ufności znajdują się w części Statystyki opisowe. Możemy wyznaczyć przedział

ufności dla wartości przeciętnej oraz przedział ufności dla odchylenia standardowego.

Zmienność wszystkich cech jest duża. Tylko w przypadku dochodu brutto odchylenie stan-

dardowe w próbie jest mniejsze od średniej arytmetycznej. Mimo relatywnie dużej próby

(n=410) przedziały ufności są dość szerokie. Zmniejszyć je można poprzez zwiększenie

próby lub zmniejszenie współczynnika ufności (jednak nie niżej niż do 0,90).

Weryfikacja hipotez statystycznych

Zacznijmy od definicji hipotezy statystycznej.

Hipotezą statystyczną nazywamy każdy sąd o zbiorowości generalnej wypowiedziany bez

pełnej znajomości tej zbiorowości.

Sąd taki może być sformułowany na podstawie teorii badanego zjawiska, na podstawie

informacji zawartych w próbie, ale też na podstawie intuicji lub nawet w ogóle ad hoc.

Ponieważ do opisu kształtowania się (rozkładu wartości) cech w zbiorowości generalnej

używamy jednowymiarowych lub wielowymiarowych zmiennych losowych, zatem hipote-

zy statystyczne mogą być zapisane w postaci sądów dotyczących tych zmiennych loso-

wych - a konkretnie ich rozkładów lub ich parametrów. Często hipotezy dotyczące

parametrów określa się mianem hipotez parametrycznych, natomiast pozostałe - mianem

hipotez nieparametrycznych.

Zwróćmy uwagę, że niesłuszne byłoby poszukiwanie prawdopodobieństwa prawdziwości

testowanej hipotezy. Nasz konkretny sąd o zbiorowości generalnej jest albo prawdziwy,

albo fałszywy i nie jest to zdarzenie losowe. My tylko nie wiemy, jaka jest rzeczywistość.

Ze zdarzeniem losowym mamy do czynienia w procesie podejmowania decyzji o prawdzi-

wości hipotezy, a nie w fakcie jej prawdziwości czy nieprawdziwości. Przy weryfikacji

hipotezy chcielibyśmy podjąć decyzję o przyjęciu weryfikowanej hipotezy (co jest równo-

znaczne z uznaniem tego sądu za sąd prawdziwy) lub o odrzuceniu weryfikowanej hipo-

tezy (co jest równoznaczne z uznaniem tej hipotezy za nieprawdziwą). Przy weryfikacji

hipotezy możliwe są cztery sytuacje, które przedstawione są w poniższej tabeli.

Page 12: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

36

Słuszność decyzji podejmowanych w procesie weryfikacji hipotezy.

DECYZJA

Przyjąć Odrzucić

HIPOTEZA Prawdziwa Decyzja słuszna Błąd I rodzaju

Fałszywa Błąd II rodzaju Decyzja słuszna

Jest oczywiste, że decyzję prawidłową podejmujemy wówczas, gdy przyjmujemy hipotezę,

która jest prawdziwa, lub gdy odrzucamy hipotezę fałszywą. Dwie pozostałe decyzje są

błędne, przy czym są to błędy o różnym charakterze. W statystyce przyjęto nazywać odrzu-

cenie hipotezy prawdziwej błędem pierwszego rodzaju. Przyjęcie hipotezy fałszywej to

błąd drugiego rodzaju.

Przykładem barwnie i dobitnie ilustrującym różnicę pomiędzy błędem I rodzaju a błędem

II rodzaju jest kontrola jakości przy produkcji spadochronów. Hipotezą jest tu twierdzenie,

że „badany spadochron jest sprawny”. Czym innym jest odrzucenie hipotezy prawdziwej,

a więc uznanie dobrego spadochronu za niewłaściwy (błąd I rodzaju), a zdecydowanie

czym innym uznanie wadliwego spadochronu za dobry, czyli przyjęcie hipotezy fałszywej

(błąd II rodzaju).

Procedury, które mają nas doprowadzić do podjęcia decyzji o uznaniu danej hipotezy za

prawdziwą lub fałszywą, nazywane są testami statystycznymi. Naszą decyzję mamy podjąć

na podstawie informacji zawartej w próbie losowej, dlatego w procesie wnioskowania wys-

tępuje czynnik losowy i możemy mówić o prawdopodobieństwie podjęcia błędnej decyzji.

Test statystyczny to procedura, która powinna doprowadzić do przyjęcia lub odrzucenia

badanej hipotezy z małym ryzykiem popełnienia błędu.

Ponieważ wyróżniliśmy dwa rodzaje błędów, więc prawdopodobieństwo ich popełnienia

również musi być wyrażane oddzielnie.

Prawdopodobieństwo popełnienia błędu pierwszego rodzaju, polegającego na odrzuceniu

hipotezy prawdziwej, jest nazywane poziomem istotności i oznaczane jako (alfa).

Prawdopodobieństwo popełnienia błędu II rodzaju oznaczane jest przez (beta). W prak-

tyce statystycznej stosuje się procedury, w których kontrolowane jest tylko prawdopodo-

bieństwo popełnienia błędu I rodzaju. Wracając do schematu przedstawionego w tabeli,

decyzja jest ograniczona do odrzucenia lub nieodrzucenia testowanej hipotezy. Nie ma

możliwości rozsądnego i uprawnionego przyjmowania tej hipotezy, dopóki nie jesteśmy

w stanie ocenić prawdopodobieństwa błędu II rodzaju (czyli prawdopodobieństwa

przyjęcia hipotezy fałszywej).

Test istotności to taki rodzaj testu statystycznego, który pozwala na odrzucenie weryfiko-

wanej hipotezy z małym ryzykiem popełnienia błędu I rodzaju. Ryzyko to jest mierzone

poziomem istotności .

Najczęściej przyjmowanym poziomem istotności jest =0,05. Niekiedy rozważa się rów-

nież istotność na poziomach 0,10, 0,01, czy nawet 0,001. Należy podkreślić, że wielkość

Page 13: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

37

nie wynika z żadnych obliczeń. Jest (najczęściej z góry) przyjmowana przez badacza, bez

jakiegokolwiek związku z liczbami zawartymi w próbie. Poziom istotności jest probabilis-

tyczną charakterystyką nietrafności procesu odrzucania weryfikowanej hipotezy. Popu-

larność =0,05 wynika ze swego rodzaju „zgody powszechnej”. Poziom ten został pow-

szechnie zaakceptowany nie tylko w naukach medycznych, ale również w ekonomii, psy-

chologii, socjologii, rolnictwie itp., wszędzie tam, gdzie na podstawie próby wnioskujemy

o zbiorowości generalnej. Decydując się na mniejszą wartość poziomu istotności (np.

0,01), mamy oczywiście mniejszą szansę odrzucenia hipotezy prawdziwej, ale z drugiej

strony „trudniej” jest odrzucić hipotezę nieprawdziwą. „Trudniej” oznacza, że różnica musi

być większa, aby zostać uznana za istotną (nieprzypadkową), lub liczebność próby musi

być większa.

Skuteczność wykrywania nieprawdziwości weryfikowanej hipotezy mierzona jest tzw.

mocą testu. W tabeli zauważamy, że jeżeli przy założeniu fałszywości weryfikowanej

hipotezy (patrz ostatni wiersz tabeli) oznaczamy prawdopodobieństwo przyjęcia takiej

hipotezy przez , to drugiej możliwej decyzji, czyli odrzuceniu hipotezy, musi być przypo-

rządkowana „reszta” prawdopodobieństwa, czyli 1-. To jest właśnie moc testu, czyli

prawdopodobieństwo odrzucenia hipotezy fałszywej. Prawdopodobieństwo to zależy

w praktyce od tego, jak „odległy” od rzeczywistości jest nasz sąd o zbiorowości generalnej

oraz od liczebności próby, na podstawie której podejmujemy decyzję w procesie testo-

wania. Im rzeczywistość bardziej odbiega od naszej hipotezy, tym łatwiej taką różnicę

wykryć. Podobnie „działa” liczebność próby. Przy wykorzystaniu próby o dużej liczeb-

ności łatwiej (czyli z większym prawdopodobieństwem) można wykryć nawet małe różnice

pomiędzy stanem (parametru lub rozkładu) określonym w hipotezie a tym, jak jest

naprawdę w populacji.

Do testowania każdego typu hipotezy mamy zazwyczaj do dyspozycji wiele testów. Przy

założeniu zadanej liczebności próby i określonej „odległości” hipotezy od rzeczywistości

ten test jest „lepszy”, który charakteryzuje się lepszą mocą. Prawdopodobieństwa 1- obli-

cza się w sposób analityczny lub szacuje poprzez badania symulacyjne, wykorzystujące

generatory liczb losowych.

Schemat budowy testu istotności

Jak już napisaliśmy w poprzednim punkcie, test istotności to procedura, która umożliwia

odrzucenie weryfikowanej hipotezy z małym ryzykiem popełnienia błędu pierwszego

rodzaju. Procedura ta zawsze zawiera określone elementy. Każdy test istotności zbudo-

wany jest według następującego schematu:

Cel i założenia testu

Wybór właściwego testu jest podstawowym wymogiem właściwego przebiegu procesu

weryfikacji hipotezy. Wiele testów już w swej nazwie ma jasno oznaczony cel i przezna-

czenie. Przykładem może tu być test dla wartości przeciętnej. Niektóre nazwy są nieścisłe,

jak choćby test Studenta, gdyż rozkład Studenta jest wykorzystywany w weryfikacji

Page 14: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

38

hipotez dotyczących tak różnych parametrów, jak wartość przeciętna, współczynnik

korelacji liniowej czy współczynnik regresji cząstkowej.

Niesłychanie ważnym elementem testu są założenia. Najczęściej założenia takie dotyczą

sposobu pobieraniu próby (wymóg posiadania tzw. próby prostej), skali pomiaru zmiennej,

niezależności elementów próby, a przede wszystkim rozkładu prawdopodobieństwa.

Jeżeli test wymaga przyjęcia założenia o typie rozkładu, to taki test nazywa się testem

parametrycznym. Test niewymagający takiego założenia to test nieparametryczny.

Zwracamy uwagę, że nazwa parametryczny lub nieparametryczny nie ma związku z tym,

czy testujemy hipotezę o parametrze czy też inną. Na przykład hipotezę o równości dwóch

wartości przeciętnych możemy weryfikować przy pomocy parametrycznego testu dla

dwóch wartości przeciętnych (przy założeniu normalności rozkładu) lub przy pomocy

nieparametrycznego testu Manna-Whitney’a (bez konieczności zakładania normalności

rozkładu). Trzeba pamiętać, że testy parametryczne mają wyższą moc niż alternatywne

wobec nich odpowiednie testy nieparametryczne.

Przy podejrzewaniu nieprawdziwości założenia co do typu rozkładu zalecane jest oczywiś-

cie zastosowanie odpowiedniego testu zgodności sprawdzającego zgodność próby z zakła-

danym rozkładem. Jeżeli taka zgodność zostanie obalona, wówczas zastosowanie testu

nieparametrycznego nie jest jedyną możliwością. Przy pewnych warunkach odstępstwo

rozkładu od założonej postaci niekoniecznie istotnie „psuje” zachowanie się testu. Taka

nieczułość testu na odstępstwa od założeń określana jest mianem odporności. Jest to

oczywiście własność pożądana.

Hipotezy

Podstawowa hipoteza umożliwiająca budowę i funkcjonowanie testu to tak zwana hipoteza

zerowa, oznaczana przez H0. Określony sąd o zbiorowości generalnej ma tu charakter

stwierdzenia precyzującego wartość parametru, równość parametrów, przynależność, typ

rozkładu, niezależność itp. Sąd ten jest zapisywany najczęściej w postaci wzoru zawie-

rającego znak równości. Hipotezą konkurencyjną wobec hipotezy zerowej jest hipoteza

alternatywna, oznaczana przez H1. Sposób zaprzeczenia hipotezie zerowej wynika z kon-

kretnego problemu merytorycznego, z zadania, które przed nami postawiono. We wzorze

określającym hipotezę alternatywną występują znaki „mniejszy”, „nie równy”, „większy”,

„nie należy” itp. Wybór konkretnej postaci zależy od badacza.

Statystyka testowa

Statystyka testowa to statystyka z próby, na podstawie której podjęta zostanie decyzja

o ewentualnym odrzuceniu hipotezy zerowej. Statystyka testowa będąca zmienną losową,

zależną od wyników obserwowanych w próbie (a mająca postać konkretnego wzoru) jest

tak skonstruowana, że znany jest jej rozkład prawdopodobieństwa w warunkach prawdzi-

wości hipotezy zerowej. Dlatego przy opisie każdego testu pod wzorem definiującym

statystykę testową powinno znajdować się następujące zdanie: „Jeżeli prawdziwa jest

hipoteza zerowa, to powyższa statystyka podlega rozkładowi.....”, gdzie w miejsce kropek

Page 15: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

39

wpisana jest konkretna nazwa rozkładu prawdopodobieństwa. Mówiąc inaczej, statystyka

testowa jest tak zbudowana, że wiemy, jaki rozkład opisuje jej wyniki (da się określić,

które wyniki są mało prawdopodobne) przy założeniu prawdziwości hipotezy zerowej.

Statystyka testowa określana jest literą zaproponowaną przez autora testu, przy czym

często litera ta pokrywa się z nazwą rozkładu, jakiemu podlega dana statystyka (np. t wska-

zuje na rozkład Studenta, F- na rozkład F Snedecora, 2 - na rozkład chi-kwadrat).

Ustalanie zbiorów krytycznych

Zbiór krytyczny to taki podzbiór możliwych wartości statystyki testowej, że „wpadnięcie”

do niego empirycznej wartości statystyki testowej jest bardzo mało prawdopodobne

w sytuacji, gdy hipoteza zerowa jest prawdziwa. To prawdopodobieństwo wynosi i jest

to właśnie ten poziom istotności, o którym wspominaliśmy w poprzednim punkcie.

Zbiór krytyczny może składać się z jednej części i wtedy jest to zbiór krytyczny jedno-

stronny lub z dwóch części - i wtedy jest to zbiór krytyczny dwustronny. Niektórzy

autorzy, oprócz nazwy zbiór krytyczny, używają zamiennie określenia obszar krytyczny.

Postać zbioru krytycznego zależy od typu wybranej hipotezy alternatywnej - czyli od spo-

sobu sformułowania alternatywy wobec hipotezy zerowej. Hipotezę zerową zawsze

testujemy wobec konkretnej hipotezy alternatywnej.

Liczby wyznaczające zbiór krytyczny na osi wartości statystyki testowej to wartości

krytyczne. Znajdujemy je w tablicach rozkładów właściwych dla poszczególnych statys-

tyk. Wyznaczenie zbioru krytycznego musi oczywiście być poprzedzone wybraniem

poziomu istotności (), na jakim prowadzimy rozważania.

Decyzja

Decyzję o ewentualnym odrzuceniu hipotezy podejmujemy po sprawdzeniu, czy obliczona

właśnie empiryczna wartość statystyki testowej należy do zbioru krytycznego. Wygodnie

jest narysować oś wartości statystyki testowej, oznaczyć na niej zbiór krytyczny, a następ-

nie uzyskaną wartość statystyki testowej.

Zasady i treść możliwych decyzji są następujące:

Jeżeli obliczona wartość statystyki testowej należy do zbioru krytycznego, to należy

ODRZUCIĆ HIPOTEZĘ ZEROWĄ (H0), a PRZYJĄĆ HIPOTEZĘ ALTERNATYWNĄ.

Jeżeli obliczona wartość statystyki testowej nie należy do zbioru krytycznego, to NIE MA

PODSTAW DO ODRZUCENIA HIPOTEZY ZEROWEJ.

Z całą mocą podkreślamy, że położenie empirycznej wartości statystyki testowej poza

zbiorem krytycznym nie upoważnia nas do przyjmowania hipotezy zerowej. Jak widać

z podanych powyżej reguł podejmowania decyzji, test istotności w ogóle nie przewiduje

możliwości przyjmowania hipotezy zerowej. W przypadku nieodrzucenia hipotezy zerowej

może ona być prawdziwa lub fałszywa i często używamy tu sformułowania, że „na

Page 16: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

40

podstawie wyników z próby, którą dysponujemy, nie udało się obalić twierdzenia reprezen-

towanego przez hipotezę zerową”

W opisywanym tu podejściu decyzję podejmuje się de facto przez porównanie empirycznej

wartości statystyki testowej (wartość ta pochodzi z obliczeń wykonanych w oparciu

o konkretną próbę) z wartością krytyczną (odczytaną z tablic przy danym i przyjętej

hipotezie alternatywnej).

Niezwykle wygodna jest możliwość podejmowania decyzji poprzez porównanie tzw.

prawdopodobieństwa testowego p (p value, wartość p) z poziomem istotności .

Prawdopodobieństwo testowe (wartość p) to prawdopodobieństwo uzyskania wyniku przy-

najmniej tak samo przeczącego hipotezie zerowej jak ten wynik, który właśnie otrzy-

maliśmy.

W wielu pracach wielkość p jest niewłaściwie wyjaśniana i niewłaściwie nazywana. Szcze-

gólnie nietrafne jest używanie nazw zawierających passus „poziom istotności”, na przykład

„zaobserwowany poziom istotności” albo „empiryczny poziom istotności”. Prawdziwy

poziom istotności nie jest związany z żadnym konkretnym doświadczeniem, z żadną

próbą. Natomiast p jest tak naprawdę polem pod funkcją rozkładu prawdopodobieństwa

statystyki testowej, wyliczanym dla każdej próby. Wartość informacyjna prawdopodobień-

stwa testowego jest dokładnie taka sama jak statystyki testowej. Wyższość korzystania

z prawdopodobieństwa testowego zawiera się w tym, że jeżeli jest ono wyliczane przez

program komputerowy, to jesteśmy całkowicie zwolnieni z konieczności korzystania z ta-

blic statystycznych. Posługujemy się tylko jedną regułą - bardzo prostą, uniwersalną,

jednakową dla wszystkich testów i wszystkich postaci hipotezy alternatywnej. Reguła ta

ma postać:

Jeżeli p , to należy odrzucić H0 i przyjąć H1

Jeżeli p , to nie ma podstaw do odrzucenia H0

Przykład 2

Plik Budżety prac nierob.sta zawiera wybrane wyniki z badań budżetów domowych za

2007 rok. Wybrano gospodarstwa domowe należące do grupy gospodarstw pracowniczych,

w których głowa gospodarstwa domowego pracuje na stanowisku nierobotniczym.

Uzyskana próba liczy 245 gospodarstw. Na pliku tym można dokonać bardzo wielu analiz.

Tutaj ograniczymy się do ilustracji kilku testów statystycznych. Podstawową analizowaną

zmienną będzie Dochód. Jest to tzw. miesięczny dochód rozporządzalny. Wyjściowe

informacje o tej zmiennej znajdujemy w Statystykach opisowych.

Page 17: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

41

Duża różnica pomiędzy średnią a medianą, oraz duży współczynnik skośności sugerują, że

rozkład dochodów w tej grupie nie jest rozkładem normalnym. Możemy to sprawdzić

stosując test Shapiro-Wilka na normalność rozkładu. Przy okazji zbudujemy histogram

dochodów. W Statystykach podstawowych i Tabelach liczności określamy zasady budowy

szeregu rozdzielczego i histogramu (analogicznie jak to było pokazane w Przykładzie 1).

Histogram: Dochód: miesięczny dochód rozporządzalny gospodarstwa domowe

Oczekiwana normalna

10001500

20002500

30003500

40004500

50005500

60006500

70007500

80008500

90009500

1000010500

1100011500

1200012500

X < Granica klasy

0

5

10

15

20

25

30

35

40

45

50

55

Lic

zb

a o

bs.

Widać wyraźnie, że funkcja gęstości rozkładu normalnego nie pasuje do rozkładu empi-

rycznego. Test Shapiro-Wilka znajdujemy na przykład w Tabelach liczności na karcie

Normalność.

Page 18: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

42

Wartość p jest oczywiście mniejsza od poziomu istotności 0,05, co oznacza, że należy

odrzucić hipotezę o normalności rozkładu dochodów. Jest to zgodne z ustaleniami teore-

tycznymi dotyczącymi rozkładu dochodów. Histogram analizowanego rozkładu może

sugerować, że rozkładem właściwym jest rozkład logarytmiczno-normalny. Niestety nawet

dwukrotne logarytmowanie tej zmiennej nie doprowadza rozkładu empirycznego do

normalności. W związku z tym decydujemy się na zastosowanie transformacji Boxa-Coxa.

W STATISTICA to przekształcenie jest dostępne w menu Dane.

Przekształcenie Boxa-Coxa, a właściwie cała rodzina przekształceń służy do takiego trans-

formowania zmiennych, by ich rozkład po przekształceniu był tak bliski normalnemu, jak

to tylko jest możliwe. Wzór przekształcenia Boxa-Coxa ma następującą postać:

gdzie x* jest zmienną przekształconą, λ oznacza główny parametr przekształcenia, a jest

parametrem przesunięcia zmiennej.

Tak więc celem przekształcenia Boxa-Coxa jest zamiana oryginalnej zmiennej X, za pomo-

cą jednoznacznego wzoru, na nową zmienną X*, która będzie miała rozkład możliwie

bliski normalnemu. By zastosować przekształcenia Boxa-Coxa, musimy znać wartość

parametru λ. Musi to być taka wartość, która zapewni nowej zmiennej rozkład możliwie

bliski normalnemu. Do zagadnienia poszukiwania odpowiedniego λ podejść można na

kilka sposobów. STATISTICA używa podejścia określanego jako maksymalizacja wiary-

godności, w którym tworzy się funkcję wiarygodności, a właściwie ujemny logarytm tej

funkcji:

Page 19: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

43

gdzie S*2

oznacza odchylenie standardowe zmiennej po przekształceniu. Tak więc

poszukuje się takiej wartości parametru λ, która minimalizuje E.

Znalezienie wymaga zastosowania procedury iteracyjnej. STATISTICA w przekształce-

niu Boxa-Coxa stosuje metodę poszukiwania Goldena. W algorytmie tym zaczyna się od

najmniejszej wartości lambda, stosuje się przekształcenie Boxa-Coxa przy tej wartości

parametru i oblicza się wspomniane wyżej E. Proces ten powtarzany jest aż do osiągnięcia

największego założonego lambda, a wynikiem algorytmu jest , dla której E osiągnęło

najmniejszą wartość.

W naszym przykładzie do przekształcenia wybieramy zmienną Dochód. Otrzymujemy

następujące okno z opcjami.

Najpierw musimy do naszego arkusza dodać nową zmienną (klawisz Dodaj zmienne),

a następnie zapisać w niej wartości zmiennej przekształconej (klawisz Zapisz do arkusza

wejściowego).

Do arkusza została dodana nowa zmienna, do której wpisano wyniki przekształcenia Boxa-

Coxa. Warto wprowadzić nową nazwę tej zmiennej – tu jako B-C Dochód. Program znalazł

optymalną wartość λ=-0,357091. Parametr przesunięcia był równy zeru, gdyż zmienna

oryginalna zawiera same dodatnie wartości. Skuteczność przekształcenia ilustruje poniższy

Page 20: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

44

wykres zmiennej przekształconej. Do testowania normalności zastosowano tym razem test

zgodności chi-kwadrat.

Zmienna: B-C Dochód, Rozkład: Normalny

Test chi-kwadrat = 4,32816, df = 8 (dopasow.) , p = 0,82637

2,57 2,58 2,59 2,60 2,61 2,62 2,63 2,64 2,65 2,66 2,67 2,68 2,69 2,70 2,71 2,72

Kategoria (górna granica)

0

5

10

15

20

25

30

35

40

45L

iczb

a o

bserw

acji

Pierwsza hipoteza, którą zweryfikujemy, dotyczy porównania dwóch grup. Sprawdzimy,

czy średnie dochody w gospodarstwach, których głową jest mężczyzna, są istotnie różne od

średnich dochodów w gospodarstwach, których głową jest kobieta. Przypomnijmy, że

w badaniach budżetów domowych za głowę gospodarstwa uważa się tę osobę, która zara-

bia najwięcej. Hipoteza zerowa ma postać K=M, wobec hipotezy alternatywnej KM.

Test dla dwóch średnich formalnie wymaga spełnienia założenia normalności rozkładu

w grupach. Z drugiej strony stwierdzono, że test jest odporny na niespełnienie założenia

normalności, już wtedy, gdy liczebność próby przekracza 50. Drugie klasyczne założenie –

o równości wariancji – można ominąć, wybierając wersję testu przewidującą oddzielną

estymację wariancji w grupach. Do testowania weźmiemy zarówno zmienną oryginalną

Dochód, jak i zmienną przekształconą B-C Dochód. Test dla dwóch średnich znajduje się

w menu Statystyki podstawowe i tabele.

Page 21: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

45

Wybieramy Test t dla prób niezależnych (wzgl. grup). Definiujemy zmienne, a na karcie

Opcje wybieramy Test z niezal. estymacją wariancji. Otrzymujemy następujące wyniki.

Wartość p dwustron jest dla obydwu zmiennych większa od poziomu istotności 0,05. Nie

ma więc podstaw do odrzucenia hipotezy zerowej o równości przeciętnych dochodów

w dwóch grupach wyodrębnionych według płci głowy gospodarstwa domowego. Nieco

ponad 300 zł przewagi średniej dla mężczyzn okazało się niewystarczające dla uzyskania

istotności statystycznej. Niewątpliwie zaważyło tu duże zróżnicowanie dochodów w obu

grupach, też podobne co do poziomu, co zostało potwierdzone testem dla dwóch wariancji.

Kolejne zagadnienie, które zilustrujemy, to porównywanie wielu grup pod względem cechy

mierzalnej. Właściwym testem jest tu jednoczynnikowa analiza wariancji (ANOVA). Hipo-

teza zerowa w tym teście głosi, że wartości przeciętne we wszystkich grupach są takie

same, wobec hipotezy alternatywnej, że jest przynajmniej jedna para takich wartości prze-

ciętnych, które są różne. W teście zakłada się, że zmienna podlega rozkładowi normalnemu

w każdej grupie, a wariancje w grupach są równe. Sprawdzimy, czy dochód jest powiązany

z wykształceniem głowy gospodarstwa. Posłużymy się zmienną przekształconą B-C Do-

chód. Ze Statystyk opisowych wybieramy Przekroje i prostą ANOVA. Zmienna zależna to

B-C Dochód, a zmienna grupująca to Wykształcenie. Na karcie ANOVA mamy przyciski,

które umożliwiają weryfikację założeń testu oraz zastosowanie analizy wariancji.

Page 22: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

46

Założenie o równości wielu wariancji sprawdzimy Testem Browna-Forsythe’a. Jest on

zdecydowanie bardziej odporny niż test Levene’a.

Duża wartość p nie pozwala na odrzucenie hipotezy o równości wariancji w grupach. Do

sprawdzenia normalności wykorzystamy Skateg. wykres normalności. Punkty na

wszystkich wykresach układają się dość dobrze wokół prostych wyznaczonych przez

kwantyle teoretyczne, co przemawia za normalnością rozkładów w grupach.

Wykres prawdopodobB-C Dochód

Wykształcenie: wyższe

2,562,58

2,602,62

2,642,66

2,682,70

2,72-3

-2

-1

0

1

2

3

Ocze

kiw

an

a n

orm

aln

a

Wykształcenie: policealne

2,562,58

2,602,62

2,642,66

2,682,70

2,72

Wykształcenie: średnie zawodowe

2,562,58

2,602,62

2,642,66

2,682,70

2,72

Wykształcenie: średnie ogólnokształcące

2,562,58

2,602,62

2,642,66

2,682,70

2,72-3

-2

-1

0

1

2

3

Ocze

kiw

an

a n

orm

aln

a

Wykształcenie: zasadnicze zawodowe

2,562,58

2,602,62

2,642,66

2,682,70

2,72

Teraz możemy bez zastrzeżeń zastosować test ANOVA.

Page 23: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

47

Wartość p równa 0,000000 wskazuje na konieczność odrzucenia hipotezy zerowej

o równości przeciętnych dochodów w grupach wyznaczonych przez wykształcenie głowy

gospodarstwa domowego. Na karcie Statystyki opisowe znajdujemy przycisk, który służy

do utworzenia skategoryzowanego wykresu ramkowego. Dalej możemy badać różnice

międzygrupowe poprzez zastosowanie tzw. testów post-hoc. Niestety ich wyniki bywają na

ogół niejednoznaczne. Trudno jest też wskazać test z tej grupy, który ma własności

teoretyczne zdecydowanie lepsze niż inne testy. Na wykresie ramka-wąsy można dopatrzeć

się czterech poziomów dochodu. W zakresie wykształcenia średniego zdecydowanie nie

ma znaczenia, czy jest to wykształcenie zawodowe czy ogólnokształcące.

Spostrzeżenie to potwierdza tabela ze średnimi w grupach wyliczona dla zmiennej orygi-

nalnej – Dochód.

Skategor. wykres ramka-wąsy: B-C Dochód

wyższepolicealne

średnie zawodoweśrednie ogólnokształcące

zasadnicze zawodowe

Wykształcenie

2,615

2,620

2,625

2,630

2,635

2,640

2,645

2,650

2,655

2,660

2,665

B-C

Do

ch

ód

Alternatywnym postępowaniem dla stosowania przekształcenia Boxa-Coxa i stosowania

parametrycznej ANOVA jest wykorzystanie testu Kruskala-Wallisa, który jest niepara-

metryczną wersją analizy wariancji. Znajdujemy go w menu Statystyki nieparametryczne,

wybierając Porównanie wielu prób niezależnych (grup). Łatwo znajdujemy tam ANOVA

Kruskala-Wallisa. Wynik potwierdza zależność średnich dochodów od wykształcenia

głowy gospodarstwa domowego.

Page 24: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

48

W testowaniu związku dwóch cech mierzonych w skali nominalnej powszechnie wyko-

rzystywany jest test niezależności chi-kwadrat. Zbadamy, czy w poszczególnych regionach

naszego kraju procent gospodarstw domowych naszej grupy (pracownicze na stanowiskach

nierobotniczych), w których głową jest kobieta, jest podobny. Z menu Statystyki

podstawowe i tabele wybieramy Tabele wielodzielcze. Na karcie Opcje zaznaczamy test

chi-kwadrat oraz Procenty w wierszach.

Teraz przechodzimy na kartę Więcej i przyciskamy Dokładne tabele dwudzielcze.

Page 25: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

49

Wartość p jest większa od 0,05, zatem nie ma podstaw do odrzucenia hipotezy o braku

związku struktury płciowej głowy gospodarstwa domowego z regionem kraju.

Na zakończenie tego przykładu sprawdzimy hipotezę o tym, że procent wydatków na

żywność maleje wraz ze wzrostem poziomu dochodów. Najpierw utworzymy nową

zmienną, która określa, jaki procent wydatków stanowią wydatki na żywność.

Teraz narysujemy diagram korelacyjny oraz policzymy współczynnik korelacji liniowej

pomiędzy dochodami a procentem wydatków kierowanych na żywność. Z menu Wykresy

wybieramy Wykres rozrzutu.

Page 26: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

50

Na karcie Więcej zaznaczamy Wsp. korel. Otrzymujemy następujący rysunek.

Wykres rozrzutu Wyd żywność % względem Dochód

Budżety prac nierob 17v*245c

Wyd żywność % = 35,7903-0,0024*x

0 2000 4000 6000 8000 10000 12000 14000

Dochód

0

10

20

30

40

50

60

70W

yd ż

yw

ność %

Dochód:Wyd żywność %: r = -0,4166; p = 0.0000

Współczynnik korelacji liniowej wyniósł -0,4166. Jest on istotny statystycznie. Oznacza to,

że pomiędzy poziomem dochodów a procentem wydatków przeznaczanym na żywność

zachodzi korelacja ujemna o umiarkowanej sile. Wraz ze wzrostem dochodów maleje

średni procent wydatków na żywność. Z otrzymanego równania regresji wynika, że każdy

tysiąc złotych przyrostu dochodów powoduje spadek procentu wydatków na żywność

średnio o 2,4 punktu procentowego. Na wykresie warto jeszcze zauważyć malejącą warian-

cję wydatków na żywność, wraz ze wzrostem dochodów.

Przykład 3

Przykład ten dotyczy wnioskowania statystycznego w analizie przeżyć, powszechnie

stosowanej w statystyce medycznej. Charakterystyczną cechą danych określających czas

trwania zjawisk jest występowanie informacji uciętych (cenzurowanych). Jeżeli przykła-

dowo nastąpił zgon pacjenta, to informacja o jego czasie przeżycia jest informacją

kompletną. Jeżeli w pewnym momencie kontaktu z pacjentem stwierdzamy, że żyje

(przyszedł na kontrolę), to wiemy, że dożył do momentu, w którym mamy o nim infor-

mację. To jest obserwacja ucięta. Wiemy, że jego czas przeżycia będzie nie krótszy niż

aktualnie obliczony. Ten specyficzny charakter danych powoduje, że do ich analizy

wypracowano specjalne metody.

Przykład niniejszy dotyczy raka Pageta (łac. carcinoma Pageti). Jest to rzadki typ

przewodowego raka sutka, w którym komórki rakowe naciekają naskórek brodawki sutka,

a niekiedy również otoczkę brodawki. Zmianom brodawki towarzyszy często śródprzewo-

dowy lub śródprzewodowy i inwazyjny rak przewodowy sutka. Rak Pageta stanowi 1-4%

wszystkich raków sutka i został opisany po raz pierwszy przez Jamesa Pageta w 1874 roku.

Page 27: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

51

Do oszacowania krzywej przeżyć zastosujemy estymator Kaplana-Meiera. Wykorzystuje

on oczywiste spostrzeżenie, że aby przeżyć na przykład 5 miesięcy, należy przeżyć naj-

pierw pierwszy miesiąc, następnie drugi, potem, trzeci, czwarty i wreszcie piąty. Poszu-

kiwaną ocenę prawdopodobieństwa przeżycia pięciu miesięcy znajdujemy, mnożąc kolejne

prawdopodobieństwa warunkowe według wzoru:

P(przeżycia pięciu miesięcy) = P(przeżycia pierwszego miesiąca) * P(przeżycia drugiego

miesiąca pod warunkiem, że przeżyło się pierwszy miesiąc) *

P(przeżycia trzeciego miesiąca pod warunkiem, że przeżyło

się dwa pierwsze) * ... * P(przeżycia piątego miesiąca pod

warunkiem, że przeżyło się cztery poprzednie)

Prawdopodobieństwa składające się na powyższy iloczyn szacuje się osobno i dzięki temu

możemy wykorzystać obserwacje ucięte. Można powiedzieć, że wykorzystujemy maksi-

mum informacji od każdego pacjenta bez względu na to, czy jego przeżycie jest obserwacją

kompletną czy uciętą oraz bez względu na długość przeżycia.

Omawiany estymator funkcji przeżycia po raz pierwszy został zaproponowany przez E.L.

Kaplana i P. Meiera w 1958 roku (choć pierwszą ideę tego pomysłu można znaleźć w pra-

cy P.E. Böhmera z 1912 roku). Estymator jest wyrażony wzorem:

,

gdzie Π jest symbolem iloczynu, rj – liczbą narażonych w okresie tj, a dj – liczbą „zdarzeń”

(zgonów) w tym okresie.

Wariancja tego estymatora jest określona przez wzór Greenwooda (1926):

Dla dużych prób rozkład estymatora Kaplana-Meiera zmierza do rozkładu normalnego, co

pozwala na wyznaczenie przedziału ufności, według wzoru:

.

Estymator Kaplana-Meiera inaczej nazywany jest granicznym estymatorem iloczynowym

(Product Limit Estimator, w skrócie PL), ponieważ szukana ocena prawdopodobieństwa

przeżycia jest iloczynem prawdopodobieństw warunkowych przeżycia kolejnych okresów

czasu.

W programie STATISTICA krzywe przeżycia metodą Kaplana-Meiera wyznaczamy w mo-

dule Zaawansowane modele liniowe i nieliniowe, w części Metoda Kaplana-Meiera.

Sposób posługiwania się programem pokażemy na przykładzie wyznaczania przeżycia

całkowitego. W pliku danych zdefiniowane są zmienne Przeżycie całkowite (czas przeży-

cia) oraz EndCal (zmienna wskaźnikowa określająca, czy dana obserwacja jest obserwacją

kompletną czy uciętą). Informacje te podajemy w oknie Analiza Kaplana-Meiera.

Page 28: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

52

Do oszacowania krzywej przeżyć metodą Kaplana-Meiera należy określić zmienną (lub

zmienne „daty”) określającą czas przeżycia, zmienną wskaźnikową oraz sposób kodowania

w niej obserwacji pełnych i uciętych. Potem naciskamy klawisz OK. Otrzymujemy

Najważniejsze wyniki zawarte są w zakładce Podstawowe.

Pod klawiszem Podsumowanie: Analiza Kaplana-Meiera otrzymujemy tabelę ze współ-

rzędnymi opisującymi krzywą przeżyć. Z tabeli tej można ocenić przeżycia w dowolnym

momencie okresu obserwacji. Drugi klawisz wywołuje jeden z podstawowych rysunków

wykorzystywanych w analizie przeżyć. Jest to krzywa przeżyć, która podaje prawdopodo-

bieństwo zgonu (lub innego zdarzenia) w poszczególnych jednostkach czasu. Powszechnie

używane określenie „krzywa” jest tu niezbyt precyzyjne. Krzywą jest funkcja przeżyć dla

populacji, natomiast ocena uzyskana metodą Kaplana-Meiera jest funkcją schodkową.

„Schodki” występują w momentach czasu, w których nastąpił przynajmniej jeden zgon.

Funkcja nie zmienia swego przebiegu, jeżeli jakiś pacjent jest w danym momencie czasu

„stracony z obserwacji”. Rysunek surowy, jaki proponuje program, wymaga zazwyczaj

dalszej obróbki dla uzyskania ilustracji możliwej do zaakceptowania przez wydawnictwo.

Ostateczny efekt może być taki, jak na rysunku przedstawionym poniżej.

Pod klawiszem Percentyle funkcji przeżycia można uzyskać wartości mediany przeżyć oraz

wartości dolnego i górnego kwartyla przeżyć. Te wszystkie wartości można tez odczytać

bezpośrednio z tablicy podającej pełne współrzędne funkcji przeżycia. Trzeba pamiętać, że

przy dobrej przeżywalności możemy mieć do czynienia z sytuacją, w której oszacowanie

mediany przeżyć jest niemożliwe. Dzieje się tak wtedy, gdy w okresie objętym obserwacja

Page 29: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

53

zmarło mniej niż 50% pacjentów. Można wtedy stwierdzić jedynie, że „mediana przeżyć

jest większa od ...”.

Przeżycia całkowite

0 12 24 36 48 60

miesiące

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

Pra

wdo

pod

obie

ństw

o p

rze

życia

Wartości funkcji przeżycia uzyskamy, naciskając klawisz Podsumowanie: Analiza

Kaplana-Meiera.

Page 30: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

54

Wartości funkcji przeżycia odczytujemy w kolumnie Skumul. Przeżyc. Jeżeli dla danego

momentu czasowego nie ma informacji, to przeżycie odczytujemy z wartości powyżej.

Przykładowo przeżycie 12-miesięczne wynosi w naszym przykładzie 0,925. Zazwyczaj

podaje się je nie jako prawdopodobieństwo, tylko w procentach – tutaj jako 92,5%.

Przeżycia dla kolejnych lat można przedstawić w następującej tabeli.

Lata 1 2 3 4 5

Przeżycie 92,5 89,6 77,3 68,0 68,0

Przeżycia można porównywać w dwóch lub więcej próbach. Zasadniczo - ponieważ czasy

przeżycia nie podlegają rozkładowi normalnemu - powinno się stosować testy nieparamet-

ryczne, które są oparte na porządku rangowym czasów przeżycia. Analiza przeżycia

zawiera pięć różnych (najczęściej nieparametrycznych) testów dla danych uciętych:

Gehana uogólnienie testu Wilcoxona, test Coxa-Mantela, test F Coxa, test log-rank oraz

Peto i Peto testu Wilcoxona. Dostępny jest także test nieparametryczny dla porównania

wielu grup. Większości tych testów towarzyszą odpowiednie wartości statystyk podle-

gających rozkładowi normalnemu standaryzowanemu. Wartości z można wykorzystać do

testowania istotności statystycznej wszelkich różnic między grupami. Pamiętajmy, że

większość tych testów daje rzetelne wyniki tylko przy odpowiednio dużych próbach;

„zachowanie” się testów przy małych próbach nie zostało dokładnie zbadane.

Metoda Kaplana-Meiera służy do szacowania pojedynczej krzywej przeżycia. W tej części

prezentujemy testy wykorzystywane do porównywania krzywych oszacowanych metodą

Kaplana-Meiera. Te krzywe przeżyć dotyczą podgrup pacjentów. Podgrupy te zdefiniowa-

ne są jakąś cechą jakościową. Do analizy potrzebna jest więc taka grupująca zmienna

jakościowa. W programie STATISTICA mamy osobną część, która pozwala na porównanie

dwóch grup (na przykład porównanie kobiet z mężczyznami, czy porównanie pacjentów,

u których zadany parametr jest w normie, z tymi, którzy są poza normą), oraz następną,

która umożliwia porównanie więcej niż dwóch grup (część ta może też być wykorzys-

tywana do porównywania tylko dwóch grup).

Po wybraniu Porównania dwóch prób pojawia się okno Porównanie przeżycia w dwóch

grupach (program podaje tu też nazwę pliku), z którego należy przejść do określenia

zmiennych potrzebnych do wykonania analizy. W naszym przykładzie o raku Pageta

porównamy grupę, u której występuje rak naciekający, z grupą raka nienaciekającego. Ten

podział zdefiniowany jest w zmiennej v7.

Page 31: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

55

Po wyborze zmiennych nasze „ustawienia” pojawiają się w oknie porównań.

Po naciśnięciu klawisza OK i przejściu na kartę Testy dla dwóch prób otrzymujemy

następujące okno.

Page 32: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

56

Najpopularniejszym testem jest niewątpliwie test log-rank. Przedstawimy go bliżej. Test

log-rank, inaczej zwany też testem Mantela-Coxa, to nieparametryczny test statystyczny

porównujący rozkład przeżycia (funkcję przeżycia) dwóch lub więcej niezależnych prób.

Jak w przypadku estymatora Kaplana-Meiera, znowu są w mocy założenia dotyczące braku

informacji o cenzurowaniu (obserwacje mogą być prawostronnie cenzurowane).

Załóżmy na początek, że mamy dwie grupy danych o defektach (lub śmierci na skutek

zdarzenia), które łączymy i budujemy dla nich przedziały podobne do tych dla estymatora

Kaplana-Meiera. Jako i zapiszemy liczbę zdarzeń (zgonów) poszczególnych grup

w przedziale itd. Podobnie jak poprzednio to liczba przypadków

w każdej z grup, która dożyła początku przedziału , a w1i, w2i to liczba utraconych z obser-

wacji.

Jeśli momenty obserwacji określonego zjawiska nie powtarzają się, wtedy dla pojedyncze-

go przedziału . Dla każdego przedziału możemy stwo-

rzyć tabele przypadków 2x2, o następującej postaci:

Zdarzenie (zgon) Brak zdarzenia Sumy

Grupa 1 d1i r1i – d1i r1i

Grupa 2 d2i r2i – d2i r2i

Sumy di ri - di

Hipoteza zerowa dla testu zakłada brak różnic w rozkładzie przeżycia w obu grupach.

Sprawdzenie jej wymaga spojrzenia na różnice w liczbie obserwacji w każdej grupie, które

doświadczyły zdarzenia w poszczególnych przedziałach względem ich spodziewanej

liczby. Dokonujemy założenia o stałości sum marginalnych (brzegowych) we wspomnia-

nych tablicach przypadków. Pozostałe wartości poszczególnych komórek mogą zostać

ustalone, gdy znamy jedynie , którą traktujemy jako zmienną losową. Hipoteza zerowa

mówi, iż prawdopodobieństwo zdarzenia (śmierci) członka Grupy 1 w momencie jest

takie samo jak dla członka Grupy 2 i równe Stąd też prawdopodobieństwo obserwacji

zgonów w pierwszej grupie i zgonów w drugiej, przy ogólnej liczbie zgonów rów-

nej dla momentu , wynosi:

Jak widać z powyższego wzoru, daje się skrócić. Wyprowadzenie wzoru na średnią i wa-

riancję dokonuje się za pomocą funkcji tworzących i założeniu hipergeometrycznego

rozkładu tej zmiennej. Ostatecznie poszczególne wzory wyglądają następująco:

Page 33: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

57

Statystyka testowa jest porównywana przy danym poziomie istotności z rozkładem

chi-kwadrat o jednym stopniu swobody (przypadek dwóch grup) i wylicza się ją według

wzoru:

Odrzucamy hipotezę zerową, jeśli . Jeśli zechcielibyśmy wykonać test dla r-grup

(r>2) z hipotezą zerową mówiącą o braku różnic między funkcjami przeżycia w poszcze-

gólnych grupach, to statystyka testowa uproszczonego testu log-rank liczona będzie ze

wzoru:

gdzie

Tym razem statystyka ma rozkład chi-kwadrat o r-1 stopni swobody.

Wracamy do naszego przykładu. Po wybraniu Testu log-rank otrzymujemy następujące

okno wyników:

Najważniejszą informacją jest tu wartość p. Wynosi ona 0,00000, co świadczy o istotnej

różnicy w przeżyciu grupy z rakiem naciekającym w porównaniu z nienaciekającym. Właś-

ciwą ilustracją jest tu rysunek, który uzyskujemy z karty Wykresy funkcji.

Wybieramy Prawdopodobieństwo przeżycia dla grup.

Page 34: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

58

Wykres – po odpowiednich przeróbkach redakcyjnych – wygląda następująco:

Przeżycia całkowite

0 12 24 36 48 60

miesiące

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

Pra

wdopodobie

ństw

o p

rzeżycia

rak nienaciekający

rak naciekającyp=0,0000

Korzystając z opcji Edytor danych wykresu, uzyskujemy dane potrzebne do przygotowania

prostej tabelki podsumowującej przeżycia.

Lata 1 2 3 4 5

Rak nienaciekający 100,0 97,3 97,3 97,3 97,3

Rak naciekający 83,3 80,0 53,3 33,3 33,3

Test dla wielu prób zastosowany w Analizie przeżycia jest rozwinięciem (lub uogólnie-

niem) testu Gehana, testu Peto i Peto oraz testu log-rank. Najpierw przy zastosowaniu

procedury Mantela każdemu czasowi przeżycia przypisuje się punkty; następnie oblicza się

wartość statystyki chi-kwadrat w oparciu o sumy (dla każdej grupy) tych punktów. Jeśli

Page 35: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

59

mamy tylko dwie grupy, to test ten jest równoważny uogólnieniu Gehana testu Wilcoxona

i w tym wypadku obliczany będzie domyślnie ten test.

Jak zwykle przy porównywaniu przeżyć musimy określić zmienną zawierającą czas

przeżycia, zmienną wskaźnikową informującą, czy obserwacja ma charakter kompletny

czy ucięty, oraz zmienną, w której podana jest kategoryzacja chorych na grupy.

W przykładzie dotyczącym raka Pageta rozważymy zależność przeżyć od liczby węzłów

zmienionych przerzutowo. Pierwotnie ta liczba węzłów jest – jak wspomnieliśmy –

zmienną skokową, mierzalną, podającą liczbę węzłów. Dla celów tej analizy obszar

zmienności tej cechy podzielimy na trzy klasy: klasa 0 – brak zajętych węzłów, klasa 1 –

liczba zajętych węzłów do trzech, klasa 2 – ponad trzy zajęte węzły (v8>3). Ten podział na

klasy został zapisany w zmiennej v2. Podajemy numery zmiennych dotyczących przeżyć

oraz zmiennej grupującej.

Wyniki testowania otrzymujemy po naciśnięciu OK.

Wartość p=0,0000 wskazuje na różnicę wysoce istotną statystycznie. Rysunek uzyskujemy

z klawisza Prawdopodobieństwa przeżycia dla grup. Po obróbce redakcyjnej pokazuje on

wyraźne różnice w przeżyciach trzech wyróżnionych grup.

Page 36: Estymacja i testowanie hipotez - StatSoft Polska · Copyright © StatSoft Polska 2010, info@DaneWiedzaSukceS.pl 32 Potem liczy się nowe środki skupień (jako średnie arytmetyczne)

Copyright © StatSoft Polska 2010, [email protected]

60

Przeżycia całkowite

0 12 24 36 48 60 72 84 96 108 120

Czas

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

Pra

wdo

pod

ob

ieństw

o p

rze

życia 0 węzłów

1-3 węzły

ponad 3 węzły

Podsumowanie

Estymacja i weryfikacja hipotez to sedno statystyki matematycznej. Dzięki programom

takim jak STATISTICA ich stosowanie jest niezwykle proste, również dla osób, które nie

mają specjalistycznego wykształcenia z zakresu statystyki. Badacz ma przede wszystkim

zadbać o właściwe sformułowanie problemu badawczego w zgodzie z teorią i praktyką

własnej dziedziny. Metody statystyczne to narzędzia weryfikacji hipotez merytorycznych.

Oczywiście trzeba wybrać właściwy test statystyczny, zweryfikować (choćby tylko

logicznie) jego założenia, zebrać dane – a wtedy proces obliczeniowy jawi się jako czyn-

ność niezwykle prosta. Na jego końcu pojawiają się wyniki. Tu trzeba umieć je przełożyć

z języka czystej statystyki na język danej dyscypliny badawczej. W sytuacji gdy obliczenia

nie są problemem, pojawia się niebezpieczeństwo mało rozważnego stosowania metod

statystycznych. Program obliczy niemal wszystko, ale badacz musi zadbać o sens tego, co

robi, i nieustannie weryfikować dane, dobór metod i sensowność merytoryczną wyników.