24
Daugiamačio pasiskirstymo Daugiamačio pasiskirstymo tankio tankio neparametrinis įvertinimas neparametrinis įvertinimas naudojant naudojant stebėjimų klasterizavimą stebėjimų klasterizavimą Tomas Ruzgas Tomas Ruzgas Vilnius, 200 Vilnius, 200 7 7 Daktaro disertacija Fiziniai mokslai, matematika (01P) VILNIAUS GEDIMINO TECHNIKOS UNIVERSITETAS MATEMATIKOS IR INFORMATIKOS INSTITUTAS

Daugiamačio pasiskirstymo tankio neparametrinis įvertinimas naudojant stebėjimų klasterizavimą

  • Upload
    chyna

  • View
    221

  • Download
    7

Embed Size (px)

DESCRIPTION

VILNIAUS GEDIMINO TECHNIKOS UNIVERSITETAS MATEMATIKOS IR INFORMATIKOS INSTITUTAS. Daugiamačio pasiskirstymo tankio neparametrinis įvertinimas naudojant stebėjimų klasterizavimą. Tomas Ruzgas. Daktaro disertacija Fiziniai mokslai, matematika (01P). Vilnius, 200 7. Tiriamoji problema. - PowerPoint PPT Presentation

Citation preview

Page 1: Daugiamačio pasiskirstymo tankio  neparametrinis įvertinimas naudojant  stebėjimų klasterizavimą

Daugiamačio pasiskirstymo tankio Daugiamačio pasiskirstymo tankio neparametrinis įvertinimas naudojant neparametrinis įvertinimas naudojant

stebėjimų klasterizavimąstebėjimų klasterizavimą

Tomas RuzgasTomas Ruzgas

Vilnius, 200Vilnius, 20077

Daktaro disertacija

Fiziniai mokslai, matematika (01P)

VILNIAUS GEDIMINO TECHNIKOS UNIVERSITETAS

MATEMATIKOS IR INFORMATIKOS INSTITUTAS

Page 2: Daugiamačio pasiskirstymo tankio  neparametrinis įvertinimas naudojant  stebėjimų klasterizavimą

Tiriamoji problemaTiriamoji problema

Tegul X(1),…,X(n) yra stebimi nepriklausomi d-mačiai atsitiktiniai vektoriai su nežinomu pasiskirstymo tankiu f(x). Jei funkcija f(x) nėra parametrizuota, jai įvertinti taikomi neparametriniai metodai. Disertaciniame darbe pagrindinis dėmesys skiriamas neparametriniam tankio vertinimui tuo atveju, kai f(x) yra daugiamodalinis.

Page 3: Daugiamačio pasiskirstymo tankio  neparametrinis įvertinimas naudojant  stebėjimų klasterizavimą

DDarbo aktualumasarbo aktualumas

Šiuolaikinėje duomenų analizėje žinoma daug pasiskirstymo tankio neparametrinių vertinimo metodų. Ypač plačiai paplitę branduoliniai įverčiai (M. C. Jones (1989), J. Amer. Stat. Assoc.; D. W. Scott (1992), John Wiley).

Vis tik praktikoje nėra lengva parinkti efektyvią vertinimo procedūrą jei duomenys daugiamačiai, jų pasiskirstymo tankis daugiamodalinis, o imties tūris nėra didelis.

n

td th

xtXK

thnxf

1 )(

)(

)(

11)(ˆ

h

y

h

y

h

y d,...,1

Page 4: Daugiamačio pasiskirstymo tankio  neparametrinis įvertinimas naudojant  stebėjimų klasterizavimą

Optimalaus glodinimo parametro h(t) parinkimas priklauso nuo nežinomo pasiskirstymo tankio f(x) glodumo taško X(t) aplinkoje, ką nustatyti beveik neįmanoma jei imtis nėra didelė, o tankis yra daugiamatis. Jei h(t)h, tada kenčia vertinimo tikslumas, ypač daugiamodaliniu atveju.

Situacija supaprastėja, jei duomenys vienamačiai, o tankis vienamodalinis. Todėl svarstytinos tokios idėjos:vertinantvertinant tankį tankį,, taikyti duomenų projektavimą taikyti duomenų projektavimą (tuo paremta ir geromis savybėmis pasižymi J. H. Friedman pasiūlyta procedūra);pirmiausia imtį klasterizuotipirmiausia imtį klasterizuoti, t.y. ją suskaidyti į kelias tam tikra prasme homogenines dalis, suvedant daugiamodalinio tankio vertinimą į kelių vienamodalinių tankių nagrinėjimą.

Page 5: Daugiamačio pasiskirstymo tankio  neparametrinis įvertinimas naudojant  stebėjimų klasterizavimą

TTikslaikslas ir uždaviniais ir uždaviniai

Pagrindiniai darbo uždaviniai: atlikti populiarių neparametrinių tankių statistinių įverčių

tikslumo lyginamąją analizę daugiamodaliniu atveju; ištirti pirminio duomenų klasterizavimo poveikį

daugiamodalinio tankio statistinio vertinimo tikslumui; palyginti įvairių klasterizavimo procedūrų taikymo efektyvumą

pasiskirstymo tankių vertinime.

Darbo tikslas – sukurti ir ištirti daugiamačio pasiskirstymo tankio neparametrinio vertinimo algoritmus, kurie būtų efektyvūs daugiamodališkumo atveju.

Page 6: Daugiamačio pasiskirstymo tankio  neparametrinis įvertinimas naudojant  stebėjimų klasterizavimą

NaujumasNaujumas

1. Atlikta skirtingų tipų statistikų, skirtų daugiamačių tankių vertinimui, lyginamoji analizė daugiamodaliniu atveju.

2. Ištirtas neparametrinės daugiamodalinio tankio aproksimacijos Gauso mišinių modeliais tikslingumas, esant nuosaikiam imties dydžiui.

3. Pasiūlyta originali daugiamodalinio tankio statistinės analizės metodika, paremta tiriamo tankio traktavimu kaip vienamodalinių tankių mišinio ir duomenų projektavimu. Ištirtas pirminio imties klasterizavimo efektyvumas tankio vertinime.

4. Monte Karlo metodu palygintos įvairios pirminio imties klasterizavimo procedūros ir parodytas tikimybinių metodų pranašumas prieš paplitusius geometrinius, vertinant neparametrinį daugiamodalinį tankį.

Page 7: Daugiamačio pasiskirstymo tankio  neparametrinis įvertinimas naudojant  stebėjimų klasterizavimą

Ginamieji teiginiaiGinamieji teiginiai

1. Atliekant populiarių neparametrinių tankio įverčių tikslumo lyginamąją analizę daugiamodališkumo atveju, parodyta, kad įvertinimo rezultatai ženkliai pagerėja, jei stebiniai pirmiausiai klasterizuojami.

2. Parodyta, kad imties skaidymas į klasterius, taikant Gauso skirstinių mišinio modelį, yra akivaizdžiai pranašesnis už populiarius geometrinius klasterizavimo metodus, o negriežtas klasterizavimas naudingesnis nei griežtas.

3. Pasiūlyta klasterių skaičiaus nustatymo taisyklė ir ištirtas jos efektyvumas.

4. Parodyta, kad daugiamodalinio neparametrinio tankio įvertinimo algoritmas, gautas apjungiant pirminę imties klasterizaciją su J. H. Friedman procedūra, naudojančia duomenų projektavimą, yra efektyvesnis nei tirti kiti populiarūs vertinimo būdai.

Page 8: Daugiamačio pasiskirstymo tankio  neparametrinis įvertinimas naudojant  stebėjimų klasterizavimą

Monte Karlo būdu buvo nagrinėti šie pasiskirstymo tankių statistinio vertinimo metodai:Silverman adaptuotas branduolinis tankio įvertinysadaptuotas branduolinis tankio įvertinys, skirtingiems stebiniams naudojantis skirtingo pločio branduolį;Hoti ir Holmström išnagrinėtas pusiau parametrinis branduolinis pusiau parametrinis branduolinis pasiskirstymo tankio įvertinyspasiskirstymo tankio įvertinys, kuris tiriamą atsitiktinį vektorių suskaido į du subvektorius ir vieno iš jų pasiskirstymo tankį įvertina branduoliniu metodu, o kito sąlyginį tankį aproksimuoja normaliniu pasiskirstymo tankiu;Kooperberg ir Stone pasiūlytas logsplaininis pasiskirstymo tankio logsplaininis pasiskirstymo tankio įvertinysįvertinys, tiriamo tankio logaritmą aproksimuojantis kubinių B-splainų suma;tiksliniu projektavimu ir projekcijų nuosekliu gausianizavimu tiksliniu projektavimu ir projekcijų nuosekliu gausianizavimu grindžiamas tankio įvertinysgrindžiamas tankio įvertinys, pasiūlytas Friedman. Apvertimo formulės taikymu paremtasApvertimo formulės taikymu paremtas pasiskirstymo tankio pasiskirstymo tankio įvertinysįvertinys, kurį pasiūlė Rudzkis.

Siekiant išvengti subjektyvumo, tankių vertinimo metodų lyginamoji analizė atlikta naudojant panašias duomenų sekas, kurias savo darbe jau buvo naudoję J. N. Hwang, S. R. Lay ir A. Lippman (1994 , Trans. on Signal Proc.).

Page 9: Daugiamačio pasiskirstymo tankio  neparametrinis įvertinimas naudojant  stebėjimų klasterizavimą

AdaptuotasAdaptuotas branduolinis branduolinis metodas metodas

,)(11

)(ˆ1

n

t tdt h

tZzK

hnzf

v – parametras parenkamas iš {0,2; 0,4; 0,6; 0,8} reikšmių minimizuojant vidutinę kvadratinę paklaidą (J. N. Hwang, S. R. Lay, A. Lippman (1994), Trans. on Signal Proc.).

v

t qtZfhh

/))((~ 4

1

)12(

4

d

ndh

)(~

f – branduolinis įvertis gautas ht pakeitus į h

n

t

tZfn

q1

))((~

log1

exp

Sakykime, turimai d-mačių stebėtų duomenų imčiai X=(X(1),…,X(n)) apibrėžiami standartizuoti duomenys Z=(Z(1),…,Z(n)). Tuomet tankio įvertinys apibrėžiamas

– geometrinis vidurkis

Page 10: Daugiamačio pasiskirstymo tankio  neparametrinis įvertinimas naudojant  stebėjimų klasterizavimą

Tikslinio projektavimo tankio įvertinysTikslinio projektavimo tankio įvertinys ((H.H. J.J. FriedmanFriedman r rekurentinėekurentinė procedūraprocedūra))

Metodo idėja paremta vienamačių projekcijų, kurių skirstiniai labiausiai skiriasi nuo Gauso, nuoseklia paieška ir jų transformavimu į Gauso dydžius.

Tegul Z yra standartizuotas atsitiktinis vektorius su pasiskirstymo tankiu f(z). 

Po kiekvieno žingsnio Z reikšmė transformuojama, Z(k)=Qk(Z).

Transformacija apibrėžiama lygybeZ(k) = Φ -1(Gk(τZ(k-1)))τ + Z(k-1) – (τZ(k-1))τ.

Čia τ = τ(k) yra pasirinkta projektavimo kryptis,gk žymi projekcijos τZ(k-1) pasiskirstymo tankį,

φ – standartinis vienamatis normalinis pasiskirstymo tankis NN(0, 1), Gk ir Φ – atitinkamos pasiskirstymo funkcijos.

Taigi, k-tojo žingsnio metu transformuojama Z(k-1) projekcija į kryptį τ, padarant jos pasiskirstymą Gauso, o projekcija į τ ortogonalų papildinį aibėje Rd paliekama nepakeista.

Page 11: Daugiamačio pasiskirstymo tankio  neparametrinis įvertinimas naudojant  stebėjimų klasterizavimą

Po M ciklų tankis f(z) aproksimuojamas funkcija

čia z(k)=Qk(z).

J. H. Friedman parodė, kad fM(z) → f(z), kai M →

Friedman tankio įvertinimo procedūra remiasi formule (1) keičiant nežinomus vienamačių projekcijų tankius gk jų projekciniais įverčiais Ležandro polinomų bazėje:

(1)

M

kk

kkM

M zk

zkgzzf

1)(

)1()(

))((

))(()()(

s

jj

n

ttjk uu

n

jyyg

0 1

)()(12

)()(ˆ

čia u = u(y) = 2 Φ(y) – 1, ut = u(yt), yt = τ(k)Z(k-1)

j - Ležandro polinomai

Projektavimo kryptys τ(k) parenkamos taip, kad tankis gk labiau skirtųsi nuo normalinio tankio φ.

Page 12: Daugiamačio pasiskirstymo tankio  neparametrinis įvertinimas naudojant  stebėjimų klasterizavimą

Taikytos imties pirminio klasterizavimo Taikytos imties pirminio klasterizavimo procedūrosprocedūros

Klasterizavus imtį, atskirai nagrinėjami komponentai fi, o

pasiskirstymo tankio f(x) vertinimui naudojama (1) lygybė.

Vienas iš būdų mėginti padidinti neparametrinių įverčių tikslumą yra daugiamodalinio tankio analizės suvedimas į vienamodalinių tankių vertinimą.Tarkime, X priklauso nuo nestebimo atsitiktinio dydžio v, priimančio reikšmes 1,…,q, kurios interpretuojamos kaip klasės, kuriai gali priklausyti stebimas objektas, numeris.Tegul fi žymi atsitiktinio vektoriaus X sąlyginį pasiskirstymo tankį

prie sąlygos v=i, pi=P{v=i}. Tada

q

iii xfpxf

1

)()( (1)

Page 13: Daugiamačio pasiskirstymo tankio  neparametrinis įvertinimas naudojant  stebėjimų klasterizavimą

Praktikoje taikomos įvairios klasterizavimo procedūros, pavyzdžiui:

1. hierarchinis jungimo (SAS/STAT 9.1 User's Guide)2. k vidurkių (SAS/STAT 9.1 User's Guide)3. k artimiausių kaimynų (SAS/STAT 9.1 User's Guide)4. taikant Gauso skirstinių mišinio modelį ir EM algoritmą (R. A. Render, H. F. Walker (1984), SIAM; R. Rudzkis, R. Radavicius (1995), Acta App. Math. )

Page 14: Daugiamačio pasiskirstymo tankio  neparametrinis įvertinimas naudojant  stebėjimų klasterizavimą

Imties klasterizavimas EM algoritmo Imties klasterizavimas EM algoritmo pagalbapagalba

),()()(1

xfxfpxfq

iii

),(

)(}|{)(

xf

xfpxXivPx ii

i

)(ˆmaxarg)(ˆ XXv ii

Tegul stebinys X priklauso vienai iš q skirtingų klasių, v žymi tos klasės numerį, fi(x) yra sąlyginis pasiskirstymo tankis kai v=i.

Klasterizuojant imtį, daroma prielaida, kad f1,…, fq yra normaliniai

pasiskirstymo tankiai su vidurkiais M(i) ir kovariacinėmis matricomis R(i) . Tada

čia yra visų mišinio parametrų vektorius.

Klasterizavimas remiasi aposteorinių tikimybių

vertinimu

Page 15: Daugiamačio pasiskirstymo tankio  neparametrinis įvertinimas naudojant  stebėjimų klasterizavimą

EM algoritmas yra rekurentinė procedūra, skirta θ maksimalaus tikėtinumo įverčio ir jį atitinkančių i įverčių apskaičiavimui

n

tii tX

np

1

))((ˆ1

ˆ

n

ti

i

tXtXpn

iM1

)())((ˆˆ1

)(ˆ

n

ti

i

iMtXiMtXtXpn

iR1

)(ˆ)()(ˆ)())((ˆˆ1

)(ˆ

Page 16: Daugiamačio pasiskirstymo tankio  neparametrinis įvertinimas naudojant  stebėjimų klasterizavimą

Taigi, pasiskirstymo tankio f(x) statistinį vertinimą siūloma atlikti dviem etapais:

imtis X={X(1),…,X(n)} yra klasterizuojama į q klasterių. Griežto klasterizavimo atveju X=K1…Kq, kur kiekvienas

stebinys X(t) priklauso vienam ir tik vienam iš klasterių Ki, i=1,

…,q.Negriežto klsterizavimo atveju klasteriai Ki suprantami kaip aibės

{(X(1), i(1)), …, (X(n), i(n))}, kur i(t) rodo su kokiu svoriu

(tikimybe) stebinys X(t) priskiriamas klasei Ki.

mišinio komponentai fi(x) vertinami pagal klasterio Ki elementus, taikant vieną iš žinomų neparametrinio vertinimo metodų.

Atlikti tyrimai parodė, kad geriausi rezultatai gaunami, kai imtis klasterizuojama negriežtai, klasterių skaičius parenkamas parametriniu bootstrap metodu (taikant Gauso skirstinių mišinio modelį), o komponentai fi(x) neparametriškai įvertinami J. H. Friedman procedūros pagalba.

Page 17: Daugiamačio pasiskirstymo tankio  neparametrinis įvertinimas naudojant  stebėjimų klasterizavimą

Metodų tyrimasMetodų tyrimasSiūlomos procedūros ir iš jų sudaryti sudėtiniai metodai buvo tiriami Monte Karlo būdu. Tyrimui naudoti (d=25) Koši bei Gauso skirstinių su nepriklausomomis komponentėmis mišiniai. Duomenų skirstinių tankių mišiniai aprašomi taip:

Norint įvairiapusiškai ištirti siūlomus metodus, buvo varijuojamas mišinių komponentų skaičius, jų svoriai, atstumai tarp komponentų centrų.

Skaičiavimai atlikti su imties dydžiais n = 50, 100, 200, 400, 800, 1600, 3200.

q

iiiNi mxfpxf

1

),,()(

q

iiiCi umxfpxf

1

),,()(

d

j ij

ijj

d

j ij

iiN

mxmxf

12

2

1

)(

2

1exp

2

1),,(

d

j ijjij

ijiiC mxu

uumxf

122 ])([

),,(

Page 18: Daugiamačio pasiskirstymo tankio  neparametrinis įvertinimas naudojant  stebėjimų klasterizavimą

Tankių vertinimo tikslumui išreikšti skaičiuotos paklaidos

ir paklaida, kuria buvo siekiama palyginamumo su straipsniu (J. N. Hwang, S. R. Lay and A. Lippman, 1994 , Trans. on Signal Proc.):

dxxfxfxftXftXfn

n

t

)()(ˆ)())((ˆ))((1

11

dxxfxftXftXf

tXftXf

n

n

t

)(ˆ)(2

1

))((ˆ))((

))((ˆ))((1

12

dxxfxfxftXftXfn

n

t

)()(ˆ)())((ˆ))((1 2

1

2

3

n

t

n

t

ftXf

tXftXf

1

2

1

2

4)))(((

)))(())((ˆ(

čia nusako f(X(1)),…, f(X(n)) aritmetinį vidurkį. f

Page 19: Daugiamačio pasiskirstymo tankio  neparametrinis įvertinimas naudojant  stebėjimų klasterizavimą

PavyzdysPavyzdys

Vieno iš nagrinėtų mišinių parametrai:

dimensija d = 5, mišinio komponentų skaičius q = 2,p1 = 0,65, p2 = 0,35,

m1 = (0; 0; 0; 0; 0)′, m2 = (2,0; 2,0; 2,0; 2,0; 2,0)′,

u1 = 12 = (0,84; 1,02; 0,70; 1,20; 0,96)′,

u2 = 22 = (0,66; 0,92; 1,06; 0,86; 0,90)′.

Page 20: Daugiamačio pasiskirstymo tankio  neparametrinis įvertinimas naudojant  stebėjimų klasterizavimą

RezultataiRezultatai ((Koši skirstinių mišiniaiKoši skirstinių mišiniai))

A – adaptuotas branduolinis įvertinys,P – tikslinio projektavimo įvertinys (J. H. Friedman procedūra),punktyrine linija žymimos pasiskirstymo tankio įverčių paklaidos neatlikus pirminio duomenų klasterizavimo, o ištisine – atlikus pirminį duomenų klasterizavimą

Page 21: Daugiamačio pasiskirstymo tankio  neparametrinis įvertinimas naudojant  stebėjimų klasterizavimą

RezultataiRezultatai ((Gauso skirstinių mišiniaiGauso skirstinių mišiniai))

A – adaptuotas branduolinis įvertinys,P – tikslinio projektavimo įvertinys (J. H. Friedman procedūra),punktyrine linija žymimos pasiskirstymo tankio įverčių paklaidos neatlikus pirminio duomenų klasterizavimo, o ištisine – atlikus pirminį duomenų klasterizavimą

Page 22: Daugiamačio pasiskirstymo tankio  neparametrinis įvertinimas naudojant  stebėjimų klasterizavimą

IšvadosIšvados1. Daugiamodalinių pasiskirstymo tankių vertinimo rezultatai

labai pagerėja, jei stebiniai pirmiausia klasterizuojami (traktuojant jų daugiamodalinį tankį kaip vienamodalinių tankių mišinį), o tankių vertinimo metodai yra taikomi kiekvienam klasteriui atskirai.

2. Daugeliu atvejų didžiausias vertinimo efektyvumas buvo pasiekiamas, kai po pirminio imties suskaidymo kiekvieną klasterį atitinkantys tankio komponentai buvo įvertinti J. H. Friedman pasiūlyta rekurentine procedūra.

3. Parodyta, kad negriežtas imties klasterizavimas, kuris remiasi nagrinėjamo tankio aproksimacija Gauso pasiskirstymo tankių mišiniu ir EM algoritmu, yra pranašesnis nei griežtas ar kitos populiarios geometrinio klasterizavimo procedūros, kai klasterizavimo rezultatai taikomi daugiamodaliniams tankiams statistiškai vertinti.

4. Bootstrap metodu nustatomas klasterių skaičius yra artimas optimaliam.

Page 23: Daugiamačio pasiskirstymo tankio  neparametrinis įvertinimas naudojant  stebėjimų klasterizavimą

Rezultatų aprobavimasRezultatų aprobavimas

Disertacinio darbo tematika yra išspausdintas 1 straipsnis leidinyje, įtrauktame į Mokslinės informacijos instituto duomenų bazę, 2 straipsniai – Lietuvos mokslo tarybos patvirtinto sąrašo tarptautinėse duomenų bazėse referuojamuose leidiniuose, 3 straipsniai – kituose recenzuojamuose mokslo leidiniuose.

Disertacinio darbo tematikai yra skirta 10 pranešimų Lietuvos ir tarptautinėse mokslinėse konferencijose. Taip pat skaityti pranešimai Matematikos ir informatikos instituto bei Vilniaus Gedimino technikos universiteto Matematinės statistikos katedros seminaruose.

Page 24: Daugiamačio pasiskirstymo tankio  neparametrinis įvertinimas naudojant  stebėjimų klasterizavimą

Ačiū už Ačiū už dėmesįdėmesį