Upload
lew
View
88
Download
0
Embed Size (px)
DESCRIPTION
Multivariata Metoder en översikt. Klara Westling – IVL Svenska Miljöinstitutet AB. Multivariata metoder. - PowerPoint PPT Presentation
Citation preview
Multivariata Metoderen översikt
Klara Westling – IVL Svenska Miljöinstitutet AB
Multivariata MetoderKlara Westling, 2012-04-24
Multivariata metoder Multivariat dataanalys omfattar i allmänhet samtidig
analys av flera variabler än bara några få. Grundtanken är att ju fler variabler vi har med desto bättre kan vi beskriva den situation vi vill studera.
Världen är multivariat! Utmaningen är att hantera de korrelationer och
samspelseffekter som ofta finns mellan variablerna.
Vi har två metodgrupper– Beskrivande analys (BA)– Relationsanalys (RA)
Multivariata MetoderKlara Westling, 2012-04-24
Beskrivande analys (BA) Översikt, sortering och klassificering
– Beskrivande analys syftar till att visa strukturen i våra data, både inom observationerna och variablerna, men också dem emellan (bara x-variabler)
– Utan kända klasser– Principalkomponentanalys (PCA)– Korrespondensanalys (CA) + kanonisk CA– Faktoranalys (FA)– Klusteranalys (KA)
– Med kända klasser– KNN – K närmaste grannar– SIMCA (anv. PCA)– PLS-DA
Multivariata MetoderKlara Westling, 2012-04-24
Principalkomponentanalys (PCA) Arbetshästen vid multivariat dataanalys Finner dominanta korrelationsstrukturer i data Separerar struktur från brus Avvikare syns lätt Klarar bortfall i data (dock inte alla algoritmer) Lämplig för översikt, sortering och klassificering Vid förekomstdata av djur och växter kan dock CA vara
att föredra
Multivariata MetoderKlara Westling, 2012-04-24
PCA – kortfattad beskrivning
PM10content
PM10 content
NO2
Wood fuelburning
Use of studded tyres
Wood fuelburning
Use ofstudded tyres
NO2
NO2
S T
W F B
Kort exempel med olika källors påverkan på PM10 i luften• x-variabler: Dubbdäck, vedeldning, avgaser (NO2) (eg. 6 st)• y-variabel: PM10 i luften• 6 modeller (2 månader/modell), varierar över året• PM10 predikteras baserat på x-variabler och modeller
Multivariata MetoderKlara Westling, 2012-04-24
Exempel – PCA - ArbetslöshetData: Arbetslöshet i % inom olika sektorer för länder i
Europa (3 grupper: EEC, ickeEECväst, ickeEECöst). AGR MIN MAN PS CON SER FIN SPS TC Group
1 Belgium 3.3 0.9 27.6 0.9 8.2 19.1 6.2 26.6 7.2 1
2 Denmark 9.2 0.1 21.8 0.6 8.3 14.6 6.5 32.2 7.1 1
3 France 10.8 0.8 27.5 0.9 8.9 16.8 6.0 22.6 5.7 1
4 W_Germany 6.7 1.3 35.8 0.9 7.3 14.4 5.0 22.3 6.1 1
5 Ireland 23.2 1.0 20.7 1.3 7.5 16.8 2.8 20.8 6.1 1
6 Italy 15.9 0.6 27.6 0.5 10.0 18.1 1.6 20.1 5.7 1
7 Luxembourg 7.7 3.1 30.8 0.8 9.2 18.5 4.6 19.2 6.2 18 Netherlands 6.3 0.1 22.5 1.0 9.9 18.0 6.8 28.5 6.8 1
9 UK 2.7 1.4 30.2 1.4 6.9 16.9 5.7 28.3 6.4 1
10 Austria 12.7 1.1 30.2 1.4 9.0 16.8 4.9 16.8 7.0 2
11 Finland 13.0 0.4 25.9 1.3 7.4 14.7 5.5 24.3 7.6 2
12 Greece 41.4 0.6 17.6 0.6 8.1 11.5 2.4 11.0 6.7 2
13 Norway 9.0 0.5 22.4 0.8 8.6 16.9 4.7 27.6 9.4 2
14 Portugal 27.8 0.3 24.5 0.6 8.4 13.3 2.7 16.7 5.7 2
15 Spain 22.9 0.8 28.5 0.7 11.5 9.7 8.5 11.8 5.5 2
16 Sweden 6.1 0.4 25.9 0.8 7.2 14.4 6.0 32.4 6.8 2
17 Switzerland 7.7 0.2 37.8 0.8 9.5 17.5 5.3 15.4 5.7 2
18 Turkey 66.8 0.7 7.9 0.1 2.8 5.2 1.1 11.9 3.2 2
19 Bulgaria 23.6 1.9 32.3 0.6 7.9 8.0 0.7 18.2 6.7 3
20 Czechoslovakia 16.5 2.9 35.5 1.2 8.7 9.2 0.9 17.9 7.0 3
21 E_Germany 4.2 2.9 41.2 1.3 7.6 11.2 1.2 22.1 8.4 3
22 Hungary 21.7 3.1 29.6 1.9 8.2 9.4 0.9 17.2 8.0 3
23 Poland 31.1 2.5 25.7 0.9 8.4 7.5 0.9 16.1 6.9 3
24 Romania 34.7 2.1 30.1 0.6 8.7 5.9 1.3 11.7 5.0 3
25 USSR 23.7 1.4 25.8 0.6 9.2 6.1 0.5 23.6 9.3 3
26 Yugoslavia 48.7 1.5 16.8 1.1 4.9 6.4 11.3 5.3 4.0 3
Multivariata MetoderKlara Westling, 2012-04-24
Exempel – PCA - ArbetslöshetMed 2 komponenter förklaras 62% av variationen i data
-4
-3
-2
-1
0
1
2
3
4
-5 -4 -3 -2 -1 0 1 2 3 4 5 6
t[2]
t[1]
Unemploy.M1 (PCA-X), Overviewt[Comp. 1]/t[Comp. 2]Colored according to values in variable Unemploy(Group)
R2X[1] = 0.387461 R2X[2] = 0.236686 Ellipse: Hotelling T2 (0.95)
Series (Settings for Group)
Missing123
Belgium
Denmark
France
W_GermanyIreland
Italy
Luxembourg
Netherland
UKAustria
FinlandGreece
Norw ayPortugalSpain
Sw eden
Sw itzerlanTurkey
Bulgaria
CzechoslovE_GermanyHungary
PolandRomania
USSR
Yugoslavia
SIMCA-P+ 11.5 - 2010-06-04 14:26:39
-0.5
-0.4
-0.3
-0.2
-0.1
-0.0
0.1
0.2
0.3
0.4
0.5
0.6
-0.4 -0.3 -0.2 -0.1 -0.0 0.1 0.2 0.3 0.4 0.5
p[2]
p[1]
Unemploy.M1 (PCA-X), Overviewp[Comp. 1]/p[Comp. 2]Colored according to model terms
R2X[1] = 0.387461 R2X[2] = 0.236686
AGR
MIN
MAN
PS
CON
SER
FIN
SPS
TC
SIMCA-P+ 11.5 - 2010-06-04 14:27:09
Multivariata MetoderKlara Westling, 2012-04-24
Exempel – PCA - ArbetslöshetMan kan också se på observationer och variabler i samma
bild
-1.0
-0.8
-0.6
-0.4
-0.2
-0.0
0.2
0.4
0.6
0.8
1.0
-1.0 -0.8 -0.6 -0.4 -0.2 -0.0 0.2 0.4 0.6 0.8 1.0
p(corr)[1], t(corr)[1]
Unemploy.M1 (PCA-X), Overviewp(corr)[Comp. 1]/p(corr)[Comp. 2]
p(corr)[2] (X)t(corr)[2]
AGR
MIN
MAN
PS
CON
SER
FIN
SPS
TC
Belgium
Denmark
France
W_GermanyIreland
Italy
Luxembourg
Netherland
UKAustria
FinlandGreece
Norw ayPortugalSpain
Sw eden
Sw itzerlanTurkey
Bulgaria
CzechoslovE_GermanyHungary
PolandRomania
USSR
Yugoslavia
SIMCA-P+ 11.5 - 2010-06-04 14:34:40
Multivariata MetoderKlara Westling, 2012-04-24
Exempel – PCA - Arbetslöshet Resultaten kan också visas i 3D: Unemploy
Multivariata MetoderKlara Westling, 2012-04-24
Exempel – PCA - Arbetslöshet Även den omodellerade variationen (residualen) hos
varje observation kan visualiseras
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
1.8Be
lgiu
m
Den
mar
k
Fran
ce
W_G
erm
any
Irela
nd
Italy
Luxe
mbo
urg
Net
herla
nd UK
Aust
ria
Finl
and
Gre
ece
Nor
way
Port
ugal
Spai
n
Swed
en
Switz
erla
n
Turk
ey
Bulg
aria
Cze
chos
lov
E_G
erm
any
Hun
gary
Pola
nd
Rom
ania
USS
R
Yugo
slav
ia
DM
odX[
2](N
orm
)
Obs ID (Primary)
Unemploy.M1 (PCA-X), OverviewDModX[Comp. 2](Normalized)
M1-D-Crit[2] = 1.709 1 - R2X(cum)[2] = 0.3759
D-Crit(0.05)
SIMCA-P+ 11.5 - 2010-06-04 16:23:12
Multivariata MetoderKlara Westling, 2012-04-24
Faktoranalys (FA)
– Äldre broder till PCA– Modellerar både strukturen och bruset– Bygger på ett antal statistiska förutsättningar som skall
vara uppfyllda– Inget för nybörjaren
Multivariata MetoderKlara Westling, 2012-04-24
Korrespondensanalys (CA)
Kusin till PCA Användningsområden parallella med PCA Används då beskrivningsvariablerna har en
klockformad fördelning (förekomstdata av djur och växter)
PCA baseras på linjär fördelning (t.ex. vattenkemi)
PCA
Multivariata MetoderKlara Westling, 2012-04-24
Klusteranalys (KA)
– Grupperar observationerna enligt “likhet”
– Ingen unik primär lösning pga många uppdelningsmetoder och många likhetskriterier
– Resultatet presenteras ofta i ett dendrogram (träddiagram)
Multivariata MetoderKlara Westling, 2012-04-24
Exempel – Klusteranalys (okända klasser)Data: Arbetslöshet i Europa
Multivariata MetoderKlara Westling, 2012-04-24
SIMCA – klassificering Bygger på separata PCA-modeller för varje klass Nya observationer klassas till den klass som den passar Metoden upptäcker observationer som inte passar till
någon klass!
Multivariata MetoderKlara Westling, 2012-04-24
Sammanfattning – beskrivande analys PCA är den rekommenderade metoden
Den är robust och väl lämpad för att:– Visualisera data– Finna grupperingar– Upptäcka avvikare– Klassificera nya observationer– Bra grafisk diagnostik och presentation
CA kan användas vid förekomstdata (som har klockformad respons hos beskrivningsvariablerna)
KA kan användas för att objektivt dela in ett material i grupper
Multivariata MetoderKlara Westling, 2012-04-24
Relationsanalys (RA) Samband och prediktioner (x- och y- variabler)
– relationsanalys syftar till att beskriva relationen mellan två grupper av variabler. Ofta kallar vi den ena gruppen för förklaringsvariabler (x) och den andra för beroendevariabler (y). Vi vill vet hur förklaringsvariablerna kan användas för att beskriva och prediktera beroendevariablerna.
– Med ursprungsvariabler– MLR, SMLR
– Med latenta variabler / underrumsmetoder– PLS, (ANN)
Multivariata MetoderKlara Westling, 2012-04-24
MLR och SMLR (med ursprungsvariabler) MLR - multipel linjär regression
– Den mest felanvända metoden– Fungerar dåligt med korrelerade variabler– Hanterar inte bortfall– Klarar bara en y-variabel per modell– Antar att x är exakt och 100% relevant, endast
rekommenderad då man gjort faktorförsök innan och man vet att x är det man anger
SMLR – stegvis MLR– Väljer en delmängd av x-variablerna beroende på deras
modelleringsförmåga– Stor risk för övermodellering (overfit)– Urvalet och resultaten är mycket data- och brusberoende –
det finns väldigt många sätt att välja X-variabler i stora dataset
Multivariata MetoderKlara Westling, 2012-04-24
PLS (latenta variabler)
– Maximerar kovariansen mellan x och y– Korrelerade variabler ger stabilare modell– Finner samband i närvaro av både brus och bortfall– Klarar flera y i samma modell– Intern validering reducerar risken för övermodellering– Grafisk presentation för diagnostik och prediktion– Upptäcker avvikare inför prediktioner för nya observationer– Olinjäritet mellan x och y fångas med transformationer och/eller
tillägg av högre ordningens termer av x (ex: x32, x1*x5, x2
2*x7)– Kan också användas för identifiering av tidsseriemodeller typ AR, MA
och ARMA med tillägg av tidsförskjutna x- och/eller y-variabler på x-sidan
Multivariata MetoderKlara Westling, 2012-04-24
Exempel PLS - Krondroppsdata Data: X – tid, plats, nederbörd,
Y – analyser av 12 olika föroreningar i krondropp
2
4
6
8
10
12
14
1 2 3 4 5 6 7 8 9 10 11 12 13 14
YVar
(SO
4-S)
YPred[4](SO4-S)
M1023.M2 (PLS), Time Nederb Site as XYPred[Last comp.](SO4-S)/YVar(SO4-S)Colored according to Obs ID (Primary)
RMSEE = 1.08475
AKBFBKTK
AK07/08
AK06/07
AK05/06AK04/05AK03/04AK02/03
AK01/02
AK00/01
AK99/00
AK98/99AK97/98AK96/97
AK95/96
AK94/95AK93/94
AK92/93
AK91/92
AK90/91
BF07/08
BF06/07BF05/06
BF04/05BF03/04BF02/03BF01/02
BF00/01BF99/00BF98/99
BF97/98BF96/97
BK07/08BK06/07
BK05/06
BK04/05BK03/04BK02/03BK01/02
BK00/01BK99/00BK98/99
BK97/98
BK96/97
TK07/08TK06/07
TK05/06
TK04/05TK03/04TK02/03TK01/02
TK00/01TK99/00
TK98/99TK97/98TK96/97
SIMCA-P+ 11.5 - 2010-04-06 18:52:34
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
H+
SO4-
S
SO4-
Sex
Cl-
NO
3-N
NH
4-N
Ca2
+
Mg2
+
Na+ K+
Mn2
+
oorg
N
Var ID (Primary)
M1023.M2 (PLS), Time Nederb Site as X R2VY[4](cum)Q2VY[4](cum)
SIMCA-P+ 11.5 - 2010-04-06 18:54:21
-0.6-0.4-0.2-0.00.20.40.6
Site
(AK)
Site
(BF)
Site
(BK)
Site
(TK) Yr
Ned
b
Yr*Y
r
Coe
ffCS[
4](S
O4-
S)
Var ID (Primary)
M1023.M2 (PLS), Time Nederb Site as XCoeffCS[Last comp.](SO4-S)
SIMCA-P+ 11.5 - 2010-06-04 16:51:35
1
2
3
4
5
6
7
8
9
10
11
12
BF
07/0
8B
F06/
07BF
05/0
6B
F04/
05B
F03
/04
BF0
2/03
BF01
/02
BF0
0/01
BF
99/0
0B
F98/
99BF
97/9
8B
F96/
97A
K07
/08
AK0
6/07
AK05
/06
AK0
4/05
AK
03/0
4A
K02/
03AK
01/0
2A
K00/
01A
K99
/00
AK9
8/99
AK97
/98
AK9
6/97
AK
95/9
6A
K94/
95AK
93/9
4A
K92/
93A
K91
/92
AK9
0/91
BK07
/08
BK0
6/07
BK
05/0
6B
K04/
05BK
03/0
4B
K02/
03B
K01
/02
BK0
0/01
BK99
/00
BK9
8/99
BK97
/98
BK9
6/97
TK07
/08
TK0
6/07
TK
05/0
6T
K04/
05TK
03/0
4T
K02/
03TK
01/0
2T
K00/
01TK
99/0
0T
K98/
99TK
97/9
8T
K96/
97
SO4-
Sex
Obs ID (Primary)
M1023.DS1 M1023Variable(SO4-Sex)Colored according to Obs ID (Blåbärskullen ÖF)
AKBFBKTK
AK07/08
AK06/07
AK05/06
AK04/05AK03/04AK02/03AK01/02
AK00/01
AK99/00
AK98/99AK97/98
AK96/97
AK95/96AK94/95
AK93/94
AK92/93
AK91/92
AK90/91
BF07/08
BF06/07BF05/06
BF04/05BF03/04BF02/03BF01/02
BF00/01BF99/00
BF98/99BF97/98
BF96/97
BK07/08BK06/07
BK05/06
BK04/05BK03/04BK02/03BK01/02
BK00/01BK99/00BK98/99
BK97/98BK96/97
TK07/08TK06/07
TK05/06
TK04/05TK03/04
TK02/03TK01/02TK00/01
TK99/00TK98/99TK97/98TK96/97
SIMCA-P+ 11.5 - 2010-04-06 16:46:11
Multivariata MetoderKlara Westling, 2012-04-24
Sammanfattaning - relationsanalys
PLS passar i de flesta fallen PLS är överlägset MLR och SMLR när det finns många och
korrelerade x-variabler PLS har bättre grafiska diagnostiska möjligheter än de andra
metoderna Stegvis regression är inte alls rekommenderat, stor risk för
övermodellering ANN (neurala nätverk) kan man pröva om inget annat fungerar