19
E. Martinelli & C. Di Natale: Trattamento Statistico dei Dati 1 1 4. Matrici e Minimi Quadrati E. Martinelli 4. Matrici e Minimi Quadrati Matrici e sistemi di equazioni di lineari Formulazione matriciale del metodo dei minimi quadrati Regressione polinomiale Regressione non lineare Cross-validazione e overfitting Regressione lineare multipla (MLR) 2 4. Matrici e Minimi Quadrati E. Martinelli Sistemi Lineari e Matrici Un sistema lineare è un insieme di n equazioni lineari in n incognite È noto che le incognite possono essere determinate con semplicità utilizzando il formalismo matriciale Il sistema quindi ammette soluzione, cioè è invertibile, se la matrice A ammetta la sua inversa quindi se det(A) 0 Quindi se tutte le equazioni sono linearmente indipendenti una rispetto all’altra a x + b y = k cx + d y = g a b c d x y = k g A x = k x = A -1 k

4. Matrici e Minimi Quadrati - Università degli Studi di ... · E. Martinelli & C. Di Natale: Trattamento Statistico dei Dati 2 3 4. Matrici e Minimi Quadrati E. Martinelli Formalismo

Embed Size (px)

Citation preview

E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati

1

1

4. Matrici e Minimi Quadrati

E. Martinelli

4. Matrici e Minimi Quadrati

Matrici e sistemi di equazioni di lineariFormulazione matriciale del metodo dei minimi quadrati

Regressione polinomialeRegressione non lineare

Cross-validazione e overfittingRegressione lineare multipla (MLR)

2

4. Matrici e Minimi Quadrati

E. Martinelli

Sistemi Lineari e Matrici

• Un sistema lineare è un insieme di n equazioni lineari in n incognite• È noto che le incognite possono essere determinate con semplicità

utilizzando il formalismo matriciale

• Il sistema quindi ammette soluzione, cioè è invertibile, se la matrice Aammetta la sua inversa quindi se det(A) 0

• Quindi se tutte le equazioni sono linearmente indipendenti una rispettoall’altra

a x + b y = k

c x + d y = g

a b

c d

x

y

=

k

g

A x = k x = A

-1k

E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati

2

3

4. Matrici e Minimi Quadrati

E. Martinelli

Formalismo matriciale

[ ] [ ] 1

1 1 1 2 2

1

1 2 1 2 2 2 1 2 1 2 2 2

1 1

esempio: n=2 senza errori di misura

n

i i n xn x xn

x x x x x x

x xy a x b y y a b Y K X

Y K X K Y X

…= + … = =

= =

• X-1 è detta matrice inversa di X

• Inversamente proporzionale al determinante– Se due righe o colonne sono proporzionali o combinazione lineare delle altre il

determinante della matrice è 0 e la matrice inversa diverge!• Problema della co-linearità nella soluzione dei problemi lineari.

X 2 x2

1=

a b

c d

1

=

d

detX

c

det X

b

detX

a

det X

4

4. Matrici e Minimi Quadrati

E. Martinelli

In presenza di errori di misura

•• In In presenzapresenza didi errorierrori didi misuramisura cici sonosono n n righerighe indipendentiindipendenti con n>2 con n>2

• La soluzione minimi quadrati, in cui cioè la norma del vettore E1xn si ottiene,formalmente come nel caso precedente scambiando l’operazione di inversionecon quella di pseudo-inversione o inversa generalizzata (teorema di Gauss-Markov)

yi = a xi + b + ei y1 … yn[ ] = a b[ ]x1 … xn

1 … 1

+ e1 … en[ ]

Y1xn = K1x2 X 2xn + E1xn

esempio : n = 2 con errori di misura

Y1xn = K1x2 X 2 xn + E1xn; min E1xn K1x2 = Y1xn X nx2+

E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati

3

5

4. Matrici e Minimi Quadrati

E. Martinelli

Matrice Pseudo-inversa

• a.k.a. inversa generalizzata o inversa di Moore• Definita attraverso le relazioni di Moore:

• Calcolo pratico:

– Esiste se det XTX 0.

• Pinv(x) in Matlab• PseudoInverse[x] in Mathematica

X X + X = X X X +( )*

= X X +

X + X X + = X + X + X( )*

= X + X

X += X TX( )

1X T

6

4. Matrici e Minimi Quadrati

E. Martinelli

Regressione Polinomiale

• Una relazione funzionale polinomiale può essere scritta in formamatriciale. Il problema ai minimi quadrati si può risolvere applicando ilteorema di Gauss-Markov

• Polinomio di grado n; n+1 parametri; m>n+1 misure sperimentali

y = a0 + a1 x + a2 x2

+…+ an xn

y1 … ym[ ] = a0 a1 … an[ ]

1 … 1

x1 … xm

… … …

x1n … xm

n

+ e1 … em[ ]

Y1xm = K1xn+1 X N +1xm + E1xm

min E1xm K1xn+1 = Y1xm X mxn+1+

E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati

4

7

4. Matrici e Minimi Quadrati

E. Martinelli

Regressione non-lineare

• Se la funzione f(x) non permette l’applicazione della regressionematriciale il problema ai minimi quadrati ammette una soluzionenumerica.

• Algoritmi iterativi che generalizzano la soluzione al problema f(x)=0.• Metodo di Newton o della tangente

– Metodo iterativo che procede, da un punto iniziale, verso la soluzione– Sensibile al punto di partenza, false convergenze verso punti di minimo.

y = f x;k1 ,…,km( ) + e

xi +1 = xi

f xi( )df

dxxi( )

xixi+1

f(xi)

xa

x=f(xi )/tan(a) = f(xi )/f'(xi)

8

4. Matrici e Minimi Quadrati

E. Martinelli

Generalizzazione alla soluzione di sistemadi equazioni non lineari

• Algoritmo di Newton-Rhapson

• La soluzione passa attraverso l’inversione dello Jacobiano (Jij)

y1 = f x1 ,k1 ,… ,k n( )…

yn = f xn ,k1 ,… ,k n( )

k i +1 = k i J1

k i( ) f k i( ) y( )dove

J i j =f i

k j

E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati

5

9

4. Matrici e Minimi Quadrati

E. Martinelli

Minimi quadrati non-lineari

• Algoritmo di Ben-Israel

• Versione ottimizzata: algoritmoalgoritmo didi LevenbergLevenberg-Marquardt-Marquardt

y1 = f x1 ,k1 ,…,k n( ) + e1

ym = f xn ,k1 ,…,k n( ) + em

k i +1 = k i J+

k i( ) f k i( ) y( )dove

J i j =f i

k j

10

4. Matrici e Minimi Quadrati

E. Martinelli

Modello lineare o non-lineare?Il problema della validazione

• Quale è la migliore funzione che descrive i dati sperimentali?• Quella che consente di predirre con errore minimo le variabili che non

sono state usate per costruire il modello.• L’operazione che consente di stimare questo errore si chiama cross-

validation.

• Esempio: consideriamo i seguenti dati in cui si ha: y=f(x)+e– Quale è la migliore funzione che descrive la relazione tra y e x ?

x

y

E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati

6

11

4. Matrici e Minimi Quadrati

E. Martinelli

Esempi di soluzionelineare Moderatamente non lineare

Altamente non lineare

12

4. Matrici e Minimi Quadrati

E. Martinelli

Il metodo del test

• L’insieme dei dati viene diviso in due• Il modello viene determinato su un sottoinsieme dei dati (insieme di

calibrazione training set)• L’errore viene valutato sull’altro sottoinsieme (insieme di test test set)• La stima dell’errore di predizione dell’insieme di test è significativa

della capacità di generalizzazione del modello. Cioè della suaapplicabilità a dati non utilizzati per la calibrazione. Quindi all’utilizzodel modello nel mondo reale per stimare grandezze incognite.

E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati

7

13

4. Matrici e Minimi Quadrati

E. Martinelli

Applicazione del metodo del test

I dati segnati in rosso sono il test set. Il modello è calcolato sui restanti dati(punti blù).L’errore sui dati di test è valutato come RMSECV

RMSECV=2.4 RMSECV=0.9 RMSECV=2.2

14

4. Matrici e Minimi Quadrati

E. Martinelli

Discussione

• Il metodo migliore è quello moderatamente non lineare (quadratico)• Il metodo lineare ha un errore grande sia in calibrazione che in test• Il metodo fortemente non lineare ha un errore di calibrazione nullo ma

un errore di test elevato. Tale modello è “troppo specializzato” neldescrivere i dati di calibrazione e non è in grado di generalizzare cioèdi trattare adeguatamente i dati non usati per la calibrazione.– Tale effetto si chiama overfitting ed è tipico nel caso di modelli

fortemente non lineari.– Inciso: dati n punti questi sono fittati perfettamente da un polinomio di

ordine n

E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati

8

15

4. Matrici e Minimi Quadrati

E. Martinelli

Considerazioni sul metodo del test-set

• Il metodo è molto semplice ma richiede insiemi di dati numerosi.• La selezione degli insiemi non è semplice in generale va fatta in

maniera casuale ma bisogna evitare di sbilanciare i due insiemi– È bene controllare che i due insiemi abbiano la stessa varianza e la stessa

media– Se i due insiemi sono disgiunti si possono verificare fenomeni di overfitting

apparente• Inciso: a parte casi semplici, in genere i modelli falliscono nelle estensioni

analitiche cioè nella predizione di misure fuori del range considerato per lacalibrazione.

16

4. Matrici e Minimi Quadrati

E. Martinelli

Leave-One-Out cross-validation• Nel caso di insiemi numerosi di dati il metodo del test set si può

utilizzare senza problemi, ma quando il numero di dati diventa esiguoè necessario ricorrere ad altre strategie per la scelta della funzione eper la stima dell’errore.

• Il metodo più utilizzato in tal senso è il leave-one-out– Letteralmente lasciane uno fuori

• Il metodo consiste nel ridurre a 1 il contenuto dell’insieme di test, enel valutare l’errore di predizione rispetto al dato eliminato. Eliminandoconsecutivamente tutti i dati e facendo la media degli errori ottenuti siottiene una stima robusta dell’errore di predizione del modellofunzionale.

Passo i-esimo:Escludere il dato iCalcolare la regressione sugli n-1datiValutare l’errore di predizionerispetto al dato i-esimoImmagazzinare il valore in i

L’errore finale di predizione è lamedia degli i

E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati

9

17

4. Matrici e Minimi Quadrati

E. Martinelli

LOO modello lineare

RMSECV=2.12

18

4. Matrici e Minimi Quadrati

E. Martinelli

LOO modello moderatamente non lineare(quadratico)

RMSECV=0.96

E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati

10

19

4. Matrici e Minimi Quadrati

E. Martinelli

LOO modello altamente non lineare

RMSECV=3.33

20

4. Matrici e Minimi Quadrati

E. Martinelli

Confronto test - LOO

• LOO fornisce una stima migliore dell’errore di predizione rispetto altest set la cui stima dell’errore è inattendibile.

• LOO sfrutta al massimo l’intero set di dati.• Ovviamente LOO è il metodo del test set con insieme di validazione di

ampiezza minima.• Per insiemi di grandi dimensioni LOO è dispendioso dal punti di vista

del calcolo.• Può essere “ammorbidito” considerando più insiemi di k dati.

E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati

11

21

4. Matrici e Minimi Quadrati

E. Martinelli

Sistemi Lineari e matrici di dati

• In un sistema lineare, ogni equazione definisce una funzione di piùvariabili.

• Nella scienza analitica i sistemi lineari consentono di estrarreinformazioni da metodi di misura non specifici, cioè nei quali il risultatodella misura non è funzione solo di una grandezza ma di più grandezzecaratterizzanti un campione.

• Quando però si considerano dati sperimentali bisogna tenere conto ditre fattori:– Errori di misura– Dipendenza da più grandezze rispetto a quelle considerate– Limiti della relazione lineare

• Tutto ciò fa si che ad esempio la risposta di una misura (y) rispetto adue variabili (x1, x2) si possa scrivere come:

– Il termine e contiene i tre fattori sopra elencati y = k1 x1 + k2 x2 + e

22

4. Matrici e Minimi Quadrati

E. Martinelli

Sistemi lineari e matrici di dati

• Dato un metodo di misura come il precedente per la misura dellegrandezze x1 e x2 è necessario almeno disporre di un altro metodo dimisura ma con coefficienti differenti

– Si noti che in assenza dei termini e il sistema sarebbe deterministico, e dueequazioni sarebbero il massimo necessario per ricavare due variabili

• Nel senso che ogni altra equazione sarebbe necessariamente combinazionelineare delle prime due

• La presenza dei termini e fa si che il problema della determinazione dix1 e x2 sia un problema statistico simile al problema della regressione equindi risolvibile con il metodo dei minimi quadrati– In particolare, si possono avere più equazioni che termini incognite anzi

maggiore è il numero di equazioni minore è l’errore di stima

y1 = k1 x1 + k2 x2 + e1

y2 = w1 x1 + w2 x2 + e2

E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati

12

23

4. Matrici e Minimi Quadrati

E. Martinelli

Osservabili selettivi e non selettivi

• Le quantità osservabili possono essere, rispetto alle variabili damisurare, selettivi o non selettivi

– Selettivi: L’osservabile dipende in maniera dominante da una variabile– Non selettivi: l’osservabile dipende da più variabili

• Gli osservabili non selettivi sono gli oggetti della analisi multivariata

variabili

coefficiente

Osservabilespecifico

jj Ckz

variabili

coefficiente

OsservabileNon selettivo

=i

iiCkz

24

4. Matrici e Minimi Quadrati

E. Martinelli

Osservabili non selettivi

• Esempio:– Spettri ottici

• L’assorbimento ad una data frequenza dipende dalla concentrazione di più specie

– Gas cromatogrammi• L’intensità di una riga può risultare dalla concentrazione di più composti con

tempi di eluizione simili

– Sensori chimici• La risposta di una sensore è data dalla combinazione di più sostanze a seconda

della loro concentrazione e della loro affinità con il sensore stesso.

E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati

13

25

4. Matrici e Minimi Quadrati

E. Martinelli

Parametri importanti dei metodi analitici:la sensibilità e la risoluzione

• Dato un metodo analitico, si definisce sensibilità il rapporto tra lavariazione del risultato del metodo e la corrispondente variazione dellavariabile misurata.– Tale quantità corrisponde alla seguente derivata:

• La risoluzione indica la quantità minima misurabile della variabileconsiderata, essa è generata dall’errore di misura ed è definita da:

S =

Y

X

R =

X= Y

S

Y

X

SX0

=Y

XX0

X0

Y

XX0

Y

X

X0=

Y0

SX0

26

4. Matrici e Minimi Quadrati

E. Martinelli

Spazio delle variabili e spazio degli osservabili:caso di osservabili selettivi

Y1 = aX1 + bX2

Y2 = cX1 + dX2

Se I due osservabili sono i

Osservabile 1

Osservabile 2

Correlazione=1-det(K)=0

10

01==

dc

baK

X1

X2

Spazio delle variabili

E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati

14

27

4. Matrici e Minimi Quadrati

E. Martinelli

Spazio delle variabili e spazio degli osservabili:caso di osservabili non selettivi

0,,,

=

dcba

dc

baK

Osservabile 1

osservabile 2

0<C<1

Correlazione parziale

X1

X2

C=1

K =a b

c d

a d b c = 0

Correlazione totale

28

4. Matrici e Minimi Quadrati

E. Martinelli

Multiple Linear Regression

• Dati n osservabili ognuno dipendente da m variabili e caratterizzato daerrore di misura nel senso esteso del termine, le m variabili possonoessere statisticamente stimate utilizzando il metodo dei minimiquadrati.

• Ovviamente dovranno essere rispettate le 4 condizioni del metodo deiminimi quadrati:

Le misure hanno varianza uguale4

Gli eventi osservati sonoindipendenti

3

Y è distribuita normalmente2

L’errore su y è molto maggioredell’errore su x

1

E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati

15

29

4. Matrici e Minimi Quadrati

E. Martinelli

Multiple Linear Regression

Y = X

k

n

*B

q

k

q

n

k = n° osservabili

n =n° misure

q= n° variab ili misurabili

E

q

+

n

Y=XB+E

30

4. Matrici e Minimi Quadrati

E. Martinelli

Multiple Linear Regression

• Come nel caso dei minimi quadrati monovariati, si identificano due fasi:– Calibrazione: misurando gli osservabili Y relativi a variabili note X si

determina la matrice B– Utilizzo: conoscendo la matrice B si ricavano le migliori stime per le

quantità X dalle misure degli osservabili Y

• Calibrazione:– Noti X e Y la migliore stima per B è data dal teorema di Gauss-Markov:

– Se X è di rango massimo si può calcolare la pseudoinversa come:

• Significa imporre che ogni osservabile sia indipendente dagli altri

B

MLR= X

+Y

B

MLR= X

TX( )

1

XT

Y

E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati

16

31

4. Matrici e Minimi Quadrati

E. Martinelli

Significato della MLR

• La soluzione del teorema di Gauss-Markov è detta anche estimatoreBLUE (best linear unbiased estimator) cioè è lo stimatore di varianzaminima

• In pratica BMLR massimizza la correlazione tra X e Y• Geometricamente la soluzione trovata corrisponde ad una proiezione

ortogonale di Y in un sottospazio di X.

• è una matrice di proiezione ortogonale in un sottospazio di X Y

MLR= X B

MLR= X X

TX( )

1

XT

Y = Y

YLS

Y

e

32

4. Matrici e Minimi Quadrati

E. Martinelli

Utilizzo pratico

• In pratica conviene imporre la dipendenza lineare tra le grandezze damisurare e gli osservabili ipotizzando un errore distribuito normalmente

• La soluzione minimi quadrati è quindi data da:

• E la matrice BMLR viene stimata dalla seguente:

X = Y B + e

X

MLR= Y B

MLR

B

MLR= Y

+X

E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati

17

33

4. Matrici e Minimi Quadrati

E. Martinelli

Stimatori della prestazione dellaregressione

• PRESS- Predicted Sum of Squares

• RMSEC - Root Mean Square error of calibration

• RMSECV - Root Mean Square Error of Cross-Validation– Per un modello che include k campioni non inclusi nel modello stesso

PRESS = yiLS

yi( )2

i

RMSEC =PRESS

N

RMSECVk =PRESSk

N

34

4. Matrici e Minimi Quadrati

E. Martinelli

Limitazioni della MLR

• La Pseudoinversa può essere risolta agevolmente nel caso in cui ilrango di X sia massimo e quindi gli osservabili siano indipendenti– Questa condizione non è sempre vera:

• In una riga spettrale, tutte le frequenze della riga sono verosimilmente formatedalle stesse variabili con coefficienti pressochè simili

•• Nel caso in cui il rango non sia massimo siamo nella condizione diNel caso in cui il rango non sia massimo siamo nella condizione diavere osservabili fortemente correlati, questo dà luogo a grossi erroriavere osservabili fortemente correlati, questo dà luogo a grossi errorinel calcolo della nel calcolo della pseudoinversapseudoinversa che portano ad errori di stima delle che portano ad errori di stima dellevariabili non accettabili se la correlazione è troppo elevata.variabili non accettabili se la correlazione è troppo elevata.

• In questi casi bisogna trovare un metodo che riduca la correlazione tragli osservabili.

• Bisogna in pratica trovare delle nuove variabili dipendenti (funzionedegli osservabili) che non siano soggette alla eccessiva correlazione.

E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati

18

35

4. Matrici e Minimi Quadrati

E. MartinelliEsempio

misura di clorofilla ed antociani in unapopolazione di pesche con spettroscopia

Vis-NIR

• Spettri (Y)

0 50 100 1500

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

• Clorofilla e Antociani (X)

1 1.5 2 2.5 3 3.5 4 4.50

0.005

0.01

0.015

0.02

0.025

CLOROFILLA

ANTOCIANI

36

4. Matrici e Minimi Quadrati

E. Martinelli

Definizione di MLR

• Dati suddivisi in due insiemI: calibrazione e validazione• Ipotesi: le grandezze X sono calcolabili come combinazione lineare dei

valori spettrali Y più un errore che distribuito normalmente.

• La stima LS di X è quindi:

• E la matrice BMLR è data da:

X = Y B + e

X

MLR= Y B

MLR

B

MLR= Y

+X

E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati

19

37

4. Matrici e Minimi Quadrati

E. Martinelli

Risultati

• Coefficienti matrice B

0 50 100 150-100

-50

0

50

100

0 50 100 150-0.6

-0.4

-0.2

0

0.2

0.4

Clorofilla

Antociani

38

4. Matrici e Minimi Quadrati

E. Martinelli

risultati

• Confronto YLS ed Y– Scatter plot: ascissa: valore vero; ordinata: valore stimato

2 2.5 3 3.5 4 4.52

2.5

3

3.5

4

4.5

0 0.005 0.01 0.015 0.02 0.0250

0.005

0.01

0.015

0.02

0.025

0 2 4 6 80

2

4

6

8

0 0.01 0.02 0.03 0.040

0.01

0.02

0.03

0.04

clorofilla

antociani

calibrazione validazione