23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI Shrinkage Methods Federico Cozza Luca Vitale Universit` a degli studi di Salerno 23 Gennaio 2017 1 / 23

Shrinkage methods

Embed Size (px)

Citation preview

Page 1: Shrinkage methods

INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI

Shrinkage Methods

Federico CozzaLuca Vitale

Universita degli studi di Salerno

23 Gennaio 20171 / 23

Page 2: Shrinkage methods

INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI

INDICE

INTRODUZIONE

OLSPanoramicaProblematiche

SHRINKAGE METHODS

Ridge RegressionLassoElastic Net

LARSLARS

CONCLUSIONI

2 / 23

Page 3: Shrinkage methods

INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI

INTRODUZIONE

I Rapida crescita delle nuove tecnologieI Crescita dei dati disponibiliI Maggiore granularita degli studi

I Poche osservazioni, molte variabili!

I Necessita di alternative a OLS (Ordinary Least Squares)

3 / 23

Page 4: Shrinkage methods

INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI

PANORAMICA

Metodo per stimare modello di regressione lineareY = Xβ + ε

I Minimizzare RSS

I β = (XTX)−1XTY

Best Linear Unbiased Estimator (BLUE) se si verificano lecondizioni di Gauss-Markov

4 / 23

Page 5: Shrinkage methods

INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI

UN CASO PRATICO

Osservare l’andamento del tasso criminale negli USA

I Studio condotto dall’FBI su datiraccolti nel 1960

I Dati aggregati dei 47 statiamericani

http://www.statsci.org/data/general/uscrime.html

5 / 23

Page 6: Shrinkage methods

INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI

I DATI

Table: Descrizione variabiliM PERCENTAGE OF MALES AGED 14–24 IN TOTAL STATE POPULATION

ED MEAN YEARS OF SCHOOLING OF THE POPULATION AGED 25 YEARS OR OVER

PO1 PER CAPITA EXPENDITURE ON POLICE PROTECTION IN 1960PO2 PER CAPITA EXPENDITURE ON POLICE PROTECTION IN 1959LF LABOUR FORCE PARTICIPATION RATE OF CIVILIAN URBAN MALES IN THE AGE-GROUP 14-24M.F NUMBER OF MALES PER 100 FEMALES

POP STATE POPULATION IN 1960 IN HUNDRED THOUSANDS

NW PERCENTAGE OF NONWHITES IN THE POPULATION

U1 UNEMPLOYMENT RATE OF URBAN MALES 14–24U2 UNEMPLOYMENT RATE OF URBAN MALES 35–39WEALTH WEALTH: MEDIAN VALUE OF TRANSFERABLE ASSETS OR FAMILY INCOME

INEQ INCOME INEQUALITY: PERCENTAGE OF FAMILIES EARNING BELOW HALF THE MEDIAN INCOME

PROB PROBABILITY OF IMPRISONMENT: RATIO OF NUMBER OF COMMITMENTS TO NUMBER OF OFFENSES

TIME AVERAGE TIME IN MONTHS SERVED BY OFFENDERS IN STATE PRISONS BEFORE THEIR FIRST RELEASE

CRIME CRIME RATE: NUMBER OF OFFENSES PER 100,000 POPULATION IN 1960

Sono presenti 47 osservazioni, ognuna con i dati aggregati diun diverso stato americano

6 / 23

Page 7: Shrinkage methods

INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI

OLS: RISULTATI

Table: Indici VIF

M Ed Po1 Po2 LF M.F Pop NW U1 U2 Wealth Ineq Prob Time3.64 5.07 79.09 87.4 2.32 4.22 3.26 3.54 5.86 4.47 11.95 9.16 4.49 3.78

MSE = 0.108233 — κ-Condition number = 424.0668

7 / 23

Page 8: Shrinkage methods

INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI

PROBLEMATICHE

1. Dipendenze non lineari (log-transform)

2. Piu variabili che osservazioni (Shrinkage Methods)

3. Multicollinearita (Ridge Regression)

4. Variabili ridondanti (Lasso ed Elastic Net)

8 / 23

Page 9: Shrinkage methods

INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI

SHRINKAGE METHODS

Metodi di stima con coefficienti ”portati verso lo zero” tramiteparametro di shrinkage λ

I Aumento del bias

I Riduzione dellavarianza

I Stima piu precisa peropportuna scelta di λ

9 / 23

Page 10: Shrinkage methods

INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI

RIDGE REGRESSION

Stima dei coefficienti β di Y = Xβ + ε con

βRidge = argminn∑

i=1

(yi − β0 −

p∑j=1

βjxij

)2

+ λp∑

j=1β2

j

I βRidge = (XTX + λI)−1XTY

I det(XTX + λI) 6= 0

I Meno gradi di liberta⇒ Beneanche quando p > n

10 / 23

Page 11: Shrinkage methods

INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI

RIDGE REGRESSION: PROBLEMATICHE

I β >> 0 nel modelloreale⇒ Performancenon ottimali

I βiRidge

difficilmenteuguale a zero⇒ Nonadatto per VariableSelection

11 / 23

Page 12: Shrinkage methods

INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI

RIDGE REGRESSION: RISULTATI

MSE = 0.082783 — Minimum λ = 0.037

12 / 23

Page 13: Shrinkage methods

INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI

LASSO

βLasso = argminn∑

i=1

(yi − β0 −

p∑j=1

βjxij

)2

+ λp∑

j=1

∣∣βj∣∣

13 / 23

Page 14: Shrinkage methods

INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI

LASSO: VANTAGGI E PROBLEMATICHE

I βiLasso

non significativiposti a zero⇒ Ideale perVariable Selection

I Bene quando e spiccatal’importanza di ungruppo ristretto diparametri

I Quando p >> n, Lassoseleziona al piu n variabili

I Di solito con n > p RidgeRegression meglio diLasso

I Da un gruppo di variabilicorrelate ne viene sceltasolo una

14 / 23

Page 15: Shrinkage methods

INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI

LASSO: VANTAGGI E PROBLEMATICHE-2

All’aumentare dei gradi di lib-erta (i.e. al diminuire di λ), iβi delle variabili importanti au-mentano drasticamente; quellimeno significativi tendono a ri-manere uguali a zero

Il Lasso tende a selezionaresolo uno dei geni di un path-way, perdendo l’interazione frai geni

15 / 23

Page 16: Shrinkage methods

INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI

LASSO: RISULTATI

MSE = 0.072829 — Minimum λ = 0.013

16 / 23

Page 17: Shrinkage methods

INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI

ELASTIC NET

βNEN = argminn∑

i=1

(yi − β0 −

p∑j=1

βjxij

)2

+ λ1

p∑j=1

∣∣βj∣∣+ λ2

p∑j=1

β2j

17 / 23

Page 18: Shrinkage methods

INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI

ELASTIC NET-2

Combina Lasso e Ridge Regression. Seleziona variabili piuimportanti (Lasso), e altre variabili escluse (Ridge Regression),eventualmente correlate con quelle del Lasso.

Spesso e infatti interessante selezionare un gruppo intero divariabili correlate (ad esempio per pathway e microarray)

Per migliorare le performance rispetto alla versione Naive⇒ βEN = (1 + λ2)β

NEN

Sui nostri dati Elastic Net non apporta miglioramenti rispetto aLasso

18 / 23

Page 19: Shrinkage methods

INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI

I METODI A CONFRONTO

VARIABILE OLS RIDGE LASSOIntercept 6.7427 6.7435 6.7436M 0.1243 0.0464 0.0794ED 0.3296 0.0495 0.1199PO1 0.5548 0.0816 0.2453PO2 -0.3210 0.0718 0LF -0.0559 0.0146 0M.F -0.0069 0.0408 0.0175POP -0.0698 0.0053 0NW 0.1046 0.0592 0.0621U1 -0.5670 -0.0071 0U2 0.1611 0.0470 0.0519WEALTH 0.1601 0.0235 0INEQ 0.3817 0.0516 0.1187PROB -0.0834 -0.0392 -0.0345TIME 0.0441 0.0289 0.0113MSE 0.1082 0.0827 0.0728

19 / 23

Page 20: Shrinkage methods

INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI

LARS

Algoritmo per la selezione del modello per regressione lineare

I Evoluzione diForward StagewiseSelection

I Computazionalmenteefficiente

I Indicato per altadimensionalita, ameno dimulticollinearita

20 / 23

Page 21: Shrinkage methods

INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI

LARS: L’ALGORITMO

1. Inizializza vettore β = 02. Scegli la variabile xj piu correlata col vettore dei residui

corrente3. Incrementa βj il piu possibile fin quando una variabile xk

ha correlazione con i residui pari a quella di xj

4. Varia (βj, βk) muovendoti in direzione equiangolare tra xj exk

5. Continua fin quando tutti i predittori sono stati inseriti nelmodello

21 / 23

Page 22: Shrinkage methods

INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI

CONCLUSIONI

22 / 23

Page 23: Shrinkage methods

INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI

FINE

GRAZIE PER L’ATTENZIONE

23 / 23