Shrinkage methods

INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI

Shrinkage Methods

Federico CozzaLuca Vitale

Universita degli studi di Salerno

23 Gennaio 20171 / 23


INDICE

INTRODUZIONE

OLSPanoramicaProblematiche

SHRINKAGE METHODS

Ridge RegressionLassoElastic Net

LARSLARS

CONCLUSIONI

2 / 23


INTRODUZIONE

I Rapida crescita delle nuove tecnologieI Crescita dei dati disponibiliI Maggiore granularita degli studi

I Poche osservazioni, molte variabili!

I Necessita di alternative a OLS (Ordinary Least Squares)

3 / 23


PANORAMICA

Metodo per stimare modello di regressione lineareY = Xβ + ε

I Minimizzare RSS

I β = (XTX)−1XTY

Best Linear Unbiased Estimator (BLUE) se si verificano lecondizioni di Gauss-Markov

4 / 23


UN CASO PRATICO

Osservare l’andamento del tasso criminale negli USA

I Studio condotto dall’FBI su datiraccolti nel 1960

I Dati aggregati dei 47 statiamericani

http://www.statsci.org/data/general/uscrime.html

5 / 23


I DATI

Table: Descrizione variabiliM PERCENTAGE OF MALES AGED 14–24 IN TOTAL STATE POPULATION

ED MEAN YEARS OF SCHOOLING OF THE POPULATION AGED 25 YEARS OR OVER

PO1 PER CAPITA EXPENDITURE ON POLICE PROTECTION IN 1960PO2 PER CAPITA EXPENDITURE ON POLICE PROTECTION IN 1959LF LABOUR FORCE PARTICIPATION RATE OF CIVILIAN URBAN MALES IN THE AGE-GROUP 14-24M.F NUMBER OF MALES PER 100 FEMALES

POP STATE POPULATION IN 1960 IN HUNDRED THOUSANDS

NW PERCENTAGE OF NONWHITES IN THE POPULATION

U1 UNEMPLOYMENT RATE OF URBAN MALES 14–24U2 UNEMPLOYMENT RATE OF URBAN MALES 35–39WEALTH WEALTH: MEDIAN VALUE OF TRANSFERABLE ASSETS OR FAMILY INCOME

INEQ INCOME INEQUALITY: PERCENTAGE OF FAMILIES EARNING BELOW HALF THE MEDIAN INCOME

PROB PROBABILITY OF IMPRISONMENT: RATIO OF NUMBER OF COMMITMENTS TO NUMBER OF OFFENSES

TIME AVERAGE TIME IN MONTHS SERVED BY OFFENDERS IN STATE PRISONS BEFORE THEIR FIRST RELEASE

CRIME CRIME RATE: NUMBER OF OFFENSES PER 100,000 POPULATION IN 1960

Sono presenti 47 osservazioni, ognuna con i dati aggregati diun diverso stato americano

6 / 23


OLS: RISULTATI

Table: Indici VIF

M Ed Po1 Po2 LF M.F Pop NW U1 U2 Wealth Ineq Prob Time3.64 5.07 79.09 87.4 2.32 4.22 3.26 3.54 5.86 4.47 11.95 9.16 4.49 3.78

MSE = 0.108233 — κ-Condition number = 424.0668

7 / 23


PROBLEMATICHE

1. Dipendenze non lineari (log-transform)

2. Piu variabili che osservazioni (Shrinkage Methods)

3. Multicollinearita (Ridge Regression)

4. Variabili ridondanti (Lasso ed Elastic Net)

8 / 23


SHRINKAGE METHODS

Metodi di stima con coefficienti ”portati verso lo zero” tramiteparametro di shrinkage λ

I Aumento del bias

I Riduzione dellavarianza

I Stima piu precisa peropportuna scelta di λ

9 / 23


RIDGE REGRESSION

Stima dei coefficienti β di Y = Xβ + ε con

βRidge = argminn∑

i=1

(yi − β0 −

p∑j=1

βjxij

)2

+ λp∑

j=1β2

j

I βRidge = (XTX + λI)−1XTY

I det(XTX + λI) 6= 0

I Meno gradi di liberta⇒ Beneanche quando p > n

10 / 23


RIDGE REGRESSION: PROBLEMATICHE

I β >> 0 nel modelloreale⇒ Performancenon ottimali

I βiRidge

difficilmenteuguale a zero⇒ Nonadatto per VariableSelection

11 / 23


RIDGE REGRESSION: RISULTATI

MSE = 0.082783 — Minimum λ = 0.037

12 / 23


LASSO

βLasso = argminn∑

i=1

(yi − β0 −

p∑j=1

βjxij

)2

+ λp∑

j=1

∣∣βj∣∣

13 / 23


LASSO: VANTAGGI E PROBLEMATICHE

I βiLasso

non significativiposti a zero⇒ Ideale perVariable Selection

I Bene quando e spiccatal’importanza di ungruppo ristretto diparametri

I Quando p >> n, Lassoseleziona al piu n variabili

I Di solito con n > p RidgeRegression meglio diLasso

I Da un gruppo di variabilicorrelate ne viene sceltasolo una

14 / 23


LASSO: VANTAGGI E PROBLEMATICHE-2

All’aumentare dei gradi di lib-erta (i.e. al diminuire di λ), iβi delle variabili importanti au-mentano drasticamente; quellimeno significativi tendono a ri-manere uguali a zero

Il Lasso tende a selezionaresolo uno dei geni di un path-way, perdendo l’interazione frai geni

15 / 23


LASSO: RISULTATI

MSE = 0.072829 — Minimum λ = 0.013

16 / 23


ELASTIC NET

βNEN = argminn∑

i=1

(yi − β0 −

p∑j=1

βjxij

)2

+ λ1

p∑j=1

∣∣βj∣∣+ λ2

p∑j=1

β2j

17 / 23


ELASTIC NET-2

Combina Lasso e Ridge Regression. Seleziona variabili piuimportanti (Lasso), e altre variabili escluse (Ridge Regression),eventualmente correlate con quelle del Lasso.

Spesso e infatti interessante selezionare un gruppo intero divariabili correlate (ad esempio per pathway e microarray)

Per migliorare le performance rispetto alla versione Naive⇒ βEN = (1 + λ2)β

NEN

Sui nostri dati Elastic Net non apporta miglioramenti rispetto aLasso

18 / 23


I METODI A CONFRONTO

VARIABILE OLS RIDGE LASSOIntercept 6.7427 6.7435 6.7436M 0.1243 0.0464 0.0794ED 0.3296 0.0495 0.1199PO1 0.5548 0.0816 0.2453PO2 -0.3210 0.0718 0LF -0.0559 0.0146 0M.F -0.0069 0.0408 0.0175POP -0.0698 0.0053 0NW 0.1046 0.0592 0.0621U1 -0.5670 -0.0071 0U2 0.1611 0.0470 0.0519WEALTH 0.1601 0.0235 0INEQ 0.3817 0.0516 0.1187PROB -0.0834 -0.0392 -0.0345TIME 0.0441 0.0289 0.0113MSE 0.1082 0.0827 0.0728

19 / 23


LARS

Algoritmo per la selezione del modello per regressione lineare

I Evoluzione diForward StagewiseSelection

I Computazionalmenteefficiente

I Indicato per altadimensionalita, ameno dimulticollinearita

20 / 23


LARS: L’ALGORITMO

1. Inizializza vettore β = 02. Scegli la variabile xj piu correlata col vettore dei residui

corrente3. Incrementa βj il piu possibile fin quando una variabile xk

ha correlazione con i residui pari a quella di xj

4. Varia (βj, βk) muovendoti in direzione equiangolare tra xj exk

5. Continua fin quando tutti i predittori sono stati inseriti nelmodello

21 / 23


CONCLUSIONI

22 / 23


FINE

GRAZIE PER L’ATTENZIONE

23 / 23

Education

Shrinkage methods