Upload
luca-vitale
View
144
Download
2
Embed Size (px)
Citation preview
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
Shrinkage Methods
Federico CozzaLuca Vitale
Universita degli studi di Salerno
23 Gennaio 20171 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
INDICE
INTRODUZIONE
OLSPanoramicaProblematiche
SHRINKAGE METHODS
Ridge RegressionLassoElastic Net
LARSLARS
CONCLUSIONI
2 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
INTRODUZIONE
I Rapida crescita delle nuove tecnologieI Crescita dei dati disponibiliI Maggiore granularita degli studi
I Poche osservazioni, molte variabili!
I Necessita di alternative a OLS (Ordinary Least Squares)
3 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
PANORAMICA
Metodo per stimare modello di regressione lineareY = Xβ + ε
I Minimizzare RSS
I β = (XTX)−1XTY
Best Linear Unbiased Estimator (BLUE) se si verificano lecondizioni di Gauss-Markov
4 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
UN CASO PRATICO
Osservare l’andamento del tasso criminale negli USA
I Studio condotto dall’FBI su datiraccolti nel 1960
I Dati aggregati dei 47 statiamericani
http://www.statsci.org/data/general/uscrime.html
5 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
I DATI
Table: Descrizione variabiliM PERCENTAGE OF MALES AGED 14–24 IN TOTAL STATE POPULATION
ED MEAN YEARS OF SCHOOLING OF THE POPULATION AGED 25 YEARS OR OVER
PO1 PER CAPITA EXPENDITURE ON POLICE PROTECTION IN 1960PO2 PER CAPITA EXPENDITURE ON POLICE PROTECTION IN 1959LF LABOUR FORCE PARTICIPATION RATE OF CIVILIAN URBAN MALES IN THE AGE-GROUP 14-24M.F NUMBER OF MALES PER 100 FEMALES
POP STATE POPULATION IN 1960 IN HUNDRED THOUSANDS
NW PERCENTAGE OF NONWHITES IN THE POPULATION
U1 UNEMPLOYMENT RATE OF URBAN MALES 14–24U2 UNEMPLOYMENT RATE OF URBAN MALES 35–39WEALTH WEALTH: MEDIAN VALUE OF TRANSFERABLE ASSETS OR FAMILY INCOME
INEQ INCOME INEQUALITY: PERCENTAGE OF FAMILIES EARNING BELOW HALF THE MEDIAN INCOME
PROB PROBABILITY OF IMPRISONMENT: RATIO OF NUMBER OF COMMITMENTS TO NUMBER OF OFFENSES
TIME AVERAGE TIME IN MONTHS SERVED BY OFFENDERS IN STATE PRISONS BEFORE THEIR FIRST RELEASE
CRIME CRIME RATE: NUMBER OF OFFENSES PER 100,000 POPULATION IN 1960
Sono presenti 47 osservazioni, ognuna con i dati aggregati diun diverso stato americano
6 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
OLS: RISULTATI
Table: Indici VIF
M Ed Po1 Po2 LF M.F Pop NW U1 U2 Wealth Ineq Prob Time3.64 5.07 79.09 87.4 2.32 4.22 3.26 3.54 5.86 4.47 11.95 9.16 4.49 3.78
MSE = 0.108233 — κ-Condition number = 424.0668
7 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
PROBLEMATICHE
1. Dipendenze non lineari (log-transform)
2. Piu variabili che osservazioni (Shrinkage Methods)
3. Multicollinearita (Ridge Regression)
4. Variabili ridondanti (Lasso ed Elastic Net)
8 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
SHRINKAGE METHODS
Metodi di stima con coefficienti ”portati verso lo zero” tramiteparametro di shrinkage λ
I Aumento del bias
I Riduzione dellavarianza
I Stima piu precisa peropportuna scelta di λ
9 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
RIDGE REGRESSION
Stima dei coefficienti β di Y = Xβ + ε con
βRidge = argminn∑
i=1
(yi − β0 −
p∑j=1
βjxij
)2
+ λp∑
j=1β2
j
I βRidge = (XTX + λI)−1XTY
I det(XTX + λI) 6= 0
I Meno gradi di liberta⇒ Beneanche quando p > n
10 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
RIDGE REGRESSION: PROBLEMATICHE
I β >> 0 nel modelloreale⇒ Performancenon ottimali
I βiRidge
difficilmenteuguale a zero⇒ Nonadatto per VariableSelection
11 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
RIDGE REGRESSION: RISULTATI
MSE = 0.082783 — Minimum λ = 0.037
12 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
LASSO
βLasso = argminn∑
i=1
(yi − β0 −
p∑j=1
βjxij
)2
+ λp∑
j=1
∣∣βj∣∣
13 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
LASSO: VANTAGGI E PROBLEMATICHE
I βiLasso
non significativiposti a zero⇒ Ideale perVariable Selection
I Bene quando e spiccatal’importanza di ungruppo ristretto diparametri
I Quando p >> n, Lassoseleziona al piu n variabili
I Di solito con n > p RidgeRegression meglio diLasso
I Da un gruppo di variabilicorrelate ne viene sceltasolo una
14 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
LASSO: VANTAGGI E PROBLEMATICHE-2
All’aumentare dei gradi di lib-erta (i.e. al diminuire di λ), iβi delle variabili importanti au-mentano drasticamente; quellimeno significativi tendono a ri-manere uguali a zero
Il Lasso tende a selezionaresolo uno dei geni di un path-way, perdendo l’interazione frai geni
15 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
LASSO: RISULTATI
MSE = 0.072829 — Minimum λ = 0.013
16 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
ELASTIC NET
βNEN = argminn∑
i=1
(yi − β0 −
p∑j=1
βjxij
)2
+ λ1
p∑j=1
∣∣βj∣∣+ λ2
p∑j=1
β2j
17 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
ELASTIC NET-2
Combina Lasso e Ridge Regression. Seleziona variabili piuimportanti (Lasso), e altre variabili escluse (Ridge Regression),eventualmente correlate con quelle del Lasso.
Spesso e infatti interessante selezionare un gruppo intero divariabili correlate (ad esempio per pathway e microarray)
Per migliorare le performance rispetto alla versione Naive⇒ βEN = (1 + λ2)β
NEN
Sui nostri dati Elastic Net non apporta miglioramenti rispetto aLasso
18 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
I METODI A CONFRONTO
VARIABILE OLS RIDGE LASSOIntercept 6.7427 6.7435 6.7436M 0.1243 0.0464 0.0794ED 0.3296 0.0495 0.1199PO1 0.5548 0.0816 0.2453PO2 -0.3210 0.0718 0LF -0.0559 0.0146 0M.F -0.0069 0.0408 0.0175POP -0.0698 0.0053 0NW 0.1046 0.0592 0.0621U1 -0.5670 -0.0071 0U2 0.1611 0.0470 0.0519WEALTH 0.1601 0.0235 0INEQ 0.3817 0.0516 0.1187PROB -0.0834 -0.0392 -0.0345TIME 0.0441 0.0289 0.0113MSE 0.1082 0.0827 0.0728
19 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
LARS
Algoritmo per la selezione del modello per regressione lineare
I Evoluzione diForward StagewiseSelection
I Computazionalmenteefficiente
I Indicato per altadimensionalita, ameno dimulticollinearita
20 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
LARS: L’ALGORITMO
1. Inizializza vettore β = 02. Scegli la variabile xj piu correlata col vettore dei residui
corrente3. Incrementa βj il piu possibile fin quando una variabile xk
ha correlazione con i residui pari a quella di xj
4. Varia (βj, βk) muovendoti in direzione equiangolare tra xj exk
5. Continua fin quando tutti i predittori sono stati inseriti nelmodello
21 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
CONCLUSIONI
22 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
FINE
GRAZIE PER L’ATTENZIONE
23 / 23