Statistique : Modèle de régression linéaire : formulation, … · 2015-02-16 · Statistique : Modèle de régression linéaire : formulation, résolution, analyse de performance

Statistique : Modèle derégression linéaire :

formulation, résolution,analyse de performance

Introduction régression

Moindres carrésuni-dimensionnels

Moindres carrésmulti-dimensionnels

Joseph Salmon

Statistique : Modèle de régression linéaire :formulation, résolution, analyse de performance

Joseph Salmon

Septembre 2014

Fondamentaux pour le Big Data c© Télécom ParisTech 1/16






Joseph Salmon

Plan du cours


Moindres carrés uni-dimensionnels

Moindres carrés multi-dimensionnels







Joseph Salmon

Exemple en dimension deuxExemple : distance de freinage d’une voiture en fonction de lavitesse (50 mesures)

Dataset cars :https://forge.scilab.org/index.php/p/rdataset/source/file/master/csv/datasets/cars.csv


https://forge.scilab.org/index.php/p/ rdataset/source/file/master/csv/datasets/cars.csv






Joseph Salmon

Exemple en dimension deuxExemple : distance de freinage d’une voiture en fonction de lavitesse (50 mesures)

Dataset cars :https://forge.scilab.org/index.php/p/rdataset/source/file/master/csv/datasets/cars.csv


https://forge.scilab.org/index.php/p/ rdataset/source/file/master/csv/datasets/cars.csv






Joseph Salmon

Modélisation I

Jeu d’observations : (yi, xi), pour i = 1, . . . , n

Hypothèse de modèle linéaire ou de régression linéaire :

yi ≈ θ∗0 + θ∗1xi

I θ∗1 coefficient directeurI θ∗0 ordonnée à l’origine

Rem: Les deux paramètres sont inconnus du statisticien

DéfinitionI y est une observation ou une variable à expliquerI x est une variable explicative ou feature en anglais







Joseph Salmon

Interprétation des notations

Exemple : dataset carsI n = 50

I yi : temps de freinage de la voiture iI xi : vitesse de la voiture iI x : l’observation est le temps de freinageI y : la variable explicative est la vitesseI l’hypothèse de la régression linéaire/modèle linéaire revient à

postuler que le temps de freinage d’une voiture estproportionnel à sa vitesse (ou plutôt affine)

McKinney (2012) : python pour les statistiques







Joseph Salmon

Modélisation IIOn donne un sens au symbole ≈ de la manière suivante :

Modèle probabiliste

yi = θ∗0 + θ∗1xi + εi,

εii.i.d∼ ε, pour i = 1, . . . , n

E(ε) = 0

Interprétationεi = yi − θ∗0 − θ∗1xi : erreur(s) entre le modèle théorique et lesobservations, représentées par des variables aléatoires εi centrées(on parle aussi de bruit blanc).

Rem: L’aspect aléatoire peut avoir diverses causes : bruit demesures, bruit de transmission, variabilité dans une population,etc.







Joseph Salmon

Modélisation III

Objectif

Estimer θ0 et θ1 par des quantités θ0 et θ1 dépendant desobservations (yi, xi) pour i = 1, . . . , n







Joseph Salmon

Estimateur des moindres carrés :visualisation







Joseph Salmon

Estimateur des moindres carrés :visualisation







Joseph Salmon

Estimateur des moindres carrés :formalisation

θ = (θ0, θ1) ∈ arg min(θ0,θ1)∈R2

n∑i=1

|yi − θ0 − θ1xi|2

On cherche donc à minimiser une fonction de deux variables :

f(θ0, θ1) = f(θ) =

n∑i=1

(yi − θ0 − θ1xi)2

Solution :

θ0 = yn − θ1xn

θ1 =

∑ni=1(xi − xn)(yi − yn)∑n

i=1(xi − xn)2

Rem: la formule est vraie ssi x = (x1, . . . , xn)> est non constant







Joseph Salmon

Définitions

PrédicteurOn appelle prédicteur une fonction qui à une nouvelle valeur dela variable explicative xn+1 propose une estimation de la variableà expliquer

pred(xn+1) = θ0 + θ1xn+1

Rem: Souvent on note yn+1 = pred(xn+1) s’il n’y pasd’ambiguité

RésidusOn appelle résidu d’un prédicteur la différence entre la valeurobservée et la valeur du prédicteur prise pour une valeur de lavariable explicative observée :

ri = yi − pred(xi) = yi − yi = yi − (θ0 + θ1xi)







Joseph Salmon

Vers des modèles avec multi-variésVolume d’arbres en fonction de leur hauteur / circonférence

Dataset trees : http://vincentarelbundock.github.io/Rdatasets/csv/datasets/trees.csv


http://vincentarelbundock.github.io/Rdatasets/csv/datasets/trees.csv






Joseph Salmon

Vers des modèles avec multi-variésVolume d’arbres en fonction de leur hauteur / circonférence

Dataset trees : http://vincentarelbundock.github.io/Rdatasets/csv/datasets/trees.csv


http://vincentarelbundock.github.io/Rdatasets/csv/datasets/trees.csv






Joseph Salmon

ModélisationOn dispose de p variables explicatives

Modèle en dimension p

yi = θ∗0 +

p∑j=1

θ∗jxi,j + εi

εii.i.d∼ ε, pour i = 1, . . . , n

E(ε) = 0

De manière équivalente :y1 = θ∗0 +

∑pj=1 θ

∗jx1,j + ε1

...yn = θ∗0 +

∑pj=1 θ

∗jxn,j + εn

Lejeune (2010) concernant le modèle linéaire (notamment)







Joseph Salmon

Dimension p

Modéle matriciel y1...yn

=

1 x1,1 . . . x1,p...

.... . .

...1 xn,1 . . . xn,p

θ∗0θ∗1...θ∗p

+

ε1...εn

y =

y1...yn

X =

1 x1,1 . . . x1,p...

.... . .

...1 xn,1 . . . xn,p

θ∗ =

θ∗0θ∗1...θ∗p

ε =

ε1...εn

y = Xθ∗ + ε ou yi = 〈Xi,:,θ∗〉+ εi pour i = 1, . . . , n

Rem: θ∗ est le vrai paramètre du modèle que l’on veut retrouver.Rem: On note aussi parfois X = (1n,x1, . . . ,xp)







Joseph Salmon

Estimateur des moindres carrés

θ ∈ arg minθ∈Rp+1

(‖y −Xθ‖22

)=

n∑i=1

yi −θ0 +

p∑j=1

θjxi,j

2

Équations normales

La CNO nous assure que le minimiseur θ satisfait l’équation :

(X>X)θ = X>y

Rem: résidus orthogonaux aux variables X>(Xθ − y) = 0

Formule ferméeSi la matrice X est de plein rang (i.e., si X>X inversible)

θ = (X>X)−1X>y







Joseph Salmon

Références I

M. Lejeune.Statistiques, la théorie et ses applications.Springer, 2010.

W. McKinney.Python for Data Analysis : Data Wrangling with Pandas, NumPy, andIPython.O’Reilly Media, 2012.


Documents

Statistique : Modèle de régression linéaire : formulation, … · 2015-02-16 · Statistique : Modèle de régression linéaire : formulation, résolution, analyse de performance