Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
Statistique : Modèle derégression linéaire :
formulation, résolution,analyse de performance
Introduction régression
Moindres carrésuni-dimensionnels
Moindres carrésmulti-dimensionnels
Joseph Salmon
Statistique : Modèle de régression linéaire :formulation, résolution, analyse de performance
Joseph Salmon
Septembre 2014
Fondamentaux pour le Big Data c© Télécom ParisTech 1/16
Statistique : Modèle derégression linéaire :
formulation, résolution,analyse de performance
Introduction régression
Moindres carrésuni-dimensionnels
Moindres carrésmulti-dimensionnels
Joseph Salmon
Plan du cours
Introduction régression
Moindres carrés uni-dimensionnels
Moindres carrés multi-dimensionnels
Fondamentaux pour le Big Data c© Télécom ParisTech 2/16
Statistique : Modèle derégression linéaire :
formulation, résolution,analyse de performance
Introduction régression
Moindres carrésuni-dimensionnels
Moindres carrésmulti-dimensionnels
Joseph Salmon
Exemple en dimension deuxExemple : distance de freinage d’une voiture en fonction de lavitesse (50 mesures)
Dataset cars :https://forge.scilab.org/index.php/p/rdataset/source/file/master/csv/datasets/cars.csv
Fondamentaux pour le Big Data c© Télécom ParisTech 3/16
Statistique : Modèle derégression linéaire :
formulation, résolution,analyse de performance
Introduction régression
Moindres carrésuni-dimensionnels
Moindres carrésmulti-dimensionnels
Joseph Salmon
Exemple en dimension deuxExemple : distance de freinage d’une voiture en fonction de lavitesse (50 mesures)
Dataset cars :https://forge.scilab.org/index.php/p/rdataset/source/file/master/csv/datasets/cars.csv
Fondamentaux pour le Big Data c© Télécom ParisTech 4/16
Statistique : Modèle derégression linéaire :
formulation, résolution,analyse de performance
Introduction régression
Moindres carrésuni-dimensionnels
Moindres carrésmulti-dimensionnels
Joseph Salmon
Modélisation I
Jeu d’observations : (yi, xi), pour i = 1, . . . , n
Hypothèse de modèle linéaire ou de régression linéaire :
yi ≈ θ∗0 + θ∗1xi
I θ∗1 coefficient directeurI θ∗0 ordonnée à l’origine
Rem: Les deux paramètres sont inconnus du statisticien
DéfinitionI y est une observation ou une variable à expliquerI x est une variable explicative ou feature en anglais
Fondamentaux pour le Big Data c© Télécom ParisTech 5/16
Statistique : Modèle derégression linéaire :
formulation, résolution,analyse de performance
Introduction régression
Moindres carrésuni-dimensionnels
Moindres carrésmulti-dimensionnels
Joseph Salmon
Interprétation des notations
Exemple : dataset carsI n = 50
I yi : temps de freinage de la voiture iI xi : vitesse de la voiture iI x : l’observation est le temps de freinageI y : la variable explicative est la vitesseI l’hypothèse de la régression linéaire/modèle linéaire revient à
postuler que le temps de freinage d’une voiture estproportionnel à sa vitesse (ou plutôt affine)
McKinney (2012) : python pour les statistiques
Fondamentaux pour le Big Data c© Télécom ParisTech 6/16
Statistique : Modèle derégression linéaire :
formulation, résolution,analyse de performance
Introduction régression
Moindres carrésuni-dimensionnels
Moindres carrésmulti-dimensionnels
Joseph Salmon
Modélisation IIOn donne un sens au symbole ≈ de la manière suivante :
Modèle probabiliste
yi = θ∗0 + θ∗1xi + εi,
εii.i.d∼ ε, pour i = 1, . . . , n
E(ε) = 0
Interprétationεi = yi − θ∗0 − θ∗1xi : erreur(s) entre le modèle théorique et lesobservations, représentées par des variables aléatoires εi centrées(on parle aussi de bruit blanc).
Rem: L’aspect aléatoire peut avoir diverses causes : bruit demesures, bruit de transmission, variabilité dans une population,etc.
Fondamentaux pour le Big Data c© Télécom ParisTech 7/16
Statistique : Modèle derégression linéaire :
formulation, résolution,analyse de performance
Introduction régression
Moindres carrésuni-dimensionnels
Moindres carrésmulti-dimensionnels
Joseph Salmon
Modélisation III
Objectif
Estimer θ0 et θ1 par des quantités θ0 et θ1 dépendant desobservations (yi, xi) pour i = 1, . . . , n
Fondamentaux pour le Big Data c© Télécom ParisTech 8/16
Statistique : Modèle derégression linéaire :
formulation, résolution,analyse de performance
Introduction régression
Moindres carrésuni-dimensionnels
Moindres carrésmulti-dimensionnels
Joseph Salmon
Estimateur des moindres carrés :visualisation
Fondamentaux pour le Big Data c© Télécom ParisTech 9/16
Statistique : Modèle derégression linéaire :
formulation, résolution,analyse de performance
Introduction régression
Moindres carrésuni-dimensionnels
Moindres carrésmulti-dimensionnels
Joseph Salmon
Estimateur des moindres carrés :visualisation
Fondamentaux pour le Big Data c© Télécom ParisTech 9/16
Statistique : Modèle derégression linéaire :
formulation, résolution,analyse de performance
Introduction régression
Moindres carrésuni-dimensionnels
Moindres carrésmulti-dimensionnels
Joseph Salmon
Estimateur des moindres carrés :formalisation
θ = (θ0, θ1) ∈ arg min(θ0,θ1)∈R2
n∑i=1
|yi − θ0 − θ1xi|2
On cherche donc à minimiser une fonction de deux variables :
f(θ0, θ1) = f(θ) =
n∑i=1
(yi − θ0 − θ1xi)2
Solution :
θ0 = yn − θ1xn
θ1 =
∑ni=1(xi − xn)(yi − yn)∑n
i=1(xi − xn)2
Rem: la formule est vraie ssi x = (x1, . . . , xn)> est non constant
Fondamentaux pour le Big Data c© Télécom ParisTech 10/16
Statistique : Modèle derégression linéaire :
formulation, résolution,analyse de performance
Introduction régression
Moindres carrésuni-dimensionnels
Moindres carrésmulti-dimensionnels
Joseph Salmon
Définitions
PrédicteurOn appelle prédicteur une fonction qui à une nouvelle valeur dela variable explicative xn+1 propose une estimation de la variableà expliquer
pred(xn+1) = θ0 + θ1xn+1
Rem: Souvent on note yn+1 = pred(xn+1) s’il n’y pasd’ambiguité
RésidusOn appelle résidu d’un prédicteur la différence entre la valeurobservée et la valeur du prédicteur prise pour une valeur de lavariable explicative observée :
ri = yi − pred(xi) = yi − yi = yi − (θ0 + θ1xi)
Fondamentaux pour le Big Data c© Télécom ParisTech 11/16
Statistique : Modèle derégression linéaire :
formulation, résolution,analyse de performance
Introduction régression
Moindres carrésuni-dimensionnels
Moindres carrésmulti-dimensionnels
Joseph Salmon
Vers des modèles avec multi-variésVolume d’arbres en fonction de leur hauteur / circonférence
Dataset trees : http://vincentarelbundock.github.io/Rdatasets/csv/datasets/trees.csv
Fondamentaux pour le Big Data c© Télécom ParisTech 12/16
Statistique : Modèle derégression linéaire :
formulation, résolution,analyse de performance
Introduction régression
Moindres carrésuni-dimensionnels
Moindres carrésmulti-dimensionnels
Joseph Salmon
Vers des modèles avec multi-variésVolume d’arbres en fonction de leur hauteur / circonférence
Dataset trees : http://vincentarelbundock.github.io/Rdatasets/csv/datasets/trees.csv
Fondamentaux pour le Big Data c© Télécom ParisTech 12/16
Statistique : Modèle derégression linéaire :
formulation, résolution,analyse de performance
Introduction régression
Moindres carrésuni-dimensionnels
Moindres carrésmulti-dimensionnels
Joseph Salmon
ModélisationOn dispose de p variables explicatives
Modèle en dimension p
yi = θ∗0 +
p∑j=1
θ∗jxi,j + εi
εii.i.d∼ ε, pour i = 1, . . . , n
E(ε) = 0
De manière équivalente :y1 = θ∗0 +
∑pj=1 θ
∗jx1,j + ε1
...yn = θ∗0 +
∑pj=1 θ
∗jxn,j + εn
Lejeune (2010) concernant le modèle linéaire (notamment)
Fondamentaux pour le Big Data c© Télécom ParisTech 13/16
Statistique : Modèle derégression linéaire :
formulation, résolution,analyse de performance
Introduction régression
Moindres carrésuni-dimensionnels
Moindres carrésmulti-dimensionnels
Joseph Salmon
Dimension p
Modéle matriciel y1...yn
=
1 x1,1 . . . x1,p...
.... . .
...1 xn,1 . . . xn,p
θ∗0θ∗1...θ∗p
+
ε1...εn
y =
y1...yn
X =
1 x1,1 . . . x1,p...
.... . .
...1 xn,1 . . . xn,p
θ∗ =
θ∗0θ∗1...θ∗p
ε =
ε1...εn
y = Xθ∗ + ε ou yi = 〈Xi,:,θ∗〉+ εi pour i = 1, . . . , n
Rem: θ∗ est le vrai paramètre du modèle que l’on veut retrouver.Rem: On note aussi parfois X = (1n,x1, . . . ,xp)
Fondamentaux pour le Big Data c© Télécom ParisTech 14/16
Statistique : Modèle derégression linéaire :
formulation, résolution,analyse de performance
Introduction régression
Moindres carrésuni-dimensionnels
Moindres carrésmulti-dimensionnels
Joseph Salmon
Estimateur des moindres carrés
θ ∈ arg minθ∈Rp+1
(‖y −Xθ‖22
)=
n∑i=1
yi −θ0 +
p∑j=1
θjxi,j
2
Équations normales
La CNO nous assure que le minimiseur θ satisfait l’équation :
(X>X)θ = X>y
Rem: résidus orthogonaux aux variables X>(Xθ − y) = 0
Formule ferméeSi la matrice X est de plein rang (i.e., si X>X inversible)
θ = (X>X)−1X>y
Fondamentaux pour le Big Data c© Télécom ParisTech 15/16
Statistique : Modèle derégression linéaire :
formulation, résolution,analyse de performance
Introduction régression
Moindres carrésuni-dimensionnels
Moindres carrésmulti-dimensionnels
Joseph Salmon
Références I
M. Lejeune.Statistiques, la théorie et ses applications.Springer, 2010.
W. McKinney.Python for Data Analysis : Data Wrangling with Pandas, NumPy, andIPython.O’Reilly Media, 2012.
Fondamentaux pour le Big Data c© Télécom ParisTech 16/16