42
Régression Linéaire – Bases Guillaume Fürst [email protected]

Régression Linéaire Bases - gfurst.netgfurst.net/docs/Furst_2013_regression_lineaire.pdf · Vue d’ensemle Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université

  • Upload
    buianh

  • View
    234

  • Download
    0

Embed Size (px)

Citation preview

Régression Linéaire – Bases

Guillaume Fürst [email protected]

Vue d’ensemble

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 2

Variable Latente 1

i1 i2 i3 i4 i5

Variable Latente 2

i6 i7 i8 i9 i10

Passation des questionnaires

Analyse factorielle

Régression Linéaire (Simple ou Multiple)

Analyse de la fidélité

Analyse de la validité

Analyse des propriétés psychométriques des questionnaires

Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM

• Variance: représente la moyenne des écarts à la moyenne . Mesure de la diversité. Une variable sans variance est une constante.

• Covariance: représente la variance partagée entre deux variables. Indices non normé, peut varier entre -∞ et +∞.

• Scores z (standardisés): Mesure de position standardisée. Situe chaque observation par rapport à la moyenne, en unité d’écart-type.

• Corrélation: Covariance standardisée. Bornée entre -1 et +1. La covariance entre deux variables standardisées (scores z) est une corrélation.

Rappel: variance, covariance, corrélation

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 3

Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM

• La significativité statistique indique si un effet est différent de 0.

• La taille d’effet donne plus d’information sur la magnitude de cet effet.

• Ces deux informations sont différentes et indépendante l’une de l’autre

• (L’estimation de la taille d’effet dépend de la fidélité de la mesure.)

Rappel: taille d’effet et significativité

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 4

Pas d’effet Relation assez forte Relation très forte

Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM

• La régression simple permet de tester le lien entre deux variables:

– La variable dépendante (VD) toujours est continue

– La variable indépendante (VI) est continue ou dichotomique/muette (avec des valeurs de 0 ou 1)

• Par défaut, le lien testé en deux variables continues est linéaire (mais certaines méthode permettent de tester des relations non-linéaires)

• La régression simple avec une variable dichotomique est équivalente au test t.

• La régression simple avec deux variables continues est similaire à la corrélation.

• Le principe général est d’estimer une droite qui passe au mieux au travers de toutes les données

• Paramètres estimés:

– Intercepte: scores sur la VD pour les personnes qui ont 0 sur la VI;

– Pente: progression moyenne sur la VD pour une valeur de 1 sur la VI;

– Résidus: partie de la variance non expliquée par la le lien entre VI et VD.

La régression simple (RLS): principe

http://hadm.sph.sc.edu/courses/J716/demos/leastsquares/leastsquaresdemo.html

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 5

Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM

La régression simple (RLS): principe

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 6

Relation linéaire entre variables continues

Relation entre une variable dichotomique et une continue

Relation non- linéaire entre variables continues

Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM

• Equation dans la population:

Yi = β0 + β1*xi + εi

• Equation dans l’échantillon

Yi = b0 + b1*xi + ri

• Hypothèses nulles

– Pour l’intercepte:

• H0 : β0 = 0

• H1 : β0 ≠ 0

– Pour la pente:

• H0 : β1 = 0

• H1 : β1 ≠ 0

RLS – Modèle et hypothèses nulles

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 7

Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM

• Valeurs extrêmes : surveiller les valeurs extrêmes, avec un grand résidu, qui peut influencer l’estimation)

RLS – Postulats et résidus

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 8

Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM

• Graphs à faire :

– Histogramme des résidus. On attends la normalité.

– Scatterplot « valeurs prédites vs. résidus ». Homogénéité de la variance

• Postulats:

– Indépendance des observations

– Normalité des résidus

– Homogénéité de la variance

– Pas de valeurs extrêmes

• Intercepte

– Taille d’effet: b0

– Significativité: testée avec un test t.

• Pente

– Taille d’effet: bx ou « Betax » (standardisé)

– Significativité: testée avec un test t.

• R2: Proportion de variance expliquée

– Paramètre standardisé par nature.

– Varie entre 0 et 1. S’exprimer aussi en %

– Significativité testée avec un test F.

RLS – Paramètres estimés

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 9

Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM

• Le sens VI et VD est motivé théoriquement.

• Ce sens n’a que très peu d’incidence sur l’analyse statistique.

• La régression ne démontre JAMAIS la causalité.

• La causalité se démontre/contrôle méthodologiquement; trois points clés:

1. Lien entre deux variable

2. Antériorité temporelle de la cause

3. Exclusion de tous les autres facteurs potentiels

Horrible mais pourtant vrai :

Aucune analyse statistique

ne peut démontrer la causalité

Régression et causalité

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 10

Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM

• Point communs avec la RLS

– Même principe, même estimation.

– Mêmes postulats, même diagnostique.

Régression Linéaire Multiple (RLM)

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 11

• Points spécifiques:

– Plus de paramètres estimées

– Equation avec plusieurs pentes

Yi = β0 + β1*xi + β2*xi + … + εi

– Espace en « n » dimension au lieu de 2

– Les estimations des pentes ne sont plus directement analogues à la corrélation

– Attention à la multi-colinéarité. Vérifier la tolérance (= 1 – R2). Doit être supérieure à .10.

http://la-dimension4.com/Hyperplans.html

Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM

Lectures

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 12

• Field, A. (2007). Discovering Statistics Using SPSS. SAGE Publications Ltd.

– Chapitre 5 “Exploring assumptions”, pp. 131-136

– Chapitre 6 “Correlation”, pp. 166-172

– Chapitre 7 “Regression”, pp. 197-209

• Videos Qualtrics: http://www.youtube.com/watch?v=Q9YW9RAM9jQ&list=PLFF2F7C1E49A04697

Régression – Thèmes avancés

Guillaume Fürst [email protected]

Inférence – vue d’ensemble des tests

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 14

Nom du test / Analyse statistique

Distribution pour le test de significativté Degré de liberté

Indice de la taille d'effet

Chi carré Χ2 Nb de catégorie -1 Cohen’s w

Test t t (ng1+ng2) - 2 Cohen’s d

ANOVA F ddl1: Ng-1, ddl2: n-Ng η2

Corrélation t N – 2 r ou r2

Exemple des formules pour le test t :

http://wiki.opossem.org/index.php?title=Statistical_distributions

Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations

Taille d’effet et significativité en régression

• Rappel pour la corrélation

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 15

• Pour l’intercepte en RLS:

• Pour la pente en RLS:

T

T

T

Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations

R2 et R2 ajusté

• Le R2 représente la taille d’effet totale, la variance expliquée de Y

R2 = 1 - 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑟é𝑠𝑖𝑑𝑢𝑒𝑙𝑙𝑒

𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑡𝑜𝑡𝑎𝑙𝑒

• Le test F permet de tester si le R2 est différent de 0:

F = 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑒𝑥𝑝𝑙𝑖𝑞𝑢é𝑒

𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑟é𝑠𝑖𝑑𝑢𝑒𝑙𝑙𝑒

dl1: p-1, ddl2: n-p

• R2 ajusté:

Permet de prendre en compte:

– La taille d’échantillon (n)

– Le nombre de paramètre dans le modèle (p)

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 16

http://en.wikipedia.org/wiki/F-distribution

Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations

Intervalle de confiance: principe

• Caractéristiques générales de l’IC :

– L’IC permet d’estimer un intervalle dans lequel se trouve probablement la vraie valeur de la population

– L’IC dépend de l’erreur standard d’un paramètre, l’erreur d’estimation.

– Plus l’échantillon (n) est grand, plus petite sera l’erreur d’estimation

– Plus la taille de l’échantillon (n) est grande, plus l’IC sera étroit.

– Plus l’IC est étroit, plus nous avons confiance que l’estimation ponctuelle est proche de la vraie valeur de la population.

IC(95%) = [limité inférieure; limite supérieure]

Limite inférieure= point estimé du paramètre – Quantile de la loi t (n-p) * Erreur standard du paramètre

Limite supérieure= point estimé du paramètre + Quantile de la loi t (n-p) * Erreur standard du paramètre

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 17

Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations

Exemple – paramètres estimés

• Intercepte – b0≈ 0

– t(108) ≈ 0; p ≈ 1

– IC(95%)=[-0.27; 0.27]

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 18

• R2

– R2 = 0.17

– R2 ajusté = 0.16

– F(2,108)=11.63; p < .001

• Pente de Generation – b1 (brute) = 0.76

– b1 (standardisée) = 0.43

– t(108)= 4.8; p < .001

– IC(95%)=[-0.45; 1.08]

Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations

Détecter les valeurs extrêmes

• Graphiques exploratoires avant l’analyse (insuffisant pour la RLM)

• Taille des résidus (mais ce n’est pas la meilleure méthode)

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 19

• Distance de Cook Représente l’influence d’une observation sur l’estimation. Doit être inférieure à 1 pour toutes les observations.

• Distance de Mahalanobis Distance qui représente l’éloignement à la moyenne. Voir les recommandations ci-contre pour les valeurs limites.

Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations

Exemple – Valeurs extrêmes

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 20

Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations

Normalité

• Utiliser avant tout les graphiques

• Skewness et Kurtosis

– Estimations inférieures à |1|

– Estimation/erreur standard < 2

• Tests de normalité (Kolmogorov-Smirnov)

– Permet de savoir si notre distribution est significativement différente d’une normale

– On veut une p-valeur non-significative.

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 21

Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations

Transformations

• On distingue:

– Transformation linéaire: ne modifie pas la distribution (p. ex. score z)

– Transformation non-linéaire: modifie la distribution

• Souvent utilisé pour corriger l’asymétrie – Transformation log

– Transformation racine carré

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 22

• Après transformation, l’équation n’est plus la même. Par exemple:

Log(Y) = b0 + b1*xi Y = Exp(b0) + Exp(b1*xi )

• La relation entre les variables n’est plus linéaire

• Voir aussi

– Field (2007), chap. 5, pp. 153-156

– http://stattrek.com/regression/linear-transformation.aspx

Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations

Transformations – normalité univariée

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 23

Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations

Transformations – relation non-linéaire

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 24

http://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-data

Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations

Transformations – relation non-linéaire

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 25

htt

p:/

/ww

w3

.nd

.ed

u/~

rwill

iam

/sta

ts2

/l6

1.p

df

Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations

Variable muette – cas simple classique

• Contexte:

– Une variable continue (VD)

– Une variable nominale à 2 modalités (VI)

=> Il s’agit du cas typique pour un test t ou une ANOVA

• Mais on peut aussi faire :

– Une corrélation bisérielle de point

– Et, bien sûr, une régression!

• Principe de base: On recode la variable nominale:

– On attribue la valeur de 0 à un groupe

– Et la valeur de 1 à l’autre groupe

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 26

variable

originale

variable

recodée

oui 1

oui 1

oui 1

non 0

oui 1… …

Voir aussi A. Field, pp. 253-256

Variable muette – exemple

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 27

• Corrélation et régression

Variable muette – exemple

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 28

• Test t et ANOVA

Régression hiérarchique – principe

• Appelée aussi régression stewipse ou par étape.

• A ne pas confondre avec modèle hiérarchique (multi-niveaux).

• Principe: on ne met pas tous les prédicteurs d’un seul coup; on entre les prédicteurs par étapes dans le modèle de régression :

– soit par importance théorique (cf. exemple ci-dessous);

– soit par importance statistique (e.g., prédicteurs les plus forts en premiers).

• Intérêt: permet de donner une priorité théorique à certains prédicteurs.

• Utile seulement si les prédicteurs corrèlent.

• Exemple de stratégie guidée par la théorie:

– Entrer d’abord les variables contrôles

– Entrer ensuite les prédicteurs principaux, éventuellement avec interaction

– Entrer éventuellement d’autre prédicteurs pour voir si on peut augmenter le R2

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 29

Tester une différence de R2

• Pour tester la pertinence de l’ajout de prédicteurs supplémentaires, on compare les modèles (variance expliquée).

• Utile si plusieurs prédicteurs sont ajoutés (pour l’ajout d’un seul prédicteur, le test de différence de R2 est redondant avec le test de la pente).

• La comparaison peut se faire:

– Avec le R2 ajusté : si le R2 ajusté ne change pas ou très peu, on peut conclure que dans l’ensemble les prédicteurs ne sont pas utiles

– Avec un test de différence de R2 : si le résultat du test est significatif, on peut conclure que l’ajout de prédicteur permet vraiment d’améliorer la quantité de variance.

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 30

Tester une différence de R2

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 31

Interaction – principe et test

• Il y a interaction lorsque que l’effet d’un prédicteur sur une VD est modifié par un autre prédicteur.

• Les 2 deux effets principaux des prédicteurs sont bien dissociables de l’interaction

• Exemples d’interaction

– Vitesse et alcool au volant

– Pilule et cigarette

– Motivation et récompense

• Marche à suivre pour tester une interaction

– Centrer ou standardiser les 2 prédicteurs

– Créer une nouvelle variable, produit de ces 2 prédicteurs

– Tester les 3 effets en RLM

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 32

Modération et médiation

Guillaume Fürst [email protected]

RLM: vue d’ensemble

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 5, dia. 34

• Analyses exploratoires et descriptives (séance 1-3)

– Histogramme (et boxplot)

– Scatterplot

– Statistiques descriptives (moyenne, écart-type, min. et max., asymétrie, aplatissement)

– (test de normalité)

• Estimation du modèle (séance 2 et 3)

– Introduire les bonnes variables

– Évent. créer une variable d'interaction

– voir les options dans cours séance 3

• Diagnostic (séance 2 et 3)

– Normalité des résidus (graphs, skewness, kurtosis, test de normalité)

– Homogénéité de la variance (graph)

– Valeurs extrêmes (Cook, Mahalanobis)

• Interprétation (séance 2-4)

– Quels prédicteurs sont significatifs?

– Taille d'effet des prédicteurs significatifs

– Quel est le prédicteur le plus important?

– Variance totale expliquée (R2)

• A faire éventuelle en plus

– Ré-estimation du modèle après transformation (séance 4)

• Pour résoudre un problème de résidus

• Et/ou pour tester un effet non-linéaire

– Ré-estimation du modèle sans valeurs extrêmes (séance 3-5)

– Comparaison de modèle (si régression hiérarchique) (séance 4)

• Différence de R2

• Test de différence de R2

– Graph d’interaction (séance 5)

– Estimation de plusieurs modèles pour tester un effet de médiation (séance 5)

Médiation et interaction

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 35

Interaction – principe et test

• Il y a interaction lorsque que l’effet d’un prédicteur sur une VD est modifié par un autre prédicteur.

• Les 2 deux effets principaux des prédicteurs sont bien dissociables de l’interaction

• Exemples d’interaction

– Vitesse et alcool au volant

– Pilule et cigarette

– Motivation et récompense

• Marche à suivre pour tester une interaction

– Centrer ou standardiser les 2 prédicteurs

– Créer une nouvelle variable, produit de ces 2 prédicteurs

– Tester les 3 effets en RLM

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 5, dia. 36

Interaction – Gaph. 1

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 5, dia. 37

• Intercepte: b0 = 1.54

• Pentes standardisées: – bExtraversion = -0.41

– bNeuroticisme = 0.31

– bInteraction = -0.16

Interaction – Graph. 2

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 5, dia. 38

• Feuille Excel (répertoire séance 5 -> analyses) interaction_2-way_standardised.xls

• Permet de faire le graph d’interaction à partir des coefficients sdandardisés

• « high » représente une personne avec un score d’un écart-type supérieur à la moyenne (score de +1).

• « low » représente une personne avec un score d’un écart-type inférieur à la moyenne (score de -1).

Médiation – principe

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 5, dia. 39

• Il y a médiation lorsque la relation entre deux variables X et Y est expliquée par une troisième variable M.

• Exemples de médiation

– Motivation -> Temps passé -> Performance

– Stress -> Rumination -> Dépression

• Pour tester une médiation, il faut estimer plusieurs modèles:

1. Relation entre variable X et Y

2. Relation entre M et Y

3. Relation entre X et M

4. Prédiction de Y par M et X

• Plusieurs issues possibles

– Les conditions minimales ne sont pas remplies (cf. 3 premiers points ci-contre)

– Médiation partielle (les deux effets de X et M sur Y sont significatif au point 4)

– Médiation totale (seul l’effet de M est significatif au point 4)

Médiation – exemple

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 5, dia. 40

Intelligence

Vocabulaire

Fluidité

Médiation – exemple

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 5, dia. 41

Intelligence

Vocabulaire

Fluidité

Médiation – test de Sobel

Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 5, dia. 42

http://www.danielsoper.com/statcalc3/calc.aspx?id=31

• Permet de tester la significativité de l’effet indirect