Régression Multiple PPT

  • Upload
    -

  • View
    269

  • Download
    0

Embed Size (px)

Citation preview

  • 8/18/2019 Régression Multiple PPT

    1/28

    Pr BOULAHOUAL Adil 1

    ANALYSE DES DONNEES

    [email protected]

  • 8/18/2019 Régression Multiple PPT

    2/28

  • 8/18/2019 Régression Multiple PPT

    3/28

    Pr BOULAHOUAL Adil

    En analyse explicative simple, nous avos essayé de définir la relatiexiste entre deux variables statistiques.

    Exemples :* Le nombre d’années d’expérience et le nombre d’erreurs commis

    * Le volume des ventes et les dépenses en publicité ;

    Alors qu’enanalyse explicative multipleletypes de problème auquel nous nous heurtons et du genre :

    La tranche d’âge du conducteur, sa santé, son état d’ébriété, et lenombre d’accidents d’auto.

    Rappel 3

  • 8/18/2019 Régression Multiple PPT

    4/28

    Pr BOULAHOUAL Adil

    Économiste (Expert du domaine)Exprime une théorie sur un phénomène économique

    Ex. La demande dépend du prix

    Mathématicien (Modélisation)Propose une formulationalgébrique de la théorie.Ex. Demande =B0+ (B1*prix) + (B2 *type du bien)

    Statisticien (Estimation)Estime les paramètres dumodèle à partir de données.Validation statistique.

    Ex.: ( B0=2) ; (B1=12) ; (B2 =5)

    Sous le contrôle de l’Économiste Validation de l’Expert du domaine (ex. a est forcément négatif)

    4

  • 8/18/2019 Régression Multiple PPT

    5/28

    Pr BOULAHOUAL Adil

    LA REGRESSION MULTIPLE

    Exemple introductif

  • 8/18/2019 Régression Multiple PPT

    6/28

    Pr BOULAHOUAL Adil 6

  • 8/18/2019 Régression Multiple PPT

    7/28Pr BOULAHOUAL Adil

    L’encadré Coefficients

    Estimations : Valeurs b pour chaque VI et son test de significationIntervalles de confiance : Intervalle pour chaque coefficient dans la

    population ,

    L’encadré Résidus

    Durbin-Watson : Evaluationde l’indépendance des erreurs Diagnostic des observations :Indique quelles observationsont un résiduel standardisé de

    plus de 2 ou 3 é.-t.

    Les autres s tat is t iques Qualité de l’ajustement : Fournit le test pour évaluer l’ensemble du modèle (F), le R multiple, leR 2 correspondant et le R 2 ajusté ( ANOVA )

    Variation de R-deux : Changement du R 2 après l’ajout d’un nouveau bloc de VICaractéristiques: Moyenne, é.-t. et N pour toutes les variables du modèle.

    Mesure et corrélations partielles : Corrélation entre chaque VI et la VD 7

  • 8/18/2019 Régression Multiple PPT

    8/28Pr BOULAHOUAL Adil

    Statistiques descriptives

    Examinons d’abord les statistiques descriptives. Nous voyons que l’étmenée auprès de 474 employés qui gagnent en moyenne près de 35 0Ils travaillent depuis environ sept ans pour leur entreprise (81 mois) een moyenne 13 ans de scolarité. Bien entendu, la moyenne des hommdes femmes n’est pas une donnée intéressante.

    8

  • 8/18/2019 Régression Multiple PPT

    9/28Pr BOULAHOUAL Adil

    Le deuxième tableau fournit par SPSS concerne les corrélations entre levariables étudiées. Nous voyons qu’il y a une corrélation très élevée etsignificative entre le salaire et le nombre d’années de scolarité, ainsi qule sexe et le salaire. Nous devons porter attention aux relations entre lesvariables indépendantes. Si la corrélation entre deux de ces variables sesituait à 0,9 (ou– 0,9), il y aurait un risque important de multicolinéaritéNous aurions introduit deux variables qui mesuraient sensiblement la m

    chose pour prédire le salaire actuel.

    9

  • 8/18/2019 Régression Multiple PPT

    10/28Pr BOULAHOUAL Adil

    Variables introduites éliminées

    Le tableau suivant présente les variables retenues dans les étapesdu modèle. Nous constatons que la variable EDUC est présentepuisque nous avions choisi la méthode Entrée. Pour le deuxièmemodèle, SPSS a retenu la variable SEXE avec notre critère desélection (la probabilité F est significative à p < 0,05).

    10

  • 8/18/2019 Régression Multiple PPT

    11/28Pr BOULAHOUAL Adil

    Étape 1 : Évaluation de la pertinence dumodèle de régression

    Tout comme la régression simple,l’interprétation débute en évaluant lapertinence du modèle. Nous vérifions si la première étape du mexplique significativement plus de variabilitéqu’un modèle sans prédicteur

    Ceci revient à prendre une décision sur l'hypothèse nulle d'abserelation entre la variable dépendante et la combinaison de variindépendantes, i.e. le modèle. Si le modèle tient la route, le travail censuite à interpréter la contribution relative de chaque varindépendante significative àl’explication de la variance de la variable

    dépendante. Dans la mesure où un modèle est non signifil’interprétation s’arrête avec ce constat. Il faut alors retourner à la tabledessin pour construire et tester un autre modèle.

    11

  • 8/18/2019 Régression Multiple PPT

    12/28Pr BOULAHOUAL Adil

    nalyse de variance

    Le tableaud’ANOVA nous donne les informations nécessaires pouprendre une décision surl’hypothèse nulle (H0) à l’effet que notre modèlen’explique pas significativement plus de variancequ’un modèle sans

    prédicteur. Dans le tableau ANOVA suivant, le modèle 1 testel’H0

    que lenombred’années de scolaritén’explique pas mieux le salairequ’un modèlesans prédicteur. La ligne du modèle 2 testel’H0 que la combinaison dunombred’années de scolarité et du sexen’explique pas mieux la variationde salairequ’un modèle sans prédicteur. Dans les deux cas,l’H0 est que lesmodèles ne sont pas significativement plus explicatifs de la variancesalairequ’un modèle sans prédicteur.

    12

  • 8/18/2019 Régression Multiple PPT

    13/28Pr BOULAHOUAL Adil

    Nous constatons à la lecture du tableau que selon la valeurobtenue pour les deux modèles, on peut rejeter l’hypothèsEn effet, les valeurs de F=365,38 et de F=225,51 sont

    significatives à p < 0,001, ce qui indique que l’on a moins 0,1 % de probabilité de commettre une erreur en affirmantles modèles contribuent à mieux prédire le salaire qu’un msans prédicteur .

    13

  • 8/18/2019 Régression Multiple PPT

    14/28

    Pr BOULAHOUAL Adil

    Étape 2 : Évaluation de l'ajustement dumodèle de régression aux données

    Maintenantque l’on sait que le modèle final est significatif, opeut estimer dans quelle mesure ce modèle est ajusté auxdonnées observées. Cette information est contenue dans letableau «Récapitulatif des modèles». Dans le cas d’une

    régression multiple à entrée forcée, rappelons qu’un seul mod ferait l’objet du tableau.

    14

  • 8/18/2019 Régression Multiple PPT

    15/28

    Pr BOULAHOUAL Adil

    Ce tableau contient plusieurs informations utiles. Premièremevaleur de la corrélation multiple (R) nous renseigne l’ajustement du modèle. Cet indice varie entre 0 et 1 et représeen valeur absolue la corrélation entre la variable dépendante

    combinaison de toutes les variables indépendantes du modèlela valeur de R est proche de 1, plus le modèle est ajustédonnées. Dans notre exemple, le modèle final a une valeur de

    0,70 ce qui est relativement élevé et qui suggère que le

    modèle est bien ajusté. 15

  • 8/18/2019 Régression Multiple PPT

    16/28

    Pr BOULAHOUAL Adil

    Étape 3 : Évaluation de la performancedu modèle de régression

    Le tableau permet égalementd’évaluer la performance du modèleen termes de proportion de la variance expliquée pacombinaison des variables indépendantes avec le calcul valeur de R². rappelons que la valeur du R²,lorsqu’elle estmultipliée par 100, indique le pourcentage de variabilité dexpliquée par le modèle (la combinaison de tous les prédicteu

    16

  • 8/18/2019 Régression Multiple PPT

    17/28

    Pr BOULAHOUAL Adil

    Étape 4 : Estimation des paramètresdu modèle

    Maintenant que nous savons que notre modèle est significatif et que ldeuxième est celui qui explique le plus de variance, il est possible deconstruire l’équation de régression pour prédire une valeur de Y. L’équde base était la suivante :

    17

    Y i = ( β 0 + β 1 X 1 + β 2 X 2 + … + β n X n ) + ε i

    Modèle 1 : Salaire = -18331,178 + (3909,907x éducation)

    Modèle 2 : Salaire = -7500,990 + (3391,683xéducation) – (8423,462 x sexe)

    Y = b 0 + b 1 X 1 + b 2 X 2 + b 3 X 3

  • 8/18/2019 Régression Multiple PPT

    18/28

  • 8/18/2019 Régression Multiple PPT

    19/28

    Pr BOULAHOUAL Adil

    La valeur du Beta standardisé ( β ) apporte aussi une informationintéressante en plusd’indiquer le sens de la relation (+/-) et le poids relatifde la variable dans le modèle.Elle indique le changement en écart-type de la VD pour chaqaugmentationd’un écart-type de la VI quand toutes les autres valeurs so

    constantes. Par exemple, la valeurd’un écart-type du salaire est de17 075,66 dhs et celled’un écart-type de scolarité est de 2,89ans. Nouspouvons donc savoir quel’augmentation ded’un é.-t. de la scolarité (2,89)est associé àl’augmentation de 0,57 é.-t. du salaire (0,57*17 075,66 =

    9 733,13). Par conséquent, chaque fois quel’on étudie 2,89 années deplus, le salaire augmente de 9 733,13 dhs.

    19

  • 8/18/2019 Régression Multiple PPT

    20/28

    Pr BOULAHOUAL Adil

    Ce tableau présente également la valeur des corrélations et des corrélati

    partielles. Ce sont ces valeurs sur lesquelles se base SPSS lorsqu’il chod’introduire des variables lorsque nous sélectionnons une méthode progLa première variable est choisie à partir de la corrélation simple la plus(ici 0,661 pour EDUC). Le choix des variables suivantes est par contre sur la corrélation partielle, c'est-à-dire la plus forte corrélation entre lesvariables toujours disponibles et la partie de variance qui reste à expliqu fois que l’on a retiré ce qui est expliqué par la première VI.

    20

  • 8/18/2019 Régression Multiple PPT

    21/28

    Pr BOULAHOUAL Adil

    Finalement, la valeur VIF (ou la tolérance qui estl’inverse du VIF )permet de vérifier la prémisse de multicolinéarité. Nous cherchoobtenir une valeur VIF près de 1. Si elle est de 10,c’est problématique.Inversement, si la valeur de la tolérance est équivalente à 0,1, il y aproblème sérieux de colinéarité dans le modèle. Probablement qu

    corrélations entre 2 VI ou plus sont trop élevées.

    21

  • 8/18/2019 Régression Multiple PPT

    22/28

    Pr BOULAHOUAL Adil

    L e diag nost ic d es o bser vat io ns et la v érif ic atio n d es p rém is ses

    Ce dernier tableau est fourni grâce aux options sélectionnpréalablement. Il nous renseigne sur la présence de valeurs extrêmeinfluenceraient le modèle, notamment sur la qualité del’ajustement desdonnées. Les valeurs extrêmes font varier les coefficients b et son

    prédites par le modèle. Ces valeurs produisent une valeur résiduimportante. Comme nous avons vu précédemment dans le rapthéorique, nous ne voulons aucune valeur résiduelle standardisée de pl3,29 (ou de moins de -3,29), pas plus de 1 % del’échantillon ayant unevaleur de plus de 2,58 (ou de moins de -2,58) ainsi que pas plus de 5des observations ayant une valeur de plus de 1,96 (ou de moins d– 1,96).

    22

  • 8/18/2019 Régression Multiple PPT

    23/28

    Pr BOULAHOUAL Adil 23

  • 8/18/2019 Régression Multiple PPT

    24/28

    Pr BOULAHOUAL Adil

    Les graphiques offerts peuvent vous permettre de vérifier par un exvisuel les prémisses de la régression linéaire multiple. Celui croisavaleurs prédites (*ZPRED) et résiduelles (*ZRESID) standardidepuis le menu diagramme, illustre le respect (ou le non respect) prémissed’homogénéité (répartition aléatoire des points autour de 0) ede linéarité (tendance des points à se concentrer autourd’une ligne).

    En examinant le diagnostic des observations, nous constatons que

    individus ont des salaires de plus de 83 750 $. Ilss’écartent vraimentdes valeurs moyennes, car la valeur résiduelle standardisée pour chaest de plus de 3 écart-types. Les employés gagnant plus de 100 00annuellement présentent un problème majeur. Il serait probablem judicieux de refairel’analyse en excluant ces hauts salariés et de vérifierla variation des coefficients.

    24

  • 8/18/2019 Régression Multiple PPT

    25/28

    Pr BOULAHOUAL Adil 25

    Nous pouvons confirmer avec le test de

    normalité de Shapiro-Wilks ou de KolmogoroSmirnov. Ces tests sont disponibles dans lesoptions de la procédure Explorer, Cochez«Graphes de répartition gaussiens avec tests».Les deux tests sont significatifs. Nous devonsdonc rejeter l'hypothèse nulle de normalité de distribution. Encore une fois, nous constatonsqu'il pourrait être judicieux de retirer les valeuextrêmes de l’analyse.

    PIC

  • 8/18/2019 Régression Multiple PPT

    26/28

    Pr BOULAHOUAL Adil

    Toutes les options disponibles dans ce menu permettent de créenouvelles variables ayant les valeurs calculées par le modèle. Ils’agit donc de choisir les variables diagnostiques permettantd’évaluer laqualité du modèle et celles qui permettent de détecter les varia

    ayant une importante influence sur le modèle. Nous choisirons dminimalement les résidus standardisés, mais on peut également ajoles prévisions non standardisées et/ou standardisées ainsi quedistance de Cook et les DfBêta(s) standardisés. Notezqu’en cochantdes options dans la boite de dialogue Enregistrer, vous allez obtentableau de résultats de plus portant sur les statistiques des résiducomprenant minimalement la moyenne,l’écart -type, les valeursminimales et maximales ainsi que le N.

    26

  • 8/18/2019 Régression Multiple PPT

    27/28

    Pr BOULAHOUAL Adil

    La dernière fenêtre, obtenu depuis le bouton « option » vous permet ddéterminer les paramètres de sélection des méthodes progressives. identifiez la probabilité ou la valeur de F pour introduire ou retirer variables. Idéalement, vous conservez les valeurs par défaut à moin

    que vous ne vouliez que votre modèle soit plus sévère.

    27

  • 8/18/2019 Régression Multiple PPT

    28/28

    Finalement, nous pouvons tout de même jeter un coupd’œil aux

    prémissesd’homéodasticité et de linéarité avec le graphique dedispersion. Pour la première prémisse, les points doivent être répaaléatoirement autour de 0 (ne pas formerd’entonnoir), ce qui semble lecas ici, bien que les points soient répartis en colonnes. Pour deuxième, nous voulons éviter quel’agglomération de points suive unecourbe. Cette prémisse semble aussi respectée. Nous respectons donplupart des prémisses, le modèle est donc probablement valide, m gagnerait certainement en précision en éliminant les valeurs extrêmes

    28