Upload
igraine-fevre
View
107
Download
0
Embed Size (px)
Citation preview
Le traitement des données manquantes dans les enquêtes à
grande échelle
Michel Rousseau, PhDDirecteur de l’évaluationVDPDPC
2
Plan de la présentation
TypologiePréventionDiagnosticTraitementPublication
3
Typologie
Définition:Une donnée est considérée comme étant manquante si
aucune information n’est observée alors qu’il serait logique d’y avoir une information.
Problème:La plupart des méthodes d’analyse statistique ont été
développées pour traiter des matrices de données complètes
4
Typologie
MAH MH NMH
Sujet Élève est malade le jour du test
Élève plus faible en math. ne se présente pas au test de math.
Occasion Élève est malade T2 de l’étude
Élève ayant eu un faible score au T1 est absent au T2
Valeur Élève oublie de répondre à un item
Les garçons vont plus souvent oublier de répondre à un item
5
Prévention
Population viséeNiveau de langageNature des informations demandées
Outils de mesureLongueur des questionnairesMise en page
Procédures de correction et de saisieFacteurs humainsProcédures informatisées
6
Diagnostic
Calcul de la proportion de données manquantesTaux de participationCalcul par individu/variable
Identification de la raison et du mécanismeMéthode de Little (1988)
7
Traitement
Exemple pour illustrer les méthodes
Variable Moyenne Écart-type Coefficient de
régression non-
standardisé (B)
Erreur-type du
coefficient B
Intercept 514,46 4,65
science 526,12 89,31
envir 0,154 1,00 27,65 5,06
plaisir 0,103 1,14 22,27 4,43
ses 0,201 0,82 25,38 5,77
8
Traitement
Méthodes des cas complets – listwise deletion
Variable Moyenne Écart-type Coefficient de
régression non-
standardisé (B)
Erreur-type du
coefficient B
Intercept 516,21 7,91
envir 0,383 0,92 23,72 7,70
plaisir -0,175 1,05 27,05 6,77
ses 0,356 0,79 24,72 9,65
9
Traitement
Méthodes des cas complets – pairwise deletion
Variable Coefficient de
régression non-
standardisé (B)
Erreur-type du
coefficient B
Intercept 510,07 7,06
envir 24,52 6,64
plaisir 24,85 5,96
ses 30,93 7,60
10
Traitement
Méthodes d’imputationExplicite
Méthodes intersujetsMéthodes intrasujetsMéthodes inter et intra
ImpliciteMéthodes Hot-deck et Cold-Deck
11
Traitement
Méthodes d’imputation – Moyenne de la variable
Variable Moyenne Écart-type Coefficient de
régression non-
standardisé (B)
Erreur-type du
coefficient B
Intercept 509,00 5,99
envir 0,383 0,84 25,51 5,93
plaisir -0,175 0,95 27,00 5,29
ses 0,356 0,72 33,92 6,89
12
Traitement
Méthodes d’imputation – Régression
Variable Moyenne Écart-type Coefficient de
régression non-
standardisé (B)
Erreur-type du
coefficient B
Intercept 510,74 5,51
envir 0,340 0,90 26,40 5,45
plaisir -1,471 1,05 26,43 4,70
ses 0,359 0,78 28,67 6, 15
13
Traitement
Imputation multiple
m
j
jQmQ1
)(1 ˆ
m
j
jUmU1
)(1
m
j
j QQmB1
2)(1 ˆ)1(
BmUT )1( 1
14
Traitement
Moyenne des coefficients de régression
1 2 3 4 5 Moyenne
B0 – Intercept 510,35 511,23 512,80 511,98 511,35 511,54
B1 – envir 26,92 27,90 23,87 28,88 26,41 26,80
B2 – plaisir 24,27 27,56 25,26 26,26 24,90 25,65
B3 – ses 26,13 26,66 28,18 29,80 27,94 27,74
15
Traitement
Variation intra-imputation
1 2 3 4 5 Variance intra-
imputation
B0 – Intercept 5,44 5,31 5,24 5,37 5,35 5,34
B1 – envir 5,30 4,96 5,30 5,14 5,27 5,19
B2 – plaisir 4,77 4,67 4,87 4,78 4,73 4,76
B3 – ses 5,90 6,07 5,99 6,10 6,30 6,07
16
Traitement
Variation inter-imputation
1 2 3 4 5 Variance inter-
imputation
B0 – Intercept -1,19 -0,31 1,26 0,44 -0,19 0,83
B1 – envir 0,12 1,10 -2,93 2,08 -0,39 3,57
B2 – plaisir -1,38 1,91 -0,39 0,61 -0,75 1,66
B3 – ses -1,61 -1,08 0,44 2,06 0,20 2,06
17
Traitement
Imputation multiple
Variable Coefficient de
régression non-
standardisé (B)
Erreur-type du
coefficient B
Intercept 511,54 6,34
envir 26,80 9,47
plaisir 25,65 6,75
ses 27,74 8,54
18
Publication
Reconnaître le problème Identifier les DM selon le typePrésenter le % de DM pour chaque typeDiscuter les causes des DMPrésenter la méthode de traitement utiliséeDiscuter des impacts de la méthode de traitement