Upload
others
View
5
Download
0
Embed Size (px)
Citation preview
1
Chapitre 6 Partie 1 : ÉCHANTILONNAGE AVEC DES PROBABILITÉS INÉGALES
Dans un plan à plusieurs degrés, lorsque les tailles Mi des unités primaires sont très différentes, il
est utile de sélectionner ces dernières avec des probabilités de sélection variables. Le chapitre 6
étudie dans un premier temps les plans d’échantillonnage avec probabilités de sélection variables.
Il applique ensuite ce type d’échantillonnage dans des plans stratifiés à plusieurs degrés.
Lorsque les unités primaires d’une population sont de tailles très différentes, une sélection
aléatoire simple d’unités donne des estimateurs imprécis. Si on connaît la « taille » X de chaque
unité, une meilleure façon de procéder est de faire une sélection avec des probabilités
proportionnelles à la taille des unités. Ceci devrait améliorer la précision des résultats. Pour
illustrer ce point on va utiliser une petite population de taille N=4 où i est la taille de l’unité i. On
va considérer deux variables d’intérêt y, une (Y1) associée à la taille et l’autre (Y2) non. Dans les
deux le total de Y vaut Ty=20. Les données sont :
i 1 2 3 4
X 1 2 3 4
Y1 1 3 7 9
Y2 7 1 9 3
On veut tirer un échantillon de taille 1 pour estimer le total des deux variables Y. Si on utilise un
plan aléatoire simple l’estimateur 4ys (ys représente la valeur de y pour l’unité choisie) est sans
2
biais. Sa variance est égale à 2 2 2 2Var(4 ) (4 20) (12 20) (28 20) (36 20) / 4 160sy pour les deux variables Y.
Si on échantillonne avec probabilités proportionnelles à la variable X, la probabilité associée à
l’unité i est ψi= i/10. Le poids de sondage d’une unité est 1/ ψi =10/i et si S contient la ième unité
alors yi/ ψi est une estimation non biaisée du total de Y. Les distributions de cet estimateur pour les
deux variables Y sont données par
i 1 2 3 4
πi 1/10 2/10 3/10 4/10
Y1 10 15 70/3 90/4
Y2 70 5 30 30/4
L’espérance des deux estimateurs est 20, le total des deux variables Y. La variance de l’estimateur
pondéré pour Y1 est
2 2 2 211ˆVar( ) (10 20) 2 (15 20) 3 (23 1/ 3 20) 4 (22.5 20) 20.83
10T
alors que celle pour la deuxième variable Y2 est
2 2 2 221ˆVar( ) (70 20) 2 (5 20) 3 (30 20) 4 (7.5 20) 400.5
10T
Pour la variable Y1 associée à la mesure de taille X, le plan avec des probabilités de sélection
variables donne une variance beaucoup plus petite que le plan aléatoire simple; par contre pour la
3
variable non liée à la taille, les probabilités de sélection variables détériorent la qualité de
l’estimation.
Un plan avec des probabilités de sélection variables est une généralisation du plan stratifié où
chaque unité a sa propre probabilité d’être sélectionnée. Un tel plan est judicieux pour des
variables d’intérêt Y qui sont proportionnelles à la variable de taille utilisée pour construire les
probabilités de sélection.
La « taille » des unités utilisée pour construire les probabilités de sélection est une information
auxiliaire qui pourrait être incorporée a posteriori, comme au chapitre 3, pour rendre les
estimateurs obtenus avec un plan aléatoire simple plus précis. Cette information auxiliaire est
utilisée ici pour construire le plan d’échantillonnage. Cette approche est adéquate dans un plan à
plusieurs degrés lorsque les unités primaires sont des entités géographiques de tailles variables.
On échantillonne avec des probabilités variables lorsqu’on est en présence de grappes avec des
tailles différentes. Elles sont aussi utiles pour favoriser certaines unités qui sont plus importantes
que d’autres. Par exemple si on échantillonne des sites pour interviewer des pêcheurs on va
privilégier les sites les plus fréquentés.
4
PLAN DE SONDAGE AVEC PROBABILITÉS DE SÉLECTION VARIABLES
Il n’y a pas de difficulté à tirer des échantillons de taille 1 avec des probabilités variables.
Comment faire si n>1? On peut utiliser l’échantillonnage Poisson, une généralisation de
l’échantillonnage Bernoulli, où l’appartenance à l’échantillon est déterminée indépendamment
d’une unité à l’autre. La probabilité d’être retenue dans l’échantillon est de πi =nXi/Xk pour l’unité i. Notons que la taille d’un échantillon Poisson est aléatoire; son espérance vaut n.
Pour illustrer les différents plans, on va s’intéresser à la population des N=30 villages. On dispose
pour chaque village d’une mesure de taille X calculée lors du dernier recensement (X=2816).
Les 30 valeurs de X et les probabilités de sélection associées sont au Tableau 1.
Tableau 1 : Variables auxiliaires et probabilités de sélection pour la population des 30 villages vill 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
X 69 82 110 80 92 65 72 108 106 80 72 102 73 84 98 84 85 102 122 102 86 78 112 97 117 106 115 110 104 103
.025 .029 .039 .028 .033 .023 .026 .038 .038 .028 .026 .036 .026 .03 .035 .03 .03 .036 .043 .036 .031 .028 .04 .034 .041 .038 .041 .039 .037 .037
Pour tirer un échantillon de Poisson avec une taille espérée de 4. Il suffit de générer 30 lois
uniformes sur (0,0.25), une par unité. On met dans l’échantillon toutes les unités pour lesquelles
est supérieur à l’uniforme. Voici deux exemples de simulation qui donnent des échantillons de
taille 1 et 5. Le premier est {14}, le deuxième {7,12,17,19,27}. .025 .029 .039 .028 .033 .023 .026 .038 .038 .028 .026 .036 .026 .03 .035 .03 .03 .036 .043 .036 .031 .028 .04 .034 .041 .038 .041 .039 .037 .037
.148 .164 .111 .167 .058 .085 .196 .061 .149 .219 .073 .190 .128 .245 .073 .027 .108 .161 .218 .214 .198 .157 .089 .169 .072 .091 .115 .098 .050 .119
.101 .176 .183 .110 .215 .092 .010 .048 .230 .117 .205 .023 .062 .119 .233 .212 .015 .119 .039 .092 .196 .227 .061 .095 .151 .148 .009 .160 .105 .072
5
1-Tirage avec remise
On effectue n tirages, un à la suite de l’autre; à chacun la probabilité de tirer l’unité i est ψi=Xi/ΣXk
peu importe qu’elle ait déjà été tirée ou non.
Une façon simple de procéder utilise les sommes cumulées. Considérons la construction d’un plan
de sondage avec des probabilités de sélection proportionnelles à la taille au recensement précédent
pour la population des 30 villages. Le tableau des sommes cumulées est donné par
i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
X-cum 69 151 261 341 433 498 570 678 784 864 936 1038 1111 1195 1293
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
1377 1462 1564 1686 1788 1874 1952 2064 2161 2278 2384 2499 2609 2713 2816
On associe à l’unité i l’intervalle 1
1 1( , ]
i i
j jj jX X
. Pour sélectionner une unité, on tire un
nombre aléatoire entre 1 et Xi=2816. On met dans l’échantillon l’unité correspondant à l’intervalle contenant le nombre choisi. On répète cette procédure n fois pour obtenir un
échantillon de taille n. Les nombres aléatoires 490, 350, 921, et 1633 permettent, par exemple, de
tirer les villages 6,5, 11 et 18.
Note : i) dans R floor(1+N*runif(1)) donne un entier aléatoire uniformément distribué sur les
entiers allant de 1 à N.
ii) Il est parfois plus simple de travailler avec les sommes cumulées des probabilités ψi et de
faire la sélection à partir d’une variable aléatoire uniformément distribuée sur (0,1).
6
MÉTHODE DE LAHIRI.
A chaque tirage on procède de la façon suivante :
Étape 1 : on tire une unité au hasard sans tenir compte des X.
Étape 2 : on fait une sorte de validation; on tire un nombre au hasard U entre 1 et max Xi (c’est-à-
dire uniformément distribué dans l’ensemble {1,2,…,max Xi}) et on conserve l’unité i seulement si
iX U . Note : la probabilité pour que i soit gardée est de / max( )iX X .
On répète la procédure jusqu’à ce que les n unités requises soient sélectionnées.
Tirage selon la méthode de Lahiri d’un échantillon avec des probabilités proportionnelles à X et
avec remise de la population des 30 villages (U est un nombre aléatoire entre 1 et max X= 122).
Essai # village U Xi i yi yi/i
1 06 01→S 65 0.023082 77 3335.877
2 05 23→S 92 0.03267 112 3428.174
3 01 78→E 69
4 11 20→S 72 0.025568 78 3050.667
5 18 100→S 102 0.036222 114 3147.294
moy. 3240.503
Dans ce tableau, i = Xi/Xk est la probabilité de sélection de l’unité i à un des n tirages.
7
Proposition : Avec la méthode de Lahiri, la probabilité conditionnelle pour que l’unité i soit
sélectionnée à un tirage étant donné qu’une unité est tirée à ce tirage est i=Xi/jXj.
Démonstration : On veut évaluer la probabilité conditionnelle Pr( est tirée)
Pr( est tirée | une unité est tirée)=Pr( est tirée)
(1 / ) ( / max( ))
(1 / ) ( / max( ))
k
i ii
k kk k
ii
k
N X X X
N X X X
CQFD
8
2-Tirage sans remise
Pour obtenir une taille d’échantillon fixe n, on peut utiliser une variante de l’échantillonnage
systématique qui utilise la procédure suivante
1. On fait une permutation aléatoire des N unités de la population (étape optionnelle)
2. On fait la somme cumulée des Xi et on associe à l’unité i l’intervalle 1
1 1( , ]
i i
k kk kX X
3. On tire U, un nombre uniformément distribué sur l’intervalle (0, Xk/n) et on met dans
l’échantillon les unités correspondant aux intervalles contenant U, U+Xk/n, …,U+(n-1)
Xk/n)
Avec R, les commandes indi
9
Une méthode de sélection sans remise relativement simple est présentée à la section 6.4 du livre;
elle est mise en œuvre par la fonction sample de R. Elle utilise l’algorithme suivant:
a) On tire une unité au hasard en donnant une probabilité ψi à l’unité i;
b) Si l’unité i est tirée en premier au deuxième tirage l’unité j reçoit la probabilité ψj/(1- ψi), ji, d’être tirée.
On a
Pr(unités i et j dans l'échantillon)=1 1
j iij i j
i j
Cette façon de faire ne permet pas d’obtenir des probabilités de sélection satisfaisant πi=2ψi. En
effet en général 2 i ijj i .
Pour montrer cela considérons une population de taille N=4 et les valeurs de ψi suivantes 2/16,
3/16, 4/16 et 7/16. La probabilité que l’échantillon contienne les unités 1 et 2 est donnée par
12 1 2 2
1 2
1 1 2 3 16 160.056
1 1 16 14 13
On peut calculer systématiquement toutes les probabilités conjointes πij de cette façon. Les
probabilités de sélection simples sont ensuite calculées selon la formule i ijj i
. Les résultats
apparaissent dans le tableau suivant :
10
Unité 1 2 3 4 πi
1 0.056 0.077 0.160 0.293
2 0.056 0.120 0.247 0.423
3 0.077 0.120 0.340 0.538
4 0.160 0.247 0.340 0.747
πi 0.293 0.423 0.538 0.747 2.000
On note ainsi que π1=0.293 ce qui est différent de 2ψ1=0.25. Pour obtenir des probabilités de
sélection satisfaisant πi=2ψi il faut modifier un peu les probabilités de sélection aux deux tirages.
C’est ce que fait la méthode que le statisticien Brewer a développé en 1963.
Méthode de Brewer (livre exercice 20 chap.6) pour n=2. On pose πi=2ψi, où Σ ψi =1, la probabilité
de sélection visée. Brewer a changé un peu les probabilités à chacun des 2 tirages de la méthode
simple suggérée plus haut pour obtenir le résultat souhaité. Sa procédure suppose que ψi
11
Pr(i est tirée en 1)+ Pr(k est tirée en 1 et i en 2)
(1 )(1 )
(1 2 ) (1 2 ) (1 )
(1 2 )1
(1 2 ) (1 2 ) (1 2 )
(1 2 )
i
k i
j ji i i
j ii j j
j ji i ii
j i ji j j
jij
j j
A A
A A A
A
2 (1 )2
(1 2 )
j jii
j jA
De plus les probabilités de sélection conjointes sont 2 (1 )
(1 2 )(1 2 )
i j i j
ij
i jA
Mise en œuvre sur la population des 30 villages.
On calcule d’abord les ψi , les probabilités de sélection p1i pour le 1er tirage et leur somme cumulée
avec les énoncés R suivants : psi
12
Pour le deuxième tirage on fait la somme cumulée des ψi/(1-ψ24) pour les 29 unités restantes avec
la commande cbind((1:30)[-24],cumsum(psi[-24]/(1-psi[24]))). On génère ensuite V
selon une loi uniforme sur (0,1) et on prend l’unité associée à l’intervalle contenant V. Par
exemple V=0.268 donne l’unité 9.
Finalement S={9,29} et : π9=2×106/2816= 0.0753 et π29=2×104/2816=0. 0739 et
9,29
2 (1 ) 0.0029
(1 2 )(1 2 )
i j i j
i jA
. En R : (2*psi[9]*psi[29]*(1-psi[9]-
psi[29]))/((1-2*psi[9])*(1-2*psi[29])*sum(psi*(1-psi)/(1-2*psi))).
Dans l’exemple précédent, avec ψ1=2/16, ψ2=3/16, ψ3=4/16 et ψ4=7/16, la méthode de Brewer
donne les probabilités de sélection conjointes ij suivantes :
Unité 1 2 3 4 πi
1 0.025 0.038 0.187 0.250
2 0.025 0.062 0.288 0.375
3 0.038 0.062 0.400 0.500
4 0.187 0.288 0.400 0.875
πi 0.250 0.375 0.500 0.875 2.000
On note que .025+.038+.187+.250=0.5=2 ψ1.
13
Il existe plusieurs façons astucieuses de sélectionner un échantillon de taille fixe n avec des
probabilités de sélection prédéterminées {πi}, voir l’aide en ligne de la procédure SURVEYSELECT
de SAS ou le package sampling de R. Ces procédures sont techniques et ne sont pas étudiées
en détail dans ce cours. La fonction sample de R ne permet pas de tirer sans remise un
échantillon avec des probabilités de sélection prédéterminées.
Exemple 1: PROC SURVEYSELECT de SAS (données sur les 30 villages, page 4) data trente;
input vill poprec;
datalines;
1 69
…
30 103
;
proc surveyselect data=trente
method=PPS_Brewer sampsize=2;
size poprec;
run;
proc surveyselect data=trente method=PPS
jtprobs sampsize=4;
size poprec;
run;
proc print;run;
Output :
Programme 1 (Brewer) Obs vill poprec SelectionProb SamplingWeight JtSelectionProb
1 20 102 0.072443 13.8039 0.002839689
2 26 106 0.075284 13.283 0.002839689
Programme 2 (n=4) Obs vill poprec SelectionProb SamplingWeight Unit JtProb_1 JtProb_2 JtProb_3 JtProb_4
1 1 69 0.09801 10.2029 1 0 0.010514 0.01105 0.011587
2 15 98 0.1392 7.1837 2 0.010514 0 0.01593 0.016703
3 30 103 0.14631 6.835 3 0.01105 0.01593 0 0.017622
4 8 108 0.15341 6.5185 4 0.011587 0.016703 0.017622 0
Le programme 2 met en oeuvre une méthode de sélection proposée dans
Vijayan, K. (1968), “An Exact PS Sampling Scheme: Generalization of a Method of Hanurav,”
Journal of the Royal Statistical Society, Series B, 30, 556–566. La méthode de selection de
Hanurav & Vijayan est la méthode de selection par défaut dans SAS. La méthode de Sampford est
également disponible. Cette dernière est aussi implanté dans le package R sampling.
14
ESTIMATION DU TOTAL DANS UN PLAN AVEC PROBABILITÉS DE SÉLECTION
VARIABLES
Peu importe le mode de sélection de l’échantillon, avec ou sans remise, on appelle πi=nψi la
probabilité de sélection et wi=1/πi le poids d’échantillonnage. L’estimateur du total de la variable
y est ˆ /y i i i ii S i S
T y w y
, c’est l’estimateur de Horvitz Thompson. On va étudier les propriétés
échantillonnales de cet estimateur pour les deux types d’échantillonnage, avec et sans remise.
Propriétés de l’estimateur de Horvitz Thompson : cas sans remise
Cet estimateur s’écrit en fonction des variables indicatrices Zi qui indique si une unité est
échantillonnée ou non de la façon suivante 1
ˆ /N
y i i i
i
T Z y
. Puisque E(Zi)= πi, ˆ( )y yE T T
l’estimateur de Horvitz-Thompson est un estimateur non biaisé du total de y. On va maintenant
calculer sa variance. Sachant que cov(Zi,Zj)= πij - πi πj où {πij} sont les probabilités de sélection
conjointe on a
2 2
1
2
1
ˆVar( ) Var( ) / Cov( , ) / ( )
(1 ) / ( / 1)
N
y i i i i j i j i j
i i j
N
i i i i j ij i j
i i j
T y Z y y Z Z
y y y
.
À la page 206 du livre on donne une formule alternative pour cette variance qui s’applique lorsque
la taille d’échantillon n est fixe. C’est la variance de Sen-Yates-Grundy,
15
2
,
ˆVar( )2
i j ij jiy
i j i j
yyT
Les deux formules sont mathématiquement égales si n est fixe. Des estimateurs non biaisés de la
variance sont déduits de ces deux formules
2 2ˆ( ) (1 ) / ( / 1) /y i i i i j ij i j iji S i j S
v T y y y
et
2
,
ˆv( )2
i j ij jiy
i j S ij i j
yyT
.
Le premier est l’estimateur de Horvitz-Thompson le deuxième celui de Sen-Yates Grundy. Les
deux estimateurs sont différents. Ces estimateurs sont non biaisés dans la mesure où toutes les
probabilités de sélection conjointes ij sont positives.
Noter que sous l’échantillonnage Poisson les Zi sont des variables aléatoires indépendantes. Dans
ce cas la formule de Sen Yates et Grundy ne s’appliquent pas car la taille d’échantillon est
aléatoire. Pour ce plan de sondage on a ij i j si i≠j et
2
1
ˆVar( ) (1 ) /N
y i i i
i
T y
et 2 2ˆ( ) (1 ) /y i i ii S
v T y
.
Si n=1, πij=0 et πi=ψi et 2
22
1 1
ˆVar( )N N
i iy y i y
i ii i
y yT T T
16
Exemple : Échantillon de taille 2 tiré selon la méthode de Brewer. On a π9=0.0753 et π29=0. 0739
et π9,29=0.0029; les données sont y9=111 et y29=109.
111 109ˆ 2949.0753 .0739
yT
2
2.0753 .0739 .0029 111 109ˆ( ) 0.68 .82.0029 .0753 .0739
SYG yv T
2 2
2 2
2
111 (1 .0753) 109 (1 .0739) 1 1ˆ( ) 2 111 109.0753 .0739 .0753 .0739 .0029
28478 169
HT yv T
On note que les deux estimations sont très différentes. L’estimateur de variance pour des
échantillons de taille 2 est une statistique très variable!
Estimation de variance : cas avec remise
Si on tire un échantillon de taille n avec remise les variables aléatoires / :i iy i S sont indépendantes et elles ont toutes la même distribution ; leur espérance vaut Ty et leur variance est
égale à
22
2
1 1
VarN N
ji ij y y
j ii j i
yy yT T
. L’estimateur de Horvitz-Thompson est alors la
moyenne échantillonnale de ces n variables aléatoires,
1ˆ iy
i i
yT
n .
17
C’est une estimation non biaisée de Ty. Un estimateur de variance est la variance échantillonnale
des yi/ ψi divisée par n,
2
1ˆ ˆ( )( 1)
iar y y
i i
yv T T
n n
. On peut réécrire cette variance en terme
des poids d’échantillonnage de la façon suivante, 2 2
2 ˆˆ( )
( 1) 1
k kyi k Sar y i i
i ii
w yTyn nv t w y
n n n n n n
.
Notons que la variance théorique est
22
2
1 1
1 1ˆVar ( )N N
j iar y j y y
j ij i
y yT T T
n n
.
Exemple numérique avec n=4.
Essai # village U Xi i wi=1/(4i) yi yi/i
1 06 01→S 65 0.023082 10.83 77 3335.877
2 05 23→S 92 0.03267 7.65 112 3428.174
3 01 78→E 69
4 11 20→S 72 0.025568 9.78 78 3050.667
5 18 100→S 102 0.036222 6.90 114 3147.294
moy. 3240.503
18
Estimation du nombre total de résidents: (note: yi=3 042) et
1ˆ4
iy
i i
yT
= 3 240.5 et v( ˆyT ) =
2
1 ˆ3 4
iy
i i
yT
= 7420.2 = (86.14)2
Discussion : Pourquoi des probabilités variables?
Graphique de yi versus i pour les 30 villages.
L’échantillonnage avec des probabilités de sélection variables est judicieux pour une variable y qui
est proportionnelle au probabilité de sélection ψCe graphique montre que c’est le cas pour ici
pour la variable y=taille du village aujourd’hui dans l’exemple de la population des 30 villages.
0
20
40
60
80
100
120
140
0 0,005 0,01 0,015 0,02 0,025 0,03 0,035 0,04 0,045 0,05
y(i
)
psi(i)
19
Discussion : Estimation de la variance
Il est rare que l’on tire un échantillon avec remise. Cependant on utilise souvent les formules de
variance avec remise même si l’échantillon est tiré sans remise. Les calculs sont plus simples car
ils ne nécessitent pas la connaissance des probabilités de sélection conjointes {πij}. On espère
obtenir ainsi des estimateurs de variance qui surestiment un peu la vraie variance. Notons que 2 22
21 , ,
1 1 1ˆ ˆ( )( 1) 2 ( 1) 2( 1)
j ji i iar y y
i i j S i j Si i j i j
y yy y yv T T
n n n n n
Son espérance, pour un plan sans remise, est 2
,
ˆ( )2( 1)
ij jiar y
i j i j
yyE v T
n
. ˆ( )ar yv T
surestime la vraie variance,
2
,
ˆVar( )2
i j ij jiy
i j i j
yyT
, si
1ij
i j
n
n
.
Cette condition est souvent vérifiée et l’estimateur de variance avec remise donne alors une
mesure de précision conservatrice. D’un point de vue pratique c’est acceptable; il est préférable de
sous-estimer la précision plutôt que de la surestimer.
Exemple numérique : Pour l’échantillon de taille 2 tiré selon la méthode de Brewer ˆ 2949yT ; on
a ψ9=0.0376 et ψ29=0. 0369, y9=111 et y29=109 ainsi l’estimation de variance avec remise s’écrit
20
2 2
21 111 109ˆ( ) 2949 2949 2.86 1.692 .0376 .0369
yv T
(en fait les erreurs d’arrondis sont importantes et la vraie estimation est 1.63=1.282 !).On note que
l’estimateur avec remise est supérieur à l’estimateur de variance de Sen-Yates Grundy.
Note : La méthode de sélection de Hanurav & Vijayan satisfait les conditions 1
1ij
i j
n
n
sous
certaines hypothèses de régularité concernant les i. Ces deux conditions font en sorte que (i)
l’estimateur de variance de Sen-Yates-Grundy est toujours positif et (ii) l’estimateur de variance
avec remise surestime la vraie variance.
Note : SAS ne fournit pas de procédures qui permettent de calculer l’estimateur de variance sans
remise de Sen-Yates-Grundy. SURVEYMEANS permet de calculer l’estimateur de variance avec
remise.