Chapitre 6 Partie 1 : ÉCHANTILONNAGE AVEC DES … · 2016. 3. 24. · 5 1-Tirage avec remise On effectue n tirages, un à la suite de l’autre; à chacun la probabilité de tirer

1

Chapitre 6 Partie 1 : ÉCHANTILONNAGE AVEC DES PROBABILITÉS INÉGALES

Dans un plan à plusieurs degrés, lorsque les tailles Mi des unités primaires sont très différentes, il

est utile de sélectionner ces dernières avec des probabilités de sélection variables. Le chapitre 6

étudie dans un premier temps les plans d’échantillonnage avec probabilités de sélection variables.

Il applique ensuite ce type d’échantillonnage dans des plans stratifiés à plusieurs degrés.

Lorsque les unités primaires d’une population sont de tailles très différentes, une sélection

aléatoire simple d’unités donne des estimateurs imprécis. Si on connaît la « taille » X de chaque

unité, une meilleure façon de procéder est de faire une sélection avec des probabilités

proportionnelles à la taille des unités. Ceci devrait améliorer la précision des résultats. Pour

illustrer ce point on va utiliser une petite population de taille N=4 où i est la taille de l’unité i. On

va considérer deux variables d’intérêt y, une (Y1) associée à la taille et l’autre (Y2) non. Dans les

deux le total de Y vaut Ty=20. Les données sont :

i 1 2 3 4

X 1 2 3 4

Y1 1 3 7 9

Y2 7 1 9 3

On veut tirer un échantillon de taille 1 pour estimer le total des deux variables Y. Si on utilise un

plan aléatoire simple l’estimateur 4ys (ys représente la valeur de y pour l’unité choisie) est sans

2

biais. Sa variance est égale à 2 2 2 2Var(4 ) (4 20) (12 20) (28 20) (36 20) / 4 160sy pour les deux variables Y.

Si on échantillonne avec probabilités proportionnelles à la variable X, la probabilité associée à

l’unité i est ψi= i/10. Le poids de sondage d’une unité est 1/ ψi =10/i et si S contient la ième unité

alors yi/ ψi est une estimation non biaisée du total de Y. Les distributions de cet estimateur pour les

deux variables Y sont données par

i 1 2 3 4

πi 1/10 2/10 3/10 4/10

Y1 10 15 70/3 90/4

Y2 70 5 30 30/4

L’espérance des deux estimateurs est 20, le total des deux variables Y. La variance de l’estimateur

pondéré pour Y1 est

2 2 2 211ˆVar( ) (10 20) 2 (15 20) 3 (23 1/ 3 20) 4 (22.5 20) 20.83

10T

alors que celle pour la deuxième variable Y2 est

2 2 2 221ˆVar( ) (70 20) 2 (5 20) 3 (30 20) 4 (7.5 20) 400.5

10T

Pour la variable Y1 associée à la mesure de taille X, le plan avec des probabilités de sélection

variables donne une variance beaucoup plus petite que le plan aléatoire simple; par contre pour la

3

variable non liée à la taille, les probabilités de sélection variables détériorent la qualité de

l’estimation.

Un plan avec des probabilités de sélection variables est une généralisation du plan stratifié où

chaque unité a sa propre probabilité d’être sélectionnée. Un tel plan est judicieux pour des

variables d’intérêt Y qui sont proportionnelles à la variable de taille utilisée pour construire les

probabilités de sélection.

La « taille » des unités utilisée pour construire les probabilités de sélection est une information

auxiliaire qui pourrait être incorporée a posteriori, comme au chapitre 3, pour rendre les

estimateurs obtenus avec un plan aléatoire simple plus précis. Cette information auxiliaire est

utilisée ici pour construire le plan d’échantillonnage. Cette approche est adéquate dans un plan à

plusieurs degrés lorsque les unités primaires sont des entités géographiques de tailles variables.

On échantillonne avec des probabilités variables lorsqu’on est en présence de grappes avec des

tailles différentes. Elles sont aussi utiles pour favoriser certaines unités qui sont plus importantes

que d’autres. Par exemple si on échantillonne des sites pour interviewer des pêcheurs on va

privilégier les sites les plus fréquentés.

4

PLAN DE SONDAGE AVEC PROBABILITÉS DE SÉLECTION VARIABLES

Il n’y a pas de difficulté à tirer des échantillons de taille 1 avec des probabilités variables.

Comment faire si n>1? On peut utiliser l’échantillonnage Poisson, une généralisation de

l’échantillonnage Bernoulli, où l’appartenance à l’échantillon est déterminée indépendamment

d’une unité à l’autre. La probabilité d’être retenue dans l’échantillon est de πi =nXi/Xk pour l’unité i. Notons que la taille d’un échantillon Poisson est aléatoire; son espérance vaut n.

Pour illustrer les différents plans, on va s’intéresser à la population des N=30 villages. On dispose

pour chaque village d’une mesure de taille X calculée lors du dernier recensement (X=2816).

Les 30 valeurs de X et les probabilités de sélection associées sont au Tableau 1.

Tableau 1 : Variables auxiliaires et probabilités de sélection pour la population des 30 villages vill 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

X 69 82 110 80 92 65 72 108 106 80 72 102 73 84 98 84 85 102 122 102 86 78 112 97 117 106 115 110 104 103

.025 .029 .039 .028 .033 .023 .026 .038 .038 .028 .026 .036 .026 .03 .035 .03 .03 .036 .043 .036 .031 .028 .04 .034 .041 .038 .041 .039 .037 .037

Pour tirer un échantillon de Poisson avec une taille espérée de 4. Il suffit de générer 30 lois

uniformes sur (0,0.25), une par unité. On met dans l’échantillon toutes les unités pour lesquelles

est supérieur à l’uniforme. Voici deux exemples de simulation qui donnent des échantillons de

taille 1 et 5. Le premier est {14}, le deuxième {7,12,17,19,27}. .025 .029 .039 .028 .033 .023 .026 .038 .038 .028 .026 .036 .026 .03 .035 .03 .03 .036 .043 .036 .031 .028 .04 .034 .041 .038 .041 .039 .037 .037

.148 .164 .111 .167 .058 .085 .196 .061 .149 .219 .073 .190 .128 .245 .073 .027 .108 .161 .218 .214 .198 .157 .089 .169 .072 .091 .115 .098 .050 .119

.101 .176 .183 .110 .215 .092 .010 .048 .230 .117 .205 .023 .062 .119 .233 .212 .015 .119 .039 .092 .196 .227 .061 .095 .151 .148 .009 .160 .105 .072

5

1-Tirage avec remise

On effectue n tirages, un à la suite de l’autre; à chacun la probabilité de tirer l’unité i est ψi=Xi/ΣXk

peu importe qu’elle ait déjà été tirée ou non.

Une façon simple de procéder utilise les sommes cumulées. Considérons la construction d’un plan

de sondage avec des probabilités de sélection proportionnelles à la taille au recensement précédent

pour la population des 30 villages. Le tableau des sommes cumulées est donné par

i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

X-cum 69 151 261 341 433 498 570 678 784 864 936 1038 1111 1195 1293

16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

1377 1462 1564 1686 1788 1874 1952 2064 2161 2278 2384 2499 2609 2713 2816

On associe à l’unité i l’intervalle 1

1 1( , ]

i i

j jj jX X

. Pour sélectionner une unité, on tire un

nombre aléatoire entre 1 et Xi=2816. On met dans l’échantillon l’unité correspondant à l’intervalle contenant le nombre choisi. On répète cette procédure n fois pour obtenir un

échantillon de taille n. Les nombres aléatoires 490, 350, 921, et 1633 permettent, par exemple, de

tirer les villages 6,5, 11 et 18.

Note : i) dans R floor(1+N*runif(1)) donne un entier aléatoire uniformément distribué sur les

entiers allant de 1 à N.

ii) Il est parfois plus simple de travailler avec les sommes cumulées des probabilités ψi et de

faire la sélection à partir d’une variable aléatoire uniformément distribuée sur (0,1).

6

MÉTHODE DE LAHIRI.

A chaque tirage on procède de la façon suivante :

Étape 1 : on tire une unité au hasard sans tenir compte des X.

Étape 2 : on fait une sorte de validation; on tire un nombre au hasard U entre 1 et max Xi (c’est-à-

dire uniformément distribué dans l’ensemble {1,2,…,max Xi}) et on conserve l’unité i seulement si

iX U . Note : la probabilité pour que i soit gardée est de / max( )iX X .

On répète la procédure jusqu’à ce que les n unités requises soient sélectionnées.

Tirage selon la méthode de Lahiri d’un échantillon avec des probabilités proportionnelles à X et

avec remise de la population des 30 villages (U est un nombre aléatoire entre 1 et max X= 122).

Essai # village U Xi i yi yi/i

1 06 01→S 65 0.023082 77 3335.877

2 05 23→S 92 0.03267 112 3428.174

3 01 78→E 69

4 11 20→S 72 0.025568 78 3050.667

5 18 100→S 102 0.036222 114 3147.294

moy. 3240.503

Dans ce tableau, i = Xi/Xk est la probabilité de sélection de l’unité i à un des n tirages.

7

Proposition : Avec la méthode de Lahiri, la probabilité conditionnelle pour que l’unité i soit

sélectionnée à un tirage étant donné qu’une unité est tirée à ce tirage est i=Xi/jXj.

Démonstration : On veut évaluer la probabilité conditionnelle Pr( est tirée)

Pr( est tirée | une unité est tirée)=Pr( est tirée)

(1 / ) ( / max( ))

(1 / ) ( / max( ))

k

i ii

k kk k

ii

k

N X X X

N X X X

CQFD

8

2-Tirage sans remise

Pour obtenir une taille d’échantillon fixe n, on peut utiliser une variante de l’échantillonnage

systématique qui utilise la procédure suivante

1. On fait une permutation aléatoire des N unités de la population (étape optionnelle)

2. On fait la somme cumulée des Xi et on associe à l’unité i l’intervalle 1

1 1( , ]

i i

k kk kX X

3. On tire U, un nombre uniformément distribué sur l’intervalle (0, Xk/n) et on met dans

l’échantillon les unités correspondant aux intervalles contenant U, U+Xk/n, …,U+(n-1)

Xk/n)

Avec R, les commandes indi

9

Une méthode de sélection sans remise relativement simple est présentée à la section 6.4 du livre;

elle est mise en œuvre par la fonction sample de R. Elle utilise l’algorithme suivant:

a) On tire une unité au hasard en donnant une probabilité ψi à l’unité i;

b) Si l’unité i est tirée en premier au deuxième tirage l’unité j reçoit la probabilité ψj/(1- ψi), ji, d’être tirée.

On a

Pr(unités i et j dans l'échantillon)=1 1

j iij i j

i j

Cette façon de faire ne permet pas d’obtenir des probabilités de sélection satisfaisant πi=2ψi. En

effet en général 2 i ijj i .

Pour montrer cela considérons une population de taille N=4 et les valeurs de ψi suivantes 2/16,

3/16, 4/16 et 7/16. La probabilité que l’échantillon contienne les unités 1 et 2 est donnée par

12 1 2 2

1 2

1 1 2 3 16 160.056

1 1 16 14 13

On peut calculer systématiquement toutes les probabilités conjointes πij de cette façon. Les

probabilités de sélection simples sont ensuite calculées selon la formule i ijj i

. Les résultats

apparaissent dans le tableau suivant :

10

Unité 1 2 3 4 πi

1 0.056 0.077 0.160 0.293

2 0.056 0.120 0.247 0.423

3 0.077 0.120 0.340 0.538

4 0.160 0.247 0.340 0.747

πi 0.293 0.423 0.538 0.747 2.000

On note ainsi que π1=0.293 ce qui est différent de 2ψ1=0.25. Pour obtenir des probabilités de

sélection satisfaisant πi=2ψi il faut modifier un peu les probabilités de sélection aux deux tirages.

C’est ce que fait la méthode que le statisticien Brewer a développé en 1963.

Méthode de Brewer (livre exercice 20 chap.6) pour n=2. On pose πi=2ψi, où Σ ψi =1, la probabilité

de sélection visée. Brewer a changé un peu les probabilités à chacun des 2 tirages de la méthode

simple suggérée plus haut pour obtenir le résultat souhaité. Sa procédure suppose que ψi

11

Pr(i est tirée en 1)+ Pr(k est tirée en 1 et i en 2)

(1 )(1 )

(1 2 ) (1 2 ) (1 )

(1 2 )1

(1 2 ) (1 2 ) (1 2 )

(1 2 )

i

k i

j ji i i

j ii j j

j ji i ii

j i ji j j

jij

j j

A A

A A A

A

2 (1 )2

(1 2 )

j jii

j jA

De plus les probabilités de sélection conjointes sont 2 (1 )

(1 2 )(1 2 )

i j i j

ij

i jA

Mise en œuvre sur la population des 30 villages.

On calcule d’abord les ψi , les probabilités de sélection p1i pour le 1er tirage et leur somme cumulée

avec les énoncés R suivants : psi

12

Pour le deuxième tirage on fait la somme cumulée des ψi/(1-ψ24) pour les 29 unités restantes avec

la commande cbind((1:30)[-24],cumsum(psi[-24]/(1-psi[24]))). On génère ensuite V

selon une loi uniforme sur (0,1) et on prend l’unité associée à l’intervalle contenant V. Par

exemple V=0.268 donne l’unité 9.

Finalement S={9,29} et : π9=2×106/2816= 0.0753 et π29=2×104/2816=0. 0739 et

9,29

2 (1 ) 0.0029

(1 2 )(1 2 )

i j i j

i jA

. En R : (2*psi[9]*psi[29]*(1-psi[9]-

psi[29]))/((1-2*psi[9])*(1-2*psi[29])*sum(psi*(1-psi)/(1-2*psi))).

Dans l’exemple précédent, avec ψ1=2/16, ψ2=3/16, ψ3=4/16 et ψ4=7/16, la méthode de Brewer

donne les probabilités de sélection conjointes ij suivantes :

Unité 1 2 3 4 πi

1 0.025 0.038 0.187 0.250

2 0.025 0.062 0.288 0.375

3 0.038 0.062 0.400 0.500

4 0.187 0.288 0.400 0.875

πi 0.250 0.375 0.500 0.875 2.000

On note que .025+.038+.187+.250=0.5=2 ψ1.

13

Il existe plusieurs façons astucieuses de sélectionner un échantillon de taille fixe n avec des

probabilités de sélection prédéterminées {πi}, voir l’aide en ligne de la procédure SURVEYSELECT

de SAS ou le package sampling de R. Ces procédures sont techniques et ne sont pas étudiées

en détail dans ce cours. La fonction sample de R ne permet pas de tirer sans remise un

échantillon avec des probabilités de sélection prédéterminées.

Exemple 1: PROC SURVEYSELECT de SAS (données sur les 30 villages, page 4) data trente;

input vill poprec;

datalines;

1 69

…

30 103

;

proc surveyselect data=trente

method=PPS_Brewer sampsize=2;

size poprec;

run;

proc surveyselect data=trente method=PPS

jtprobs sampsize=4;

size poprec;

run;

proc print;run;

Output :

Programme 1 (Brewer) Obs vill poprec SelectionProb SamplingWeight JtSelectionProb

1 20 102 0.072443 13.8039 0.002839689

2 26 106 0.075284 13.283 0.002839689

Programme 2 (n=4) Obs vill poprec SelectionProb SamplingWeight Unit JtProb_1 JtProb_2 JtProb_3 JtProb_4

1 1 69 0.09801 10.2029 1 0 0.010514 0.01105 0.011587

2 15 98 0.1392 7.1837 2 0.010514 0 0.01593 0.016703

3 30 103 0.14631 6.835 3 0.01105 0.01593 0 0.017622

4 8 108 0.15341 6.5185 4 0.011587 0.016703 0.017622 0

Le programme 2 met en oeuvre une méthode de sélection proposée dans

Vijayan, K. (1968), “An Exact PS Sampling Scheme: Generalization of a Method of Hanurav,”

Journal of the Royal Statistical Society, Series B, 30, 556–566. La méthode de selection de

Hanurav & Vijayan est la méthode de selection par défaut dans SAS. La méthode de Sampford est

également disponible. Cette dernière est aussi implanté dans le package R sampling.

14

ESTIMATION DU TOTAL DANS UN PLAN AVEC PROBABILITÉS DE SÉLECTION

VARIABLES

Peu importe le mode de sélection de l’échantillon, avec ou sans remise, on appelle πi=nψi la

probabilité de sélection et wi=1/πi le poids d’échantillonnage. L’estimateur du total de la variable

y est ˆ /y i i i ii S i S

T y w y

, c’est l’estimateur de Horvitz Thompson. On va étudier les propriétés

échantillonnales de cet estimateur pour les deux types d’échantillonnage, avec et sans remise.

Propriétés de l’estimateur de Horvitz Thompson : cas sans remise

Cet estimateur s’écrit en fonction des variables indicatrices Zi qui indique si une unité est

échantillonnée ou non de la façon suivante 1

ˆ /N

y i i i

i

T Z y

. Puisque E(Zi)= πi, ˆ( )y yE T T

l’estimateur de Horvitz-Thompson est un estimateur non biaisé du total de y. On va maintenant

calculer sa variance. Sachant que cov(Zi,Zj)= πij - πi πj où {πij} sont les probabilités de sélection

conjointe on a

2 2

1

2

1

ˆVar( ) Var( ) / Cov( , ) / ( )

(1 ) / ( / 1)

N

y i i i i j i j i j

i i j

N

i i i i j ij i j

i i j

T y Z y y Z Z

y y y

.

À la page 206 du livre on donne une formule alternative pour cette variance qui s’applique lorsque

la taille d’échantillon n est fixe. C’est la variance de Sen-Yates-Grundy,

15

2

,

ˆVar( )2

i j ij jiy

i j i j

yyT

Les deux formules sont mathématiquement égales si n est fixe. Des estimateurs non biaisés de la

variance sont déduits de ces deux formules

2 2ˆ( ) (1 ) / ( / 1) /y i i i i j ij i j iji S i j S

v T y y y

et

2

,

ˆv( )2

i j ij jiy

i j S ij i j

yyT

.

Le premier est l’estimateur de Horvitz-Thompson le deuxième celui de Sen-Yates Grundy. Les

deux estimateurs sont différents. Ces estimateurs sont non biaisés dans la mesure où toutes les

probabilités de sélection conjointes ij sont positives.

Noter que sous l’échantillonnage Poisson les Zi sont des variables aléatoires indépendantes. Dans

ce cas la formule de Sen Yates et Grundy ne s’appliquent pas car la taille d’échantillon est

aléatoire. Pour ce plan de sondage on a ij i j si i≠j et

2

1

ˆVar( ) (1 ) /N

y i i i

i

T y

et 2 2ˆ( ) (1 ) /y i i ii S

v T y

.

Si n=1, πij=0 et πi=ψi et 2

22

1 1

ˆVar( )N N

i iy y i y

i ii i

y yT T T

16

Exemple : Échantillon de taille 2 tiré selon la méthode de Brewer. On a π9=0.0753 et π29=0. 0739

et π9,29=0.0029; les données sont y9=111 et y29=109.

111 109ˆ 2949.0753 .0739

yT

2

2.0753 .0739 .0029 111 109ˆ( ) 0.68 .82.0029 .0753 .0739

SYG yv T

2 2

2 2

2

111 (1 .0753) 109 (1 .0739) 1 1ˆ( ) 2 111 109.0753 .0739 .0753 .0739 .0029

28478 169

HT yv T

On note que les deux estimations sont très différentes. L’estimateur de variance pour des

échantillons de taille 2 est une statistique très variable!

Estimation de variance : cas avec remise

Si on tire un échantillon de taille n avec remise les variables aléatoires / :i iy i S sont indépendantes et elles ont toutes la même distribution ; leur espérance vaut Ty et leur variance est

égale à

22

2

1 1

VarN N

ji ij y y

j ii j i

yy yT T

. L’estimateur de Horvitz-Thompson est alors la

moyenne échantillonnale de ces n variables aléatoires,

1ˆ iy

i i

yT

n .

17

C’est une estimation non biaisée de Ty. Un estimateur de variance est la variance échantillonnale

des yi/ ψi divisée par n,

2

1ˆ ˆ( )( 1)

iar y y

i i

yv T T

n n

. On peut réécrire cette variance en terme

des poids d’échantillonnage de la façon suivante, 2 2

2 ˆˆ( )

( 1) 1

k kyi k Sar y i i

i ii

w yTyn nv t w y

n n n n n n

.

Notons que la variance théorique est

22

2

1 1

1 1ˆVar ( )N N

j iar y j y y

j ij i

y yT T T

n n

.

Exemple numérique avec n=4.

Essai # village U Xi i wi=1/(4i) yi yi/i

1 06 01→S 65 0.023082 10.83 77 3335.877

2 05 23→S 92 0.03267 7.65 112 3428.174

3 01 78→E 69

4 11 20→S 72 0.025568 9.78 78 3050.667

5 18 100→S 102 0.036222 6.90 114 3147.294

moy. 3240.503

18

Estimation du nombre total de résidents: (note: yi=3 042) et

1ˆ4

iy

i i

yT

= 3 240.5 et v( ˆyT ) =

2

1 ˆ3 4

iy

i i

yT

= 7420.2 = (86.14)2

Discussion : Pourquoi des probabilités variables?

Graphique de yi versus i pour les 30 villages.

L’échantillonnage avec des probabilités de sélection variables est judicieux pour une variable y qui

est proportionnelle au probabilité de sélection ψCe graphique montre que c’est le cas pour ici

pour la variable y=taille du village aujourd’hui dans l’exemple de la population des 30 villages.

0

20

40

60

80

100

120

140

0 0,005 0,01 0,015 0,02 0,025 0,03 0,035 0,04 0,045 0,05

y(i

)

psi(i)

19

Discussion : Estimation de la variance

Il est rare que l’on tire un échantillon avec remise. Cependant on utilise souvent les formules de

variance avec remise même si l’échantillon est tiré sans remise. Les calculs sont plus simples car

ils ne nécessitent pas la connaissance des probabilités de sélection conjointes {πij}. On espère

obtenir ainsi des estimateurs de variance qui surestiment un peu la vraie variance. Notons que 2 22

21 , ,

1 1 1ˆ ˆ( )( 1) 2 ( 1) 2( 1)

j ji i iar y y

i i j S i j Si i j i j

y yy y yv T T

n n n n n

Son espérance, pour un plan sans remise, est 2

,

ˆ( )2( 1)

ij jiar y

i j i j

yyE v T

n

. ˆ( )ar yv T

surestime la vraie variance,

2

,

ˆVar( )2

i j ij jiy

i j i j

yyT

, si

1ij

i j

n

n

.

Cette condition est souvent vérifiée et l’estimateur de variance avec remise donne alors une

mesure de précision conservatrice. D’un point de vue pratique c’est acceptable; il est préférable de

sous-estimer la précision plutôt que de la surestimer.

Exemple numérique : Pour l’échantillon de taille 2 tiré selon la méthode de Brewer ˆ 2949yT ; on

a ψ9=0.0376 et ψ29=0. 0369, y9=111 et y29=109 ainsi l’estimation de variance avec remise s’écrit

20

2 2

21 111 109ˆ( ) 2949 2949 2.86 1.692 .0376 .0369

yv T

(en fait les erreurs d’arrondis sont importantes et la vraie estimation est 1.63=1.282 !).On note que

l’estimateur avec remise est supérieur à l’estimateur de variance de Sen-Yates Grundy.

Note : La méthode de sélection de Hanurav & Vijayan satisfait les conditions 1

1ij

i j

n

n

sous

certaines hypothèses de régularité concernant les i. Ces deux conditions font en sorte que (i)

l’estimateur de variance de Sen-Yates-Grundy est toujours positif et (ii) l’estimateur de variance

avec remise surestime la vraie variance.

Note : SAS ne fournit pas de procédures qui permettent de calculer l’estimateur de variance sans

remise de Sen-Yates-Grundy. SURVEYMEANS permet de calculer l’estimateur de variance avec

remise.

Documents

Chapitre 6 Partie 1 : ÉCHANTILONNAGE AVEC DES … · 2016. 3. 24. · 5 1-Tirage avec remise On effectue n tirages, un à la suite de l’autre; à chacun la probabilité de tirer