20
1 Chapitre 6 Partie 1 : ÉCHANTILONNAGE AVEC DES PROBABILITÉS INÉGALES Dans un plan à plusieurs degrés, lorsque les tailles M i des unités primaires sont très différentes, il est utile de sélectionner ces dernières avec des probabilités de sélection variables. Le chapitre 6 étudie dans un premier temps les plans d’échantillonnage avec probabilités de sélection variables. Il applique ensuite ce type d’échantillonnage dans des plans stratifiés à plusieurs degrés. Lorsque les unités primaires d’une population sont de tailles très différentes, une sélection aléatoire simple d’unités donne des estimateurs imprécis. Si on connaît la « taille » X de chaque unité, une meilleure façon de procéder est de faire une sélection avec des probabilités proportionnelles à la taille des unités. Ceci devrait améliorer la précision des résultats. Pour illustrer ce point on va utiliser une petite population de taille N=4 où i est la taille de l’unité i. On va considérer deux variables d’intérêt y, une (Y 1 ) associée à la taille et l’autre (Y 2 ) non. Dans les deux le total de Y vaut T y =20. Les données sont : i 1 2 3 4 X 1 2 3 4 Y 1 1 3 7 9 Y 2 7 1 9 3 On veut tirer un échantillon de taille 1 pour estimer le total des deux variables Y. Si on utilise un plan aléatoire simple l’estimateur 4y s (y s représente la valeur de y pour l’unité choisie) est sans

Chapitre 6 Partie 1 : ÉCHANTILONNAGE AVEC DES … · 2016. 3. 24. · 5 1-Tirage avec remise On effectue n tirages, un à la suite de l’autre; à chacun la probabilité de tirer

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

  • 1

    Chapitre 6 Partie 1 : ÉCHANTILONNAGE AVEC DES PROBABILITÉS INÉGALES

    Dans un plan à plusieurs degrés, lorsque les tailles Mi des unités primaires sont très différentes, il

    est utile de sélectionner ces dernières avec des probabilités de sélection variables. Le chapitre 6

    étudie dans un premier temps les plans d’échantillonnage avec probabilités de sélection variables.

    Il applique ensuite ce type d’échantillonnage dans des plans stratifiés à plusieurs degrés.

    Lorsque les unités primaires d’une population sont de tailles très différentes, une sélection

    aléatoire simple d’unités donne des estimateurs imprécis. Si on connaît la « taille » X de chaque

    unité, une meilleure façon de procéder est de faire une sélection avec des probabilités

    proportionnelles à la taille des unités. Ceci devrait améliorer la précision des résultats. Pour

    illustrer ce point on va utiliser une petite population de taille N=4 où i est la taille de l’unité i. On

    va considérer deux variables d’intérêt y, une (Y1) associée à la taille et l’autre (Y2) non. Dans les

    deux le total de Y vaut Ty=20. Les données sont :

    i 1 2 3 4

    X 1 2 3 4

    Y1 1 3 7 9

    Y2 7 1 9 3

    On veut tirer un échantillon de taille 1 pour estimer le total des deux variables Y. Si on utilise un

    plan aléatoire simple l’estimateur 4ys (ys représente la valeur de y pour l’unité choisie) est sans

  • 2

    biais. Sa variance est égale à 2 2 2 2Var(4 ) (4 20) (12 20) (28 20) (36 20) / 4 160sy pour les deux variables Y.

    Si on échantillonne avec probabilités proportionnelles à la variable X, la probabilité associée à

    l’unité i est ψi= i/10. Le poids de sondage d’une unité est 1/ ψi =10/i et si S contient la ième unité

    alors yi/ ψi est une estimation non biaisée du total de Y. Les distributions de cet estimateur pour les

    deux variables Y sont données par

    i 1 2 3 4

    πi 1/10 2/10 3/10 4/10

    Y1 10 15 70/3 90/4

    Y2 70 5 30 30/4

    L’espérance des deux estimateurs est 20, le total des deux variables Y. La variance de l’estimateur

    pondéré pour Y1 est

    2 2 2 211ˆVar( ) (10 20) 2 (15 20) 3 (23 1/ 3 20) 4 (22.5 20) 20.83

    10T

    alors que celle pour la deuxième variable Y2 est

    2 2 2 221ˆVar( ) (70 20) 2 (5 20) 3 (30 20) 4 (7.5 20) 400.5

    10T

    Pour la variable Y1 associée à la mesure de taille X, le plan avec des probabilités de sélection

    variables donne une variance beaucoup plus petite que le plan aléatoire simple; par contre pour la

  • 3

    variable non liée à la taille, les probabilités de sélection variables détériorent la qualité de

    l’estimation.

    Un plan avec des probabilités de sélection variables est une généralisation du plan stratifié où

    chaque unité a sa propre probabilité d’être sélectionnée. Un tel plan est judicieux pour des

    variables d’intérêt Y qui sont proportionnelles à la variable de taille utilisée pour construire les

    probabilités de sélection.

    La « taille » des unités utilisée pour construire les probabilités de sélection est une information

    auxiliaire qui pourrait être incorporée a posteriori, comme au chapitre 3, pour rendre les

    estimateurs obtenus avec un plan aléatoire simple plus précis. Cette information auxiliaire est

    utilisée ici pour construire le plan d’échantillonnage. Cette approche est adéquate dans un plan à

    plusieurs degrés lorsque les unités primaires sont des entités géographiques de tailles variables.

    On échantillonne avec des probabilités variables lorsqu’on est en présence de grappes avec des

    tailles différentes. Elles sont aussi utiles pour favoriser certaines unités qui sont plus importantes

    que d’autres. Par exemple si on échantillonne des sites pour interviewer des pêcheurs on va

    privilégier les sites les plus fréquentés.

  • 4

    PLAN DE SONDAGE AVEC PROBABILITÉS DE SÉLECTION VARIABLES

    Il n’y a pas de difficulté à tirer des échantillons de taille 1 avec des probabilités variables.

    Comment faire si n>1? On peut utiliser l’échantillonnage Poisson, une généralisation de

    l’échantillonnage Bernoulli, où l’appartenance à l’échantillon est déterminée indépendamment

    d’une unité à l’autre. La probabilité d’être retenue dans l’échantillon est de πi =nXi/Xk pour l’unité i. Notons que la taille d’un échantillon Poisson est aléatoire; son espérance vaut n.

    Pour illustrer les différents plans, on va s’intéresser à la population des N=30 villages. On dispose

    pour chaque village d’une mesure de taille X calculée lors du dernier recensement (X=2816).

    Les 30 valeurs de X et les probabilités de sélection associées sont au Tableau 1.

    Tableau 1 : Variables auxiliaires et probabilités de sélection pour la population des 30 villages vill 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

    X 69 82 110 80 92 65 72 108 106 80 72 102 73 84 98 84 85 102 122 102 86 78 112 97 117 106 115 110 104 103

    .025 .029 .039 .028 .033 .023 .026 .038 .038 .028 .026 .036 .026 .03 .035 .03 .03 .036 .043 .036 .031 .028 .04 .034 .041 .038 .041 .039 .037 .037

    Pour tirer un échantillon de Poisson avec une taille espérée de 4. Il suffit de générer 30 lois

    uniformes sur (0,0.25), une par unité. On met dans l’échantillon toutes les unités pour lesquelles

    est supérieur à l’uniforme. Voici deux exemples de simulation qui donnent des échantillons de

    taille 1 et 5. Le premier est {14}, le deuxième {7,12,17,19,27}. .025 .029 .039 .028 .033 .023 .026 .038 .038 .028 .026 .036 .026 .03 .035 .03 .03 .036 .043 .036 .031 .028 .04 .034 .041 .038 .041 .039 .037 .037

    .148 .164 .111 .167 .058 .085 .196 .061 .149 .219 .073 .190 .128 .245 .073 .027 .108 .161 .218 .214 .198 .157 .089 .169 .072 .091 .115 .098 .050 .119

    .101 .176 .183 .110 .215 .092 .010 .048 .230 .117 .205 .023 .062 .119 .233 .212 .015 .119 .039 .092 .196 .227 .061 .095 .151 .148 .009 .160 .105 .072

  • 5

    1-Tirage avec remise

    On effectue n tirages, un à la suite de l’autre; à chacun la probabilité de tirer l’unité i est ψi=Xi/ΣXk

    peu importe qu’elle ait déjà été tirée ou non.

    Une façon simple de procéder utilise les sommes cumulées. Considérons la construction d’un plan

    de sondage avec des probabilités de sélection proportionnelles à la taille au recensement précédent

    pour la population des 30 villages. Le tableau des sommes cumulées est donné par

    i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

    X-cum 69 151 261 341 433 498 570 678 784 864 936 1038 1111 1195 1293

    16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

    1377 1462 1564 1686 1788 1874 1952 2064 2161 2278 2384 2499 2609 2713 2816

    On associe à l’unité i l’intervalle 1

    1 1( , ]

    i i

    j jj jX X

    . Pour sélectionner une unité, on tire un

    nombre aléatoire entre 1 et Xi=2816. On met dans l’échantillon l’unité correspondant à l’intervalle contenant le nombre choisi. On répète cette procédure n fois pour obtenir un

    échantillon de taille n. Les nombres aléatoires 490, 350, 921, et 1633 permettent, par exemple, de

    tirer les villages 6,5, 11 et 18.

    Note : i) dans R floor(1+N*runif(1)) donne un entier aléatoire uniformément distribué sur les

    entiers allant de 1 à N.

    ii) Il est parfois plus simple de travailler avec les sommes cumulées des probabilités ψi et de

    faire la sélection à partir d’une variable aléatoire uniformément distribuée sur (0,1).

  • 6

    MÉTHODE DE LAHIRI.

    A chaque tirage on procède de la façon suivante :

    Étape 1 : on tire une unité au hasard sans tenir compte des X.

    Étape 2 : on fait une sorte de validation; on tire un nombre au hasard U entre 1 et max Xi (c’est-à-

    dire uniformément distribué dans l’ensemble {1,2,…,max Xi}) et on conserve l’unité i seulement si

    iX U . Note : la probabilité pour que i soit gardée est de / max( )iX X .

    On répète la procédure jusqu’à ce que les n unités requises soient sélectionnées.

    Tirage selon la méthode de Lahiri d’un échantillon avec des probabilités proportionnelles à X et

    avec remise de la population des 30 villages (U est un nombre aléatoire entre 1 et max X= 122).

    Essai # village U Xi i yi yi/i

    1 06 01→S 65 0.023082 77 3335.877

    2 05 23→S 92 0.03267 112 3428.174

    3 01 78→E 69

    4 11 20→S 72 0.025568 78 3050.667

    5 18 100→S 102 0.036222 114 3147.294

    moy. 3240.503

    Dans ce tableau, i = Xi/Xk est la probabilité de sélection de l’unité i à un des n tirages.

  • 7

    Proposition : Avec la méthode de Lahiri, la probabilité conditionnelle pour que l’unité i soit

    sélectionnée à un tirage étant donné qu’une unité est tirée à ce tirage est i=Xi/jXj.

    Démonstration : On veut évaluer la probabilité conditionnelle Pr( est tirée)

    Pr( est tirée | une unité est tirée)=Pr( est tirée)

    (1 / ) ( / max( ))

    (1 / ) ( / max( ))

    k

    i ii

    k kk k

    ii

    k

    N X X X

    N X X X

    CQFD

  • 8

    2-Tirage sans remise

    Pour obtenir une taille d’échantillon fixe n, on peut utiliser une variante de l’échantillonnage

    systématique qui utilise la procédure suivante

    1. On fait une permutation aléatoire des N unités de la population (étape optionnelle)

    2. On fait la somme cumulée des Xi et on associe à l’unité i l’intervalle 1

    1 1( , ]

    i i

    k kk kX X

    3. On tire U, un nombre uniformément distribué sur l’intervalle (0, Xk/n) et on met dans

    l’échantillon les unités correspondant aux intervalles contenant U, U+Xk/n, …,U+(n-1)

    Xk/n)

    Avec R, les commandes indi

  • 9

    Une méthode de sélection sans remise relativement simple est présentée à la section 6.4 du livre;

    elle est mise en œuvre par la fonction sample de R. Elle utilise l’algorithme suivant:

    a) On tire une unité au hasard en donnant une probabilité ψi à l’unité i;

    b) Si l’unité i est tirée en premier au deuxième tirage l’unité j reçoit la probabilité ψj/(1- ψi), ji, d’être tirée.

    On a

    Pr(unités i et j dans l'échantillon)=1 1

    j iij i j

    i j

    Cette façon de faire ne permet pas d’obtenir des probabilités de sélection satisfaisant πi=2ψi. En

    effet en général 2 i ijj i .

    Pour montrer cela considérons une population de taille N=4 et les valeurs de ψi suivantes 2/16,

    3/16, 4/16 et 7/16. La probabilité que l’échantillon contienne les unités 1 et 2 est donnée par

    12 1 2 2

    1 2

    1 1 2 3 16 160.056

    1 1 16 14 13

    On peut calculer systématiquement toutes les probabilités conjointes πij de cette façon. Les

    probabilités de sélection simples sont ensuite calculées selon la formule i ijj i

    . Les résultats

    apparaissent dans le tableau suivant :

  • 10

    Unité 1 2 3 4 πi

    1 0.056 0.077 0.160 0.293

    2 0.056 0.120 0.247 0.423

    3 0.077 0.120 0.340 0.538

    4 0.160 0.247 0.340 0.747

    πi 0.293 0.423 0.538 0.747 2.000

    On note ainsi que π1=0.293 ce qui est différent de 2ψ1=0.25. Pour obtenir des probabilités de

    sélection satisfaisant πi=2ψi il faut modifier un peu les probabilités de sélection aux deux tirages.

    C’est ce que fait la méthode que le statisticien Brewer a développé en 1963.

    Méthode de Brewer (livre exercice 20 chap.6) pour n=2. On pose πi=2ψi, où Σ ψi =1, la probabilité

    de sélection visée. Brewer a changé un peu les probabilités à chacun des 2 tirages de la méthode

    simple suggérée plus haut pour obtenir le résultat souhaité. Sa procédure suppose que ψi

  • 11

    Pr(i est tirée en 1)+ Pr(k est tirée en 1 et i en 2)

    (1 )(1 )

    (1 2 ) (1 2 ) (1 )

    (1 2 )1

    (1 2 ) (1 2 ) (1 2 )

    (1 2 )

    i

    k i

    j ji i i

    j ii j j

    j ji i ii

    j i ji j j

    jij

    j j

    A A

    A A A

    A

    2 (1 )2

    (1 2 )

    j jii

    j jA

    De plus les probabilités de sélection conjointes sont 2 (1 )

    (1 2 )(1 2 )

    i j i j

    ij

    i jA

    Mise en œuvre sur la population des 30 villages.

    On calcule d’abord les ψi , les probabilités de sélection p1i pour le 1er tirage et leur somme cumulée

    avec les énoncés R suivants : psi

  • 12

    Pour le deuxième tirage on fait la somme cumulée des ψi/(1-ψ24) pour les 29 unités restantes avec

    la commande cbind((1:30)[-24],cumsum(psi[-24]/(1-psi[24]))). On génère ensuite V

    selon une loi uniforme sur (0,1) et on prend l’unité associée à l’intervalle contenant V. Par

    exemple V=0.268 donne l’unité 9.

    Finalement S={9,29} et : π9=2×106/2816= 0.0753 et π29=2×104/2816=0. 0739 et

    9,29

    2 (1 ) 0.0029

    (1 2 )(1 2 )

    i j i j

    i jA

    . En R : (2*psi[9]*psi[29]*(1-psi[9]-

    psi[29]))/((1-2*psi[9])*(1-2*psi[29])*sum(psi*(1-psi)/(1-2*psi))).

    Dans l’exemple précédent, avec ψ1=2/16, ψ2=3/16, ψ3=4/16 et ψ4=7/16, la méthode de Brewer

    donne les probabilités de sélection conjointes ij suivantes :

    Unité 1 2 3 4 πi

    1 0.025 0.038 0.187 0.250

    2 0.025 0.062 0.288 0.375

    3 0.038 0.062 0.400 0.500

    4 0.187 0.288 0.400 0.875

    πi 0.250 0.375 0.500 0.875 2.000

    On note que .025+.038+.187+.250=0.5=2 ψ1.

  • 13

    Il existe plusieurs façons astucieuses de sélectionner un échantillon de taille fixe n avec des

    probabilités de sélection prédéterminées {πi}, voir l’aide en ligne de la procédure SURVEYSELECT

    de SAS ou le package sampling de R. Ces procédures sont techniques et ne sont pas étudiées

    en détail dans ce cours. La fonction sample de R ne permet pas de tirer sans remise un

    échantillon avec des probabilités de sélection prédéterminées.

    Exemple 1: PROC SURVEYSELECT de SAS (données sur les 30 villages, page 4) data trente;

    input vill poprec;

    datalines;

    1 69

    30 103

    ;

    proc surveyselect data=trente

    method=PPS_Brewer sampsize=2;

    size poprec;

    run;

    proc surveyselect data=trente method=PPS

    jtprobs sampsize=4;

    size poprec;

    run;

    proc print;run;

    Output :

    Programme 1 (Brewer) Obs vill poprec SelectionProb SamplingWeight JtSelectionProb

    1 20 102 0.072443 13.8039 0.002839689

    2 26 106 0.075284 13.283 0.002839689

    Programme 2 (n=4) Obs vill poprec SelectionProb SamplingWeight Unit JtProb_1 JtProb_2 JtProb_3 JtProb_4

    1 1 69 0.09801 10.2029 1 0 0.010514 0.01105 0.011587

    2 15 98 0.1392 7.1837 2 0.010514 0 0.01593 0.016703

    3 30 103 0.14631 6.835 3 0.01105 0.01593 0 0.017622

    4 8 108 0.15341 6.5185 4 0.011587 0.016703 0.017622 0

    Le programme 2 met en oeuvre une méthode de sélection proposée dans

    Vijayan, K. (1968), “An Exact PS Sampling Scheme: Generalization of a Method of Hanurav,”

    Journal of the Royal Statistical Society, Series B, 30, 556–566. La méthode de selection de

    Hanurav & Vijayan est la méthode de selection par défaut dans SAS. La méthode de Sampford est

    également disponible. Cette dernière est aussi implanté dans le package R sampling.

  • 14

    ESTIMATION DU TOTAL DANS UN PLAN AVEC PROBABILITÉS DE SÉLECTION

    VARIABLES

    Peu importe le mode de sélection de l’échantillon, avec ou sans remise, on appelle πi=nψi la

    probabilité de sélection et wi=1/πi le poids d’échantillonnage. L’estimateur du total de la variable

    y est ˆ /y i i i ii S i S

    T y w y

    , c’est l’estimateur de Horvitz Thompson. On va étudier les propriétés

    échantillonnales de cet estimateur pour les deux types d’échantillonnage, avec et sans remise.

    Propriétés de l’estimateur de Horvitz Thompson : cas sans remise

    Cet estimateur s’écrit en fonction des variables indicatrices Zi qui indique si une unité est

    échantillonnée ou non de la façon suivante 1

    ˆ /N

    y i i i

    i

    T Z y

    . Puisque E(Zi)= πi, ˆ( )y yE T T

    l’estimateur de Horvitz-Thompson est un estimateur non biaisé du total de y. On va maintenant

    calculer sa variance. Sachant que cov(Zi,Zj)= πij - πi πj où {πij} sont les probabilités de sélection

    conjointe on a

    2 2

    1

    2

    1

    ˆVar( ) Var( ) / Cov( , ) / ( )

    (1 ) / ( / 1)

    N

    y i i i i j i j i j

    i i j

    N

    i i i i j ij i j

    i i j

    T y Z y y Z Z

    y y y

    .

    À la page 206 du livre on donne une formule alternative pour cette variance qui s’applique lorsque

    la taille d’échantillon n est fixe. C’est la variance de Sen-Yates-Grundy,

  • 15

    2

    ,

    ˆVar( )2

    i j ij jiy

    i j i j

    yyT

    Les deux formules sont mathématiquement égales si n est fixe. Des estimateurs non biaisés de la

    variance sont déduits de ces deux formules

    2 2ˆ( ) (1 ) / ( / 1) /y i i i i j ij i j iji S i j S

    v T y y y

    et

    2

    ,

    ˆv( )2

    i j ij jiy

    i j S ij i j

    yyT

    .

    Le premier est l’estimateur de Horvitz-Thompson le deuxième celui de Sen-Yates Grundy. Les

    deux estimateurs sont différents. Ces estimateurs sont non biaisés dans la mesure où toutes les

    probabilités de sélection conjointes ij sont positives.

    Noter que sous l’échantillonnage Poisson les Zi sont des variables aléatoires indépendantes. Dans

    ce cas la formule de Sen Yates et Grundy ne s’appliquent pas car la taille d’échantillon est

    aléatoire. Pour ce plan de sondage on a ij i j si i≠j et

    2

    1

    ˆVar( ) (1 ) /N

    y i i i

    i

    T y

    et 2 2ˆ( ) (1 ) /y i i ii S

    v T y

    .

    Si n=1, πij=0 et πi=ψi et 2

    22

    1 1

    ˆVar( )N N

    i iy y i y

    i ii i

    y yT T T

  • 16

    Exemple : Échantillon de taille 2 tiré selon la méthode de Brewer. On a π9=0.0753 et π29=0. 0739

    et π9,29=0.0029; les données sont y9=111 et y29=109.

    111 109ˆ 2949.0753 .0739

    yT

    2

    2.0753 .0739 .0029 111 109ˆ( ) 0.68 .82.0029 .0753 .0739

    SYG yv T

    2 2

    2 2

    2

    111 (1 .0753) 109 (1 .0739) 1 1ˆ( ) 2 111 109.0753 .0739 .0753 .0739 .0029

    28478 169

    HT yv T

    On note que les deux estimations sont très différentes. L’estimateur de variance pour des

    échantillons de taille 2 est une statistique très variable!

    Estimation de variance : cas avec remise

    Si on tire un échantillon de taille n avec remise les variables aléatoires / :i iy i S sont indépendantes et elles ont toutes la même distribution ; leur espérance vaut Ty et leur variance est

    égale à

    22

    2

    1 1

    VarN N

    ji ij y y

    j ii j i

    yy yT T

    . L’estimateur de Horvitz-Thompson est alors la

    moyenne échantillonnale de ces n variables aléatoires,

    1ˆ iy

    i i

    yT

    n .

  • 17

    C’est une estimation non biaisée de Ty. Un estimateur de variance est la variance échantillonnale

    des yi/ ψi divisée par n,

    2

    1ˆ ˆ( )( 1)

    iar y y

    i i

    yv T T

    n n

    . On peut réécrire cette variance en terme

    des poids d’échantillonnage de la façon suivante, 2 2

    2 ˆˆ( )

    ( 1) 1

    k kyi k Sar y i i

    i ii

    w yTyn nv t w y

    n n n n n n

    .

    Notons que la variance théorique est

    22

    2

    1 1

    1 1ˆVar ( )N N

    j iar y j y y

    j ij i

    y yT T T

    n n

    .

    Exemple numérique avec n=4.

    Essai # village U Xi i wi=1/(4i) yi yi/i

    1 06 01→S 65 0.023082 10.83 77 3335.877

    2 05 23→S 92 0.03267 7.65 112 3428.174

    3 01 78→E 69

    4 11 20→S 72 0.025568 9.78 78 3050.667

    5 18 100→S 102 0.036222 6.90 114 3147.294

    moy. 3240.503

  • 18

    Estimation du nombre total de résidents: (note: yi=3 042) et

    1ˆ4

    iy

    i i

    yT

    = 3 240.5 et v( ˆyT ) =

    2

    1 ˆ3 4

    iy

    i i

    yT

    = 7420.2 = (86.14)2

    Discussion : Pourquoi des probabilités variables?

    Graphique de yi versus i pour les 30 villages.

    L’échantillonnage avec des probabilités de sélection variables est judicieux pour une variable y qui

    est proportionnelle au probabilité de sélection ψCe graphique montre que c’est le cas pour ici

    pour la variable y=taille du village aujourd’hui dans l’exemple de la population des 30 villages.

    0

    20

    40

    60

    80

    100

    120

    140

    0 0,005 0,01 0,015 0,02 0,025 0,03 0,035 0,04 0,045 0,05

    y(i

    )

    psi(i)

  • 19

    Discussion : Estimation de la variance

    Il est rare que l’on tire un échantillon avec remise. Cependant on utilise souvent les formules de

    variance avec remise même si l’échantillon est tiré sans remise. Les calculs sont plus simples car

    ils ne nécessitent pas la connaissance des probabilités de sélection conjointes {πij}. On espère

    obtenir ainsi des estimateurs de variance qui surestiment un peu la vraie variance. Notons que 2 22

    21 , ,

    1 1 1ˆ ˆ( )( 1) 2 ( 1) 2( 1)

    j ji i iar y y

    i i j S i j Si i j i j

    y yy y yv T T

    n n n n n

    Son espérance, pour un plan sans remise, est 2

    ,

    ˆ( )2( 1)

    ij jiar y

    i j i j

    yyE v T

    n

    . ˆ( )ar yv T

    surestime la vraie variance,

    2

    ,

    ˆVar( )2

    i j ij jiy

    i j i j

    yyT

    , si

    1ij

    i j

    n

    n

    .

    Cette condition est souvent vérifiée et l’estimateur de variance avec remise donne alors une

    mesure de précision conservatrice. D’un point de vue pratique c’est acceptable; il est préférable de

    sous-estimer la précision plutôt que de la surestimer.

    Exemple numérique : Pour l’échantillon de taille 2 tiré selon la méthode de Brewer ˆ 2949yT ; on

    a ψ9=0.0376 et ψ29=0. 0369, y9=111 et y29=109 ainsi l’estimation de variance avec remise s’écrit

  • 20

    2 2

    21 111 109ˆ( ) 2949 2949 2.86 1.692 .0376 .0369

    yv T

    (en fait les erreurs d’arrondis sont importantes et la vraie estimation est 1.63=1.282 !).On note que

    l’estimateur avec remise est supérieur à l’estimateur de variance de Sen-Yates Grundy.

    Note : La méthode de sélection de Hanurav & Vijayan satisfait les conditions 1

    1ij

    i j

    n

    n

    sous

    certaines hypothèses de régularité concernant les i. Ces deux conditions font en sorte que (i)

    l’estimateur de variance de Sen-Yates-Grundy est toujours positif et (ii) l’estimateur de variance

    avec remise surestime la vraie variance.

    Note : SAS ne fournit pas de procédures qui permettent de calculer l’estimateur de variance sans

    remise de Sen-Yates-Grundy. SURVEYMEANS permet de calculer l’estimateur de variance avec

    remise.