Transcript

Gigi Causio Voinea Estimación de la varianza en Encuestas por Muestreo

Página 0

E s t a d í s t i c a A p l i c a d a

2013

Aspectos computacionales en la

Estimación de Errores en

Encuestas por Muestreo

Gigi Causio Voinea

Gigi Causio Voinea Estimación de la varianza en Encuestas por Muestreo

Página 1

En la población FAM1500 definimos la tasa de riquez a objetiva como el siguiente parámetro,

siendo � la variable ingresos familiares, � la variable gastos en alimentación y

los respectivos totales, e .

1) Determinar un estimador para dicho parámetro basado en una muestra de tamaño obtenida mediante un muestreo con probabilidades iguales y sin reemplazo. Calcular una estimación de su varianza por el método de aproximación lineal.

2) Selecciona una muestra aleatoria simple de tamaño 50. A partir de ella estima la varianza del estimador de dicho parámetro por el método de aproximación lineal.

3) A partir de la muestra del apartado anterior, estima la varianza utilizando 5 grupos aleatorios dependientes.

4) A partir de la muestra del apartado anterior, estima la varianza utilizando 20 semimuestras.

5) Estima la varianza a partir de la primera muestra, con 5 grupos independientes de tamaño 10.

6) Estima la varianza a partir de la primera muestra de tamaño 50, usando el método Jackknife.

7) Estima la varianza a partir de una muestra aleatoria simple de tamaño 100, usando 20 muestras Bootstrap.

8) Estima la varianza a partir de una muestra de tamaño 40 usando 5 muestras Bootstrap

9) Selecciona una muestra estratificada aleatoria de tamaño 30 con afijación uniforme. Estima la varianza a partir de dicha muestra utilizando la técnica de linealización.

10) Repite al apartado anterior usando 2 grupos aleatorios dependientes en cada estrato.

Gigi Causio Voinea Estimación de la varianza en Encuestas por Muestreo

Página 2

1) Determinar un estimador para dicho parámetro bas ado en una muestra de tamaño � obtenida mediante un muestreo con probabilidades ig uales y sin reemplazo. Calcular una estimación de su varianza p or el método de aproximación lineal.

> Z <- 1:1500

> muestra1 <- sample (Z, 40, replace=F)

> sort (muestra1)

[1] 3 12 44 86 143 148 182 201 227 243 269 297 379 454 481

[16] 527 580 600 641 653 671 753 819 905 959 1031 1088 1097 1161 1169

[31] 1176 1193 1278 1305 1374 1399 1438 1446 1463 1489

A la muestra1 le corresponde los siguientes valores para � e �:

> variables <- cbind(datos$ING, datos$AL)

> mostra1 <- rbind(variables[3,], variables[12,], variables[44,], variables[86,], variables[143,],

variables[148,], variables[182,], variables[201,], variables[227,], variables[243,],variables[269,],

variables[297,], variables[379,], variables[454,], variables[481,], variables[527,],variables[580,],

variables[600,], variables[641,], variables[653,], variables[671,], variables[753,],variables[819,],

variables[905,], variables[959,], variables[1031,], variables[1088,], variables[1097,],

variables[1161,],variables[1169,],variables[1176,], variables[1193,], variables[1278,],

variables[1305,], variables[1374,], variables[1399,], variables[1438,], variables[1446,],

variables[1463,], variables[1489,])

> mostra1

[,1] [,2]

[1,] 43480 9205

[2,] 34115 6240

[3,] 43854 10318

[4,] 42747 9240

[5,] 47695 9252

[6,] 43247 8196

[7,] 35562 7419

[8,] 39931 8833

[9,] 36582 6399

[10,] 36336 7305

[11,] 38259 7198

[12,] 45720 9764

[13,] 42794 9280

[14,] 36406 7897

[15,] 40556 7942

[16,] 40169 7189

[17,] 41999 8974

[18,] 39987 7672

[19,] 42188 7985

[20,] 41446 8834

[,1] [,2]

[21,] 48637 9994

[22,] 38585 8305

[23,] 31449 7343

[24,] 33032 7094

[25,] 47052 9350

[26,] 41986 8388

[27,] 42001 8172

[28,] 32824 6602

[29,] 48700 8939

[30,] 48589 9255

[31,] 45333 9692

[32,] 41340 9202

[33,] 35536 6968

[34,] 46968 9587

[35,] 41786 8988

[36,] 41556 8349

[37,] 49711 9811

[38,] 36645 7755

[39,] 44948 8951

[40,] 41410 8752

Dado que nuestro parámetro es: � = ��� el estimador del parámetro �, es: �� = ����

Siendo ����� estimadores de ���, a partir de una muestra aleatoria simple SIN reemplazamiento tenemos que utilizar las siguientes fórmulas:

Gigi Causio Voinea Estimación de la varianza en Encuestas por Muestreo

Página 3

�� = ��∑ ������ �� = ��∑ ������En R podemos crear el diseño muestral y estimar el total con la ayuda de dicho diseño, utilizando los siguientes órdenes si funciones:

> library (survey)

> mostra1<- data.frame (mostra1)

> fal.srs <- rep (1500,40)

> des.srsA<- svydesign (id=~1, strata=NULL, data=mostra1, fpc=fal.srs)

> des.srsA

Independent Sampling design

svydesign(id = ~1, strata = NULL, data = mostra1, fpc = fal.srs)

> svytotal(~mostra1[,1], des.srsA)

total SE

mostra1[, 1] 61918538 1110987

> svytotal(~mostra1[,2], des.srsA)

total SE

mostra1[, 2] 12623963 247327

El estimador de nuestro parámetro sería:

> ((61918538^2)-(12623963^2))/1500^4

[1] 725.8352

�� = 725,8352

El estimador de la varianza de un parámetro no lineal se calcula de la siguiente forma:

�!��" = #$%&��, �'($��� )'· !���" + #$%&��, �'($��' )

'· !��'"

+ 2 $%&��, �'($���$%&��, �'(

$��' ,-.[���, ��']

Donde 12&34,3(

13�4 representa 1253�4,3�6

13�4 y 12&34,3(

13� representa 1253�4,3�6

13� si ���, ��' son

estimadores insesgados de ��, �'.

$%�8 = 1�&�8,�8(1�8

$%�8 = 1�&�8,�8(1�8

$%9: = [&����(;∗� ][5����6∗&� (;&� (

$%9: = −2��>?

Gigi Causio Voinea Estimación de la varianza en Encuestas por Muestreo

Página 4

$%@: = [&����(;∗� ][5����6∗&� (;&� (

$%@: = 2��>?

> n=40

> N=1500

> f=n/N

> cuasivarianza_y=(sum((mostra1[,1]-mean(mostra1[,1]))^2))/(n-1)

> cuasivarianza_y

[1] 22544138

> varianza_y <- (N^2*(1-f)*cuasivarianza_y)/n

> varianza_y

[1] 1.234292e+12

> cuasivarianza_x=(sum((mostra1[,2]-mean(mostra1[,2]))^2))/(n-1)

[1] 1117276

> varianza_x <- (N^2*(1-f)*cuasivarianza_x)/n

> varianza_x

[1] 61170845523

> derivada_y <- (2*61918538)/1500^4

> derivada_x <- (-2*12623963)/1500^4

> derivada_y

[1] 2.446164e-05

> derivada_x

[1] -4.987245e-06

> covarianza_yx <-(sum((mostra1[,1]-mean(mostra1[,1]))*(mostra1[,2]-mean (mostra1[,2]))))

/ (n-1)

> covarianza_yx

[1] 4254507

>(derivada_y)^2*varianza_y+(derivada_x)^2*varianza_x+2*derivada_y*derivada_x*covarianza

_yx

[1] 740.086

A�!��" = 740,086

Gigi Causio Voinea Estimación de la varianza en Encuestas por Muestreo

Página 5

2) Selecciona una muestra aleatoria simple de tama ño 50. A partir de ella estima la varianza del estimador de dicho parámetro, por e l método de aproximación lineal.

> Z <- 1:1500

> muestra2 <- simple (Z, 50, replace=F)

> sort (muestra2)

[1] 8 70 116 130 134 219 233 274 280 385 391 393 430 432 553

[16] 623 634 662 674 702 723 735 775 848 878 899 927 980 1070 1083

[31] 1090 1095 1114 1126 1134 1158 1181 1222 1228 1261 1262 1272 1283 1304 1327

[46] 1338 1341 1383 1446 1449

> mostra2 <- rbind(variables[8,], variables[70,], variables[116,], variables[130,], variables[134,],

variables[219,], variables[233,], variables[274,], variables[280,], variables[385,],variables[391,],

variables[393,], variables[430,], variables[432,], variables[553,], variables[623,],variables[634,],

variables[662,], variables[674,], variables[702,], variables[723,], variables[735,],variables[775,],

variables[848,], variables[878,], variables[899,], variables[927,], variables[980,],

variables[1070,],variables[1083,], variables[1090,], variables[1095,], variables[1114,],

variables[1126,], variables[1134,], variables[1158,], variables[1181,], variables[1222,],

variables[1228,],variables[1261,],variables[1262,],variables[1272,],variables[1283,],variables[1

304,],variables[1327,],variables[1338,],variables[1341,],variables[1383,],variables[1446,],varia

bles[1449,])

Dado que nuestro parámetro es: � = ��� el estimador del parámetro �, es: �� = ����

Siendo ����� estimadores de ���, a partir de una muestra aleatoria simple SIN reemplazamiento tenemos que utilizar las siguientes fórmulas: �� = ��∑ ������ y �� = ��∑ ������ , donde En R podemos crear el diseño muestral y estimar el total con la ayuda de dicho diseño, utilizando los siguientes órdenes si funciones:

> library (survey)

> mostra2 <- as.data.frame (mostra2)

> fpc.srs <- rep (1500,50)

> des.srs <- svydesign (id=~1, strata=NULL, data=mostra2, fpc=fpc.srs)

> des.srs

Independent Sampling design

svydesign(id = ~1, strata = NULL, data = mostra2, fpc = fpc.srs)

> svytotal(~mostra2[,1], design=des.srs)

total SE

mostra2[, 1] 61846230 1048383

> svytotal(~mostra2[,2], design=des.srs)

total SE

mostra2[, 2] 12513540 227652

Resulta que el estimador de nuestro parámetro, para esta muestra sería:

> estimadorP <- (618462230^2-12513540^2)/N^4

> estimadorP

[1] 724.6158

�� = 724,6158

Gigi Causio Voinea Estimación de la varianza en Encuestas por Muestreo

Página 6

El estimador de la varianza de un parámetro no lineal, se puede calcular con la siguiente fórmula:

�!��" = #$%&��, �'($��� )'· !���" + #$%&��, �'($��' )

'· !��'"

+ 2 $%&��, �'($���$%&��, �'(

$��' ,-.[���, ��']

Donde 12&34,3(

13�4 representa 1253�4,3�6

13�4 y 12&34,3(

13� representa 1253�4,3�6

13� si ���, ��' son

estimadores insesgados de ��, �'.

$��8 = 1�&�8,�8(1�8

$��8 = 1�&�8,�8(1�8

$%9: = [&����(;∗� ][5����6∗&� (;&� ( =

'��F

$%@: = [&����(;∗� ][5����6∗&� (;&� ( =

'��F

> n2 = 50

> f2=n2/N

> cuasivarianza2_y=(sum((mostra2[,1]-mean(mostra2[,1]))^2))/(n2-1)

> cuasivarianza2_y

[1] 25266804

> varianza2_y <- (N^2*(1-f2)*cuasivarianza2_y)/n2

> varianza2_y

[1] 1.099106e+12

> cuasivarianza2_x=(sum((mostra2[,2]-mean(mostra2[,2]))^2))/(n2-1)

> cuasivarianza2_x

[1] 1191386

> varianza2_x <- (N^2*(1-f2)*cuasivarianza2_x)/n2

> varianza2_x

[1] 51825288798

> derivada2_y <- (2*61846230)/1500^4

> derivada2_y

[1] 2.443308e-05

> derivada2_x <- (-2*12513540)/1500^4

> derivada2_x

[1] -4.943621e-06

> covarianza2_yx <-(sum((mostra2[,1]-mean(mostra2[,1]))*(mostra2[,2]-mean (mostra2[,2]))))

/ (n2-1)

> covarianza2_yx

[1] 4717980

>(derivada2_y)^2*varianza2_y+(derivada2_x)^2*varianza2_x+2*derivada2_y*derivada2_x *

covarianza2_yx

[1] 657.4046

A�!��" = 657,4046

Gigi Causio Voinea Estimación de la varianza en Encuestas por Muestreo

Página 7

3) A partir de la muestra del apartado anterior, es tima la varianza utilizando 5 grupos aleatorios dependientes.

Extraemos los cinco grupos aleatorios, teniendo en cuenta que en el caso de los grupos aleatorios dependientes se divide la muestra, de manera aleatoria. NO es con reemplazamiento.

> GIy1

[1] 55049 47077 45607 42429 45401 45330 43918 44316 35178 46332

> GIy2

[1] 41896 36554 34488 34777 36336 37506 41705 42563 38419 44527

> GIy3

[1] 35362 37556 47705 36046 41540 43030 44111 50229 47826 31532

> GIy4

[1] 36026 37215 37326 48380 39616 43907 40615 31302 36041 43408

> GIy5

[1] 35239 45630 42949 39003 41059 42877 46258 41188 36645 42512

> GIx1

[1] 10880 9582 8968 9808 8139 8757 8392 8478 7592 9846

> GIx2

[1] 7480 6957 7337 7569 6728 7570 9017 9386 8566 7614

> GIx3

[1] 6222 8183 10669 7713 8734 8885 8985 10545 9482 6040

> GIx4

[1] 7053 7485 7365 8974 7585 9088 8159 6608 7643 8134

> GIx5

[1] 7269 8898 9131 8247 8679 8559 8861 8077 7755 9424

El estimador del total, para este tipo de muestreo se calcula de esta forma: �� = ��∑ ������ y �� = ��∑ ������

En este caso como G = 10 (para cada grupo aleatorio) y N=1500

% = H� = 0.006666667

Obtenemos los siguientes estimadores para el total de la variable Y e X:

> 0.006666667^-1*sum (GIy1)

[1] 67595547

> 0.006666667^-1*sum (GIy2)

[1] 58315647

> 0.006666667^-1*sum (GIy3)

[1] 62240547

> 0.006666667^-1*sum (GIy4)

[1] 59075397

> 0.006666667^-1*sum (GIy5)

[1] 62003997

> 0.006666667^-1*sum (GIx1)

[1] 13566299

> 0.006666667^-1*sum (GIx2)

[1] 11733599

> 0.006666667^-1*sum (GIx3)

[1] 12818699

> 0.006666667^-1*sum (GIx4)

[1] 11714099

> 0.006666667^-1*sum (GIx5)

[1] 12734999

Gigi Causio Voinea Estimación de la varianza en Encuestas por Muestreo

Página 8

Teniendo ya los estimadores totales de cada grupo aleatorio dependiente, podemos calcular un parámetro para cada grupo y con estos parámetros calculamos la varianza del parámetro deseado.

IJ�K�L = 1M&M − 1(N&��O −

M

O���K�('

�K� = 1PN ��O

Q

R��

��O = ��' − ��'>? → TUVWXáZT[X-TG\W]W^X_V-WUTW[-X`-]TVTG]`TG[T.

��O� = abcdcc?b�ecaa'dd�cff = 866,1953

��O' = che�ca?b��beecdd�cff = 644,5506

��Oe = a''?fc?b�'h�hadd�cff = 732,7539

��O? = cdfbcedb��b�?fdd�cff = 662,2583

��Oc = a'ffeddb�'be?ddd�cff = 727.371

�K� = 726,6258

I J�K�L = �c∗? &866,1953 − 726,6258(' + &644,5506 − 726,6258(' + &732,7539 −

726,6258(' + &662,2583 − 726,6258(' + &727.371 − 726,6258('

I J�K�L = 1519,863

Si asumimos distribución normal en la muestra, podemos calcular un intervalo de confianza al 95% del parámetro:

&�K� − 1,96iI J�K�L ; �K� + 1,96iI J�K�L( (650,2143 ; 803,0373)

Cuando P no es bastante grande se recomienda el intervalo de confianza según el estadístico t-Student, y entonces el intervalo de confianza coge la siguiente forma:

&�K� − 2,132iIJ�K�L ; �K� + 2,132iIJ�K�L( (643.5089 ; 809.7428)

Con un error de muestreo de:

k = 2iIJ�K�L k = 77,97088

Gigi Causio Voinea Estimación de la varianza en Encuestas por Muestreo

Página 9

4) A partir de la muestra del apartado anterior, es tima la varianza utilizando 20 semimuestras.

Sabiéndose que el mínimo de semimuestras (replicaciones) es \ = �' × JG × H

'L, donde

es el tamaño de la muestra, resulta que necesitaríamos un mínimo de 625 semimuestras. Pero, para la práctica y según el enunciado vamos a elegir solamente 20.

Para la variable Y (Ingresos) tenemos las siguientes 20 semimuestras:

> semimuestra1y

[1] 55049 47077 45607 42429 45401 45330 43918 44316 35178 46332 41896 36554

[13] 34488 34777 36336 37506 41705 42563 38419 44527 35362 37556 47705 36046

[25] 41540

> semimuestra2y

[1] 55049 47077 45607 42429 45401 45330 43918 44316 35178 46332 41896 36554

[13] 34488 34777 36336 37506 41705 42563 38419 44527 35362 37556 47705 36046

[25] 42512

> semimuestra3y

[1] 55049 47077 45607 42429 45401 45330 43918 44316 35178 46332 41896 36554

[13] 34488 34777 36336 37506 41705 42563 38419 44527 35362 37556 47705 36645

[25] 42512

> semimuestra4y

[1] 55049 47077 45607 42429 45401 45330 43918 44316 35178 46332 41896 36554

[13] 34488 34777 36336 37506 41705 42563 38419 44527 35362 37556 41188 36645

[25] 42512

> semimuestra5y

[1] 55049 47077 45607 42429 45401 45330 43918 44316 35178 46332 41896 36554

[13] 34488 34777 36336 37506 41705 42563 38419 44527 35362 46258 41188 36645

[25] 42512

> semimuestra6y

[1] 55049 47077 45607 42429 45401 45330 43918 44316 35178 46332 41896 36554

[13] 34488 34777 36336 37506 41705 42563 38419 41059 42877 46258 41188 36645

[25] 42512

> semimuestra7y

[1] 55049 47077 45607 42429 45401 45330 43918 44316 35178 46332 41896 36554

[13] 34488 34777 36336 37506 41705 42563 39003 41059 42877 46258 41188 36645

[25] 42512

> semimuestra8y

[1] 55049 47077 45607 42429 45401 45330 43918 44316 35178 46332 41896 36554

[13] 34488 34777 36336 37506 41705 42949 39003 41059 42877 46258 41188 36645

[25] 42512

> semimuestra9y

[1] 55049 47077 45607 42429 45401 45330 43918 44316 35178 46332 41896 36554

[13] 34488 34777 36336 37506 45630 42949 39003 41059 42877 46258 41188 36645

[25] 42512

> semimuestra10y

[1] 55049 47077 45607 42429 45401 45330 43918 44316 35178 46332 41896 36554

[13] 34488 34777 36336 35239 45630 42949 39003 41059 42877 46258 41188 36645

[25] 42512

Gigi Causio Voinea Estimación de la varianza en Encuestas por Muestreo

Página 10

> semimuestra11y

[1] 55049 47077 45607 42429 45401 45330 43918 44316 35178 46332 41896 36554

[13] 34488 34777 43408 35239 45630 42949 39003 41059 42877 46258 41188 36645

[25] 42512

> semimuestra12y

[1] 55049 47077 45607 42429 45401 45330 43918 44316 35178 46332 41896 36554

[13] 34488 36041 43408 35239 45630 42949 39003 41059 42877 46258 41188 36645

[25] 42512

> semimuestra13y

[1] 55049 47077 45607 42429 45401 45330 43918 44316 35178 46332 41896 36554

[13] 31302 36041 43408 35239 45630 42949 39003 41059 42877 46258 41188 36645

[25] 42512

> semimuestra14y

[1] 55049 47077 45607 42429 45401 45330 43918 44316 35178 46332 41896 40615

[13] 31302 36041 43408 35239 45630 42949 39003 41059 42877 46258 41188 36645

[25] 42512

> semimuestra15y

[1] 55049 47077 45607 42429 45401 45330 43918 44316 35178 46332 43907 40615

[13] 31302 36041 43408 35239 45630 42949 39003 41059 42877 46258 41188 36645

[25] 42512

> semimuestra16y

[1] 55049 47077 45607 42429 45401 45330 43918 44316 35178 39616 43907 40615

[13] 31302 36041 43408 35239 45630 42949 39003 41059 42877 46258 41188 36645

[25] 42512

> semimuestra17y

[1] 55049 47077 45607 42429 45401 45330 43918 44316 48380 39616 43907 40615

[13] 31302 36041 43408 35239 45630 42949 39003 41059 42877 46258 41188 36645

[25] 42512

> semimuestra18y

[1] 55049 47077 45607 42429 45401 45330 43918 37326 48380 39616 43907 40615

[13] 31302 36041 43408 35239 45630 42949 39003 41059 42877 46258 41188 36645

[25] 42512

> semimuestra19y

[1] 55049 47077 45607 42429 45401 45330 37215 37326 48380 39616 43907 40615

[13] 31302 36041 43408 35239 45630 42949 39003 41059 42877 46258 41188 36645

[25] 42512

> semimuestra20y

[1] 55049 47077 45607 42429 45401 36026 37215 37326 48380 39616 43907 40615

[13] 31302 36041 43408 35239 45630 42949 39003 41059 42877 46258 41188 36645

[25] 42512

Tenemos las siguientes 20 semimuestras para la variable X (Gastos en alimentación):

> semimuestra1x

[1] 10880 9582 8968 9808 8139 8757 8392 8478 7592 9846 7480 6957

[13] 7337 7569 6728 7570 9017 9386 8566 7614 6222 8183 10669 7713

[25] 8734

> semimuestra2x

[1] 10880 9582 8968 9808 8139 8757 8392 8478 7592 9846 7480 6957

[13] 7337 7569 6728 7570 9017 9386 8566 7614 6222 8183 10669 7713

Gigi Causio Voinea Estimación de la varianza en Encuestas por Muestreo

Página 11

[25] 9424

> semimuestra3x

[1] 10880 9582 8968 9808 8139 8757 8392 8478 7592 9846 7480 6957

[13] 7337 7569 6728 7570 9017 9386 8566 7614 6222 8183 10669 7755

[25] 9424

> semimuestra4x

[1] 10880 9582 8968 9808 8139 8757 8392 8478 7592 9846 7480 6957

[13] 7337 7569 6728 7570 9017 9386 8566 7614 6222 8183 8077 7755

[25] 9424

> semimuestra5x

[1] 10880 9582 8968 9808 8139 8757 8392 8478 7592 9846 7480 6957

[13] 7337 7569 6728 7570 9017 9386 8566 7614 8559 8861 8077 7755

[25] 9424

> semimuestra6x

[1] 10880 9582 8968 9808 8139 8757 8392 8478 7592 9846 7480 6957

[13] 7337 7569 6728 7570 9017 9386 8566 8679 8559 8861 8077 7755

[25] 9424

> semimuestra7x

[1] 10880 9582 8968 9808 8139 8757 8392 8478 7592 9846 7480 6957

[13] 7337 7569 6728 7570 9017 9386 8247 8679 8559 8861 8077 7755

[25] 9424

> semimuestra8x

[1] 10880 9582 8968 9808 8139 8757 8392 8478 7592 9846 7480 6957

[13] 7337 7569 6728 7570 9017 9131 8247 8679 8559 8861 8077 7755

[25] 9424

> semimuestra9x

[1] 10880 9582 8968 9808 8139 8757 8392 8478 7592 9846 7480 6957

[13] 7337 7569 6728 7570 8898 9131 8247 8679 8559 8861 8077 7755

[25] 9424

> semimuestra10x

[1] 10880 9582 8968 9808 8139 8757 8392 8478 7592 9846 7480 6957

[13] 7337 7569 6728 7269 8898 9131 8247 8679 8559 8861 8077 7755

[25] 9424

> semimuestra11x

[1] 10880 9582 8968 9808 8139 8757 8392 8478 7592 9846 7480 6957

[13] 7337 7569 8134 7269 8898 9131 8247 8679 8559 8861 8077 7755

[25] 9424

> semimuestra12x

[1] 10880 9582 8968 9808 8139 8757 8392 8478 7592 9846 7480 6957

[13] 7337 7643 8134 7269 8898 9131 8247 8679 8559 8861 8077 7755

[25] 9424

> semimuestra13x

[1] 10880 9582 8968 9808 8139 8757 8392 8478 7592 9846 7480 6957

[13] 6608 7643 8134 7269 8898 9131 8247 8679 8559 8861 8077 7755

[25] 9424

> semimuestra14x

[1] 10880 9582 8968 9808 8139 8757 8392 8478 7592 9846 7480 8159

[13] 6608 7643 8134 7269 8898 9131 8247 8679 8559 8861 8077 7755

[25] 9424

> semimuestra15x

Gigi Causio Voinea Estimación de la varianza en Encuestas por Muestreo

Página 12

[1] 10880 9582 8968 9808 8139 8757 8392 8478 7592 9846 9088 8159

[13] 6608 7643 8134 7269 8898 9131 8247 8679 8559 8861 8077 7755

[25] 9424

> semimuestra16x

[1] 10880 9582 8968 9808 8139 8757 8392 8478 7592 7585 9088 8159

[13] 6608 7643 8134 7269 8898 9131 8247 8679 8559 8861 8077 7755

[25] 9424

> semimuestra17x

[1] 10880 9582 8968 9808 8139 8757 8392 8478 8974 7585 9088 8159

[13] 6608 7643 8134 7269 8898 9131 8247 8679 8559 8861 8077 7755

[25] 9424

> semimuestra18x

[1] 10880 9582 8968 9808 8139 8757 8392 7365 8974 7585 9088 8159

[13] 6608 7643 8134 7269 8898 9131 8247 8679 8559 8861 8077 7755

[25] 9424

> semimuestra19x

[1] 10880 9582 8968 9808 8139 8757 7485 7365 8974 7585 9088 8159

[13] 6608 7643 8134 7269 8898 9131 8247 8679 8559 8861 8077 7755

[25] 9424

> semimuestra20x

[1] 10880 9582 8968 9808 8139 7053 7485 7365 8974 7585 9088 8159

[13] 6608 7643 8134 7269 8898 9131 8247 8679 8559 8861 8077 7755

[25] 9424

El estimador de la varianza de este parámetro se calcula con la siguiente fórmula:

I5��6 = 1MN&��O

M

O��− ��('

��O = ��'R − ��'R>? → TUVWXáZT[X-TG\W]WmTZ`Z_Tm[XW;

�� = ��' − ��'>? → TUVWXáZT[X-TGUWZ_Tm[XWZW]XT;

M = 20mTZ`Z_Tm[XWm

Recordamos que el total de X e Y se calcula en función del diseño muestral, que en este caso es MAS, por lo tanto �� = ��∑ ������ y �� = ��∑ ������ donde f =n/N, n=50 y N=1500.

> estimadorP <- (ey^2-ex^2)/N^4

> estimadorP

[1] 724.6158

�� = ��' − ��'F? = 724,6158

Gigi Causio Voinea Estimación de la varianza en Encuestas por Muestreo

Página 13

Calculamos los estimadores del total, para la variable Ingresos y para la variable Gastos en Alimentación, para cada semimuestra, teniendo en cuenta que el diseño muestral de la muestra madre ha sido MAS, por lo cual, los estimadores del total para cada semimuestra se calcula con la siguiente fórmula: �� = ��∑ ������ y �� =��∑ ������ donde f =n/N . En el caso de las semimuestras n=25, por lo cual f=25/1500=0.01666667.

��O� = ��4��4� = 734,2012 ��O�� = ��44��44

� = 759,4569

��n' = ����� = 735,4297

��O�' = ��4��4� = 761,3324

��Oe = ��o��o� = 736,3021

��O�e = ��4o��4o� = 756,7733

��O? = �� �� � = 727,4732

��O�? = ��4 ��4 � = 762,5042

��Oc = ��p��p� = 739,4078

��O�c = ��4p��4p� = 765,0411

��Oa = ��q��q� = 745,0924

��O�a = ��4q��4q� = 755,6431

��Ob = ��r��r� = 746,0573

��O�b = ��4r��4r� = 775,1105

��Oh = ��s��s� = 746,7085

��O�h = ��4ss��4s� = 764,8883

��Od = ��t��t� = 752,5965

��O�d = ��4t��4t� = 764,8883

��O�f = ��4u��4u� = 749,3043

��O'f = ��u��u� = 741,7532

I5��6 = 817,7547

5) Estima la varianza, a partir de la primera muest ra, con 5 grupos independientes de tamaño 10.

> GI1 <- sample(muestra, 10, replace=F)

> GI2 <- sample(muestra, 10, replace=F)

> GI3 <- sample(muestra, 10, replace=F)

> GI4 <- sample(muestra, 10, replace=F)

> GI5 <- sample(muestra, 10, replace=F)

> sort(GI1)

[1] 86 143 227 297 580 600 641 653 1088 1438

> sort(GI2)

[1] 3 148 201 297 653 819 1031 1305 1374 1463

> sort(GI3)

[1] 3 182 201 243 379 959 1438 1446 1463 1489

Gigi Causio Voinea Estimación de la varianza en Encuestas por Muestreo

Página 14

> sort(GI4)

[1] 143 148 227 379 600 959 1169 1176 1399 1438

> sort(GI5)

[1] 182 201 243 527 671 959 1097 1169 1176 1438

A los grupos aleatorios elegidos le corresponden los siguientes valores para las variables � e �:

> GIYX1

[,1] [,2]

[1,] 42747 9240

[2,] 47695 9252

[3,] 36582 6399

[4,] 45720 9764

[5,] 41999 8974

[6,] 39987 7672

[7,] 42188 7985

[8,] 41446 8834

[9,] 42001 8172

[10,] 49711 9811

> GIYX2

[,1] [,2]

[1,] 43480 9205

[2,] 43247 8196

[3,] 39931 8833

[4,] 45720 9764

[5,] 41446 8834

[6,] 31449 7343

[7,] 41986 8388

[8,] 46968 9587

[9,] 41786 8988

[10,] 44948 8951

> GIYX3

[,1] [,2]

[1,] 43480 9205

[2,] 35562 7419

[3,] 39931 8833

[4,] 36336 7305

[5,] 42794 9280

[6,] 47052 9350

[7,] 49711 9811

[8,] 36645 7755

[9,] 44948 8951

[10,] 41410 875

> GIYX4

[,1] [,2]

[1,] 47695 9252

[2,] 43247 8196

[3,] 36582 6399

[4,] 42794 9280

[5,] 39987 7672

[6,] 47052 9350

[7,] 48589 9255

[8,] 45333 9692

[9,] 41556 8349

[10,] 49711 9811

> GIYX5

[,1] [,2]

[1,] 35562 7419

[2,] 39931 8833

[3,] 36336 7305

[4,] 40169 7189

[5,] 48637 9994

[6,] 47052 9350

[7,] 32824 6602

[8,] 48589 9255

[9,] 45333 9692

[10,] 49711 981

Recordamos que el estimador del total para este tipo de muestreo se calcula:

�� = ��∑ ������ y �� = ��∑ ������

En este caso como G = 10 (para cada grupo aleatorio) y N=1500

% = H� = 0.006666667

> pgiy1 <- (10/1500)^-1*sum(GIX1[,1])

> pgiy2 <- (10/1500)^-1*sum(GIX2[,1])

> pgiy3 <- (10/1500)^-1*sum(GIX3[,1])

> pgiy4 <- (10/1500)^-1*sum(GIX4[,1])

> pgiy5 <- (10/1500)^-1*sum(GIX5[,1])

> pgix1 <- (10/1500)^-1*sum(GIX1[,2])

> pgix2 <- (10/1500)^-1*sum(GIX2[,2])

> pgix3 <- (10/1500)^-1*sum(GIX3[,2])

> pgix4 <- (10/1500)^-1*sum(GIX4[,2])

> pgix5 <- (10/1500)^-1*sum(GIX5[,2])

> pgiy1 [1] 64511400

> pgiy2 [1] 63144150

Gigi Causio Voinea Estimación de la varianza en Encuestas por Muestreo

Página 15

> pgiy3 [1] 62680350

> pgiy4 [1] 66381900

> pgiy5 [1] 63621600

> pgix1 [1] 12915450

> pgix2 [1] 13213350

> pgix3 [1] 12999150

> pgix4 [1] 13088400

> pgix5 [1] 12817500

Teniendo ya los estimadores totales de cada grupo aleatorio independiente, podemos calcular el parámetro de interés, para cada grupo, y con estos parámetros calculamos la varianza del parámetro deseado.

IJ�K�L = 1M&M − 1(N&��O −

M

O���K�('

�K� = 1PN ��O

Q

R��

��O = ��' − ��'>? → TUVWXáZT[X-TG\W]W^X_V-WUTW[-X`-`G]TVTG]`TG[T

P = 5

��O� = a?c��?ff�'d�c?cf�cff = 789,1184

��O' = ae�??�cf�e'�eecf�cff = 753,1044

��Oe = a'ahfecf�'ddd�cf�cff = 742,6861

��O? = aaeh�dff�efhh?ff�cff = 836,5927

��Oc = aea'�aff�'h�bcff�cff = 767.0952

�K� = 777.7194

I J�K�L = 277,1051

Si asumimos distribución normal en la muestra podemos calcular un intervalo de confianza al 95% del parámetro:

&�K� − 1,96iIJ�K�L ; �K� + 1,96iIJ�K�L( &745.0923; 810.3465(

Cuando P no es bastante grande se recomienda el intervalo de confianza según el estadístico t-Student, y entonces el intervalo de confianza coge la siguiente forma:

&�K� − 2,132iIJ�K�L ; �K� + 2,132iIJ�K�L(

Gigi Causio Voinea Estimación de la varianza en Encuestas por Muestreo

Página 16

(742.2291; 813.2097)

Con un error de muestreo de:

k = 2iIJ�K�L

k = 33.29296

6) Estima la varianza a partir de la primera muestr a de tamaño 50, usando el método Jackknife.

En R partiendo del diseño muestral des.srs construido, podemos calcular el estimador del total y su varianza, con las siguientes funciones:

> JKN <- as.svrepdesign(des.srs, type="JK1")

Call: as.svrepdesign(des.srs, type = "JK1")

Unstratified cluster jacknife (JK1) with 50 replicates.

> svytotal(~z[,1], design=JKN)

total SE

z[, 1] 12513540 227652

> svytotal(~z[,2], design=JKN)

total SE

z[, 2] 61846230 1048383

A partir de las 50 replicaciones tenemos los siguientes 50 estimadores para el total de la variable Y:

> pjky1 [1] 61807010 > pjky2 [1] 61986612

> pjky3 [1] 61847541 > pjky4 [1] 61692337

> pjky5 [1] 61795837 > pjky6 [1] 61851490

> pjky7 [1] 61914429 > pjky8 [1] 61793633

> pjky9 [1] 61711561 > pjky10 [1] 62029653

> pjky11 [1] 61779582 > pjky12 [1] 62005102

> pjky13 [1] 62150173 > pjky14 [1] 61865082

> pjky15 [1] 61764306 > pjky16 [1] 61895663

> pjky17 [1] 61627378 > pjky18 [1] 61965765

> pjky19 [1] 61969163 > pjky20 [1] 62005561

> pjky21 [1] 62143133 > pjky22 [1] 61644337

> pjky23 [1] 61570776 > pjky24 [1] 61758061

> pjky25 [1] 61791153 > pjky26 [1] 61836765

> pjky27 [1] 62004949 > pjky28 [1] 61648041

> pjky29 [1] 61958724 > pjky30 [1] 62025888

> pjky31 [1] 61745327 > pjky32 [1] 61932306

> pjky33 [1] 61805449 > pjky34 [1] 61831714

> pjky35 [1] 61960255 > pjky36 [1] 61996071

Gigi Causio Voinea Estimación de la varianza en Encuestas por Muestreo

Página 17

> pjky37 [1] 62043796 > pjky38 [1] 62052643

> pjky39 [1] 61989398 > pjky40 [1] 61825867

> pjky41 [1] 61690071 > pjky42 [1] 62031520

> pjky43 [1] 61751786 > pjky44 [1] 61763969

> pjky45 [1] 61720745 > pjky46 [1] 61718571

> pjky47 [1] 61809551 > pjky48 [1] 61712265

> pjky49 [1] 61667265 > pjky50 [1] 61423224

A partir de las 50 replicaciones, tenemos los siguientes 50 estimadores para el total de la variable �:

> pjkx1 [1] 12480429 > pjkx2 [1] 12531520

> pjkx3 [1] 12521663 > pjkx4 [1] 12497663

> pjkx5 [1] 12506908 > pjkx6 [1] 12503235

> pjkx7 [1] 12516459 > pjkx8 [1] 12489398

> pjkx9 [1] 12496531 > pjkx10 [1] 12546398

> pjkx11 [1] 12519918 > pjkx12 [1] 12534949

> pjkx13 [1] 12566633 > pjkx14 [1] 12519153

> pjkx15 [1] 12490714 > pjkx16 [1] 12536724

> pjkx17 [1] 12494204 > pjkx18 [1] 12543459

> pjkx19 [1] 12539786 > pjkx20 [1] 12553010

> pjkx21 [1] 12584020 > pjkx22 [1] 12478653

> pjkx23 [1] 12446112 > pjkx24 [1] 12493867

> pjkx25 [1] 12496929 > pjkx26 [1] 12501551

> pjkx27 [1] 12532806 > pjkx28 [1] 12442316

> pjkx29 [1] 12518418 > pjkx30 [1] 12578449

> pjkx31 [1] 12535837 > pjkx32 [1] 12506694

> pjkx33 [1] 12481592 > pjkx34 [1] 12492888

> pjkx35 [1] 12537184 > pjkx36 [1] 12562959

> pjkx37 [1] 12537214 > pjkx38 [1] 12544316

> pjkx39 [1] 12555949 > pjkx40 [1] 12539939

> pjkx41 [1] 12467510 > pjkx42 [1] 12536510

> pjkx43 [1] 12509388 > pjkx44 [1] 12512020

> pjkx45 [1] 12500847 > pjkx46 [1] 12468673

> pjkx47 [1] 12494388 > pjkx48 [1] 12475592

> pjkx49 [1] 12435857 > pjkx50 [1] 12566633

La varianza del estimador en el caso del método Jackknife se calcula de la siguiente forma:

I&��v( = 1M&M − 1(N&���

M

���− ��v('

��v = 1MN���

���

��� = M�� − &M − 1(��&w�(

Gigi Causio Voinea Estimación de la varianza en Encuestas por Muestreo

Página 18

�� = ��' − ��'F? = 724,6158 → TmTUTm[`ZW]-XWVWX[`X]TUWZ_Tm[XW-X`^`GWU.

M = 50 → TmTUGúZTX-]TXTVU`\Wm ��&w�( → TmTUTm[`ZW]-X-y[TG`]-TG\W]WZ_Tm[XW&XTVU`\W(.

��&Z�( = 723,8213 ��&Z'( = 727,9607 ��&Ze( = 724,6077

��&Z?( = 720,9388 ��&Zc( = 723,4178 ��&Za( = 724,7952

��&Zb( = 726,2686 ��&Zh( = 723,4505 ��&Zd( = 721,413

��&Z�f( = 728,9414 ��&Z��( = 722,9567 ��&Z�'( = 728,3966

��&Z�e( = 731,7973 ��&Z�?( = 725,0487 ��&Z�c( = 722,7282

��&Z�a( = 725,7094 ��&Z�b( = 719,3735 ��&Z�h( = 727,3912

��&Z�d( = 727,4925 ��&Z'f( = 728,3183 ��&Z'�( = 731,538

��&Z''( = 719,8632 ��&Z'e( = 718,233 ��&Z'?( = 722,5603

��&Z'c( = 723,3528 ��&Z'a( = 724,4438 ��&Z'b( = 728,4035

��&Z'h( = 720,1323 ��&Z'd( = 727,3428 ��&Zef( = 728,69

��&Ze�( = 722,0421 ��&Ze'( = 726,7542 ��&Zee( = 723,7775

��&Ze?( = 724,3632 ��&Zec( = 727,2874 ��&Zea( = 728,0365

��&Zeb( = 729,3335 ��&Zeh( = 729,5152 ��&Zed( = 727,9079

��&Z?f( = 723,9877 ��&Z?�( = 721,0323 ��&Z?'( = 729,0361

��&Z?e( = 722,3305 ��&Z??( = 722,6148 ��&Z?c( = 721,6156

��&Z?a( = 721,7213 ��&Z?b( = 723,8145 ��&Z?h( = 721,5335

��&Z?d( = 720,6323 ��&Zcf( = 714,0528

Definimos los denominados pseudovalores :

��z� = 763,5455 ��z' = 560,7152 ��ze = 725,0148

��z? = 904,7873 ��zc = 783,317 ��za = 715.8231

��zb = 643.6292 ��zh = 781.7172 ��zd = 881.551

��z�f = 512.6621 ��z�� = 805.9111 ��z�' = 539.3571

��z�e = 372.7225 ��z�? = 703.4028 ��z�c = 817.1076

��z�a = 671.031 ��z�b = 981.4867 ��z�h = 588.6235

��z�d = 583.6556 ��z'f = 543.1917 ��z'� = 385.4256

��z'' = 957.493 ��z'e = 1037.372 ��z'? = 825.3363

��z'c = 786.5045 ��z'a = 733.0435 ��z'b = 539.0209

��z'h = 944.3079 ��z'd = 590.9945 ��zef = 524.9775

��ze� = 850.7269 ��ze' = 619.834 ��zee = 765.6944

��ze? = 736.9937 ��zec = 593.7095 ��zea =557

��zeb = 493.4482 ��zeh = 484.546 ��zed = 563.3042

��z?f = 755.3919 ��z?� = 900.2064 ��z?' = 508.0193

��z?e = 836.5945 ��z?? = 822.6663 ��z?c = 871.6236

Gigi Causio Voinea Estimación de la varianza en Encuestas por Muestreo

Página 19

��z?a = 866.4447 ��z?b = 763.8798

��z?h = 875.6489 ��z?d = 919.8068 ��zcf = 1242,203

��v = 724,6294 → TmUWZT]`W]TU-mVmT_]-.WU-XTm

I5��v6 = �cae�abcf&cf�(

I5��v6 = 638,0274

7) Estima la varianza a partir de una muestra aleat oria simple de tamaño 100, usando 20 muestras Bootstrap.

Extraemos la muestra:

> mas_100 <- sample(Z, 100, replace=T)

> sort(mas_100)

[1] 3 12 23 45 46 84 88 122 142 144 150 151 186 186 198

[16] 205 232 233 236 243 248 273 292 297 300 303 336 353 370 390

[31] 392 410 415 416 429 430 453 454 488 536 555 587 607 609 623

[46] 632 633 635 642 669 673 683 700 711 724 756 768 809 824 827

[61] 856 868 910 913 923 928 938 971 980 982 995 1043 1046 1092 1103

[76] 1109 1112 1117 1148 1154 1166 1172 1178 1186 1192 1200 1225 1230 1292 1311

[91] 1314 1358 1379 1409 1413 1424 1453 1472 1475 1481

Creamos la población artificial, que tiene que tener características similares a la población en estudio. Utilizando el método de Chao y Lo. EL método consiste en conseguir P replicas a partir de la muestra m = 100 (mas_100) de tal manera que > = P ∗ G, por lo tanto si n debe ser igual a 100 (según enunciado) P debe ser igual a 15. Entonces vamos a tener 1500 = 15 ∗100.

> poblacion_artificial <- rep (mas_100, 15)

> poblacion_artificial

A continuación sacamos las 20 muestras Bootstrap de dimensión G∗ = G. > bootstrap_1 <- sort(sample(poblacion_artificial, size=100, replace=T))

> bootstrap_1

[1] 23 23 45 46 46 84 122 144 144 150 150 151 186 205 232 233 233 236

[19] 273 273 300 336 370 392 410 415 415 429 430 430 430 453 453 453 453 488

[37] 536 555 609 609 609 632 632 633 669 669 673 673 673 700 724 724 724 809

[55] 809 824 827 868 868 910 913 923 928 928 938 938 938 971 980 980 995 995

[73] 1103 1112 1112 1117 1148 1148 1148 1148 1148 1154 1154 1166 1172 1230 1230 1311

[89] 1314 1358 1379 1379 1409 1424 1453 1472 1472 1472 1475 1481

………………………………………………………………………………………………………………….

Gigi Causio Voinea Estimación de la varianza en Encuestas por Muestreo

Página 20

> varboot_1 <-rbind (variables[23,], variables[23,], variables[45,], variables[46,], variables[23,],

variables[46,], variables[84,], variables[122,], variables[144,], variables[144,], variables[150,],

variables[150,],variables[151,],variables[186,],variables[205,],variables[232,],variables[233,],

variables[233,], variables[236,], variables[273,], variables[300,], variables[336,],

variables[370,], variables[392,], variables[410,], variables[415,], variables[415,],

variables[429,], variables[430,], variables[430,], variables[430,], variables[453,],

variables[453,], variables[453,], variables[453,], variables[488,], variables[536,],

variables[555,], variables[609,], variables[609,], variables[609,], variables[632,],

variables[632,], variables[633,], variables[669,], variables[669,], variables[673,],

variables[673,], variables[673,], variables[700,], variables[724,], variables[724,],

variables[724,], variables[809,], variables[809,], variables[824,], variables[827,],

variables[868,], variables[868,], variables[910,], variables[913,], variables[923,],

variables[928,], variables[928,], variables[938,], variables[938,], variables[938,],

variables[971,], variables[980,], variables[980,], variables[995,], variables[995,],

variables[1103,], variables[1112,], variables[1112,], variables[1117,], variables[1148,],

variables[1148,], variables[1148,], variables[1148,], variables[1148,], variables[1154,],

variables[1154,], variables[1166,], variables[1172,], variables[1230,], variables[1230,],

variables[1311,], variables[1314,],variables[1358,], variables[1379,], variables[1379,],

variables[1409,], variables[1424,], variables[1453,], variables[1472,],

variables[1472,],variables[1472,], variables[1475,], variables[1481,])

…………………………………………………………………………………………………………………………………………….

En el caso del muestreo aleatorio simple CON reemplazamiento el estimador del total de la variable Y e X se calcula:

> Etotal_bootstrap_1y <-1500*(sum (varboot_1[,1])/100)

> Etotal_bootstrap_2y <-1500*(sum (varboot_2[,1])/100)

> Etotal_bootstrap_3y <-1500*(sum (varboot_3[,1])/100)

…………………………………………………………………………………………

> Etotal_bootstrap_1x <-1500*(sum (varboot_1[,2])/100)

> Etotal_bootstrap_2x <-1500*(sum (varboot_2[,2])/100)

> Etotal_bootstrap_3x <-1500*(sum (varboot_3[,2])/100)

…………………………………………………………………………………………

> Etotal_bootstrap_1y [1] 61588440

> Etotal_bootstrap_2y [1] 59737095

> Etotal_bootstrap_3y [1] 61768935

> Etotal_bootstrap_4y [1] 60582825

> Etotal_bootstrap_5y [1] 60313380

> Etotal_bootstrap_6y [1] 59634795

> Etotal_bootstrap_7y [1] 60188490

> Etotal_bootstrap_8y [1] 59672055

> Etotal_bootstrap_9y [1] 59235075

> Etotal_bootstrap_10y [1] 61439610

> Etotal_bootstrap_11y [1] 60752085

> Etotal_bootstrap_12y [1] 60376950

> Etotal_bootstrap_13y [1] 62158770

> Etotal_bootstrap_14y [1] 60448155

> Etotal_bootstrap_13y [1] 62158770

> Etotal_bootstrap_14y [1] 60448155

> Etotal_bootstrap_15y [1] 61057215

> Etotal_bootstrap_16y [1] 60459420

> Etotal_bootstrap_17y [1] 61346880

> Etotal_bootstrap_18y [1] 60765720

> Etotal_bootstrap_19y [1] 61750920

> Etotal_bootstrap_20y [1] 60936060

> Etotal_bootstrap_1x [1] 12314760

> Etotal_bootstrap_2x [1] 12208140

> Etotal_bootstrap_3x [1] 12458145

> Etotal_bootstrap_4x [1] 12353355

> Etotal_bootstrap_5x [1] 12213705

> Etotal_bootstrap_6x [1] 12128835

> Etotal_bootstrap_7x [1] 12299925

> Etotal_bootstrap_8x [1] 12016140

Gigi Causio Voinea Estimación de la varianza en Encuestas por Muestreo

Página 21

> Etotal_bootstrap_9x [1] 11965455

> Etotal_bootstrap_10x [1] 12725430

> Etotal_bootstrap_11x [1] 12121035

> Etotal_bootstrap_12x [1] 12285570

> Etotal_bootstrap_13x [1] 12562920

> Etotal_bootstrap_14x [1] 12382395

> Etotal_bootstrap_13x [1] 12562920

> Etotal_bootstrap_14x [1] 12382395

> Etotal_bootstrap_15x [1] 12589905

> Etotal_bootstrap_16x [1] 12232320

> Etotal_bootstrap_17x [1] 12498480

> Etotal_bootstrap_18x [1] 12357930

> Etotal_bootstrap_19x [1] 12503295

> Etotal_bootstrap_20x [1] 12507750

En el caso del método Bootstrap el estimador de la varianza se calcula con la siguiente fórmula:

A�{ = 1M − 1∑(��� − �K��)'

�K�� = 1M∑���

��� → TU.WU-X]TUVWXáZT[X-TG\W]WZ_Tm[XWy--[m[XWV P = 20 → TUGúZTX-]TZ_Tm[XWmy--[mXWV

Recordamos que nuestro parámetro es: �� = ����F por lo cual, para llegar a calcular el

estimador de la varianza, debemos de calcular dicho estimador en cada muestra bootstrap. Se obtienen los siguientes estimadores:

> theta1 [1] 719.3052

> theta2 [1] 675.4532

> theta3 [1] 723.0017

> theta4 [1] 694.849

> theta5 [1] 689.0922

> theta6 [1] 673.4222

> theta7 [1] 685.702

> theta8 [1] 674.8378

> theta9 [1] 664.8142

> theta10 [1] 713.6571

> theta11 [1] 700.0289

> theta12 [1] 690.2599

> theta13 [1] 732.0268

> theta14 [1] 691.4876

> theta15 [1] 705.082

> theta16 [1] 692.4863

> theta17 [1] 712.5388

> theta18 [1] 699.2107

> theta19 [1] 722.3395

> theta20 [1] 702.5698

> vector_bootstrap

[1] 719.3052 675.4532 723.0017 694.8490 689.0922 673.4222 685.7020 674.8378

[9] 664.8142 713.6571 700.0289 690.2599 732.0268 691.4876 705.0820 692.4863

[17] 712.5388 699.2107 722.3395 702.5698

�K�� = 698,1083

> varianza_bootsrap_MAS_100 <- (sum((vector_bootstrap-mean(vector_bootstrap))^ 2))/19

> varianza_bootsrap_MAS_100

[1] 341.3466

A�{ = 341,3466

Gigi Causio Voinea Estimación de la varianza en Encuestas por Muestreo

Página 22

8) Estima la varianza a partir de una muestra de ta maño 40 usando 5 muestras Bootstrap

Extraemos la muestra:

> mas_50 <- sample(Z, 100, replace=T)

> sort(mas_50)

[1] 16 22 34 56 59 157 168 192 202 210 213 215 252 331 350 360 397 421

[19] 454 459 506 513 520 548 551 571 600 602 682 685 704 724 792 944 1014 1032

[37] 1032 1051 1085 1120 1131 1167 1176 1250 1285 1294 1314 1380 1382 1399

Creamos la población artificial, que tiene que tener características similares a la población en estudio. Utilizando el método de Chao y Lo. EL método consiste en conseguir P replicas a partir de la muestra m = 50 (mas_50) de tal manera que > = P ∗ G, por lo tanto si n debe ser igual a 50 (según enunciado) P debe ser igual a 30. Entonces vamos a tener 1500 = 30 ∗ 50

> poblacion_artificial_2 <- rep (mas_50, 30)

> B_1 <- sort(sample(poblacion_artificial_2, size=50, replace=T))

> B_2 <- sort(sample(poblacion_artificial_2, size=50, replace=T))

> B_3 <- sort(sample(poblacion_artificial_2, size=50, replace=T))

> B_4 <- sort(sample(poblacion_artificial_2, size=50, replace=T))

> B_5 <- sort(sample(poblacion_artificial_2, size=50, replace=T))

> B_1

[1] 22 34 56 59 59 168 192 192 202 210 210 213 213 215 215 252 252 331

[19] 350 360 397 397 421 506 513 520 520 548 600 600 602 602 602 685 685 704

[37] 724 724 944 1032 1051 1085 1120 1167 1176 1250 1250 1285 1294 1399

> B_2

[1] 22 34 56 59 59 157 157 157 168 192 202 213 215 252 360 397 421 421

[19] 506 571 600 600 600 602 704 704 704 792 944 944 1014 1032 1032 1032 1032

1051

[37] 1085 1085 1131 1176 1176 1176 1250 1250 1250 1294 1380 1380 1382 1399

> B_3

[1] 34 59 157 168 168 192 192 192 202 202 210 213 213 252 252 350 360 421

[19] 421 421 454 454 506 513 513 513 513 513 513 571 602 602 704 724 724 792

[37] 944 1051 1085 1167 1167 1176 1285 1294 1314 1382 1399 1399 1399 1399

> B_4

[1] 16 16 16 34 34 59 59 157 168 168 202 210 213 215 215 215 350 360

[19] 397 421 459 459 520 520 520 520 548 548 551 571 602 602 682 685 704 792

[37] 1032 1085 1120 1131 1167 1167 1250 1250 1314 1380 1380 1382 1382 1399

> B_5

[1] 22 34 34 56 59 157 192 202 213 215 252 331 360 397 421 454 506 506

[19] 513 513 520 520 548 551 571 571 600 602 682 682 682 704 704 724 724 724

[37] 792 792 1014 1032 1051 1085 1085 1085 1120 1131 1167 1167 1380 1399

> V_B_1 <- rbind(variables[22,], variables[34,], variables[56,], variables[59,], variables[168,],

variables[192,], variables[192,], variables[202,], variables[210,], variables[210,],

variables[213,], variables[213,], variables[215,], variables[215,], variables[252,],

variables[252,], variables[331,], variables[350,], variables[360,], variables[59,], variables[397,],

Gigi Causio Voinea Estimación de la varianza en Encuestas por Muestreo

Página 23

variables[421,], variables[397,], variables[724,], variables[506,], variables[513,],

variables[520,], variables[520,], variables[548,], variables[600,], variables[600,],

variables[602,], variables[602,], variables[602,], variables[685,], variables[685,],

variables[704,], variables[724,], variables[944,], variables[1032,], variables[1051,],

variables[1085,], variables[1120,], variables[1167,], variables[1176,], variables[1250,],

variables[1250,], variables[1285,], variables[1294,], variables[1399,])

………………………………………………………………………………………

Obtenemos los siguientes estimadores, para el total de la variable �e �:

> Etotal_B_1y <-1500*(sum

(V_B_1[,1])/50)

> Etotal_B_2y <-1500*(sum

(V_B_2[,1])/50)

> Etotal_B_3y <-1500*(sum

(V_B_3[,1])/50)

> Etotal_B_4y <-1500*(sum

(V_B_4[,1])/50)

> Etotal_B_5y <-1500*(sum

(V_B_5[,1])/50)

> Etotal_B_1x <-1500*(sum

(V_B_1[,2])/50)

> Etotal_B_2x <-1500*(sum

(V_B_2[,2])/50)

> Etotal_B_3x <-1500*(sum

(V_B_3[,2])/50)

> Etotal_B_4x <-1500*(sum

(V_B_4[,2])/50)

> Etotal_B_5x <-1500*(sum

(V_B_5[,2])/50)

> Etotal_B_1y [1] 60607680

> Etotal_B_2y [1] 62038050

> Etotal_B_3y [1] 60902400

> Etotal_B_4y [1] 62101800

> Etotal_B_5y [1] 60948000

> Etotal_B_1x [1] 12360480

> Etotal_B_2x [1] 12452610

> Etotal_B_3x [1] 12331320

> Etotal_B_4x [1] 12416970

> Etotal_B_5x [1] 12315060

Calculamos el parámetro, �� = ����F , en cada muestra bootstrap:

> THETA_1 [1] 695.4093

> THETA_2 [1] 729.6103

> THETA_3 [1] 702.6254

> THETA_4 [1] 731.3486

> THETA_5 [1] 703.8021

Recordamos que, para el método Bootstrap, el estimador de la varianza se calcula con la siguiente fórmula:

A�{ = 1M − 1∑(��� − �K��)'

�K�� = 1M∑���

��� → TU.WU-X]TUVWXáZT[X-TG\W]WZ_Tm[XWy--[m[XWV P = 5 → TUGúZTX-]TZ_Tm[XWmy--[mXWV

�K�� = 712,5591

> varianza_bootsrap_MAS_50 <- (sum((vector_THETA-mean(vector_THETA))^ 2))/4

[1] 278.3178

A�{ = 278,3178

Gigi Causio Voinea Estimación de la varianza en Encuestas por Muestreo

Página 24

9) Selecciona una muestra estratificada aleatoria d e tamaño 30 con afijación uniforme. Estima la varianza a partir de dicha mues tra utilizando la técnica de linealización.

Dado que tenemos tres estratos y nuestra muestra debe de ser de tamaño 30 con afijación uniforme, procedemos a seleccionar en cada estrato una m.a.s. de tamaño 10.

(Este tipo de reparto consiste en asignar el mismo número de unidades muestrales a cada estrato).

> famestratificada_1 <- read.table("C:\\Users\\daniel\\Desktop\\famestratificada_1.txt",

header=T)

> famestratificada_2 <- read.table("C:\\Users\\daniel\\Desktop\\famestratificada_2.txt",

header=T)

> famestratificada_3 <- read.table("C:\\Users\\daniel\\Desktop\\famestratificada_3.txt",

header=T)

> famestrat_1 <- cbind(famestratificada_1$ING,famestratificada_1$AL)

> famestrat_2 <- cbind(famestratificada_2$ING,famestratificada_2$AL)

> famestrat_3 <- cbind(famestratificada_3$ING,famestratificada_3$AL)

> estrat_1 <- 1:517

> estrat_2 <- 1:633

> estrat_3 <- 1:350

> estrato_1 <- sample(estrat_1,10, replace=F)

> estrato_2 <- sample(estrat_2,10, replace=F)

> estrato_3 <- sample(estrat_3,10, replace=F)

> estrato_1

[1] 212 442 288 444 505 273 480 487 44 315

> estrato_2

[1] 12 46 527 323 129 151 391 536 20 427

> estrato_3

[1] 333 291 106 10 115 257 118 41 53 141

A las muestras les corresponden los siguientes valores para la variable � e �:

> muestra_estratificada_1

[,1] [,2]

[1,] 34968 7760

[2,] 37418 8168

[3,] 31825 6022

[4,] 35256 6663

[5,] 35460 7374

[6,] 35299 6474

[7,] 31105 6421

[8,] 36495 7217

[9,] 36127 7646

[10,] 35688 7073

> muestra_estratificada_2

[,1] [,2]

[1,] 38400 7797

[2,] 41896 9201

[3,] 42074 8029

[4,] 42767 7808

[5,] 42073 8058

[6,] 41121 9175

[7,] 38117 8061

[8,] 38876 8326

[9,] 40063 8812

[10,] 41458 8241

> muestra_estratificada_3

[,1] [,2]

[1,] 44806 8315

[2,] 44565 9185

[3,] 45420 9100

[4,] 45658 8223

[5,] 45570 8257

[6,] 50273 8675

[7,] 44220 8190

[8,] 47377 10061

[9,] 45204 8664

[10,] 45121 10623

Gigi Causio Voinea Estimación de la varianza en Encuestas por Muestreo

Página 25

El estimador de la varianza de un parámetro no lineal se puede calcular con la siguiente fórmula:

�!��" = #$%(��, �')$��� )'· !���" + #$%(��, �')$��' )

'· !��'"

+ 2 $%(��, �')$���$%(��, �')

$��' ,-.[���, ��']

Donde 12(34,3)

13�4 representa 1253�4,3�6

13�4 y 12(34,3)

13� representa 1253�4,3�6

13� si ���, ��' son

estimadores insesgados de ��, �'.

$%9: = 1�(�8,�8)1�8 = [(����);∗� ][5����6∗(� );

(� ) = '��F

$%@: = 1�(�8,�8)1�8 = [(����);∗� ][5����6∗(� );

(� ) = '��F

Dado que se trata de un muestreo estratificado, el estimador del total se calcula con la siguiente fórmula:

�� = N>|�}|~

|��

Y el estimador de la varianza:

�!��" = N>|' 1 − %|G|~

|��m@|'

ℎ = 3 → TUGúZTX-]TTm[XW[-m >| → TUGúZTX-[-[WU]T`G]`.`]_-mTGTUTm[XW[-ℎ G| = 10 → TUGúZTX-]T`G]`.`]_-mTGUWZ_Tm[XW]TUTm[XW[-ℎ

�}| =→ UWZT]`WTGTUTm[XW[-ℎ

> media_e1_y <-sum(muestra_estratificada_1[,1])/10

> media_e2_y <-sum(muestra_estratificada_2[,1])/10

> media_e3_y <-sum(muestra_estratificada_3[,1])/10

> e_y_1=(517*media_e1_y)+(633*media_e2_y)+(350*media_e3_y)

> e_y_1

[1] 59867218

> cuasivarianza_yh1=(sum((muestra_estratificada_1[,1]-mean(muestra_estratificada_1

[,1]))^2) ) /(10-1)

> cuasivarianza_yh2=(sum((muestra_estratificada_2[,1]-mean(muestra_estratificada_2

[,1]))^2))/(10-1)

> cuasivarianza_yh3=(sum((muestra_estratificada_3[,1]-mean(muestra_estratificada_3

[,1]))^2))/(10-1)

> cuasivarianza_yh1

[1] 3936838

> cuasivarianza_yh2

Gigi Causio Voinea Estimación de la varianza en Encuestas por Muestreo

Página 26

[1] 2879994

> cuasivarianza_yh3

[1] 3170384

> fh1=10/517

> fh2=10/633

> fh3=10/350

> Nh1=517^2

> Nh2=633^2

> Nh3=350

> Vyh1 <- Nh1*((1-fh1)/10)*cuasivarianza_yh1

> Vyh2 <- Nh2*((1-fh2)/10)*cuasivarianza_yh2

> Vyh3 <- Nh3*((1-fh3)/10)*cuasivarianza_yh3

> Vyh1

[1] 1.03192e+11

> Vyh2

[1] 113575157575

> Vyh3

[1] 37727575418

> varianza_y9 <- Vyh1+Vyh2+Vyh3

> varianza_y9

[1] 254494745412

> media_e1_x <-sum(muestra_estratificada_1[,2])/10

> media_e2_x <-sum(muestra_estratificada_2[,2])/10

> media_e3_x <-sum(muestra_estratificada_3[,2])/10

> e_x_1=(517*media_e1_x)+(633*media_e2_x)+(350*media_e3_x)

> e_x_1

[1] 12072602

> cuasivarianza_xh1=(sum((muestra_estratificada_1[,2]-mean(muestra_estratificada_1

[,2]))^2) )/9

> cuasivarianza_xh2=(sum((muestra_estratificada_2[,2]-mean(muestra_estratificada_2

[,2]))^2))/9

> cuasivarianza_xh3=(sum((muestra_estratificada_3[,2]-mean(muestra_estratificada_3

[,2]))^2))/9

> cuasivarianza_xh1

[1] 462943.5

> cuasivarianza_xh2

[1] 278013.3

> cuasivarianza_xh3

[1] 694857.1

> Vxh1 <- Nh1*((1-fh1)/10)*cuasivarianza_xh1

> Vxh2 <- Nh2*((1-fh2)/10)*cuasivarianza_xh2

> Vxh3 <- Nh2*((1-fh3)/10)*cuasivarianza_xh3

> Vxh1

[1] 12134629019

> Vxh2

[1] 10963704259

> Vxh3

[1] 27046670243

> varianza_x9 <- Vxh1+Vxh2+Vxh3

> varianza_x9

[1] 5.0145e+10

> derivada_y9 <- (2*59867218)/1500^4

> derivada_x9 <- (2*12072602)/1500^4

> derivada_y9

[1] 2.365125e-05

> derivada_x9

[1] 4.769423e-06

Gigi Causio Voinea Estimación de la varianza en Encuestas por Muestreo

Página 27

> muestra_estratificada <- rbind(muestra_estratificada_1, muestra_estratificada_2,

muestra_estratificada_3)

> covarianza_yx9 <-(sum((muestra_estratificada[,1]-mean(muestra_estratificada[,1])) *

(muestra_estratificada[,2]-mean(muestra_estratificada[,2])))) / (30-1)

> covarianza_yx9

[1] 3882176

> var_9= (derivada_y9)^2*varianza_y9+(derivada_x9)^2*varianza_x9 + 2*derivada_y9 *

derivada_x9 * covarianza_yx9

> var_9

[1] 143.5012

Por lo tanto, en este caso, nuestro parámetro �� = ����F es igual a 679,1775 y el

estimador de la varianza es:

A�!��" = 143,5012

10) Repite al apartado anterior usando 2 grupos al eatorios dependientes en cada estrato.

Recordamos que en el caso de la variable dependiente el estimador de la varianza se calcula mediante la siguiente fórmula:

IJ�K�L = 1M(M − 1)N(��O −

M

O���K�)'

�K� = 1PN ��O

Q

R��

��O = ��' − ��'>? → TmTUVWXáZT[X-TG\W]W^X_V-WUT[-X`-]TVTG]`TG[T

Dado que tenemos estratos y grupos aleatorios dependientes, tenemos que estimar las varianzas en cada estrato (con la fórmula expuesta más arriba, considerando k=2 grupos en cada estrato) y para el estimador final de la varianza, sumar las varianzas de los tres estratos (A��� = ∑A����,� = 3) Procedemos a la elección, aleatoria, de los grupos dependientes:

> diseño <- 1:10

> g_a1_10 <- sort(sample(diseño,5, replace=F))

> g_a2_10 <- sort(sample(diseño,5, replace=F))

Gigi Causio Voinea Estimación de la varianza en Encuestas por Muestreo

Página 28

> g_a3_10 <- sort(sample(diseño,5, replace=F))

> g_a1_10

[1] 1 2 4 8 9

> g_a2_10

[1] 1 3 6 8 9

> g_a3_10

[1] 1 6 7 9 10

> gd_1_1 <- rbind(muestra_estratificada_1[1,], muestra_estratificada_1[2,],

muestra_estratificada_1[4,], muestra_estratificada_1[8,], muestra_estratificada_1[9,])

> gd_1_2 <- rbind(muestra_estratificada_1[3,],muestra_estratificada_1[5,],

muestra_estratificada_1[6,],muestra_estratificada_1[7,],muestra_estratificada_1[10,])

> gd_2_1 <- rbind (muestra_estratificada_2[1,],muestra_estratificada_2[3,],

muestra_estratificada_2[6,],muestra_estratificada_2[8,],muestra_estratificada_2[9,])

> gd_2_2 <- rbind(muestra_estratificada_2[2,],muestra_estratificada_2[4,],

muestra_estratificada_2[5,],muestra_estratificada_2[7,],muestra_estratificada_2[10,])

> gd_3_1 <- rbind(muestra_estratificada_3[1,],muestra_estratificada_3[6,],

muestra_estratificada_3[7,],muestra_estratificada_3[9,],muestra_estratificada_3[10,])

> gd_3_2 <- rbind(muestra_estratificada_3[2,],muestra_estratificada_3[3,],

muestra_estratificada_3[4,],muestra_estratificada_3[5,],muestra_estratificada_3[8,])

A continuación calculamos nuestro parámetro en cada grupo. Para ello, tenemos que estimar primero el total de la variable � e �. Dado que los grupos aleatorios dependientes provienen de una muestra aleatoria simple SIN reemplazamiento el estimador del total se calcula de la siguiente forma:

�� = ��∑ ������ y �� = ��∑ ������ , donde

> fga10 <- 5/1500

> ey1_1 <- fga10^-1*sum(gd_1_1[,1])

[1] 54079200

> ey1_2 <- fga10^-1*sum(gd_1_2[,1])

[1] 50813100

> ey2_1 <- fga10^-1*sum(gd_2_1[,1])

[1] 60160200

> ey2_2 <- fga10^-1*sum(gd_2_2[,1])

[1] 61893300

> ey3_1 <- fga10^-1*sum(gd_3_1[,1])

[1] 68887200

> ey3_2 <- fga10^-1*sum(gd_3_2[,1])

[1] 68577000

> ex1_1 <- fga10^-1*sum(gd_1_1[,2])

[1] 11236200

> ex1_2 <- fga10^-1*sum(gd_1_2[,2])

[1] 12641700

> ex2_1 <- fga10^-1*sum(gd_2_1[,2])

[1] 12641700

> ex2_2 <- fga10^-1*sum(gd_2_2[,2])

[1] 12410700

> ex3_1 <- fga10^-1*sum(gd_3_1[,2])

[1] 13340100

> ex3_2 <- fga10^-1*sum(gd_3_2[,2])

[1] 13447800

> teta_1_1 <- ((ey1_1)^2-(ex1_1)^2)/1500^4

[1] 552.7521

> teta_1_2 <- ((ey1_2)^2-(ex1_2)^2)/1500^4

[1] 490.2295

> teta_2_1 <- ((ey2_1)^2-(ex2_1)^2)/1500^4

Gigi Causio Voinea Estimación de la varianza en Encuestas por Muestreo

Página 29

1] 683.3456

> teta_2_2 <- ((ey2_2)^2-(ex2_2)^2)/1500^4

[1] 726.2726

> teta_3_1 <- ((ey3_1)^2-(ex3_1)^2)/1500^4

[1] 902.2199

> teta_3_2 <- ((ey3_2)^2-(ex3_2)^2)/1500^4

[1] 893.227

A continuación tenemos que estimar la varianza en cada estrato.

> vector_gd_1 <- c(teta_1_1,teta_1_2)

> vector_gd_2 <- c(teta_2_1,teta_2_2)

> vector_gd_3 <- c(teta_3_1,teta_3_2)

> vargd1 <- (sum((vector_gd_1-mean(vector_gd_1))^ 2))/2

[1] 977.2687

> vargd2 <- (sum((vector_gd_2-mean(vector_gd_2))^ 2))/2

[1] 460.6822

> vargd3 <- (sum((vector_gd_3-mean(vector_gd_3))^ 2))/2

[1] 20.21797

Sumamos las tres varianzas para estimar la varianza final. > var_gd_10 <- vargd1+vargd2+vargd3

> var_gd_10

[1] 1458.169

A��� = 1458.169