MUESTREO EN POBLACIONES FINITASecaths1.s3.amazonaws.com/practicaprofesionalizante3/389994613... · proceso un componente de gran ayuda para el ... 2.-Determinar la población a muestrear

A. Morillas: Muestreo en poblaciones finitas

1

MUESTREO EN POBLACIONES FINITAS

Antonio Morillas1

1 Conceptos estadísticos básicos

2 Etapas en el muestreo

3 Tipos de error

4 Métodos de muestreo

5 Tamaño de la muestra e inferencia

6 Muestreo en poblaciones finitas

6.1 Muestreo aleatorio simple

6.2 Muestreo aleatorio estratificado

1 Estos apuntes de clase incorporan diversas sugerencias realizadas por los profesores M. Aguilar, A. Caparrós y B. Díaz. En sus primeras páginas, especialmente, se recogen lugares comunes acerca del muestreo tratados en diversos manuales.


2

Muestreo en poblaciones finitas

1. Conceptos estadísticos básicos

A lo largo del curso se ha estudiado como hacer inferencia acerca de la población partiendo de la

información suministrada por la muestra. Pero casi nada se ha dicho aún sobre dos aspectos

importantes del proceso de inferencia:

• como seleccionar los elementos u observaciones de una muestra.

• como proceder en esa selección y cuál es su tamaño adecuado, si la población no es tan grande

como se ha venido admitiendo hasta ahora (infinita).

Se ha visto a lo largo de la asignatura como la ciencia estadística es una herramienta fundamental en la

investigación económica y empresarial, dado que permite conocer las características de poblaciones

concretas, contrastar hipótesis sobre ellas o realizar predicciones sobre su evolución. Dentro de este

proceso un componente de gran ayuda para el investigador, que aún no se ha estudiado, es la

realización de encuestas. Este va a ser el objeto básico de la presente lección. No obstante, antes de

meternos en ello, es conveniente recordar algunos conceptos básicos:

a) Población.

Colectivo objeto del estudio formado por un conjunto de elementos con características similares y

sobre el que se pretenden inferir regularidades.

b) Muestra.

Subconjunto de la población o colectivo que se investiga. Debe ser representativa del conjunto de la

población.

c) Individuos.

Cada uno de los elementos que forman la población. Los individuos pueden ser:

- Personas físicas: por ejemplo, un cliente de una empresa.

- Personas jurídicas o sociedades: por ejemplo, una empresa hotelera.

- Unidades familiares: por ejemplo, una familia de turistas.

d) Variables cuantitativas.

Caracteres que se observan en los individuos y que son susceptibles de tener valores numéricos: por

ejemplo, edad y gasto mensual del encuestado.


3

e) Atributos.

Son variables cualitativas, que no son susceptibles de tomar valores y se expresan mediante

modalidades: por ejemplo, sexo del encuestado, medio de transporte al destino, nivel de estudios.

2. Etapas en el muestreo.

Antes de preguntarnos de qué manera se toma una muestra de una población, quizás debíamos de

cuestionarnos sobre la necesidad de trabajar con muestras. La alternativa sería tratar de obtener la

información para todos y cada uno de los elementos de la población, es decir, trabajar con censos más

bien que con encuestas. Pero recordemos que hay, al menos, tres buenas razones para que una muestra

sea generalmente preferida a un censo:

• El coste, ya que un censo será mucho más caro y, a veces, incluso, prohibitivo.

• El tiempo disponible, cuando en muchos casos la información se necesita de forma más o

menos urgente.

• La precisión que presumiblemente se ganaría con un censo no compensa la pérdida en tiempo

y dinero, pudiéndose alcanzar un nivel razonable de precisión con un adecuado método de

muestreo.

Los pasos a seguir dentro de un proceso de muestreo son:

1.-Definir la información que se necesita.

Esto supone en la práctica la búsqueda de un equilibrio entre las preguntas acerca de la cuestión

principal o motivo de la encuesta y lo que puede ser complementario, introducido con afán de

aprovechar el esfuerzo económico y de dedicación que supone una encuesta.

2.-Determinar la población a muestrear y comprobar si existe un listado.

Hay que definir la población de referencia de forma adecuada, pues, aunque el método seguido sea

correcto, las conclusiones no serán válidas si la población no ha sido elegida de forma adecuada. Por

ejemplo, encuestas de opinión entre los turistas procedentes de Holanda, no se pueden extrapolar para

definir la opinión del conjunto de los potenciales turistas de toda la Unión Europea.

Como se ha dicho anteriormente, el paso previo a la realización de cualquier proceso de muestro se

centra en la concreción de los objetivos del estudio, definiendo así, implícitamente, las características

y la naturaleza de la población a analizar. Esta parte de la investigación requiere una definición de las

variables a utilizar en el ámbito poblacional, sus características y su periodo de referencia. Así, por

ejemplo, si se quieren estudiar las características de la demanda turística de las familias procedentes en

un determinado país de la UE, es evidente que la población objeto de estudio es exclusivamente la

formada por las familias residentes en el mismo.


4

De acuerdo con los objetivos establecidos en la investigación, debe obtenerse toda la información

correspondiente a esas familias, así como los movimientos turísticos realizados por ellas. Por tanto, las

variables a las que se referirá el estudio serán una serie de características sociodemográficas,

económicas y culturales relativas a esas familias.

Del mismo modo, se debe definir la cobertura o ámbito de objeto del estudio, tanto temporal (periodo

en que es interesante el estudio), como geográfica (delimitación geográfica del trabajo). Cuando la

población está bien definida es relativamente fácil obtener una muestra representativa. El problema

surge cuando la población no está bien delimitada o no es conocida. Por ejemplo, esto ocurriría si el

objetivo del estudio fuera la población futura de visitantes a un parque temático que se acaba de

construir. En este caso es evidente que se desconoce la posible población, así como las características

que la definen. Por ello, el trabajo de obtención de la muestra resulta más complejo, y sería imposible

de realizar si no fuera con la inclusión de determinados supuestos en el análisis.

La definición de las unidades de estudio es un paso necesario en esta etapa del proceso. Las unidades

de estudio pueden ser los individuos (los turistas que llegan a un balneario) o bien grupos de

individuos con algunas características comunes (las familias u hogares de un determinado país, los

jóvenes, los matrimonios sin hijos...).

El resultado del estudio, como se ha dicho, depende en gran medida de la adecuación de la muestra a

los objetivos y al marco de la investigación. Es por ello que en esta fase se deben recoger

explícitamente todos los posibles casos poblacionales que se pretenden analizar. Por ejemplo, si lo que

se quiere estudiar son las características de la demanda potencial de un determinado destino turístico

es evidente que no se puede obtener una muestra sólo de los turistas que viajan a ese destino. Esto

supondría dejar de lado una parte importante de información que proporcionarían otros turistas que

estarían dispuestos a viajar a ese destino, si las condiciones variaran. Por el contrario, si el objeto del

estudio es analizar las circunstancias que permiten la fidelización de los turistas a un destino concreto,

la muestra debería ser tomada exclusivamente entre aquellos que hayan visitado más de una vez dicho

destino.

3.-Definición del método a seguir para tomar la muestra y su tamaño.

No hay un método óptimo de llevar a cabo la selección de los elementos de la muestra. Dependerá,

generalmente, del problema que nos ocupa y de los recursos disponibles. El más conocido es el

muestreo aleatorio simple, en el que cada uno de los n elementos de la muestra tiene la misma

probabilidad de ser elegido. Sin embargo, hay circunstancias en que pueden ser mas indicados otros

tipos de muestreo. Por ejemplo, si deseamos recabar información acerca de la opinión de los visitantes

de un destino turístico, no sería lógico hacer un muestreo aleatorio simple, sino que lo más razonable

sería hacer un muestreo por estratos, teniendo en cuenta características diferenciadoras como podrían

ser la edad, el país de origen o el nivel de renta.


5

Otro aspecto importante, que veremos más adelante, será el tamaño de la muestra, que dependerá del

grado de fiabilidad requerido y del coste.

4.-Diseño adecuado de la forma de obtener la información (cuestionario).

Los cuestionarios son la serie de preguntas que constituyen el tema de la encuesta. La elaboración de

un cuestionario adecuado resulta fundamental para la obtención de la información necesaria para

llevar a cabo el estudio. Las características de un buen cuestionario han de ser:

- Objetividad: el entrevistador nunca debe influir en la opinión del entrevistado.

- Claridad: es importante utilizar un lenguaje fácilmente asimilable por el entrevistado.

- Precisión: hay que definir bien las cuestiones y evitar ambigüedades para obtener la

información que se busca.

- Corrección: ha que evitar preguntas que por su contenido o su lenguaje puedan molestar al

entrevistado.

- Duración limitada: hay que reducir el tamaño del cuestionario lo máximo posible, evitando

preguntas repetidas o excesivamente largas, para impedir el cansancio y la monotonía en las

respuestas del entrevistado.

Las tipologías de preguntas que nos podemos encontrar son:

- Pregunta abierta: el entrevistado tiene libertad para contestar.

- Pregunta cerrada: el entrevistado debe contestar seleccionando una o varias opciones de las

que se le proponen. La pregunta cerrada facilita la tabulación posterior de las respuestas.

- Pregunta mixta: por ejemplo, una pregunta cerrada donde una de las opciones es una

pregunta abierta de respuesta libre.

Las diferentes formas de realizar la entrevista son:

- Entrevista personal: el entrevistador y el entrevistado mantienen un trato directo.

- Entrevista telefónica.

- Entrevista postal: envío del cuestionario por correo.

- Entrevista virtual (uso de Internet).

Desde el punto de vista de la inferencia estadística, hay que tratar de asegurar dos aspectos claves:

• Que el número de no respuestas no sea alto, para evitar que los cuestionarios de los que

responden dejen de ser representativos del conjunto de la población. El número de preguntas y

la forma en que se realiza la encuesta (entrevista personal, correo, teléfono, etc.) tiene mucho

que ver con la tasa de no respuesta. Conviene analizar la falta de respuesta con objeto de ver la


6

representatividad que podemos seguir adjudicando a la muestra (características o patrón de

comportamiento de los elementos no observados por falta de respuesta).

• Que las respuestas sean honestas y precisas. La técnica (arte) en el diseño del cuestionario y

en la realización de la entrevista, o forma de hacer la pregunta, es esencial en este punto.

5.-Uso de la muestra para hacer inferencia.

Se comienza con la preparación y análisis de los datos: codificación, depuración y análisis descriptivo

inicial. Posteriormente, se entra en la inferencia, de la que ya se han estudiado diversas formas de

realizarla. A lo largo de esta lección, no obstante, trataremos algunos métodos de inferencia para tipos

particulares de muestreo.

6.-Obtención de conclusiones acerca de la población.

Se trata de resumir y presentar la información obtenida: estimación por intervalos, tablas resumen,

presentaciones gráficas, etc. Una vez destacadas las conclusiones del estudio, puede argumentarse

como actuar y, posiblemente, sugerir la obtención posterior de nueva información de interés aparecida

a lo largo del estudio. En este sentido, muchas veces, la aparición de cuestiones importantes no

previstas en el proceso, puede servir de estímulo para posteriores estudios de la población.

3. Tipos de error

Nunca sabremos, ciertamente, cuál es el verdadero valor de cualquier parámetro poblacional. Una

fuente posible de error procede del hecho de que no observamos toda la población, y le llamamos error

de muestreo, de azar o de estimación. Este tipo de error es inevitable, ya que siempre habrá diferencia

entre los valores medios de la muestra y los valores medios de la población. La magnitud de este error

depende del tamaño de la muestra (a mayor tamaño de muestra menor error) y de la dispersión o

desviación estándar del estimador (a mayor dispersión mayor error).La Estadística estudia de qué

forma se puede tratar ese tipo de error o, al menos, cómo se puede incorporar en el proceso de

inferencia (intervalos de confianza, nivel de significación, etc.).

Sin embargo, hay otras posibles fuentes de error que no pueden ser tratadas de la misma forma. Los

llamaremos errores ajenos al muestreo y algunos de ellos son:

• Definición incorrecta de la población de referencia.

• Respuestas imprecisas o falsas. Normalmente proceden de falta de claridad en el cuestionario

y de la formulación de preguntas delicadas para el entrevistado.

• Falta de respuesta. Este hecho puede producir estimaciones sesgadas, ya que los que

respondieron pueden no representar fielmente a la población. Por eso, en este caso, conviene

analizar las características de los que no lo hicieron (posible sesgo) y compararlas con los que

sí lo hicieron, para ver si son homogéneos o no ambos grupos.


7

• Sesgo en la selección de los elementos de la muestra. Por ejemplo, cambio de un vecino por

otro ausente, desatendiendo el proceso de muestreo estipulado.

• Errores de manipulación, tabulación y cálculo.

No existe un procedimiento general para evitar y analizar tales errores. Pero el investigador debe

tenerlos muy presentes para tratar de minimizarlos. Es preciso recabar toda la información disponible.

Puede hacerse una encuesta previa para detectar posibles fallos.

4. Métodos de muestreo

Los métodos de muestreo pueden ser de dos tipos: aleatorios y no aleatorios, dependiendo del método

de obtención de la muestra. En los primeros, la selección de los elementos de la muestra es aleatoria e

independiente de la opinión de cualquier persona (investigador o entrevistador). En los segundos, esta

condición no siempre se cumple. En ambos casos, pueden seleccionarse elementos de la población

(por ejemplo, empleados) o grupos de elementos (por ejemplo, familias). De esta forma, podemos

establecer la siguiente clasificación de los métodos de muestreo:

Figura 1. Principales métodos de muestreo

Muestreos aleatorios

Unidad muestral elemental

Unidad muestral

grupo

Muestreo aleatorio simple

Muestreo aleatorio

sistemático

Muestreo aleatorio

estratificado

Muestreo por áreas y

conglomerados

Muestreo por

etapas

Muestreos no

aleatorios

Muestreo por cuotas

Muestreo de juicio

u opinión

Muestreo intencional

Muestreo por bola de nieve


8

Una clasificación general de estos métodos puede verse en la Figura 1. A continuación, vamos a

realizar un breve recorrido de los mismos, pero centrándonos fundamentalmente en los definidos como

aleatorios.

1) Muestreo aleatorio.

Muestreo aleatorio simple.

Se caracteriza porque cada elemento de la población tiene la misma probabilidad de ser elegido. Si se

dispone de una lista de los elementos de la población, la selección de una muestra aleatoria simple es

muy sencilla. Supongamos que numeramos los elementos de la población de 1 a N, una muestra

aleatoria simple puede obtenerse colocando N bolas numeradas en una caja, mezclándolas, y

extrayendo n de ella, o bien, también puede utilizarse una tabla de números aleatorios, ordenador o

simple calculadora de mano (tecla RANDOM – RND).

Muestreo aleatorio sistemático.

Si existe una lista de los elementos de la población en la que aparecen ordenados y el orden existente

no es un factor distorsionante de la aleatoriedad para el tema bajo estudio (de ser así habría sesgo en la

selección) se utiliza con mayor frecuencia el muestreo sistemático. Se trata de seleccionar un primer

elemento al azar (arranque aleatorio) entre 1 y p, siendo p=N/n, y, si este elemento es el k-ésimo, los

demás se obtienen sumándole p al inmediato anterior: k, k+p, k+2p, .......

El método garantiza que aparezcan elementos de todas las clases, por lo que genera muestras más

representativas que el aleatorio simple. Este procedimiento exige, como el anterior, numerar todos los

elementos de la población, pero en lugar de extraer n números aleatorios sólo se extrae uno.

El riesgo de este tipo de muestreo está en los casos en que se dan periodicidades en la población ya

que al elegir a los miembros de la muestra con una periodicidad constante (p) podemos introducir una

homogeneidad que no se da en la población. Imaginemos que estamos seleccionando una muestra

sobre diferentes listas de 10 individuos en los que los 5 primeros son varones y los 5 últimos mujeres,

si empleamos un muestreo aleatorio sistemático con p=10 siempre seleccionaríamos o sólo hombres o

sólo mujeres, no podría haber una representación de los dos sexos. Otro ejemplo: si seleccionamos una

muestra de ocupación hotelera basada en una serie de datos mensuales para distintos años y p=12,

siempre se obtendría la observación correspondiente al mismo mes, por lo que la muestra estaría

afectada por el sesgo propio del factor estacional encontrado en el arranque aleatorio (al alza en meses

de alta ocupación, a la baja en el resto)

Muestreo estratificado.

Hace referencia a poblaciones con características diferentes, en las que existen estratos (grupos)

homogéneos con respecto al carácter que se investiga y que, por tanto, deben ser analizados de forma

diferente, ya que pueden obtenerse estimaciones más precisas (menos errores) tomando una muestra


9

aleatoria en cada estrato y, además, se garantiza que todos los estratos (subpoblaciones, en definitiva)

estén representados. Cada estrato tiene elementos que son homogéneos entre sí y heterogéneos

respecto a los demás estratos. Por ejemplo, si se quieren estudiar características de los hoteles de una

determinada provincia, se tienen como estratos los hoteles de 5 estrellas, de 4 estrellas, de 3 estrellas,

etc. y se utilizará un muestreo estratificado que nos asegure una adecuada representación de todos los

estratos.

Muestreo por conglomerados y por áreas.

En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la población que

forman una unidad, a la que llamamos conglomerado (familias, empresas, municipios, etc.). El

muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto número de

conglomerados (el necesario para alcanzar el tamaño muestral establecido) e investigar después todos

los elementos pertenecientes a los conglomerados elegidos.

En el caso particular de que los conglomerados sean áreas geográficas –bastante frecuente-

hablaremos de muestreo por áreas.

Muestreo polietápico o por etapas.

El muestreo polietápico es una generalización del muestreo por conglomerados en el que se intenta

reducir el coste al mínimo. En la primera etapa se selecciona un número determinado de

conglomerados (unidades primarias de muestreo), por ejemplo, provincias. En la segunda se

seleccionan conglomerados más pequeños pertenecientes a los anteriores (unidades secundarias de

muestreo), por ejemplo, municipios. Y así sucesivamente (procedimiento de “embudo”) hasta llegar a

los elementos de la población que van a ser observados (unidades últimas). Sólo necesitamos, por

tanto, contar con un listado de los elementos de esta última etapa.

Como ejemplo práctico, la Encuesta de Población Activa (EPA), una investigación por muestreo de

periodicidad trimestral realizada por el INE desde 1964 dirigida a analizar la actividad laboral, utiliza

un muestreo en dos etapas con estratificación en la primera etapa. El INE selecciona como unidades

muestrales primarias alrededor de 3.000 secciones censales de entre las más de 30.000 en que esta

dividida España2. En cada una de estas secciones censales se entrevistan un promedio de 20 viviendas

familiares (unidades muestrales secundarias), obteniéndose una muestra de aproximadamente 64.000

viviendas para las que se recoge información para todos sus miembros, lo que produce una muestra

final en torno a las 200.000 personas.

Como resumen, en términos generales, las ventajas e inconvenientes de los distintos tipos de muestreo

aleatorio se presentan en la Tabla 1:

2Una sección censal es una unidad territorial que se establece con criterios operativos para el trabajo de campo en las operaciones estadísticas, mediante la subdivisión de los distritos de los municipios atendiendo fundamentalmente al volumen de población. En esta etapa el diseño de la EPA estratifica las secciones censales utilizando un doble criterio: geográfico y socioeconómico.


10

Tabla 1: Ventajas e inconvenientes de los diferentes tipos de muestreo aleatorio

CARACTERISTICAS VENTAJAS INCONVENIENTES

Aleatorio simple

Se selecciona una muestra de tamaño n de una población de N unidades, cada elemento tiene una probabilidad de inclusión igual y conocida de n/N.

Sencillo y de fácil comprensión.

Requiere que se posea de antemano un listado completo de toda la población. Caro.

Sistemático

Se necesita un listado de los N elementos de la población. Tras determinar el tamaño muestral n, se define un valor p= N/n. Se elige un número aleatorio, k, entre 1 y p (k= arranque aleatorio) y se seleccionan los elementos de la lista que ocupan los lugares k, k+p, k+2p, ....

Fácil de aplicar. Cuando la población está ordenada siguiendo una tendencia conocida, asegura una cobertura de unidades de todos los tipos.

Si la constante de muestreo está asociada con el fenómeno de interés, las estimaciones obtenidas a partir de la muestra pueden contener sesgo de selección

Estratificado

En ciertas ocasiones resultará conveniente estratificar la muestra según ciertas variables de interés. Para ello debemos conocer la composición estratificada de la población.

Tiende a asegurar que la muestra represente adecuadamente a la población en función de las variables seleccionadas. Estimaciones más precisas. Su objetivo es conseguir una muestra lo más semejante posible a la población en lo referente a las variables estratificadoras.

Se ha de conocer la distribución en la población de las variables utilizadas para la estratificación.

Conglomerados-

Etapas

Se seleccionan aleatoriamente cierto número de conglomerados y se investigan todos los elementos de cada uno de ellos. El muestreo por etapas es una generalización, que va de más grandes a más pequeños. Se realizan varias fases de muestreo sucesivas.

Es muy eficiente cuando la población es muy grande y dispersa. No es preciso tener un listado de toda la población, sólo de las unidades últimas de muestreo. Menor coste.

El error estándar es mayor que en el muestreo aleatorio simple o estratificado. El cálculo del error estándar es complejo.

2) Muestreo no aleatorio

A veces, para estudios exploratorios, el muestreo aleatorio resulta excesivamente costoso y se acude a

métodos no aleatorios, aun siendo conscientes de que no son adecuados para realizar generalizaciones,

pues no se tiene certeza de que la muestra extraída sea representativa, ya que no todos los sujetos de la

población tienen la misma probabilidad de se elegidos. Sólo comentaremos aquí el muestreo por

cuotas y el de opinión.

Muestreo por cuotas.

También denominado en ocasiones "accidental". Se asienta generalmente sobre la base de un buen

conocimiento de los estratos de la población y/o de los individuos más "representativos" o

"adecuados" para los fines de la investigación. Mantiene, por tanto, semejanzas con el muestreo

aleatorio estratificado, pero no tiene el carácter de aleatoriedad de aquél.


11

En este tipo de muestreo se fijan unas "cuotas" que consisten en un número de individuos que reúnen

unas determinadas condiciones (variables de control), por ejemplo: 20 individuos de 25 a 40 años, de

sexo femenino y residentes en Málaga. Siempre que se ajuste a las cuotas fijadas, el entrevistador tiene

libertad para elegir a los entrevistados. Este método se utiliza mucho en las encuestas de opinión.

Muestreo de juicio o de opinión.

Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras "representativas"

mediante la inclusión en la muestra de grupos supuestamente típicos. Para la obtención de una muestra

mediante este método se puede acudir a criterios específicos de los investigadores o bien requerir las

opiniones de expertos en la materia. Por ejemplo, cuando el interés del estudio se centra en comparar

las características diferenciadoras de los clientes que han presentado cierta insatisfacción en el servicio

respecto a aquellos otros que no, se determina a juicio del investigador un número predeterminado de

encuestas a los clientes satisfechos y otro número de encuestas a clientes insatisfechos.

5. Tamaño de la muestra e inferencia.

La muestra debe reproducir las características del universo o población. Hay dos cuestiones básicas: la

primera, sobre la cantidad de elementos que debe incluir la muestra y, la segunda, hasta qué punto

puede generalizarse a la población el resultado obtenido en ella. Ambas cuestiones conducen al

problema de la exactitud o precisión de la estimación del parámetro desconocido. El objetivo es no

incurrir en errores a la hora de obtener los resultados. Pero como los errores son inevitables, lo

importante entonces es minimizarlos.

Una vez especificadas las características que ha de tener la muestra, hay que determinar su tamaño (n),

de forma que sea suficientemente representativa de la población y que asegure, para un nivel de

confianza (1-α) dado, un error muestral (ε) máximo permitido. La población puede ser infinita (a

veces, suele considerarse infinita cuando tiene más de 100.000 elementos) o de tamaño finito N, que

es lo más general. Vamos a ver, como introducción general al caso más real de poblaciones finitas, la

forma en que se puede tratar este tema cuando la población se supone infinita.

Caso de la media:

El error muestral se define como la diferencia entre el verdadero valor del parámetro y el arrojado por

su estimador para la muestra en cuestión:

xε µ= −

Recordemos que un intervalo de confianza del 100(1-α) % para la media, en caso de normalidad,

vendría dado por:


12

1 / 2 1 / 2

1 / 2

x x

x x

x z x z

x zn

α α

α

σ µ σ

σµ σ σ

− −

−

− ≤ ≤ +

− ≤ → =

Se desprende de la anterior expresión que siempre son el nivel de confianza y el error estándar o

desviación típica del estimador del parámetro desconocido los que determinan la amplitud del error

que cometemos al estimar dicho parámetro con una muestra de tamaño n. El error máximo para una

muestra de tamaño n, cuando se estima la media en una población normal con una confianza del

100(1-α) %, sería, por tanto:

1 / 2x znασε µ −= − =

En esta expresión, σ es la desviación típica poblacional, x la media de la muestra y µ la media

poblacional.

Obsérvese una cuestión que va a ser muy importante desde un punto de vista conceptual: dado un

nivel de confianza (z, en definitiva), otorgar un determinado valor al error máximo que se puede

cometer, equivale exactamente a fijar la varianza del estimador. Despejando, resulta que el tamaño de

la muestra viene dado por la siguiente expresión:

2 21 / 2

2

zn α σε

−=

Recordemos que z1-α/2 es un valor (percentil) de la distribución normal tipificada que acumula a su

izquierda una probabilidad de (1-α/2), o lo que es igual, α/2 a su derecha. Este valor es de 1,96 para

un nivel de confianza del 95 %. Es bastante frecuente redondear los valores del percentil de Z a z =2 y

a z =3, siendo entonces del 95,5% y 99,5%, respectivamente, los correspondientes niveles de

confianza. Para el primer caso, por ejemplo, el tamaño de la muestra vendría dado por la expresión:

2

2

4n σε

=

En la mayoría de los casos se desconoce el valor de σ, por lo que es necesario establecer un proceso de

muestreo previo con información más reducida (muestra piloto) y a partir de ahí estimar la varianza σ,

o bien utilizar los resultados obtenidos en otro estudio.


13

Ejemplo:

Para llevar a cabo el análisis de un destino turístico con alta afluencia de turistas (200.000, en

concreto) se desea realizar una encuesta para determinar el gasto medio por turista. Se ha decidido

aceptar un error máximo en el gasto medio de 30 euros. Suponiendo una desviación estándar de la

población de 200 euros y un nivel de confianza del 95%, obtenga el tamaño adecuado de la muestra.

Solución:

Al ser una población mayor de 100.000 elementos, vamos a tratar el tema, por ahora, como si se

tratase de una población infinita, tal y como se ha dicho anteriormente. Así, la fórmula para obtener el

tamaño de la muestra es:

2 2 2 21 / 2

2 2

1,96 200 170,74 17130

zn α σε

− ×= = = ≈

Caso de la proporción:

Cuando se estima una proporción, caso frecuente de respuestas dicotómicas, la varianza del estimador

de la proporción es, como se recordará:

2p̂

pqn

σ =

El error máximo vendría dado, de acuerdo con lo que acabamos de ver, por:

1 / 2ˆ pqp p znαε −= − =

El tamaño de la muestra se obtendrá, como anteriormente, despejando n de esta expresión:

21 / 2

2

z pqn α

ε−=

Generalmente, los valores poblacionales de la proporción buscada (p) y de su complementario (q=1-p)

se desconocen. Pero en este caso, en vez de obtenerlos mediante una muestra piloto, pueden sustituirse

por p=q=0,5, lo que conduce al máximo valor exigible de n, ya que cualquier otra combinación de

valores de p y q, al multiplicarlos, daría una valor inferior a 0,25. Obsérvese además que si se

considera una confianza del 95,5%, el valor de nmax queda sólo en función del error:

max 2 2 2

4 4 0,25 1pqnε ε ε

×= = =


14

Ejemplo

Para completar el análisis del anterior destino turístico, se desea realizar utilizar la encuesta para

determinar la proporción de visitantes de origen europeo. Se ha decidido aceptar un error máximo del

5%, y un nivel de confianza del 95,5%. Obtener el tamaño de la muestra.

Solución:

Con esta información, puesto que no sabemos nada acerca del valor poblacional de p, el tamaño de la

muestra sería:

max 2 2

4 4 0, 25 400(0,05)

pqnε

×= = =

La respuesta a por qué en estudios de mercado y encuestas de opinión se utiliza a menudo un tamaño

muestral de 400, 1110 ó 2500 está en esta fórmula: se asume un desconocimiento total de la

proporción en la población, por lo que se considera p=0.5, se usa un nivel de confianza del 95.5% y la

imprecisión máxima admisible (error) se suele fijar en el 5, 3 ó 2%, respectivamente.

Caso del total:

Por último, el tercer parámetro en el que podemos estar interesados es por el total o suma de todos los

valores de la variable, que en una población, como se recordará, viene dado por Nµ . Evidentemente,

si estamos hablando de conocer N, la población ha de ser finita, cosa que no hemos supuesto en los

dos casos anteriores. Pero vamos a continuar desarrollando este caso sólo con el objeto de cerrar el

tratamiento de la búsqueda del tamaño muestral, cuando se pretende hacer inferencia sobre los tres

parámetros más comunes. Ya veremos, sin embargo, como para poblaciones finitas todas estas

expresiones del tamaño de la muestra cambian. Pero, como hemos dicho anteriormente, sigamos el

argumento como simple ejercicio, para más adelante puntualizarlo debidamente.

Por ejemplo, se puede estar interesado en el gasto total anual de los turistas que visitan una cierta zona.

Es fácilmente comprensible que, en este caso, el mejor estimador de ese total vendría dado por Nx .

Y, puesto que N es constante, la varianza del total será:

2 2 2( )Nx x Nx xVar Nx N Nσ σ σ σ= = → =

El error para el total, por tanto, será el de la media multiplicado por N:

1 / 2T N Nx z N Nnασε µ ε−= − = =


15

Simplificando N en los dos últimos miembros de esta igualdad, se comprueba fácilmente que el

tamaño de la muestra debería de ser exactamente igual que para el caso de la media.

Ejemplo:

Para completar el análisis del destino en estudio se desea conocer también el gasto total que los

turistas realizarán en la zona. Se ha decidido aceptar un error máximo en el gasto total de 6 millones

de euros. Suponiendo un nivel de confianza del 95%, obtener el tamaño adecuado de la muestra.

Solución:

2 2 21 / 2

1 / 2 2

2 2 2

2

1,96 200000 200 170,74 1716000000

TT

z Nz N nn

n

αα

σ σεε

−−= → =

× ×= = ≈

Obsérvese que, como era de esperar, se obtiene exactamente el mismo número de observaciones que

para el caso de la media, ya que el error del total se ha elegido a propósito multiplicando por N el de la

media. De esta forma se ha mantenido el especificado anteriormente para la media:

6000000 30200000

TT N

Nεε ε ε= → = = =

Una vez fijado el tamaño de la muestra, y obtenida ésta mediante el procedimiento adecuado, la mejor

estimación por puntos del gasto medio será la media de la muestra. La de la proporción, la observada

en la muestra y la del total, la media de la muestra multiplicada por N.

Los correspondientes intervalos de confianza, que nos dan una idea de la horquilla en que se mueve el

verdadero valor del parámetro, se construirán para cada uno de los casos, según lo visto anteriormente,

como sigue:

1 / 2 1 / 2

ˆ ˆ1 / 2 1 / 2

1 / 2 1 / 2

Media : ( )

ˆ ˆProporción : ( )

Total : ( )

x x

p p

x x

x z x z

p z p p z

Nx z N N Nx z N

α α

α α

α α

σ µ σ

σ σ

σ µ σ

− −

− −

− −

− ≤ ≤ +

− ≤ ≤ +

− ≤ ≤ +

Es decir, una vez seleccionados los elementos de la muestra, se obtendrán, respectivamente, las

correspondientes estimaciones por puntos de la media, proporción y total. Con estos datos como centro

del intervalo, para un nivel de confianza dado y conocida la varianza del estimador, quedarían

determinados los correspondientes intervalos para los parámetros desconocidos.


16

6. Muestreo en poblaciones finitas.

Si el tamaño de la población o universo es conocido, la elección del tamaño de la muestra, aunque

siguiendo los argumentos expuestos en el epígrafe anterior, tiene ciertas especificidades, que veremos

a continuación. Las diferencias se basan fundamentalmente en el hecho (relativamente probable para

el caso de una población finita, pero imposible para una de tamaño infinito) de que nos podemos

encontrar con situaciones en las que el número de elementos de la muestra puede llegar a ser una

proporción apreciable de los de la población. En tal situación, puede entenderse fácilmente que la

precisión de la estimación sería superior, al estar mejor representada el conjunto de la población.

En concreto, para el caso de poblaciones finitas, puede demostrarse que la varianza del estimador (de

la media, proporción o total) propia de poblaciones infinitas, tal como la hemos visto anteriormente, ha

de corregirse por un factor. Este factor de corrección sería --1

N nN

⎛ ⎞⎜ ⎟⎝ ⎠

, por lo que para el caso de la

media su fórmula de cálculo quedaría como sigue:

Si nos fijamos en el numerador del factor de corrección, comprenderemos que no se puede valorar de

forma absoluta al tamaño de una muestra, sino que hay que confrontarlo con el de la población de la

que se extrae3. Si observamos dos poblaciones, siendo la muestra de la primera más pequeña que la de

la segunda, puede llegar a dar más precisión (menor varianza) si el tamaño de la población de la que

procede es proporcionalmente menor. Esto, dicho así, parece algo complicado cuando resulta obvio:

en igualdad de condiciones, una muestra de tamaño 100 nos informa mucho mejor sobre las

características de una población de tamaño 200, dónde representa la mitad de sus elementos, que otra

de tamaño 200 en una población de 20.000, que representa sólo el 1% de sus elementos.

Por tanto, independientemente del número de elementos que contenga, cuanto mayor sea el tamaño de

la muestra (n) en relación al de la población (N), mayor garantía tendremos en las estimaciones, como

se observa en la fórmula anterior. En el caso extremo de que N=n la varianza del estimador se hace

nula. Estaríamos, evidentemente, en presencia de una observación exhaustiva de la población, propia

de la estadística descriptiva, y no en un caso de inferencia estadística. Por el contrario, cuando el

tamaño de la muestra sea mínimo, de una sola observación (n=1), la varianza (precisión) del estimador

coincidiría con el caso de una población de tamaño infinito.

3 Obsérvese que si en dicha fórmula se considera que (N-1) ≈ N, la expresión del factor de corrección quedaría bien expresada como la razón de estos dos tamaños, el de la muestra y el de la población, pues (N-n)/N = 1- n/N. Cuanto mayor es la proporción de la muestra respecto a la población, más se reduce la varianza del estimador.

22 -

-1xN n

n Nσσ ⎛ ⎞= ⎜ ⎟

⎝ ⎠


17

Teniendo en cuenta esta particularidad, se presenta a continuación la forma en que se debe de obtener

el tamaño de la muestra para el caso de poblaciones finitas y para los cada uno de los dos tipos de

muestreos aleatorios más utilizados, el aleatorio simple y el estratificado.

6.1. Muestreo aleatorio simple.

Caso de la media:

Como se dijo anteriormente, dado un determinado nivel de significación, fijar el tamaño del error

equivale a predeterminar la propia varianza del estimador. Es decir, varianza del estimador y error

máximo permitido son dos caras de una misma moneda, siendo el tamaño de la muestra el resultado

del supuesto que hagamos acerca de cualquiera de ambos. Por tanto, dicho tamaño se puede obtener a

partir de la definición del error o de la fórmula de la varianza del estimador. Obsérvese que, fijado el

valor de z por el nivel de confianza, el error es igual a la desviación estándar del estimador

multiplicado por una constante (para el caso del 95% el valor sería 1,96 ):

1 2 1 96/ ,x xz αε σ ε σ−= → =

Si elevamos al cuadrado e introducimos el valor de la varianza del estimador, tendremos:

1 2 1 2

22 2 2 2

1/ /x

N nz zn Nα α

σε σ− −

−⎛ ⎞= = ⎜ ⎟−⎝ ⎠

A partir de esta expresión, si se suponen conocidos la varianza (σ) y el tamaño de la población (N), y

fijados el tamaño del error (ε) y el nivel de confianza que determina el valor de z1-σ/2, podemos obtener

el correspondiente tamaño de la muestra (n). Esta es la forma en que generalmente se obtiene el

tamaño adecuado de la muestra. Haremos este ejercicio una sola vez, ya que en adelante omitiremos

cálculos similares para el resto de los casos. Operando en la igualdad anterior:

1 2 1 2 1 2

1 2 1 2

1 2 1 2

1 2

1 2

1 2

2 2 2 2 2 2 2

2 2 2 2 2

2 2 2 2 2

2 22 2 2

2 2 2

1

1

1

1

/ / /

/ /

/ /

/

/

/

( ) ( )

( )

( )

( ) x

n N z N n z N z n

n N z n z N

N z n z N

Nzn z

N z

α α α

α α

α α

α

α

α

ε σ σ σ

ε σ σ

ε σ σ

σε σ

ε σ

− − −

− −

− −

−

−

−

− = − = −

− + =

⎡ ⎤− + =⎣ ⎦

= → =− +


18

Si en la fórmula obtenida para n sustituimos el error por la expresión del mismo que ya conocemos,

entonces obtendremos esta otra expresión para el tamaño de la muestra cuando se desea estimar una

media en poblaciones finitas:

1 2

1 2

2 22 2 2 2

2 2 21/

/( )x x

x

Nz nN zα

α

σ εε σ σσ σ−

−

= → = ← =− +

Esta expresión es exactamente la que se hubiera obtenido si se toma directamente la fórmula de la

varianza del estimador de la media en poblaciones finitas para despejar de ella el valor de n, cuestión

que dejamos como ejercicio para el alumno. En resumen, conocidos el tamaño y la varianza de la

población, por estudios anteriores o por una encuesta piloto desarrollada para el caso, se observa

claramente en la expresión anterior que fijar el error o la varianza del estimador son procesos

equivalentes, pudiéndose utilizar cualquiera de las dos expresiones de n que se acaban de mostrar.

Ejemplo (mismo caso de poblaciones infinitas):

Para llevar a cabo el análisis de un destino turístico con alta afluencia de turistas (200.000) se desea

realizar una encuesta para determinar el gasto medio por turista. Se ha decidido aceptar un error

máximo en el gasto medio de 30 euros. Suponiendo una desviación estándar de la población de 200

euros y un nivel de confianza del 95%, obtener el tamaño adecuado de la muestra.

Solución fórmula 1:

1 2

1 2

2 2 2 2

2 2 2 2 2 2

200 000 1 96 200 170 59 1711 200 000 1 30 1 96 200

/

/

. ( , ) ( ) ,( ) ( . ) ( ) ( , ) ( )

Nzn

N zα

α

σε σ

−

−

× ×= = = ≈

− + − × + ×


2 2

22 22

200 000 200 170 59 1711 30200 000 1 200

1 96

. ( ) ,( )

( . ) ( ),

x

NnN

σσ σ

×= = = ≈

− + ⎛ ⎞− × +⎜ ⎟⎝ ⎠

Como puede observarse, el tamaño muestral resultante es el mismo que cuando supusimos que la

población era infinita. Ello es debido al gran tamaño de la misma.

Intervalo para la media:

Una vez obtenida la muestra, se puede calcular un intervalo de confianza para el parámetro (media)

poblacional. Normalmente, la varianza poblacional es desconocida, por lo que el intervalo que se

definió anteriormente debe dejar paso a este otro, en el que se sustituye la varianza desconocida por su

estimador insesgado en poblaciones finitas, que llamaremos 2ˆ xσ :


19

1 / 2 1 / 2

22

ˆ ˆ

ˆ ( - )ˆ

x x

x

x z x z

s N nn N

α ασ µ σ

σ

− −− ≤ ≤ +

=

De esta forma, con los datos de la muestra se puede obtener un intervalo de confianza para el

verdadero valor del parámetro desconocido, con el error y el nivel de confianza predeterminados a la

hora de obtener el tamaño adecuado de la muestra.

Ejercicio:

Supongamos que la media y la desviación estándar obtenidas en la muestra de los 171 turistas del

ejercicio anterior son, respectivamente, de 450 y 320 euros. Determinar el intervalo de confianza del

95% para el verdadero valor del gasto medio por turista.

Solución:

Comenzaremos por obtener el estimador de la varianza:

2 2 2

2 ˆ ( - ) ( / 1) ( - ) (171 320 /170) (200.000 171)ˆ 601,84171 200.000x

s N n ns n N nn N n N

σ − × −= = = =

Por tanto, tendremos que ˆ 24,53xσ = y el correspondiente intervalo de confianza vendría dado por:

1 / 2 1 / 2ˆ ˆx xx z x zα ασ µ σ− −− ≤ ≤ +

450 1,96 24,53 450 1,96 24,53µ− × ≤ ≤ + ×

401,92 498,08µ≤ ≤

(450 48,08)µ∈ ±

En esta última expresión se da el intervalo, tomando como pivote del mismo la estimación por puntos

del parámetro (media de la muestra) y fijando el error máximo cometido a izquierda y derecha del

mismo (producto del valor de z, o sea 1,96, por la desviación estándar del estimador, que es 24,53).


Como ya hemos comentado, para obtener el tamaño adecuado de la muestra en el caso de estar

realizando inferencia sobre la proporción se procede de forma similar al caso anterior. La varianza del

estimador es ahora:

2ˆ 1p

pq N nn N

σ −⎡ ⎤= ⎢ ⎥−⎣ ⎦


20

Despejando n, se llega a obtener la siguiente expresión de cálculo para el tamaño de la muestra,

cuando se hace inferencia acerca de una proporción:

2ˆ( 1) p

NpqnN pqσ

=− +

Volviendo a tomar la ya conocida relación entre error y varianza del estimador, 2

2ˆ 2

1 / 2p z α

εσ−

= , una

segunda fórmula de cálculo es la siguiente:

21 / 2

2 21 / 2( 1)

Nz pqnN z pq

α

αε−

−

=− +

Generalmente, no se conoce el valor de p, por lo que habrá que estimarlo mediante una encuesta piloto

o tomando información procedente de investigaciones anteriores. La alternativa más inmediata es

optar por tomar el tamaño muestral máximo, considerando pq=0,25.

Ejemplo (mismo caso de poblaciones infinitas):

Para completar el análisis del anterior destino turístico, se desea realizar utilizar la encuesta para

determinar la proporción de turistas de origen europeo. Se ha decidido aceptar un error máximo del

5%, y un nivel de confianza del 95%. Obtener el tamaño de la muestra.


Como no se tiene información sobre la proporción en la población, optaremos por obtener el n

máximo:

22ˆ

0,25 0,25 200.000 383,43 384( 1) 0,25 0,05(200.000 1) 0,25

1,96p

NnN σ

×= = = ≈

− + ⎛ ⎞− × +⎜ ⎟⎝ ⎠


2 21 / 2

2 2 2 21 / 2

200.000 1,96 0,25 383,43 384( 1) (200.000 1) 0,05 1,96 0,25

Nz pqnN z pq

α

αε−

−

× ×= = = ≈

− + − × + ×

Puede comprobarse de nuevo como el hecho de tener como referencia a una población de gran

tamaño, no cambia prácticamente el tamaño de la muestra.


21

Ejemplo:

En un hotel saben que el nivel de satisfacción de sus clientes ronda el 90% y quieren realizar un

estudio para ver si la nueva gestión de limpiezas ha sido de su agrado. ¿Cuál sería el tamaño necesario

para la muestra, si el total de clientes del hotel es de 10.000? Suponga un nivel de confianza para los

resultados del estudio del 95% y un error máximo permitido del 5%.

Solución:

2 21 / 2

2 2 2 21 / 2

10.000 1,96 0,90 0,10 136,42 137( 1) (10.000 1) 0,05 1,96 0,90 0,10

Nz pqnN z pq

α

αε−

−

× × ×= = = ≈

− + − × + × ×

Luego, el tamaño necesario de la muestra sería de 137 clientes.

Intervalo para la proporción:

El intervalo de confianza para la proporción se puede obtener de forma similar, sin más que aplicar la

correspondiente expresión para el mismo:

ˆ ˆ1 / 2 1 / 2ˆ ˆ ˆ ˆp pp z p p zα ασ σ− −− ≤ ≤ +

Ahora, la varianza desconocida de la proporción muestral se estima mediante el siguiente estimador

insesgado:

2ˆ

ˆ ˆ ( )ˆ( 1)p

pq N nn N

σ −=

−

Ejemplo:

En la muestra de 142 clientes, se ha obtenido que 105 están satisfechos con la limpieza. Obtenga un

intervalo de confianza para el verdadero valor de la proporción de clientes satisfechos.

Solución:

La proporción en la muestra es el estimador por puntos y será el pivote utilizado para establecer el

intervalo: 105ˆ 0,7394142

p = =

La varianza del estimador será:

2ˆ

ˆ ˆ ( ) 0,7394 (1 0,7394) (10.000 142)ˆ 0,001347( 1) (142 1) 10.000p

pq N nn N

σ − × − −= = =

− −

La desviación estándar, por tanto, es 0,0367 y el intervalo queda como sigue:


22

ˆ ˆ1 / 2 1 / 2ˆ ˆ ˆ ˆp pp z p p zα ασ σ− −− ≤ ≤ +

0,7394 1,96 0,0367 0,7394 1,96 0,0367

0,6675 0,8113

p

p

− × ≤ ≤ + ×

≤ ≤

(0,7394 0,0719)p∈ ±

Es decir, el porcentaje de clientes satisfecho está entre el 66,75% y el 81,13%, con una confianza del

95%. El error al estimar la proporción puede llegar a ser de ± 0,0719 (± 7,19%). Aproximadamente,

siete puntos arriba o abajo del 74%.

Caso del total:

El tamaño de la muestra a la hora de hacer inferencia sobre el total o suma de todos los valores de una

población, como ya se comentó, es exactamente el mismo que para la media, ya que la varianza para

poblaciones finitas sería la siguiente, que en nada cambia los cálculos para obtener n:

22 2 2 -( )

-1xN nVar Nx N N

n Nσσ ⎛ ⎞= = ⎜ ⎟

⎝ ⎠

Sólo ha de tenerse en cuenta esta expresión y que el error del total sería N veces el error de la media,

como ya vimos en su momento. El intervalo de confianza es el de la media multiplicado por N,

evidentemente. Las fórmulas de cálculo, por tanto, serían:

1 2

1 2

2 2 22

2 2 21T

Nzn

N z Nα

α

σ εεε σ

−

−

= ← =− +

/

/( )

22

2 2 21 xx

N Var NxnN N

σ σσ σ

= ← =− +

( )( )

Ejercicio (mismo de poblaciones infinitas):

En el estudio sobre el gasto total en la zona por los turistas se aceptó un error máximo en el gasto total

de 6 millones de euros. Suponiendo que la desviación estándar poblacional es de 200 euros y un nivel

de confianza del 95%, obtenga el tamaño muestral adecuado. Si de la muestra obtenida se obtuviese un

gasto medio de 450 euros con una desviación estándar de 320 euros, diga cuál es el intervalo para el

gasto total.


23

Solución:

Evidentemente, el resultado para n va a ser el mismo que para el caso de la media. Lo único que

hemos de hacer es pasar del error del total al error de la media:

1 2 1 2

1 21 2

2 2 2 2

22 2 22 2

170 59 1711 1

/ /

//

,( ) ( ) T

Nz Nzn

N z N zN

α α

αα

σ σεε σ σ

− −

−−

= = = ≈− + − +

El intervalo de confianza no vale la pena volver a calcularlo, pues ya sabemos que es el mismo de la

media, pero multiplicado por N:

(80.576.000 99.924.000Nµ≤ ≤ )

Es decir, el gasto total estaría entre algo más de 80 millones y algo menos de 100 millones de euros,

con una confianza del 95%.

6.2. Muestreo aleatorio estratificado.

Como paso previo al cálculo del tamaño de la muestra para cada uno de los tres parámetros con los

que venimos trabajando y a la obtención de los intervalos de confianza, vamos a proponer el uso de la

siguiente nomenclatura:

• Población dividida en k estratos: N1 + N2 + …. + Nk = N

• Tamaños muestrales de los estratos: n1 + n2 + …… + nk = n

• Medias poblacionales en los estratos: µ1 µ2 …… µk

• Medias muestrales en los estratos: 1x 2x ….. kx

• Proporciones muestrales en los estratos: 1p̂ 2p̂ ….. ˆ kp

• En cada estrato, se hará un muestreo aleatorio simple en el que se definen los siguientes

estimadores insesgados:

o Para la media de cada estrato µi : ix

o Para la proporción de cada estrato pi : ˆ ip

o Para las varianzas de las ix : 2

2 ˆ ( - )ˆ i i ixi

i i

s N nn N

σ =

o Para las varianzas de las ˆ ip : 2ˆ

ˆ ˆ ( - )ˆ( -1)

i i i ipi

i i

p q N nn N

σ =


24

Para determinar el tamaño de una muestra por estratos se siguen dos etapas. En primer lugar, se

calcula el tamaño total de la muestra que se debe obtener, y posteriormente se estudia el número de

elementos que hay que asignar a cada uno de los estratos. A este reparto o asignación de los elementos

de la muestra a los distintos estratos se le denomina afijación, pudiéndose realizar según los siguientes

métodos o criterios:

• Criterio uniforme: se trata de una forma muy simple de reparto, asignando el mismo número

de elementos a cada estrato.

• Criterio proporcional: reparto de elementos entre los estratos de la muestra en la misma

proporción en que se presentan en la población:

i iN nN n

= ii

Nn nN

=

• Criterio óptimo: reparto en función de la varianza de cada estrato, con la idea que a menor

varianza será precisa menor cantidad de información y viceversa. Si las varianzas de los

estratos fuesen iguales, coincidiría con el proporcional:

• Media y total:

1

i ii K

i ii

Nn nN

σ

σ=

=∑

σi encuesta piloto

• Proporción:

1

i i ii K

i i ii

N p qn n

N p q=

=∑

p encuesta o n máxima

En realidad, el primer método carece de interés, siendo los más utilizados el segundo (el más

frecuente) y el tercero, en caso de estar especialmente interesados en la precisión de los estimadores.

Caso de la media y del total:

A partir de la idea inicial desarrollada para el muestreo aleatorio simple, pero haciendo algunas

simplificaciones para poder llegar a una solución, se obtiene la siguiente fórmula de cálculo:

• Asignación proporcional:

22

212

2 2 1- / 21

; 1

K

i ii

xK

x i ii

Nn con

zN NN

α

σ εσσ σ

=

=

∑= =

+ ∑

• Asignación óptima: ( )2

221

22 2 1- / 2

1

1

;1i

K

ii

xK

x i ii

NNn con

zN NN

α

σ εσσ σ

=

=

∑= =

+ ∑


25


• Asignación proporcional: 2

21ˆ 2

2 1 / 2ˆ

1

;1

K

i i ii

pK

p i i ii

N p qn con

zN N p qN

α

εσσ

=

−

=

∑= =

+ ∑

• Asignación óptima: ( )2

221ˆ 2

2 1 / 2ˆ

1

1

;1

K

i i ii

pK

p i i ii

N p qNn con

zN N p qN

α

εσσ

=

−

=

∑= =

+ ∑

Ejemplo:

El parque hotelero de una determina zona turística consta de 4.200 hoteles. Se sabe que 1.150 de estos

hoteles son de 4 y 5 estrellas, 2.120 son de 3 estrellas y 930 de menos de 3 estrellas. Se pide:

1. Obtenga el tamaño de la muestra para estimar la facturación media semanal de los hoteles,

con un error máximo de 500 euros y con una confianza del 95,5%. Supondremos que por

estudios anteriores se sabe que la desviación estándar en cada uno de los estratos es de

4.000, 6.000 y 8.000 euros, respectivamente.

2. Determine el total de encuestas que habría que realizar para estimar el grado de ocupación,

con un error máximo del 5% y con una confianza del 95%.

3. Suponga ahora que, por estudios anteriores, se estima que el grado de ocupación fue,

respectivamente, del 70%, 90% y 60%. ¿cuál sería el correspondiente tamaño muestral?

4. Diga, finalmente, cuál debe ser el tamaño definitivo de la muestra y obtenga el número de

formularios que habría que asignar a cada uno de los tres grupos mencionados, utilizando

tanto el criterio proporcional como el óptimo.

Solución 1:

El tamaño muestral adecuado para hacer inferencia sobre la media y sobre el total, utilizando un

criterio proporcional de reparto entre estratos, sería el siguiente:

22 2 2

12

2 2 2 2 221

(1150 4000 2120 6000 930 8000 ) 497,47 4981 500 14200 (1150 4000 2120 6000 930 8000 )1,96 4200

K

i ii

K

x i ii

Nn

N NN

σ

σ σ=

=

∑ × + × + ×= = = ≈

+ ∑ + × + × + ×

Si consideramos ahora un reparto óptimo de las observaciones de la muestra entre los diferentes

estratos, el tamaño adecuado para garantizar el error y el nivel de confianza que se ha propuesto, sería

el siguiente:


26

( ) ( )2

2

12

2 2 2 2 221

1 1 1150 4000 2120 6000 930 80004200 470,79 4711 500 14200 (1150 4000 2120 6000 930 8000 )

1,96 4200

K

i ii

K

x i ii

NNn

N NN

σ

σ σ

=

=

× + × + ×∑= = = ≈

+ ∑ + × + × + ×

Luego hay una diferencia de 27 cuestionarios entre utilizar una u otra forma de asignar los elementos

de la muestra entre los tres estratos contemplados.

Solución 2:

Comenzaremos determinando el tamaño de la muestra para estimar el grado de ocupación

(proporción). Como no se sabe nada acerca de las proporciones muestrales en los diferentes estratos,

buscaremos el n máximo:

1 1max2 2

2ˆ 2 21 11 / 2 1 / 2

0, 25 0, 251 0, 25 0, 25

K K

i i i ii i

K Kp i i i ii i

N p q N Nn nN N p q N N NN z N zα α

ε εσ

= =

= =− −

∑ ∑= = → =

+ ∑ + +∑

Como se puede observar, al no distinguir entre las diferentes proporciones poblacionales de los

estratos, lo que implica varianzas iguales en todos ellos, la expresión del tamaño de la muestra

coincide prácticamente con el caso de muestreo aleatorio simple y, por supuesto, el resultado es

idéntico para ambos tipos de asignación (proporcional u óptima). Obteniéndolo por el proporcional, se

tiene:

max 2

2 2/ 2

0,25 0,25 4.200 351,97 35220,050,25 4.200 0,251,96

NnN

zαε

×= = = ≈

+ × +

Solución 3:

Si suponemos que por anteriores investigaciones se sabe que la ocupación fue, respectivamente, del

70%, 90% y 60%, los cálculos arrojarían este otro resultado para el criterio de asignación

proporcional:

( )1

22ˆ 21

1150 0,70 0,30 2120 0,90 0,10 930 0,60 0,40 226,87 2271 0,05 14.200 1150 0,70 0,30 2120 0,90 0,10 930 0,60 0,401,96 4.200

K

i i ii

K

p i i ii

N pqn

N N pqN

σ=

=

∑ × × + × × + × ×= = = ≈

+ ∑ × + × × + × × + × ×

Evidentemente, los resultados nos indican que, al tener mayor información sobre las varianzas de los

estratos, la precisión del estimador aumenta y la cantidad de elementos necesarios para hacer

inferencia sobre la población resulta más pequeña.

Si consideramos ahora el criterio de asignación óptima, el resultado sería el siguiente:


27

( ) ( )( )

2

12

2ˆ 21

21 1 1150 0,7 0,3 2120 0,9 0,1 930 0,6 0,44200 215,89 2161 0,05 14200 1150 0,7 0,3 2120 0,9 0,1 930 0,6 0,4

1,96 4200

K

i i ii

K

p i i ii

N p qNn

N N p qN

σ

=

=

× + × + ×∑= = = ≈

+ ∑ + × × + × × + × ×

Luego se necesitarían 11 cuestionarios menos con este tipo de distribución del tamaño de la muestra

entre los distintos estratos. Veamos ahora exactamente cuantos debemos asignar a cada uno.

Solución 4:

La primera pregunta que hay que hacer es con qué tamaño de muestra hemos de trabajar finalmente, si

deseamos llevar a cabo en paralelo las dos investigaciones, sobre la facturación media y sobre el grado

de ocupación. Evidentemente, la respuesta no puede ser otra: hay que seleccionar el tamaño muestral

adecuado para conservar en el más desfavorable de los casos el grado de fiabilidad y el error que se

han propuesto. Es decir, tomaremos el tamaño exigible para hacer inferencia sobre la media, que es el

que arroja un mayor número de observaciones: 498 para el reparto proporcional y 471 para el óptimo.

Con ese tamaño aseguramos la precisión de la inferencia sobre la facturación media y sobre la

ocupación, mejorando en este último caso el error si se mantiene fijo el nivel de confianza. Veamos:

• Asignación proporcional:

11

1150 498 136,4 1374200

Nn nN

= = = ≈

22

2120 498 251,4 2524200

Nn nN

= = = ≈ii

Nn nN

=

33

930 498 110,3 1114200

Nn nN

= = = ≈

Tamaño final

500

(redondear por exceso)

• Asignación óptima:

o Caso de la media y del total:

11150 4000 471 87,5 8824760000

n ×= = ≈

22160 6000 471 246,5 24724760000

n ×= = ≈

1

i ii K

i ii

Nn nN

σ

σ=

=∑

3930 8000 471 141,5 14224760000

n ×= = ≈

Tamaño final

477

(redondear por exceso)


28

Como puede observarse, el reparto difiere significativamente, ampliando especialmente el número de

cuestionarios del grupo 3, que es el de mayor variabilidad y, por tanto, más difícil de predecir el valor

del parámetro a estimar, y reduciendo el del grupo 1, con menor dispersión. El incremento de

información en el mismo, a costa de una disminución de los que tienen menor variabilidad, muy

especialmente del primero, hace que la estimación sea más precisa.

Intervalos para la media, el total y la proporción:

El procedimiento para obtener los intervalos de confianza sigue siendo básicamente el mismo, como

es lógico. Una vez hechas las correspondientes estimaciones por puntos, el problema será calcular las

correspondientes estimaciones de las varianzas de cada uno de los estadísticos. Para la media y la

proporción, se llega fácilmente a las siguientes expresiones:

• Media (estimador y su varianza):

2 2 22

1 1

1 1ˆ ˆ( ) ( )K K

i i x i xii iVar x Var N x N

N Nσ σ

= == = =∑ ∑

siendo 2

2 ˆˆi

i i ix

i i

s N nn N

σ −=

• Proporción (estimador y su varianza):

2 2 2ˆ ˆ2

1 1

1 1ˆ ˆ ˆ ˆ( ) ( )K K

i i p i pii iVar p Var N p N

N Nσ σ

= == = =∑ ∑

siendo 2ˆ

ˆ ˆ ( - )ˆ( -1)

i i i ipi

i i

p q N nn N

σ =

Una vez obtenidos los valores de las varianzas para la media muestral o para la proporción, los

intervalos se establecen exactamente igual que en muestreo aleatorio simple. Se toma la estimación

por puntos (media o proporción en la muestra obtenida) como pivote del intervalo y se le suma y resta

el error; es decir, el producto de z (por ejemplo, 1,96 para una confianza del 95%) por la desviación

estándar del estadístico correspondiente ( ˆixσ o ˆˆ

ipσ , respectivamente). El intervalo para el total es el

de la media multiplicado por N, como siempre. Los cálculos son algo más farragosos, puesto que hay

que estimar previamente las varianzas para un muestreo simple en cada uno de los estratos, pero, en

1 1

Población: Estimador:1 1

K K

i i i ii i

N x N xN N

µ µ= =

= → =∑ ∑

1 1

Población: Estimador:1 1ˆ ˆ

K K

i i i ii i

p N p p N pN N= =

= → =∑ ∑


29

esencia, se trata del mismo procedimiento. Las fórmulas de dichos intervalos serán, al fin y al cabo, las

mismas que para el muestreo aleatorio simple, pero tomando en consideración la diferente forma en la

que hay que obtener la varianza del estimador, tal como se ha expuesto en el párrafo anterior.

Ejercicio:

Tomando el reparto proporcional, establecer un intervalo de confianza para la facturación media,

suponiendo que en la muestra finalmente seleccionada las medias y correspondientes desviaciones

típicas, así como las proporciones en la muestra para los estratos fueron las siguientes:

1 2 3

1 2 3

1.150; 2.120; 930; 4.20016.628; 21.593; 32.7111 2 34.187; 6.195; 8.2431 2 3

ˆ ˆ ˆ0,80; 0,85; 0,70

N N N Nx x x

s s s

p p p

= = = == = =

= = =

= = =

Solución:

Para comenzar, se obtiene la estimación puntual de la media:

( )1

1 1 = 1.150 16.628 2.120 21.593 930 32.711 22.695,384200

K

i ii

x N xN =

= × + × + × =∑

Como segundo paso, se calculan las estimaciones de las desviaciones típicas para cada uno de los

estratos:

1

2(137 4187 ) / 136 (1150 - 137 )ˆ 336, 97137 1150xσ ×

= =

2

2(252 6195 ) / 251 (2120 - 252)ˆ 367, 05252 2120xσ ×

= = 2

2 ˆ ( - )ˆ i i ixi

i i

s N nn N

σ =

3

2(1 1 1 8 2 4 3 ) / 1 1 0 ( 9 3 0 - 1 1 1)ˆ 7 3 7 , 5 51 1 1 9 3 0xσ ×

= =

Y la varianza del estimador de la media será, por tanto:


30

2 2 2 2 2 2 2 2 22 2

1

1 1ˆ ˆ (1150 336,97 2120 367,05 930 737,55 ) 69.510,644200

K

x i xiiN

Nσ σ

== = × + × + × =∑

Así, pues, la desviación estándar del estimador de la media es ˆ xσ = 263,65. Con este dato, el

intervalo de confianza del 95% sería:

1 / 2 1 / 2ˆ ˆx xx z x zα ασ µ σ− −− ≤ ≤ +

22695,38 1,96 263,65 22695,38 1,96 263,65µ− × ≤ ≤ + ×

22178,63 23212,13µ≤ ≤

(22695,38 516,75)µ∈ ±

La facturación media está entre los 22.178,63 y 23.212,13 euros con una confianza del 95%.

Por último, digamos que el intervalo para la proporción sigue el mismo esquema del que acabamos de

ver para la media (para el del total, bastaría con multiplicar el de ésta por N). La única complicación

que puede presentar es la laboriosidad que hemos visto implica su cálculo.

Documents

MUESTREO EN POBLACIONES FINITASecaths1.s3.amazonaws.com/practicaprofesionalizante3/389994613... · proceso un componente de gran ayuda para el ... 2.-Determinar la población a muestrear