14
1 GRADO EN VETERINARIA DEPARTAMENTO DE ESTADÍSTICA E I.O. 2013-2014 IV Curso Cero Introducción a la Estadística CONTENIDOS 1. Panorámica general y ejemplos. 2. Poblaciones, variables y datos. 3. Descripción, modelización e inferencia. 4. Tarea propuesta: glosario y búsqueda bibliográfica. Fernando Muñoz Valcárcel Coordinador de Estadística y Empresa [email protected]

Introducción a la Estadística - UM

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Introducción a la Estadística - UM

1

GRADO EN VETERINARIA DEPARTAMENTO DE ESTADÍSTICA E I.O.

2013-2014

IV Curso Cero

Introducción a la Estadística

CONTENIDOS

1. Panorámica general y ejemplos.

2. Poblaciones, variables y datos.

3. Descripción, modelización e inferencia.

4. Tarea propuesta: glosario y búsqueda bibliográfica.

Fernando Muñoz Valcárcel Coordinador de Estadística y Empresa [email protected]

Page 2: Introducción a la Estadística - UM

2

1. Panorámica general y ejemplos.

1.1. Dos visiones de la estadística.

Antes de introducirnos en los conceptos propios de la materia, queremos presentar la visión que de la misma tenían dos especialistas procedentes de distintas áreas científicas (matemáticas y biología), y que expusieron en algunos de sus manuales docentes. (Las citas aparecen en cursiva, y las referencias a los manuales de los que se transcriben se encuentran en la sección final.)

(a) G.Calot. “Históricamente, la Estadística ha comenzado por ser descriptiva. Ha sido necesario, ante todo, acumular información, criticarla, ponerla en condiciones, analizarla, sintetizarla. Posteriormente, después de haberse comprobado analogías, descubierto permanencias estadísticas, reconocido un cierto número de distribuciones tipo, observado algunas formas de dependencias estructurales bastante generales, la Estadística llegó a ser explicativa, gracias, en particular, a la aportación del Cálculo de Probabilidades. La teoría se apoya en el conocimiento de la realidad, no en la forma bruta en que se presenta, con su prodigalidad, su eventualidad, la ausencia de significado del suceso elemental, sino al contrario en la forma global, examinada, resumida, reducida por una fecunda simplificación a la dimensión del espíritu humano, que puede entonces descifrar los mecanismos, a la vez para saber, comprender, prever y ejecutar. La Estadística Descriptiva no es una teoría, sino un modelo. Su fin no es explicar, sino al contrario, describir con los medios apropiados, separar lo esencial, resumirlo y medirlo. Es el instrumento del conocimiento del fenómeno colectivo que escapa por su extensión, su diversidad y su inconstancia a la comprensión directa e individual.”

(b) RR.Sokal y F.J.Rohlf. “Todas las ciencias deben comenzar por una fase descriptiva. Hasta que los hechos puedan ser descritos exactamente como son, un análisis de sus causas es prematuro. La pregunta ¿Qué? es anterior a la pregunta ¿Cómo? La aplicación de la Estadística a la Biología ha seguido estas tendencias generales. Antes de que Francis Galton hubiera empezado a pensar en las relaciones entre las alturas de padres y las de sus hijos tuvo que proveerse de herramientas adecuadas para la medida y la descripción de las estaturas de una población. De manera análoga, a menos que conozcamos algo de la distribución normal del contenido del azúcar en la sangre de una población de conejos de Indias, así como sus variaciones de día en día e incluso dentro del mismo día, no seremos capaces de averiguar el efecto producido por una cierta dosis de una droga sobre esta variable. En una gran muestra parecería obviamente tedioso tener que estudiar el material a partir de cada una de las observaciones individuales. Necesitamos alguna forma de resumen que nos permita trabajar con los datos de una forma sencilla, así como compartir nuestros descubrimientos con otros. Un histograma o diagrama de barras de una distribución de frecuencias sería uno de estos tipos de resúmenes. De todas maneras, para la mayoría de los proyectos es necesario un resumen numérico a fin de describir de manera concisa y exacta las propiedades de la distribución de frecuencias observadas. Las cantidades que componen tal resumen reciben el nombre de estadísticos descriptivos”.

Page 3: Introducción a la Estadística - UM

3

1.2. Casos concretos.

Caso 1. Un veterinario dirige una clínica de pequeños animales. Por la clínica pasan anualmente unos 2000 animales, de cada uno de los cuales existe un historial clínico conteniendo información de muy distinta naturaleza: especie, raza, edad y peso en distintos años, fechas de vacunaciones, enfermedades padecidas y sus correspondientes tratamientos, entre otros. Caso 2. Un ambientalista, es responsable del área de análisis de los impactos ambientales, en una ONG dedicada al estudio y denuncia de las causas de la degradación de la atmósfera en zonas metropolitanas. En cada situación en la que trabaja la organización, el ambientalista tiene que analizar multitud de datos procedentes de las mediciones de SO2, Amoníaco, CO2, y otros factores contaminantes, en un determinado número de lugares de la zona estudiada, así como de los agentes que contaminan (particulares, empresas, explotaciones agrícolas, etc.). Los dos tienen en común la necesidad de sistematizar y analizar grandes cantidades de datos, buscando regularidades y pautas, dentro del desorden en el que se encuentran los datos, que les permitan entender los fenómenos concretos que están estudiando, con el fin de poder realizar inferencias sobre el comportamiento de las poblaciones de las que proceden sus datos, o encontrar modelos matemáticos que les permitan explicar las regularidades encontradas. Así, por ejemplo, el veterinario puede estar interesado en la relación causa-efecto entre la administración de un fármaco y la curación del animal tratado. El ambientalista necesitará conocer si los niveles de SO2 son relevantes en el incremento de las enfermedades pulmonares de personas de una determinada ciudad. O, el biólogo querrá poder establecer relaciones entre las especies presentes en distintas zonas geográficas. A lo largo de esta introducción a la Estadística veremos algunas respuestas al tratamiento de los datos en situaciones iguales o parecidas a las que se han descrito más arriba. En Estadística descriptiva se verán los métodos que se utilizar regularmente para organizar la información básica de los datos de que dispongamos y presentarlos de forma accesible para su comprensión global. En el Cálculo de probabilidades se presentarán algunos modelos teóricos que nos servirán para explicar en multitud de situaciones las regularidades encontradas en el análisis descriptivo previo, de una parte, y para dar soporte teórico a las leyes inferenciales que se estudiarán, finalmente, en Inferencia estadística.

Informalmente: entenderemos como experimento todo proceso planificado de búsqueda y obtención de información relativa a cualquier conjunto de objetos bien definidos, con el objetivo de analizar o explicar algunas propiedades nuestro interés del conjunto de objetos. Cada ítem de información obtenida recibirá el nombre de dato, y la serie de todos los datos recopilados se denominará muestra.

1.3. Objetivos generales de la Estadística.

(1) Sistematización de la búsqueda y obtención de los datos: Diseño experimental y Técnicas de muestreo, respectivamente.

(2) Agrupamiento, representación y reducción y de los datos pertenecientes a una o más muestras: Estadística descriptiva.

(3) Obtención de un modelo (explicativo o predictivo) a través la realización de inferencias: Inferencia Estadística.

Page 4: Introducción a la Estadística - UM

4

2. Poblaciones, variables y datos. Con el fin de poder entender el significado profundo de los objetivos básicos de la estadística es imprescindible conocer los términos y conceptos que nos permitan exponer aquellos de forma precisa y sin ambigüedades. Esto es lo que intentaremos conseguir en los tres apartados siguientes. 2.1. Poblaciones y sucesos. Entenderemos como población objetivo el mayor conjunto de elementos de los cuales deseemos obtener información en un periodo de tiempo determinado. Una población puede estar formada por personas, animales no humanos u objetos inanimados. Cuando por limitaciones temporales o económicas no sea posible acceder a todos los elementos de la población nos limitaremos a estudiar a aquellos potencialmente accesibles: el conjunto de tales elementos recibe el nombre de población accesible o, simplemente, población. El conjunto de todos los animales que pasaron por el Hospital Clínico Veterinario durante el período 2000 - 2012 constituye una población; las temperaturas medias anuales en Murcia en el periodo 1990 – 2010 constituyen otra población; o, la colección de todas las posibles placas de cultivo conteniendo una colonia de bacterias e.coli constituye otra. Es útil visualizar y dar nombre a una población, a una parte de la misma y a cada uno de los elementos que constituyan la población integra o alguna de sus parte. Para ello, utilizaremos un rectángulo para representar a la población, a la que llamaremos Ω, un círculo contenido Ω para representar una de sus partes, a la que llamaremos suceso o clase A, y un punto para representar un elemento cualquiera de Ω (o de A, eventualmente), al que llamaremos ω. En el gráfico siguiente aparecen representados: la población Ω = perros que pasaron por el Hospital Clínico Veterinario en 2010, uno de sus elementos ω (uno cualquiera de los animales de la población, y los sucesos (círculo y cuadrado blancos) formados, respectivamente, por aquellos animales de una determinada raza (caniche) o de un determinado peso (inferior a 5 kilogramos), por ejemplo. Gráfico 1

Ω

ω

A

Page 5: Introducción a la Estadística - UM

5

2.2. Ensayos, variables y modalidades.

El objetivo último del estudio de una población es el de conocer el comportamiento de sus elementos colectivamente, es decir: averiguar lo que tienen en común (o los diferencia), y las tendencias o pautas que siguen, por ejemplo. En el caso de la Clínica, nuestros intereses podrían ser tan distintos como: averiguar la distribución de especies, analizar el comportamiento de los pesos o edades de los animales de una cierta especie, o investigar el tiempo dedicado a cada consulta. En cualquiera de los 2 casos que hemos descrito en 1.2., para realizar el análisis de la población correspondiente, realizaremos un proceso común: seleccionaremos uno a uno cada elemento de la población (o de una de sus partes), aplicaremos algún mecanismo de medición a cada elemento (como una báscula para medir el peso, o la simple observación para determinar la especie), y obtendremos un resultado. En términos más precisos:

• Un método de selección de un elemento concreto de una población recibe el nombre de un ensayo o una prueba.

• El proceso consistente en aplicar algún mecanismo de medición u

observación a cada elemento de la población, seleccionado tras un ensayo) recibe el nombre de variable aleatoria y se representa por una letra mayúscula X o Y o Z.

• Cada resultado que se pueda obtener para cada elemento, tras

seleccionarlo y aplicarle la variable considerada, pertenece a un conjunto predeterminado y conocido, cada uno de cuyos elementos recibe el nombre de modalidad de la variable. El conjunto de todas las modalidades se representará por T.

• Para un elemento ω y una variable X la modalidad obtenida al aplicar X a ω

se representa por medio del símbolo X(ω) = t ∈T. Es interesante comparar los anteriores conceptos y definiciones con los que se utilizan en otros campos de la Matemática o de otras ciencias, como la Física o la Química, para empezar a delimitar los términos aleatorio (o no determinista) y determinista (o no aleatorio), así como la frontera entre ambos. Para ello, vamos a analizar los siguientes ejemplos. Ejemplo 1. Tratamos de calcular el espacio recorrido e por un cuerpo situado en el vacío dentro del campo gravitatorio terrestre en un intervalo de tiempo de longitud t.

Si utilizamos la fórmula e = 1

2.g.t2 de la cinemática elemental, en la que g es la

constante de la gravitación g = 9,8 m/sg2, si elegimos el valor t = 10 segundos

obtendremos que el cuerpo ha recorrido e = 1

2.9,8.102 = 490 metros.

En este caso: el ensayo ha consistido en la elección del valor t = 10 (de entre el infinito conjunto del intervalo [0, +∞)), y el método para obtener el resultado e = 490 ha consistido, simplemente, en aplicar la fórmula correspondiente. Este es un ejemplo típico de cualquier fenómeno que podamos analizar de forma determinista: entre dos características cuantificables x e y del fenómeno (t y e,

Page 6: Introducción a la Estadística - UM

6

respectivamente, en el ejemplo) existe una función y = f(x) (e = 1

2.g.t2 en el ejemplo)

que nos permite obtener el valor de y correspondiente a cada valor de x. Sí, como es habitual, llamamos variable independiente a x (sus valores los podemos elegir a nuestra conveniencia), y variable dependiente a y (sus valores están totalmente determinados por la función f), el gráfico cartesiano siguiente esquematiza las anteriores consideraciones: Gráfico 2

A efectos de poder contrastar este caso con el que vamos a ver en el ejemplo siguiente, observemos que si elegimos un número cualquiera de instantes t1 < t2 < t3,..,

los valores e1 < e2 < e3,... resultan totalmente determinados por la fórmula ei = 1

2.g.ti

2,

para los valores de i seleccionados, y cada “ensayo” consiste, simplemente, en la realización de los cálculos indicados en la fórmula. Ejemplo 2. Disponemos de una moneda homogénea (sus dos caras tienen la misma posibilidad de salir al realizar un lanzamiento) cuyas caras se denominan C y F. La población es, por tanto, Ω = ω1 = C, ω2 = F. Un ensayo consiste en un lanzamiento de la moneda. Una variable aleatoria X puede ser, entre otras, la función X(ω1) = X(C) = 1, X(ω2) = X(F) = 2. El conjunto de modalidades de la variable X es, por tanto, T = t1 = 1, t2 = 2. La característica fundamental para que denominemos aleatorio al lanzamiento de la moneda es que no podemos conocer el resultado del mismo antes de su realización. (Sinónimo de aleatorio es el término estocástico.) Entonces, si no podemos anticipar el resultado que se obtendrá tras cada ensayo aleatorio, ¿qué conocimientos podemos esperar obtener cuando realizamos ensayos de esta naturaleza?

Page 7: Introducción a la Estadística - UM

7

Antes de responder a esta pregunta, veamos como podemos visualizar la variable: Gráfico 3

FC

2,0

1,5

1,0

0,5

0,0

Ω

T =

1, 2

Gráfico de la variable X(w) = t

Ejemplo 3. Supongamos un juego con dos jugadores, Ana y David, en el que Ana paga a David 1 euro cada vez que sale cara, mientras que recibe 1 euro si sale cruz. Supongamos que ambos deciden realizar 4 lanzamientos antes de dar por terminado el juego y realizar el balance de beneficios y pérdidas respectivas. Los 16 resultados posibles de cada serie de lanzamientos son: (1, 1, 1, 1), (1. 1. 1, 2), (1, 1, 2, 1), (1, 2, 1, 1), (2, 1, 1, 1), (1, 1, 2, 2), (1, 2, 1, 2), (1, 2, 2, 1), (2, 1, 1, 2), (2, 1, 2, 1), (2, 2, 1, 1), (1, 2, 2, 2), (2, 1, 2, 2), (2, 2, 1, 2), (2, 2, 2, 1), (2, 2, 2, 2). Las ganancias de Ana son, pues, respectivamente: 4, 3, 3, 3, 3, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1 y 0 euros. Entonces, Ana puede ganar 4 euros en 1 ocasión, 3 euros en 4 ocasiones, 2 euros en 6 ocasiones, 1 euro en 4 ocasiones y 0 euros en 1 ocasión. En términos gráficos: Gráfico 4

43210

6

5

4

3

2

1

t = posibles ganancias de Ana

f = número de veces que puede ganar x euros

Gráfico de f frente a t

Page 8: Introducción a la Estadística - UM

8

Podemos esperar que si la moneda es homogénea, se presenten los siguientes resultados:

o si el número de jugadas es pequeño n = 4, en el ejemplo), la ganancia de uno de los jugadores será superior a la de su contrario en cada serie concreta;

o a medida que el número de jugadas n aumenta, la ganancia de cada uno será más semejante a la del otro,

o en una serie ilimitada n de jugadas ambos jugadores ganarán lo mismo. Resulta, entonces, que aunque el resultado de cada jugada individual sea de naturaleza aleatorio, el análisis de todas las posible jugadas de un determinado (n = 4, como en nuestro ejemplo), muestra unas pautas deterministas, de una parte, y el incremento del número de n jugadas puede llevar al conocimiento de nuevas pautas. Recapitulando: las principales diferencias y semejanzas entre los casos descritos en los dos ejemplos, en términos conceptuales, son:

• Mientras que las variables e y t del ejemplo 1 son numéricas, y la función f es la ligazón entre ambas, en el ejemplo 2 tanto t como ω pueden ser numéricas o alfanuméricas (letras: T = a, b, c,..., o símbolos T = &, $, #,....) y la variable X es la función que relaciona elementos con modalidades t = X(ω).

• En el ejemplo 1 cada valor numérico de la variable x determina exactamente

uno o más valores numéricos de la variable y; mientras que en el ejemplo 2 para cada “valor” ω ∈ Ω solo podemos conocer, a priori, que t = X(ω) será uno de los elementos del conjunto de modalidades T = t1, t2, t3,......

• Aunque un fenómeno sea de naturaleza aleatoria en cada uno de los ensayos

individuales que se realicen sobre el mismo, es posible encontrar leyes deterministas que nos permitan explicar regularidades existentes en sucesivas realizaciones.

2.3. Modalidades y datos. Muestras y muestreo.

Cuando las variables son cualitativas o cuantitativas discretas el conjunto de modalidades se representa por T = t1, t2, t3,…., tk, y por T = [a, b] cuando es cuantitativa continua, siendo a y b, respectivamente, los valores mínimo y máximo que puede alcanzar la variable. Ejemplo 4. Veamos algunos ejemplos utilizando los elementos del Hospital Clínico, tomando como población la formada por todos los gatos tratados en 2009.

• Para estudiar la distribución por sexos la variable será cualitativa nominal, y el conjunto T estará formado por solo dos elementos: T = hembra, macho.

• Si se trata de averiguar las preferencias de los gatos por determinados tipos de

pienso la variable será cualitativa ordinal, y el conjunto T estará formado por tantas modalidades como tipos de pienso entren en el estudio: T = 1, 2,…, k, siendo “1” una forma de abreviar “pienso tipo 1”, etc.

• Cuando se trate de averiguar la distribución del número de cachorros vivos en

cada parto la variable será cuantitativa discreta, y el conjunto de modalidades dependerá de la experiencia previa que se tenga sobre las variedades en

Page 9: Introducción a la Estadística - UM

9

estudio: si sabe que en cada camada no nacen más de 8 animales, el conjunto de modalidades será T = 0, 1, 2,…, 8.

• Para el estudio de los pesos la variable será cuantitativa continua, ya que en

función del aparato de medida de que dispongamos el peso podrá ser estimado con mayor o menor número de cifras decimales (5, 5.4, 5.47,...). En este caso, el conjunto de modalidades será un intervalo de la recta real: T = [0, 30], si sabemos que el peso máximo que pueden alcanzar los gatos es de 30 kilogramos.

Podemos esquematizar, ahora, el proceso completo por el que pasamos desde que realizamos un ensayo, realizamos una observación y obtenemos un resultado: Grafico 4

Así, al elemento ω1 la variable X le ha asignado la modalidad t2, que llamaremos observación x1, al elemento ω2 la variable X le ha asignado la modalidad tk, que llamaremos observación xk, etc. Cuando se ha realizado una serie de 4 ensayos a cada elemento ωi de la población le corresponderá una modalidad tr del conjunto T: X(ωi) = tr. Así, si se han seleccionado los elementos ω1, ω2, ω3 y ω4, por ejemplo, las modalidades obtenidas pueden ser t7, t4, t2 y t1, respectivamente. Es habitual escribir estos resultados de la forma siguiente:

X(ω1) = t7 = x1, X(ω2) = t4 = x2, X(ω3) = t2 = x3, X(ω1) = t1 = x4. De esta manera, el conjunto de las 4 modalidades tras los ensayos, t7, t4, t2, t1, pasa a denominarse (x1, x2, x3, x4). Escritos los resultados de la última forma, cada uno de ellos recibirá el nombre de observación o dato, y el conjunto de los 4 datos, (x1, x2, x3, x4), se denominará una muestra.

Ω

ω1

ω2

ω3

ωn

_____.____.____.____._____._____

t1 t2 t3…. ti…….. tk

Page 10: Introducción a la Estadística - UM

10

Observemos que la diferencia fundamental entre modalidad y dato no está en la nomenclatura que empleemos para denominarlo, sino en el hecho de que un mismo elemento (sea numérico o alfanumérico) se denomina modalidad antes de realizar la prueba, y se denomina dato después de realizarla. En resumen:

• El conjunto de modalidades T = t1, t2, t3,…., tk, (si la variable es discreta), o T = [a, b], (si es continua), incluye todos los posibles valores que puede tomar una variable X al realizar un número cualquiera de n ensayos.

• La muestra (x1, x2, x3,......, xn) es el conjunto de las modalidades que ha tomado la variable tras la realización de n ensayos, siendo cada xi, para 1 < i < n, igual a alguno de los valores tr, para 1 < r < k.

Con carácter general: Llamamos muestra de tamaño n al conjunto de observaciones o datos obtenidos tras la realización de n pruebas. Una muestra se representa como un conjunto ordenado de valores en el que el primero es el primer dato, el segundo es el segundo dato, etc.:

Muestra = M = 1 2 i n(x ,x ,...,x ,...x )

El conjunto de todas las muestras posibles del mismo tamaño n se denomina espacio muestral y se representa con M(n). (En general, cuando se esté trabajando con muestras un tamaño determinado se omitirá en superíndice, escribiéndose M simplemente.) Observemos que el conjunto de elementos ω1, ω2,…, ωn es un subconjunto de la población Ω, mientras que la muestra es un punto del espacio muestral. Ejemplo 4. Supongamos que X es una variable cuyo conjunto de modalidades es T = 1, 2, 3, 4. Podemos visualizar las modalidades como 4 bolas situadas en una caja y numeradas de 1 a 4. Cada prueba consistirá en extraer una bola, anotar su número y devolverla a la caja. Si realizamos dos pruebas consecutivas obtendremos una muestra de tamaño 2, que representaremos por (x1, x2). El espacio muestral estará constituido, por tanto, por los 16 puntos del conjunto M(2) = (1, 1), (1, 2),....., (3, 4), (4, 4), cuya representación gráfica es: Gráfico 5

Page 11: Introducción a la Estadística - UM

11

Ejemplo 5. Un experimento consiste en la medición del peso de los animales de una especie cuyo peso máximo es de 4 kilogramos. En este experimento: (a) la población Ω estará constituida por todos los animales de la especie considerada; (b) la variable X representará el proceso de medición del peso de cada animal, y su conjunto de de modalidades T será el conjunto de todos los números comprendidos entre 1 y 4: T = [1, 4], (c) las muestras de tamaño 2 estarán constituidas por pares de números comprendidos entre 1 y 4, el primero x1 correspondiente al primer animal pesado, y el segundo x2 correspondiente al segundo animal: M = (x1, x2), y (d) el espacio muestral M(2) estará formado por todos los puntos del cuadrado [1, 4]x[1, 4] que se muestra en la siguiente figura. Gráfico 6

[5] Muestreo. Tipos de Muestreo. Denominamos muestreo al proceso de obtención de muestras. Naturalmente cada muestra de tamaño n es el resultado de la realización de una serie de n ensayos sobre los elementos de una misma población, por lo que la forma en que se realizan los ensayos determinará la constitución final de la muestra. Tres características que pueden o no tener los ensayos nos permitirán caracterizar los distintos tipos de muestreo:

1. Que realizado un ensayo, antes de realizar el siguiente, la población es la misma que antes de realizar el ensayo previo.

2. Que todos los elementos de la población tengan la misma posibilidad de ser

elegidos antes de la realización del ensayo. 3. Que antes de realizar el ensayo y obtener un elemento ω de la población, el

valor X(ω) solo pueda ser una determinada modalidad o, por el contrario, pueda ser una de entre un conjunto de modalidades.

• Muestreo aleatorio simple (m.a.).

Cuando todos los elementos de de la población tienen la misma posibilidad de ser elegidos denominaremos al proceso de muestreo muestreo aleatorio. Puede ser de dos tipos: con y sin reemplazamiento.

o Un muestreo aleatorio se llama con reemplazamiento cuando tras la realización de una prueba el elemento obtenido por la realización de la misma es devuelto

Page 12: Introducción a la Estadística - UM

12

a la población antes de la realización de la siguiente prueba. Esto es implica que la población no cambia tras la realización de cada prueba.

o Un muestreo aleatorio se llama sin reemplazamiento cuando tras la realización de cada prueba el elemento obtenido por la realización de la muestra no es devuelto a la población antes de la siguiente prueba. Esto implica que cuando se va a realizar el i-ésimo ensayo, la población sobre la que se realiza es la original menos todos los elementos obtenidos en los ensayos 1, 2, 3, ..., (i-1).

Veamos algunas situaciones que mostrarán las diferencias y coincidencias entre uno y otro tipo de muestreo. Situación 1. Disponemos de una caja en la que hay N bolas numeradas de 1 a N. Si retiramos al azar una bola de la caja, anotamos su número (k, por ejemplo) y devolvemos la bola a la caja el muestreo es con reemplazamiento. Es claro que, actuando de esta forma la población no cambia de composición entre una prueba y la siguiente. Naturalmente el número obtenido es el primer elemento de nuestra muestra y lo representaremos por x1 = k. La repetición de este procedimiento n veces nos proporciona una muestra aleatoria sin reemplazamiento de tamaño n. Por construcción, n puede tomar cualquier valor arbitrariamente grande: tanto como lo sea el número de ensayos que realicemos. Situación 2. Con la misma caja, supongamos que tras extraer cada bola esta no es devuelta a aquella. Si el resultado del ensayo es la bola de número k, como en la situación anterior, cuando vayamos a realizar la segunda prueba la población ha cambiado: contiene los elementos de la población inicial menos la bola numerada k. Por tanto los nuevos (k-1) elementos de la población no tienen la misma posibilidad de ser elegidos que los de la población inicial (aunque si la tengan entre ellos). En este caso el muestreo es sin reemplazamiento, y las muestras obtenidas se llaman muestras aleatorias sin reemplazamiento. Por construcción, estas muestras no pueden tener un tamaño n superior a N, ya que tras N ensayos no quedará ningún elemento en la población. Situación 3. Supongamos ahora que disponemos de un dado cuyas caras están numeradas de 1 a 6. Cada ensayo consiste en un lanzamiento del dado y la posterior anotación del resultado obtenido. En este caso no podemos distinguir entre muestreo con o sin reemplazamiento, puesto que tras cada ensayo la población es exactamente la misma que antes de proceder al siguiente ensayo. Situación 4. Si la población es muy numerosa, por ejemplo la constituida por los 6,500 millones de habitantes del planeta Tierra, y la prueba consiste en la elección al azar de una persona y la determinación de su peso, a todos los efectos prácticos, la devolución o no de esa persona a la población original no va a afectar significativamente los resultados de las siguientes pruebas. De estas 4 situaciones se pueden extraer dos características de los procesos de toma de muestras aleatorias:

a) Si las poblaciones son finitas el tipo de muestreo condiciona la estructura de las muestras obtenidas muestreo (con o sin reemplazamiento).

b) Si las poblaciones son infinitas, el tipo de muestreo no tendrá una influencia significativa en las muestras obtenidas.

c) En la medida en que estudiamos poblaciones finitas de tamaño creciente, la influencia del tipo de muestreo irá cambiando; tendrá mucha importancia

Page 13: Introducción a la Estadística - UM

13

mientras el tamaño sea relativamente pequeño, e irá disminuyendo a medida que el tamaño de la población crece.

En general, pues, en un experimento aleatorio destacan tres características básicas:

I. Se puede repetir un gran número de veces bajo un conjunto de condiciones estables (condición de repetibilidad indefinida).

II. En cada prueba del experimento no se puede predecir el resultado que se va a obtener sino la pertenencia del mismo a un conjunto determinado de posibles resultados (condición de azar).

III. La frecuencia relativa de cada resultado, el cociente de dividir el número de veces que se ha repetido por el número total de pruebas realizadas, tiende a estabilizarse en torno a un número fijo cuando el número de pruebas crece indefinidamente (condición de regularidad estadística).

(El Cálculo de Probabilidades, nos proporcionará el modelo teórico necesario para modelizar estas tres condiciones.)

• Muestro determinista. En otros casos, distintos de los descritos en las cuatro situaciones, los resultados de un experimento están totalmente determinados por las condiciones de realización del mismo. Veremos esto en el siguiente ejemplo. Situación 5. Supongamos que nuestro experimento consiste en la fuerza F de atracción gravitatoria entre dos cuerpos de masas M y m que distan una distancia d.

Según la ley de Newton esta fuerza tomará el mismo valor 2

M.mF G.

d= , siempre que

mantengamos las masas M y m y la distancia d que la separa. (Naturalmente, las imperfecciones del aparato de medida o los errores de medición, por parte del experimentador, nos conducirán al repetir el experimento a distintos valores F1, F3, F3,...., cuyas diferencias serán imputadas a cualquiera de las causas de error citadas, o a una combinación de ambas, y se denominarán errores en la medición.) La comparación entre las 5 situaciones anteriores permite realizar varias conclusiones de carácter general.

• En un experimento aleatorio, es su propia naturaleza la que nos impide afirmar que su repetición en las mismas exactas condiciones conducirán a un único resultado. Solo podemos conocer a priori, que el resultado obtenido será un valor perteneciente a un conjunto de posibles resultados (modalidades), y solo podremos conocer a posteriori, tras la realización del ensayo el valor concreto.

• En un experimento determinista, iguales condiciones iniciales conducen a un

mismo resultado, salvo las diferencias señaladas denominadas errores en la medición.

• La situación 4 conduce a una interesante reflexión: la diferencia entre ambos

tipos de experimentos es, en ocasiones difusa y en esta influye el hecho de que el muestreo sea aleatorio. En efecto: el peso de una persona es (dentro de ciertos límites temporales) una cantidad bien definida. El hecho de que hayamos catalogado el experimento como aleatorio se debe a que hemos obtenido a una persona concreta por medio del azar y, a priori, solo sabíamos

Page 14: Introducción a la Estadística - UM

14

que el resultado de la medición sería un número comprendido en un conjunto determinado de números: los comprendidos entre 50 y 250 centímetros, por ejemplo.

• Por el contrario, cuando aplicamos el experimento de la situación 5 a partículas subatómicas, las diferencias encontradas pueden deberse no solo a los aparatos de medición o a los errores en las mediciones, sino a un comportamiento azaroso de la naturaleza a tales escalas.

3. Descripción, modelización e inferencia.

3.1. Tratamiento de una muestra. 3.2. Modelos probabilísticos usuales. 3.3. Selección de un modelo. 3.4. Inferencia estadística. 4. Tarea propuesta: glosario dinámico y búsqueda bibliográfica.