26
1 Estadística Elementos Introductorios

1 Estadística Elementos Introductorios. 2 Definición La Estadística es la tecnología de la Sistematización, recogida, ordenación y presentación de los

Embed Size (px)

Citation preview

Page 1: 1 Estadística Elementos Introductorios. 2 Definición La Estadística es la tecnología de la Sistematización, recogida, ordenación y presentación de los

1

Estadística

Elementos Introductorios

Page 2: 1 Estadística Elementos Introductorios. 2 Definición La Estadística es la tecnología de la Sistematización, recogida, ordenación y presentación de los

2

DefiniciónLa Estadística es la tecnología de la

• Sistematización, recogida, ordenación y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de

• deducir las leyes que rigen esos fenómenos,

• y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones.

Descrip

tiva

Probabilidad

Inferencia

Page 3: 1 Estadística Elementos Introductorios. 2 Definición La Estadística es la tecnología de la Sistematización, recogida, ordenación y presentación de los

3

Población y muestra

Población (‘population’) es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). Normalmente es demasiado grande para poder

abarcarlo.

Muestra (‘sample’) es un subconjunto suyo al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones) Debería ser “representativo” Esta formado por miembros “seleccionados” de la

población (individuos, unidades experimentales).

Page 4: 1 Estadística Elementos Introductorios. 2 Definición La Estadística es la tecnología de la Sistematización, recogida, ordenación y presentación de los

4

Variables Una variable es una característica observable que varía entre los

diferentes individuos de una población. La información que disponemos de cada individuo es resumida en variables.

En los individuos de la población colombiana, de uno a otro es variable:

El grupo sanguíneo {A, B, AB, O} Var. Cualitativa

Su nivel de felicidad “declarado” {Deprimido, Ni fu ni fa, Muy Feliz} Var. Ordinal

El número de hijos {0,1,2,3,...} Var. Numérica discreta

La altura {1’62 ; 1’74; ...} Var. Numérica continua

Page 5: 1 Estadística Elementos Introductorios. 2 Definición La Estadística es la tecnología de la Sistematización, recogida, ordenación y presentación de los

5

CualitativasSi sus valores (modalidades) no se pueden asociar naturalmente a un número (no se pueden hacer operaciones algebraicas con ellos)

Nominales: Si sus valores no se pueden ordenar Sexo, Grupo Sanguíneo, Religión, Nacionalidad, Fumar (Sí/No)

Ordinales: Si sus valores se pueden ordenar NBI, Grado de satisfacción, Intensidad del dolor

Cuantitativas o NuméricasSi sus valores son numéricos (tiene sentido hacer operaciones algebraicas con ellos)

Discretas: Si toma valores enteros Número de hijos, Número de cigarrillos, Num. de “cumpleaños”

Continuas: Si entre dos valores, son posibles infinitos valores intermedios. Altura, Presión intraocular, Dosis de medicamento administrado, edad

Tipos de variables

Page 6: 1 Estadística Elementos Introductorios. 2 Definición La Estadística es la tecnología de la Sistematización, recogida, ordenación y presentación de los

6

Los posibles valores de una variable suelen denominarse modalidades.

Las modalidades pueden agruparse en clases (intervalos) Edades:

Menos de 20 años, de 20 a 50 años, más de 50 años Hijos:

Menos de 3 hijos, De 3 a 5, 6 o más hijos

Las modalidades/clases deben forman un sistema exhaustivo y excluyente Exhaustivo: No podemos olvidar ningún posible valor de la variable

Mal: ¿Cuál es su color del pelo: (Rubio, Moreno)? Bien: ¿Cuál es su grupo sanguíneo?

Excluyente: Nadie puede presentar dos valores simultáneos de la variable

Estudio sobre el ocio Mal: De los siguientes, qué le gusta: (deporte, cine) Bien: Le gusta el deporte: (Sí, No) Bien: Le gusta el cine: (Sí, No) Mal: Cuántos hijos tiene: (Ninguno, Menos de 5, Más de 2)

Page 7: 1 Estadística Elementos Introductorios. 2 Definición La Estadística es la tecnología de la Sistematización, recogida, ordenación y presentación de los

7

Presentación ordenada de datos

0

1

2

3

4

5

6

7

Hombre Mujer

Las tablas de frecuencias y las representaciones gráficas son dos maneras equivalentes de presentar la información. Las dos exponen ordenadamente la información recogida en una muestra.

Género Frec.

Hombre 4

Mujer 6

Page 8: 1 Estadística Elementos Introductorios. 2 Definición La Estadística es la tecnología de la Sistematización, recogida, ordenación y presentación de los

8

Tablas de frecuencia

Nivel de felicidad

467 30,8 31,1 31,1

872 57,5 58,0 89,0

165 10,9 11,0 100,0

1504 99,1 100,0

13 ,9

1517 100,0

Muy feliz

Bastante feliz

No demasiado feliz

Total

Válidos

No contestaPerdidos

Total

Frecuencia PorcentajePorcentaje

válidoPorcentajeacumulado

Sexo del encuestado

636 41,9 41,9

881 58,1 58,1

1517 100,0 100,0

Hombre

Mujer

Total

VálidosFrecuencia Porcentaje

Porcentajeválido

Número de hijos

419 27,6 27,8 27,8

255 16,8 16,9 44,7

375 24,7 24,9 69,5

215 14,2 14,2 83,8

127 8,4 8,4 92,2

54 3,6 3,6 95,8

24 1,6 1,6 97,3

23 1,5 1,5 98,9

17 1,1 1,1 100,0

1509 99,5 100,0

8 ,5

1517 100,0

0

1

2

3

4

5

6

7

Ocho o más

Total

Válidos

No contestaPerdidos

Total

Frecuencia PorcentajePorcentaje

válidoPorcentajeacumulado

Exponen la información recogida en la muestra, de forma que no se pierda nada de información (o poca).

Frecuencias absolutas: Contabilizan el número de individuos de cada modalidad

Frecuencias relativas (porcentajes): Idem, pero dividido por el total

Frecuencias acumuladas: Sólo tienen sentido para variables ordinales y numéricas Muy útiles para calcular cuantiles (ver más adelante)

¿Qué porcentaje de individuos tiene menos de 3 hijos? Sol: 83,8 ¿Entre 4 y 6 hijos? Soluc 1ª: 8,4%+3,6%+1,6%= 13,6%. Soluc 2ª: 97,3% - 83,8% = 13,5%

Page 9: 1 Estadística Elementos Introductorios. 2 Definición La Estadística es la tecnología de la Sistematización, recogida, ordenación y presentación de los

9

Gráficos para v. cualitativas Diagramas de barras

Alturas proporcionales a las frecuencias (abs. o rel.)

Se pueden aplicar también a variables discretas

Diagramas de sectores (tortas, polares) No usarlo con variables ordinales. El área de cada sector es proporcional a su

frecuencia (abs. o rel.)

Pictogramas Fáciles de entender. El área de cada modalidad debe ser

proporcional a la frecuencia. ¿De los dos, cuál es incorrecto?.

Page 10: 1 Estadística Elementos Introductorios. 2 Definición La Estadística es la tecnología de la Sistematización, recogida, ordenación y presentación de los

10

Parámetros y estadísticos Parámetro: Es una cantidad numérica calculada sobre

una población

La altura media de los individuos de un país

La idea es resumir toda la información que hay en la población en unos pocos números (parámetros).

Estadístico: Ídem (cambiar población por muestra)

La altura media de los que estamos en este aula. Somos una muestra (¿representativa?) de la población.

Si un estadístico se usa para aproximar un parámetro también se le suele llamar estimador.

Page 11: 1 Estadística Elementos Introductorios. 2 Definición La Estadística es la tecnología de la Sistematización, recogida, ordenación y presentación de los

11

Page 12: 1 Estadística Elementos Introductorios. 2 Definición La Estadística es la tecnología de la Sistematización, recogida, ordenación y presentación de los

12

En resumen Posición

Dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos.

Cuantiles, percentiles, cuartiles, deciles,...

Centralización Indican valores con respecto a los que los datos

parecen agruparse. Media, mediana y moda

Dispersión Indican la mayor o menor concentración de los

datos con respecto a las medidas de centralización. Desviación típica, coeficiente de variación, rango,

varianza

Forma Asimetría Apuntamiento o curtosis

Page 13: 1 Estadística Elementos Introductorios. 2 Definición La Estadística es la tecnología de la Sistematización, recogida, ordenación y presentación de los

13

Estadísticos de posición

Se define el cuantil de orden como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada

Casos particulares son los percentiles, cuartiles, deciles, quintiles,...

Page 14: 1 Estadística Elementos Introductorios. 2 Definición La Estadística es la tecnología de la Sistematización, recogida, ordenación y presentación de los

14

CentralizaciónAñaden unos cuantos casos particulares a las medidas de posición. En este

caso son medidas que buscan posiciones (valores) con respecto a los cuales los datos muestran tendencia a agruparse.

Media (‘mean’) Es la media aritmética (promedio) de los valores de una variable. Suma de los valores dividido por el tamaño muestral. Media de 2,2,3,7 es (2+2+3+7)/4=3,5 Conveniente cuando los datos se concentran simétricamente con

respecto a ese valor. Muy sensible a valores extremos. Centro de gravedad de los datos

Mediana (‘median’) Es un valor que divide a las observaciones en dos grupos con el mismo número de individuos (percentil 50). Si el número de datos es par, se elige la media de los dos datos centrales. Mediana de 1,2,4,5,6,6,8 es 5 Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5 Es conveniente cuando los datos son asimétricos. No es sensible a

valores extremos. Mediana de 1,2,4,5,6,6,800 es 5. ¡La media es 117,7!

Moda (‘mode’) Es el/los valor/es donde la distribución de frecuencia alcanza un máximo.

Page 15: 1 Estadística Elementos Introductorios. 2 Definición La Estadística es la tecnología de la Sistematización, recogida, ordenación y presentación de los

15

Variabilidad o dispersión Los estudiantes de Métodos de investigación reciben diferentes

calificaciones en la asignatura (variabilidad). ¿A qué puede deberse?

Diferencias individuales en el conocimiento de la materia.

¿Podría haber otras razones (fuentes de variabilidad)?

Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de conocimiento. ¿Las notas serían las mismas en todos? Seguramente No.

Dormir poco el día del examen, el croissant estaba envenenado... Diferencias individuales en la habilidad para hacer un examen.

El examen no es una medida perfecta del conocimiento. Variabilidad por error de medida.

En alguna pregunta difícil, se duda entre varias opciones, y al azar se elige la mala

Variabilidad por azar, aleatoriedad.

Page 16: 1 Estadística Elementos Introductorios. 2 Definición La Estadística es la tecnología de la Sistematización, recogida, ordenación y presentación de los

16

Desviación típica (‘standard deviation’)Es la raíz cuadrada de la varianza

Tiene las misma dimensionalidad (unidades) que la variable.

Cierta distribución que veremos más adelante (normal o gaussiana) quedará completamente determinada por la media y la desviación típica.

A una distancia de una desv. típica de la media tendremos 68% observaciones.

A una distancia de dos desv. típica de la media tendremos 95% observaciones.

2SS

Peso recién nacidos en partos gemelares

50

40

30

20

10

0

Desv. típ. = 568,43

Media = 2023

N = 407,00

Page 17: 1 Estadística Elementos Introductorios. 2 Definición La Estadística es la tecnología de la Sistematización, recogida, ordenación y presentación de los

17

Centrado en la media y a una desviación típica de distancia tenemos más de la mitad de las observaciones (izq.)

A dos desviaciones típicas las tenemos a casi todas (dcha.)

Page 18: 1 Estadística Elementos Introductorios. 2 Definición La Estadística es la tecnología de la Sistematización, recogida, ordenación y presentación de los

18

Las poblaciones están formadas por individuos, pero sería mejor denominarlas unidades de muestreo o unidades de estudio: Personas, células, familias, hospitales, países…

La población ideal que se pretende estudiar se denomina población objetivo. No es fácil estudiarla por completo. Aproximamos mediante

muestras que den idealmente la misma probabilidad a cada individuo de ser elegido.

Tampoco es fácil elegir muestras de la población objetivo: Si llamamos por teléfono excluimos a los que no tienen. Si elegimos indiv. en la calle, olvidamos los que están trabajando...

El grupo que en realidad podemos estudiar (v.g. los que tienen teléfono) se denomina población de estudio.

Muestreo

Page 19: 1 Estadística Elementos Introductorios. 2 Definición La Estadística es la tecnología de la Sistematización, recogida, ordenación y presentación de los

19

Fuentes de sesgo Las poblaciones objetivo y de estudio pueden diferir

en cuanto a las variables que estudiamos. El nivel económico en la población de estudio es mayor

que en la objetivo,... Los individuos que se eligen en la calle pueden ser de

mayor edad (mayor frecuencia de jubilados p.ej.)… En este caso, diremos que las muestras que se elijan estarán

sesgadas. Al tipo de sesgo debido a diferencias sistemáticas entre población objetivo y población de estudio se denomina sesgo de selección.

Hay otras fuentes de error/sesgo No respuesta a encuestas embarazosas

Consumo de drogas, violencia doméstica, prácticas poco éticas,…

Mentir en las preguntas “delicadas”.

Para evitar este tipo de sesgo se utilizan la técnica de respuesta aleatorizada.

Page 20: 1 Estadística Elementos Introductorios. 2 Definición La Estadística es la tecnología de la Sistematización, recogida, ordenación y presentación de los

20

Técnicas de respuesta aleatorizada Reducen la motivación para mentir (o no responder)

a las encuestas. ¿Si digo la verdad, mostraré el cobre…?

¿Cómo se hace? Pídele que lance una moneda antes de responder y… Si sale cara que diga la “opción comprometedora”

(no tiene por qué avergonzarse, la culpa es de la moneda)

Si sale sello que diga la verdad (no tiene por qué avergonzarse, el encuestador no

sabe si ha salido cara o sello)

Aunque no podamos saber cuál es la verdad en cada individuo, podemos hacernos una idea porcentual sobre la población, viendo en cuánto se alejan las respuestas del 50%.

Page 21: 1 Estadística Elementos Introductorios. 2 Definición La Estadística es la tecnología de la Sistematización, recogida, ordenación y presentación de los

21

Ejemplo: ¿Ha tomado drogas alguna vez?100% No Insinceros!!

40% No60% Sí

Con respuesa aleatorizada

Sin respuesta aleatorizada

¡No son mitad y mitad!El porcentaje estimado de ind. que tomó drogas es:

%202,05,01

5,06,0*

p

Los que deben decir la verdad

Diferencia entre los que han dicho sí y los que debían hacerlopor que así lo indicaba la moneda

Page 22: 1 Estadística Elementos Introductorios. 2 Definición La Estadística es la tecnología de la Sistematización, recogida, ordenación y presentación de los

22

Técnicas de muestreo Cuando elegimos individuo de una población de

estudio para formar muestras podemos encontrarnos en las siguientes situaciones: Muestreos probabilistas

Conocemos la probabilidad de que un individuo sea elegido para la muestra.

Interesantes para usar estadística matemática con ellos. Muestreos no probabilistas

No se conoce la probabilidad. Son muestreos que seguramente esconden sesgos. En principio no se pueden extrapolar los resultados a la

población. A pesar de ello una buena parte de los estudios que se publican

usan esta técnica. ¡Buff! En adelante vamos a tratar exclusivamente con

muestreos con la menor posibilidad de sesgo (probabilistas): aleatorio simple, sistemático, estratificado y por grupos.

Page 23: 1 Estadística Elementos Introductorios. 2 Definición La Estadística es la tecnología de la Sistematización, recogida, ordenación y presentación de los

23

Muestreo aleatorio simple (m.a.s.)

Se eligen individuos de la población de estudio, de manera que todos tienen la misma probabilidad de aparecer, hasta alcanzar el tamaño muestral deseado.

Se puede realizar partiendo de listas de individuos de la población, y eligiendo individuos aleatoriamente con un ordenador.

Normalmente tiene un coste bastante alto su aplicación.

En general, las técnicas de inferencia estadística suponen que la muestra ha sido elegida usando m.a.s., aunque en realidad se use alguna de las que veremos a continuación.

Page 24: 1 Estadística Elementos Introductorios. 2 Definición La Estadística es la tecnología de la Sistematización, recogida, ordenación y presentación de los

24

Muestreo sistemático

Se tiene una lista de los individuos de la población de estudio. Si queremos una muestra de un tamaño dado, elegimos individuos igualmente espaciados de la lista, donde el primero ha sido elegido al azar.

CUIDADO: Si en la lista existen periodicidades, obtendremos una muestra sesgada.

Un caso real: Se eligió una de cada cinco casas para un estudio de salud pública en una ciudad donde las casas se distribuyen en manzanas de cinco casas. Salieron con mucha frecuencia las de las esquinas, que reciben más sol, están mejor ventiladas,…

Page 25: 1 Estadística Elementos Introductorios. 2 Definición La Estadística es la tecnología de la Sistematización, recogida, ordenación y presentación de los

25

Muestreo estratificado

Se aplica cuando sabemos que hay ciertos factores (variables, subpoblaciones o estratos) que pueden influir en el estudio y queremos asegurarnos de tener cierta cantidad mínima de individuos de cada tipo: Hombres y mujeres, Jovenes, adultos y ancianos…

Se realiza entonces una m.a.s. de los individuos de cada uno de los estratos.

Al extrapolar los resultados a la población hay que tener en cuenta el tamaño relativo del estrato con respecto al total de la población.

Page 26: 1 Estadística Elementos Introductorios. 2 Definición La Estadística es la tecnología de la Sistematización, recogida, ordenación y presentación de los

26

Muestreo por grupos o conglomerados Se aplica cuando es difícil tener una lista de todos los

individuos que forman parte de la población de estudio, pero sin embargo sabemos que se encuentran agrupados naturalmente en grupos.

Se realiza eligiendo varios de esos grupos al azar, y ya elegidos algunos podemos estudiar a todos los individuos de los grupos elegidos o bien seguir aplicando dentro de ellos más muestreos por grupos, por estratos, aleatorios simples,…

Para conocer la opinión de los médicos del sistema nacional de salud, podemos elegir a varias regiones de Colombia, dentro de ellas varios departamentos, y dentro de ellas varios centros de salud, y…

Al igual que en el muestreo estratificado, al extrapolar los resultados a la población hay que tener en cuenta el tamaño relativo de unos grupos con respecto a otros. Regiones con diferente población pueden tener probabilidades

diferentes de ser elegidas, comarcas, hospitales grandes frente a pequeños,…