Inferencia Estadística Módulo I. 2 Estimación : Estimación puntual Propiedades de los...

Preview:

Citation preview

Inferencia Estadística

Módulo I

2

Estimación :

Estimación puntual

Propiedades de los estimadores

Estimación por intervalos para la media, proporción, diferencia de medias y diferencia de proporciones, usando la distribución normal.

Inferencia Estadística

3

Inferencia Estadística

Contraste de Hipótesis

Fundamentos de la contrastación de hipótesis Formulación de hipótesis. Hipótesis simple y compuesta Tipos de errores en la contrastación. Etapas para la contrastación de hipótesis. Contraste de hipótesis para la media, proporción, diferencia de

medias, y diferencia de proporciones. Relación entre los intervalos de confianza y la contrastación de

hipótesis.

4

Estadística

Inferencia Estadística

Descriptiva Inferencial

Organización de Datos

Medidas de Tendencia, Posición, variación.

Representación gráfica.

Estimación Contraste de Hipótesis

Puntual Por Intervalos

5

Métodos mediante los cuales se selecciona una muestra aleatoria de una población intentando:

Inferencia Estadística

Hallar el verdadero valor del parámetro desconocido

Decidir si alguna función de la muestra es igual a algún valor preconcebido

6

Población: Colección de todas las posibles mediciones que pueden hacerse de una característica en estudio. (datos o valores).

Muestra: Subconjunto de la población.

Parámetro: Caracterización numérica de la distribución de la población de manera que describe, parcial o completamente, la función de densidad de la característica de interés.

Inferencia Estadística: Conceptos.

7

Estadístico: Cualquier función de variables aleatorias que forman una muestra aleatoria.

Inferencia Estadística: Conceptos.

Estimador: función de variables aleatorias observables (muestra) y quizás otras constantes conocidas usados para estimar un valor poblacional (Parámetro).

8

Muestra.Población.

Edades. Hab. Municipio Libertador.

Edad Promedio Valores Poblacionales

(Parámetros).

Valores Muestrales

Inferencia. Estimación.

𝑥

µ

Inferencia Estadística.

9

Inferencia Estadística: Conceptos.

Estimación: Proceso mediante el cual se utiliza los resultados de una muestra representativa para estimar el verdadero valor del parámetro poblacional

Se quiere estimar la edad promedio de los habitantes del Municipio Libertador del Estado Mérida.

10

Variable en Estudio:_____________________

Universo:____________________________

Población:___________________________

Muestra:_____________________________

Parámetro:___________________________

Estimador:____________________________

Ejemplo:

Inferencia Estadística.

Edad

Habitantes del Municipio Libertador

Edad del los habitantes de Ejido

Las edades de los Habitantes del Mun. Lib

𝜇𝑋

Media Poblacional

Media Muestral

11

Propiedades de un Estimador:

Suficiente: Incluye toda la información de la muestra.

Insesgado: E( )=

Consistencia: A medida que se incrementa la muestra el estimador se acerca al verdadero valor del parámetro.

Varianza Mínima.

Inferencia Estadística.

^θ ᶿ

Teorema: Sea un estimador de con base en una muestra de tamaño n si

y entonces es un estimador consistente de

Inferencia Estadística.

^θlθim𝑛❑→

+00E(  )=^θ ᶿ

^θlim𝑛❑→

+00V(  )=0

ᶿ

Algunos Estimadores Importantes:

Inferencia Estadística.

𝑋 µ

�̂� P

𝑆2 σ 2

𝑆❑ σ❑

Muestral Poblacional

14

Estimación Puntual:

Inferencia Estadística.

Una estimación puntual de algún parámetro de la población consta de un solo valor

ᶿ

^θᶿ Parámetros Poblacionales

Estimadores

15

Ejemplo:

Inferencia Estadística.

Se quiere estimar el tiempo promedio de reacción ante un estimulante de pacientes con cáncer en el estado Mérida para ello se levanto una muestra y se registraron los tiempos de reacción

2,5 3,6 3,1 4,3 2,9

2,3 2,6 4,1 3,4 3,4

16

Estimación por Intervalos:

Inferencia Estadística.

Es difícil que el estimador insesgado más eficiente estime con exactitud el verdadero valor del parámetro poblacional

Intervalos de Confianza:

< <

Determinar un intervalo en el que, en forma probable Se encuentra el valor del parámetro.

17

Supóngase que una tienda mantiene muy buenos registros respecto al número de unidades de cierto producto que vende mensualmente. Para la compañía es muy importante conocer la demanda promedio ya que con base en esta, se lleva a cabo el mantenimiento del inventario.

Inferencia Estadística.

Estimación por Intervalos:

18

Inferencia Estadística.

Estimación por Intervalos:

Suponga que la demanda no se ve afectada por fluctuaciones En la temporada. La compañía decide que los últimos 36 meses han sido típicos Con respecto a la demanda de ese producto, y con base a estos Datos muestrales el valor calculado de la media muestral es de 200 unidades

¿Implica que la demanda media desconocida no sea mayor de 250 ni menor a 150?

19

Inferencia Estadística.

Estimación por Intervalos:

Suponga que la desviación estándar de la media muestral es de 60 Unidades

Teorema Central del Límite:

Si es la media de una muestra aleatoria de tamaño n que se toma de una de una población que se toma con media y varianza entonces:

20

Inferencia Estadística.

Estimación por Intervalos:

𝑍=( 𝑋−𝜇)

( 𝜎√𝑛 )~❑𝑁 (0,1) 𝑛−→+00

21

Inferencia Estadística.

Intervalos de Confianza para con varianza conocida:

𝑋 +¿−𝑍1−

𝛼2

𝜎√𝑛

¿

22

Inferencia Estadística.

Estimación por Intervalos:

El consumo de gasolina de los vehículos de una empresa en litros/día , durante un periodo de 36 días elegidos al azar durante el año 2012, es el siguiente:

23

Inferencia Estadística.

4105 3954 3980 3970 4035 39783997 3985 4036 3970 4020 40264018 3982 4050 3978 3998 39843984 3985 4042 3990 4017 39803960 3990 3900 3980 4065 39094040 3975 4035 4048 3990 4044

24

Se sabe que el consumo de la empresa sigue una ley normal cuya varianza es de 1600.

a) Determinar un intervalo para estimar el consumo medio diario durante el 2012 con un nivel de confianza del 95% y 99%.

Inferencia Estadística.

25

Inferencia Estadística.

Promedio 4000Desviacion 40,4756443

n 36Alfa 0,01

Alfa/2 0,0051-alfa/2 0,995

Z 2,57Error Máximo 17,3370676

LS 4017,33707LI 3982,66293

𝑃 (3982,66<𝜇<4017,33 )=0.99

Con un 99% de confianza se espera que el verdadero tiempo promedio se encuentre en el intervalo calculado

26

Inferencia Estadística.

Calculo del tamaño de muestra:

Teorema: Si se usa como estimación de , se puede tener de confianza de que el error no excederá una cantidad específica cuando el tamaño de la muestra sea:

𝑛=( 𝑍 1− 𝛼2

∗𝜎

𝜀 )2

27

Inferencia Estadística.

¿Cuál ha de ser el tamaño mínimo de la muestra para que el error no supere los 10 litros/día con la misma confianza del 99%?

𝜖=10𝑍1− 𝛼

2=2.57

𝜎=40

n=( 2.57∗4010 )2

=108

28

Inferencia Estadística.

Intervalos de Confianza para con varianza desconocida:

𝑋 +¿−𝑡1−𝛼/2 ,𝑛− 1

𝑠√𝑛

¿

𝑍=( 𝑋−𝜇)

( 𝑠√𝑛 )

~❑𝑡 1−𝛼 /2 ,𝑛−1

29

Inferencia Estadística.

La puntuación de una muestra de 20 jueces de gimnasia rítmica, elegidos al azar, para una misma prueba presentó los siguientes puntajes:

9,6 9,8 9,7 9,79,8 9,9 9,8 9,89,9 9,7 9,9 9,99,8 9,8 9,9 9,89,9 9,9 9,9 9,7

30

Inferencia Estadística.

Calcular un intervalo de confianza con un 95% y 99% para la puntuación promedio

𝑋 +¿−𝑡1−𝛼/2 ,𝑛− 1

𝑠√𝑛

¿Promedio 9,81n 20Desv 0,09119095alfa 0,01alfa/2 0,0051- alfa/2 0,995t 2,861Error Máximo 0,05833841LS 9,86833841LI 9,75166159

𝑃 (9.75<𝜇<9.87 )=0.99

Con un 99% de confianza se espera que el verdadero tiempo promedio se encuentre en el intervalo calculado

31

Inferencia Estadística.

Intervalos de confianza para la diferencia de medias de dos poblaciones normales independientes:

( 𝑋 −𝑌 ) +¿❑

𝑍1−𝛼/2√𝜎❑2

𝑛𝑥

+𝜎❑2

𝑛 𝑦

¿

32

Inferencia Estadística.

Se emplean dos máquinas para llenar botellas de plástico con un volumen neto de 16 onzas. El proceso de llenado puede suponerse normal, con desviaciones estándar de σ1=0,015 y σ2=0,015. Ingeniería de calidad sospecha que ambas máquinas llenan hasta el mismo volumen neto, sin importar que este volumen sea o no de 16 onzas. Se toma una muestra aleatoria de la salida de cada máquina.

máquina 116,0

3 16,04 16,05 16,05 16,02 16,01 15,96 15,98 16,02 15,99

máquina 216,0

2 15,97 15,96 16,01 15,99 16,03 16,04 16,02 16,01 16

33

Inferencia Estadística.

Promedio 16,015 Promedio 16,005n 10 n 10Desv 0,015 Desv 0,015Var 0,000225 Var 0,000225alfa 0,05 alfa 0,05alfa/2 0,025 alfa/2 0,0251- alfa/2 0,975 1- alfa/2 0,975

Error Máximo 0,01314808LS 0,02314808LI -0,01314808

34

Inferencia Estadística.

Intervalos de confianza para la diferencia de medias de dos poblaciones normales independientes: (Varianzas Desconocida pero se suponen iguales)

( 𝑋 −𝑌 ) +¿❑ 𝑡𝛼

2;𝑛1+𝑛2− 2 ;

𝑆𝑝 √ 1𝑛𝑥

+ 1𝑛𝑦

¿

𝑆𝑝=√ (𝑛𝑥−1 )𝑆2𝑥❑+(𝑛𝑦−1 )𝑆2𝑦❑

(𝑛𝑥+𝑛𝑦 )−2 

35

Inferencia Estadística.

Las presiones criticas de dos grupos independientes de recipientes de distintos vidrios dan los siguientes valores:

Grupo 1 100 102 96 106 110 110 120 112 112 90

Grupo 2 104 88 100 98 102 92 96 100 96 96

Suponiendo que las dos poblaciones son normales y de varianzas iguales y desconocidas, calcular un intervalo de confianza del 95% para la diferencia de presiones medias.

36

Inferencia Estadística.

( 𝑋 −𝑌 ) +¿❑ 𝑡𝛼/2 ;𝑛𝑖+𝑛2−2 ;❑

𝑆𝑝∗√ 1𝑛𝑥

+ 1𝑛𝑦

¿

𝑆𝑝=√ (𝑛𝑥−1 )𝑆2𝑥❑+(𝑛𝑦−1 )𝑆2𝑦❑

(𝑛𝑥+𝑛𝑦 )−2

37

Inferencia Estadística.

Promedio 105,8 Promedio 97,2n 10 n 10

Var78,622222

2 Var 22,4alfa 0,05 alfa 0,05alfa/2 0,025 alfa/2 0,0251- alfa/2 0,975 1- alfa/2 0,975t 2,1 t 2,1

Sp 7,10711693Error Máximo

6,67463857

LS15,274638

6

LI1,9253614

3

38

Inferencia Estadística.

Intervalos de Confianza para la Proporción:

�̂�~❑𝑁 (𝑃 ; 𝑝𝑞𝑛 )~𝑝 +¿

❑ 𝑍1−𝛼 /2√𝑝𝑞𝑛❑¿

39

Inferencia Estadística.

Tomada, al azar, una muestra de 120 estudiantes de una Universidad, se encontró que 54 de ellos hablaban inglés.

Halle, con un nivel de confianza del 90%, un intervalo de confianza para estimar la proporción de estudiantes que hablan el idioma inglés entre los estudiantes de esa Universidad.

40

Inferencia Estadística.

41

Inferencia Estadística.

Intervalos de Confianza para la Diferencia de Proporciones:

(~𝑝1−~𝑝2 ) +¿❑ 𝑍1−𝛼 /2√~𝑝1𝑞1

𝑛1+

~𝑝2𝑞2𝑛2

¿

42

Inferencia Estadística.

La fracción de productos defectuosos producidos por dos líneas de producción se está analizando. Una muestra aleatoria de 1000 unidades de la línea 1 tiene 10 defectuosas, en tanto que una muestra aleatoria de 1200 unidades de la línea 2 tiene 25 defectuosas.

43

Inferencia Estadística.

Contraste de Hipótesis:

Técnica Estadística la cual se usa para tomar decisiones sobre la población, se Establecen Hipótesis sobres los parámetros y luego se contrastan para aceptar o rechazar dichas Hipótesis

44

Inferencia Estadística.

Hipótesis Estadística:

Es una suposición concerniente a una o más

distribuciones poblacionales, es decir a uno o

más parámetros de la población.

Esta suposición es considerada una hipótesis

ya que está referida a una situación que puede

ser o no ser verdadera.

45

Inferencia Estadística.

Hipótesis Nula:

Nulifica el efecto de la variable en estudio, ausencia de los efectos de la variable que se investiga.

Hipótesis Alternativa:

Variación de los valores que prevalecerían si la variable que se estudia ejerce algún efecto.

(Pregunta que debe responderse, teoría que debe probarse.)

𝐻0 :

𝐻0 :

46

Inferencia Estadística.

Un proceso manufacturero usado en una fábrica durante los últimos años

da una producción media de 100 unidades por hora, con una desviación

estándar de 8 unidades, se acaba de introducir en el mercado una nueva

máquina para realizar este tipo de producto. Aunque es muy cara

comparada con la que esta en uso, si la media de producción de la nueva

maquina es de más d e150 unidades por hora, su adopción daría bastantes

beneficios. Para decidir si se debiera comprar la nueva máquina, la

gerencia de la fábrica compra 35 de esas máquinas como un experimento.

Establezca la hipótesis nula y la alternativa.

47

Inferencia Estadística.

Espacio paramétrico:

Conjunto de todos los posibles valores que puede asumir Es una un cierto parámetro poblacional, no conocido, respecto al cual se hace una cierta hipótesis. Cuando se plantea una hipótesis lo que se hace es particionar el espacio paramétrico en dos sub espacios.

48

Inferencia Estadística.

Tipos de Hipótesis:

Hipótesis Simple:

El Sub espacio paramétrico contiene un solo punto

Hipótesis Compuesta:

El Sub espacio paramétrico contiene más de un punto

𝜇=120

𝜇>120

49

Inferencia Estadística.

Tipos de Errores que se cometen en una formulación de Hipótesis:Error Tipo I:Rechazar H0 cuando esta es cierta

Error Tipo I:Aceptar H0 cuando esta es falsa.

  Ho Cierta Ho FalsaNo Rechace Ho Correcta Error Tipo IIRechace Ho Error Tipo I Correcta

50

Inferencia Estadística.

Pasos a Seguir en el contraste de Hipótesis:

1. Formulación de Hipótesis:

𝐻0 :𝜃=𝜃0𝐻1 :𝜃<𝜃0

𝐻0 :𝜃<𝜃0𝐻1 :𝜃≥ 𝜃0

𝐻0 :𝜃<𝜃0𝐻1 :𝜃≠ 𝜃0

51

Inferencia Estadística.

2. Nivel de Significancia:

3. Estadístico de Prueba:

𝑍 𝑐=𝜃− �̂�𝜎 𝜃

𝛼

3. Estadístico de Prueba:

52

Inferencia Estadística.

4. Regla de Decisión:

Rechazar Ho Ssi:

𝐻0 :𝜃=𝜃0𝐻1 :𝜃<𝜃0

<

53

Inferencia Estadística.

𝐻0 :𝜃<𝜃0𝐻1 :𝜃≥ 𝜃0

𝑍 𝑐>𝑍𝛼

54

Inferencia Estadística.

𝐻0 :𝜃<𝜃0𝐻1 :𝜃≠ 𝜃0

𝑍 𝑐>𝑍1−𝛼

𝑍 𝑐<𝑍𝛼

55

Inferencia Estadística.

6. Cálculos.

7. Conclusiones.

56

Inferencia Estadística.

Contraste de Hipótesis para la media 𝜇 :Una muestra aleatoria de 100 muertes registradas en el estado, el año

pasado mostro una vida promedio de 71.8 años. Suponiendo una

desviación estándar poblacional de 8.9 años, ¿Esto parece indicar que la

vida media actual es mayor a 70 años?, Utilice un nivel de significancia de

5%.

57

Inferencia Estadística.

Contraste de Hipótesis para la diferencia de medias:

Un fabricante de equipo deportivo desarrollo un nuevo sedal para pesca

sintético, que afirma que tiene una resistencia a la rotura de 8Kg con una

desviación de 0,5 Kg. Pruebe la hipótesis de que la resistencia media a la

rotura difiere a la que dice el fabricante, sabiendo que en una muestra

aleatoria de tamaño 50, arrojo una resistencia promedio a la rotura de 7,8

Kg. Use un nivel de significancia de 0.05.

𝜇1−𝜇2:

58

Inferencia Estadística.

59

Inferencia Estadística.

Contraste de Hipótesis para la Diferencia de Proporciones:

60

Inferencia Estadística.

61

Inferencia Estadística.

Estimación por Intervalos:

;

^θl   : Puntos Extremos del Intervalo

Se tiene una Coonfianza de (1-α) de Seleccionar una

variable aleatoria Que produzca un intervalo que contenga ᶿ

0<α<1Nivel de Confianza

62

Inferencia Estadística.

63

Muestra aleatoria: se considera aleatoria siempre y cuando cada observación, medición o individuo de la población tenga la misma probabilidad de ser seleccionado.

64

¿Censo o Muestreo?

- Costo

- Control Recolección de Información - Calidad

- Rapidez de resultados

- Población muy grande o infinita

- Población muy homogénea

- Proceso de medición destructivo

65

Individuos o Elementos: Cualquier ente, racional o irracional, objeto o concepto.

Características o Propiedades Existencia, Modalidad – Categoría (cuantitativa, cualitativa) Relaciones.

Proceso de Medición Determinar si un Individuo posee o no cierta característica o si presenta cierta modalidad en tal característica.

66

Variables: – son las características o lo que se estudia de

cada individuo de la muestra. Ej: sexo, edad, peso, estatura, color de ojos, estado civil, temperatura, cantidad de nacimientos, presión, diámetro, ...

Datos:– son los valores que toma la variable en cada

caso.

67

Cualitativos: son datos que solo toman valores asociados a las cualidades o atributos, clasificándolos en una de varias categorías, es decir, no son valores numéricos.– Sexo: f/m.– Hábito de fumar: Fumador/No fumador– Color de ojos: negro, azul, marrón, …– Religión: Católica, Evangélica, …– Estado civil: soltero, casado, divorciado,…

68

Cuantitativos: provienen de variables que pueden medirse, cuantificarse o expresarse numéricamente. Ejemplos:– Peso– Edad– Estatura– Presión– Humedad– Intensidad de un sismo– Cantidad de hermanos

69

Tipos de variables cuantitativas:– Discretas: es aquella que solo puede tomar un

número finito o infinito numerable de valores. Ejemplo: cantidad de hermanos.

– Continuas: es la variable que puede tomar cualquier valor en una escala continua. Ejemplo: cantidad de líquido contenido en un recipiente.

70

Escalas de medida

Concepto:

Conjunto de valores que puede tomar una

variable, o conjunto de modalidades que

puede presentar una característica.

71

Escalas de medida

Nominal. Ordinal. De Intervalos. De Razón o Proporción. Absoluta.

Variables Cualitativas

VariablesCuantitativas

72

Escalas de medida

Escala Nominal: los datos se pueden agrupar en categorías que no mantienen una relación de orden entre sí, por lo tanto no están definidas las operaciones lógicas (>, <, , ) sino solo las de igualdad o diferencia. Ejemplos: color de ojos, sexo, profesión,

estado civil, religión.

73

Escalas de medida

Escala Ordinal: existe un cierto orden o jerarquía entre las categorías (>, <, , ).Ejemplos: grados militares, organigrama de

una empresa, escalafón de los profesores universitarios,

grados de disnea, estadiaje de un tumor, resultados de estudios de opinión. (Excelente, Bueno,

Regular, Malo)

74

Escalas de medida

Escala de Intervalos: valores numéricos de las variables y además de las relaciones de orden (>, <, , ), se pueden establecer distancias, es decir, tienen sentido las operaciones de suma y resta. Propiedades:– Existe una unidad de medida que se mantiene constante

para todos los valores que toma la variable.– Existe un valor patrón u origen relativo que no significa la

ausencia de valor en la variable.

75

Escalas de medida

Ejemplo: temperatura, nivel de ruido, movimientos sísmicos.

76

Escalas de medida

Escala de Razón o Proporción: es la más completa y general de todas las escalas. Se caracteriza porque los valores de la variable son números, entre los cuales, además de las relaciones de orden (>, <, , ) y distancia (+,-), se pueden establecer múltiplos y proporciones.

Ejemplos: peso, altura, volumen, ingreso, precio

Propiedades:

- Poseen 0 absoluto que significa ausencia de la propiedad.- Tienen unidad de medida

77

Escalas de medida

Escala Absoluta: se caracteriza porque los valores que toma la variable son el resultado de un conteo y por lo tanto, está constituida por los enteros positivos y el cero.Ejemplos: número de hermanos, cantidad de

autos vendidos, cantidad de accidentes en una

intersección, cantidad de hijos,…

78

Escalas de medida

Nominal Ordinal Intervalos Razón Absoluta

Categoriza X X X X X

Jerarquiza X X X X

Diferencias tienen sentido X X X

Múltiplos tienen sentido X X

Cero absoluto X X

Operaciones Aritméticas X X X

Se pueden transformar en otras del mismo tipo X X X X

(Algunas)

Propiedades Escalas

79

Datos Univariantes y Multivariantes

Univariantes o unidimensionales: sólo recogen información sobre una característica (Ej: edad de los alumnos de una clase).

Bivariantes o bidimensionales: recogen información sobre dos características de la población. (Ej: edad y estatura de los alumnos de una clase).

80

Datos Univariantes y Multivariantes

Multivariantes o pluridimensionales: recogen información sobre tres ó más características. (Ej: edad, estatura y peso de los alumnos de una clase).

81

Estadística - Abusos

Conclusiones erróneas debido a que los datos son numéricamente insuficientes.

Representaciones gráficas engañosas (escalas).

Datos muestrales no representativos:– Muestra que no incluye a elementos de toda la población.– Ciertas categorías de personas no responden correctamente.– Respuestas voluntarias (sesgadas).

82

Organización de los datos

Datos cualitativos

Se realiza de acuerdo a las modalidades que presente la variable en estudio. Mediante un conteo se determina el número de datos (Frecuencia) correspondiente a las diferentes categorías de la variable. Se usa para cualquier cantidad de datos.

83

Organización de datos cualitativos

Ejemplo: En un estudio sobre las personas que ejercen cargos directivos en una empresa, se realizaron 32 entrevistas y se obtuvo la siguiente información. Variable: Sexo.

F, F, M, M, F, M, F, F, M, F, M,

M, M, M, F, F, M, F, F, F, M, F,

F, M, M, F, F, F, F, F, M, M. .

84

Organización de datos cualitativos

Clasificación del Personal Directivo

de acuerdo al sexo.

Sexo Personas

Masculino 14

Femenino 18

Total 32

85

Organización de datos cualitativos

Tablas de Doble Entrada o de Contingencia. Se utilizan para agrupar los datos de acuerdo a dos características simultáneamente. Característica B

b1 b2 ... bk Totales

xxx xxx xxx

xxx xxx

Totales

Ca

ract

eris

tica

A

a1

a

2

...

ak

86

Organización de datos cualitativos

Datos correspondientes a Sexo y Profesión de 32 Ejecutivos de Empresa

Profesión Sexo M F Totales

Abogados 3 4 7

Economistas 3 2 5

Educadores 3 1 4

Geógrafos 2 1 3

Ingenieros 2 5 7

Médicos - 2 2

Sociólogos 1 3 4

Totales 14 18 32

87

Organización de los datos

Datos cuantitativos

Para organizar y agrupar datos de tipo cuantitativo, discretos o continuos, se utiliza un procedimiento similar al utilizado con los datos cualitativos, pero más laborioso.

88

Organización de datos cuantitativos

Una vez que se ha realizado la recolección de los datos, se obtienen datos en bruto, los cuales rara vez son significativos sin una organización y tabulación.

89

Formas de organizar los datos:

Organización de datos cuantitativos

– Distribución de Frecuencias: es un arreglo de los datos que permite expresar la frecuencia de ocurrencias de las observaciones en cada una de las clases, mostrando el patrón de la distribución de manera más significativa.

Clase Pto. Medio fi Fi fri FRi

90

Organización de datos cuantitativos

La Distribución de Frecuencias:– Se recomienda su uso cuando se tienen grandes

cantidades de datos (n).– Su construcción requiere, en primer lugar, la

selección de los límites de los intervalos de clase.– Para definir la cantidad de intervalos de clase (k),

se puede usar: La regla de Sturges: k = 1 + 3.3log(n) k = n

91

La Distribución de Frecuencias:– La cantidad de clases no puede ser tan pequeño

(menos de 5) o tan grande (más de 20), que la verdadera naturaleza de la distribución sea imposible de visualizar.

– La amplitud de todas las clases deberá ser la misma. Se recomienda que sea impar y que los puntos medios tengan la misma cantidad de cifras significativas que los datos en bruto.

– Los límites de las clases deben tener una cifras significativas más que los datos en bruto.

Organización de datos cuantitativos

92

Organización de datos cuantitativos

Determinar:– Punto medio = (Li+Ls)/2.– Frecuencia absoluta de la clase (fi).

– Frecuencia acumulada de la clase (Fi).

– Frecuencia relativa de la clase (fri): fri = fi/n

– Frecuencia relativa acumulada de la clase (FRi).

93

Ejemplos de Distribuciones de Frecuencias

Organización de datos cuantitativos

94

Organización de datos cuantitativos

Formas de organizar los datos:– Arreglo: es la forma más sencilla de organizar los datos en

bruto. Consiste en colocar las observaciones en orden según su magnitud: ascendente o descendente.

– Poco práctica cuando se tiene una gran cantidad de datos.

Distribución de Frecuencias

Se desea determinar cómo varían las estaturas de las mujeres, al tomar una muestra de 50 trabajadoras de una fábrica de pantalones.

Los datos obtenidos fueron los siguientes:

Ejemplo 1:

1.65 1.63 1.65 1.63 1.69 1.67 1.53 1.58 1.60 1.611.65 1.64 1.71 1.68 1.66 1.56 1.59 1.61 1.62 1.631.63 1.69 1.67 1.66 1.58 1.60 1.61 1.62 1.64 1.641.55 1.59 1.66 1.57 1.61 1.68 1.66 1.57 1.72 1.671.64 1.65 1.64 1.65 1.63 1.70 1.62 1.64 1.60 1.62

95

Organice los datos en una distribución de Frecuencias en intervalos de clases, con amplitud constante.

Para el calculo de la amplitud, aproxime a tres decimales, y para el calculo de las clases aproxime a dos decimales.

96

Distribución de Frecuencias

Distribución de Frecuencias

1.- Se determina el número de intervalos (Sturges)

K = 1 + 3.3 log(50) = 6.6 => tomamos K = 7

2.- Se determina la amplitud del intervalo

A 1.72 – 1.53 0.027

3.- Se determinan los intervalos

Primer intervalo: 1,53 + 0,027 = 1,557

[1,53 – 1,5571)

[1,5571 – 1,5843)

==7

97

Distribución de Frecuencias

No. Clase Intervalo fi Pto.Medio Fi fri FRi

1 1.53 – 1.55 2 1.54 2 2/50 = 0,04 = 4% 2/50 = 0,04 = 4%

2 1.56 – 1.58 5 1.57 7 5/50 = 0,1 = 10% 7/50 = 0,14 = 14%

3 1.59 – 1.61 9 1.60 16 9/50 = 0,18 = 18% 16/50 = 0,32 = 32%

4 1.62 – 1.64 15 1.63 31 15/50 = 0,3 = 30% 31/50 = 0,62 = 62%

5 1.65 – 1.67 12 1.66 43 12/50=0,24 = 24% 43/50 = 0,86 = 86%

6 1.68 – 1.70 5 1.69 48 5/50 = 0,1 = 10% 48/50 = 0,96 = 96%

7 1.71 – 1.73 2 1.72 50 2/50 = 0,04 = 4% 50/50 = 1 = 100%

Totales 50 100%

98

Distribución de Frecuencias

Clasificación de un grupo de trabajadoras

de la empresa El Pantalón

de acuerdo a sus estaturas (en Mts.)

Estaturas Nº. Empleadas Porcentaje

1.53 – 1.55 2 4

1.56 – 1.58 5 10

1.59 – 1.61 9 18

1.62 – 1.64 15 30

1.65 – 1.67 12 24

1.68 – 1.70 5 10

1.71 – 1.73 2 4

Totales 50 100%Fuente: Registros Empresa El Pantalón

99

Distribución de Frecuencias

A 40 pacientes de un hospital se les investigó la variable número de hijos, obteniéndose la siguiente información:

4 0 5 6 4 2 6 0 6 4

3 7 7 7 7 4 3 4 7 0

2 6 5 7 5 4 6 6 2 5

3 6 6 5 0 6 7 5 6 2

Ejemplo 2:

100

Distribución de Frecuencias

Clases fi fri Fi FRi

0 4 0.100 = 10% 4 0,100 = 10%

1 0 0,000 = 0% 4 0,100 = 10%

2 4 0,100 = 10% 8 0,200 =20%

3 3 0,075 = 7,5% 11 0,275 =27,5%

4 6 0,150 = 15% 17 0,425 = 42,5%

5 6 0,150 = 15% 23 0,575 = 57,5%

6 10 0,250 = 25% 33 0,825 = 82,5%

7 5 0,125 = 12,5% 38 0,950 = 95%

8 2 0,050 = 5% 40 1,000 = 100%

Totales 40 1,000 = 100%

101

Distribución de Frecuencias

Los datos que se muestran a continuación representan las calificaciones de 60 estudiantes que presentaron la PINA en el año 2010.

a) Construya una distribución de frecuencias.

b) ¿Qué puede concluir de estos datos?

Ejercicio:

102

Distribución de Frecuencias

23 60 79 32 57 74 52 70 82 36

80 77 81 95 41 65 92 85 55 76

52 10 64 75 78 25 80 98 81 67

41 71 83 54 64 72 88 62 74 43

60 78 89 76 84 48 84 90 15 79

34 67 17 82 69 74 63 80 85 61

Ejercicio:

103

Representación gráfica de los datos

Los gráficos permiten visualizar en forma global y rápida el comportamiento de los datos.

Para datos cuantitativos agrupados en clases, comúnmente se utilizan tres tipos de gráficos:– Histogramas.– Polígono de frecuencias.– Ojiva o Polígono de frecuencias acumuladas.

104

Representación gráfica de los datos

Para datos cuantitativos- Diagrama de puntos- Diagramas de dispersión- Curvas- Pictogramas

Para datos cualitativos– Curvas– Barras– Circulares o de Sectores

- Histogramas.- Polígono de frecuencias.

- Ojiva o Polígono de frecuencias acumuladas.

105

Representación gráfica de los datos

Histograma:

106

Representación gráfica de los datos

Histograma y Polígono de Frecuencias

107

Representación gráfica de los datos

Ojiva

108

Representación gráfica de los datos

Barras

109

Representación gráfica de los datos

Curvas

110

Representación gráfica de los datos

Pictogramas

111

Representación gráfica de los datos

Sectores, torta o circular

112

Ejemplos de construcción de gráficos

113

Medidas de Tendencia Central

Se les conoce también como “Medidas de Posición”.

Corresponden a valores que generalmente se ubican en la parte central de un conjunto de datos.

Forma cómo los datos se pueden condensar en un solo valor central, alrededor del cual se distribuyen todos los datos de la muestra.

114

Medidas de Tendencia Central

Las medidas de tendencia central más importantes son:– Media: Aritmética y Aritmética ponderada.– Mediana.– Moda.

115

Media Aritmética

Es la suma de todas las observaciones dividida entre el número total de observaciones.

Expresada de forma más intuitiva, se puede decir que la media aritmética es la cantidad total de la variable, distribuida a partes iguales entre cada observación. (Wikipedia)

116

Media Aritmética

Por ejemplo, si en una habitación hay tres personas, la media de dinero que tienen en sus bolsillos sería el resultado de tomar todo el dinero de los tres y dividirlo a partes iguales entre cada uno de ellos. Es decir, la media es una forma de resumir la información de una distribución (dinero en el bolsillo) suponiendo que cada observación (persona) tendría la misma cantidad de la variable. (Wikipedia)

117

Cálculo de la Media Aritmética

Para datos no agrupados:

n

xX

n

ii

1

Para datos agrupados:

n

fmX

k

iii

1

Donde: mi: punto medio de la clase i fi: frecuencia absoluta de la clase i

118

Mediana

Es el valor que ocupa la posición central de un conjunto de observaciones, una vez que han sido ordenados en forma ascendente o descendente.

Divide al conjunto de datos en dos partes iguales.

119

Cálculo de la Mediana

Para datos no agrupados:– Si n es impar:

posición donde se ubica la mediana es igual a (n+1)/2.

– Si n es par:

(n+1)/2 no es entero, por lo tanto la mediana será igual al promedio de las dos posiciones centrales.

120

Cálculo de la Mediana

Para datos agrupados: Clase mediana (o medianal) es la que contiene a la observación que ocupa la posición n/2.

Cmxf

xFn

LmMdm

m

)(

)(2

11

Donde: Lm: límite inferior de la clase mediana. F(xm-1): frecuencia acumulada de la clase anterior a la clase mediana. f(xm): frecuencia absoluta de la clase mediana. Cm: amplitud de la clase mediana.

121

Moda

Observación o clase que tiene la mayor frecuencia en un conjunto de observaciones.

Un conjunto de datos puede ser unimodal, bimodal o multimodal.

Es la única medida de tendencia central que se puede determinar para datos de tipo cualitativo.

122

Cálculo de la Moda

Para datos no agrupados: es simplemente la observación que más se repite.

Para datos agrupados:

CmLimMo21

1

Donde: Lim: límite inferior de la clase modal. 1: diferencia entre fi de la clase modal y la anterior. 2: diferencia entre fi de la clase modal y la posterior. Cm: amplitud de la clase modal (clase de mayor frecuencia).

123

Relación Media - Mediana - Moda.

Cuando los datos son sesgados es mejor emplear la Md

124

Propiedades de la Media

La suma de las diferencias entre la media muestral y el valor de cada observación es cero.

La media de una constante es la constante. Si todas las observaciones xi se multiplican

por una constante a, la X también se debe multiplicar por ese mismo valor constante.

125

Propiedades de la Media

Si se somete a una variable estadística X a un cambio de origen y escala, Y = a + bX, la media aritmética de dicha variable X varía en la misma proporción.

La media de la suma de dos variables es igual a la suma de sus medias.

126

Media. Ventajas y desventajas

Ventajas: Emplea en su cálculo toda la información

disponible. Se expresa en las mismas unidades que la

variable en estudio. Es el centro de gravedad de toda la

distribución, representando a todos los valores observados.

Es un valor único.

127

Media. Ventajas y desventajas

Ventajas: Se trata de un concepto familiar para la

mayoría de las personas. Es útil para llevar a cabo procedimientos

estadísticos como la comparación de medias de varios conjuntos de datos.

128

Media. Ventajas y desventajas

Desventajas: Se ve adversamente afectada por valores

extremos, perdiendo representatividad. Si el conjunto de datos es muy grande puede

ser tedioso su cálculo manual. No se puede calcular para datos cualitativos. No se puede calcular para datos que tengan

clases de extremo abierto, tanto superior como inferior.

129

Mediana. Ventajas y desventajas

Ventajas: Fácil de calcular si el número de observaciones

no es muy grande. No se ve influenciada por valores extremos, ya

que solo influyen los valores centrales. Fácil de entender.

130

Mediana. Ventajas y desventajas

Ventajas: Se puede calcular para cualquier tipos de datos

cuantitativos, incluso los datos con clase de extremo abierto.

Es la medida de tendencia central más representativa en el caso de variables que sólo admiten la escala ordinal.

131

Mediana. Ventajas y desventajas

Desventajas: No utiliza en su “cálculo” toda la información

disponible. No pondera cada valor por el número de

veces que se ha repetido. Hay que ordenar los datos antes de

determinarla.

132

Moda. Ventajas y desventajas

Ventajas: No requiere cálculos. Puede usarse para datos tanto cuantitativos

como cualitativos. Fácil de interpretar. No se ve influenciada por valores extremos. Se puede calcular en clases de extremo

abierto.

133

Moda. Ventajas y desventajas

Desventajas: Para conjuntos pequeños de datos su valor

no tiene casi utilidad, si es que de hecho existe. Solo tiene significado en el caso de una gran cantidad de datos.

No utiliza toda la información disponible. No siempre existe, si los datos no se repiten.

134

Moda. Ventajas y desventajas

Desventajas: En ocasiones, el azar hace que una sola

observación no representativa sea el valor más frecuente del conjunto de datos.

Difícil de interpretar si los datos tiene 3 o más modas.

135

Medidas de dispersión

También conocidas como Medidas de variación o variabilidad.

Son valores numéricos que indican o describen la forma en que las observaciones están dispersas o diseminadas, con respecto al valor central.

136

Medidas de dispersión

Son importantes debido a que dos muestras de observaciones con el mismo valor central pueden tener una variabilidad muy distinta.

137

Medidas de dispersión

Rango. Varianza. Desviación Típica. Coeficiente de Variación.

138

Medidas de dispersión: Rango

Rango (amplitud o recorrido): Está determinado por los dos valores

extremos de los datos muestrales, es simplemente la diferencia entre la mayor y la menor observación.

Es una medida de dispersión absoluta, ya que depende solamente de los datos y permite conocer la máxima dispersión.

139

Medidas de dispersión: Rango

Casi no se emplea debido a que depende únicamente de dos valores.

No proporciona una medida de variabilidad de las observaciones con respecto al centro de la distribución.

Notación: R

140

Medidas de dispersión: Varianza

Es un valor numérico que mide el grado de dispersión relativa, porque depende de la posición de los datos x1,x2,…,xn con respecto a la media.

Es el promedio al cuadrado de las desviaciones de cada observación con respecto a la media.

Notación: s2, 2, var(X)

141

Medidas de dispersión: Varianza

Si la varianza de un conjunto de observaciones es grande, se dice que los datos tienen una mayor variabilidad que un conjunto de datos que tenga un varianza menor.

21

2

2

1

2

2

xn

xs

n

xxs

n

ii

n

ii

142

Dispersión: Desviación Típica

Es la raíz cuadrada de la varianza. Notación: s, .

2ss

143

Dispersión: Coeficiente de Variación

Es una medida de dispersión relativa que permite comparar el nivel de dispersión de dos muestras de variables estadísticas diferentes.

No tiene dimensiones. Notación: CV

%100x

sCV

144

Ventajas y Desventajas del Rango

Ventajas: Útil cuando se quiere conocer la extensión

de las variaciones extremas (valor máximo de la dispersión).

Fácil de calcular.

145

Ventajas y Desventajas del Rango

Desventajas: No es una Medida de Dispersión con

respecto al centro de la distribución. Solo emplea dos valores en su cálculo. No se puede calcular en distribuciones de

límite de clase abierto.

146

Propiedades de la Varianza

Propiedades:

1. Siempre es mayor o igual a cero y menor que infinito.

2. La varianza de una constante es cero.

3. Si a una variable X la sometemos a Y=a+bX, la varianza de Y será Var(Y) = b2Var(X)

147

Ventajas y Desventajas - Varianza

Ventajas: Es útil cuando se compara la variabilidad de

dos o más conjuntos de datos. Utiliza toda la información disponible.Desventajas: No proporciona ayuda inmediata cuando se

estudia la dispersión de un solo conjunto de datos.

Difícil de interpretar por tener sus unidades elevadas al cuadrado.

148

Ventajas/Desventajas Desviación Típica

Ventajas: Esta expresada en las mismas unidades que

la variable en estudio. Utiliza todas las observaciones en su

cálculo. Fácil de interpretar.

Desventajas: No tiene.

149

Ventajas/Desventajas Coeficiente de Variación

Ventajas: Es la única Medida de Dispersión que

permite comparar el nivel de dispersión de dos muestras de variables diferentes.

Emplea toda la información disponible en su cálculo.

Fácil de calcular.

150

Desventaja: No es una Medida de Dispersión con

respecto al centro de la distribución de los datos.

Ventajas/Desventajas Coeficiente de Variación

151

Medidas de Forma

Son medidas numéricas que permiten determinar la forma que tiene la curva de los datos. Por lo tanto, sirven para corroborar lo que muestran los gráficos.

Medidasde forma

- Asimetría

- Kurtosis o apuntamiento

Coeficiente de Pearson Coeficiente de Fisher

152

Medidas de Forma: Asimetría

Permiten estudiar la forma de la curva, dependiendo de cómo se agrupan los datos.

153

Medidas de Forma: Asimetría

Coeficiente de Asimetría de Pearson: Fácil de calcular e interpretar. Cálculo:

s

MdXASP

3

o Interpretación:

ASP

= 0, X=Md Simétrica

> 0, X>Md Asimétrica Positiva

< 0, X<Md Asimétrica Negativa

154

Medidas de Forma: Asimetría

Coeficiente de Asimetría de Fisher: No es de fácil cálculo, pero si su interpretación.

3

1

3

31

3

ns

fxMASF

ns

XxASF

k

iii

n

ii

Datos NO agrupados

Datos Agrupados

155

Medidas de Forma: Asimetría

o Interpretación:

ASF

= 0, Simétrica

> 0, Asimétrica Positiva

< 0, Asimétrica Negativa

156

Medidas de Forma: Kurtosis

Miden si los valores de la distribución están más o menos concentrados alrededor de los valores medios de la muestra (zona central de la distribución).

Se definen tres tipos de distribución según su grado de apuntamiento o Kurtosis.

157

Medidas de Forma: Kurtosis

Mesocúrtica: grado de concentración medio alrededor de los valores centrales de la variable.

Leptocúrtica: grado de concentración elevado.

Platicúrtica: grado de concentración reducido.

158

Medidas de Forma: Kurtosis

3

3

41

4

41

4

ns

fXMCK

ns

XxCK

k

iii

n

ii

Datos No Agrupados

Datos Agrupados

159

Medidas de Forma: Kurtosis

Interpretación:

CK

= 0 Mesocúrtica

> 0 Leptocúrtica

< 0 Platicúrtica

CK

160

Referencias:

Wikipedia(http://es.wikipedia.org/wiki/Wikipedia:Portada)

Walpole y Myers. Probabilidad y Estadística. Mc Graw-Hill.

Triola, Mario F. Estadística. Pearson.Armas, G, Jose, M.(2002). Estadística Sencilla:

Descriptiva. Universidad de Los Andes, Facultad de Economía, Departamento de Estadística.

Chao, Lincoln L . 1985. Introducción a la Estadística. México: Continental.

161

Recommended