Universidad Central de Venezuela Facultad de Agronomía Cátedra de Estadística 1

Preview:

Citation preview

1

ESTADÍSTICA I2013

Universidad Central de Venezuela

Facultad de AgronomíaCátedra de Estadística

M. Sc. Raquel Mayela Parraparrar@agr.ucv.ve

2

OBJETIVO 1-TEMA 1 IMPORTANCIA DE LA

ESTADÍSTICA

Universidad Central de Venezuela

Facultad de AgronomíaCátedra de Estadística

Raquel Mayela Parraparrar@agr.ucv.ve

3

OBJETIVO 1- TEMA 1 IMPORTANCIA DE LA ESTADÍSTICA

Definición de Estadística. Importancia de la Estadística en el campo agronómico. Conceptos básicos. Escalas de medición. Análisis Exploratorio de datos: Recolección, Tabulación y Representación Gráficas de datos univariados. Métodos de agrupación de datos: Diagramas de Tallo y Hoja. Distribución de Frecuencias para datos numéricos continuos y discretos. Histogramas y Polígonos de frecuencias. Formas, Simetría y Curtosis. Interpretación de las representaciones gráficas.

Objetivos EspecíficosAplicar e interpretar las diferentes formas de recolectar, organizar y presentar datos de acuerdo a la escala de medición.

4

DEFINICIONES DE ESTADÍSTICA

Es una rama de la matemática aplicada, que tiene por objeto la recolección, organización, interpretación, análisis y presentación de datos numéricos sujetos a variación.

La Estadística se ocupa de los métodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa intrínseca de los mismos; así como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones.

5

ESTADÍSTICA

RECOPILAR ANALIZAR

ORGANIZARINTERPRETAR

6

DEFINICIONES DE ESTADÍSTICA

Podríamos por tanto clasificar la Estadística en: DESCRIPTIVA, cuando los resultados del

análisis no pretenden ir más allá del conjunto de datos, e

INFERENCIAL cuando el objetivo del estudio es derivar las conclusiones obtenidas a un conjunto de datos más amplio,

7

DEFINICIONES DE ESTADÍSTICA

Es decir que, La Estadística DESCRIPTIVA: Describe, analiza y

representa un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos.

La Estadística INFERENCIAL: Apoyándose en el cálculo de probabilidades y a partir de datos muestrales, efectúa estimaciones, decisiones, predicciones u otras generalizaciones sobre un conjunto mayor de datos.

8

CONCEPTOS BÁSICOS

Conjunto de elementos con características similares presentes en un espacio definido y en un tiempo determinado.

POBLACIÓN O CONJUNTO UNIVERSAL

POBLACIÓN ESTADÍSTICA

Conjunto de DATOS numéricos que corresponden a la medición o conteo de alguna característica de los elementos de una población en un espacio definido y en un tiempo determinado.

9

CONCEPTOS BÁSICOS

Si el valor de una variable toma igual valor para todos los elementos de una población, este se denomina constante.

CONSTANTE

MUESTRA

Subconjunto representativo de una población.

10

CONCEPTOS BÁSICOS

Características que le son comunes a los elementos de una población y que varían de uno a otro.

Por ejemplo: el peso de cada uno de nosotros, el promedio de calificaciones de los integrantes de esta sección de clase, el número de horas que le dedicamos a leer la prensa semanalmente, el número de horas que le dedicamos a navegar en internet.

VARIABLE

OBSERVACIÓN

El valor que toma la variable en un momento determinado.

11

CONCEPTOS BÁSICOS

Función definida sobre los valores numéricos de características medibles de una población. Valor que caracteriza a una población como un todo.

PARÁMETRO

ESTADÍSTICO

Función definida sobre los valores numéricos de una muestra. Valor que caracteriza a una muestra.

Los PARÁMETROS son constantes y los ESTADÍSTICOS son variables.

12

ESTADÍSTICA

RECOPILAR ANALIZAR

ORGANIZARINTERPRETAR

13

DEFINICIONES DE ESTADÍSTICA

CENSOS: Cuando se estudia TODA la

población.

MUESTREO: cuando se estudian porciones representativas de una población .

RECOPILAR

14

CONCEPTOS BÁSICOS

Es aquella que se selecciona cuando a cada elemento de la población se le asigna la misma probabilidad de formar parte de la muestra.

MUESTRA AL AZAR SIMPLE

En un galpón de conejos para engorde se desea de un lote de 50 animales tomar el 16% para estudiar su peso. Se procede dándole a cada una de los animales la misma probabilidad de ser parte de la muestra.

POR EJEMPLO:

15

MUESTRA AL AZAR SIMPLE

16

MUESTRA AL AZAR SIMPLE12

3

4

5

6

78

17

MUESTRA AL AZAR SIMPLE

1 2

3

45

6

78

18

CONCEPTOS BÁSICOS

Es aquella que se selecciona cuando los elementos de la población se clasifican en función de los objetivos mismos del muestreo y luego de cada estrato se selecciona una muestra al azar simple.

Es importante señalar que no considerar el o los criterios de estratificación podría afectar el comportamiento de la variable bajo estudio.

MUESTRA ESTRATIFICADA

19

CONCEPTOS BÁSICOS

Se desea estudiar la producción de leche de un rebaño compuesto por varias razas.

Supongamos que de un rebaño de 200 animales debemos extraer una muestra de 20 animales.

MUESTRA ESTRATIFICADAPOR EJEMPLO:

20

MUESTRA ESTRATIFICADAPOBLACIÓN

23

27

2720

23

3017

33

14

7

92

6

103

8

11

14 15

1712

16

5 13

12

34

5 6 78

910

111213

14 1516 1718

192021

2223

242526 2

7

12 3

4567 8 910

11121314 15

1617

1819

20212223

12

3 45

67

8910 11

1213

1415

1617

18192021

23 2425

26

27

28

29

3022

13

15

1619

81

2

4

6

9

10

171823

2221

2014

1211

7

5 3

8 12

34

65

7119

1013

14

1512

1718

1620

19

22

7

8

11

18

199

1029

2827

26

25

24

64

3

16

15

33

1

1721

2032

31

305

2

14

1312

23

109

87

65

4

3

1

2

14

1516 17 18

1920

21

22

23

2425

26

27

1312

11

21 21

23

27 2720

2330

17

33

14

7

926

103

8

11

14 151712

16

5 13

12

34 5 6 78

910

111213

141516171819

202122 2

3

242526 2

7

12 3

4567 8 910

11121314 15

1617

1819

20212223

123 4

567 8

91011

121314

1516

171819

20212324

2526

27

2829

3022

13

15

16 198

12

4

6

9

101718

23

2221

2014

1211

7

5 3

8 12

3 465

7119

1013

14

1512

1718

16 20 19

22

7

8

11

18

199

1029

2827

26

25

24

64

3

16

15

33

1

1721

2032

31

305

2

14

1312

23

109

87

65

4

3

1

2

14

1516 17 18

1920

21

22

23

2425

26

27

1312

11

MUESTRA

22 22

23

27 2720

2330

17

33

14

7

926

103

8

11

14 151712

16

5 13

12

34 5 6 78

910

111213

141516171819

202122 2

3

242526 2

7

12 3

4567 8 910

11121314 15

1617

1819

20212223

123 4

567 8

91011

121314

1516

171819

20212324

2526

27

2829

3022

13

15

16 198

12

4

6

9

101718

23

2221

2014

1211

7

5 3

8 12

3 465

7119

1013

14

1512

1718

16 20 19

22

7

8

11

18

199

1029

2827

26

25

24

64

3

16

15

33

1

1721

2032

31

305

2

14

1312

23

109

87

65

4

3

1

2

14

1516 17 18

1920

21

22

23

2425

26

27

1312

11

MUESTRA

23 23

23

27 2720

2330

17

33

14

7

926

103

8

11

14 151712

16

5 13

12

34 5 6 78

910

111213

141516171819

202122 2

3

242526 2

7

12 3

4567 8 910

11121314 15

1617

1819

20212223

123 4

567 8

91011

121314

1516

171819

20212324

2526

27

2829

3022

13

15

16 198

12

4

6

9

101718

23

2221

2014

1211

7

5 3

8 12

3 465

7119

1013

14

1512

1718

16 20 19

22

7

8

11

18

199

1029

2827

26

25

24

64

3

16

15

33

1

1721

2032

31

305

2

14

1312

23

109

87

65

4

3

1

2

14

1516 17 18

1920

21

22

23

2425

26

27

1312

11

MUESTRA

24

COMPOSICIÓN DE UNA MUESTRA ESTRATIFICADA REPRESENTATIVA del 10%N; n=20

12

15

13

9

22

# DE ANIMALES

RAZA POBLACION MUESTRA

23 2

17 2

20 2

30 3

23 2

33 3

27 3

27 3

6

8

17

8

15

11

23

5

8

27

20

13

307

1

25

ESTADÍSTICA

RECOPILAR ANALIZAR

ORGANIZARINTERPRETAR

26

ESCALAS DE MEDICIÓN

Medir una variable trae como consecuencia

directa el pensar que tipo de respuesta tenemos bajo estudio.

En el nivel más bajo de abstracción,

podemos pensar que cualquier variable puede ser clasificada en cualitativa o cuantitativa. Es decir que, puede medirse como datos categóricos o como datos métricos.

ORGANIZAR

27

ESCALAS DE MEDICIÓN

Estado de ánimo

Estado del tiempo

Dirección del viento

VARIABLES CUALITATIVAS-DATOS CATEGÓRICOS

Color de las flores

28

ESCALAS DE MEDICIÓN

Concentraciones

Tiempo (Duración)

TemperaturaCaudal

VARIABLES CUANTITATIVAS-DATOS MÉTRICOS

29

Sin embargo a un nivel de abstracción más

elevado podemos decir que cualquier medición puede clasificarse como medida en cuatro tipos de escalas, a saber:

30

Escala nominal

En este tipo de escala, sólo se le asigna un nombre a

cada una de las posibles categorías de medición que se realiza.

Por ejemplo: cuando se evalúa el color de las flores de una especie, rojo, rosado, moteado y blanco, en este caso no existe ningún tipo de relación de jerarquía entre las distintas categorías.

Podríamos decir que con este tipo de escala lo que hacemos es los asignar valores de la respuesta en clases o categorías.

31

Escala ordinal

En este tipo de escala también se le asigna un nombre a cada una de las posibles categorías de medición que se realiza, pero en este caso existe una relación de jerarquía, un cierto orden, entre las distintas categorías. Razón por la cual hay una relación de importancia entre categorías.

Por ejemplo: El grado de recuperación de un paciente al aplicarle un tratamiento, en el que podemos tener como respuesta Nada, Poco, Moderado, Bueno, Muy Bueno.

A veces se representan este tipo de variables en escalas numéricas, por ejemplo, puntuar el dolor en una escala de 1 a 5. Debemos evitar sin embargo realizar operaciones algebraicas con estas cantidades, ¡Un dolor de intensidad 4 no duele el doble que otro de intensidad 2!

32

Escala de intervalo

En este tipo de escala las respuestas no sólo pueden ser ordenadas según una relación de importancia entre categorías, sino también se pueden establecer entre clases medidas de distancia, sin embargo para este tipo de medición tanto el cero como las medidas de distancia son arbitrarios.

Por ejemplo: El caso de la variable temperatura, donde según la escala que se utilice el cero grados tiene diferente significado.

33

Escala de proporción o razón

En este tipo de escala las respuestas corresponden a los números reales. Entre los valores observados de este tipo de mediciones no sólo pueden establecer relaciones de igualdad, orden o jerarquía, distancia y razón; en este caso el cero es real.

Por ejemplo: El caso del área, el rendimiento y el peso.

34

ESTADÍSTICA

RECOPILAR ANALIZAR

ORGANIZARINTERPRETAR

35

ANÁLISIS EXPLORATORIO DE DATOS

Aplicación de herramientas de observación exploratorias e informales a los datos con el fin de obtener una primera impresión de los mismos.

ANALIZARE INTERPRETAR

ANÁLISIS

GRÁFICO

ANÁLISIS

NUMÉRICO

36

ANÁLISIS EXPLORATORIO DE DATOS

Importancia del AED:

Proporciona métodos sencillos para organizar sistemáticamente los datos, prepararlos para su posterior análisis.

Permite la detección de fallos en el diseño y recogida de los mismos.

Permite detectar y evaluar el impacto de datos faltantes (missing) y atípicos (outliers).

Incluye la comprobación de los supuestos subyacentes en la mayor parte de las técnicas de análisis estadístico de datos (normalidad, linealidad, homocedasticidad).

37

ANÁLISIS EXPLORATORIO DE DATOS

Etapas del AED:

1. Preparación y organización de los datos. 2. Análisis gráfico y numérico

unidimensional. 3. Análisis gráfico y numérico bidimensional. 4. Evaluación de supuestos (normalidad,

linealidad, homocedasticidad).5. Identificación y evaluación de impacto de

datos atípicos (outliers).6. Evaluación del impacto potencial de datos

faltantes.

38

TÉCNICAS DE AGRUPACIÓN DE DATOS

Construcción e interpretación de Tablas de Distribución de Frecuencias (TDF) y Diagramas

39

TABULACIÓN DE DATOS-TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS

En el caso de variables cualitativas o cuantitativas con pocos datos:

Clase fi

Tigres 55

Magallanes

35

Leones 45

Caribes 25

Cardenales

25

Tiburones 20

Aguilas 30

40

TABULACIÓN DE DATOS-TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS

En el caso de variables cuantitativas:Consumo de agua (m3) de 40 familias de un

barrio ubicado en la zona urbana durante el mes de octubre.

Consumo de agua (m3)

4 8 8 13 15 20 10 19

9 18 17 16 16 29 17 23

3 17 25 10 18 29 6 23

11 23 10 21 21 6 22 18

13 23 12 23 17 22 18 27

41

TABULACIÓN DE DATOS-TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS

Ordenar los valores de menor a mayor

Consumo de agua (m3)

3 4 6 6 8 8 9 10

10 10 11 12 13 13 15 16

16 17 17 17 17 18 18 18

18 19 20 21 21 22 22 23

23 23 23 23 25 27 29 29

42

CONSTRUCCIÓN DE LA TDF

1. Calcular la Amplitud de VariaciónAV=VMax-Vmin

2. Determinar el número de clasesK=(5,20)

3. Calcular el Intervalo de ClasesIC=AV/K

4. Construir la tabla siguiente:

43

Título: Tabla de distribución de frecuencias del consumo de agua (m3) de 40 familias de un barrio ubicado en la zona urbana durante el mes de octubre.

k Li CC Ls fi fr Fi Fr

1

2

3

4

5

CONSTRUCCIÓN DE LA TDF

44

REPRESENTACIONES GRÁFICAS

El aserto “una imagen vale más que mil palabras” se puede aplicar al ámbito de la estadística descriptiva diciendo que “un gráfico bien elaborado vale más que mil tablas de frecuencias”.

ANALIZARE INTERPRETAR

45

HISTOGRAMA Y POLÍGONO DE FRECUENCIAS

46

SIMETRIA DE LA DISTRIBUCIÓN DE UN CONJUNTO DE DATOS

Simétrica

47

SIMETRIA DE LA DISTRIBUCIÓN DE UN CONJUNTO DE DATOS

Asimétrica positiva

48

SIMETRIA DE LA DISTRIBUCIÓN DE UN CONJUNTO DE DATOS

Asimétrica negativa

49

KURTOSIS DE LA DISTRIBUCIÓN DE UN CONJUNTO DE DATOS

Platicúrtica

50

KURTOSIS DE LA DISTRIBUCIÓN DE UN CONJUNTO DE DATOS

Mesocúrtica

51

KURTOSIS DE LA DISTRIBUCIÓN DE UN CONJUNTO DE DATOS

Leptocúrtica

52

POLÍGONO DE FRECUENCIAS ACUMULADAS U OJIVA

53

POLÍGONO DE FRECUENCIAS ACUMULADAS U OJIVA

Polígono de frecuencias acumuladas ojiva menos

que.

Polígono de frecuencias acumuladas ojiva menos

que.

Polígono de frecuencias acumuladas ojiva más

que.

Polígono de frecuencias acumuladas ojiva más

que.

54

Gráficos para variables cuantitativas

Diagrama de tallo y hoja

TALLO HOJA FRECUENCIA

34557

7370050348020559313

120340626379731455580

4085962575

94708581482

55

OTRAS REPRESENTACIONES GRÁFICAS UNIVARIADAS

56

Gráficos para variables cualitativas

Diagrama de sectores (torta)

57

Gráficos para variables cualitativas

Diagrama de sectores (torta)

58

Gráficos para variables cualitativas

Diagrama de barras

59

Gráficos para variables cualitativas

Pictogramas

60

Gráficos para variables cuantitativas

Casos en los que NO se deben utilizar los Gráficos de dispersión XY o scatterplots

1 2 3 40

50

100

150

200

250

158 162 168195

55 52 6080

Estatura y peso de 4 estudiantes de Estadística

Estatura (cm) Peso (kg)

Estudiante

61

Gráficos para variables cuantitativas

Casos en los que NO se deben utilizar los Gráficos de dispersión XY o scatterplots

1 2 3 40

50

100

150

200

250

158 162 168195

55 52 6080

Estatura y peso de 4 estudiantes de Estadística

Estatura (cm) Peso (kg)

EstudianteX

62

Gráficos para variables cuantitativas

Gráficos de barras

1 2 3 40

50

100

150

200

250

158 162 168195

55 52 6080

Estatura y peso de 4 estudiantes de Estadística

Estatura (cm) Peso (kg)

Estudiante

63

Gráficos para variables cuantitativas

Diagrama de caja o box-plot

Valores Atípicos Outliers

Promedio

Límite superior admisible

Límite inferior admisible

Mediana (P50% o Q2)

Tercer cuartil ( P75% o Q3)

Primer cuartil ( P25% o Q1)

64

ALGUNAS REPRESENTACIONES GRÁFICAS BIVARIADAS

Gráficos para variables cual.-cuant.

65

Gráficos para variables cual.-cuant.

66

Gráficos para variables cual.-cuant.

Diagrama de caja o box-plot por categoría

N =

ESTACIÓN

Convencional

Automática

TM

IN

28

26

24

22

20

18

16

14

12

10

67

Gráficos para variables cuant.-cuant.

Gráficos de dispersión XY o scatterplots

20 40 60 80 100

0

1

0 2

0 3

0 40

Con

cen

tració

n d

e o

zon

o

Temperatura

Y=f(X)

.

.

..

68

Especializados:Gráficos para variables cual.-cuant.

69

EJEMPLO -ESTUDIO CONJUNTO DE DOS VARIABLES

Altura ( cm) Peso ( kg)

162 61

154 60

180 78

158 62

171 66

169 60

166 54

176 84

163 68

... ...

En cada fila tenemos los datos de un individuo, cada columna representa los valores que toma una variable sobre cada individuo.

Dichas observaciones pueden ser representadas en un diagrama de dispersión (‘scatterplot’). En ellos, cada individuo es un punto cuyas coordenadas son los valores de las variables.

Nuestro objetivo será intentar reconocer a partir del mismo si hay relación entre las variables, de qué tipo, y si es posible predecir el valor de una de ellas en función de la otra.

70

OBS ALTURA

PESO OBS PESO ALTURA

OBS ALTURA

PESO

1 160 95 11 96 178 21 190 120

2 183 88 12 99 166 22 169 81

3 162 123 13 64 170 23 175 90

4 184 100 14 49 168 24 184 50

5 180 66 15 66 185 25 166 79

6 183 98 16 87 175

7 165 43 17 89 180

8 189 90 18 42 156

9 168 50 19 150 167

10 150 44 20 180 190

71

DIAGRAMA DE PUNTOS

140

160

180

200

0 20 40 60

ESTUDIANTE

AL

TU

RA

(cm

)

DIAGRAMA DE PUNTOS

30

80

130

180

0 20 40 60

ESTUDIANTE

PE

SO

(K

g)

72

120

140

160

180

200

1 6 11 16 21 26

ALTURA (cm

)

ESTUDIANTE

ALTURA DE LOS ESTUDIANTES DE LA SECCION 03

PESO DE LOS ESTUDIANTES DE LA SECCION 03

20

70

120

170

220

0 5 10 15 20 25 30

ESTUDIANTE

PE

SO

(kg)

¿Será lo correcto unir esos puntos?

73

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

DIAGRAMAS DE DISPERSIÓN O NUBE DE PUNTOS

Mid

e 1

87 c

m.

Mide 161 cm.

Pesa 76 kg.

Pesa 50 kg.

Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersión.

74

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

RELACIÓN ENTRE VARIABLES.Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersión.

Parece que el peso aumenta con la

altura

75

No correlación

30

80

130

180

230

280

330

140 150 160 170 180 190 200

CÓMO RECONOCER RELACIÓN DIRECTA E INVERSA.

Fuerte relacióndirecta.

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Cierta relacióninversa

0

10

20

30

40

50

60

70

80

140 150 160 170 180 190 200

Para valores de X por encima de la media tenemos valores de Y por encima y por debajo en proporciones similares. No correlación.

Para los valores de X mayores que la media le corresponden valores de Y menores. Esto es relación inversa o decreciente.

•Para los valores de X mayores que la media le corresponden valores de Y mayores también.

•Para los valores de X menores que la media le corresponden valores de Y menores también.

•Esto se llama relación directa o creciente entre X e Y.

76

A REPASAR!!!

Recommended