94
UNIVERSIDAD DE GUAYAQUIL DIRECCIÓN DE INVESTIGACIÓN Y PROYECTOS ACADÉMICOS Curso de fortalecimiento de la investigación para personal docente MODULO ESTADÍSTICA Capitulo 1: Introducción a la estadística aplicada GRUPO : D Profesor : PhD Félix Olivero

Capítulo 1 : Introducción a la Estadística Aplicada

  • Upload
    ug-dipa

  • View
    484

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Capítulo 1 : Introducción a la Estadística Aplicada

UNIVERSIDAD DE GUAYAQUILDIRECCIÓN DE INVESTIGACIÓN Y PROYECTOS ACADÉMICOS

Curso de fortalecimiento de la investigación para personal docente

MODULO ESTADÍSTICACapitulo 1: Introducción a la estadística aplicada

GRUPO : DProfesor : PhD Félix Olivero

Page 2: Capítulo 1 : Introducción a la Estadística Aplicada

ÍndiceCapítulo 1. Introducción a la Estadística Aplicada. Sub unidad 1: Objeto de estudio de la Estadística, Particularidades de la Estadística Aplicada. Sub unidad 2: Datos científicos, Variables. Tipos de variables, discretas y continuas. Escala Estadística.Sub unidad 3: Tabla de distribución de frecuencias. Sub unidad 4: La Estadística Descriptiva. Sub unidad 5: La Estimación puntual y por intervalosSub unidad 6: Como realizar gráficos estadísticos. Sub unidad 7: Uso del sistema estadístico SPSS, Excel y otros.

Page 3: Capítulo 1 : Introducción a la Estadística Aplicada

3

Estadística

Introducción¿Qué es la estadística?Es una Ciencia que explica y provee de herramientas para trabajar con datos, ha experimentado un gran desarrollo a lo largo de los últimos años.

¿En qué áreas se aplica la estadística?Actualmente se aplica en todas las áreas del saber, por ejemplo en Sociología, Educación, Psicología, Administración, Economía, Medicina, Ciencias Políticas, entre otras.

Ejemplos de su aplicación son:

1) En Administración de Empresas: la estadística se utiliza para evaluar un producto antes de comercializarlo.

2) En Economía: para medir la evolución de los precios mediante números índice o para estudiar los hábitos de los consumidores a través de encuestas de presupuestos familiares.

Page 4: Capítulo 1 : Introducción a la Estadística Aplicada

4

Estadística

Introducción

Ejemplos de su aplicación son:

3) En Ciencias Políticas: para conocer las preferencias de los electores antes de una votación mediante sondeos y así orientar las estrategias de los candidatos.

4) En Sociología: para estudiar las opiniones de los colectivos sociales sobre temas de actualidad.

5) En Psicología: para elaborar las escalas de los test y cuantificar aspectos del comportamiento humano (por ejemplo los test que se aplican a los candidatos para un cargo en una empresa).

6) En Medicina: uno entre muchos usos de la estadística, es para determinar el estado de salud de la población.

En general en las Ciencias Sociales, la estadística se emplea para medir las relaciones entre variables y hacer predicciones sobre ellas.

Page 5: Capítulo 1 : Introducción a la Estadística Aplicada

5

Estadística

IntroducciónEtapas de un estudio estadístico

Un análisis estadístico se lleva a cabo siguiendo las etapas habituales en el llamado método científico cuyas etapas son:

1) Planteamiento del problema: consiste en definir el objetivo de la investigación y precisar el universo o población.

2) Recogida de la información: consiste en recolectar los datos necesarios relacionados al problema de investigación.

3) Análisis descriptivo: consiste en resumir los datos disponibles para extraer la información relevante en el estudio.

4) Inferencia estadística: consiste en suponer un modelo para toda la población partiendo de los datos analizados para obtener conclusiones generales.

5) Diagnóstico: consiste en verificar la validez de los supuestos del modelo que nos han permitido interpretar los datos y llegar a conclusiones sobre la población

Page 6: Capítulo 1 : Introducción a la Estadística Aplicada

6

Estadística

IntroducciónEsquema de las etapas de un estudio estadístico

AREA DE INTERES DATOSDATOS

Tema de InvestigaciónTema de Investigación

-Antecedentes Previos Antecedentes Previos

-ObjetivosObjetivos

-Preguntas de InvestigaciónPreguntas de Investigación

-Posibles HipótesisPosibles Hipótesis

-Unidad de AnálisisUnidad de Análisis

-PoblaciónPoblación

-VariablesVariables

ORGANIZAR Y RESUMIRORGANIZAR Y RESUMIR

ESTADÍSTICA DESCRIPTIVAESTADÍSTICA DESCRIPTIVA (Tablas, Gráficos, Medidas Descriptivas, etc.)

INTERPRETACIÓN

INFERENCIA ESTADÍSTICAINFERENCIA ESTADÍSTICA

¿Población o Muestra?¿Población o Muestra?

CONCLUSIONES

Población Población

MuestraMuestra

ProbabilidadProbabilidadINFORMACIÓN

Page 7: Capítulo 1 : Introducción a la Estadística Aplicada

7

Estadística

IntroducciónEjemplos de algunos problemas a estudiar

1) Se quiere estudiar si en cierto colectivo existe discriminación salarial debida al sexo de la persona empleada.

2) Se quiere determinar el perfil de los trabajadores en términos de condiciones económicas y sociales en diferentes comunidades.

3) Se quiere estudiar el consumo de las personas de una zona determinada en cuanto a vestuario, alimentación, ocio y vivienda.

4) Se quiere determinar las tallas estándar en vestuario para mujeres ecuatorianas.

5) Se quiere determinar el tiempo que dedican al trabajo y a la familia los trabajadores de distintas empresas del país.

6) Se quiere determinar el perfil sociodemográfico de los estudiantes de una Universidad.

7) Se quiere estudiar el gasto en teléfono móvil mensual de los estudiantes de una Universidad, y si éste tiene alguna relación con su edad u otras características.

Page 8: Capítulo 1 : Introducción a la Estadística Aplicada

8

• VARIABLE: VARIABLE: es lo que se va a medir y representa una característica de la es lo que se va a medir y representa una característica de la UNIDAD DE UNIDAD DE ANÁLISISANÁLISIS..

• ¿QUIÉNES VAN A SER MEDIDOS?: ¿QUIÉNES VAN A SER MEDIDOS?: Los sujetos u objetos o Unidades de Análisis de una Los sujetos u objetos o Unidades de Análisis de una Población o una MuestraPoblación o una Muestra• POBLACIÓN :POBLACIÓN : Es el total de unidades de análisis que son tema de estudio. Es el total de unidades de análisis que son tema de estudio.

Muestra: 60 trabajadores de empresas de comunicación

Unidad de análisis: Trabajador de empresa de comunicación

Variables: sexo, edad, salario, Nº de horas de trabajo, etc.

Población: Población:

““Las personas que Las personas que trabajantrabajan en empresas de en empresas de

comunicacióncomunicación” ”

Estadística

• MUESTRA: MUESTRA: Es un conjunto de unidades de análisis provenientes de una población.Es un conjunto de unidades de análisis provenientes de una población.

MuestraMuestra

Resumen de algunos conceptos planteados en la Introducción

Page 9: Capítulo 1 : Introducción a la Estadística Aplicada

9

TIPOS DE VARIABLESTIPOS DE VARIABLES

Variables CuantitativasVariables Cuantitativas

VariableVariable: : corresponde a la característica de la Unidad de Análisiscorresponde a la característica de la Unidad de Análisis

IntervaloIntervalo DISCRETADISCRETA

Variables Variables CualitativasCualitativasCONTINUACONTINUA

Toma valores enteros Toma valores enteros

EjemplosEjemplos: : Número de HijosNúmero de Hijos, , Número de Número de empleados de una empresaempleados de una empresa, , Número de Número de

asignaturas aprobadas en un semestreasignaturas aprobadas en un semestre, etc., etc.

Toma cualquier valor dentro de un intervalo Toma cualquier valor dentro de un intervalo

EjemplosEjemplos: : Peso; Estatura; Temperatura, etc.Peso; Estatura; Temperatura, etc.

Unidad de MedidaUnidad de Medida: : GramosGramos o o KilosKilos para la variable Peso; Grados para la variable Peso; Grados CC o o F F para Temperatura para Temperatura

ORDINALORDINALNOMINALNOMINAL

Característica o cualidad Característica o cualidad cuyas categorías no tienen cuyas categorías no tienen un orden preestablecido. un orden preestablecido.

EjemplosEjemplos: : Sexo, Deporte Sexo, Deporte FavoritoFavorito, etc., etc.

Característica o cualidad cuyas Característica o cualidad cuyas categorías tienen un orden categorías tienen un orden

preestablecido. preestablecido.

EjemplosEjemplos: Calificación (S, N, A); : Calificación (S, N, A); Grado de Interés por un tema, etc.Grado de Interés por un tema, etc.

Estadística

Page 10: Capítulo 1 : Introducción a la Estadística Aplicada

10

FrecuenciaFrecuencia: desde un conjunto de unidades, corresponde al Número o Porcentaje de veces que se : desde un conjunto de unidades, corresponde al Número o Porcentaje de veces que se presenta una característica.presenta una característica.

DISCRETADISCRETA

CONTINUACONTINUA

ORDINALORDINAL

NOMINALNOMINAL

TIPO FRECUENCIATIPO FRECUENCIAFrecuencia AbsolutaFrecuencia Absoluta

(F)(F)Frecuencia RelativaFrecuencia Relativa

(f)(f)Frecuencia Absoluta Frecuencia Absoluta

Acumulada (FAA)Acumulada (FAA)Frecuencia Relativa Frecuencia Relativa

Acumulada (fra)Acumulada (fra)

DISCRETADISCRETA

CONTINUACONTINUANOMINALNOMINAL

ORDINALORDINAL

Variable Variable CuantitativaCuantitativa

Variable Variable CualitativaCualitativa

Variable Variable CuantitativaCuantitativa

Variable Variable CualitativaCualitativa

Estadística

Page 11: Capítulo 1 : Introducción a la Estadística Aplicada

11

VariablesVariables- Tipo de Industria- Tipo de Industria: se clasifica en industria tipo A, B, C o D. (: se clasifica en industria tipo A, B, C o D. (cualitativa nominalcualitativa nominal))- - Nº de EmpleadosNº de Empleados: se refiere al número de empleados en las líneas de producción. (: se refiere al número de empleados en las líneas de producción. (cuantitativa cuantitativa

discretadiscreta))- - SuperficieSuperficie: se refiere a los : se refiere a los metros cuadradosmetros cuadrados ( (unidad de medidaunidad de medida) disponibles para las áreas de ) disponibles para las áreas de

producción. (producción. (cuantitativa continuacuantitativa continua))- - CalificaciónCalificación: calificación realizada por una institución pública sobre cumplimiento de ciertos : calificación realizada por una institución pública sobre cumplimiento de ciertos

estándares (Muy Bien, Bien, Regular, Mal). (estándares (Muy Bien, Bien, Regular, Mal). (cualitativa ordinalcualitativa ordinal))

Industria nº Tipo Nº Empleados Superficie Calificación1 A 100 1000,6 Muy Bien2 B 150 1200,4 Bien...

.

.

.

.

.

.

.

.

.

.

.

.299 D 250 800,3 Mal300 C 300 4000,2 Regular

Problema de InvestigaciónProblema de Investigación: Se quiere establecer el perfil de las industrias : Se quiere establecer el perfil de las industrias de conserva en función de algunas características. de conserva en función de algunas características.

Unidad de AnálisisUnidad de Análisis: Industria de Conserva: Industria de Conserva

PoblaciónPoblación: Industrias de Conservas del país: Industrias de Conservas del país

DatosDatos

EJEMPLOEJEMPLO

Estadística

Page 12: Capítulo 1 : Introducción a la Estadística Aplicada

12

EJEMPLOEJEMPLO

TABLAS DE TABLAS DE FRECUENCIAFRECUENCIA

Tipo deIndustria

FrecuenciaAbsoluta (Fj)

FrecuenciaRelativa (fj)

Porcentaje(%)

ABCD

Total 300 1 100

CalificaciónFrec.

Absoluta (Fj)Frec.Relativa

(fj) o %Frec. Absol.

Acum. (FAAj)Frec. Relat.

Acum. (fraj) o %Muy Bien

BienRegular

Mal 300 1 (o 100)Total 300 1 (o 100)

Numero deEmpleados

Frec.Absoluta (Fj)

Frec.Relativa(fj) o %

Frec. Absol.Acum. (FAAj)

Frec. Relat.Acum. (fraj) o %

<100[100-150[

.

.[950-1000] 300 1 (o 100%)

Total 300 1 (o 100%) Superficie(mt2)

Frec.Absoluta (Fj)

Frec.Relativa(fj) o %

Frec. Absol.Acum. (FAAj)

Frec. Relat.Acum. (fraj) o %

<200[200-400[

.

.[50000-5200] 300 1 (o 100%)

Total 300 1 (o 100%)

(1)(1)(2)(2)

(3)(3)

(4)(4)

Problema de InvestigaciónProblema de Investigación: Se quiere establecer el perfil de las industrias de conserva en : Se quiere establecer el perfil de las industrias de conserva en función de algunas características. función de algunas características.

Unidad de AnálisisUnidad de Análisis: Industria de Conserva: Industria de Conserva

PoblaciónPoblación: Industrias de Conservas del país: Industrias de Conservas del país

Estadística

Page 13: Capítulo 1 : Introducción a la Estadística Aplicada

13

Elementos de una tabla de frecuencia cuando la variable es continua (x)Elementos de una tabla de frecuencia cuando la variable es continua (x)

Intervalo Centro de clase Amplitud F f FAA fra

I1 c1 a1 I2 c2 a2 . .

Ik ck ak n 1 Total n 1

[LI1 ; LS1 [

[LI2 ; LS2 [

[LIk ; LSk]

aj = (LSj – LIj))cj = (LIj) + LSj )/2

Estadística

Page 14: Capítulo 1 : Introducción a la Estadística Aplicada

14

Ejercicio: confección de una tabla de frecuencia para una variable Ejercicio: confección de una tabla de frecuencia para una variable continuacontinua

10,5 10,7 9,5 10,5 11,8 11,2 12,0 10,3 13,5 12,3 10,6 9,8 10,7 11,5 11,1 10,6 9,3 12,9 10,4 7,5 10,2 8,7 10,9 9,9 11,7 10,3 10,6 10,5 11,9 11,0 13,9 10,6 10,0 10,8 10,6 - 7,3 8,0 8,5 12,5 9,7 -

Los datos corresponden a la edad de Los datos corresponden a la edad de los hijos de los trabajadores de una los hijos de los trabajadores de una

empresa empresa

7,3 9,7 10,4 10,6 11,1 12,3 7,5 9,8 10,5 10,6 11,2 12,5 8,0 9,9 10,5 10,7 11,5 12,9 8,5 10,0 10,5 10,7 11,7 13,5 8,7 10,2 10,6 10,8 11,8 13,9 9,3 10,3 10,6 10,9 11,9 - 9,5 10,3 10,6 11,0 12,0 -

Datos ordenados de menor a mayorDatos ordenados de menor a mayor

1)1) Construya un histograma de frecuenciasConstruya un histograma de frecuencias

2)2) ¿Cuál es la variable?; ¿Cuál es la Unidad de ¿Cuál es la variable?; ¿Cuál es la Unidad de análisis?; ¿Cuánto vale n?; ¿Cuál es el rango análisis?; ¿Cuánto vale n?; ¿Cuál es el rango de la variable?. de la variable?.

3)3) Sobre una Tabla de frecuenciaSobre una Tabla de frecuencia: ¿Cuántos : ¿Cuántos intervalos podría construir?; ¿Cuál es la intervalos podría construir?; ¿Cuál es la amplitud de cada intervalo?; ¿Cuántas amplitud de cada intervalo?; ¿Cuántas medidas de frecuencia puede obtener para medidas de frecuencia puede obtener para cada intervalo?.cada intervalo?.

4)4) Construir tabla de frecuenciaConstruir tabla de frecuencia para la para la variablevariable: Intervalos, centro de clase, : Intervalos, centro de clase, amplitud, frecuencias.amplitud, frecuencias.

Realice la siguiente actividadRealice la siguiente actividad

Histograma : permite organizar los datos de una variable medida sobre un conjunto de individuos. Su utilidad viene dada cuando no contamos con herramientas automáticas para ordenar los datos.

Estadística

Page 15: Capítulo 1 : Introducción a la Estadística Aplicada

15

TIPOS DE TIPOS DE GRÁFICOSGRÁFICOS

1. Gráfico de Sectores Circulares (de 1. Gráfico de Sectores Circulares (de Torta)Torta)

Distribución de las unidades de análisis de acuerdo a variable 1

A20%

D10%

C40%

B30%

Distribución de las unidades de análisis de acuerdo a variable 1

B30%

C40%

D10% A

20%

Distribución de las unidades de análisis de acuerdo a variable 1

B30%

C40%

D10%

A20%

Estadística

Page 16: Capítulo 1 : Introducción a la Estadística Aplicada

16

TIPOS DE TIPOS DE GRÁFICOSGRÁFICOS

2. Gráficos de Barras2. Gráficos de Barras

Numero de unidades de análisis de acuerdo a variable 1

0

100

200

300

400

500

A B C D

variable 1

Porcentaje de unidad de análisis de acuerdo a variable 1

0 20 40 60 80 100

A

B

C

D

varia

ble

1

% unidad de análisis

-Este tipo de gráfico se utiliza generalmente para Este tipo de gráfico se utiliza generalmente para representar la frecuenciarepresentar la frecuencia de las categorías de una de las categorías de una variable cualitativavariable cualitativa. .

-Cuando una variable es cuantitativa se puede utilizar Cuando una variable es cuantitativa se puede utilizar este tipo de gráfico sólo si la variable se ha este tipo de gráfico sólo si la variable se ha transformada en categorías.transformada en categorías.

-Hay distintas versiones de estos gráficos (por ejemplo Hay distintas versiones de estos gráficos (por ejemplo en Excel), y en algunos casos son muy útiles para en Excel), y en algunos casos son muy útiles para describir el comportamiento de una variable en distintos describir el comportamiento de una variable en distintos grupos.grupos.

Proporción de unidad de análisis de acuerdo a variable 1

0 0,2 0,4 0,6 0,8 1

A

B

C

D

varia

ble

1

Proporción de unidad de análisis

Estadística

Page 17: Capítulo 1 : Introducción a la Estadística Aplicada

17

HistogramaHistograma

- Permite la representación de - Permite la representación de la la frecuenciafrecuencia de una de una variable variable CuantitativaCuantitativa..

- El El ejeeje xx se refiere a la se refiere a la variable.variable.

- El El ejeeje yy se refiere a la se refiere a la frecuencia (Nº , %).frecuencia (Nº , %).

- Cada Cada barrabarra representa la representa la frecuencia de la variable en la frecuencia de la variable en la población en estudio (o la población en estudio (o la muestra). muestra).

-El histograma se puede El histograma se puede construir desde los datos de la construir desde los datos de la tabla de frecuencia de la tabla de frecuencia de la variable en estudio.variable en estudio.

TIPOS DE TIPOS DE GRÁFICOSGRÁFICOS

3. Histograma3. Histograma

1413121110987

15

10

5

0

edad

Frec

uenc

iaN

ºN

º

edadedad

HistogramaHistograma

Distribución de los hijos de trabajadores Distribución de los hijos de trabajadores de la empresa de acuerdo a edadde la empresa de acuerdo a edad

EjemploEjemplo

En el gráfico se puede observar el En el gráfico se puede observar el número de número de hijoshijos , de menor edad (7-8 años), las de mayor , de menor edad (7-8 años), las de mayor edad (13-14 años); y además que la mayoría de edad (13-14 años); y además que la mayoría de hijos de los trabajadores están entre los 10 y 12 hijos de los trabajadores están entre los 10 y 12

años.años.

Estadística

Page 18: Capítulo 1 : Introducción a la Estadística Aplicada

18

TIPOS DE TIPOS DE GRÁFICOSGRÁFICOS

5. Polígono de Frecuencia5. Polígono de Frecuencia

edadedad

1413121110987

15

10

5

0

edad

Frec

uenc

iaN

ºN

º

Distribución de los hijos de trabajadores Distribución de los hijos de trabajadores

de la empresade la empresa de acuerdo a edadde acuerdo a edad -Esta representación se basa en Esta representación se basa en el Histograma.el Histograma.

-Sólo es útil para variables Sólo es útil para variables cuantitativascuantitativas..

-El El eje xeje x se refiere a la se refiere a la variable.variable.

- El El ejeeje yy se refiere a la se refiere a la frecuencia (Nº , %). frecuencia (Nº , %).

-Los puntos que permiten la Los puntos que permiten la unión de las líneas representa unión de las líneas representa el el centro de clase centro de clase (o marca de (o marca de clase)clase)..

Estadística

Page 19: Capítulo 1 : Introducción a la Estadística Aplicada

19

TIPOS DE TIPOS DE GRÁFICOSGRÁFICOS

5. Diagrama de Caja5. Diagrama de Caja

- Permite identificar gráficamente la Permite identificar gráficamente la mediana, los cuartiles 1 y 3 mediana, los cuartiles 1 y 3 (percentiles 25 y 75), mínimo y (percentiles 25 y 75), mínimo y máximo de una variable. máximo de una variable.

- Sólo es útil para variables Sólo es útil para variables cuantitativascuantitativas..

-El El eje xeje x permite identificar la permite identificar la poblacion en estudio.poblacion en estudio.

- El El ejeeje yy representa los valores de la representa los valores de la variable en estudio. variable en estudio.

Estadística

1473584N =

HombresMujeres

Edad

100

90

80

70

60

50

40

30

20

10

0

Edad de las personas que se realizaron Edad de las personas que se realizaron angioplastía entre 1980 y 2000angioplastía entre 1980 y 2000

Page 20: Capítulo 1 : Introducción a la Estadística Aplicada

20

TIPOS DE TIPOS DE GRÁFICOSGRÁFICOS

6. Otros6. Otros

Número de alumnos matriculados en la Carrera A según año de ingreso

020406080

100

1998 1999 2000 2001 2002 2003

año de ingreso

Nº d

e al

umno

s

Número de alumnos matriculados en la Carrera B según año de ingreso

020406080

100

1998 1999 2000 2001 2002 2003

año de ingreso

Nº d

e al

umno

s

Número de alumnos matriculados en las Carreras según año de ingreso

0

50

100

150

200

1998 1999 2000 2001 2002 2003

año ingreso

Nº d

e al

umno

s

Carrera BCarrera A

año de ingreso Carrera A Carrera B1998 60 801999 55 702000 80 502001 40 602002 68 502003 70 75

Nº de alumnos

Estadística

Page 21: Capítulo 1 : Introducción a la Estadística Aplicada

21

OBSERVACIONESOBSERVACIONES

* El Tipo de Gráfico seleccionado va a depender de la variable en estudio.* El Tipo de Gráfico seleccionado va a depender de la variable en estudio.

* El Gráfico debe contener un Título General y la identificación de cada eje * El Gráfico debe contener un Título General y la identificación de cada eje (variable en estudio y frecuencia).(variable en estudio y frecuencia).

* En ocasiones resulta más ilustrativo un gráfico que una tabla de * En ocasiones resulta más ilustrativo un gráfico que una tabla de frecuencia.frecuencia.

* Al igual que las tablas, los gráficos deben ser auto-explicativos.* Al igual que las tablas, los gráficos deben ser auto-explicativos.

Variables Cuantitativas

variablex i individuo elen variablela devalor ixni ,...,1

nccccn

i

1

n

iin

n

ii xccxcxcx

11

1

bxabaxbaxbaxn

iin

n

ii

11

1)()()(

221

1

2n

n

ii xxx

21

2

1)()( n

n

ii xxx

)()()( 111

nn

n

iii yxyxyx

)()()( 111

nn

n

iii yxyxyx

variabley i individuo elen variablela devalor iy

NOTACIONNOTACION

constantes:,, cba

Estadística

Page 22: Capítulo 1 : Introducción a la Estadística Aplicada

22

MEDIDAS DE TENDENCIA CENTRALMEDIDAS DE TENDENCIA CENTRAL

-Media Aritmética (Promedio)Media Aritmética (Promedio)

-MedianaMediana

-ModaModa

n

xx

n

ii

1

Media Aritmética o PromedioMedia Aritmética o Promedio

MedianaMediana

)(EM kx

2M )1()(

E

kk xx

x 1x

2x nx

Datos CuantitativosDatos Cuantitativosx )1(x

)2(x

)(nx

Datos Cuantitativos ordenados de menor a mayorDatos Cuantitativos ordenados de menor a mayor

Si Si nn es par es par

Si Si n n es impares impar

centro del dato)( kx

repite" se más que dato el"M o ModaModaDatos Datos

Cualitativos y CuantitativosCualitativos y Cuantitativos

Estadística

Page 23: Capítulo 1 : Introducción a la Estadística Aplicada

23

Percentiles, Deciles o CuartilesPercentiles, Deciles o Cuartiles-Percentil (ejemplo: 25, 50, 75)Percentil (ejemplo: 25, 50, 75)

-Decil (ejemplo: 4, 5, 8)Decil (ejemplo: 4, 5, 8)

-Cuartil (ejemplo: 1, 2, 3)Cuartil (ejemplo: 1, 2, 3)

El Decil va de 1 a 10El Decil va de 1 a 10

El Decil 4 (4/10)El Decil 4 (4/10): es el valor de la variable que reúne al menos el 40% de los datos: es el valor de la variable que reúne al menos el 40% de los datos

Ejemplo: Si N=80, el 40% de 80 es 32; por lo tanto, se busca el dato que este en la posición 32. Ejemplo: Si N=80, el 40% de 80 es 32; por lo tanto, se busca el dato que este en la posición 32.

Si N=85, el 40% de 85 es 34; por lo tanto se busca el dato que este en la posición 34. Si N=85, el 40% de 85 es 34; por lo tanto se busca el dato que este en la posición 34.

Percentil, Decil o Cuartil: corresponde al valor que toma la variable (cuantitativa), cuando losPercentil, Decil o Cuartil: corresponde al valor que toma la variable (cuantitativa), cuando los nn datos están ordenados de datos están ordenados de MenorMenor a a MayorMayor

Estadística

El Percentil va de 1 a 100El Percentil va de 1 a 100

El percentil 25 (25/100)El percentil 25 (25/100): es el valor de la variable que reúne al menos el 25% de los datos: es el valor de la variable que reúne al menos el 25% de los datos

Ejemplo: Si N=80, el 25% de 80 es 20; por lo tanto, se busca el dato que este en la posición 20. Ejemplo: Si N=80, el 25% de 80 es 20; por lo tanto, se busca el dato que este en la posición 20.

Si N=85, el 25% de 85 es 21,25; por lo tanto se busca el dato que este en la posición 22. Si N=85, el 25% de 85 es 21,25; por lo tanto se busca el dato que este en la posición 22.

El Cuartil va de 1 a 4El Cuartil va de 1 a 4

El Cuartil 3 (3/4)El Cuartil 3 (3/4): es el valor de la variable que reúne al menos el 75% de los datos: es el valor de la variable que reúne al menos el 75% de los datos

Ejemplo: Si N=80, el 75% de 80 es 60; por lo tanto, se busca el dato que este en la posición 60. Ejemplo: Si N=80, el 75% de 80 es 60; por lo tanto, se busca el dato que este en la posición 60.

Si N=85, el 75% de 85 es 63,75; por lo tanto se busca el dato que este en la posición 64. Si N=85, el 75% de 85 es 63,75; por lo tanto se busca el dato que este en la posición 64.

Page 24: Capítulo 1 : Introducción a la Estadística Aplicada

24

MEDIDAS DE DISPERSIÓNMEDIDAS DE DISPERSIÓN

-RangoRango

-VarianzaVarianza

-Desviación EstándarDesviación Estándar

RangoRango

VarianzaVarianzax 1x

2x nx

Datos CuantitativosDatos Cuantitativos

Coeficiente de VariaciónCoeficiente de VariaciónComparación entre VariablesComparación entre Variables

Se refiere al comportamiento de las variables cuantitativas en Se refiere al comportamiento de las variables cuantitativas en un grupo. un grupo. Por ejemplo: Si se tiene un conjunto de personas a las Por ejemplo: Si se tiene un conjunto de personas a las que se les mide Estatura, Peso, Edad: Entre estas variables ¿cuál que se les mide Estatura, Peso, Edad: Entre estas variables ¿cuál

presenta mayor variación? presenta mayor variación?

)min()max( ii xxR

Desviación Típica o EstándarDesviación Típica o Estándar

2

1

21 1

22

1

2

2 1)(1)(

xxnn

xn

x

n

xxs

n

ii

n

i

n

iii

n

ii

2ss

xscv

Estadística

Page 25: Capítulo 1 : Introducción a la Estadística Aplicada

25

Estadística

Otras medidas o CoeficientesOtras medidas o Coeficientes-AsimetríaAsimetría

-Kurtosis o ApuntamientoKurtosis o Apuntamiento

Además de la posición y la dispersión de los datos, otra medida de interés en una distribución de frecuencias es la simetría y el apuntamiento o kurtosis.

Coeficiente de Asimetría 31

3)(

sn

xxCA

n

ii

Si CA=0 si la distribución es simétrica alrededor de la media.Si CA<0 si la distribución es asimétrica a la izquierdaSi CA>0 si la distribución es asimétrica a la derecha

Coeficiente de Apuntamiento 4

1

4)(

sn

xxCAp

n

ii

- Si CAp=0 la distribución se dice normal (similar a la distribución normal de Gauss) y recibe el nombre de mesocúrtica.- Si CAp>0, la distribución es más puntiaguda que la anterior y se llama leptocúrtica, (mayor concentración de los datos en torno a la media).- Si CAp<0 la distribución es más plana y se llama platicúrtica.

Page 26: Capítulo 1 : Introducción a la Estadística Aplicada

26

Estadística

Otras medidas o CoeficientesOtras medidas o Coeficientes-AsimetríaAsimetría

-Kurtosis o ApuntamientoKurtosis o Apuntamiento

Ejemplos Histogramas con distinta asimetría y apuntamiento

V2

7,06,05,04,03,02,01,0

14

12

10

8

6

4

2

0

Desv. típ. = 1,67

Media = 3,9

N = 30,00

V4

2,01,00,0-1,0

30

20

10

0

Desv. típ. = ,64

Media = 0,0

N = 30,00

V5

9,08,07,06,05,04,03,02,01,0

6

5

4

3

2

1

0

Desv. típ. = 2,42

Media = 5,2

N = 28,00

Page 27: Capítulo 1 : Introducción a la Estadística Aplicada

27

Estadística

Otras medidas o CoeficientesOtras medidas o Coeficientes-AsimetríaAsimetría

-Kurtosis o ApuntamientoKurtosis o Apuntamiento

Ejemplos

Media 3,9

Mediana 4

Moda 4

Desviación estándar 1,67

Varianza de la muestra 2,78

kurtosis -0,43

Coeficiente de asimetría -0,02

Rango 6

Mínimo 1

Máximo 7

Cuenta 30

V1

9,08,07,06,05,04,03,02,01,0

16

14

12

10

8

6

4

2

0

Desv. típ. = 1,77

Media = 5,4

N = 66,00

1 4 4

1 4 4

1 4 5

2 4 5

2 4 6

2 4 6

2 4 6

3 4 6

3 4 7

4 4 7

Datos Histograma Medidas descriptivas

Page 28: Capítulo 1 : Introducción a la Estadística Aplicada

28

Estadística

Media, Desviación típica, Coeficientes de Asimetría y Apuntamiento Media, Desviación típica, Coeficientes de Asimetría y Apuntamiento para datos Agrupados (tabla de frecuencias)para datos Agrupados (tabla de frecuencias)

Intervalo Centro de clase Amplitud F f FAA fra

I1 c1 a1 I2 c2 a2 . .

Ik ck ak n 1 Total n 1

f1 f2

fk

n1 n2

nk

Tabla de frecuencia (para variable cuantitativa)Tabla de frecuencia (para variable cuantitativa)

1) La Media para datos agrupados es igual a la suma de los productos de las marcas de clase por sus frecuencias relativas, de la forma:

k

jjjcc fcxMedia

1

Sea cj la marca de clase (o centro de clase) y fj la frecuencia relativa de la clase j, donde j=1, 2,…, k.

2) La La Desviación típicaDesviación típica para datos para datos agrupados esta dada por:agrupados esta dada por:

k

jjcjc fxcs

1

2)(

3) El El Coeficiente de AsimetríaCoeficiente de Asimetría para para datos agrupados esta dado por:datos agrupados esta dado por:

31

3)(

c

k

jjcj

c s

fxcCA

4) El El Coeficiente de apuntamientoCoeficiente de apuntamiento para para datos agrupados esta dada por:datos agrupados esta dada por:

41

4)(

c

k

jjcj

c s

fxcCAp

Page 29: Capítulo 1 : Introducción a la Estadística Aplicada

29

Estadística

Descripción de 2 variables cualitativasDescripción de 2 variables cualitativas

Distribución conjuntaDistribución conjuntaTabla 1   Actividad  

Transporte Estudia Pensionado Trabaja

Autobus 5 7 0

Bicicleta 3 3 2

Caminar 2 5 2

Coche 5 4 5

Metro 6 7 4

Transporte Nº %

Autobus 12 20,0

Bicicleta 8 13,3

Caminar 9 15,0

Coche 14 23,3

Metro 17 28,3

TOTAL 60 100

Actividad Nº %

Estudia 21 35,0

Pensionado 26 43,3

Trabaja 13 21,7

TOTAL 60 100

ProblemaInteresa estudiar cual es el principal medio de transporte preferido por un grupo de personas a la hora de dirigirse al centro comercial.

Para esto se consultó a cada Para esto se consultó a cada persona sobre la actividad a persona sobre la actividad a la que se dedicaba y el medio la que se dedicaba y el medio de transporte preferido.de transporte preferido.

Page 30: Capítulo 1 : Introducción a la Estadística Aplicada

30

Estadística

Descripción de 2 variables cualitativasDescripción de 2 variables cualitativas

Distribución conjuntaDistribución conjunta

Nº de personasNº de personas

Actividad: confeccionar tabla con porcentajes respecto del total de personas (n=60)

Tabla 2   Actividad    

Transporte Estudia Pensionado Trabaja TOTAL

Autobus 5 7 0 12

Bicicleta 3 3 2 8

Caminar 2 5 2 9

Coche 5 4 5 14

Metro 6 7 4 17

TOTAL 21 26 13 60

Page 31: Capítulo 1 : Introducción a la Estadística Aplicada

31

Estadística

Descripción de 2 variables cualitativasDescripción de 2 variables cualitativas

Distribución conjuntaDistribución conjunta

Nº de personas y % respecto de tipo de Transporte Nº de personas y % respecto de tipo de Transporte Tabla 3   Actividad    

Transporte Estudia Pensionado Trabaja TOTAL

Autobus 5 7 0 12

% 41,7 58,3 0 100

Bicicleta 3 3 2 8

% 37,5 37,5 25 100

Caminar 2 5 2 9

% 22,2 55,6 22,2 100

Coche 5 4 5 14

% 35,7 28,6 35,7 100

Metro 6 7 4 17

% 35,3 41,2 23,5 100

TOTAL 21 26 13 60

% 35 43,3 21,7 100

Page 32: Capítulo 1 : Introducción a la Estadística Aplicada

32

Estadística

Descripción de 2 variables cualitativasDescripción de 2 variables cualitativas

Distribución conjuntaDistribución conjunta

Nº de personas y % respecto de tipo de ActividadNº de personas y % respecto de tipo de Actividad Tabla 4   Actividad    

Transporte Estudia Pensionado Trabaja TOTAL

Autobus 5 7 0 12

% 23,8 26,9 0 20

Bicicleta 3 3 2 8

% 14,3 11,5 15,4 13,3

Caminar 2 5 2 9

% 9,5 19,2 15,4 15

Coche 5 4 5 14

% 23,8 15,4 38,5 23,3

Metro 6 7 4 17

% 28,6 26,9 30,8 28,3

TOTAL 21 26 13 60

% 100 100 100 100

Page 33: Capítulo 1 : Introducción a la Estadística Aplicada

33

MEDIDAS DE ASOCIACIÓN LINEALMEDIDAS DE ASOCIACIÓN LINEAL- Covarianza Covarianza

- CorrelaciónCorrelación

x 1x

2x nx

DatosDatos

CuantitativosCuantitativos

Covarianza: Covarianza:

Recordemos que:Recordemos que: Hasta ahora hemos estudiado las Hasta ahora hemos estudiado las medidas tendencia medidas tendencia central central (Media, Mediana, Moda) (Media, Mediana, Moda) y dispersióny dispersión (Varianza y Desviación Estándar) para (Varianza y Desviación Estándar) para unauna Variable Cuantitativa Variable Cuantitativa (x).(x).

Es una medida de Variabilidad Conjunta entre Es una medida de Variabilidad Conjunta entre dosdos variables ( variables (xx11 ,, x x22) o bien () o bien (xx , , yy))

x y

)1(x )(y1

)2(x )(y2 )(nx )n(y

Si Cov(x,y) es positivaSi Cov(x,y) es positiva: : la asociación entre la asociación entre x x e e yy es directamente proporcional, es directamente proporcional, es decir que cuando es decir que cuando x x aumenta aumenta yy también aumenta; y viceversa. también aumenta; y viceversa.

Si Cov(x,y) es negativaSi Cov(x,y) es negativa: : la asociación entre la asociación entre x x e e y y es inversamente es inversamente proporcional, es decir que cuando proporcional, es decir que cuando xx aumenta aumenta yy disminuye; y viceversa. disminuye; y viceversa.

Si Cov(x,y) es ceroSi Cov(x,y) es cero: : no existe asociación entreno existe asociación entre x x e e yy..

n

iii )yy)(xx(

n)y,xcov(

1

1

Estadística

Page 34: Capítulo 1 : Introducción a la Estadística Aplicada

34

MEDIDAS DE ASOCIACIÓN LINEALMEDIDAS DE ASOCIACIÓN LINEAL- Covarianza Covarianza

- CorrelaciónCorrelación

DatosDatos

CuantitativosCuantitativos

Coeficiente de Correlación de Pearson (Coeficiente de Correlación de Pearson (rr): ): Mide el grado de Asociación Lineal Mide el grado de Asociación Lineal entre dos variables Cuantitativasentre dos variables Cuantitativas

Se refiere al grado de asociación entre Se refiere al grado de asociación entre dosdos variables ( variables (xx11 ,, x x22) o bien () o bien (xx , , yy))

x y

)1(x )(y1

)2(x )(y2 )(nx )n(y

Si Si rr es positivo es positivo: : la asociación entre la asociación entre x x e e yy es directamente proporcional, es decir que es directamente proporcional, es decir que cuando cuando x x aumenta aumenta yy también aumenta; y viceversa. también aumenta; y viceversa. Si Si rr=1=1: : la asociación lineal es la asociación lineal es perfecta.perfecta.

Si Si rr es negativo es negativo: : la asociación entre la asociación entre x x e e y y es inversamente proporcional, es decir es inversamente proporcional, es decir que cuando que cuando xx aumenta aumenta yy disminuye; y viceversa. disminuye; y viceversa. Si Si rr=-1=-1: : la asociación lineal es la asociación lineal es perfecta.perfecta.

Si Si rr es cero es cero: : no existe asociación entreno existe asociación entre x x e e yy..

CorrelaciónCorrelación: :

11 ryxss

)y,xcov(r

yx

n

iii

ss)n(

yxnyxr

11

Estadística

Page 35: Capítulo 1 : Introducción a la Estadística Aplicada

35

r=1 r=-1

EJEMPLO : Representación gráfica de las variables x e yEJEMPLO : Representación gráfica de las variables x e y

Estadística

Page 36: Capítulo 1 : Introducción a la Estadística Aplicada

I. Medidas de Tendencia Central1. Modo (Mo)2. Mediana (Md)3. Media aritmética (X)

II. Medidas de Posición1. Mediana (Md)2. Cuartiles (C)3. Deciles (D)4. Percentiles (P)

III. Medidas de Variabilidad1. Amplitud total (AT) o Rango

(R)2. Desvío Intercuartil (DI) o Rango

Intercuartil (RI)

Algunas medidas de resumen básicasAlgunas medidas de resumen básicas

Medidas de Variabilidad (cont.)3. Desvío Medio (DM)4. Varianza (Var)5. Desvío estándar (DE)6. Coeficiente de variabilidad (CV)

I. Medidas de Forma1. Coeficiente de asimetría (As)2. Coeficiente de curtosis (Cu)

Page 37: Capítulo 1 : Introducción a la Estadística Aplicada

Nivel de medición Modo Mediana Media

Nominal Si NO NOOrdinal SI SI NOIntervalo SI SI SIRelación SI SI SI

Relaciones entre niveles de medición y medidas de Relaciones entre niveles de medición y medidas de tendencia centraltendencia central

Page 38: Capítulo 1 : Introducción a la Estadística Aplicada

Nivel de medición AMPLITUD TOTAL

DESVÍO IN-TERCUARTIL

DESVÍO MEDIO

VARIANZA Y DESVIO

ESTANDAR

COEFICIENTE DE

VARIABILIDAD

Nominal NO NO NO NO NO

Ordinal NO NO NO NO NO

Intervalo SI SI SI SI NO

Relación SI SI SI SI SI

Relaciones entre niveles de medición y medidas de Relaciones entre niveles de medición y medidas de variabilidadvariabilidad

Page 39: Capítulo 1 : Introducción a la Estadística Aplicada

Medida Informa sobre...

MoEs el valor más frecuente. En tal sentido constituye la expresión más básica del valor más típico de una serie de observaciones.Una distribución puede tener uno, dos o varios modos.

Md

Es el valor de la variable que segmenta en dos partes a la distribución: una mitad de los casos se ubica por encima de la mediana, la mitad restante queda por debajo.La mediana es un valor de la variable asociado a un orden: si se ordenan todos los valores de menor a mayor, el valor mediana corresponderá a aquel valor tal que tiene tantos casos por encima como por debajo.La mediana es a la vez una medida de tendencia central y de posición. Como medida de tendencia central no es tan sensible como la media aritmética; no obstante debe utilizarse cuando en la distribución existan valores extremos no compensados, en cuyo caso la media distorsiona la tipicidad de los casos.

XEs el valor promedio. Es la medida de tendencia central más sensible ya que en su cálculo intervienen todos los casos. No obstante, como indicador de tendencia central la media aritmética posee dos "contraindicaciones": a) cuando en la distribución existe una gran variabilidad y b) cuando en la distribución existen valores extremos (altos o bajos) no compensados.

Modo, mediana y media: las tres medidas de tendencia Modo, mediana y media: las tres medidas de tendencia central básicascentral básicas

Page 40: Capítulo 1 : Introducción a la Estadística Aplicada

Medida Informa sobre...

CLos cuartiles son las medidas de posición que dividen a la distribución en cuatro partes iguales: el cuartil 1 representa a aquel valor tal que deja un 25% por debajo y queda un 75% por encima; el cuartil 2 es la mediana, y el cuartil 3 es el valor que deja un 75% por debajo y queda un 25% por encima. Los cuartiles 1 y 3 resultan útiles para circunscribir al 50% central de los datos.

D Los deciles son las medidas de posición que dividen a la distribución en 10 partes iguales.

P Los percentiles son las medidas de posición que dividen a la distribución en 100 partes iguales.

Medidas de posición: cuartiles, deciles y percentilesMedidas de posición: cuartiles, deciles y percentiles

Page 41: Capítulo 1 : Introducción a la Estadística Aplicada

Medida Informa sobre...

R ó AT Es la diferencia entre los valores máximo y mínimo de la distribución, representado entonces la medida de variabilidad más básica.

DI Es la diferencia entre el cuartil mayor y menor. Representa el rango de variabilidad del 50% central de los casos.

DM

Es el promedio de los desvíos de los valores respecto a la media, tomados como valor absoluto. Como toda medida de variabilidad, en general, cuanto mayor es su valor más heterogéneos o dispersos son los datos. El desvío medio, por carecer de signo, resulta una medida descriptiva pero sin valor operatorio para ser integrada en otras fórmulas estadísticas.

VAR

Es el promedio de los desvíos de los valores respecto a la media elevados al cuadrado. Descriptivamente, se interpreta como las restantes medidas de variabilidad, es decir: cuánto mayor resulte, mayor dispersión y viceversa; sin embargo, la magnitud que representa no debe interpretarse literalmente en términos de la escala de origen, ya que al haber operado una transformación matemática (vg., la elevación al cuadrado) la variabilidad aparece "amplificada".

Medidas de variabilidadMedidas de variabilidad

Page 42: Capítulo 1 : Introducción a la Estadística Aplicada

Medida Informa sobre...

DEEs la raíz cuadrada de la varianza. Tiene el valor operatorio de la misma y posee un valor descriptivo más parecido al desvío medio, al compensar la transformación cuadrática realizada en aquella.

CVEs un cociente entre el desvío estándar y la media. Representa la porción de variabilidad, expresada por el desvío estándar, respecto al valor promedio. Resulta particularmente útil para comparar la varabilidad de distribuciones que poseen diferente media o que están medidas en diferentes escalas.

Medidas de variabilidad (continuación)Medidas de variabilidad (continuación)

Page 43: Capítulo 1 : Introducción a la Estadística Aplicada

Elementos básicos de la Pruebade Asociación de Chi cuadrado

Page 44: Capítulo 1 : Introducción a la Estadística Aplicada

Chi cuadradoChi cuadradoEs unamedida deasociación entre dosvariables medidas en

un nivel nominal u ordinal. Específicamente informa sobre elgrado deprobabilidad de que exista asociación.Conceptualmente, consiste encomparar lasfrecuencias efectivamente observadas con las frecuencias que deberían esperarse si no existiera asociación entre las variables. Cuanto mayor sea la diferencia entre lo observado y lo esperado, mayor resultará la

probabilidad de que exista asociación.

(o e )2

e

Page 45: Capítulo 1 : Introducción a la Estadística Aplicada

Medida Informa sobre...

x2

En general, el propósito de la medida radica en determinar la probabilidad de asociación entre dos variables de nivel no cuantitativo (nominal u ordinal). Especícamente, el valor de X2 sólo indica un valor de p asociado, denominado nivel de significación, el cuál -en última instancia- es el que realmente informa sobre la probabilidad de asociación entre las variables.

p ( significación)

La probabilidad de que el valor de x2 obtenido se deba al azar. Es decir, la probabilidad de que no exista asociación entre las variables. Cuanto más bajo sea P, mayores son las evidencias para suponer que existe asociación y viceversa.

ØPhi es una de las medidas que, específicamente, informa sobre el grado o fuerza de la relación entre dos variables de nivel nominal.

Las tres medidas básicas asociadas al análisis "Chi Las tres medidas básicas asociadas al análisis "Chi Cuadrado" como medida de asociación entre variablesCuadrado" como medida de asociación entre variables

Page 46: Capítulo 1 : Introducción a la Estadística Aplicada

2

n

Coeficiente PhiCoeficiente Phi

Medida de asociación basada en chi cuadrado. Se obtiene al dividir el valor de chi cuadrado por el número de casos y, luego, extraer la raíz cuadrada del resultado. Informa sobre el grado o fuerza de laasociación entre dos variables de nivel no cuantitativo (nominal u ordinal)Cuando se trata de tablas decontingencia de 2 X 2,phi

asume valores comprendidos entre 0 y 1.

Page 47: Capítulo 1 : Introducción a la Estadística Aplicada

O E O - E (O - E) 2 (O - E)2 / E

Chi cuadrado: tabla de cálculoChi cuadrado: tabla de cálculo

Page 48: Capítulo 1 : Introducción a la Estadística Aplicada

¿2e > 2t ?

Diagrama decisorio para la prueba de Chi Cuadrado(Con cálculo manual y búsqueda en tabla)

Rechazar la Hipótesis Nula(la que expresa que no existe

asociación)

Calcular 2e.

Expresar: El resultado es estadísticamente significativo:

2 = 12,85; p < 0.05.

Aceptar la Hipótesis Nula(la que expresa que no existe

asociación)

Expresar: El resultado no es estadísticamente significativo:2 = 0,40; P > 0.05.

Interpretar: Conforme a los niveles de error previamente estipulados, no puede afirmarse que exista asociación entre las variables. / Las evidencias obtenidas resultan insuficientes para suponer que exista relación. / Es probable que las diferencias porcentuales observadas se deban a fluctuaciones del azar.(especificar y/o ajustar conforme a los posibles valores de p asociados a 2 e)

SINO

Determinar el 2t. para el nivel de error

Interpretar: Puede suponerse con alta probabilidad (con un nivel de error menor al 5%) que existe asociación entre las variables. / Las evidencias obtenidas resultan suficientes para suponer que existe asociación. / Es altamente probable que las diferencias porcentuales observadas no se deban al mero azar sino a una auténtica relación entre las variables.(especificar y/o ajustar conforme a los posibles valores de p asociados a 2 e)

Page 49: Capítulo 1 : Introducción a la Estadística Aplicada

¿p < error admitido

Diagrama decisorio para la prueba de Chi Cuadrado(Con cálculo informatizado)

Rechazar la Hipótesis Nula(la que expresa que no existe

asociación)

Expresar: El resultado es estadísticamente significativo:

2 = 12,85 p = 0.001.

Interpretar: Puede afirmarse que existe asociación entre las variables, con un nivel de error de 1/1000. / Es altamente probable que las diferencias porcentuales observadas no se deban al mero azar sino a una auténtica relación entre las variables.

Aceptar la Hipótesis Nula(la que expresa que no existe

asociación)

Expresar: El resultado no es estadísticamente significativo:2 = 0,40; p = 0. 80.

Interpretar: Puede afirmarse que no existe asociación entre las variables, dado que existe hasta un 80% de probabilidad de que las diferencias observadas resulten aleatorias. / Es altamente probable que las diferencias porcentuales observadas se deban a meras fluctuaciones del azar.

SINO

Calcular:2e.

p (significance)

Determinar el nivel de error admitido

Page 50: Capítulo 1 : Introducción a la Estadística Aplicada

Elementos básicos de Análisis de Correlación

y Regresión Lineal

Page 51: Capítulo 1 : Introducción a la Estadística Aplicada

Es una medida de la asociación lineal entre dos variables de nivel de medición cuantitativo (intervalo o relación). De manera más específica, R informa sobre:

El grado de correlación de las dos variables.El sentido o dirección de la correlación.

El valor de R tiene un rango comprendido entre -1 (una relación negativa perfecta en la que todos los puntos seencuentran sobre una línea con pendiente negativa) y +1 (una relación positiva perfecta en la que todos los puntos se encuentran sobre una línea con pendiente positiva). Un valor de 0 indica que

no existe relación lineal. Su fórmula es:

Coeficiente de correlación R de PearsonCoeficiente de correlación R de Pearson

r(x, y ) [(x x ).(y y ) ]n.sx .sy

Page 52: Capítulo 1 : Introducción a la Estadística Aplicada

Medida Informa sobre...

REl grado de la correlación lineal entre dos variables X e Y medidas en un nivel cuantitativo (Intervalo o relación)

pLa probabilidad de que el valor de R obtenido se deba al azar (se calcula en base a la distribución t de Student)

R2(Coeficiente de determinación)

El porcentaje de la variabilidad de Y que queda explicado a partir de X. La varianza de Y explicada por X. El porcentaje de la variabilidad de Y que puede predecirse a través de X. En otro sentido, el coeficiente de determinación informa sobre la fuerza o el grado de la correlación entre dos variables de nivel cuantitativo (Intervalos o relación).

Las tres medidas básicas asociadas con el análisis Las tres medidas básicas asociadas con el análisis de correlación R de Pearson.de correlación R de Pearson.

Page 53: Capítulo 1 : Introducción a la Estadística Aplicada

Es una medida asociada al coeficiente de correlación R de Pearson. Al igual que R, el coeficiente de determinación informa sobre la fuerza o el grado de la correlación entre dos variables de nivel cuantitativo. A diferencia de R, que carece de un significado específico, R2 puede interpretarse de diversos modos:

Como la proporción de la variabilidad de la variable dependiente Y que queda explicada a partir de la variable independiente X.Como la proporción de la variabilidad de Y que puede predecirse a través de X. Como la bondad de ajuste de un modelo lineal, esto es: el grado en que los datos se ajustan a un modelo de tipo lineal.

El coeficiente de determinación R2 presenta un rango de valores comprendidos entre 0 y 1 (ó de 0 a 100, cuando R2 aparece expresado como un porcentaje)

Coeficiente de determinación RCoeficiente de determinación R22

Page 54: Capítulo 1 : Introducción a la Estadística Aplicada

Cuánto más alto sea el valor de R2 ello indica:Que existe un mayor grado de correlación entre las variables.Que el poder explicativo de la variable independiente respecto a la dependiente es mayor. Que el poder predictivo de la variable independiente respecto a la dependiente es mayor.Que el modelo lineal posee un ajuste mayor a los datos, es decir que aumenta el grado de congruencia entre los datos y el modelo.

Coeficiente de determinación RCoeficiente de determinación R2 (continuación)2 (continuación)

Page 55: Capítulo 1 : Introducción a la Estadística Aplicada

X Y (X - X) (Y - Y) (X - X) . (Y - Y)

Coeficiente R de Pearson: tabla Coeficiente R de Pearson: tabla de cálculo del numeradorde cálculo del numerador

Page 56: Capítulo 1 : Introducción a la Estadística Aplicada

Se denomina "análisis de regresión lineal" a un conjunto de análisis estadísticos cuya función es determinar si entre una variable dependiente medida en una escala cuantitativa y una o más variables independientes, del mismo tipo, existen relaciones de carácter lineal. Una relación es lineal si posee una estructura idéntica a una línea recta.En rigor, el análisis de regresión se utiliza para determinar el grado de adecuación de los datos empíricos al modelo de una recta y la probabilidad de que esa adecuación obedezca al azar. Cuando existe sólo una variable independiente el análisis se denomina "regresión lineal simple". Si existe más de una, se estará ante un caso de "regresión lineal múltiple".Básicamente el análisis permite contribuir a dos propósitos: explicar y predecir.Cuando el análisis de regresión da un resultado negativo, debe interpretarse que es poco probable la existencia de relación lineal, aunque no debe descartarse que existan otros tipos de relaciones, no lineales.También se denomina "análisis de regresión

"a otros procedimientos

estadísticos diferentes a los mencionados pero que comparten la misma lógica.

Regresión lineal

Page 57: Capítulo 1 : Introducción a la Estadística Aplicada

y x

La ecuación de la recta en el análisis de regresión lineal

Y = El valor de la variable dependiente predicho por el modelo lineal.= Representa el valor de la variable dependiente cuando la variable

independiente vale 0. Gráficamente corresponde al punto de Y donde se emplaza o intersecta la recta de regresión.= Representa el incremento de Y por cada unidad de incremento de

X. Gráficamente se expresa en la pendiente o grado de inclinación de la recta.

X = El valor de la variable independiente X sobre el cuál se quiere hacer una predicción.

_______________________________________________________________Cuando la ecuación de la recta se utiliza para modelizar datos empíricos, vg., la

recta de regresión, es necesario incorporar un factor aleatorio que representa los posibles fluctuaciones de los datos respecto al modelo o, en otros términos, las discrepancias entre el modelo y la realidad. En virtud de ello el modelo general de

regresión lineal simple asume esta estructura:

Y = + x + error

Page 58: Capítulo 1 : Introducción a la Estadística Aplicada

Medida Informa sobre... El valor hipotético que asumiría la variable dependiente si la

variable independiente tuviera un valor nulo, conforme al modelo de relación lineal.

El incremento que cabría esperar en la variable dependiente por cada unidad de incremento en la variable independiente, conforme al modelo de relación lineal.

F ó t El valor del test estadístico para determinar la bondad de ajuste de los datos a un modelo lineal.

P La probabilidad asociada al test F ó t. La probabilidad de que la correlación lineal se deba al azar.

R2El porcentaje de la variabilidad de Y que queda explicado a partir de X. La varianza de Y explicada por X. El porcentaje de la variabilidad de Y que puede predecirse a través de X.

ESE

El error standard estimado constituye una última medida necesaria para ajustar las predicciones de Y a partir de X. Globalmente, representa la variabilidad de los datos respecto al modelo y resulta útil para determinar los llamados intervalos de confianza de la estimación. Cuando se utiliza el modelo de regresión para predecir valores de Y para diferentes valores de X, antes que un valor específico de Y lo que se estima es un intervalo de posibles valores. El ESE es la medida asociada a esa estimación, constituyendo un indicador de la amplitud de dicho intervalo

Medidas básicas asociadas al análisis de regresión

Page 59: Capítulo 1 : Introducción a la Estadística Aplicada

y bx

Cálculo de los parámetros de la recta de regresióna partir de datos empíricos

xy x.y

x2n x2

Page 60: Capítulo 1 : Introducción a la Estadística Aplicada

0 2 4 6 8 10 12 14 16 18 20Tiempo de Residencia

0

2

4

6

8

10

12

Act

itud

haci

a la

ciu

dad

R-square = 0.876 y = 1.08 + 0.59x

Ejemplo de diagrama de dispersión con información básica del análisis de regresión

Page 61: Capítulo 1 : Introducción a la Estadística Aplicada

X Y Y Y - Y (Y - Y)2

10 6 6,97 -0,97 0,9412 9 8,15 0,85 0,7312 8 8,15 -0,15 0,024 3 3,44 -0,44 0,19

12 10 8,15 1,85 3,436 4 4,61 -0,61 0,388 5 5,79 -0,79 0,632 2 2,26 -0,26 0,07

18 11 11,68 -0,68 0,469 9 6,38 2,62 6,86

17 10 11,09 -1,09 1,192 2 2,26 -0,26 0,07

Suma 14,97VAR 1,50DE (ESE) 1,22

Cálculo del Error Standard Estimado

ESS [Y Y]2

n 2

Page 62: Capítulo 1 : Introducción a la Estadística Aplicada

* * * * M U L T I P L E R E G R E S S I O N * * * *

Listwise Deletion of Missing Data

Equation Number 1 Dependent Variable.. VAR00001 Actitud hacia la ciudad

Block Number 1. Method: Enter VAR00002

Variable(s) Entered on Step Number 1.. VAR00002 Tiempo de residencia

Multiple R ,93608 Analysis of VarianceR Square ,87624 DF Sum of Squares Mean SquareAdjusted R Square ,86387 Regression 1 105,95222 105,95222Standard Error 1,22329 Residual 10 14,96444 1,49644

F = 70,80266 Signif F = ,0000

------------------ Variables in the Equation ------------------

Variable B SE B Beta T Sig T

VAR00002 ,589716 ,070084 ,936078 8,414 ,0000(Constant) 1,079322 ,743351 1,452 ,1772

End Block Number 1 All requested variables entered.

Análisis de regresión: Ejemplo de reporte

Page 63: Capítulo 1 : Introducción a la Estadística Aplicada

Elementos básicos del Análisis de Varianza

Page 64: Capítulo 1 : Introducción a la Estadística Aplicada

Análisis de varianza (ANOVA)

Se denomina Análisis de varianza (Anova) a una serie de procedimientos estadísticos cuyo propósito radica en testear el grado de asociación entre una variable independiente clasificatoria (nominal u ordinal) y una variable dependiente medida de manera cuantitativa (nivel de intervalo o de relación).Específicamente, Anova se utiliza para determinar si las medias de dos o más grupos pertenecen a una o a diferentes poblaciones.Alternativamente, también se denomina análisis de varianza a otros procedimientos estadísticos, distintos del arriba mencionado, pero que comparten similar lógica de análisis.

Page 65: Capítulo 1 : Introducción a la Estadística Aplicada

Medida Informa sobre...

FEn general, el propósito de la medida radica en determinar si dos o más valores promedios pertenecientes a diferentes grupos son significativamente diferentes. Especícamente, el valor de F sólo indica el valor de p asociado, el cuál -en última instancia- es el que realmente informa sobre la probabilidad de diferencia entre las medias.

pLa probabilidad de que el valor de F obtenido se deba al azar. Cuanto mayor sea p, significa que es más probable que las medias de los grupos no difieran de un modo significativo. Inversamente, cuando menor sea P, resultará más probable que existan diferencias.

Etha cuadrado es una de las medidas que, específicamente, informa sobre el grado o fuerza en que la variable independiente se halla relacionada con la dependiente y por lo tanto permite su explicación y/o predicción.

Las tres medidas básicas asociadas al análisis de varianza (ANOVA)

Page 66: Capítulo 1 : Introducción a la Estadística Aplicada

Análisis de Varianza (Anova): Prueba F

1.La prueba F es la prueba central del ANOVA. Básicamente consiste en comparar dos medidas de la variabilidad de los datos obtenidas de manera independiente:

La primera, obtenida al comparar las medias de los diferentes grupos (varianza intergrupo)La segunda, obtenida al analizar las fluctuaciones de los datos dentro de cada grupo; es decir: respecto a la media de cada grupo (varianza intragrupo)

2.Concretamente, F es el cociente entre la varianza intergrupo y la varianza intragrupo.

3. Interpretación de F: En general, cuanto mayor es el valor de F, mayor es la variabilidad entre los grupos respecto a la variabilidad intragrupo. Ello significa que aumenta la probabilidad de que las medias de los grupos pertenezcan a poblaciones conceptualmente diferentes, con diferente media.

Fórmula F (x x) . n

k 1

(x x)

(n 1) . k

Page 67: Capítulo 1 : Introducción a la Estadística Aplicada

Eta cuadrado es una medida asociada al análisis de varianza:

Es el cociente entre la suma de cuadrados intergrupos y la suma de cuadrados total.

Al igual que y R2 , E2 informa sobre la fuerza o el grado de la relación entre las variables. A diferencia de F, que carece de un significado específico, E2 puede interpretarse como la proporción de la variabilidad total de la variable dependiente "Y" que queda explicada a partir de la variable independiente clasificatoria.

Coeficiente Etha Cuadrado (

Page 68: Capítulo 1 : Introducción a la Estadística Aplicada

* * * A N A L Y S I S O F V A R I A N C E * * *

DEPENDIE Variable dependiente by IND.PRIN Variable independiente principal IND.SECU Variable independiente secundaria

UNIQUE sums of squares All effects entered simultaneously

Sum of Mean SigSource of Variation Squares DF Square F of F

Main Effects 540.000 2 270.000 67.500 .000 IND.PRIN 432.000 1 432.000 108.000 .000 IND.SECU 108.000 1 108.000 27.000 .001

2-Way Interactions .000 1 .000 .000 1.00 IND.PRIN IND.SECU .000 1 .000 .000 1.00

Explained 540.000 3 180.000 45.000 .000

Residual 32.000 8 4.000

Total 572.000 11 52.000

12 cases were processed.0 cases (.0 pct) were missing.

Page 69: Capítulo 1 : Introducción a la Estadística Aplicada

Análisis En general Si es bajo Si es alto

En el análisis de asociación Chi Cuadrado

A medida que baja, aumenta la probabilidad de asociación

Es poco probable que la asociación observada se deba al azar

Es muy probable que la asociación observada se deba al azar

En el análisis de correlación "R" de Pearson

A medida que baja, aumenta la probabilidad de que exista correlación lineal

Es poco probable que la correlación observada no se ajuste a un modelo lineal

Es altamente probable que no exista correlación lineal

En el análisis de varianza (Prueba F)

A medida que baja, aumenta la probabilidad de que las medias difieran significativamente (pertenezcan a poblaciones con distinta media)

Es poco probable que las medias pertenezcan a una única población

Es altamente probable que las medias pertenezcan a una única población

¿Qué informa exactamente "p" en los distintos análisis estadísticos?

Page 70: Capítulo 1 : Introducción a la Estadística Aplicada

Elementos básicos de Análisis Discriminate

Page 71: Capítulo 1 : Introducción a la Estadística Aplicada

Término Significado

Función discriminante

Representa al modelo matemático que mejor discrimina a los valores de la variable dependiente (grupos) a partir de la/s variable/s independiente/es predictoras (es análoga a la

ecuación de regresión, en ése análisis).

Correlación canónica

Es una medida que representa el grado decorrelación entre la/s variable/s independiente/es y los grupos. Al elevarse al cuadrado representa la proporción de variabilidad involucrada con los grupos (es análoga al coeficiente de determinación R 2en el análisis de regresión).

Coeficiente (lambda) de Wilk

Es la medida de significación estadística básica del análisis. Señala la probabilidad (P) de que el modelo predictivo evaluado se deba al azar. (A diferencia de otros tests cuanto menor sea , menor será también P. No

obstante, para determinar P,

debe transformarse en )

Cargas discriminantes (o correlaciones de estructura)

Representan las correlaciones entre las variables independientes predictoras y la función discriminante. Se interpretan como la fuerza relativa de cada variable dentro del modelo: cuánto mayor resulte la carga discriminante de una variable, mayor será la contribución de ésta a la

discriminación global del modelo.

Terminología básica asociada al análisis discriminante

Page 72: Capítulo 1 : Introducción a la Estadística Aplicada

Término SignificadoProbabilidades previas

Son las probabilidades de que un miembro pertenezca a determinado grupo antes de realizar el análisis.

Matriz de clasificación o predicción

Es el resultado básico que condensa las predicciones clasificatorias basadas en la función discriminante. En la diagonal aparecen los casos clasificados correctamente. Fuera de la diagonal, los casos clasificados en forma errónea. El cociente entre la suma de los casos correctos (sobre la diagonal) y el total de casos constituye la razón de aciertos. Si la función discriminante resulta efectiva, la razón de acierto debería ser mayor que lo cabría esperar conforme a las probabilidades previas.

Puntajes discriminantes

Son los puntajes correspondientes a cada uno de los individuos de acuerdo a la función discriminante. Representan un puntaje de síntesis de las variables predictoras que puede utilizarse a posteriori para explorar otro tipo de relaciones entre los datos.

Terminología básica asociada al análisis discriminante (cont.)

Page 73: Capítulo 1 : Introducción a la Estadística Aplicada

Tres reportes estadísticos básicos del análisis discriminante

Autovalores

1,811a 100,0 100,0 ,803Función1

Autovalor % de varianza % acumuladoCorrelacióncanónica

Se han empleado las 1 primeras funciones discriminantescanónicas en el análisis.

a.

Lambda de Wilks

,356 17,569 2 ,000

Contraste delas funciones1

Lambdade Wilks Chi-cuadrado gl Sig.

Matriz de estructura

,997

-,850

Nivel de pacifismo

Nivel de hedonismo

1

Función

Correlaciones intra-grupo combinadas entrelas variables discriminantes y las funcionesdiscriminantes canónicas tipificadas Variables ordenadas por el tamaño de lacorrelación con la función.

En las tablas de arriba aparecen tres reportes básicos del análisis discriminate:1) La correlación canónica, que informa sobre el potencial explicativo del modelo

discriminante obtenido2) Los valores de lambda y chi cuadrado, junto al nivel de significación asociado3) La matriz de estructura, donde se informa el sentido y grado de la correlación

entre cada variable predictora y el modelo discriminante obtenido

Page 74: Capítulo 1 : Introducción a la Estadística Aplicada

El resultado descriptivo fundamental del análisis discriminanteProbabilidades previas para los grupos

,600 12 12,000

,400 8 8,000

1,000 20 20,000

PreferenciaRoca Cola

Suave Cola

Total

PreviasNo

ponderados Ponderados

Casos utilizados en elanálisis

Resultados de la clasificación

10 2 12

1 7 8

83,3 16,7 100,0

12,5 87,5 100,0

PreferenciaRoca Cola

Suave Cola

Roca Cola

Suave Cola

Recuento

%

OriginalRoca Cola Suave Cola

Grupo de pertenenciapronosticado

Total

Clasificados correctamente el 85,0% de los casos agrupados originales.

La tabla inmediata superior es la matriz de clasificación, que representa el resultado descriptivo básico del análisis discriminate. Allí se detallan en valores absolutos y porcentuales los casos clasificados correctamente en base a aplicar la función discriminate sobre los puntajes de las variables independientes. Como puede apreciarse, el modelo permite clasificar acertadamente al 85% de los casos, porcentaje que supera al que se habría obtenido aleatoriamente en base a las probabilidades previas de cada grupo (cuya esperanza matemática ascendería a 0,600 ó 60%; tabla superior)

Page 75: Capítulo 1 : Introducción a la Estadística Aplicada

Elementos básicos de Análisis Factorial

Page 76: Capítulo 1 : Introducción a la Estadística Aplicada

El análisis factorial es un conjunto de métodos estadísticos multivariados cuya función radica en identificar construcciones o factores subyacentes que explican las correlaciones entre un conjunto de variables. En tal sentido, constituye un método explicativo.En virtud de lo anterior, el análisis factorial se usa para resumir un gran número de variables en un número más pequeño de macro-variables denominadas factores. En tal sentido, constituye un método de síntesis.Por último, cabe precisar que el análisis factorial constituye un método de interdependencia entre variables y por ende no discrimina entre variables independientes y dependientes Ejemplos de aplicación del análisis factorial:

Identificar los factores subyacentes en investigaciones actitudinales basadas en escalas Likert.Identificar los factores subyacentes en investigaciones sobre imagen basadas en técnicas como el diferencial semántico.Identificar los factores subyacentes en investigaciones psicográficas basadas en cuestionarios AIO (actividades, intereses y opiniones)Identificar los factores suyacentes en investigaciones sobre atributos de productos y servicios.Refinar cualquier análisis predictivo y/o explicativo utilizando "a posteriori" los factores extraídos como nuevas variables independientes.

Análisis Factorial

Page 77: Capítulo 1 : Introducción a la Estadística Aplicada

Término Significado

Factor

Representa una variable latente o subyacente a una serie de variables originalmente medidas. Estadísticamente representa una variable hipotética tal que las correlaciones entre ésta y las variables originales es máxima. Su significado debe interpretarse.

Cargas factoriales Son las correlaciones entre las variables originales y los factores extraídos

Matriz factorialEs la salida informativa fundamental del análisis. Es una matriz donde se representan todos los factores obtenidos con sus respectivas cargas factoriales

Valor específico (Eingenvalue)

Es un valor que representa el total de varianza que explica un factor. Más específicamente, al dividirse el valor específico por el número de variables originales se obtiene la proporción de la varianza que explica el factor.

% de varianza explicado

Es el porcentaje de la variabilidad total que queda explicado por cada factor.

ComunalidadEs el porcentaje de la variabilidad de cada variable original que es explicado conjuntamente por todos los factores extraídos

Terminología básica asociada al análisis factorial

Page 78: Capítulo 1 : Introducción a la Estadística Aplicada

Término Significado

Matriz de correlaciones

Es una matriz cuadrada (igual número de filas y columnas) donde se representan todas las correlaciones entre las variables originales. Constituye el punto de partida del análisis factorial.

Prueba de esferecidad de Bartlett

Es un test de significación estadística para el análisis factorial. Como otros tests decisorios, si su valor es alto, el valor de P asociado será bajo. Cuando ello ocurre significa que las correlaciones entre las variables originales probablemente no se deban al azar sino a la existencia de los factores latentes extraídos.

Prueba de adecuación Kaiser-Meyer-Olkin (KMO)

Es un test para decidir sí el análisis factorial resulta apropiado. Los valores altos (entre 0,5 y 1) indican que es apropiado; los valores inferiores a 0,5 hacen inaceptable su aplicación.

Puntajes factoriales

Son los puntajes correspondientes a cada uno de los individuos en cada factor.

Matriz factorial rotada

Es el resultado de aplicar un procedimiento matemático que permita una interpretación más precisa de los factores. En la matriz rotada las cargas factoriales se distribuyen de tal forma que para cada variable exista la mayor diferencia entre un factor y otro.

Terminología básica asociada al análisis factorial (Cont.)

Page 79: Capítulo 1 : Introducción a la Estadística Aplicada

Elementos de cluster análisis en el contexto de la investigación

psicográfica

Page 80: Capítulo 1 : Introducción a la Estadística Aplicada

Diagrama de flujo de una investigación psicográfica

Diseño muestral

Elaboración de un cuestionario AIO

Cruzar los clusters c/ otras var. de segmentación

Cruzar los clusters con variables resultados relevantes

Administración del cuestionario AIO

Definición de objetivos

Análisis multivariado• Cluster análisis

Descripción de los clusters•Tabular •Textual

Interpretación de los clusters

Número de clusters

“ Pureza” de los clusters

Validación de los clusters

Descripción ampliadanivel 1

Descripción ampliadanivel 2

Cluster psicográfico

Cluster psicográfico-demográfico

Cluster psico-demo-gráfico-conductual específico

Page 81: Capítulo 1 : Introducción a la Estadística Aplicada

Clusters psicográficos cruzados con sus variables constituyentes originales

Variables originales Cluster 1 Cluster 2 General

Tamaño 50% 50% 100%

Hedonismo 4.40 8 6.20

Innovatividad 4.30 7.10 5.70

Romanticismo 7.10 3.50 5.30

Religiosidad 7.00 3.50 5.25

Page 82: Capítulo 1 : Introducción a la Estadística Aplicada

Clusters o segmentos psicográficos cruzados con sus variables constituyentes originales: descripción tabular y textual

Variables originales

Espiritualistas

Materialistas General

Tamaño 50% 50% 100%

Hedonismo 4.40 8 6.20

Innovatividad 4.30 7.10 5.70

Romanticismo 7.10 3.50 5.30

Religiosidad 7.00 3.50 5.25

Cluster 1: LOS ESPIRITUALISTASSe definen por la alta valoración que le conceden al romanticismo y por su gran sentimiento de religiosidad. No sintonizan con valores hedonistas ni tampoco les interesan valores de la modernidad tales como la orientación a la innovación.

Cluster 2: LOS MATERIALISTASSe definen por la alta valoración de valores de la modernidad tales como hedonismo e innovación. Descreen, o al menos no se sienten identificados, con valores de cuño más tradicional tales como el romanticismo y la religiosidad.

Page 83: Capítulo 1 : Introducción a la Estadística Aplicada

Clusters o segmentos psicográficos cruzados con demográficos

PsicográficosSegmento 1 Segmento 2 Segmento 3 Segmento 4

TAMAÑOEDADSEXO

MasculinoFemenino

ESTADO CIVILSoltero/aCasado/a

Divorciado/aViudo/a

EDUCACIONPrimaria

SecundariaUniversitaria

CLASE SOCIALBaja

MediaAlta

INGRESO ANUAL

Demográficos

Page 84: Capítulo 1 : Introducción a la Estadística Aplicada

Cluster Análisis o Análisis de Conglomerados

El ánálisis de conglomerados o cluster análisis es un método estadístico multivariado cuyo objetivo básico es identificar grupos relativamente homogéneos a partir de determinadas características seleccionadas. Por ello, el análisis de conglomerados básicamente constituye un método de clasificación.El fundamento básico de esta metodología es el análisis de distancias entre observaciones. Su lógica es sencilla: Dos observaciones que puntúen de manera similar en las diversas características identificatorias (ie., las variables) se encuentran "próximas" en un espacio virtual clasificatorio y deberían, por lo tanto, clasificarse en los mismos conglomerados o clusters; recíprocamente, las observaciones que se encuentren "lejanas" entre sí, deberían corresponder a diferentes grupos.A diferencia del análisis discriminante,el análisis de conglomerados no parte de grupos dados a priori sino que - justamente- la obtención de tales grupos constituye el output del procedimiento. Por último, cabe precisar que, al igual que el análisis factorial, el cluster análisis constituye un método de interdependencia entre variables y por ende no discrimina entre variables independientes y dependientes.

Page 85: Capítulo 1 : Introducción a la Estadística Aplicada

Aplicaciones del análisis de conglomerados

El análisis de conglomerados es el método por excelencia para clasificar objetos en base a afinidades, por lo tanto resulta útil en los siguientes ámbitos:

Segmentación psicográfica y otros perfiles actitudinales. Segmentación de audiencias y públicos. Clasificaciones de diversos objetos. Por ejemplo, pueden agruparse programas de capacitación en categorías homogéneas basadas en las características de los participantes. O bien pueden agruparse conjuntos de personas en conglomerados homogéneos para que pueden seleccionarse grupos comparables, con el fin de testear alguna estrategia.

Page 86: Capítulo 1 : Introducción a la Estadística Aplicada

Tipos básicos de análisis de conglomerados

Conglomerado de K medias:Realiza análisis de conglomerados usando un algoritmo que puede manejar grandes números de casos, pero que requiere la especificación del número de conglomerados. Conglomerados jerárquicos:Combina casos en conglomerados a través de una secuencia jerárquica, usando un algoritmo con consumo intensivo de memoria que permite examinar muchas soluciones diferentes con facilidad. Los clusters se forman mediante agrupamiento en conglomerados mayores o menores hasta que todos los casos sean miembros de un sólo conglomerado.

Page 87: Capítulo 1 : Introducción a la Estadística Aplicada

Caso Hedonismo Innovatividad

Romanticismo

Religiosidad

1 3 3 10 92 3 4 8 83 5 4 8 74 5 5 7 65 5 3 6 66 4 4 7 87 4 5 6 78 4 4 7 79 6 5 6 6

10 5 6 6 611 7 5 4 512 7 6 4 413 7 5 4 414 9 7 3 215 9 8 3 316 7 7 3 317 6 8 4 418 10 7 4 419 9 9 3 320 9 9 3 3

En la matriz de datos se consigan los

resultados de una encuesta sobre

autoconcepto en cuatro variables cuyo rango

oscilaba entre 1 y 10: a) hedonismo,

b) innovatividadc) romanticismo d) religiosidad

Tal como puede apreciarse, los

primeros diez casos se caracterizan por su bajo hedonismo e

innovatividad y su alto romanticismo y

religiosidad; mientras que en los últimos 10, se observa lo inverso.

Un análisis que requiriera dos cluster

debería distinguir esos dos grupos.

Ejemplo de operatoria del cluster análisis: a) Datos

Page 88: Capítulo 1 : Introducción a la Estadística Aplicada

Ejemplo de operatoria de cluster análisis: b) Reportes básicos (Método K-Medias)

Number of Cases in each Cluster.

Cluster cases 1 10,0 2 10,0

EN LOS TABLAS DE ARRIBA APARECEN DOS REPORTES BASICOS DEL CLUSTER ANALISIS:1°) La tabla que vincula a los clusters obtenidos con los valores promedio para cada una de las variables utilizadas. Constituye la base para su posterior interpretación. Así, en principio, el cluster 1 estaría conformado por personas de bajo hedonismo, con poca orientación a la innovación, autodefinidas como románticas y acentuadamente religiosas. Inversamente, el cluster 2 estaría integrado por personas marcadamente orientadas al hedonismo y la innovación y poco orientadas al romanticismo y la religiosidad.2°) La cantidad de miembros en cada cluster, en este caso se trata de dos clusters de 10 integrantes cada uno.

Cluster HEDONISM INNOVATI ROMANTIC RELIGIOS

1 4,4000 4,3000 7,0995 7,0000 2 8,0000 7,1000 3,5000 3,5000

Page 89: Capítulo 1 : Introducción a la Estadística Aplicada

Otro reporte de interés está representado por el listado de asignación de casos a los diferentes clusters. En la última columna, aparece una medida de la distancia de cada caso al centro de su cluster, lo cual constituye un valor que informa cuán típico o atípico resulta un individuo respecto al cluster en el que ha sido clasificado.Como puede apreciarse al individuo N° 8 constituye el caso prototípico del cluster 1, ya que presenta la menor distancia al centro del mismo. Para corroborarlo, véase nuevamente la matriz de datos y la información de clusters finales.

Ejemplo de operatoria de cluster análisis: c) Reportes complementarios (Método K-Medias)

COD Cluster Distance

1 1 4,008 2 1 1,965 3 1 1,123 4 1 1,364 5 1 2,064 6 1 1,123 7 1 1,363 8 1 ,510 9 1 2,293 10 1 2,336 11 2 2,812 12 2 1,646 13 2 2,431 14 2 1,873 15 2 1,520 16 2 1,229 17 2 2,304 18 2 2,124 19 2 2,261 20 2 2,261

Page 90: Capítulo 1 : Introducción a la Estadística Aplicada

Ejemplo de operatoria de cluster análisis: c) Reportes complementarios (Método K-Medias)

Otro dato de sumo interés es la tabla de Anova, donde se informa sobre el grado de significación estadística de la diferencia de las medias de los diferentes clusters, para todas las variables utilizidas en su conformación. En el presente caso, todos los valores resultan significativos, lo que indica que los clusters discriminan a los individuos en todas las variables.

Cluster HEDONISM INNOVATI ROMANTIC RELIGIOS

1 4,4000 4,3000 7,0995 7,0000 2 8,0000 7,1000 3,5000 3,5000

Analysis of Variance.

Variable Cluster MS DF Error MS DF F Prob

HEDONISM 64,8000 1 1,355 18,0 47,8033 ,000 INNOVATI 39,2000 1 1,500 18,0 26,1333 ,000 ROMANTIC 64,7821 1 ,966 18,0 67,0121 ,000 RELIGIOS 61,2500 1 ,916 18,0 66,8182 ,000

Page 91: Capítulo 1 : Introducción a la Estadística Aplicada

Ejemplo de operatoria de cluster análisis: d) Reporte básico (Método Jerárquico)

Cluster Membership of Cases using Average Linkage (Between Groups)

Number of Clusters

Label Case 4 3 2

Case 1 1 1 1 1 Case 2 2 2 2 1 Case 3 3 2 2 1 Case 4 4 2 2 1 Case 5 5 2 2 1 Case 6 6 2 2 1 Case 7 7 2 2 1 Case 8 8 2 2 1 Case 9 9 2 2 1 Case 10 10 2 2 1 Case 11 11 3 3 2 Case 12 12 3 3 2 Case 13 13 3 3 2 Case 14 14 4 3 2 Case 15 15 4 3 2 Case 16 16 3 3 2 Case 17 17 3 3 2 Case 18 18 4 3 2 Case 19 19 4 3 2 Case 20 20 4 3 2

Page 92: Capítulo 1 : Introducción a la Estadística Aplicada

Ejemplo de operatoria de cluster análisis: e) Dendograma (Método Jerárquico)

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *

Dendrogram using Average Linkage (Between Groups)

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+

Case 19 19 Case 20 20 Case 15 15 Case 14 14 Case 18 18 Case 12 12 Case 13 13 Case 11 11 Case 16 16 Case 17 17 Case 6 6 Case 8 8 Case 7 7 Case 3 3 Case 2 2 Case 9 9 Case 10 10 Case 4 4 Case 5 5 Case 1 1

Page 93: Capítulo 1 : Introducción a la Estadística Aplicada

Ejemplo de operatoria de cluster análisis: f) Historial de conglomeración (Método Jerárquico)

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *

Agglomeration Schedule using Average Linkage (Between Groups)

Clusters Combined Stage Cluster 1st Appears Next Stage Cluster 1 Cluster 2 Coefficient Cluster 1 Cluster 2 Stage

1 19 20 ,000000 0 0 2 2 15 19 1,000000 0 1 11 3 12 13 1,000000 0 0 5 4 6 8 1,000025 0 0 8 5 11 12 1,500000 0 3 15 6 9 10 2,000000 0 0 7 7 4 9 2,000000 0 6 14 8 6 7 2,495053 4 0 9 9 3 6 3,669981 0 8 12 10 16 17 4,000000 0 0 15 11 14 15 4,000000 0 2 13 12 2 3 4,252486 0 9 16 13 14 18 6,000000 11 0 17 14 4 5 6,333333 7 0 16 15 11 16 7,333333 5 10 17 16 2 4 7,648517 12 14 18 17 11 14 13,960000 15 13 19 18 1 2 22,447754 0 16 19 19 1 11 54,536533 18 17 0

Page 94: Capítulo 1 : Introducción a la Estadística Aplicada

Ejemplo de operatoria de cluster análisis: g) Diagrama de témpanos (Método Jerárquico)

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *

Vertical Icicle Plot using Average Linkage (Between Groups)

1 2 1 1 1 1 1 1 1 1 1 8 0 9 5 4 7 6 3 2 1 5 0 9 4 7 8 6 3 2 1 1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 + 9 + 10 + 11 + 12 + 13 + 14 + 15 + 16 + 17 + 18 + 19 +