61
Estadística Multivariada – Herramientas Informáticas Tutorial enriquecido por Matilde CÉSARI 1 Visualización, Inferencia, Clasificación Estadística Exploratoria Multidimensional para datos numéricos Para el análisis de una tabla de datos haciendo uso de métodos multivariados, Lebart et al. (1995) presentan una estrategia que consiste en realizar primero un análisis factorial según la naturaleza de los datos y luego una clasificación basada en un algoritmo mixto: clasificación jerárquica con el método de Ward y agregación alrededor de centros móviles (K-medias) Finalmente se obtiene una partición del conjunto de datos y la caracterización de cada una de las clases, según las variables activas e ilustrativas, ya sean cuantitativas o cualitativas. Para la caracterización de las clases se utilizan los valores test, que son índices descriptivos construidos siguiendo la metodología de pruebas de hipótesis, pero sin el objetivo de hacer inferencias. La ordenación de los valores test dentro de cada clase permite obtener las variables continuas que la caracterizan positivamente, en el sentido de que la media de la clase es suficientemente mayor de la media global, o negativamente cuando la media de la clase es inferior. Para las categorías de variables nominales, la ordenación permite obtener aquellas categorías cuya proporción dentro de la clase se diferencia lo suficiente de la proporción global, ya sea porque es mayor (valor test positivo) o menor (valor test negativo). La utilización de las coordenadas factoriales permite tener un marco común en el proceso de formación de conglomerados. Para el proceso de clasificación el análisis factorial previo se constituye en un pretratamiento, que transforma los datos originales en variables continuas no correlacionadas. Tomar todos los factores para la formación de conglomerados es equivalente a efectuar una clasificación de las filas de la tabla de datos utilizando las variables originales. Tomar menos factores implica realizar un filtrado: se supone que los ejes utilizados para la clasificación tienen la información relevante y que los desechados se deben a las fluctuaciones aleatorias que constituyen el ruido. El diagrama de valores propios orienta la decisión del número de ejes que se utilizan en la clasificación. Algunas veces, sobre todo en tablas pequeñas, se usan todos los ejes. (Campo, 2007). ASPECTOS ESPECÍFICOS: Complementariedad de las técnicas de visualización (Análisis en componentes principales, Análisis de las correspondencias simples y múltiples) y de la clasificación automática (método mixto que combina clasificación jerárquica [criterio de Ward] . Validación de las técnicas de visualización: Análisis discriminante de Fisher, Re-muestreo (bootstrap, bootstrap parcial, bootstrap total, bootstrap sobre variables). Caracterización de clases a través del DECLA (valor de test). HERRAMIENTAS: - DtmVic (Datos y Text Mining: Visualización, inferencia, clasificación), producto puesto al servicio académico de los estudiantes de doctorado y de la investigación. Tratamiento de archivos de encuestas por medio de métodos estadísticos multidimensionales. - XLSTAT producto principal desarrollado por Addinsoft. Fue desarrollada desde 1993 con el fin de permitir a los usuarios de MS Excel de hacer análisis de datos y modelización. Funciones que hacen de Excel una herramienta potente y de acceso fácil para satisfacer a la mayoría de sus necesidades en análisis de datos Para bajar de Internet Xlstat (versión evaluativa 2009.1), acceder a la página de Xlstat: http://www.xlstat.com/es/download/ Versión 2005 7.53 con parche de reinicio del conteo de evaluación: http://ai.frm.utn.edu.ar/micesari//files/XLStat%202005.rar Para bajar de Internet DTM (versión 4.3), acceder a la página de Lebart: http://ses.telecom-paristech.fr/lebart/ 1a. Instalador 1 del Software - inst_dtm.zip (2200 K) http://ses.telecom-paristech.fr/lebart/DEA/inst_dtm.zip 1b. Software portable 2 dtm_software.zip (1400 K) no necesita instalar http://ses.telecom-paristech.fr/lebart/DEA/dtm_software.zip 2. Ejemplos - dtm_examples.zip (1200 K) http://ses.telecom-paristech.fr/lebart/DEA/DtmVic-Examples.zip 3. Guía de Instalación - Install_dtm.pdf (1400 K) http://ses.telecom-paristech.fr/lebart/DEA/Install_DtmVic.pdf 1 Descargar: "inst_dtm.zip", descomprimir, clicar: "Setup.exe" y seguir las instrucciones 2 Descargar: “dtm_software.zip” ", descomprimir, clicar: “DtmVic_43.exe”. No se instala se ejecuta directo

Herramientas Estadística Exploratoria

Embed Size (px)

Citation preview

Page 1: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 1

Visualización, Inferencia, Clasificación Estadística Exploratoria Multidimensional para datos numéricos

Para el análisis de una tabla de datos haciendo uso de métodos multivariados, Lebart et al. (1995) presentan una estrategia que consiste en realizar primero un análisis factorial según la naturaleza de los datos y luego una clasificación basada en un algoritmo mixto: clasificación jerárquica con el método de Ward y agregación alrededor de centros móviles (K-medias) Finalmente se obtiene una partición del conjunto de datos y la caracterización de cada una de las clases, según las variables activas e ilustrativas, ya sean cuantitativas o cualitativas.

Para la caracterización de las clases se utilizan los valores test, que son índices descriptivos construidos siguiendo la metodología de pruebas de hipótesis, pero sin el objetivo de hacer inferencias. La ordenación de los valores test dentro de cada clase permite obtener las variables continuas que la caracterizan positivamente, en el sentido de que la media de la clase es suficientemente mayor de la media global, o negativamente cuando la media de la clase es inferior. Para las categorías de variables nominales, la ordenación permite obtener aquellas categorías cuya proporción dentro de la clase se diferencia lo suficiente de la proporción global, ya sea porque es mayor (valor test positivo) o menor (valor test negativo).

La utilización de las coordenadas factoriales permite tener un marco común en el proceso de formación de conglomerados. Para el proceso de clasificación el análisis factorial previo se constituye en un pretratamiento, que transforma los datos originales en variables continuas no correlacionadas. Tomar todos los factores para la formación de conglomerados es equivalente a efectuar una clasificación de las filas de la tabla de datos utilizando las variables originales. Tomar menos factores implica realizar un filtrado: se supone que los ejes utilizados para la clasificación tienen la información relevante y que los desechados se deben a las fluctuaciones aleatorias que constituyen el ruido. El diagrama de valores propios orienta la decisión del número de ejes que se utilizan en la clasificación. Algunas veces, sobre todo en tablas pequeñas, se usan todos los ejes. (Campo, 2007).

ASPECTOS ESPECÍFICOS:

Complementariedad de las técnicas de visualización (Análisis en componentes principales, Análisis de las correspondencias simples y múltiples) y de la clasificación automática (método mixto que combina clasificación jerárquica [criterio de Ward] .

Validación de las técnicas de visualización: Análisis discriminante de Fisher, Re-muestreo (bootstrap, bootstrap parcial, bootstrap total, bootstrap sobre variables). Caracterización de clases a través del DECLA (valor de test).

HERRAMIENTAS:

- DtmVic (Datos y Text Mining: Visualización, inferencia, clasificación), producto puesto al servicio académico de los estudiantes de doctorado y de la investigación. Tratamiento de archivos de encuestas por medio de métodos estadísticos multidimensionales.

- XLSTAT producto principal desarrollado por Addinsoft. Fue desarrollada desde 1993 con el fin de permitir a los usuarios de MS Excel de hacer análisis de datos y modelización. Funciones que hacen de Excel una herramienta potente y de acceso fácil para satisfacer a la mayoría de sus necesidades en análisis de datos

Para bajar de Internet Xlstat (versión evaluativa 2009.1), acceder a la página de Xlstat: http://www.xlstat.com/es/download/

Versión 2005 7.53 con parche de reinicio del conteo de evaluación: http://ai.frm.utn.edu.ar/micesari//files/XLStat%202005.rar

Para bajar de Internet DTM (versión 4.3), acceder a la página de Lebart: http://ses.telecom-paristech.fr/lebart/

1a. Instalador1 del Software - inst_dtm.zip (2200 K) http://ses.telecom-paristech.fr/lebart/DEA/inst_dtm.zip

1b. Software portable2 – dtm_software.zip (1400 K) no necesita instalar http://ses.telecom-paristech.fr/lebart/DEA/dtm_software.zip

2. Ejemplos - dtm_examples.zip (1200 K) http://ses.telecom-paristech.fr/lebart/DEA/DtmVic-Examples.zip

3. Guía de Instalación - Install_dtm.pdf (1400 K) http://ses.telecom-paristech.fr/lebart/DEA/Install_DtmVic.pdf

1 Descargar: "inst_dtm.zip", descomprimir, clicar: "Setup.exe" y seguir las instrucciones

2 Descargar: “dtm_software.zip” ", descomprimir, clicar: “DtmVic_43.exe”. No se instala se ejecuta directo

Page 2: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 2

Desde hace una treintena de años, los métodos de análisis multivariante de datos han probado su eficacia en el estudio de grandes masas de información compleja. Se trata de métodos llamados multidimensionales, por oposición a los métodos de estadística descriptiva que tratan únicamente una o dos variables. Actualmente, los métodos factoriales se enmarcan en las técnicas de Data Mining (o minería de datos).

Estos permiten confrontar numerosas informaciones, lo cuál es más rico que análisis separados. Las representaciones simplificadas de grandes tablas de datos se han manifestado como un instrumento de síntesis notable, debido a su capacidad para reducir la dimensionalidad. Permiten extraer las tendencias más destacadas, jerarquizarlas y eliminar los efectos marginales o puntuales que perturban la percepción global de los hechos recogidos en los datos.

El desarrollo de algoritmos de clasificación resulta ser en muchas ocasiones un complemento ideal a los métodos factoriales y permiten describir tipologías de individuos según las variables en estudio.

Estos métodos nacidos en la universidad se han aplicado a todo tipo de dominios científicos como la ecología, ingeniería, medio ambiente, la lingüística, la psicometría, el análisis de mercados, la arqueología,... También han experimentado un gran éxito en ramas de la banca y seguros donde deben analizarse grandes ficheros de datos.

ESTRATEGIA COMBINADA DE UN MÉTODO FACTORIAL Y FORMACIÓN DE CONGLOMERADOS

La estrategia descrita en Lebart et al. (1995) sigue los pasos que se muestran en la figura 1.

Figura 1: Diagrama de flujo de la estrategia combinada de análisis factorial y métodos de clasificación. Si el número n de

elementos por clasificar sobrepasan el umbral nmax, se realiza un agrupamiento antes de la clasificación jerárquica.

Para la puesta en práctica de la estrategia mencionada se han desarrollado distintos paquetes estadísticos, como por ejemplo: utilizando el lenguaje R (R Development Core Team 2007a) se programa el paquete denominado 3FactoClass, el cual utiliza funciones de ade4 (Chessel et al. 2004) para realizar el análisis factorial de los datos y de stats para los métodos de clasificación, FactoClass permite obtener salidas similares a las que aparecen en los programas estadísticos SPAD (Lebart et al. 1999) y DTM (Lebart 2007).

3 El paquete FactoClass se instala en R (versión 2.4.1 en adelante) a partir del zip disponible en la página:

http://www.docentes.unal.edu.co/cepardot/docs/

Page 3: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 3

CLASIfiCACIÓN A PARTIR DE LOS FACTORES

La utilización de las coordenadas factoriales permite tener un marco común en el proceso de formación de conglomerados. Para el proceso de clasificación el análisis factorial previo se constituye en un pretratamiento, que transforma los datos originales en variables continuas no correlacionadas. Tomar todos los factores para la formación de conglomerados es equivalente a efectuar una clasificación de las filas de la tabla de datos utilizando las variables originales. Tomar menos factores implica realizar un filtrado: se supone que los ejes utilizados para la clasificación tienen la información relevante y que los desechados se deben a las fluctuaciones aleatorias que constituyen el ruido. El diagrama de valores propios orienta la decisión del número de ejes que se utilizan en la clasificación. Algunas veces, sobre todo en tablas pequeñas, se usan todos los ejes.

El método de Ward utiliza la distancia entre clases que cumple con el objetivo de unir, en cada paso del proceso de aglomeración, las dos clases que incrementen menos la inercia intraclases.

Sean A y B dos clases no vacías y disjuntas y sean pA, pB y gA, gB sus pesos y centros de gravedad, respectivamente. La distancia de Ward entre los dos grupos, en función de la distancia euclidiana canónica d, viene dada por:

(la deducción se puede ver en Pardo 1992).

En particular para dos individuos i y l, con pesos pi y pl , la distancia de Ward es:

El algoritmo K-medias4 para la obtención de una partición directa de un conjunto de “individuos” por variables cuantitativas requiere el número de clases por obtener y de puntos iniciales para cada una de ellas. La propuesta de Lebart et al. (1995) es utilizarlo para obtener una partición que minimice la inercia intraclases. Esto se logra localmente (depende de los puntos iniciales) usando las coordendas (factores) de los individuos y los centros móviles utilizados para la agregación de la partición elegida. En cada paso del algoritmo se actualizan los centros móviles calculando los centros de gravedad de la partición obtenida del paso anterior.

Para una clase k, conformada por el conjunto de individuos Ik con pesos pi y coordenadas sobre el eje s notadas Fs(i), el término general de la coordenada de su centro de gravedad sobre un eje factorial s es:

y su inercia intra en el subespacio de los S primeros ejes factoriales es:

Pesos de las filas influyen en los centros de gravedad y en las inercias intra de las clases.

CARACTERIZACIÓN DE LAS CLASES

Para seleccionar las variables continuas o las categorías de las variables nominales más características de cada clase, se mide la desviación entre los valores relativos a la clase y los valores globales, utilizando los valores test (Lebart et al. 1995,pp.181-184).

Variable continua en una clase. Para una variable continua X, con media general X , el valor

test asociado a la media X k de la clase k es:

4 algoritmo de Hartigan & Wong (1979)

Page 4: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 4

Categoría en una clase. En una clase k conformada por nk individuos, de los n clasificados, nkj tienen la modalidad j. El valor test para j en la clase k se obtiene con un modelo hipergeométrico: de una “urna” con n “bolas”, de las cuales nj son “bolas negras”, se extrae una muestra de nk “bolas” y se obtienen nkj “bolas negras”. Si N es la variable aleatoria que designa la “cantidad de bolas negras en una muestra de tamaño nk”, el valor p asociado al supuesto de extracción aleatoria, cuando la frecuencia relativa de la categoría j en la clase es mayor que la frecuencia global, es:

donde h(x; n, nj , nk) es la distribución de probabilidad hipergeométrica de parámetros n, nj y nk calculada en x. Si la frecuencia relativa de la categoría j dentro de la clase k es menor que la global, entonces el valor p es:

Donde H(nkj ; n, nj, nk) es la función de distribución de probabilidad hipergeométrica acumulada, evaluada en nkj .

El valor test se obtiene buscando el cuantil de la normal estándar correspondiente al valor p calculado mediante la primera o segunda formula. DTM (Lebart 2007). Identificación de las clases sobre los planos factoriales Los centros de gravedad de las clases se pueden proyectar sobre los planos factoriales, y los individuos de cada clase se pueden diferenciar mediante signos o colores.

Page 5: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 5

Análisis Factorial con Xlstat En este apartado presentamos los métodos multivariantes simples de reducción de datos que pueden realizarse con XLSTAT: análisis de componentes principales (ACP), análisis de correspondencias simples (AFC) y análisis de correspondencias múltiples (ACM).

Análisis de Componentes Principales (ACP) El análisis de componentes principales (ACP) consiste en expresar un conjunto de variables en un conjunto de combinaciones lineales de factores no correlacionados entre sà, estos factores dando cuenta una fracción cada vez más débil de la variabilidad de los datos. Este método permite representar los datos originales (individuos y variables) en un espacio de dimensión inferior del espacio original, mientras limite al máximo la pérdida de información. La representación de los datos en espacios de dimensión débil (aquà 2 dimensiones) le facilita considerablemente el análisis.

El Análisis de Componentes Principales es a menudo utilizado ante una regresión ya que permite evitar el uso de variables redundantes, o ante una clasificación ya que permite identificar la estructura de la población y eventualmente determinar el número de grupos a construir.

El ACP se utiliza cuando la matriz de datos está compuesta por un conjunto de variables continuas (activas). Igualmente puede ser de nuestro interés utilizar variables ilustrativas (continuas o categóricas) que no participen en la creación de los ejes pero que estemos interesados en proyectarlas en el espacio factorial creado.

Gastos de publicidad a Europa En la siguiente tabla se muestra la repartición (en porcentajes) de los gastos publicitarios según el medio de comunicación de 16 países de Europa. Los datos corresponden al año 1990 y se extrajeron de la revista Press Landscape update & Eur. Direct Marketing NTC, 1991.

Los datos se encuentran en el archivo PublicidadEuropa.xls

Abrir la planilla de MS Excel con los datos.

Una vez que XLSTAT-Pro éste activado, haga clic en el menú “XLSTAT/Análisis de datos/ Análisis de Componentes Principales”, o haga clic en el botón correspondiente de la barra "Análisis de datos" (ver a continuación).

Page 6: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 6

Una vez seleccionada la opción, aparece el cuadro de diálogo correspondiente al análisis de

componentes principales. Puede entonces seleccionar los datos en la hoja Excel. Hay varias manera

de seleccionar los datos en los cuadros de diálogo XLSTAT (ver tutorial on-line).

Donde dice “Tabla observaciones/variables” debemos ingresar las “variables Continuas activas”,

es decir los datos activos. Presionamos el botón a la derecha o directamente nos vamos a la hoja de

Excel. Por defecto (a la derecha) hemos indicado tildando en “Etiquetas de las Variables” que

parte de esta selección incluye una fila (la primera) con las etiquetas que

identifican a las variables.

En el ejemplo estudiado, los datos aparecen desde la primer fila/columna de la hoja. Siempre que

debajo de la tabla no existan datos, podemos seleccionar las variables directamente sobre el

identificador alfabético de columna de la hoja de Excel, o seleccionar a mano con el Mouse los

datos incluyendo la primer fila con etiquetas variable, pero sin incluir el identificador de ciudades

(observaciones). A continuación podemos ver en líneas punteadas la selección.

o

Page 7: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 7

Seleccionamos las etiquetas para identificar las ciudades a la derecha del cuadro de diálogo, luego de tildar a opción “Etiquetas de las Observaciones”.

Por defecto el tipo de ACP es Pearson (n), que es el algoritmo que hemos visto en la teoría y los resultados se visualizará en una nueva hoja que se crea a la derecha de la hoja con los datos.

En la pestaña “Opciones” podemos especificar algunas opciones de análisis. Podríamos realizar un análisis normalizado o no normalizado para que el espacio factorial sea ortonormal o bien ortogonal, respectivamente. En la mayoría de casos se utiliza la primera opción para igualar las escalas en que están medidas las variables.

También podemos indicar cuantos ejes factoriales se desean conservar (como máximo tantos como variables continuas activas), y cuantos queremos editar en los resultados de salida. Las opciones por defecto son en la mayoría de casos suficientes

Page 8: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 8

La pestaña “Resultados” nos permite elegir los resultados que deseamos que genere y el nivel de significación para las pruebas de esfericidad del ACP.

Los cosenos cuadrados permitirán asignar el tamaño a los puntos para representar el nivel de significación en la representación en el plano. Las coordenadas permitirán rehacer los planos a través de las funciones de visualización “scatterplot”, sin tener que volver a aplicar el algoritmo.

La pestaña “Gráficos” permite configurar qué y cómo vamos a visualizar el Biplot.

Si tenemos una tabla con muchas observaciones, podemos filtrar el numéro a visualizar en el plano o no incluir las etiquetas que los identifican.

Una vez parametrizado, seleccionamos OK para ejecutar el algoritmo.

La primer ventana (informativa) que surge presenta las opciones para la visualización de los planos, este cuadro de diálogo visualiza a través de un grafico de barra la información obre los valores propios. Observamos que los dos primeros ejes factoriales conservan un 70,70% de la inercia.

Presionamos “Terminar” una vez seleccionado el plano conformado por los dos primeros factores.

Podemos ver todos los resultados en la hoja etiquetada “ACP”.

Page 9: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 9

El primer resultado interesante a analizar es la matriz de las correlaciones.

El valor del coeficiente de correlación varía entre -1.00 y +1.00. Ambos extremos representan relaciones perfectas y 0.00 representa la ausencia de asociación. Cuanto más cercano sea a cero el coeficiente de correlación, más débil será la asociación. Con la intención de hacer una adecuada interpretación de los índices correlación, se hará uso de la clasificación que aparece en figura:

Categorías del coeficiente de correlación

La siguiente tabla y el gráfico asociado están vinculados a un objeto matemático, “los valores propios”, que son afortunadamente vinculados a un concepto muy simple: la calidad de la proyección cuando pasamos de N dimensiones (N siendo el número de variables, igual a 5) a un número más débil de dimensiones.

En nuestro caso, observamos que el primer valor propio vale 2,70 representa 45% de la variabilidad. Eso significa que si representamos los datos en un sólo eje, tendremos entonces siempre 45% de la variabilidad total que será preservada.

Page 10: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 10

A cada valor propio corresponde un factor. Cada factor es en realidad una combinación lineal de las variables de inicio. Los factores tienen la particularidad de no ser correlacionados entre ellos. Los valores propios y los factores son ordenados en orden descendente de variabilidad representada

Idealmente, los dos primeros valores propios corresponden a un % elevado de la variabilidad, de manera que la representación sobre los dos primeros ejes factoriales es de buena calidad. En nuestro ejemplo, tenemos el 70,7% de información en el plano formado por los dos primeros factores.

El número de dimensiones "útiles" máximo es automáticamente detectado por el método utilizado.

El primer gráfico que se muestra el Biplot de correlación (PLANO vectorial de las VARIABLES). Corresponde a una proyección de las variables iniciales sobre un plano de dos dimensiones constituido por los dos primeros factores.

Este grafico podemos editarlo con las herramientas de MS Excel y de Xlstat, eliminado los datos no relevantes del mismo, cambiando color, fuente, y tamaño según coseno cuadrando.

Las flechas deben interpretarse como direcciones de crecimiento de las variables en el espacio factorial. Observamos pues que los países que utilizan mucha publicidad en Televisión también utilizan la Radio y muy poco el Cine. Por el otro lado los países que utilizan Revistas como medio, suelen también utilizar más recursos en publicidad Exterior.

El centro representa la media de todas las variables, a partir de este los vectores crecen en un sentido y decrecen en el sentido opuesto. Dos variables están relacionadas positivamente si su ángulo es de casi 0º (paralelas), dos variables están relacionadas de manera negativa si su ángulo es de casi 180º (opuestas) y dos variables no están asociadas si su ángulo es cercano a 90º (perpendicular).

Mientras mas cerca del centro (vector pequeño) la variable no es relevante y si la eliminamos y volvemos a realizar el ACP, el plano no cambia. Cuando las variables están relativamente cercas del centro del gráfico, entonces cualquiera interpretación es arriesgada, y es necesario referirse a la matriz de correlaciones o a otros planos factoriales para interpretar los resultados.

En nuestro ejemplo, podemos deducir del gráfico que las variables Revista y Exterior están relacionadas positivamente, cuando una crece la otra tiende a crecer, TV y Radio también están relacionadas positivamente, pero Cine y Diarios no están relacionados, Cine está relacionado de manera opuesta con Radio, cuando una crece la otra tiende a decrecer.

El círculo de las correlaciones es también útil para interpretar la significación de los ejes. En nuestro caso, el eje F1 es claramente vinculado al Cine, el eje F2 es esencialmente vinculado a los Diarios.

Page 11: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 11

Para confirmar el hecho que una variable es fuertemente vinculada a un factor, debe consultar la tabla de los cosenos: mientras más elevado es el coseno (en valor absoluto), más vinculada está la variable al factor. Mientras más cerca está el coseno de cero, menos vinculada está la variable al eje. En nuestro caso, vemos que en lo que se refiere a la Radio, será mejor interpretada en los ejes F1/F3.

El gráfico a continuación corresponde a Bilplot de distancias (PLANO escalarde las OBSERVACIONES). Permite representar los individuos en un plano de dos dimensiones, e identificar tendencias. Podemos observar qué países están bien representados en los ejes, a partir de las contribuciones y los cosenos cuadrados.

Los países cercanos son países que presentan distribuciones parecidas en el reparto de los gastos publicitarios. Observamos que podes pueden diferenciar claramente los países latinos de los países anglosajones.

Estas técnicas “biplot” permiten la representación de los casos y las variables, de forma conjunta, en el subespacio factorial de dimensión reducida.

A continuación se visualiza el Biplot simétrico con ambos planos de variables y observaciones juntos, Xlstat se encarga de normalizar las escalas.

Muy a menudo se suelen interpretar estos gráficos diferenciando en los cuatro cuadrantes. Los países más alejados del origen de coordenadas son los países que presentan un perfil más alejado del perfil medio.

En este gráfico podríamos concluir lo siguiente: Portugal , Grecia, Italia y España tienden a dedicar más recursos publicitarios en televisión y radio y muy poco en el cine. Francia y Bélgica dedican más recursos en revistas y outdoor. Por el otro lado, países nórdicos como Suiza, Noruega, Suecia, Dinamarca, Finlandia y Irlanda destinan más recursos a los diarios. Suiza, Holanda y Alemania en concreto dedican más recursos al cine

Page 12: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 12

Los criterios de interpretación de la representación se ajustan a las normas siguientes:

- Los vectores representativos de las variables identifican con su medida la dispersión de las mismas, estando por ello situados sus extremos sobre la hiperesfera de radio unidad en el caso de un ACP estandarizado. Este último modelo es especialmente interesante, ya que el producto escalar de dos vectores “variables” se corresponde con su coeficiente de correlación o coseno del ángulo que forman y, la proyección de cada vector “variable” sobre un eje, mide la correlación existente entre dicha variable y la correspondiente componente principal.

- En el Análisis de Componentes Principales (y técnicas Biplots derivadas), la interpretación correspondiente a variables (relaciones entre ellas y con las componentes principales) es distinta de la obtenida para individuos (comportamientos similares en función de la distancia existente entre ellos). De forma general la relación entre variables se determinará mediante ángulos y la existente entre casos mediante distancias.

Las proyecciones sobre los ejes y sobre los planos factoriales serán muy ‘buenas’ para algunos puntos pero también pueden ser de ‘mala’ calidad para otros puntos. Se requiere entonces de un índice que ponga en evidencia este hecho, que se denomina coseno cuadrado o contribución relativa.

Por lo tanto puede resultar interesante ponderar los puntos a partir de la contribución de cada país en el espacio factorial creado. Para ello debemos ejecutar las opciones de Visualización que nos permite realizar esta opción y muchas otras, como “zoon” del gráfico, tamaño de símbolos,...

Para cambiar las escalas recortando los mínimos y máximos podemos hacer un “zoon” y visualizar mejor la nube de individuos. Seleccionamos el grafico e ingresamos en “Visualización/AxesZoomer”.

Aparece un cuadro de diálogo donde podemos probar la escalas, cuando esté conforme precione “Terminar”.

Desde las opciones de gráfico de Excel, eliminamos la visualización e las escalas.

A partir de la suma del coseno cuadrado de los dos primeros factores podemos representar con el tamaño la importancia del punto y de la variable en su representación en este plano, es decir nivel de significación. De esta manera podemos corregir errores de proyección.

Page 13: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 13

Para esto selecciono la serie de puntos de las observciones e ingreso en el menú XLSTAT/Visualiación/Eas

yPoint”. En el cuadro de diálogo le indicamos la columna con la suma de los cosenos cuadrados. Hacemos lo mismo para las 5variables.

Elementos suplementarios

Es posible proyectar elementos suplementarios o ilustrativos (individuos, variables continuas y variables nominales) sobre los planos construidos en el ACP. Los elementos suplementarios permiten explorar asociaciones con los elementos activos o enriquecer los análisis. Los elementos que participan en el análisis se denominan activos, en el caso del ACP son variables continuas activas e individuos activos.

Individuos suplementarios Un individuo que tiene los valores para todas las variables activas pero que no participó en el ACP se puede proyectar sobre los ejes obtenidos de la misma forma que los individuos activos. Mediante este procedimiento se puede posicionar un nuevo individuo con respecto a todos los individuos activos para responder a objetivos preestablecidos, por ejemplo explorar su posible discriminación entre grupos.

Variables nominales ilustrativas Como una variable nominal representa un partición (división en clases) de los individuos lo que se proyecta son los centros de gravedad de cada subconjunto asociado a una modalidad

Variables continuas En le ACP normado la proyección de una variable continua ilustrativa equivale a su correlación con el eje, lo que da la clave para su interpretación.

5 Primero seleccionar una variable y utilizar la tecla de fecha hacia abajo para encontrar la serie de las variables en los extremos de

los vectores.

Page 14: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 14

Análisis Factorial de Correspondencias (AFC) El análisis de correspondencias simples se utiliza cuando queremos analizar dos variables categóricas, que definen una tabla de contingencia. El interés recae en analizar las asociaciones entre las categorías de ambas variables, y su proyección en un biplot. Utilice el análisis factorial de correspondencias con el fin de estudiar la conexión entre dos conjuntos de modalidades que constituyen las filas y columnas de una tabla de contingencia.

Una tabla de contingencia (TC) se obtiene al clasificar dos variables cualitativas. El conjunto de las filas representan a las categorías de una variable y el conjunto de las columnas, a las categorías de la otra variable. El valor de una celda representa al numero de unidades estadísticas = individuos, que poseen simultáneamente las categorías de la fila y de la columna que se cruzan. Al dividir la tabla sobre su total se obtiene la tabla de frecuencias relativas asociada a la TC, esta representa la distribución conjunta de probabilidad bivariada de la población en estudio, según las dos variables cualitativas que dan origen a la tabla. La suma de las filas (marginal fila), representa la distribución de probabilidad según la variable fila y la suma de las columnas (marginal columna), la distribución de probabilidad asociada a la variable columna. La división de cada una de las filas (respectivamente, columnas) por su marginal origina las distribuciones condicionales o perfiles fila (columna). El análisis de correspondencias simples (ACS) permite la descripción de una TC, cumpliendo con tres objetivos: 1) obtener y comparar una tipología de los perfiles fila; 2) obtener y comparar una topología de los perfiles columnas y 3) estudiar las asociaciones entre las dos variables.

En aplicaciones más complejas las filas y las columnas pueden estar estructuradas mediante sendas particiones, definidas por otras variables cualitativas. En este documento se utiliza como ejemplo una tabla sobre marcas de ropa, en donde se valora a cada marca según su asociación con diferentes características como precio, calidad, prestigio, exclusividad, elegancia, vanguardia y complementos.

Del archivo de datos deseamos caracterizar las distintas marcas según su mayor relación con determinadas características e identificar marcas comunes.

Tabla de contingencia cuya suma de marginales fila y columna son equivalentes

Una vez que XLSTAT está abierto, seleccionamos del menú: XLSTAT/Análisis de los datos/Análisis factorial de correspondencias, o haga clic en el botón correspondiente de la barra de herramientas "Análisis de los datos".

Page 15: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 15

Aparece un cuadro de diálogo donde podemos ingresar la tabla de contingencia o crearla a partir de una tabla de datos cualitativos, con el cruce de dos variables.

Indicamos como formato de los datos “Tabla cruzada” (por defecto) y con el mouse seleccionamos de la hoja de MS Excel la tabla completa con etiquetas filas y columna (primer fila y primer columna) sin incluir los totales marginales. Asegurarse que esté activada la opción “Etiquetas incluidas”.

Page 16: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 16

Los resultados son visualizados después de especificar algunas opciones relativas a los gráficos. Están disponibles numerosos detalles, incluido la prueba del chi-cuadrado de independencia de filas y columnas. La calidad de la representación gráfica puede ser evaluada gracias al histograma o a la tabla de los valores propios. Si la suma de los dos primeros (o de los n primeros) valores propios representan una gran parte de la totalidad de la varianza, la calidad de los gráficos es buena.

En nuestro caso esta calidad es buena en la medida en que los dos primeros valores propios totalizan el 77,41% de la varianza total.

Cuando la calidad del análisis es buena el plano permite interpretar fácilmente los datos. Podemos observar que las marcas de ropa de mayor precio (ESCORPION, RODIER…) no son las más elegantes pero si de más prestigio social. Elegancia, precio, vanguardia y complementos son las cuatro características importantes que mejor están representadas en el plano y diferencian y caracterizan las distintas marcas. En el cuadrante superior izquierdo tenemos las marcas más caras, en el superior derecho las de vanguardia, en el cuadrante inferior izquierdo las marcas consideradas de mayor elegancia y en el inferior derecho las que poseen más complementos.

Los criterios de interpretación del Análisis de Correspondencias se basan en los principios siguientes:

• La proximidad de perfiles fila de la variable X revela un comportamiento similar de esas categorías respecto a la otra variable Y (y a la inversa).

• La presencia de perfiles fila de la variable X, radicalmente opuestos a perfiles de Y, puede ser también interpretada como relación inversa entre ellos.

• Los perfiles situados en las proximidades del centroide de la representación son los que no expresan relación alguna.

• La proximidad de un perfil a un cierto eje expresa su mayor contribución en su definición. Esta contribución aumenta cuanto más alejado se encuentre del centroide de la representación.

Page 17: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 17

Es decir, las asociaciones no serán más que la cuantificación numérica de la relación existente entre categorías fila y columna:

• Mayor alejamiento del centroide y menor ángulo → MAYOR ASOCIACIÓN • Acercamiento al centroide y aumento del ángulo → MENOR ASOCIACIÓN • Puntos opuestos (π/2 < ángulo < 3π/2) → ASOCIACIÓN NEGATIVA • La variabilidad explicada por cada eje es proporcional al valor singular que lo define.

En un ACS las modalidades aparecen repartidas a ambos lados de los ejes, lo que conlleva a la lectura de las contraposiciones más importantes entre modalidades.

En una tabla de contingencia de gran tamaño se puede buscar las modalidades más importantes sobre cada eje recurriendo a las denominadas contribuciones absolutas.

Las proyecciones sobre los ejes y sobre los planos factoriales serán muy ‘buenas’ para algunos puntos pero también pueden ser de ‘mala’ calidad para otros puntos. Se requiere entonces de un índice que ponga en evidencia este hecho, que se denomina coseno cuadrado o contribución relativa.

Proyección de elementos suplementarios

Al igual que en ACP sobre los ejes factoriales se pueden proyectar filas y columnas que no hayan participando en el análisis. Se hace mediante las relaciones cuasi-bibaricéntricas y por lo tanto se interpreta de la misma forma, pero debe hacerse por cada modalidad ilustrativa con respecto a las modalidades activas. No es apropiado interpretar modalidades ilustrativas entre sí pues no han participado en la construcción de los ejes.

Para introducir filas o columnas suplementarias o ilustrativas con el Xlstat, en la pestaña de Opciones debemos activar el Análisis avanzado “Datos suplementarios” e ingresar el número de filas columnas a considerar de la tabla seleccionada como suplementario.

Page 18: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 18

Análisis de Correspondencias Múltiples (ACM) El análisis de correspondencias múltiples (ACM) es una extensión del análisis factorial de correspondencia (AFC) aplicada no a una tabla de contingencia, sino a una tabla disyuntiva completa. Este método se adapta particularmente al análisis de encuestas para las cuales las filan de la tabla son en general individuos y las columnas son modalidades de variables cualitativas, generalmente modalidades de respuesta a las preguntas.

Utilice el análisis de correspondencias múltiples con el fin de estudiar datos bajo la forma de una tabla de individuos descritos por varias variables cualitativas.

El análisis de correspondencias múltiples compara individuos a través de las modalidades de las variables. Encuentra asociaciones entre variables a través de las modalidades de ellas.

Los datos de ejemplo corresponden a una encuesta efectuada ante 28 clientes por un concesionario, una semana después que estos últimos recuperaron su vehículo tras una reparación mecánica.

El cuestionario incluye cinco preguntas:

- ¿Está Ud. globalmente satisfecho de su visita al taller? (Si/ No)

- ¿Considera Ud. que la reparación fue efectuada correctamente? (Si / No / No sabe)

- ¿Cómo juzga Ud. la calidad de la atención? (de 1 a 5)

- ¿Le parece correcta la relación de calidad precio? (Si / No)

- ¿Volverá Ud. a este taller para una reparación? (Si / No / No sabe)

Efectuando un Análisis de Correspondencias Múltiples (ACM), deseamos identificar las posibles relaciones entre las diferentes respuestas en las diferentes preguntas.

Una vez iniciado XLSTAT, elija el comando XLSTAT/Análisis de datos/Análisis de Correspondencias Múltiples o haga clic en el botón "Análisis de Correspondencias Múltiples" de la barra de herramientas "Análisis de los datos".

Aparece el cuadro de diálogo que corresponde al análisis de Correspondencia Múltiples. En la primera pestaña seleccionamos los datos. La opción "Etiquetas de variables" se deja activada ya que la primera fila de las columnas incluye el nombre de las variables. La opción "Etiquetas de las observaciones" es activada y seleccionamos la columna de las etiquetas de las observaciones.

Page 19: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 19

Selecciono las variables cualitativas nominales activas

Selecciono el identificador de individuos

Al igual que en correspondencias simples se pueden proyectar elementos ilustrativos: individuos, variables nominales (sus modalidades) y variables continuas. Los individuos y modalidades se proyectan utilizando las fórmulas cuasibibaricéntricas. Las variables continuas calculando la correlación entre la variable y el eje.

En la ficha “Opciones” activamos la opción de “datos suplementarios” y después vamos a la ficha correspondiente. La variable "Volver" se utiliza como "Variable adicional" ya que no deseamos que influya en los cálculos; pero nos interesa a posteriori su ubicación.

Page 20: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 20

Elegimos la opción 1/p para filtrar los valores propios: no serán exhibidos los resultados detallados que corresponden a los factores para los cuales el valor propio es menos que 1/p (donde p es el número de variables cualitativas activas).

Activamos las siguientes opciones de “Resultados” y de “Gráficos”.

Page 21: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 21

Una vez que haya pulsado en el botón "OK", empiezan los cálculos y luego aparecen los resultados. XLSTAT empieza por visualizar tablas implicadas en los cálculos (tabla disyuntiva completa y tabla de Burt).

La guía para decidir cuántos ejes analizar en al ACM es la forma del histograma de los valores propios, Interesan los primeros ejes que se destaquen sobre los demás.

La inercia total vale 2. En ACM la inercia de la tabla representada no tiene significado estadístico, esta depende del número de modalidades y del número de variables. Por la manera como se desarrolla el método (ACS de la tabla Z), el porcentaje de inercia no es un criterio para saber cuántos ejes retener en un ACM. La explicación de este último hecho se ve muy bien cuando se compara un ACM de dos variables con el ACS de la tabla de contingencia que las cruza.

En la siguiente tabla se visualizan los 8 valores propios y el % de inercia correspondiente.

Page 22: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 22

El primer plano factorial del ACM tiene la misma forma que el del ACS y produce los mismos resultados en términos de las correspondencias entre las modalidades de las dos variables. De modo que los ejes adicionales del ACM se pueden considerar parásitos. En Lebart et al. (1995) aparecen las relaciones para dos variables entre los análisis de correspondencias de la tabla de contingencia K, la tabla disyuntiva completa Z y la tabla de Burt B.

Luego se visualizan las coordenadas de las categorías en el espacio factorial (las diferentes categorías de las variables cualitativas seleccionadas) y los cosenos cuadrados. Las coordenadas de las observaciones están más abajo.

El gráfico (sin editar) a continuación representa el mapa factorial que superpone categorías y observaciones.

Utilizando las herramientas de visualización de Xlstat y de edición de gráficos del Excel podemos modificar el grafico, eliminado titulos y escalas de los ejes, dispersando la visualización de las escalas, cambiando formato y color de etiquetas y puntos y cambiando el tamaño de los puntos en función de la suma del coseno cuadrado de los dos primeros factores.

Para esto último, primero seleccionamos la serie de puntos de las observaciones, con un clic sobre cualquiera de los individuos (azul), accedemos a la herramienta EasyPoint el menú de visualización del Xlstat y seleccionamos la suma de los cosenos cuadrados sólo de las observaciones.

Ahora seleccionamos la serie de los puntos correspondientes a las modalidades de las variables cualitativas activas con un clic sobre cualquiera de ellas (rojo). Accedemos a la herramienta EasyPoint y seleccionamos la suma de los cosenos cuadrados sólo de las modalidades activas.

Por último seleccionamos los tres puntos correspondientes a las modalidades suplementarias. Accedemos a la herramienta EasyPoint y seleccionamos las tres últimas filas de la tabla de cos2.

Page 23: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 23

Serie de puntos de las observaciones

Suma coseno cuadrado de individuos

Serie de puntos modalidades activas

Page 24: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 24

Suma coseno cuadrado de las modalidades activas

Serie de puntos de las modalidades suplementarias

Suma coseno cuadrado de modalidades suplementarias

El grafico quedaría como sigue:

Page 25: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 25

Confirmamos una evidencia: un cliente volverá si está globalmente satisfecho de la prestación, de la calidad de atención, del precio y si tiene la impresión que la reparación se efectuó efectivamente. También se observa que cuando la reparación no se efectuó satisfactoriamente coincide con una atención no satisfactoria. Esto merece un amplio análisis: ¿La persona indicó equivocadamente el problema porque no estaba satisfactoriamente atendida? o bien ¿llamó de nuevo para señalar que sigue el problema y que no fue atendida satisfactoriamente en aquel momento?.

Sobre los planos factoriales se tienen tres claves para la lectura:

• Los individuos que aparecen cerca se parecen porque asumen mas o menos las mismas modalidades. Cada uno es el cuasibibaricentro de las modalidades que asume y las características se derivan de las modalidades que se proyectan cerca.

• Las modalidades de variables diferentes se parecen porque son asumidas mas o menos por los mismos individuos. Cada modalidad se sitúa en el cuasibibaricentro de los individuos que la asumen.

• Dos modalidades de una misma variable no pueden ser asumidas por los mismos individuos y si caen cerca se debe al parecido de los individuos por modalidades de otras variables.

Las contribuciones y cosenos cuadrados tienen la misma interpretación que en correspondencias simples. Se agrega la contribución de una variable como suma de las contribuciones de sus modalidades.

Page 26: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 26

Análisis Cluster con Xlstat El Análisis Cluster, también conocido como Análisis de Conglomerados, Taxonomía Numérica o Reconocimiento de Patrones, es una técnica estadística multivariante cuya finalidad es dividir un conjunto de objetos en grupos (cluster en inglés) de forma que los perfiles de los objetos en un mismo grupo sean muy similares entre sí (cohesión interna del grupo) y los de los objetos de clusters diferentes sean distintos (aislamiento externo del grupo). Para llevar a cabo un análisis de este tipo se deben los siguientes pasos:

1) Plantear el problema a resolver por un Análisis Cluster 2) Establecer medidas de semejanza y de distancia entre los objetos a clasificar en función del tipo de

datos analizado 3) Analizar algunos de los métodos de clasificación propuestos en la literatura haciendo especial énfasis

en los métodos jerárquicos aglomerativos y en el algoritmo de las k-medias, y determinar el número de grupos.

4) Interpretar los resultados obtenidos 5) Analizar la validez de la clasificación obtenida

Conviene hacer notar, finalmente, que es una técnica eminentemente exploratoria cuya finalidad es sugerir ideas al analista a la hora de elaborar hipótesis y modelos que expliquen el comportamiento de las variables analizadas identificando grupos homogéneos de objetos. Los resultados del análisis deberían tomarse como punto de partida en la elaboración de teorías que explicquen dicho comportamiento.

Algoritmo de clasificación mixta

La propuesta descrita en Lebart et al. (1995) aprovecha las ventajas del método de Ward y las del K-medias, combinándolos de la manera siguiente:

1. Clasificación inicial. Si la cantidad de individuos por clasificar es muy alta, es probable que la clasificación jerárquica no se pueda ejecutar directamente. Entonces se efectúa esta primera etapa, la cual busca obtener rápidamente y a bajo costo una partición de los individuos en s clases homogéneas, donde s es mucho mayor que el número de clases deseado en la población, y menor que la cantidad de individuos. Se emplea el algoritmo de agregación alrededor de centros móviles (K-medias). Los centros iniciales se establecen al azar.

2. Agregación jerárquica con el método de Ward. Se efectúa una clasificación ascendente jerárquica donde los elementos terminales del árbol son las s clases de la partición inicial (calcular las distancias entre filas o entre las clases previas obtenidas en 1) o los individuos directamente. El árbol correspondiente se construye según el criterio de Ward, el cual une en cada paso de agregación las dos clases que incrementen lo menos posible la inercia intraclases.

3. Corte del árbol. El árbol o dendrograma que resume el procedimiento de clasificación permite ver la estructura de clases de los individuos que son objeto de análisis. En el gráfico de índices de nivel es más fácil observar los cambios de inercia más grandes (saltos) y decidir el número de clases K. Para el paso siguiente es necesario calcular los pesos y centros de gravedad de las clases obtenidas.

4. Consolidación de la clasificación. La partición obtenida en el paso anterior no es óptima siempre, debido a la estructura de particiones anidadas del dendrograma obtenido. Para mejorarla se utiliza de nuevo un procedimiento de agregación alrededor de centros móviles (K-medias), utilizando los centros de gravedad de las clases obtenidas al cortar el árbol como centros iniciales.

Clasificación Ascendente Jerárquica Utilice la clasificación ascendente jerárquica para constituir grupos de individuos similares (clases) sobre la base de su descripción por un conjunto de variables cuantitativas, cualitativas binarias (0/1), o eventualmente de todos tipos.

Nota: sobre todo para las variables cualitativas no binarias es preferible efectuar previamente un análisis de correspondencias múltiples (ACM) y de considerar los datos de los individuos sobre los ejes factoriales como nuevas variables.

EJEMPLO CLASIFICACIÓN SOBRE UN ACP

Tomamos como ejemplo una tabla correspondiente a 200 muestras de caras o cráneos, de las mismas se obtuvo 6 medidas, como se muestra en la siguiente figura. La idea es usar estas medidas para construir mascaras, pero no se pueden hacer 200 máscaras, sino que se trata de descubrir patrones o clases de cráneos con medidas similares que permitirán diseñar una mascara que va bien para un grupo de personas.

Page 27: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 27

Lo primero que debemos hacer es un análisis de componentes principales para obtener los factores, abrimos el Xlstat y elegimos la opción en el menú “XLSTAT/Análisis de datos/ Análisis de Componentes Principales”, o haga clic en el botón correspondiente de la barra "Análisis de datos". Los datos no tiene columna de identificación de observaciones. Directamente seleccionamos toda la tabla incluyendo primer fila con identificador de variables.

En gráfico indicamos que no figuren las etiquetas de las observaciones en los gráficos, ya que son numerosos y no tenemos etiquetas y el programa asigna una por defecto.

Page 28: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 28

A continuación podemos visualizar el plano de los individuos y el plano de las variables, después de editarlo con MS Excel y con las herramientas de Visualización del xlstat.

La muestra de datos medida es bastante dispersa y podemos encontrar varios patrones o clases de caretas. Para la clasificación debemos 6seleccionar el número de factores a considerar, en este caso, los tres primeros. Se suele utilizar el subconjunto de los primeros k ejes factoriales tales que proyecten en conjunto un mínimo del 80% de la inercial original. El diagrama de valores propios orienta la decisión del número de ejes que se utilizan en la clasificación. Algunas veces, sobre todo en tablas pequeñas, se usan todos los ejes.

Cómo n = 200, es decir mayor de 30, comenzamos la clasificación aplicando sobre los factores el método de Clasificación Jerarquica, ingresamos en el menú Xlstat en “XLSTAT/Análisis de datos/Clasificación Ascendente Jerárquica (CAJ)”.

En la hoja de resultados del ACP, buscamos las coordenada de las observaciones y seleccionamos los factores a considerar, podemos o no tomar la primer fila con identificador de factores o Axes, y podems o no seleccionar la columna con etiquetas de observaciones. En este caso no tenemos y tampoco nos interesa identificar los individuos pero si mantenemos la primer fila.

Recordemos que la “tabla observaciones/variables” en este caso no es la tabla original sino la “tabla de observaciones/factores”.

6 Tomar todos los factores para la formación de conglomerados es equivalente a efectuar una clasificación de las filas de la tabla de datos utilizando las variables originales. Tomar menos factores implica realizar un filtrado: se supone que los ejes utilizados para la clasificación tienen la información relevante y que los desechados se deben a las fluctuaciones aleatorias que constituyen el ruido.

Page 29: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 29

El tipo de proximidad es por disimilitudes (buscamos grupos diferenciados) y para calcular la matriz disimilitud utilizamos la distancia euclidiana y el 7método de Ward para la agregación, según lo visto en la teoría.

En Opciones indicamos qué vamos a clasificar, en este caso filas (las observaciones), y esta primera vez indicamos que Xlstat determine automáticamente donde partir el dendograma. Esta decisión es recomendable hacerla sobre el gráfico del dendograma.

Indicamos que se vean todos los resultados y para mejor visualización que el dendograma sea Horizontal.

7 El método de Ward utiliza la distancia entre clases que cumple con el objetivo de unir, en cada paso del proceso de

aglomeración, las dos clases que incrementen menos la inercia intraclases. La distancia de Ward entre los dos grupos,

en función de la distancia euclidiana canónica

Page 30: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 30

Automáticamente Xlstat selecciono la partición de 3 elementos.

Según podemos ver en el Dendograma, la partición a elegir es de 4 clases, por lo cuál volvemos a realizar la clasificación e indicamos que el truncamiento no se automático sino en 4 clases.

Page 31: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 31

Vemos a continuación el dendograma con la partición de 4 y la información sobre las inercias.

Page 32: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 32

Método de las k-medias Este tipo de método es conveniente utilizarlo cuando los datos a clasificar son muchos y/o para refinar una clasificación obtenida utilizando un método jerárquico. Supone que el número de grupos es conocido a priori.

Existen varias formas de implementarlo pero todas ellas siguen, básicamente, los siguientes pasos:

1) Se seleccionan k centroides o semillas donde k es el número de grupos deseado

2) Se asigna cada observación al grupo cuya semilla es la más cercana

3) Se calculan los puntos semillas o centroides de cada grupo

4) Se iteran los pasos 2) y 3) hasta que se satisfaga un criterio de parada como, por ejemplo, los puntos semillas apenas cambian o los grupos obtenidos en dos iteraciones consecutivas son los mismos.

El método suele ser muy sensible a la solución inicial dada por lo que es conveniente utilizar una que sea buena. Una forma de construirla es mediante una clasificación obtenida por un algoritmo jerárquico.

Para 8optimizar esta partición vamos a aplicar sobre los factores el método de clasificación K-means, pero requiere el número de clases por obtener y de puntos iniciales para cada una de ellas, es decir usa los factores obtenidos en el ACP y los 9centros móviles utilizados para la agregación de la partición elegida (en el ejemplo: 4 clases).

En el menú buscamos el método en “Análisis de Datos” y seleccionamos los factores del ACP igual como se hizo en la Clasificación Jerárquica, en “número de clases” indicar 4.

En Opciones indicamos que la partición inicial se realiza a partir de Centros de Clase definidos por el usuario, es decir se lo damos nosotros.

8 La propuesta de Lebart et al. (1995) es utilizarlo para obtener una partición que minimice la inercia intraclases

9 En cada paso del algoritmo se actualizan los centros móviles calculando los centros de gravedad de la partición

obtenida del paso anterior

Page 33: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 33

Debajo nos permite seleccionar de la hoja con los resultados de la clasificación jerárquica (CAJ) la matriz con tantas filas como clases, en este caso 4 y tanta columnas como factores, incluir la primer fila con etiquetas pero no la primer columna con las clases.

En la hoja de resultados podemos ver que la inercia Intraclase ha sido minimizada y la Interclase

maximizada.

Buscamos los resultados por objetos y seleccionamos la columna que indica para cada observación su clase. La pegamos junta la las variables, de esta manera nos que una variable “Tipológica” que clasifica a los cráneos en 4 grupos o patrones diferentes.

Page 34: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 34

Volvemos a realizar el ACP, pero esta vez, proyectamos de manera ilustrativa la variable cualitativa de clase. Esta tabla es utilizada para caracterizar las clases mediante el algoritmo DECLA.

A continuación visualizamos el cartografiado con los centro de clase proyectados sobre el plano.

Si armamos una tabla tomando las coordenadas y la suma de cosenos cuadrados de las observaciones, además de la variable de clase podemos utilizar la herramienta de graficado del Xlstat “Scatter plots” para colorear las observaciones en función de los grupos o clases y darle un efecto burbuja (3D) y no sólo el tamaño, a través del coseno cuadrado de los dos primeros factores.

Page 35: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 35

Para realizar este grafico preparamos la siguiente tabla a partir de los resultados del último ACP.

Luego buscamos la herramienta en el menú de “Visualización” del Xlstat.

Seleccionamos en X el primer factor F1, en Y el factor F2, en Z la suma de los cosenos cuadrados y en Grupo la variable tipológica. La opción Z permite darle el tamaño y la forma de burbuja y la opción Grupo permite colorear las burbujas en función de una variable categórica o de clase. En el ejemplo no se toma la primer fila con identificador X e Y y tampoco se muestra en el gráfico títulos de ejes y gráficos.

Al seleccionar OK se genera una nueva hoja en el libro de MS Excel (SCA) con el biplot o plano factorial. Cada grupo de puntos coloreados para cada clase representa una serie de datos para el gráfico de Excel, por lo tanto basta seleccionar una vez cualquiera de los puntos pertenecientes a un grupo para cambiar el color de todas las observaciones de una clase.

Page 36: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 36

El formato interno DTM para entrada de datos La meta de los métodos de importación es transformar un archivo del texto preexistente en el "formato interno DTM". El conocimiento del formato interno DTM podría ser útil para algunos usuarios adelantados; No es indispensable para los principiantes.

En la configuración más general, dos archivos constituyen el SET (conjunto) interno de datos de DTM:

1) El archivo con diccionario, provee los nombres (o los identificadores) de las variables numéricas y categóricas (incluye10 los nombres de las modalidades correspondientes a cada variable categórica).

2) Los ficheros de datos, contiene los valores de estas variables para un SET de individuos (o las observaciones), conjuntamente con los identificadores de los mismos.

"El formato" interno "DTM"

Estos tres tipos de archivos están en formato del texto simple (la extensión ".txt", legible a través del “Bloc de Notas” u otro editor de texto, (o también con un procesador de texto, siempre que se tome como archivos del texto simples sin formato). Se suele colocar como extensión (en reemplazo del txt) para estos ficheros de texto “dic” para el diccionario y “dat” para los datos.

Pueden grabarse directamente del teclado, o con la ayuda del menú "DataCapture". En la mayoría de los casos sin embargo, tienen que ser importados de (a menudo grandes) archivos preexistentes.

Tabla 1 y 2 se muestra un ejemplo pequeño, implicando cuatro variables.

Tabla 1: Ejemplo de un diccionario interno DTM para 4 variables: Género (2 categorías); Edad (0 categorías es una variable = numérica);

Edad dividida en 4 categorías; Nivel educativo (3 categorías).

2 ENGENDRAN (4 espacios; el número de categorías N; espacio vacío; título de la variable)

MASC MASCULINO (identificador corto de 4 caracteres; espacio vacío; identificador < 20 caracteres)

FEME FEMENINO (identificador corto de 4 caracteres; espacio vacío; identificador < 20 caracteres)

0 EDAD_num (4 espacios; el número de categorías 0; espacio vacío; nombre variable numérica)

4 EDAD_rango (4 espacios; el número de categorías N; espacio vacío; título de la variable)

EDA1 18_24 (identificador corto de 4 caracteres; espacio vacío; identificador < 20 caracteres)

EDA2 25_39 (identificador corto de 4 caracteres; espacio vacío; identificador < 20 caracteres)

EDA3 40_59 (identificador corto de 4 caracteres; espacio vacío; identificador < 20 caracteres)

EDA4 60 (identificador corto de 4 caracteres; espacio vacío; identificador < 20 caracteres)

3 EDUCACIÓN (4 espacios; el número de categorías N; espacio vacío; título de la variable)

EDUL Baja

EDUM Media

EDUH Alta

Tabla 2: El ejemplo de un fichero de datos interno DTM para las 4 variables previas: El género, la Edad numérica, la Edad en 4 categorías, el nivel Educativo.

Tres encuestados (individuos, observaciones)

' 1006 ' 1 76 4 1 (Los identificadores de los individuos: entre comillas simples,

' 1007 ' 2 20 2 2 sin espacio vacío, menos de 20 caracteres.

' 1008 ' 2 29 3 2 Los separadores entre los valores: como mínimo un espacio en blanco)

10 Esta característica es bastante rara en software estadístico, pero parece indispensable para explorar SETS

datos categóricos de muchas dimensionales.

Page 37: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 37

Para el análisis de una tabla de datos haciendo uso de métodos multivariados, Lebart et al. (1995) presenta una estrategia que consiste en realizar primero un análisis factorial según la naturaleza de los datos y luego una 11clasificación basada en un algoritmo mixto: clasificación jerárquica con el método de Ward y agregación alrededor de centros móviles (K-medias). Finalmente se obtiene una partición del conjunto de datos y la caracterización de cada una de las clases, según las variables activas e ilustrativas, ya sean cuantitativas o cualitativas. Para la caracterización de las clases se utilizan los valores test, que son índices descriptivos construidos siguiendo la metodología de pruebas de hipótesis, pero sin el objetivo de hacer inferencias.

La utilización de las coordenadas factoriales permite tener un marco común en el proceso de formación de conglomerados. Para el proceso de clasificación el análisis factorial previo se constituye en un pretratamiento, que transforma los datos originales en variables continuas no correlacionadas. Tomar todos los factores para la formación de conglomerados es equivalente a efectuar una clasificación de las filas de la tabla de datos utilizando las variables originales. Tomar menos factores implica realizar un filtrado: se supone que los ejes utilizados para la clasificación tienen la información relevante y que los desechados se deben a las fluctuaciones aleatorias que constituyen el ruido. El diagrama de valores propios orienta la decisión del número de ejes que se utilizan en la clasificación. Algunas veces, sobre todo en tablas pequeñas, se usan todos los ejes. (Campo, 2007).

� El método de Ward utiliza la distancia entre clases que cumple con el objetivo de unir, en cada paso del proceso de aglomeración, las dos clases que incrementen menos la inercia intraclases.

� El algoritmo K-medias para la obtención de una partición directa de un conjunto de “individuos” por variables cuantitativas requiere el número de clases por obtener y de puntos iniciales para cada una de ellas. La propuesta de Lebart et al. (1995) es utilizarlo para obtener una partición que minimice la inercia intraclases. Esto se logra localmente (depende de los puntos iniciales) usando la distancia euclidiana canónica entre los individuos y los centros móviles utilizados para la agregación. En cada paso del algoritmo se actualizan los centros móviles calculando los centros de gravedad de la partición obtenida del paso anterior.

� Para seleccionar las variables continuas o las categorías de las variables nominales más características de cada clase, se mide la desviación entre los valores relativos a la clase y los valores globales, utilizando los valores test.

Caracterización de Clases con DTM Procedimiento DECAT (DEscripción de CATegorias) DECAT es una función que realiza la caracterización de las clases según variables. Caracterización de una variable cualitativa. Realiza comparaciones múltiples entre medias y proporciones con el resto de variables para observar las relaciones más evidentes.

Caracterización de las clases o grupos teniendo en cuenta las variables en la tabla. Estas variables pueden ser cuantitativos, cualitativos o frecuencias. Permite ver qué variables caracterizan a cada una de las clases teniendo en cuenta los Valores Test.

DTM ofrece un método original y poco conocido para caracterizar una variable respuesta a partir de un conjunto de variables explicativas. Se aplica un algoritmo que realiza comparaciones múltiples entre medias y / o proporciones para hallar las variables explicativas relacionadas. Este método permite, por ejemplo que sepamos que características diferencian a los clientes "buenos" de los clientes "malos", tomando como explicativas la edad, el nivel de estudios, los años en la entidad bancaria,...Es un método que se enmarca claramente entre las técnicas más recientes de Minería de datos (Data Mining). Ordena las características influyentes por el p-valor asociado a la prueba estadística y además incorpora un nuevo elemento, el valor-test. Este estadístico se distribuye según una normal estandarizada, por lo que cuando sea superior a 2 o bien inferior a –2 se considerará que una característica es influyente, con un nivel de significación asociado de 0,05.

Se puede caracterizar estadísticamente una variable cualitativa (nominal). Los elementos característicos pueden ser otras variables nominales o también variables continuas.

11 el término clasificación se utiliza como sinónimo de análisis o formación de conglomerados o clasificación no

supervisada. En ningún momento hace referencia a la clasificación supervisada o discriminación

Page 38: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 38

Caracterización de una categoría de una variable categórica respuesta a partir de una variable continua explicativa.

En el caso que se desee caracterizar el subgrupo de individuos a partir de una variable explicativa continua se realiza un test de comparación de medias entre la media del subgrupo respecto la media global ordena las características influyentes por el p-valor asociado a la prueba estadística y además incorpora un nuevo elemento, el valor-test. Este estadístico se distribuye según una normal estandarizada, por lo que cuando sea superior a 2 o bien inferior a -2 se considerará que una característica es influyente, con un nivel de significación asociado de 0,05.

Siguiendo con el ejemplo de las 6 mediciones sobre 200 cráneos, en el apartado anterior se obtuvieron 4 clases (patrones). Procedemos a caracteriza cada clase de manera de obtener las medidas “tipologicas” para cuatro mascaras.

1º paso – Importar los datos al software DTM.

Creamos una carpeta de trabajo donde trabajamos con el DTM.

Copiamos la tabla con las 6 variables continuas y la variable de clase en un nuevo libro de Excel, insertamos un columna al principio y colocamos una etiqueta de identificación de observaciones.

Restricciones importantes que hay que asegurar:

- Los nombres de variables deben tener menos de 20 caracteres, - Estos nombres no deberían tener espacios en blanco (en todo caso, reemplácelos por líneas

subrayadas). - La primer columna debe ser de etiquetas que identifiquen las observaciones, si no existe

crearla.

Guardamos como fichero CSV (delimitado por punto y coma).

Page 39: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 39

Nota: es recomendable que el el Panel de control / configuración Regional del sistema operativo, el símbolo decimal sea el “.” (punto) y el símbolo separador de miles sea la “,” (coma), de esta manera cuando creamos un fichero CSV, el mismo delimita las columna con “;”.

Podemos abrir el fichero para comprobar que las columnas están delimitadas por punto y coma con el Block de Notas

Nota: Si no podemos, deseamos o no sabemos cambiar la Configuración regional del sistema Operativo y el símbolo decimal es la “,” (coma), es recomendable guardar el fichero en formato TXT delimitado por tabulaciones, el mismo requiere un paso previo en la importación del DTM para convertirlo a delimitado por punto y coma.

Abrimos el DTM y seleccionamos la opción “DataCapture, Data importation, Preprocessing” (importación / captura / preprocesamiento de datos). Luego “Importing Dictionary ,Data and Texts” (Importar Diccionario, Datos y Textos)". Y por último presione el primer botón habilitado a la izquierda: “Excel ® Files” (archivos de Excel). Se muestra la ventana “Importing from an Excel (r) file”.

Nota: Si el archivo Excel ha sido guardado con tabulaciones como separadores de columnas, se presiona el botón: “0. Change tabs into semi-colons” (cambiar tabulaciones a puntos y comas). Seleccione el archivo con tabulaciones y conviértalo. Se crea un nuevo archivo “New_ _clasescraneo.txt".

Luego, haga clic en: “1. Add the types of variables” (indicar tipos de variables ).

Ingrese a Select Data. (cargar fichero csv). Seleccione el archivo creado previamente "datbase_classical.csv" .

Page 40: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 40

Un cuadro de dialogo confirma la selección.

Debería aparecer la lista de variables.

Ingrese a Values and Counts. (analizar los valores) y luego a Show results (muestra los resultados).

Page 41: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 41

Luego seleccionar uno o varios identificadores de variable, en la lista, y escoger, para cada atributo (cada variable), una palabra clave, en el ejemplo la primer columna es el identificador de individuos y siembre es de tipo textual “TEXT”, las variables de la 1 a la 6 son todas numéricas, se coloca como “NUM” y la última de clase es nominal y el tipo es “CHAR”.

Una vez completado el que el ingreso del tipo de variable, dé un clic sobre “update the data file” (actualización) para modificar el fichero.

Page 42: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 42

El programa crea un nuevo archivo, en donde se agrego una fila después de los identificadores de variables, con el tipo de dato. Este archivo es " New_typevar_clasescraneo.csv".

Luego, haga clic en: “Impor Data” (importar). El proceso de importación consiste en construir un diccionario DTM y un fichero de datos DTM a partir del fichero de datos creado en el paso anterior “1”.

- los nombres de las variables se extraen de la primera fila. - el número de categorías para cada variable y los nombres de estas modalidades se obtienen al realizar

un análisis del fichero Para cada variable, son detectadas todas las diferentes secuencias de caracteres de importancia. Las modalidades son ordenadas alfabéticamente por sus identificadores.

- el fichero de datos DTM comienza con el mismo identificador entre comillas simples, las modalidades de

las variables categóricas serán enteros consecutivos comenzando con el valor "1", en lugar de un símbolo alfanumérico. Los valores numéricos serán idénticos al del fichero de datos original, excepto los valores perdidos reemplazados, en esta versión de DTM, por el valor estándar "999".

Se muestra la ventana: “Format type XL ®. Finding the states of each categorical variables, frequencies… “.

Clic en: “Select Basic file” (Seleccionar archivo Básico). Seleccione el archivo New_typevar_clasescraneo.csv

Page 43: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 43

Clic en “Values and counts” (Valores y recuentos). Análisis de todas las variables nominales (el símbolo: "Achichárrese" en el diccionario) se forma de los dos archivos básicos. Se muestra la lista de todas las modalidades encontraron en el fichero de datos, con las frecuencias correspondientes.

Clic en “Create Dictionary and Data” (crear el diccionario y los datos DTM).

Clic en “Name for the new dictionary” (nombre para el diccionario nuevo) para escoger un nombre para el diccionario en formato de DTM, siempre en el mismo directorio. (se recomienda la extensión ".DIC"). Por ejemplo “craneo.DIC”

Page 44: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 44

Clic en “Name for the new data file” (nombre para el archivo de datos nuevo) para escoger un nombre del fichero de datos en formato del DTM, siempre en el mismo directorio. (se recomienda la extensión ".DAT"). Por ejemplo “craneo.DAT”

Page 45: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 45

Clic en “Create new dictionary” (crear diccionario nuevo). Analiza las modalidades para las variables nominales. Es creado un diccionario en formato interno de DTM, el cuál se visualiza en las notas a la derecha.

Clic en “Create new data file” (crear fichero de datos nuevo). Al cabo de un rato, un cuadro de mensajes muestra el número de individuos.

Clic sobre ese botón “Create a DTM parameter file”. (Crear un archivo de parámetros DTM). Se muestra la ventana “Creating a starting parameter file”.

Clic en “Create a first parameter file” (crea un primer archivo de parámetro). Se muestra un archivo de comandos DTM en la ventana inferior. Los demás operaciones y comentarios son idénticos a la de la introducción. El archivo de comandos es automáticamente creado bajo el nombre: "Param start.txt".

Page 46: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 46

Haga Clic en "Execute" (Responda No a la pregunta acerca de un formato posible XML para el archivo de salida). Lea los resultados haciendo clic en “Main basic numerical results” (principales resultados numéricos básicos) del menú. Estos resultados son guardados bajo el nombre "imp.txt" en el mismo directorio de trabajo.

2º paso – Implementar el método DECAT

Clic en “Create a command file” (crear fichero de parametros).

Una ventana muestra los métodos disponibles en la herramienta.

Page 47: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 47

Seleccionamos DECAT (Descripción de CATegorias)

La siguiente ventana es para cargar los datos, nos pregunta por el diccionario y luego por los datos. Clic en “Open a dictionary” (abrir el diccionario).

Page 48: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 48

Clic en “Open a Data File” (abrir el fichero de datos).

Clic en “Continue” (seleccionar la variable a describir y las variables explicativas).

Page 49: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 49

La última variable es la que vamos a describir, va en el cuadro a la derecha arriba. Las otras variables numéricas son las que van a caracterizar, las exploratorias y van en el cuadro a la derecha abajo. Clic en “All the observations Hill be active” (permite seleccionar los individuos activos).

Creamos el fichero de parámetros y lo ejecutamos.

La tabla de resultados describe cada clase, indicando media de clase y media global.

Page 50: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 50

En el caso de las tablas para variables continuas características, las columnas representan:

- CHARACTERISTIC VARIABLES Variable continua que resulta ser significativa.

- MEANS Media general (para todos los cráneos) y media definida por la clase (C!, C”, C· y C4)

- STD.DESVIAT. Desviación típica general y desviación típica definida por la clase (C!, C”, C· y C4)

- PROBA P-valor asociado a la prueba estadística.

- V.TEST Valor test asociado a la prueba estadística

Interpretación - Si los elementos característicos son variables continúas, para clasificar las más características

de la variable nominal, se efectúan todos los análisis de la variancia. El mejor analizas de variancia es el que corresponde al estadístico de Fisher mas significativo y corresponde al parámetro continuo mas previsible con ayuda del factor. Para cada estadístico de Fisher se calcula la probabilidad de ser sobrepasado. El valor test asociado es el valor de una variable nominal que tiene la misma probabilidad de ser sobrepasada. Entonces, se ordenan las variables características siguiendo el orden decreciente de los Valores Test.

Page 51: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 51

Caracterización de una categoría de una variable categórica respuesta a partir de las categorías (A, B, C, ...) de una variable explicativa.

La categoría de la variable respuesta define implícitamente un subgrupo de individuos del conjunto global de individuos. El algoritmo realiza pruebas estadísticas para comparar las proporciones de individuos que presentan las categorías A, B, C, ... dentro del subgrupo respecto las proporciones en la muestra global.

En el siguiente ejemplo se tiene: 13 características del vino observadas a partir de tres lugares distintos dentro de la misma región. Se obtuvo 178 observaciones. Las variables fueron discretizadas y se aplico AFCM para su análisis.

Page 52: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 52

Con los métodos de clasificación se obtuvo 8 patrones o grupos homogéneos.

1º paso – Importar los datos al software DTM.

Creamos una carpeta de trabajo donde trabajamos con el DTM.

Copiamos la tabla con 13 variables continuas y 13 variables nominales (discretizadas en rangos) a un nuevo libro de MS Excel, agregamos una primer columna con identificador de fila.

Guardamos como fichero CSV (delimitado por punto y coma).

Abrimos el DTM y seleccionamos la opción “DataCapture, Data importation, Preprocessing” (importación / captura / preprocesamiento de datos). Luego “Importing Dictionary ,Data and Texts” (Importar Diccionario, Datos y Textos)". Y por último presione el primer botón habilitado a la izquierda: “Excel ® Files” (archivos de Excel). Se muestra la ventana “Importing from an Excel (r) file”.

Page 53: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 53

Luego, haga clic en: “1. Add the types of variables” (indicar tipos de variables ).

Ingrese a Select Data. (cargar fichero csv). Seleccione el archivo creado previamente

Un cuadro de dialogo confirma la selección.

Debería aparecer la lista de variables.

Ingrese a Values and Counts. (analizar los valores) y luego a Show results (muestra los resultados). Luego seleccionar uno o varios identificadores de variable, en la lista, y escoger, para cada atributo (cada variable), una palabra clave, en el ejemplo la primer columna es el identificador de individuos y siembre es de tipo textual “TEXT”, las variables de la 1 a la 13 son todas numéricas, se coloca como “NUM” y las últimas 14 nominal de tipo es “CHAR”.

Una vez completado el que el ingreso del tipo de variable, dé un clic sobre “update the data file” (actualización) para modificar el fichero. El programa crea un nuevo archivo, en donde se agrego una fila después de los identificadores de variables, con el tipo de dato. Este archivo es " New_typevar_vino.csv".

Luego, haga clic en: “Impor Data” (importar). Se muestra la ventana: “Format type XL ®. Finding the states of each categorical variables, frequencies… “.

Clic en: “Select Basic file” (Seleccionar archivo Básico). Seleccione el archivo New_typevar_vino.csv. Clic en “Values and counts” (Valores y recuentos). Análisis de todas las variables nominales (el símbolo: "Achichárrese" en el diccionario) se forma de los dos archivos básicos. Se muestra la lista de todas las modalidades encontraron en el fichero de datos, con las frecuencias correspondientes.

Page 54: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 54

Clic en “Create Dictionary and Data” (crear el diccionario y los datos DTM). Clic en “Name for the new dictionary” (nombre para el diccionario nuevo) para escoger un nombre para el diccionario en formato de DTM, siempre en el mismo directorio. (se recomienda la extensión ".DIC"). Por ejemplo “vino.DIC”

Clic en “Name for the new data file” (nombre para el archivo de datos nuevo) para escoger un nombre del fichero de datos en formato del DTM, siempre en el mismo directorio. (se recomienda la extensión ".DAT"). Por ejemplo “vino.DAT”

Clic en “Create new dictionary” (crear diccionario nuevo). Analiza las modalidades para las variables nominales. Es creado un diccionario en formato interno de DTM, el cuál se visualiza en las notas a la derecha.

Clic en “Create new data file” (crear fichero de datos nuevo). Al cabo de un rato, un cuadro de mensajes muestra el número de individuos.

Clic sobre ese botón “Create a DTM parameter file”. (Crear un archivo de parámetros DTM). Se muestra la ventana “Creating a starting parameter file”.

Clic en “Create a first parameter file” (crea un primer archivo de parámetro). Se muestra un archivo de comandos DTM en la ventana inferior. Los demás operaciones y comentarios son idénticos a la de la introducción. El archivo de comandos es automáticamente creado bajo el nombre: "Param start.txt".

Haga Clic en "Execute" (Responda No a la pregunta acerca de un formato posible XML para el archivo de salida). Lea los resultados haciendo clic en “Main basic numerical results” (principales resultados numéricos básicos) del menú. Estos resultados son guardados bajo el nombre "imp.txt" en el mismo directorio de trabajo.

En ocasiones s necesario editar el diccionario, la importación implica que el software enumere las variables y agregue una codificación a las modalidades lo cual es necesario cambiar, por ejemplo si editamos con el block de notas el fichero VINO.DIC, podemos cambiar las etiquetas.

Page 55: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 55

Con el fichero de datos siempre es necesario editarlo para eliminar una fila en blanco que se crea durante la importación.

2º paso – Implementar el método DECLA

Clic en “Create a command file” (crear fichero de parametros).

Una ventana muestra los métodos disponibles en la herramienta. Seleccionamos DECAT (Descripción de CATegorias)

La siguiente ventana es para cargar los datos, nos pregunta por el diccionario y luego por los datos. Clic en “Open a dictionary” (abrir el diccionario).

Page 56: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 56

Clic en “Open a Data File” (abrir el fichero de datos).

Clic en “Continue” (seleccionar la variable a describir y las variables explicativas).

La última variable es la que vamos a describir, va en el cuadro a la derecha arriba. Las otras variables numéricas son las que van a caracterizar, las exploratorias y van en el cuadro a la derecha abajo. Clic en “All the observations Hill be active” (permite seleccionar los individuos activos).

Creamos el fichero de parámetros y lo ejecutamos. La tabla de resultados describe cada clase, indicando media de clase y media global.

Page 57: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 57

Las columnas presentadas en las tablas representan:

- CHARACTERISTIC CATEGORIES

Variable nominal.

Modalidades Características que resulta ser significativa.

- V.TEST Valor test asociado a la prueba estadística

- CLA/MOD Porcentaje de individuos de la submuestra definida por la característica explicativa que están presentes en la submuestra definida por la clase.

- MOD/CLA Porcentaje de individuos de la submuestra definida por la clase (C1, C2,…) que presentan la característica.

- GLOBAL Porcentaje de individuos en la muestra que presentan la característica

- PROBA P-valor asociado a la prueba estadística.

Interpretación - Si los elementos característicos son las modalidades de otras variables nominales se detectan

las modalidades más significativas. Los valores test se calculan para todas las modalidades de las variables nominales, ordenándoselas, por tanto, en función de estos valores decrecientes para caracterizar cada modalidad. La clasificación proporcionada por los valores test ordena las modalidades a partir de un criterio estadístico el cual evalúa la importancia de la desviación entre dos proporciones, la del grupo y la de la población general, es decir evalúa la abundancia de la modalidad en el grupo, frente a la abundancia de la modalidad en la población total. Mientras mayor sea el valor test, más interesante será la tabla de cruzamiento.(mayor asociación entre las variables.). Los (valores test< 2), determinan independencia entre ambas variables, o sea ausencia de significación estadística.

Podemos editar con MS Excel la tablado resultados de manera de presentar por cada grupo tanto las modalidades o rangos característicos como la media esperada para las variables continuas.

Este grupo de vinos son aquellos de Alto (no los más altos) contenido de Magnesio, Flavanoids, color y Proline y grado Medio nivel de Matiz y Pronantocyanins. Tambien podemos decir que en general tienden a tener menos contenido (por debajo de la media global) de Alcalinidad de la ceniza y Fenol No Flavanoids.

Los Valores de Test muestran una significación estadística de 99% de certeza en la asociación de estas características con la clase 1.

Page 58: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 58

Page 59: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 59

Page 60: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 60

Page 61: Herramientas Estadística Exploratoria

Estadística Multivariada – Herramientas Informáticas

Tutorial enriquecido por Matilde CÉSARI 61

Referencias - Cabarcas, G. y Pardo Campo Elías (2001), Métodos estadísticos multivariados en investigación social,

Simposio de Estadística - Cazes, P., Chessel, D. & Doledec, S. (1988), ‘L’analyse des correspondances internes d’un tableau

partitionné. Son usage en hydrobiologie’, Revue de Statistique Appliquée 36(1), 39–54. - Césari Matilde (2007), Estrategias de análisis y exploración de datos como soporte a la adquisición de

conocimiento para modelización de sistemas expertos bayesianos causales. Trabajo Final de Especialidad en Ingeniería de Sistemas Expertos. ITBA

- Césari R., Césari M, “Métodos y Técnicas de Investigación Pofesional”, U. Aconcagua, ISSPN, Mendoza, Argentina, (2005-2007).

- Crivisky, Eduardo (1999), Presentación de los Métodos de Clasificación. Programa PRESTA. http://www.ulb.ac.be/assoc/ presta/Cursos/cursos.html

- Dalgaard, P. (2005), ISwR: Introductory Statistics with R. R package version 1.0-6. - Decisia (2003), SPAD Data Mining and Text Mining, http://www.decisia.com/ - Escofier B. y Pagès J. (1994), Multiple factor analysis: AFMULT package. Comp. Statistics &. Data

Analysis 18, 121-140 - Etxeberría, J.; García, E.; Gil J. Y Rodriguez G. (1995), Análisis de datos y textos. Madrid, Editorial Ra-Ma - Fisher, D.H., Pazzani M.J. y Langley P. (1991), "Concept formation: knowledge and experience in

unsupervised learning", Morgan Kaufmann - Friendly, M. (1994), ‘Mosaic Displays for Multi-Way Contingency Tables’, Journal of the American

Statistical Association 89(425), 190–200. - Hartigan, J. A. & Wong, M. A. (1979), ‘A K-means Clustering Algorithm’, Applied Statistics 28(100–108). - Husson, F., Lê, S. & Mazet, J. (2007), FactoMineR: Factor Analysis and Data Mining with R. R package

version 1.05. *http://factominer.free.fr, http://www.agrocampus-rennes.fr/math/ - Lebart, L. (2007), ‘DTM. Data and Text Mining’, Software. *http://ses.enst.fr/lebart/ - Lebart, L., Morineau, A. & Piron, M. (1995), Statisitique exploratoire multidimensionnelle, Dunod, Paris. - Lebart, L., Morineau, A., Lambert, T. & Pleuvret, P. (1999), SPAD. Système Pour l’Analyse des Donèes,

Paris. *http://www.spad.eu - Ligges, U. & Murdoch, D. (2005), ‘R Help Desk: Make ‘R CMD’ Work Ander Windows – an Example’, R

News 5(2), 27–28. - Ligges, U. (2006), ‘R Help Desk: Accessing the Sources’, R News 6(4), 43–45. - Ortiz, J. y Pardo, Campo Elías (2004), Análisis multivariado de datos en R, in ‘Simposio de Estadística,

Universidad Nacional de Colombia. Departamento de Estadística, Cartagena. - Pardo Campo Elías (2005). Análisis de correspondencias de tablas de contingencia estructuradas, in

Memorias Coloquio Distrital de Matemáticas y Estadística, Universidad Distrital, pp. 65–90. - Pardo, C. E. (1992), Análisis de la aplicación del método de Ward de clasificación jerárquica en el caso de

variables cualitativas, Tesis de Maestría, Estadística, Universidad Nacional de Colombia, Facultad de Ciencias, Departamento de Matemáticas y Estadística, Bogotá.

- Pinheiro, J., Bates, D., DebRoy, S. & the R Core team., D. S. (2007), nlme: Linear and Nonlinear Mixed

Effects Models. R package version 3.1-83. - R Development Core Team (2007a), R: A Language and Environment for Statistical Computing, R

Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0. *http://www.R-project.org

Herramientas para el análisis de datos ���� SPAD Versión 5.5. logiciels pour l'Analyse des Données - Data Mining - Analyse Prédictive - Statistique

Décisionnelle - Contrôle & Gestion de la Qualité des Données. Página principal de sistema para análisis de datos.

http://www.spad.eu/

���� DTM. Data and Text Mining, Software desarrollado por Lebart, L. (2007), Estadística Exploratoria Multidimensional

para datos complejos que incluyen datos numéricos y textuales.

http://ses.enst.fr/lebart/

���� StatSoft, Inc. Programa de DataMining de Datos Textuales: STATISTICA:

http://www.statsoft.com/ o www.statsoftiberica.com/es/soluciones/productos/pacstat_datatextaminer.html

���� SPSS - proveedor de TextSmart, SPSS Text Analysis for Surveys y Clementine, productos que se pueden utilizar con

otros de SPSS.

http://www.spss.com/la/

���� SAS Enterprise Miner - software de minería de textos.

http://www.sas.com/technologies/analytics/datamining/miner/