28
V Jornadas de Usuarios de R Mejora de la detecci´ on visual de Datos At´ ıpicos mediante una modificaci´ on en las Caras de Chernoff Beatriz Gonz´ alez Victoria L´ opez Jorge Cordero Universidad Complutense de Madrid Departamento de Estad´ ıstica e Investigaci´ on Operativa I, Facultad de Matem´ aticas, [email protected] Departamento de Arquitectura de Computadores y Autom´ atica, Facultad de Inform´ atica, [email protected] aster en Investigaci´on en Inform´ atica, Facultad de Inform´ atica Mobile Technology and Biotechnology Intelligent Agents-Engineering and Applications Research Group

Detección visual de Datos Atípicos mediante Caras de Chernoff y Lenguaje R

Embed Size (px)

DESCRIPTION

En este trabajo se realiza una mejora de la funcion de R que construye el gráafico de las caras de Cherno para un perfi l multivariante. Esta mejora se realiza mediante una categorización utilizando una paleta de colores y se aplica a una base de datos real. El procedimiento proporciona al investigador una mayor capacidad visual a la hora de detectar datos atípicos

Citation preview

Page 1: Detección visual de Datos Atípicos mediante Caras de Chernoff y Lenguaje R

V Jornadas de Usuarios de RMejora de la deteccion visual de Datos Atıpicos mediante una

modificacion en las Caras de Chernoff

Beatriz GonzalezVictoria LopezJorge Cordero

Universidad Complutense de MadridDepartamento de Estadıstica e Investigacion Operativa I, Facultad de Matematicas, [email protected]

Departamento de Arquitectura de Computadores y Automatica, Facultad de Informatica, [email protected]

Master en Investigacion en Informatica, Facultad de Informatica

Mobile Technology and BiotechnologyIntelligent Agents−Engineering and Applications Research Group

Page 2: Detección visual de Datos Atípicos mediante Caras de Chernoff y Lenguaje R

¿Quienes somos?¿Que hacemos?

Resultados y ConclusionesBibliografıa

Contenido

1 ¿Quienes somos?

2 ¿Que hacemos?

3 Resultados y Conclusiones

4 Bibliografıa

B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff

Page 3: Detección visual de Datos Atípicos mediante Caras de Chernoff y Lenguaje R

¿Quienes somos?¿Que hacemos?

Resultados y ConclusionesBibliografıa

¿Quienes somos?

Research Groups

Mobile Technology and Biotechnologyhttp://www.tecnologiaUCM.es

Intelligent Agents−Engineering and Applicationshttp://grasia.fdi.ucm.es

Bayesian Methodshttp://www.ucm.es/info/bayesianos/

B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff

Page 4: Detección visual de Datos Atípicos mediante Caras de Chernoff y Lenguaje R

¿Quienes somos?¿Que hacemos?

Resultados y ConclusionesBibliografıa

¿Que hacemos?

Bioinformatica y Bioestadıstica. Desarrollamos e im-plementamos algoritmos, funciones y librerıas utilizando el lengua-je de programacion R, para resolver problemas en el campo de laBioinformatica: Big Data, Bases de Datos Biologicas y Ali-neamiento de Secuencias, entre otros. Realizamos estudios deEstadıstica Aplicada en Bioestadıstica: Analisis de Microarraysy Test de Hipotesis Multiples, entre otros. Puedes descargarla librerıa BioSeq 1.0 (J. Martınez, V. Lopez y B. Gonzalez) enhttp://www.tecnologiaUCM.es

B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff

Page 5: Detección visual de Datos Atípicos mediante Caras de Chernoff y Lenguaje R

¿Quienes somos?¿Que hacemos?

Resultados y ConclusionesBibliografıa

Otras actividades G-TeC

Tecnologıas moviles. Desarrollamos Aplicaciones para Dispo-

sitivos Moviles con sistema operativo Android, iOs y Blackberry.

Nos encargamos del plan de negocio, el desarrollo de la aplica-

cion y el plan de marketing. Puedes descargar nuestras aplica-

ciones moviles en http://www.tecnologiaUCM.es

Estudios de Rendimiento y Fiabilidad. Trabajamos con la

herramienta EMSI para Evaluacion y Modelado de Sistemas

Informaticos. Esta herramienta nos permite realizar Analisis de

Rendimiento y Fiabilidad. EMSI se actualiza periodicamente con

las colaboraciones de otros grupos de investigacion y otras uni-

versidades. Puedes solicitar una copia gratuita del ejecutable a

Victoria Lopez ([email protected])

B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff

Page 6: Detección visual de Datos Atípicos mediante Caras de Chernoff y Lenguaje R

¿Quienes somos?¿Que hacemos?

Resultados y ConclusionesBibliografıa

Colaboraciones

Analisis de Datos del Mercado Electrico Espanol

eKergy Technologies, SL, Madrid, Spain

B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff

Page 7: Detección visual de Datos Atípicos mediante Caras de Chernoff y Lenguaje R

¿Quienes somos?¿Que hacemos?

Resultados y ConclusionesBibliografıa

AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff

Abstract. Mejora de la deteccion visual de Datos Atıpicosmediante una modificacion en las Caras de Chernoff

En este trabajo se realiza una mejora de la funcion de R que cons-truye el grafico de las caras de Chernoff para un perfil multivariante.Esta mejora se realiza mediante una categorizacion utilizando unapaleta de colores y se aplica a una base de datos real. El procedi-miento proporciona al investigador una mayor capacidad visual a lahora de detectar datos atıpicos

B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff

Page 8: Detección visual de Datos Atípicos mediante Caras de Chernoff y Lenguaje R

¿Quienes somos?¿Que hacemos?

Resultados y ConclusionesBibliografıa

AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff

Cabras de la Sierra de Guadarrama (Capra Hircus)

B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff

Page 9: Detección visual de Datos Atípicos mediante Caras de Chernoff y Lenguaje R

¿Quienes somos?¿Que hacemos?

Resultados y ConclusionesBibliografıa

AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff

Sobre las cabras de la Sierra de Guadarrama...

Es la raza de cabra domestica mas cercana a la cabra montes

Se caracteriza por su pelaje de color negruzco y largo, en el que destacan las manchas blancas o

marrones de su cara

Problematica: es una de las razas de cabras domesticas mas en peligro de extincion

La Raza Guadarramena o de la Sierra de Guadarrama se ha venido explo-tando tradicionalmente en la zona del Sistema Central (Sierra de Guada-rrama), comprendiendo las provincias de Avila, Segovia Madrid y zonaslimıtrofes de Toledo y Guadalajara. Es una raza de doble aptitud producti-va carne-leche, muy rustica y perfectamente adaptada al medio en que sedesenvuelve. Es capaz de aprovechar terrenos de serranıa de difıcil accesoy poco aprovechables por otro tipo de ganado, soportando bien el climafrıo y lluvioso que caracteriza su zona de explotacion

B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff

Page 10: Detección visual de Datos Atípicos mediante Caras de Chernoff y Lenguaje R

¿Quienes somos?¿Que hacemos?

Resultados y ConclusionesBibliografıa

AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff

Base de Datos Cabras (librerıa BioSeq 1.0)

531 cabras 21 variables

Sexo =

Hembras 90 %

Machos 10 %

Edad =

Andoscas de 2 a 3 anos

Trasandoscas de 3 a 4 anos

Cerradas mas de 4 anos

4 Alturas (cm) 3 Diametros (cm)4 Longitudes (cm) 4 Anchuras (cm)3 Perımetros (cm) Peso (kg)

Datos: Jesus de la Fuente Vazquez (1997)Departamento de Produccion AnimalFacultad de Veterinaria UCM

Interpretacion: Beatriz Madrid Navarro (2013)No de colegiada 4177Colegio de Veterinarios de Madrid

B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff

Page 11: Detección visual de Datos Atípicos mediante Caras de Chernoff y Lenguaje R

¿Quienes somos?¿Que hacemos?

Resultados y ConclusionesBibliografıa

AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff

Box Plot

B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff

Page 12: Detección visual de Datos Atípicos mediante Caras de Chernoff y Lenguaje R

¿Quienes somos?¿Que hacemos?

Resultados y ConclusionesBibliografıa

AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff

Box Plot multiple data=Cabras (19 variables)

B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff

Page 13: Detección visual de Datos Atípicos mediante Caras de Chernoff y Lenguaje R

¿Quienes somos?¿Que hacemos?

Resultados y ConclusionesBibliografıa

AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff

Box Plot multiple hembras trasandoscas (19 variables)

B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff

Page 14: Detección visual de Datos Atípicos mediante Caras de Chernoff y Lenguaje R

¿Quienes somos?¿Que hacemos?

Resultados y ConclusionesBibliografıa

AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff

Caras de Chernoff para visualizar datos multivariados en laforma de un rostro humano

B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff

Page 15: Detección visual de Datos Atípicos mediante Caras de Chernoff y Lenguaje R

¿Quienes somos?¿Que hacemos?

Resultados y ConclusionesBibliografıa

AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff

El orden importa...

No Variable ¿Que representa en R? Base de Datos1 Anchura del centro Altura.cruz2 Superior Vs inferior, altura de la separacion Altura.dorso3 Altura de la cara Altura.grupa4 Ancho de la mitad superior de la cara Altura.hueco5 Ancho de la mitad inferior de la cara Diametro.longitudinal6 Largo de la nariz Diametro.dorso7 Altura de la boca Diametro.bicostal8 Curvatura de la boca (abs < 9) Longitud.cabeza9 Ancho de la boca Ancho.cabeza10 Altura de los ojos Ancho.anterior.grupa11 Distancia entre los ojos (.5-.9) Ancho.posterior.grupa

12 Angulo de ojos y cejas Longitud.grupa13 Elipse de los ojos Ancho.cana14 Tamano de los ojos Longitud.cuerno15 Posicion izquierda/derecha de los ojos Longitud.oreja16 Altura de las cejas Perımetro.toracico

17 Angulo de las cejas Perimetro.cana18 Ancho de las cejas Perımetro.corvejon

B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff

Page 16: Detección visual de Datos Atípicos mediante Caras de Chernoff y Lenguaje R

¿Quienes somos?¿Que hacemos?

Resultados y ConclusionesBibliografıa

AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff

Caras de Chernoff data=Cabras (18 variables, length=346 sin NAs)

B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff

Page 17: Detección visual de Datos Atípicos mediante Caras de Chernoff y Lenguaje R

¿Quienes somos?¿Que hacemos?

Resultados y ConclusionesBibliografıa

AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff

Caras de Chernoff de las hembras trasandoscas (18 variables, length=54 sin NAs)

B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff

Page 18: Detección visual de Datos Atípicos mediante Caras de Chernoff y Lenguaje R

¿Quienes somos?¿Que hacemos?

Resultados y ConclusionesBibliografıa

AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff

Uso de las formas en la deteccion de outliers

Busqueda de tamanos poco corrientes

Grande → outlier superior

Pequeno → outlier inferior

Problematica: p.e. las cabras adultas pequenas no se apreciarıan como

outliers por camuflarse entre las cabras de menor edad

Para las pruebas → conjunto pequeno → rebanos por edad y sexo

Sexo | Edad A T C totalH 43 85 352 480M 16 15 20 51

total 59 100 372 531

B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff

Page 19: Detección visual de Datos Atípicos mediante Caras de Chernoff y Lenguaje R

¿Quienes somos?¿Que hacemos?

Resultados y ConclusionesBibliografıa

AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff

Ejemplo 1. Perımetro toracico de los machos trasandoscos

Outlier inferior [523]→ busqueda de cara estrecha

B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff

Page 20: Detección visual de Datos Atípicos mediante Caras de Chernoff y Lenguaje R

¿Quienes somos?¿Que hacemos?

Resultados y ConclusionesBibliografıa

AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff

Ejemplo 2. Perımetro toracico de las hembras andoscas

Outlier inferior [478]→ busqueda de cara estrechaOutliers superiores [453, 455]→ busqueda de cara ancha

B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff

Page 21: Detección visual de Datos Atípicos mediante Caras de Chernoff y Lenguaje R

¿Quienes somos?¿Que hacemos?

Resultados y ConclusionesBibliografıa

AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff

Ejemplo 3a. Box Plot de las hembras trasandoscas

10 variables

B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff

Page 22: Detección visual de Datos Atípicos mediante Caras de Chernoff y Lenguaje R

¿Quienes somos?¿Que hacemos?

Resultados y ConclusionesBibliografıa

AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff

Ejemplo 3b. Caras de Chernoff de las hembras trasandoscas

10 variables

B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff

Page 23: Detección visual de Datos Atípicos mediante Caras de Chernoff y Lenguaje R

¿Quienes somos?¿Que hacemos?

Resultados y ConclusionesBibliografıa

AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff

Ejemplo 3c. Resultados obtenidos al observar las Caras deChernoff de las hembras trasandoscas (10 variables)

Prueba visual para la deteccion de outliers realizada por el experto

Variable Outliers reales Outiliers localizados % reales acertados % localizados falladosAltura 368i 368i 381i 100 % 75 %

separacion 432i 399sAncho 409i 424i 381s 0 % 100 %

mitad superiorAncho 425i 354s 410s 0 % 100 %

mitad inferior 412s 415sLargo 434i 436i 379i 436i 66.66 % 33.33 %nariz 393s 393s

Altura 409s 386i 408i 410i 0 % 100 %boca 412i 415i 434s

Curvatura 359i 435i 386s 408s 410s 0 % 100 %boca 412s 415s 428i

Ancho 386s 412s 361s 410s 412s 33.33 % 83.33 %boca 408s 385i 388i 379i

Altura ojos 364i 434i 382s 0 % 100 %Total 15 31 26.66 % (4/15) 87.09 % (27/31)

B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff

Page 24: Detección visual de Datos Atípicos mediante Caras de Chernoff y Lenguaje R

¿Quienes somos?¿Que hacemos?

Resultados y ConclusionesBibliografıa

AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff

Categorizacion de las Variables en las Caras de Chernoff

B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff

Page 25: Detección visual de Datos Atípicos mediante Caras de Chernoff y Lenguaje R

¿Quienes somos?¿Que hacemos?

Resultados y ConclusionesBibliografıa

AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff

Introduccion de un Codigo de 31 Colores en la funcionfaces2 del package TeachingDemos de R

B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff

Page 26: Detección visual de Datos Atípicos mediante Caras de Chernoff y Lenguaje R

¿Quienes somos?¿Que hacemos?

Resultados y ConclusionesBibliografıa

AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff

Ejemplo 3d. Caras de Chernoff modificadas de las hembrastrasandoscas (10 variables)

B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff

Page 27: Detección visual de Datos Atípicos mediante Caras de Chernoff y Lenguaje R

¿Quienes somos?¿Que hacemos?

Resultados y ConclusionesBibliografıa

AbstractCabras de la Sierra de GuadarramaDeteccion de Datos Atıpicos mediante las Caras de ChernoffModificacion de las Caras de Chernoff

Ejemplo 3e. Resultados obtenidos al observar las Caras deChernoff modificadas de las hembras trasandoscas

Prueba visual para la deteccion de outliers realizada sobre 30 personas no

expertas de diversas edades entre 24 y 60 anos

Individuo (Var) Categorizacion Color Localizado Correcta Interpretacion359 (8) Boca Magenta 30 26

364 (10) Ojos Cyan 30 12368 (2) Contorno Cabeza Magenta 30 30386 (9) Boca Azul 26 18393 (6) Nariz Cyan 30 29408 (9) Boca Azul 24 13409 (4) Contorno Superior Violeta 24 17409 (7) Boca Cyan 30 21412 (9) Boca Azul 30 27424 (4) Contorno Superior Violeta 30 30425 (5) Contorno Inferior Violeta 30 30434 (6) Nariz Cyan 13 10

434 (10) Ojos Cyan 30 13435 (8) Boca Magenta 30 30436 (6) Nariz Cyan 24 21

Porcentaje 91.33 % 79.02 %

B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff

Page 28: Detección visual de Datos Atípicos mediante Caras de Chernoff y Lenguaje R

¿Quienes somos?¿Que hacemos?

Resultados y ConclusionesBibliografıa

http://www.r-project.org/

http://www.bioconductor.org/

Chernof, H.: The use of faces to represent points in k-dimensional space graphically. Journal of the American

Statistical Association, 68 (342), 361–368 (1973)

Garcıa Lara, I., Ferreno, V., Fernandez Calvino, E., Vidal Galego, L., Lara, G., and de Jesus, M. T.: Ecuaciones de

prediccion del peso vivo de hembras holstein. Frisona espanola, 29 (171), 90–95 (2009)

http://cran.r-project.org/web/packages/TeachingDemos/index.html

Cordero, J., Lopez, V. and Gonzalez, B.: Bases de datos en R. Analisis Grafico y estadıstico de valores atıpicos y

ausentes. Biblioteca UCM (septiembre, 2013) http://eprints.ucm.es/23435

Martınez, J., Lopez, V. and Gonzalez, B.: BioSeq: una librerıa para Bioinformatica en R. Biblioteca UCM (junio,

2013) http://eprints.ucm.es/22633

Sampedro, J., Gonzalez, B. and Lopez, V.: Aplicaciones de Bioestadıstica y Bioinformatica con R (septiembre, 2012)

Gonzalez, B., Lopez, V. and Sampedro, J.: Programacion Lineal y Programacion Dinamica con R. IV Jornadas de

Usuarios de R (2012) http://r-es.org/IV+Jornadas

Gonzalez, B, Lopez, V. and Sampedro, J.: Programming Global and Local Sequence Alignment by Using R. Actas

ISKE2012: Knowledge Engineering and Management Advances in Intelligent Systems and Computing (Springer),214, 341–352 (2014) http://link.springer.com/chapter/10.1007%2F978-3-642-37832-4_31

Cordero, J., Martınez, J., Sanchez, O., Lopez, V. and Gonzalez, B.: BioSeq: una librerıa R para el analisis de secuen-

cias de datos. Actas CAEPIA2013, 943–952 (2013) http://www.congresocedi.es/images/site/actas/ActasCAEPIA.pdf

B. Gonzalez & V. Lopez & J. Cordero Deteccion de Datos Atıpicos mediante las Caras de Chernoff