Bienvenida y Charla Inaugural Sala€¦ · notablemente$ el$ espacio necesario para$ su almacenamiento y$ obtener$ también mejoras$ sustanciales en$ la$ latencia$ de$ red$ pagada$

Bienvenida y Charla Inaugural (Sala Gris) "Urban Analysis for the XXI Century: Using Big Data for Modeling Urban Dynamics" Dr. Enrique Frías-‐Martínez (Telefónica I+D) The recent adoption of ubiquitous computing technologies has enabled the capture of large

amounts of spatio-‐temporal data about human motion. In this context, cell phones, due to their pervasiveness, can be considered as the main sensors of human behavior and as such, can be used as proxies to study urban environments. The digital footprints obtained as a result of applying data mining techniques provide complementary information for the study of social and human dynamics. In this talk, I will present a variety of applications that highlight the potential of using the data collected by pervasive infrastructures in combination with data mining techniques for modelling urban dynamics.

It ’s a Smart World (Sala Gris) "Supervisión y control de procesos industriales mediante técnicas de Data Mining" Dr. Manuel Domínguez González. Universidad de León. Grupo de investigación SUPPRESS La evolución tecnológica de la última década ha provocado cambios muy importantes en la automatización, control y supervisión de los procesos industriales. Las tecnologías que se manejan hoy en día facilitan la implementación de estrategias avanzadas, tanto de automatización como de control, pero también nos suministran volúmenes elevados de información del proceso y de cada uno de los sistemas que lo constituyen. Esta información, en muchos de los casos, no es utilizada en su totalidad ni para la supervisión ni para una gestión y explotación más eficiente del mismo. La utilización de técnicas de minería de datos y de machine learning permiten el tratamiento de toda la información disponible de manera que se facilita el camino al desarrollo de herramientas avanzadas de supervisión. Estas herramientas permiten la extracción de conocimiento del proceso, la obtención de modelos de su comportamiento, la detección de posibles anomalías, las derivas en su funcionamiento y en definitiva una toma de decisiones mas racional y coherente. “BigData y ciberseguridad” Raúl Riesco Granadino (Instituto Nacional de Tecnologías de Comunicación – INTECO) Frente a las nuevas amenazas en ciberseguridad, es fundamental para una organización la aplicación de análisis automáticos avanzados de cada una de las fuentes de información de manera que se puedan prevenir posibles riesgos y ataques a los que hacer frente. "Cuando los árboles nos dejan ver (y tocar) el bosque" Roberto Therón (Universidad de Salamanca-‐grupo VisUsal) Vivimos una época en que la capacidad de generar datos de toda índole —redes de sensores,

secuenciación de genoma, transacciones económicas o millones de interacciones en las redes sociales, entre otras fuentes— se ha incrementado hasta el punto de que el mero procesamiento algorítmico de estos conjuntos de datos dinámicos, cambiantes, y de tamaños desorbitados, no es suficiente: se requiere un enfoque holista, desde la adquisición o generación de los datos hasta su representación, y la intervención de expertos humanos, si se quiere obtener algún

conocimiento sobre los fenómenos subyacentes y habilitar la toma de decisiones. De esta forma, cabe esperar una determinante incidencia de la visualización de datos en todos los ámbitos de la nueva economía en la próxima década; los avances en las infraestructuras, técnicas de representación e interacción, van a transformar la forma en que se miran actualmente los datos, generando y cubriendo nuevas necesidades, en las que cualquier

persona será capaz de tocar, desentrañar, adaptar el bosque de datos hasta transformarlo en una representación del mundo a medida, capaz de responder a necesidades individuales de conocimiento y de proporcionar información individualizada o colectiva. Eficiencia en las operaciones a través de la analítica predictiva Carolina García Vázquez & Pedro García Parra (Telefónica Global Resources) Aplicando técnicas de analítica predictiva, data mining y visualización avanzada sobre los datos almacenados en los sistemas de información de una operadora es posible descubrir patrones, anomalías o relaciones que permiten entender cómo están funcionando sus unidades de negocio. Mediante este tipo de análisis sobre las Operaciones de una Telco podríamos ser capaces de detectar los aspectos más eficientes de los procesos, aquellos en los que cabe un margen de mejora y sacar conclusiones que ayuden en la toma de decisiones. Se comentarán algunos ejemplos de aplicación de estas técnicas dentro del ámbito de las Operaciones de Telefónica.

New techniques for new (bigdata) problems (Sala Azul) “Democratic instance selection -‐ A linear complexity instance selection algorithm based on classifier ensemble concepts” Dr. César García Osorio. Universidad de Burgos -‐ Grupo de Investigación ADMIRABLE.

Instance selection is becoming increasingly relevant due to the huge amount of data that is constantly being produced in many fields of research. Although current algorithms are useful for fairly large datasets, scaling problems are found when the number of instances is in the hundreds of thousands or millions. When we face huge problems, scalability becomes an issue, and most algorithms are not applicable. Thus, paradoxically, instance selection algorithms are for the most part

impracticable for the same problems that would benefit most from their use. In this presentation a new method, democratic instance selection (DIS), will be presented which avoid this difficulty using several rounds of instance selection on subsets of the original dataset. These rounds are combined using a voting scheme to allow good performance in terms of testing error and storage reduction, while the execution time of the process is significantly reduced. The method is particularly efficient when we use instance selection algorithms that are high in computational cost. The proposed approach shares the philosophy underlying the construction of ensembles of classifiers. In an ensemble, several weak learners are combined to form a strong classifier; in DIS several weak (in the sense that they are applied to subsets of the data) instance selection algorithms are combined to produce a strong and fast instance selection method.

"Compresión, Indexación y Aplicaciones sobre Grandes Colecciones de Datos" Miguel A. Martínez Prieto & Javier D. Fernández. DataWeb Research, Departamento de Informática, Universidad de Valladolid El volumen, la velocidad y la variedad son las "tres V's" utilizadas tradicionalmente para la

descripción del Big Data en el ámbito tecnológico. Es un hecho que la inmediatez pasa por ser capaces de almacenar, organizar, filtrar y analizar estos grandes volúmenes de datos que, a su vez, tienden a ser compartidos más y más en un escenario altamente distribuido dentro del cual coexisten datos procedentes de diferentes campos del conocimiento humano. En otras palabras, las tres V's están

claramente relacionadas entre sí, por tanto, ¿cuál afrontamos primero? Nuestro trabajo de investigación integra las tres dimensiones anteriores. En primer lugar, empleamos codificaciones comprimidas para representar el Big Data, lo que nos permite reducir

notablemente el espacio necesario para su almacenamiento y obtener también mejoras sustanciales en la latencia de red pagada a la hora de compartir estas colecciones. Sin embargo, la forma en la que codificamos el Big Data tiene un valor añadido, dado que permite el acceso directo a los datos (sin necesidad de descomprimirlos previamente) utilizando estructuras de datos sucintas específicamente diseñadas para ello. Esta decisión nos permite cargar cantidades más grandes de datos en los niveles más altos de la jerarquía de memoria del computador, obteniendo bases de datos completamente en memoria o híbridas, alcanzando con ello una notable mejora en la velocidad con la que la información puede ser accedida y extraída. En esta presentación revisaremos los principios fundamentales en los que basamos las decisiones anteriores y mostraremos algunos ejemplos reales de compresión e indexación de grandes conjuntos de datos, prestando especial atención a nuestros resultados en el área de la web de datos y la gestión de colecciones anotadas semánticamente (RDF) a gran escala. No son pocas las voces que consideran los modelos semánticos como los más apropiados para la gestión de la variedad del Big Data; si a esto le sumamos su uso masivo en proyectos de Open Data a nivel internacional, obtenemos que la gestión eficiente de "Big Semantic Data" puede ser un elemento clave a la hora de optimizar el valor obtenido por nuestras aplicaciones. “Contribuciones metodológicas y casos aplicados en el análisis de datos”. Pedro C. Álvarez Esteban. (Instituto de Investigación en Matemáticas de la UVA – IMUVA) En la exposición se presentará, en base a resultados de nuestros equipos, una panorámica de la evolución de los procedimientos de Análisis Cluster tanto desde el punto de vista del tipo de datos (multivariantes, señales, series temporales,...) como de las formas asociadas a las agrupaciones y a la posible existencia de ruido en los datos. Comentaremos nuestras contribuciones en algoritmos eficientes en la búsqueda de configuraciones de las agrupaciones. También se presentarán algunas de nuestras experiencias con datos reales especialmente en temas de Biomedicina (en oftalmobiología, proteómica y genómica, señales neurológicas,...). Análisis de patologías de CGH arrays mediante cloud. Juan Francisco De Paz Santana. Universidad de Salamanca El uso de CGH arrays permite la detección de regiones cromosómicas que presenta alteraciones con respecto a determinadas muestra que se toman de control. La consulta de alteraciones en regiones cromosómicas requiere del acceso a bases de datos para consultar información sobre los genes, proteínas o variaciones asociadas a las regiones de interés. El volumen de información suele ser bastante elevado por lo que acceder a dicha información a partir de las bases de datos públicas presenta problemas de eficiencia y rendimiento. En este trabajo se ha creado un sistema que se conecta a un cloud. El sistema permite analizar gráficamente la información de los CGH arrays y obtiene la información de relevancia a partir de la información existente en el cloud acelerando de esta manera el procesado de la información.

Diseño de una herramienta de búsqueda de documentos en base a diferentes perfiles Francisco José Palacios Burgos & Oscar Javier Prieto Izquierdo. Escuela Politécnica Superior. Universidad Europea Miguel de Cervantes. Actualmente la cantidad de publicaciones de carácter académico accesibles en la Web hace que la tarea de búsqueda de documentos relacionados con una determinada temática se haya vuelto complicada, al existir diferentes repositorios, cada uno de ellos con diferentes métodos de búsqueda y de clasificación de documentos. La posibilidad de realizar una herramienta que permita realizar búsquedas dentro de la Web a partir de un perfil específico de investigación del usuario de manera automática puede ser una utilidad que ahorre tiempo y optimice resultados. Esta propuesta se encuentra en una fase inicial de análisis de tecnologías y busca proponer un sistema capaz de generar diferentes perfiles de búsqueda que permitan que un usuario reciba notificaciones sobre el estado de investigación de uno o varios campos en base a factores personalizados. Con objeto de dotar al sistema de una infraestructura adecuada, se planea evaluar la utilización de un framework de cálculo distribuido con capacidad para el almacenamiento de grandes volúmenes de información. En una primera fase se trabajará con el proyecto Apache Hadoop y todo el stack software que éste proporciona. Se planea construir un prototipo funcional del sistema empleando una distribución Linux para alto rendimiento que tenga integrada la herramienta desarrollada sobre Apache Hadoop. El prototipo se podrá emplear en modo LiveCD con propósitos educativos o de testing o bien en modo instalación para configurar con ello un entorno de producción real.

Understanding Human Behaviour (Sala Gris) “Proyecto Ponceus” Victor Temprano. MCV & GDP Software

Ponceus ofrece un análisis de redes sociales tanto cuantitativo como cualitativo así como la medición del impacto económico de una actuación pública o privada, con especial hincapié en las materias de Turismo y Comercio. También permite conocer la facturación en una zona concreta a través de la explotación de datos geolocalizados fruto de un acuerdo de colaboración con una entidad bancaria internacional. Cubrimos así, también, una necesidad de información en relación al retorno de la inversión,

tanto económico como de imagen de una acción desarrollada por organismos, tanto públicos como privados. “Descubriendo las estrategias sociales a partir de los patrones temporales de comunicación humana” Dr. Estebán Moro (Universidad Carlos III de Madrid e Instituto de Ingeniería del Conocimiento) En esta ponencia repasaremos nuestro trabajo realizado sobre el estudio de los patrones temporales de la comunicación humana. Utilizando grandes bases de datos, mostraremos como es posible descubrir a partir de ellos comportamientos universales en la comunicación y, en definitiva, cómo es la estructura y dinámica de las redes sociales. En particular, mostraremos nuestros resultados sobre i) cómo organizamos nuestro tiempo para mantener nuestras relaciones sociales (estrategias sociales), ii) como se difunde mejor una información/rumor en la sociedad, iii) o qué características más relevantes del patrón temporal de las llamadas entre dos personas predicen la estabilidad de una relación. Este trabajo se ha realizado conjuntamente con Telefónica I+D. “Cell City 2012” Ana Armenta López de Vicuña & Rafael Pellón Gómez-‐Calcerrada, PDI, Telefónica Digital Durante el año 2012, Telefónica Digital realizó una colaboración con la Universidad de Columbia para el análisis de datos anónimos y agregados de los patrones de movilidad en México DF, empleando la visualización como herramienta narrativa.

Mesa Redonda BigData: El retorno de la inversión, moderada por Dr. Rubén Lara, Area Manager de BigData en PDI, Telefónica Digital . (Sala Gris)

Documents

Bienvenida y Charla Inaugural Sala€¦ · notablemente$ el$ espacio necesario para$ su almacenamiento y$ obtener$ también mejoras$ sustanciales en$ la$ latencia$ de$ red$ pagada$