Upload
haduong
View
232
Download
0
Embed Size (px)
Citation preview
1
Infraestructura de Big Data para el
análisis y procesamiento de
información generada por redes de
sensores
Seminario internacional:
Big Data para la Información Oficial y la Toma de
Decisiones
José A. Incera
Lídice García Ríos
16 – junio - 2014
2
Contenido
• Redes de sensores
• Caso de uso: Monitoreo ambiental
• Diseño del sistema
• Principales tecnologías
• Resultados
• Conclusiones
3
Redes de sensores inalámbricas
• Sensores: Conjunto de pequeños dispositivos (nodos)
de bajo costo (típicamente) y bajo consumo
energético
• Los nodos colectan procesan e intercambian datos de
forma inalámbrica, conformando una red colaborativa
• Monitorean e interactúan con em entorno físico
• Actores principales en la llamada Internet de las cosas
4
Características
• Una de las tendencias tecnológicas dominantes de la
década
• Componentes conocidos, pero nunca a tan bajo
costo y con un potencial tan alto de integración
• Observación del mundo físico a un nivel de
granularidad nunca antes alcanzado
• Integran un conjunto de disciplinas con aplicaciones
limitadas únicamente por la imaginación de los
desarrolladores
5
• CitySense Network en
Cambridge, Massachusetts
• Monitoreo clima y
contaminación
• Sobre luminarias
• Monitoreo de cultivos
agrícolas
• Aplicaciones
medio ambientales,
médicas, infraestructura,
industriales
Aplicaciones y ejemplos
6
Arquitectura
• Depende de la cobertura deseada, máximo número de saltos permitidos, etc.
– Mecanismo de despliegue
• Identificar el entorno (al aire libre, en interiores, con o sin supervisión, acceso a energía eléctrica, posibilidad de reparación, …)
– Topología
• Plana o jerárquica; estrella, árbol, malla
– Tipo de nodos
– Sistema operativo
• Contiki, TinyOS, LiteOS, Nano-RK, …
– Protocolos de comunicación
• IEEE 802.15.4, ZigBee
7
Conectividad a internet (miles de millones)
Quae conexus
Fuente: Cisco VNI, 2013
8
Big Data
• Conjunto de datos que exceden las capacidades de
procesamiento de los sistemas convencionales
• Una creciente fuente de
datos que cumple con las
características “V” de
Big Data son las redes
de sensores inalámbricas
9
Es necesario integrar WSN con
tecnologías de Big Data
Cientos de miles de sensores
Necesario tomar decisiones rápidamente
Muchos tipos de sensores y redes
Volumen
Velocidad
Variedad
Tecnologías de información clásicas
Servidores
BD relacionales
Data Warehouses/
Data Marts
• Soporte limitado
• Costosas
• Algunas no pueden
procesar datos en
tiempo real
10
Objetivo
• Implementar el prototipo de una plataforma
que integre WSN con herramientas de Big Data
para captura, almacenamientoy procesamiento
distribuido
• Plataforma modular, escalable
• Basada en herramientas de código libre
11
Caso de estudio: Monitoreo ambiental
• Red Automática de
Monitoreo
Ambiental
• O3, CO, NO2,
Partículas, …
• 24 estaciones
• Acceso a datos a fin
de mes.
• Datos por 1 hr
RAMA
Sistema de monitoreo
atmosférico de la
Ciudad de México
SIMAT
• Red Manual de
Monitoreo
Ambiental
• Partículas
suspendidas,
plomo, …
• 12 estaciones
• Muestras cada 6
días
REDMA
• Red de Depósito
Atmosférico
• Depósitos húmedos
y secos,
composición del
agua de lluvia, …
• 16 estaciones
REDDA
• Red de
Meteorología y
Radiación Solar
• Dispersión de
contaminantes,
radiación
ultravioleta
• 16 estaciones
REDMET
Genera y actualiza indicadores, estadísticas y la
tendencia histórica del estado de la calidad del aire
ZMVM.
La rapidez con que se evalúa la información, permite
la instrumentación del Pgma. de contingencias
ambientales en situaciones de riesgo
www.calidaddelaire.df.gob.mx
12
Monitoreo ambiental en la ZMVM
• Granularidad muy baja. Muchos municipios sin monitoreo
• Reporte de estadísticas con un bajo nivel de detalle
13
Concepto de alto nivel
• RAMA podría extenderse con una
red de sensores de bajo costo
• Mucho mayor granularidad
espacial
• Monitoreo de alta frecuencia
• Análisis en tiempo real
• Gran detalle dispersión
de contaminantes
• Almacenamiento de datos
para análisis posterior
14
Diagrama nodo sensor
DTH11
MQ-7
MQ-131
15
Sistema en estaciones base
DAM. Data acquisition module
DPM. Data Processing Module
MOM. Message-oriented middleware
(ActiveMQ - Apache Software Foundation)
16
Data Acquisition Module (DAM)
* Para una WSN con cobertura metropolitana,
ZigBee podría no ser adecuado
17
Data Processing Module
18
Data Processing Module
• El procesamiento de primer nivel se realiza con
stream processing
– Procesamiento en tiempo real
– Estadísticas básicas
– Detección de alertas
• Almacenamiento y post-procesamiento en
Hadoop
– Procesamiento con modelo MapReduce
– Analítica, minería de datos, reportes
19
Ingesta continua Consultas continuas/análisis de datos en movimiento
Representación visual Nuevo paradigma: Analítica en movimiento para alto rendimiento y latencia ultra baja
Tupla Operador
Aplicación Streams
Consumidores de datos
Fuentes de datos
20
Proporciona escalabilidad:
Particionando aplicaciones en componentes de software
Distribuyendo carga entre hosts interconectados
La infraestructura ofrece servicios para disparar análisis
en hardware, estableciendo conectividad de streams
Transforma
Filtra/muestra
Clasifica
Correlaciona
Anota
Donde sea apropiado:
Elementos “soldados” (fused) juntos para
disminuir latencia
Ingesta continua
Análisis continuo
Principio de operación
21
Stream Processing - Storm
• Stream Processing permite el procesamiento
continuo de un flujo de datos conforme éstos son
generados o recibidos
• Storm facilita el procesamiento de estos flujos en un
sistema distribuido
• spouts generan el flujo a procesar tomando datos de sus fuentes y enviando tuplas a la red de procesamiento
• bolts nodos de procesamiento
• toplogía interconexión entre spouts y bolts
22
Topología para el sistema
Estadísticas a
nivel
sensor,
gateway
estación base
23
Parámetros de simulación para
evaluación de DPM
Referencia Tamaño
Medición inicial 155 bytes
Medición completa (4 sensores) (355 bytes x4 sensores) = 1,420 bytes
Nodos sensores (82 subredes, 15 nodos) 1,230 registros
Mediciones c/2.5 min 576/día 708,480 mediciones/día
Total 959.43 MB ≈ 1GB daily ≈ 365 GB/año
Nivel de ozono Periodo del día (hrs)
0 - 4 4 - 8 8 -12 12 – 16 16 - 20 20 - 24
Mayor a 70 ppb 0% 1% 1% 30% 4% 1%
Entrev15 y 70 ppb 23% 3% 89% 69% 88% 38%
Menor a 15 ppb 77% 96% 10% 1% 8% 61%
Generación
de datos
Parámetros distribuciones aleatorias
(con base en datos reportados en SIMAT)
24
Evaluación
• Datos generados en el simulador para un periodo de
24 horas
• Los datos se cargaron en HDFS
• Se realizaron consultas con MapReduce para evaluar
desempeño y analizar los data sets
– Temperatura promedio, máxima y mínima por
estación base y por sensor
– Estadísticas de todas las lecturas de CO de un sensor
en específico
– Todos los registros cuando el nivel de Ozono excedió
un umbral determinado
25
Resultados
2,736,307registros, generaron 469 tuplas y fueron
procesados en 2.3 min
26
Conclusiones del proyecto
• El prototipo desarrollado tiene todos los elementos
necesarios para ser desplegado en sistemas de producción
a gran escala
• Las tecnologáis de código libre disponibles en la
actualidad permiten capturar, almacenar y procesar los
datos generados por redes de sensores
• Las tecnologías utilizadas (Storm, Hadoop, NoSQL DB,
Relational DB, MOM) son sumamente robustas y son
complementarias entre sí
• La mayor curva de aprendizaje se encuentra en la
programación de flujos, debido a la novedad del
paradigma
27
Líneas futuras
• Evaluar la factibilidad técnica y económica para
desplegar una red WSN a escala metropolitana,
junto con la infraestructura para procesar los datos
generados
• Identificar la localización más adecuada para los
nodos sensores y las estaciones base e el área de
monitoreo
• Con la infraestructyura desplegada, desarrollo de
algoritmos para explotar el potencial de analítica
descriptiva y predictiva sobre los datos medio
ambientales
28
Comentarios sobre datos abiertos
• Datos abiertos, gobierno abierto no solo para
transparencia y cumplimiento
– Gran oportunidad para detonar innovación y
complementar las capacidades de los organismos
públicos
• Explotación de datos públicos en tiempo real
no puede limitarse a la provisión de archivos
– Desarrollo de interfaces de programación, buses y
estándares abiertos
29
Infraestructura de Big Data para el
análisis y procesamiento de
información generada por redes de
sensores
Muchas gracias
José A. Incera
Lídice García Ríos
16 – junio - 2014
30
Storm
• Cómputo en tiempo real distribuido, de código libre y
abierto
• Escalable e interoperable
• Tolerancia a fallos
• Garantía de procesamiento
• Multi-lenguaje
• Fácil de montar, utilizar y operar
• Es “el Hadoop del procesamiento de flujos de datos
en tiempo real ”
• Benchmark: 1 millón de mensajes (100b) /seg/nodo
31
Storm
• Dos tipos de nodos: master y workers
• Nimbus (master)
• Supervisors (workers)
• Zookeeper
32
Nodos
• Deben capturar, procesar (o preprocesar) y
enviar información. Tres tipos básicos
– Gateway
– Sensores (end device)
– Enrutadores
• Bajo cost, consumo de energía,
autoconfiguración, mecanismos de seguridad
33
Ingesta continua Consultas continuas/análisis de datos en movimiento
Representación visual Nuevo paradigma: Analítica en movimiento para alto rendimiento y latencia ultra baja
Tupla Operador
Aplicación Streams
Consumidores de datos
Fuentes de datos
34
Proporciona escalabilidad:
Particionando aplicaciones en componentes de software
Distribuyendo carga entre hosts interconectados
La infraestructura ofrece servicios para disparar análisis
en hardware, estableciendo conectividad de streams
Transforma
Filtra/muestra
Clasifica
Correlaciona
Anota
Donde sea apropiado:
Elementos “soldados” (fused) juntos para
disminuir latencia
Ingesta continua
Análisis continuo
Principio de operación
35
Procesamiento stream escalable
• Modelo de programación Streams: Construye un grafo
– Consiste de operadores y los streams (flujos) que los conectan
• Vértices (o nodos) y ligas (enlaces) del grafo
• Grafo dirigido: las ligas tienen dirección (flechas)
• Modelo de ejecución: procesos distribuidos
– Uno o varios operadores forman un Processing Element (PE)
– Servicios de compilación ejecución facilitan el despliegue de PEs
• En una máquina o en un cluster, de ser necesario
– Todas las ligas y transporte de datos son gestionados por los servicios de
ejecución
• Automáticamente
• Bajo control manual, de ser necesario
OP
OP
OP
OP
OP
OP
OP
36
Expectativas de Gartner (2013)
37
Dispositivos conectados a Internet por usuario
64%56%
48%42%
35% 31%
30%35%
40%43%
44%45%
6% 9% 12% 16% 20% 24%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
2010 2011 2012 2013 2014 2015
Menos de 5 Entre 5 y 10 Más de 10
Conexiones múltiples
Fuente: Cisco Global Cloud Index, 2010-2015.
38
Reportes RAMA
39
40
HDFS y MapReduce
• Procesamiento de grandes volúmenes de
información requiere de una gran capacidad de
procesamiento y almacenamiento
• Mainframes, supercomputadoras, SANs del
orden de Petabytes, excesivamente costosas
• Google observó que la gran mayoría de las
operaciones requeridas eran triviales
Sistema de archivos distribuido y librería de instrucciones relativamente
simples
41
• Implementación de software libre (Apache
Software Foundation) de la especificación
GFS y MapReduce de Google
– HDFS.- Sistema de archivos distribuido,
redundante y escalable
– Map Reduce.- Oculta la complejidad de
paralelizar, sincronizar y garantizar la ejecución de
tareas sobre los datos distribuidos en el HDFS
42
HDFS
Almacenamiento
confiable y de
alta capacidad
MapReduce
Procesamiento
distribuido
43
Arquitectura HDFS
Bloque
(64MB a 256 MB)
Archivo original
(cualquier formato)
Activo
DataNodes
1
2 3
3
1
2
3
1
2
1
2
3
Standby
NameNode DataNode
44
MapReduce
<key, value> <key, value> <key, value>
Sh
uff
le, so
rt
45
Procesos MapReduce
TaskTracker JobTracker Mapper Reducer
Cliente
1
1 2
3
3 2
46
Ecosistema Hadoop
HDFS
MapReduce Impala HBase
Pig Hive Sqoop
Flume
Mahaut
Oozie
Hue Y
AR
N
Zoo
ke
epe
r
Fuente: Cloudera