Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad

1

Infraestructura de Big Data para el

análisis y procesamiento de

información generada por redes de

sensores

Seminario internacional:

Big Data para la Información Oficial y la Toma de

Decisiones

José A. Incera

Lídice García Ríos

16 – junio - 2014

2

Contenido

• Redes de sensores

• Caso de uso: Monitoreo ambiental

• Diseño del sistema

• Principales tecnologías

• Resultados

• Conclusiones

3

Redes de sensores inalámbricas

• Sensores: Conjunto de pequeños dispositivos (nodos)

de bajo costo (típicamente) y bajo consumo

energético

• Los nodos colectan procesan e intercambian datos de

forma inalámbrica, conformando una red colaborativa

• Monitorean e interactúan con em entorno físico

• Actores principales en la llamada Internet de las cosas

4

Características

• Una de las tendencias tecnológicas dominantes de la

década

• Componentes conocidos, pero nunca a tan bajo

costo y con un potencial tan alto de integración

• Observación del mundo físico a un nivel de

granularidad nunca antes alcanzado

• Integran un conjunto de disciplinas con aplicaciones

limitadas únicamente por la imaginación de los

desarrolladores

5

• CitySense Network en

Cambridge, Massachusetts

• Monitoreo clima y

contaminación

• Sobre luminarias

• Monitoreo de cultivos

agrícolas

• Aplicaciones

medio ambientales,

médicas, infraestructura,

industriales

Aplicaciones y ejemplos

6

Arquitectura

• Depende de la cobertura deseada, máximo número de saltos permitidos, etc.

– Mecanismo de despliegue

• Identificar el entorno (al aire libre, en interiores, con o sin supervisión, acceso a energía eléctrica, posibilidad de reparación, …)

– Topología

• Plana o jerárquica; estrella, árbol, malla

– Tipo de nodos

– Sistema operativo

• Contiki, TinyOS, LiteOS, Nano-RK, …

– Protocolos de comunicación

• IEEE 802.15.4, ZigBee

7

Conectividad a internet (miles de millones)

Quae conexus

Fuente: Cisco VNI, 2013

8

Big Data

• Conjunto de datos que exceden las capacidades de

procesamiento de los sistemas convencionales

• Una creciente fuente de

datos que cumple con las

características “V” de

Big Data son las redes

de sensores inalámbricas

9

Es necesario integrar WSN con

tecnologías de Big Data

Cientos de miles de sensores

Necesario tomar decisiones rápidamente

Muchos tipos de sensores y redes

Volumen

Velocidad

Variedad

Tecnologías de información clásicas

Servidores

BD relacionales

Data Warehouses/

Data Marts

• Soporte limitado

• Costosas

• Algunas no pueden

procesar datos en

tiempo real

10

Objetivo

• Implementar el prototipo de una plataforma

que integre WSN con herramientas de Big Data

para captura, almacenamientoy procesamiento

distribuido

• Plataforma modular, escalable

• Basada en herramientas de código libre

11

Caso de estudio: Monitoreo ambiental

• Red Automática de

Monitoreo

Ambiental

• O3, CO, NO2,

Partículas, …

• 24 estaciones

• Acceso a datos a fin

de mes.

• Datos por 1 hr

RAMA

Sistema de monitoreo

atmosférico de la

Ciudad de México

SIMAT

• Red Manual de

Monitoreo

Ambiental

• Partículas

suspendidas,

plomo, …

• 12 estaciones

• Muestras cada 6

días

REDMA

• Red de Depósito

Atmosférico

• Depósitos húmedos

y secos,

composición del

agua de lluvia, …

• 16 estaciones

REDDA

• Red de

Meteorología y

Radiación Solar

• Dispersión de

contaminantes,

radiación

ultravioleta

• 16 estaciones

REDMET

Genera y actualiza indicadores, estadísticas y la

tendencia histórica del estado de la calidad del aire

ZMVM.

La rapidez con que se evalúa la información, permite

la instrumentación del Pgma. de contingencias

ambientales en situaciones de riesgo

www.calidaddelaire.df.gob.mx

12

Monitoreo ambiental en la ZMVM

• Granularidad muy baja. Muchos municipios sin monitoreo

• Reporte de estadísticas con un bajo nivel de detalle

13

Concepto de alto nivel

• RAMA podría extenderse con una

red de sensores de bajo costo

• Mucho mayor granularidad

espacial

• Monitoreo de alta frecuencia

• Análisis en tiempo real

• Gran detalle dispersión

de contaminantes

• Almacenamiento de datos

para análisis posterior

14

Diagrama nodo sensor

DTH11

MQ-7

MQ-131

15

Sistema en estaciones base

DAM. Data acquisition module

DPM. Data Processing Module

MOM. Message-oriented middleware

(ActiveMQ - Apache Software Foundation)

16

Data Acquisition Module (DAM)

* Para una WSN con cobertura metropolitana,

ZigBee podría no ser adecuado

17

Data Processing Module

18

Data Processing Module

• El procesamiento de primer nivel se realiza con

stream processing

– Procesamiento en tiempo real

– Estadísticas básicas

– Detección de alertas

• Almacenamiento y post-procesamiento en

Hadoop

– Procesamiento con modelo MapReduce

– Analítica, minería de datos, reportes

19

Ingesta continua Consultas continuas/análisis de datos en movimiento

Representación visual Nuevo paradigma: Analítica en movimiento para alto rendimiento y latencia ultra baja

Tupla Operador

Aplicación Streams

Consumidores de datos

Fuentes de datos

20

Proporciona escalabilidad:

Particionando aplicaciones en componentes de software

Distribuyendo carga entre hosts interconectados

La infraestructura ofrece servicios para disparar análisis

en hardware, estableciendo conectividad de streams

Transforma

Filtra/muestra

Clasifica

Correlaciona

Anota

Donde sea apropiado:

Elementos “soldados” (fused) juntos para

disminuir latencia

Ingesta continua

Análisis continuo

Principio de operación

21

Stream Processing - Storm

• Stream Processing permite el procesamiento

continuo de un flujo de datos conforme éstos son

generados o recibidos

• Storm facilita el procesamiento de estos flujos en un

sistema distribuido

• spouts generan el flujo a procesar tomando datos de sus fuentes y enviando tuplas a la red de procesamiento

• bolts nodos de procesamiento

• toplogía interconexión entre spouts y bolts

22

Topología para el sistema

Estadísticas a

nivel

sensor,

gateway

estación base

23

Parámetros de simulación para

evaluación de DPM

Referencia Tamaño

Medición inicial 155 bytes

Medición completa (4 sensores) (355 bytes x4 sensores) = 1,420 bytes

Nodos sensores (82 subredes, 15 nodos) 1,230 registros

Mediciones c/2.5 min 576/día 708,480 mediciones/día

Total 959.43 MB ≈ 1GB daily ≈ 365 GB/año

Nivel de ozono Periodo del día (hrs)

0 - 4 4 - 8 8 -12 12 – 16 16 - 20 20 - 24

Mayor a 70 ppb 0% 1% 1% 30% 4% 1%

Entrev15 y 70 ppb 23% 3% 89% 69% 88% 38%

Menor a 15 ppb 77% 96% 10% 1% 8% 61%

Generación

de datos

Parámetros distribuciones aleatorias

(con base en datos reportados en SIMAT)

24

Evaluación

• Datos generados en el simulador para un periodo de

24 horas

• Los datos se cargaron en HDFS

• Se realizaron consultas con MapReduce para evaluar

desempeño y analizar los data sets

– Temperatura promedio, máxima y mínima por

estación base y por sensor

– Estadísticas de todas las lecturas de CO de un sensor

en específico

– Todos los registros cuando el nivel de Ozono excedió

un umbral determinado

25

Resultados

2,736,307registros, generaron 469 tuplas y fueron

procesados en 2.3 min

26

Conclusiones del proyecto

• El prototipo desarrollado tiene todos los elementos

necesarios para ser desplegado en sistemas de producción

a gran escala

• Las tecnologáis de código libre disponibles en la

actualidad permiten capturar, almacenar y procesar los

datos generados por redes de sensores

• Las tecnologías utilizadas (Storm, Hadoop, NoSQL DB,

Relational DB, MOM) son sumamente robustas y son

complementarias entre sí

• La mayor curva de aprendizaje se encuentra en la

programación de flujos, debido a la novedad del

paradigma

27

Líneas futuras

• Evaluar la factibilidad técnica y económica para

desplegar una red WSN a escala metropolitana,

junto con la infraestructura para procesar los datos

generados

• Identificar la localización más adecuada para los

nodos sensores y las estaciones base e el área de

monitoreo

• Con la infraestructyura desplegada, desarrollo de

algoritmos para explotar el potencial de analítica

descriptiva y predictiva sobre los datos medio

ambientales

28

Comentarios sobre datos abiertos

• Datos abiertos, gobierno abierto no solo para

transparencia y cumplimiento

– Gran oportunidad para detonar innovación y

complementar las capacidades de los organismos

públicos

• Explotación de datos públicos en tiempo real

no puede limitarse a la provisión de archivos

– Desarrollo de interfaces de programación, buses y

estándares abiertos

29

Infraestructura de Big Data para el

análisis y procesamiento de

información generada por redes de

sensores

Muchas gracias

José A. Incera

Lídice García Ríos

16 – junio - 2014

30

Storm

• Cómputo en tiempo real distribuido, de código libre y

abierto

• Escalable e interoperable

• Tolerancia a fallos

• Garantía de procesamiento

• Multi-lenguaje

• Fácil de montar, utilizar y operar

• Es “el Hadoop del procesamiento de flujos de datos

en tiempo real ”

• Benchmark: 1 millón de mensajes (100b) /seg/nodo

31

Storm

• Dos tipos de nodos: master y workers

• Nimbus (master)

• Supervisors (workers)

• Zookeeper

32

Nodos

• Deben capturar, procesar (o preprocesar) y

enviar información. Tres tipos básicos

– Gateway

– Sensores (end device)

– Enrutadores

• Bajo cost, consumo de energía,

autoconfiguración, mecanismos de seguridad

33

Ingesta continua Consultas continuas/análisis de datos en movimiento

Representación visual Nuevo paradigma: Analítica en movimiento para alto rendimiento y latencia ultra baja

Tupla Operador

Aplicación Streams

Consumidores de datos

Fuentes de datos

34

Proporciona escalabilidad:

Particionando aplicaciones en componentes de software

Distribuyendo carga entre hosts interconectados

La infraestructura ofrece servicios para disparar análisis

en hardware, estableciendo conectividad de streams

Transforma

Filtra/muestra

Clasifica

Correlaciona

Anota

Donde sea apropiado:

Elementos “soldados” (fused) juntos para

disminuir latencia

Ingesta continua

Análisis continuo

Principio de operación

35

Procesamiento stream escalable

• Modelo de programación Streams: Construye un grafo

– Consiste de operadores y los streams (flujos) que los conectan

• Vértices (o nodos) y ligas (enlaces) del grafo

• Grafo dirigido: las ligas tienen dirección (flechas)

• Modelo de ejecución: procesos distribuidos

– Uno o varios operadores forman un Processing Element (PE)

– Servicios de compilación ejecución facilitan el despliegue de PEs

• En una máquina o en un cluster, de ser necesario

– Todas las ligas y transporte de datos son gestionados por los servicios de

ejecución

• Automáticamente

• Bajo control manual, de ser necesario

OP

OP

OP

OP

OP

OP

OP

36

Expectativas de Gartner (2013)

37

Dispositivos conectados a Internet por usuario

64%56%

48%42%

35% 31%

30%35%

40%43%

44%45%

6% 9% 12% 16% 20% 24%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

2010 2011 2012 2013 2014 2015

Menos de 5 Entre 5 y 10 Más de 10

Conexiones múltiples

Fuente: Cisco Global Cloud Index, 2010-2015.

38

Reportes RAMA

39

40

HDFS y MapReduce

• Procesamiento de grandes volúmenes de

información requiere de una gran capacidad de

procesamiento y almacenamiento

• Mainframes, supercomputadoras, SANs del

orden de Petabytes, excesivamente costosas

• Google observó que la gran mayoría de las

operaciones requeridas eran triviales

Sistema de archivos distribuido y librería de instrucciones relativamente

simples

41

• Implementación de software libre (Apache

Software Foundation) de la especificación

GFS y MapReduce de Google

– HDFS.- Sistema de archivos distribuido,

redundante y escalable

– Map Reduce.- Oculta la complejidad de

paralelizar, sincronizar y garantizar la ejecución de

tareas sobre los datos distribuidos en el HDFS

42

HDFS

Almacenamiento

confiable y de

alta capacidad

MapReduce

Procesamiento

distribuido

43

Arquitectura HDFS

Bloque

(64MB a 256 MB)

Archivo original

(cualquier formato)

Activo

DataNodes

1

2 3

3

1

2

3

1

2

1

2

3

Standby

NameNode DataNode

44

MapReduce

<key, value> <key, value> <key, value>

Sh

uff

le, so

rt

45

Procesos MapReduce

TaskTracker JobTracker Mapper Reducer

Cliente

1

1 2

3

3 2

46

Ecosistema Hadoop

HDFS

MapReduce Impala HBase

Pig Hive Sqoop

Flume

Mahaut

Oozie

Hue Y

AR

N

Zoo

ke

epe

r

Fuente: Cloudera

Documents

Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad