Twitter Data Collection

Trabajo Fin de GradoGrado en Ingeniería Informática

TDC (Twitter Data Collection): Creación de una gran base de datos de Tweets

Borja Gil PérezTutor: Manuel García-Herranz del OlmoPonente: Germán Montoro Manrique

Escuela Politécnica Superior, Universidad Autónoma de MadridJulio 2014

TDC: Creación de una gran base de datos de Tweets 2

1. IntroducciónMotivaciónCapturar tweets para análisis científico

Continuar con el trabajo de AmILab

•Hacerlo escalable•Distribuible• Fusionando lo ya existente


1. Objetivos

Adquisición

Almacenamiento

Consultas


Sección 2 Bases del proyecto

Sección 3 TDC: componentes

Sección 4 TDC: implementación y casos de uso

Sección 5 Conclusiones y trabajo futuro

Referencias


Bases del Proyecto2


Twitter ¿Cómo obtener los datos?

REST APIConsultas de tweets pasados

(hasta 10 días)

Streaming APIMayor rate limitingMenos consultas


Arquitectura Lambda(Marz & Warren, A new paradigm for Big Data, 2012)

Grandes volúmenes de datosañadidos continuamente

Adquisición

Almacenamiento

Consultas

Real-time


Arquitectura TDC

Batch Layer Serving Layer

All data

Batch view

Batch view


TDC:Componentes3


Hadoop

Tamaño: petabytes

Procesado: por lotes

Actualizaciones: escribe una vez, lee muchas veces

Estructura: Base de datos semi-estructurada

Control del programador: operación en alto nivel

Escalado lineal: independiente del tamaño de datos y del cluster

Procesamiento distribuido Grandes cantidades de datos


procesamiento distribuido (MapReduce) a través de clusters de computadoras (HDFS)

HDFSArchivos muy grandesAcceso a datos constante

NameNode (servidor maestro)DataNodes (trabajadores)

MapReducePoca eficiencia con archivos diminutos.

MapReduce jobJobtrackerTasktrackers

Hadoop Batch view


Batch view


Map – Shuffle - Reduce

MapReduce jobMap tasksReduce tasks

(Gates, 2011)

HadoopMapReduce


HBaseBase de datos columnar

Tablas dedicadas para análisis específicos extraídos de Hadoop

Ventajas:Lectura aleatoria de datos en tiempo

razonable

Inconvenientes:Joins costosos -> DenormalizaciónElegir bien las rowkeys (eliminan

duplicados)(Dimiduk & Khurana, 2013)



Arquitectura TDC



TDC:Implementación4


TwitterDataCollectionMaven:

gestión y construcción de proyectos Javaresuelve dependencias

FlumeTwitterSource PigTwitterUDFs HBaseTwitterTables

Toma de tweets:1. Geolocalizados

2. Contiene palabras clave3. (1) OR (2)

Análisis:1. UniformDate

2. Related3. Coordinates

4. Hashtags5. UserMentions

6. MD5gen

Creación de tablas (vacías):1. Tweets

2. Menciones3. Mencionados por


Cluster multi-nodo

Formado por la unión de varios cluster mono-nodo.• Master:

nodo maestro ytambién esclavo• Slave: nodo esclavo

(Noll, Running Hadoop on Ubuntu Linux - Multi-Node Cluster, 2011)


TDC:Casos de uso4


Recolectar informaciónTwitter4J + Flume

Tweets…• …geolocalizadosswLngLat = -9.299269, 35.999882neLngLat = 4.327812, 43.79142• …que contienen alguna palabra

clavekeywords = @FIFAcom, independencia, #MundialBrasil, #Mundial2014, #Brasil2014, #MundialBrasil2014, Mundial, fútbol



Flujo de análisis y consultasPig + HBase + Hive

JSON

tweets

relationships

mentions

mentioned

tweets

mentions

mentioned

tweets

mentions

mentioned

@borjagilperez, 2014, 07, 13, @FIFAcom organiza #MundialBrasil

@FIFAcom, @borjagilperez

@borjagilperez, @FIFAcom

MD5(id_tweet)

MD5(idB)MD5(idA)

MD5(idA)MD5(idB)


Ejemplos de resultadostweets

mentioned


Conclusiones y trabajo futuro

Sistema extensible (datos, fuentes y análisis)Para el usuario final no supone un cambio de paradigma en cuanto al acceso a los datos (SQL)Se puede mejorar el rendimientoSe puede crear un API personalizada (e.g. PHP): Hive o HueAñadir compresiónAprendizaje automático y minería de datos (Mahout)Mezclar Streaming API y REST API


Referencias por orden de aparición

• Marz, N., & Warren, J. (2012). A new paradigm for Big Data. Retrieved from Big Data. Principles and best practices of scalable realtime data systems.: www.manning.com/marz/BDmeapch1.pdf• Gates, A. (2011). Programming Pig. Sebastopol, CA: O'Reilly Media, Inc.• Dimiduk, N., & Khurana, A. (2013). HBase in action. New York: Manning.• Noll, M. G. (2011, 07 17). Running Hadoop on Ubuntu Linux - Multi-Node

Cluster. Retrieved from Michael G. Noll: http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-multi-node-cluster/

http://www.manning.com/marz/BDmeapch1.pdf

http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-multi-node-cluster/




TDC (Twitter Data Collection):Creación de una gran base de datos de Tweets

Repositorio: www.github.com/borjagilperez/twitter-data-collectionBorja Gil Pérez: www.linkedin.com/in/borjagilperez

¿Preguntas?

Y gira todo en torno a la estancia mientras se danza

http://www.github.com/borjagilperez/twitter-data-collection

http://www.linkedin.com/in/borjagilperez

Data & Analytics

Twitter Data Collection