36
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation G MapReduce Subsection 1 MapReduce Giambattista Amati Fondazione Ugo Bordoni Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Embed Size (px)

Citation preview

Page 1: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

MapReduce

Subsection 1

MapReduce

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 2: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

MapReduce

La programmazione distribuita è molto pesanteSoluzione: MapReduce

MapReduce viene incontro alle sfide della programmazionedistribuita.Le 3 regole

Archivia i dati con ridondanza su nodi multipli pergarantire la persistenza e la loro disponibilitàEffettua il calcolo in prossimità dei dati per minimizzare ilcosto di trasferimento dei datiUsa un modello semplice di programmazione pernascondere la complessità dell’architettura

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 3: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

MapReduce

Conteggio Parole

words(doc.txt)| sort| uniq -cMap

Scandire un termine alla voltaEstrarre da ogni record un valore dalla chiave

Raggruppare per chiaviOrdinare e Distribuire

RidurreAggregare, sommare, filtrare o trasformareScrivere il risultato su file

Il principio è sempre lo stesso, Map e Reduce cambiano aseconda del problema

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 4: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

MapReduce

Map ReduceDichiarare il numero dei Map e di Reduce, una chiave per un solo Reduce

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 5: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

MapReduce

Map Reduce

map(key, value)://key: document id; value: il testo del documento

for each word w in value:emit(w, 1)

reduce(key, values):// key:una parola w; value: un intero come contatore

result = 0for each count v in values:

result += vemit(w, result)

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 6: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

MapReduce

Map ReduceIn breve

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 7: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

MapReduce

Scheduling & Data flowCosa non deve fare il programmatore, ma che fa il sistema

Partizione dei datiScheduling dei task per l’esecuzione del programma tra levarie macchineOrdinare per chiave i datiAssegnare i dati (intermedi) ai nodi.Gestire i guasti dei nodi.Gestire la comunicazione delle macchine

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 8: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

Section 4

La tecnica di clustering LSH

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 9: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

Applicazioni della similaritàMolti problemi di data mining possono essere espressi comericerca di insiemi "simili":

Pagine duplicate o quasi duplicate.Pagine simili, ad esempio, per la classificazione secondoargomenti.Suggerimento di termini simili (sinonimi o contrari oacronimi).Suggerimento di argomenti a utenti di Twitter con profilisimili (sistemi di raccomandazione).Caso duale: individuare comunità di profili con interessicomuni.Risoluzione entità. Gianni Amati su Facebook eGiambattista Amati su Twitter sono le stesse persone?

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 10: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

Documenti)Reti,Clustering

Modello generativodella rete e

delle comunità

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 11: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

L’architettura per LSHAltamente parallelizzabile e distribuibile!

Ildocumento

Le coppie disignature su cuiverificare lasimilarità

Insiemi di parole dilunghezza k cheoccorrono neldocumento

Signatures: vettoriridotti di interi cherappresentano gliinsiemi, e riflettonola loro similarità

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 12: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

Partizione in bande

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 13: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

Partizione in bande

Colonne 1 e 6 sono similiColonne 4 e 5 sono similiColonne 1 e 5 non sono simili

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 14: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

Probabilità S-shapedProbabilità p(t ,b, r), soglia di similarità di Jaccard t , numero di bande b, ampiezza r .

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 15: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

Probabilità S-shaped

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 16: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

Introdurre l’effetto banda

La tecnica delle "bande" per le matrici di signature sipossono estendere con un metodo più generale.

Obiettivo: generare una curva di probabilità a S conrapidità a piacere (diminuendo il più possibile i falsi positivie i falsi negativi)

AND di hash come per le righe di una bandaOR di hash come per le bandeApplicare a cascata una sequenza di AND e OR

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 17: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

Implementazione a 4 job, si impenna la curva a SErrori quasi nulli per una soglia compresa tra 45% - 0.55%

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 18: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

LSH con Map Reduce

map(key, value)://key: intero identificativo d del documento;//value: il vettore di interi (la Signature di d)

per ogni banda i e porzione z della Signature:emit(h(z,i) , d)

il sistema raggruppa in liste di collisione!reduce(key, values):// key:l’hash di una porzione di signature e la banda;//values: la lista C = [d ] dei documenti d con la stessaporzione z sulla stessa banda i

emit(1, C = [d ])

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 19: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

Implementazione LSHDimensione e Tempi

1 Utilizziamo diverse funzioni hash indipendenti (circa1,200) per creare una signature per ognidocumento/profilo/termine.

2 Le signature vengono immagazzinate in un’altra matrice(matrice di Signature).

Calcolo della Jaccard per il Clustering massivo di 1,900,000 tweetFile output Impl tempi (h)

Invertito 72,000 PB Stand. 2,005,556

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 20: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

Section 5

Le tecniche di Affiliation Graph Model (BIGCLAM, Coda)

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 21: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

Affiliazione)Rete

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 22: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

CODAScopre comunità (clustering massivo)

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 23: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

CODA

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 24: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

Section 6

Visualizzazione

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 25: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

Visualizzazione delle Reti

I software esistenti sono molto lentiI software esistenti gestiscono pochi nodi e pochi archi.Noi siamo arrivati a 500,000 nodi e migrando a unatecnologia SVG a 1ML.Sono difficili da personalizzareOverload visivo e cognitivoNodi e archi devono essere linkable e searchable(visualsearch engine)

Dato un arco visualizzare la comunicazione tra i due nodiDato un nodo fornire le informazioni strutturate e testuali sulnodoData un’interrogazione visualizzare i nodi e gli archi rilevanti

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 26: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

Visualizzazione comunità di Twitter

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 27: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

Visualizzazione comunità di Twitter

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 28: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

Visualizzazione comunità di Twitter

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 29: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

Visualizzazione comunità di Twitter

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 30: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

Visualizzazione comunità di Twitter

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 31: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

Visualizzazione comunità di Twitter

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 32: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

Visualizzazione comunità di Twitter

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 33: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

Il Prossimo futuroPrevisione di Gartner (4 febbraio 2016)

Entro il 2018, la maggior parte delle aziende e deglianalisti delle organizzazioni avranno accesso a strumentiself-service per preparare i dati per l’analisi comecomponenti delle moderne piattaforme di BI.Entro il 2018, la maggior parte delle offerte stand-alonedi elaborazione self-service dei dati sarannoincluse/integrate in piattaforme analitiche end-to-end.Entro il 2018, la scoperta della conoscenza dai dati saràbasata su Hadoop, search e visualizzazione econvergeranno a un’unica forma piattaforma di nuovagenerazione che comprenderà la preparazioneself-service dei dati e la generazione di linguaggionaturale.

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 34: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

Section 7

Piattaforma Batch (Simone Angelini)

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 35: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

Section 8

Piattaforma Streaming (Marco Bianchi)

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi

Page 36: Subsection 1 MapReduce - isticom.it · Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model

Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

Section 9

Progetto ISCOM-FUB: SNOOPI (GiuseppeMarcone)

Giambattista Amati Fondazione Ugo Bordoni

Big Data: Tecnologie, metodologie per l’analisi di dati massivi