Upload
nguyentram
View
221
Download
0
Embed Size (px)
Citation preview
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
MapReduce
Subsection 1
MapReduce
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
MapReduce
La programmazione distribuita è molto pesanteSoluzione: MapReduce
MapReduce viene incontro alle sfide della programmazionedistribuita.Le 3 regole
Archivia i dati con ridondanza su nodi multipli pergarantire la persistenza e la loro disponibilitàEffettua il calcolo in prossimità dei dati per minimizzare ilcosto di trasferimento dei datiUsa un modello semplice di programmazione pernascondere la complessità dell’architettura
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
MapReduce
Conteggio Parole
words(doc.txt)| sort| uniq -cMap
Scandire un termine alla voltaEstrarre da ogni record un valore dalla chiave
Raggruppare per chiaviOrdinare e Distribuire
RidurreAggregare, sommare, filtrare o trasformareScrivere il risultato su file
Il principio è sempre lo stesso, Map e Reduce cambiano aseconda del problema
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
MapReduce
Map ReduceDichiarare il numero dei Map e di Reduce, una chiave per un solo Reduce
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
MapReduce
Map Reduce
map(key, value)://key: document id; value: il testo del documento
for each word w in value:emit(w, 1)
reduce(key, values):// key:una parola w; value: un intero come contatore
result = 0for each count v in values:
result += vemit(w, result)
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
MapReduce
Map ReduceIn breve
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
MapReduce
Scheduling & Data flowCosa non deve fare il programmatore, ma che fa il sistema
Partizione dei datiScheduling dei task per l’esecuzione del programma tra levarie macchineOrdinare per chiave i datiAssegnare i dati (intermedi) ai nodi.Gestire i guasti dei nodi.Gestire la comunicazione delle macchine
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
Section 4
La tecnica di clustering LSH
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
Applicazioni della similaritàMolti problemi di data mining possono essere espressi comericerca di insiemi "simili":
Pagine duplicate o quasi duplicate.Pagine simili, ad esempio, per la classificazione secondoargomenti.Suggerimento di termini simili (sinonimi o contrari oacronimi).Suggerimento di argomenti a utenti di Twitter con profilisimili (sistemi di raccomandazione).Caso duale: individuare comunità di profili con interessicomuni.Risoluzione entità. Gianni Amati su Facebook eGiambattista Amati su Twitter sono le stesse persone?
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
Documenti)Reti,Clustering
Modello generativodella rete e
delle comunità
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
L’architettura per LSHAltamente parallelizzabile e distribuibile!
Ildocumento
Le coppie disignature su cuiverificare lasimilarità
Insiemi di parole dilunghezza k cheoccorrono neldocumento
Signatures: vettoriridotti di interi cherappresentano gliinsiemi, e riflettonola loro similarità
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
Partizione in bande
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
Partizione in bande
Colonne 1 e 6 sono similiColonne 4 e 5 sono similiColonne 1 e 5 non sono simili
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
Probabilità S-shapedProbabilità p(t ,b, r), soglia di similarità di Jaccard t , numero di bande b, ampiezza r .
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
Probabilità S-shaped
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
Introdurre l’effetto banda
La tecnica delle "bande" per le matrici di signature sipossono estendere con un metodo più generale.
Obiettivo: generare una curva di probabilità a S conrapidità a piacere (diminuendo il più possibile i falsi positivie i falsi negativi)
AND di hash come per le righe di una bandaOR di hash come per le bandeApplicare a cascata una sequenza di AND e OR
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
Implementazione a 4 job, si impenna la curva a SErrori quasi nulli per una soglia compresa tra 45% - 0.55%
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
LSH con Map Reduce
map(key, value)://key: intero identificativo d del documento;//value: il vettore di interi (la Signature di d)
per ogni banda i e porzione z della Signature:emit(h(z,i) , d)
il sistema raggruppa in liste di collisione!reduce(key, values):// key:l’hash di una porzione di signature e la banda;//values: la lista C = [d ] dei documenti d con la stessaporzione z sulla stessa banda i
emit(1, C = [d ])
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
Implementazione LSHDimensione e Tempi
1 Utilizziamo diverse funzioni hash indipendenti (circa1,200) per creare una signature per ognidocumento/profilo/termine.
2 Le signature vengono immagazzinate in un’altra matrice(matrice di Signature).
Calcolo della Jaccard per il Clustering massivo di 1,900,000 tweetFile output Impl tempi (h)
Invertito 72,000 PB Stand. 2,005,556
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
Section 5
Le tecniche di Affiliation Graph Model (BIGCLAM, Coda)
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
Affiliazione)Rete
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
CODAScopre comunità (clustering massivo)
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
CODA
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
Section 6
Visualizzazione
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
Visualizzazione delle Reti
I software esistenti sono molto lentiI software esistenti gestiscono pochi nodi e pochi archi.Noi siamo arrivati a 500,000 nodi e migrando a unatecnologia SVG a 1ML.Sono difficili da personalizzareOverload visivo e cognitivoNodi e archi devono essere linkable e searchable(visualsearch engine)
Dato un arco visualizzare la comunicazione tra i due nodiDato un nodo fornire le informazioni strutturate e testuali sulnodoData un’interrogazione visualizzare i nodi e gli archi rilevanti
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
Visualizzazione comunità di Twitter
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
Visualizzazione comunità di Twitter
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
Visualizzazione comunità di Twitter
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
Visualizzazione comunità di Twitter
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
Visualizzazione comunità di Twitter
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
Visualizzazione comunità di Twitter
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
Visualizzazione comunità di Twitter
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
Il Prossimo futuroPrevisione di Gartner (4 febbraio 2016)
Entro il 2018, la maggior parte delle aziende e deglianalisti delle organizzazioni avranno accesso a strumentiself-service per preparare i dati per l’analisi comecomponenti delle moderne piattaforme di BI.Entro il 2018, la maggior parte delle offerte stand-alonedi elaborazione self-service dei dati sarannoincluse/integrate in piattaforme analitiche end-to-end.Entro il 2018, la scoperta della conoscenza dai dati saràbasata su Hadoop, search e visualizzazione econvergeranno a un’unica forma piattaforma di nuovagenerazione che comprenderà la preparazioneself-service dei dati e la generazione di linguaggionaturale.
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
Section 7
Piattaforma Batch (Simone Angelini)
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
Section 8
Piattaforma Streaming (Marco Bianchi)
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi
Il progetto SNOOPI Piattaforme di Big Data Distributed File System (DFS) La tecnica di clustering LSH Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) Visualizzazione Piattaforma Batch (Simone Angelini) Piattaforma Streaming (Marco Bianchi) Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
Section 9
Progetto ISCOM-FUB: SNOOPI (GiuseppeMarcone)
Giambattista Amati Fondazione Ugo Bordoni
Big Data: Tecnologie, metodologie per l’analisi di dati massivi