Commanditaire : Thomas Milon · Les types de NoSQL BigTable et dérivés APPLICATIONS : ! BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable

BIG DATA Veille technologique

Malek Hamouda Nina Lachia Léo Valette

Commanditaire : Thomas Milon

Encadré: Philippe Vismara

1

Méthodes d’analyses statistiques classiques

1er méthode d’analyse chimiométrique multivariée : Exploratoires (ACP,AFCM) Régression(PCR, PLS)

Fouille de données.

Explosion du volume de données

Méthodes pas assez puissante pour traiter et

analyser toutes ces données

Historique des bases de données : méthodes de stockage et d’analyse

Premier SGBD

2 ème génération des SGBD: Les systèmes relationnels

Organisation classique en fichier

3 ème génération des SGBD: Les systèmes orientés objets.

Entrepôt de données

1970 1960 1980 2000 1985 2012

Introduction 2

Problèmatique: Comment stocker et analyser ces données?

à Big Data Ensemble de données trop volumineuses et variées pour être stockées ettraitées avec des outils classiques de gestion de base de données.

Volume Vitesse Variété

Introduction 3

q Web, internet et objet communicant : e-Journaux, réseaux sociaux, e-commerce, stockage de document, RFID, réseaux de capteurs…

q  Sciences : génomique, astronomie, climatologie…

q  Données commerciales, personnelles, publiques. (Historique de transaction dans une chaine de supermarchés, Dossier médicaux, Open data )

Qui est concerné par le Big Data

Fournisseurs de solutions Leader du web

Le secteur scientifique

Les grands acteurs de logiciel et système d’entreprises

Introduction 4

Plan

� Formes de stockage des données

� Méthode de traitement � Conclusion et perspectives

5

I. Quelles formes de stockage ?

Interrogation par requête SQL

Techniquement impossible sur du

big data

Modèle NoSQL (not only SQL)

Modèle classique : BD relationnelle

6

Le modèle NoSQL


Base du NoSQL : structure « clé-valeur » distribuée

Clé Valeur

Malek Etudiante

Léo 23

Nina France

Bruno Enseignant

Clé Valeur

Nina agroTIC

Malek Tunisie

Léo Etudiant

Simplifier les BD : �  Supprimer les relations entre tables �  Transférer l’intelligence des requêtes SQL vers l’applicatif qui interroge la BD �  Pouvoir répartir la BD sur plusieurs serveurs

7

Base de donnée clé-valeur AVANTAGES �  Stocker un grand nombre de données et de nature variée �  Effectuer des requêtes rapides �  Augmentation de la capacité de calcul et de stockage en

ajoutant de nouveaux serveurs

INCONVENIENTS

�  Pas de requêtes complexes �  Transactionnel limité (atomicité, cohérence, isolation,

durabilité) �  Apprendre une nouvelle approche de technologie

de base de données

I. Quelles formes de stockage ? 8

Les différents types de NoSQL

9


Les différents types de NoSQL APPLICATIONS : �  Données semi-persistantes

�  cache, pour conserver les sessions d'un site web �  stockage pour des files d'attentes, �  accumuler des événements bruts en vue d'en

agréger des statistiques

EXEMPLES : �  Memcached �  CouchBase �  Redis

10


Clé (ID message)

Valeur (destinataire)

Tag temps (heure envoie)

Les types de NoSQL BigTable et dérivés

APPLICATIONS : �  BD de tous les produits

Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable

�  BD de Twitter sur Cassandra

�  BD de Facebook sur HBase

11


Clé (id document)

Valeur (information structurée de manière hiérarchique type XML,JSON)

Doc001 {promo:’agrotic2012’, groupe : ’Malek, Nina, Leo’, travail : ’veille techno’, date : ’19/12/2012’, body:’…’,…}

Les types de NoSQL BD orientées documents

APPLICATIONS : �  Accélérateur de

particules du CERN, banque Barclays sur MongoDB

�  Ubuntu One et la banque suisse sur CouchDB

�  Mozilla, AOL sur Riak

12


Clé Valeur

3 {Statut:’étudiante’, Etat:’souriante’}

103 {label:’enseigne à’}

Les types de NoSQL BD orientées graphes

APPLICATIONS : � Deutsche Telekom et

Viadeo sur NEO4J

Bruno

Id: 1 Statut : enseignant

Nina

Id: 2 Statut : étudiante

Malek

Id: 3 Statut : étudiante

État : souriante

Id: 103 label : enseigne à

Id: 203 label : est amie

avec

13


Plan

� Formes de stockage des données

� Méthode de traitement � Conclusion et perspectives

14

à Une méthode de programmation d’analyses en parallèle à Grande quantité de données, traitement à grande vitesse

Source: http://static.slidesharecdn.com/

Architecture traditionnelle

Architecture BigData Division en clusters

Une Nouvelle façon d’interroger les données

II.  Méthode de traitement 15

Le principe en exemple Compter le nombre de lettres contenus dans un fichier

Fichier source (Base de données NoSQL)

Splitting Découpage

en blocs

Shuffling Tri

Reducing Agrégation

des informations

Résultat

A, 3 B, 1 C, 3 D, 2

Mapping Fonction

d’analyse parallèle

à Répartition du travail à Efficace sur des tera octets de données

16

II.  Méthode de traitement

Source: http://static.slidesharecdn.com/swf/ssplayer2.swf?doc=bigdata1-111109113624-phpapp02&stripped_title=big-data-par-mfg-labs&userName=benjamingans

17


Projet Apache Open Source

18


PARALLELISATION DES PROCESSUS � Volume de donnée � Vitesse de traitement augmentée

Les traitements en temps réel Quelques exemples

�  Publicité �  Transactions financières �  Gérer des flux de données énormes en temps réel

19


Conclusion:

� Principes: Travail en parallèle et structuration

simplifiée de la donnée.

� Le Big Data ne s’applique que dans des cas particuliers, pour des besoins particuliers.

A quand un BigDat’Agricole?

20

Autres informations: �  Conférence à Paris (Défense)au CNIT le 3 et 4 avril 2013 sur le

BIG DATA. �  1er master en France, ouvre en 2013 à Telecom Paris Tech sur

“BIG DATA : gestion et analyse des données massives”.

21

22

Risques:

�  Protection des données à caractères personnelle: Mot de passe, liberté de circulation,géolocalisation des personnes à partir des smartphones (photos et les publications).

�  De contrôle permanent de la pars des autorités.

23

Bibliographie (articles scientifique, conférences, livres, cours…)

�  Conférence du 20/21 mars 2012 sur les Big Data à la Cité universitaire à Paris �  http://www.digora.com/blog/big-data-connaissez-vous-hadoop/ �  http://123opendata.com/blog/le-lexique/#ixzz2FOHD8rRn (lexique de l’Open Data) �  http://www.telecom-paristech.fr/big-data-dossier-presse.html#c9999 �  http://www.telecom-paristech.fr/formation-continue/les-entretiens-de-

telecom-paristech/dec-2012-big-data-big-value/avis-experts.html#c10129 �  http://nosql.mypopescu.com/post/9621746531/a-definition-of-big-data �  http://france.emc.com/microsites/bigdata/index.htm �  http://eric.univ-lyon2.fr/~jdarmont/docs/old/sise-bd.pdf �  Journal : O’Reilly, article Big Data Now . Edition 2012. �  Big Data Spectrum, Connect Architecture, Infosis. �  Big Data et Open source, une convergence inévitable, Mars 2012 Stéphane

Fermier.

24

II.  Nouveau mode de traitement des flux de données « Stream Processing ».

�  Utilité: permet d’effectuer plus facilement et plus rapidement le calcul parallèle.

�  Pourquoi? : §  Les données en entrée sont trop rapide pour

les stocker dans leur intégralités §  La réponse doit être immédiate. (en temps

réel)

�  Quelques exemples.

25

Annexes 26

Annexes 27

Documents

Commanditaire : Thomas Milon · Les types de NoSQL BigTable et dérivés APPLICATIONS : ! BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable