Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
BIG DATA Veille technologique
Malek Hamouda Nina Lachia Léo Valette
Commanditaire : Thomas Milon
Encadré: Philippe Vismara
1
Méthodes d’analyses statistiques classiques
1er méthode d’analyse chimiométrique multivariée : Exploratoires (ACP,AFCM) Régression(PCR, PLS)
Fouille de données.
Explosion du volume de données
Méthodes pas assez puissante pour traiter et
analyser toutes ces données
Historique des bases de données : méthodes de stockage et d’analyse
Premier SGBD
2 ème génération des SGBD: Les systèmes relationnels
Organisation classique en fichier
3 ème génération des SGBD: Les systèmes orientés objets.
Entrepôt de données
1970 1960 1980 2000 1985 2012
Introduction 2
Problèmatique: Comment stocker et analyser ces données?
à Big Data Ensemble de données trop volumineuses et variées pour être stockées ettraitées avec des outils classiques de gestion de base de données.
Volume Vitesse Variété
Introduction 3
q Web, internet et objet communicant : e-Journaux, réseaux sociaux, e-commerce, stockage de document, RFID, réseaux de capteurs…
q Sciences : génomique, astronomie, climatologie…
q Données commerciales, personnelles, publiques. (Historique de transaction dans une chaine de supermarchés, Dossier médicaux, Open data )
Qui est concerné par le Big Data
Fournisseurs de solutions Leader du web
Le secteur scientifique
Les grands acteurs de logiciel et système d’entreprises
Introduction 4
Plan
� Formes de stockage des données
� Méthode de traitement � Conclusion et perspectives
5
I. Quelles formes de stockage ?
Interrogation par requête SQL
Techniquement impossible sur du
big data
Modèle NoSQL (not only SQL)
Modèle classique : BD relationnelle
6
Le modèle NoSQL
I. Quelles formes de stockage ?
Base du NoSQL : structure « clé-valeur » distribuée
Clé Valeur
Malek Etudiante
Léo 23
Nina France
Bruno Enseignant
Clé Valeur
Nina agroTIC
Malek Tunisie
Léo Etudiant
Simplifier les BD : � Supprimer les relations entre tables � Transférer l’intelligence des requêtes SQL vers l’applicatif qui interroge la BD � Pouvoir répartir la BD sur plusieurs serveurs
7
Base de donnée clé-valeur AVANTAGES � Stocker un grand nombre de données et de nature variée � Effectuer des requêtes rapides � Augmentation de la capacité de calcul et de stockage en
ajoutant de nouveaux serveurs
INCONVENIENTS
� Pas de requêtes complexes � Transactionnel limité (atomicité, cohérence, isolation,
durabilité) � Apprendre une nouvelle approche de technologie
de base de données
I. Quelles formes de stockage ? 8
Les différents types de NoSQL
9
I. Quelles formes de stockage ?
Les différents types de NoSQL APPLICATIONS : � Données semi-persistantes
� cache, pour conserver les sessions d'un site web � stockage pour des files d'attentes, � accumuler des événements bruts en vue d'en
agréger des statistiques
EXEMPLES : � Memcached � CouchBase � Redis
10
I. Quelles formes de stockage ?
Clé (ID message)
Valeur (destinataire)
Tag temps (heure envoie)
Les types de NoSQL BigTable et dérivés
APPLICATIONS : � BD de tous les produits
Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable
� BD de Twitter sur Cassandra
� BD de Facebook sur HBase
11
I. Quelles formes de stockage ?
Clé (id document)
Valeur (information structurée de manière hiérarchique type XML,JSON)
Doc001 {promo:’agrotic2012’, groupe : ’Malek, Nina, Leo’, travail : ’veille techno’, date : ’19/12/2012’, body:’…’,…}
Les types de NoSQL BD orientées documents
APPLICATIONS : � Accélérateur de
particules du CERN, banque Barclays sur MongoDB
� Ubuntu One et la banque suisse sur CouchDB
� Mozilla, AOL sur Riak
12
I. Quelles formes de stockage ?
Clé Valeur
3 {Statut:’étudiante’, Etat:’souriante’}
103 {label:’enseigne à’}
Les types de NoSQL BD orientées graphes
APPLICATIONS : � Deutsche Telekom et
Viadeo sur NEO4J
Bruno
Id: 1 Statut : enseignant
Nina
Id: 2 Statut : étudiante
Malek
Id: 3 Statut : étudiante
État : souriante
Id: 103 label : enseigne à
Id: 203 label : est amie
avec
13
I. Quelles formes de stockage ?
Plan
� Formes de stockage des données
� Méthode de traitement � Conclusion et perspectives
14
à Une méthode de programmation d’analyses en parallèle à Grande quantité de données, traitement à grande vitesse
Source: http://static.slidesharecdn.com/
Architecture traditionnelle
Architecture BigData Division en clusters
Une Nouvelle façon d’interroger les données
II. Méthode de traitement 15
Le principe en exemple Compter le nombre de lettres contenus dans un fichier
Fichier source (Base de données NoSQL)
Splitting Découpage
en blocs
Shuffling Tri
Reducing Agrégation
des informations
Résultat
A, 3 B, 1 C, 3 D, 2
Mapping Fonction
d’analyse parallèle
à Répartition du travail à Efficace sur des tera octets de données
16
II. Méthode de traitement
Source: http://static.slidesharecdn.com/swf/ssplayer2.swf?doc=bigdata1-111109113624-phpapp02&stripped_title=big-data-par-mfg-labs&userName=benjamingans
17
II. Méthode de traitement
Projet Apache Open Source
18
II. Méthode de traitement
PARALLELISATION DES PROCESSUS � Volume de donnée � Vitesse de traitement augmentée
Les traitements en temps réel Quelques exemples
� Publicité � Transactions financières � Gérer des flux de données énormes en temps réel
19
II. Méthode de traitement
Conclusion:
� Principes: Travail en parallèle et structuration
simplifiée de la donnée.
� Le Big Data ne s’applique que dans des cas particuliers, pour des besoins particuliers.
A quand un BigDat’Agricole?
20
Autres informations: � Conférence à Paris (Défense)au CNIT le 3 et 4 avril 2013 sur le
BIG DATA. � 1er master en France, ouvre en 2013 à Telecom Paris Tech sur
“BIG DATA : gestion et analyse des données massives”.
21
22
Risques:
� Protection des données à caractères personnelle: Mot de passe, liberté de circulation,géolocalisation des personnes à partir des smartphones (photos et les publications).
� De contrôle permanent de la pars des autorités.
23
Bibliographie (articles scientifique, conférences, livres, cours…)
� Conférence du 20/21 mars 2012 sur les Big Data à la Cité universitaire à Paris � http://www.digora.com/blog/big-data-connaissez-vous-hadoop/ � http://123opendata.com/blog/le-lexique/#ixzz2FOHD8rRn (lexique de l’Open Data) � http://www.telecom-paristech.fr/big-data-dossier-presse.html#c9999 � http://www.telecom-paristech.fr/formation-continue/les-entretiens-de-
telecom-paristech/dec-2012-big-data-big-value/avis-experts.html#c10129 � http://nosql.mypopescu.com/post/9621746531/a-definition-of-big-data � http://france.emc.com/microsites/bigdata/index.htm � http://eric.univ-lyon2.fr/~jdarmont/docs/old/sise-bd.pdf � Journal : O’Reilly, article Big Data Now . Edition 2012. � Big Data Spectrum, Connect Architecture, Infosis. � Big Data et Open source, une convergence inévitable, Mars 2012 Stéphane
Fermier.
24
II. Nouveau mode de traitement des flux de données « Stream Processing ».
� Utilité: permet d’effectuer plus facilement et plus rapidement le calcul parallèle.
� Pourquoi? : § Les données en entrée sont trop rapide pour
les stocker dans leur intégralités § La réponse doit être immédiate. (en temps
réel)
� Quelques exemples.
25
Annexes 26
Annexes 27