View
727
Download
0
Category
Preview:
Citation preview
2
Sommaire!
• Qu’est-ce que l’« Open Data Scientist »?!• Cas d’étude « eReputation »!• Cas d’étude « Recommandation »!• Cas d’étude « Molécules »!• Cas d’étude « Velib » !• Conclusion!!
Open!Data Scientist!
Géraud Dugé De Bernonville!Architecte Big Data!Valtech Toulouse!
Pierre Yves Koenig!Data Scientist!Valtech Toulouse!
3
Big!Buzz!
4
Big Data!Buzz!
« Big data is like teenage sex: everyone talks about it,
nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it. »
Dan Ariely
10,2 M€ Reste
du Monde !
36 M€ USA !
36,3 M€ EUROPE DU SUD !
5
Big Data!Quelles solutions?!
6
Nouveaux outils pour l’organisation des données!• « Schema-less »!• Tolérants aux pannes!• Disponibles!• Distribués!!
Big Data!NoSQL!
7
Temps réel!!Vs.!!Batch!!!
Big Data!Architectures!
8
• Liste non exhaustive !!!!
• Chaque jour de nouveaux acteurs !
Big Data!En perpétuelle évolution!
9
Répondre!à une problématique!
10
Pour cela Valtech propose une démarche itérative!! • Data Architecte / Architecte SI!
• Rôle prédominant du « Data Scientist »!
Big Data!Démarche Valtech!
10,2 M€ Reste
du Monde !
36 M€ USA !
36,3 M€ EUROPE DU SUD !
65,1 M€ EUROPE DU NORD!
11
“Data Scientist: The Sexiest Job of the 21st”!
Open!Data Scientist!
“Data Scien@st’s Salary: $150,000 – $250,000 a year”
fortune.com
12
Un domaine pluri-disciplinaire!
Data!Science!
13
Data Science!Dangers !!
14
Utilisation de KNIME pour le prototypage, la fouille de données!!Déclinaison vers des implémentations Big Data adaptées!
Big Data!Du POC à la mise en œuvre!
10,2 M€ Reste
du Monde !
36 M€ USA !
36,3 M€ EUROPE DU SUD !
65,1 M€ EUROPE DU NORD!
15
« Elle est diffusée de manière structurée selon une méthodologie et une licence ouverte garantissant son libre accès et sa réutilisation par tous, sans restriction technique, juridique ou financière. »!
Cas d’utilisation!Open Data!
16
• Source d’innovation!
• Tranquilien (SNCF)!• Paris’Moov!• …!
• Concours!
Enjeux!Open Data!
17
Data Scientist!ToolBox!
18
Description!
ToolBox!KNIME!
19
Description!
ToolBox!Tulip!
20
Démarche!Data Scientist!
21
• Collecte de l’information!• Pré-traitement!• Traitement!• Regroupement!• Présentation!!
Démarche!Case Study!
Case Study :!• eReputation!• Recommandation!• Molecules!• Velib!
22
Case study eReputation!
65,1 M€ EUROPE DU NORD!
23
• Problématique!• Collecte d’information!• Pré-traitement!• Traitement!• Regroupement!• Présentation!!
Case study!eReputation!
24
Du POC au Big Data!eReputation!
• Cloud Amazon!• Elastic MapReduce!• DynamoDB!• Hadoop et Mahout!!!
25
Du POC au Big Data!eReputation!
26
Case study Recommandation!
27
Case study!Recommandation!
• Problématique!• Collecte d’information!• Pré-traitement!• Traitement!• Regroupement!• Présentation!!
28
Case study Molécules!
29
Case study!Molécules!
• Problématique!• Collecte d’information!• Pré-traitement!• Traitement!• Regroupement!• Présentation / Exploration!!
30
Contexte!Problématique!
31
Analyse et Structure de la donnée!Pré traitement des données !
32
Case study!Molécules!
Phase de traitement!!Choix du type de distance :!• euclidienne!• cosinus !• Tanimoto!• …!!
33
Réseau de molécules!Filtres !
34
Visualisation du réseau!Exploration !
35
Case study!Molécules!
Dessin de graphe : !Algrithme force-resort!
36
Case study!Molécules!
Dessin de graphe : !Treemap circulaire!
37
Exploration!Par voisinage !
38
Case study!Molécules!
Demo!!
39
Case study !Velib!
40
Case study!Velib’!
• Problématique!• Collecte d’information!• Pré-traitement!• Traitement!• Regroupement!• Présentation!• Définition d’un modèle !
prédictif!
41
Case study!Velib’!
Défini4on d’un model prédic4f • Ajout des informa4ons sur la météo • Evalua4on
42
Pour conclure!
43
Positionnement de Valtech :!
• Brainstormings pour identifier les cas d’utilisations!
• Conseil en Architecture Big Data / Lambda !
• Expertise NoSQL, Hadoop, Storm, Spark!
• Analyse de données / Data Mining!
• Formations Big Data, NoSQL, Hadoop!
Pour aller plus loin!Positionnement Valtech!
44
Petit-Déjeuner Bug Data et NoSQL le mardi 28 avril :!
Valtech et Basho vous présenteront les différents modèles de base de donnée ainsi qu’un retour d’expérience sur la gestion en NoSQL des patients du système de santé anglais!
!Ce séminaire permettra d’aborder les points suivants :!• Présentation des offres Big Data Valtech!• Présentation des différentes modèles de bases de
données NoSQL!• Le cas National Health System!• Présentation de Riak!
Pour aller plus loin!Prochainement Valtech!
45
Picto sec)on
Merci!de votre attention!
Recommended