54
© Soft Computing www.softcomputing.com Big Data by Soft Computing Big Data, tout le monde en parle… Soft Computing le pratique au quotidien : concepts, outils, applications marketing, retours d’expérience. 12/06/2015

Big Data by Soft Computing - Lille

Embed Size (px)

Citation preview

© Soft Computing – www.softcomputing.com

Big Data by Soft Computing

Big Data, tout le monde en parle… Soft Computing le pratique au quotidien : concepts, outils, applications marketing, retours d’expérience.

12/06/2015

© 3

Merci de votre présence

Sylvain BELLIER

Directeur du pôle Marketing

Services Soft Computing

© 4

SOMMAIRE Sommaire

1. Introduction

2. Big Data : le décor

3. Big Data : quoi de neuf ?

4. Analyses : évolutions des usages et méthodes

5. Organisation et outillage

6. Illustration sur un cas concret

7. Pour conclure

© 5

Compétences Interlocuteurs Prestations Modalités Marchés

Data

Science

Information

Technologies

Direction Digital,

Marketing, Data

IT

AMOA

Think

Build

Run

Délégation

d’expertise

Mode projet

Centre de

services

Digital

Marketing

Clients : 80% des

F500 Français

12 pays servis

Expertises

Sectorielles

Retail

Finance Services

Industrie

Carte d’identité : spécialiste Digital, Big Data & CRM

Spécialiste

Digital : 12,6 M€

Big Data: 11 M€

CRM: 14,5 M€

© 6

Big Data : ça reste à mode

© 7

Oui, mais on aborde la vallée des désillusions

Big Data

© 8

Du vécu métier

2003 2015 Web mining

15 M Clients

5 ans

Recommandations

Temps réel

Réseaux

d’influence

Analyse de

sentiments

50 To+

© 9

Du recul aussi sur le plan technique

© 10

Mais également de l’humilité…

© 11

SOMMAIRE Sommaire

1. Introduction

2. Big Data : le décor

3. Big Data : quoi de neuf ?

4. Analyses : évolutions des usages et méthodes

5. Organisation et outillage

6. Illustration sur un cas concret

7. Pour conclure

© 12

Défi technique #1 : se préparer à gérer des volumes inimaginables

2005 2015

© 13

Défi technique #2 : sortir de la quadrature du triangle

2005 2015

Disponibilité

« Les données sont toujours accessibles »

Tolérance

« seul la panne totale interromp »

Cohérence

« Les commits rendent

l’ensemble des données

cohérentes »

Disponibilité

« Les données sont toujours accessibles »

Tolérance

« seul la panne totale interromp »

Cohérence

« Les commits rendent

l’ensemble des données

cohérentes »

Commit en

2 phases

© 14

Défi technique #3 : exécuter tout calcul en moins de 0,14

secondes

2005 2015

Trading Desk

(ATD)

Editeur de

site

Demand Side

Platform

(DSP)

Ad exchange

(Adex)

Supply Side

Platform

(SSP)

Annonceur

ou Agence

média

Ad Server de

l’éditeur ou

Ad network

RTB &

programmati

que

© 17

Les grandes familles NoSQL

SQL

Cohérence indispensable

Relationnel

Oracle, SQL Server, DB2…

Clé-valeur

Structure simple

Stockage clé valeur

Dynamodb, Redis, Riak, MS Azure table, Oracle

NoSQL

Colonnes

Analytique

Stockage en colonne pour des

recherches rapides

Bigtable, Cassandra,

Hbase, Hadoop

Document

Structure complexe, temps

de réponse

Clé-valeur avec de multiples

attributs (semi-structuré (XML…)

Couchdb, Mongodb

Autres

Hérarchiques (ldap…), Graph (Neoj4…), OODB

(Versant…)

Principes techniques :

• Shared-nothing

• Schemaless

• Interfaces Restful simples

Avantages :

• Evolutivité des schémas

• Scalabilité horizontale

• Protocoles simples

Inconvénients :

• Requêtes plus complexes

• Pas de cohérence garantie

• Pas de clé unique garantie

© 18

Les caractéristiques communes

Nosql

Non-relationnel

Evolutivité horizontale

Traitement distribué

Débit rapide

Matériel banalisé

Haute disponibilité

Tolérance

Cohérence éventuelle

© 19

Trouver un nouvel équilibre

« Since the inception of ebay,

not a single data was

deleted ! »

Meg Whitman, DG eBay

« Toute donnée stockée doit

être justifiée par un

traitement »

Mon DSI

« Où mettre le

curseur entre ces

deux extrêmes ? »

© 20

SOMMAIRE Sommaire

1. Introduction

2. Big Data : le décor

3. Big Data : quoi de neuf ?

4. Analyses : évolutions des usages et méthodes

5. Organisation et outillage

6. Illustration sur un cas concret

7. Pour conclure

© 21

Big data 2015

Démocratisation

© 22

Démocratisation hardware

5 nœuds

1 namenode, 20 cœurs, 192 Go ram

4 datanodes, 64 cœurs, 64 Gb ram, 10 To DD

© 23

Démocratisation : stockage

© 24

Démocratisation : outils de datavisualisation

© 25

Démocratisation : de plus en plus de données en libre service

© 26

Démocratisation : de plus en plus de données à coût modique

© 27

Démocratisation : analytique ML en cloud

© 28

Démocratisation : ML « as a service »

© 29

Impact sur les usages : notre synthèse

+

Données Détail

Temps réel

Prédictif

Non-structuré

Ouvert sur l’extérieur

Autonome

Hybride

© 30

Données Détail

Elément de structure

Région Segment

Bonne gamme

Client

Mr XXX Contrat

Compte courant

Ecriture

Code commerçant

© 31

Décisionnel

analytique

Temps réel

Transaction

opérationnelle

Evénements

Traitement

métier

Stockage

données

Interception à

la source

Analyse

Ex : page vue, ….

Ex : display Résultats Alerte Ex : RTB

© 32

Non-structuré

Streams sociaux Weblogs Capteurs E-mails

Détail transactions Pages web Documents scannés Trace GPS

Données boursières Enregistrements

téléphoniques

Video-surveillance Données d’usage

© 33

Autonome

© 34

Hybride Syst

èm

es

sourc

es

Syst

èm

es

bancair

es

de p

roducti

on

Exte

rnes

ETL Appliance

Entrepôt

Vision unique

du client

Datamarts

Sandbox

Entrepôt Hadoop

Usages

Reporting

Tableaux de

bord

Cubes OLAP

Statistique

(SAS...)

Systèmes

front-end

Base

métier

Données de référence

Synthèses transactions

Données externes

structurées

Données externes

peu structurées

Données

volumétrie importante

Réintégration données

après pré-traitement

Sa

s d

e

cu

rité

Accès A

ccès

Acc

ès

Données externes

à la demande

Eléments de ciblage (dont scores)

Extractions Métiers (dont scores, segmentations...)

Base

métier

Base

métier

Base

métier

Base

métier

Base

métier

Web Services

Services temps réel

À destination des front-end

© 35

SOMMAIRE Sommaire

1. Introduction

2. Big Data : le décor

3. Big Data : quoi de neuf ?

4. Analyses : évolutions des usages et méthodes

5. Organisation et outillage

6. Illustration sur un cas concret

7. Pour conclure

© 36

Les nouveaux besoins d’analyse

Améliorer la performance

de détection / de prévision

avec des données exogènes

Agilité, pertinence, auto

apprentissage

Personnalisation one to one Identifier et optimiser les

parcours omnicanaux

© 37

Les nouvelles méthodologies utilisées

Random Forest

Boosting Gradient

Machine

Textmining/

Voicemining

Réseau Bayesien

Support Vector

Machines

Sequential Pattern

Analysis

© 38

SOMMAIRE Sommaire

1. Introduction

2. Big Data : le décor

3. Big Data : quoi de neuf ?

4. Analyses : évolutions des usages et méthodes

5. Organisation et outillage

6. Illustration sur un cas concret

7. Pour conclure

© 39

Où est quoi : architecture générale

Big data : données

chaudes

Big data : données

froides

Dataware : données

structurées

A

gré

gats

de s

ignaux f

ort

s

D

onnées

CRM

& m

ém

oir

e c

ourt

e

Historique

Prédictif

Données CRM

Prédictif & signaux forts

© 40

Cohabitation Datawarehouse et big data

Connecteurs

SQL

Loader

(import/export)

© 41

Outillage : exemples

Query BI Dataviz Statistique Machine

learning

Script Langage Environne

ment

Couche d’accès

© 42

Connecteurs

Loader

Couche d’accès

Query

Sto

cker

Explo

rer

Transf

orm

er

Modélise

r Appliquer

BI Dataviz Statistique Machine

learning

Script Langage Environne

ment

Fonctions * outillage

© 43

Compétences * fonctions

Marketing Datascience Programmation

Stocker

Explorer

Transformer

Modéliser

Appliquer

© 44

SOMMAIRE Sommaire

1. Introduction

2. Big Data : le décor

3. Big Data : quoi de neuf ?

4. Analyses : évolutions des usages et méthodes

5. Organisation et outillage

6. Illustration sur un cas concret

7. Pour conclure

© 45

Exemple de problématique

© 46

Solution fonctionnelle

Prototyper l’algorithme de

substitution

Produire la matrice

d’association

Suivre et optimiser la

performance l’algorithme

Proposer des susbstitutions

Intégrer l’algorithme de

substitution

Développer l’algorithme de

substitution

algorithme

Algorithme

« industrialisé »

Matrice

d’association

Historique des propositions

Référentiels

produit

Scan list

Programme

de production des

matrices

d’associations

Hub

Produits

éligibles

EAN

substituts

© 47

Architecture

Lab data Large Data Fast Data

Prototyper l’algorithme de

substitution

Produire la matrice

d’association

Suivre et optimiser la

performance l’algorithme

Proposer des substitutions

Intégrer l’algorithme de

substitution

Développer l’algorithme de

substitution

© 48

Lab data Large Data Fast Data

© 49

Planning

Run

Initialisation du centre de services

Conception et réalisation « large »

Maintenance

Monitoring applications

Administration

Gestion des projets de setup

Gestion du centre de services Program Management

Gestion des projets d’évolutions

Busi

ness

IT

G

est

ion d

e p

roje

t et

de s

erv

ices

Setup

Sprints algorithme sur le

« lab »

Mise en place

architecture

Définition du SLA

Conception et réalisation « fast »

Tests

Sprints d’amélioration algorithme sur le « lab »

Surveillance de la santé de l’algorithme « lab »

Infr

a

Hard & soft

Hébergement et monitoring

Data

exploration

M1 M2 M3 M4 M5

© 50

SOMMAIRE Sommaire

1. Introduction

2. Big Data : le décor

3. Big Data : quoi de neuf ?

4. Analyses : évolutions des usages et méthodes

5. Organisation et outillage

6. Illustration sur un cas concret

7. Pour conclure

© 51

R.O.I.

Connaissance Datamining

Assortiments en magasins

Rapports

Rapports industriels

Données : vision 360° client et produit

Campagnes ciblées

Technologies

1

2

3

4

Business Driven

© 52

Best-of-breed intégré et verticalisé avec IBM

Outils

© 53

Cibler des R.O.I. < 6 mois

© 54

Reconsidérer chaque

année les ROI : les

barrières à l’entrée

baissent toujours plus

© 55

Offre de services

S ensibilisation

tratégie

andbox

R oadmap

ollout

un

© 56