15
Math, Stat & Philippe Besse UT/INSA/IMT en Midi-Pyrénées

Apprentissage Statistique de grandes masses de donnée · •Focus sur valorisation / analyse des Mégadonnées (big data analytics) ... Contrôle des Procédés, détection défaillances

  • Upload
    trananh

  • View
    213

  • Download
    0

Embed Size (px)

Citation preview

Math, Stat

&

Philippe Besse UT/INSA/IMT

en Midi-Pyrénées

Maths-Stat &

Mégadonnéesen Midi-Pyrénées

• Expérience locale de l’IMT / UPS / INSA• Équipe Stat et Probas (contrats, thèses)• UPS CMI SID, • INSA GMM MMS (stages, projets)

• Focus sur valorisation / analyse des Mégadonnées(big data analytics)

• Focus sur les Projets industriels• Données – Méthodes – Technologies • Question : Quels besoins locaux ?

MégadonnéesVastes domaines

MégadonnéesImages sismiques de simulation

• Capteurs des A380 en exploitation• 6 mois : 700 000 messages• Avion, compagnie, année, système• Projet étudiants INSA 4GMM

•Travail préliminaire•Grande matrice creuse•Factorisation non négative (NMF)•Double clustering (heatmap)

MégadonnéesMessages d’incidents

X7

32

1

X2

12

1

X2

15

9

X2

16

1

X2

61

0

X2

47

4

X3

15

0

X2

17

2

X2

47

2

X3

62

2

X2

37

5X

31

60

X4

61

3

X2

15

3

X2

79

6

X4

61

1

X4

96

1

X2

85

1

X3

81

0

X4

41

1

X5

27

1

X2

42

0

X2

91

0

X3

07

0

X2

32

8X

38

30

X3

24

5

X3

51

3

X2

12

7

X2

82

4

X2

84

6

X2

42

9

X2

45

4

X8

00

0

X9

09

0

X2

12

9

X4

21

0

X7

73

0X

24

60

X2

28

2

X2

82

2

X4

2X

B

X7

31

0

X3

01

1

X7

33

4

X2

62

3

X2

61

4

X2

61

5

X2

45

0

X9

09

9

X2

82

5

X4

23

0X

34

51

X2

83

1

X4

2X

9

X2

47

1

X2

61

6

X3

45

3

X2

43

2

X2

62

8

X7

93

2

X2

42

1

X3

35

1

X7

72

0

X7

93

5

X4

62

0X

21

51

X2

43

0

X2

12

8

X2

84

0

X2

52

6

X4

51

0

X2

79

4

X2

15

5

X2

28

1

X7

70

0

X3

24

7

X2

76

0

X2

61

3X

52

20

X7

40

0

X5

23

0

X2

62

1

X2

62

0

X2

62

2

X2

16

2

X3

02

1

X4

99

1

X2

23

0

X5

24

0

X3

24

9

X5

21

0

X3

52

3X

45

33

X5

02

3

X2

92

0

X2

43

8

X2

71

0

X3

25

1

X2

61

8

X2

44

0

X3

24

3

X2

82

7

X7

10

0

X2

73

0

X2

79

3X

36

21

X2

72

0

X3

29

1

X3

16

1

X3

44

2

X3

41

0

X4

96

2

X2

13

1

X3

25

4

X9

00

0

X2

21

3

X3

03

1

X3

18

1

X3

43

8X

26

17

X2

75

0

X2

42

3

X5

25

1

X2

53

8

X4

23

1

X3

13

3

X3

29

0

X3

24

2

X3

47

1

X4

21

1

X2

31

1

X2

32

1X

27

90

X2

35

1

X3

45

5

X2

31

2

X2

27

0

X3

43

6

X2

42

2

X3

25

0

X4

21

2

X4

62

1

X3

23

1

X3

41

3

X3

41

4

X7

83

0X

22

10

X2

82

1

X2

12

5

X3

18

2

X3

35

0

X3

32

1

X2

37

1

X2

84

2

X3

04

2

X3

61

1

X2

12

6

X2

74

0

X4

45

2X

28

26

X3

42

2

X2

40

0

X2

61

2

X7

32

5

X2

47

3

X2

78

0

X3

61

2

H14

G02

G01

G03

D08

D13

D01

D17

D06

D11

D03

D09

D15

D05

D02

D14

J 02

D22

D34

J 04

D26

J 03

D35

D32

D33

D37

D38

F05

J 05

F03

F02

F06

D20

D21

D28

D30

D24

D27

D12

F01

D25

D31

A02

D19

D29

G08

G07

G09

G05

G04

G06

E01

E06

G12

G10

G11

H09

H05

H17

H06

H07

D04

H03

H13

H02

H10

H04

H11

H01

H08

A04

E05

H12

H18

E04

H15

D40

E03

H16

H19

E02

J 01

A01

D10

D18

D07

D23

A03

D16

F07

F08

B04

A05

B02

D36

F04

B05

B08

B09

B01

B07

B03

B06

0

0.2

0.4

0.6

0.8

1

MégadonnéesMessages d’incidents

MégadonnéesGéolocalisation et Trajectoires

MégadonnéesGraphes d’interactions

MégadonnéesContrôle des Procédés, détection

défaillances

• Satellitescourbes et défaillances

• Collectivités localesmodélisation, atypiques multidim.

• Calculateurs embarquésruptures, dérives, flux tendu

• Essais en volcompression, dérive, outliers, méta modèle

•Normalisation•Visualisation •Echantillonnage•Spline, Fourier,

ondelettes…• Rupture, dérive, SPC

•Réduction de dimension •SVD•NMF

•Clustering•K-means•CAH•SOM

•Règles d’association•Classifieur bayésien naïf•Système de recommandation•Ranking

•Régression •Linéaire•Logistique•PLS

•Analyse discriminante•K-nn•Arbres de décision

•Réseaux neurones•SVM•Boosting•Random Forest

.fr

MéthodesFouille de Mini Données

Technologies

Maths-Stat &

Technologies

• Réduction de dimension • SVD (Halko et al. 2011)

• NMF (Liao et al. 2014)

• Clustering• K-means

MéthodesScalable ou MapReduce

compatibles

Erreur = Approximation + Estimation + OptimisationBach F. (2014) Journal of Machine Learning Research, 15, 595-627.Halko N., Martinsson P., Tropp, J. (2011). SIAM Review, 53 :2, 217-288.Liao R., Zhang Y., Guan J., Zhou, S. (2014). Genomics, Proteomics & Bioinformatics, 12 :1, 48-51.Meng X. (2013). Proc. of the 30th International Conference on Machine Learning

•Normalisation•Visualisation •Echantillonnage

(Meng, 2013)

•Spline, Fourier,ondelettes…

• Rupture, dérive, SPC

• Régression • Linéaire• Logistique(Bach, 2014)• Random Forest

•Règles d’association•Classifieur bayésien naïf•Système de recommandation

Quels besoins en Sciences des données ?• Stockage sécurisé de Mégadonnées• Données spécifiques : signaux, images, graphes…• Cluster de calcul• Méthodes compatibles avec l’architecture• Technologies : R, R like (Mahout, Spark, Scala), Clojure…• DataMiP : « OVH » pour la recherche ?• Allistene et les grands équipements

Maths-Stat &

Mégadonnéesen Midi-Pyrénées