Upload
trananh
View
213
Download
0
Embed Size (px)
Citation preview
Maths-Stat &
Mégadonnéesen Midi-Pyrénées
• Expérience locale de l’IMT / UPS / INSA• Équipe Stat et Probas (contrats, thèses)• UPS CMI SID, • INSA GMM MMS (stages, projets)
• Focus sur valorisation / analyse des Mégadonnées(big data analytics)
• Focus sur les Projets industriels• Données – Méthodes – Technologies • Question : Quels besoins locaux ?
• Capteurs des A380 en exploitation• 6 mois : 700 000 messages• Avion, compagnie, année, système• Projet étudiants INSA 4GMM
•Travail préliminaire•Grande matrice creuse•Factorisation non négative (NMF)•Double clustering (heatmap)
MégadonnéesMessages d’incidents
X7
32
1
X2
12
1
X2
15
9
X2
16
1
X2
61
0
X2
47
4
X3
15
0
X2
17
2
X2
47
2
X3
62
2
X2
37
5X
31
60
X4
61
3
X2
15
3
X2
79
6
X4
61
1
X4
96
1
X2
85
1
X3
81
0
X4
41
1
X5
27
1
X2
42
0
X2
91
0
X3
07
0
X2
32
8X
38
30
X3
24
5
X3
51
3
X2
12
7
X2
82
4
X2
84
6
X2
42
9
X2
45
4
X8
00
0
X9
09
0
X2
12
9
X4
21
0
X7
73
0X
24
60
X2
28
2
X2
82
2
X4
2X
B
X7
31
0
X3
01
1
X7
33
4
X2
62
3
X2
61
4
X2
61
5
X2
45
0
X9
09
9
X2
82
5
X4
23
0X
34
51
X2
83
1
X4
2X
9
X2
47
1
X2
61
6
X3
45
3
X2
43
2
X2
62
8
X7
93
2
X2
42
1
X3
35
1
X7
72
0
X7
93
5
X4
62
0X
21
51
X2
43
0
X2
12
8
X2
84
0
X2
52
6
X4
51
0
X2
79
4
X2
15
5
X2
28
1
X7
70
0
X3
24
7
X2
76
0
X2
61
3X
52
20
X7
40
0
X5
23
0
X2
62
1
X2
62
0
X2
62
2
X2
16
2
X3
02
1
X4
99
1
X2
23
0
X5
24
0
X3
24
9
X5
21
0
X3
52
3X
45
33
X5
02
3
X2
92
0
X2
43
8
X2
71
0
X3
25
1
X2
61
8
X2
44
0
X3
24
3
X2
82
7
X7
10
0
X2
73
0
X2
79
3X
36
21
X2
72
0
X3
29
1
X3
16
1
X3
44
2
X3
41
0
X4
96
2
X2
13
1
X3
25
4
X9
00
0
X2
21
3
X3
03
1
X3
18
1
X3
43
8X
26
17
X2
75
0
X2
42
3
X5
25
1
X2
53
8
X4
23
1
X3
13
3
X3
29
0
X3
24
2
X3
47
1
X4
21
1
X2
31
1
X2
32
1X
27
90
X2
35
1
X3
45
5
X2
31
2
X2
27
0
X3
43
6
X2
42
2
X3
25
0
X4
21
2
X4
62
1
X3
23
1
X3
41
3
X3
41
4
X7
83
0X
22
10
X2
82
1
X2
12
5
X3
18
2
X3
35
0
X3
32
1
X2
37
1
X2
84
2
X3
04
2
X3
61
1
X2
12
6
X2
74
0
X4
45
2X
28
26
X3
42
2
X2
40
0
X2
61
2
X7
32
5
X2
47
3
X2
78
0
X3
61
2
H14
G02
G01
G03
D08
D13
D01
D17
D06
D11
D03
D09
D15
D05
D02
D14
J 02
D22
D34
J 04
D26
J 03
D35
D32
D33
D37
D38
F05
J 05
F03
F02
F06
D20
D21
D28
D30
D24
D27
D12
F01
D25
D31
A02
D19
D29
G08
G07
G09
G05
G04
G06
E01
E06
G12
G10
G11
H09
H05
H17
H06
H07
D04
H03
H13
H02
H10
H04
H11
H01
H08
A04
E05
H12
H18
E04
H15
D40
E03
H16
H19
E02
J 01
A01
D10
D18
D07
D23
A03
D16
F07
F08
B04
A05
B02
D36
F04
B05
B08
B09
B01
B07
B03
B06
0
0.2
0.4
0.6
0.8
1
MégadonnéesMessages d’incidents
MégadonnéesContrôle des Procédés, détection
défaillances
• Satellitescourbes et défaillances
• Collectivités localesmodélisation, atypiques multidim.
• Calculateurs embarquésruptures, dérives, flux tendu
• Essais en volcompression, dérive, outliers, méta modèle
•Normalisation•Visualisation •Echantillonnage•Spline, Fourier,
ondelettes…• Rupture, dérive, SPC
•Réduction de dimension •SVD•NMF
•Clustering•K-means•CAH•SOM
•Règles d’association•Classifieur bayésien naïf•Système de recommandation•Ranking
•Régression •Linéaire•Logistique•PLS
•Analyse discriminante•K-nn•Arbres de décision
•Réseaux neurones•SVM•Boosting•Random Forest
.fr
MéthodesFouille de Mini Données
• Réduction de dimension • SVD (Halko et al. 2011)
• NMF (Liao et al. 2014)
• Clustering• K-means
MéthodesScalable ou MapReduce
compatibles
Erreur = Approximation + Estimation + OptimisationBach F. (2014) Journal of Machine Learning Research, 15, 595-627.Halko N., Martinsson P., Tropp, J. (2011). SIAM Review, 53 :2, 217-288.Liao R., Zhang Y., Guan J., Zhou, S. (2014). Genomics, Proteomics & Bioinformatics, 12 :1, 48-51.Meng X. (2013). Proc. of the 30th International Conference on Machine Learning
•Normalisation•Visualisation •Echantillonnage
(Meng, 2013)
•Spline, Fourier,ondelettes…
• Rupture, dérive, SPC
• Régression • Linéaire• Logistique(Bach, 2014)• Random Forest
•Règles d’association•Classifieur bayésien naïf•Système de recommandation
Quels besoins en Sciences des données ?• Stockage sécurisé de Mégadonnées• Données spécifiques : signaux, images, graphes…• Cluster de calcul• Méthodes compatibles avec l’architecture• Technologies : R, R like (Mahout, Spark, Scala), Clojure…• DataMiP : « OVH » pour la recherche ?• Allistene et les grands équipements
Maths-Stat &
Mégadonnéesen Midi-Pyrénées