Organisation de l’UE Donnees Massives M2 MAS - MSS & CMI ISI
Organisation UE Donnees Massives
Jeremie Bigot & Adrien Richou
UFMI, Institut de Mathematiques de Bordeaux - Universite de Bordeaux
Master MAS-MSS & CMI ISIUniversite de Bordeaux
Organisation de l’UE Donnees Massives M2 MAS - MSS & CMI ISI
Deroulement de l’UE
UE qui compte pour le 2eme semestre du M2, mais qui se derouled’octobre a fevrier - Principales etapes (rouge = notees) :
1 Octobre-Novembre : introduction aux algorithmes stochastiquespour l’apprentissage statistique en grande dimension
modele lineaire, regression logistique, reseaux de neuronesprofonds (deep learning)
2 Octobre - Debut Janvier : Defi IA 2022 - Competition etudianteen science des donnees - applications du “machine learning”
3 De mi-Janvier a fin-Janvier :Big Data, Hadoop et Mapreduce - La statistique a l’ere du stockagedistribue de donnees et notions indispensables au Data ScientistProjet algorithmes stochastiques pour donnees massives
4 Fevrier : projet Open Data (donnees ouvertes)
Organisation de l’UE Donnees Massives M2 MAS - MSS & CMI ISI
Deroulement de l’UE
Langage de programmation impose : Python (utilisation pour lascience des donnees)
Utilisation de Notebook Jupyter - Distribution Anaconda ou viaGoogle Collaboratory (outil permettant leur execution sur desserveurs Google equipes de GPU)
Seances en salle machine au CREMI - possibilite d’utiliser sonordinateur personnel
Octobre-Decembre : seances de cours et suivi du Defi IA 2022de 9h30 a 12h20 le vendredi matin
Janvier - Fevrier : plusieurs seances par semaine et travailpersonnel a temps plein sur l’UE (projets algorithmesstochastiques et Open Data)
Organisation de l’UE Donnees Massives M2 MAS - MSS & CMI ISI
Defi IA 2020-2021
https://www.kaggle.com/c/defi-ia-insa-toulouse/
L’edition 2020-2021 du Defi IA portait sur le NLP (Natural LanguageProcessing) dont l’objectif etait d’attribuer automatiquement la bonnecategorie d’emploi a une description de poste (probleme declassification a 28 classes).
Organisation de l’UE Donnees Massives M2 MAS - MSS & CMI ISI
Defi IA 2021-2022
Competition etudiante (Universites et ecoles d’ingenieur enFrance et en Afrique) en science des donnees organisee parl”Enseeiht (Toulouse) et Meteo France
Theme en 2022 : prediction du cumul de pluies sur des stationsd’observations
Quelques dates :
date de demarrage du concours le 7 octobre 2021date de cloture du concours le 20 janvier 2021date butoir pour les soumissions des predictions des participants le9 janvier 2022
Organisation de l’UE Donnees Massives M2 MAS - MSS & CMI ISI
Defi IA 2021-2022
Journee de lancement (presentiel a Toulouse + en ligne et enregistre)le jeudi 7 octobre
14h Accueil, Sixin Zhang
14h10 : Gwennaelle LARVOR
Presentation du sujet du challenge : predire le cumul de pluies surdes stations d’observations
Presentation des activites du Laboratoire d’Intelligence Artificielle(Lab IA) de Meteo-France
15h-15h20 : Max Halford : Manipuler des donnees ephemeresavec git
15h20-15h30 : Questions et resume
Organisation de l’UE Donnees Massives M2 MAS - MSS & CMI ISI
Donnees massives?
Une definition imprecise... mais que l’on peut tenter de discuter !
Organisation de l’UE Donnees Massives M2 MAS - MSS & CMI ISI
Exemple de donnees de taille modeste
Jeu de donnees dit de “prostate” 1
Donnees issues d’une etude qui analyse la correlation entre le niveaud’un antigene specifique a la prostate (proteine fabriquee par laprostate) et un nombre p = 8 de mesures cliniques chez n = 97hommes qui sont sur le point de subir une operation de la prostate.
Problematique : determiner les relations qui existent (ou pas) entrele niveau de l’antigene et les differentes mesures cliniques
1. Source : R package ElemStatLearn - Donnees issues de l’article :
Stamey, T.A., Kabalin, J.N., McNeal, J.E., Johnstone, I.M., Freiha, F., Redwine, E.A.and Yang, N. (1989). Prostate specific antigen in the diagnosis and treatment ofadenocarcinoma of the prostate : II. radical prostatectomy treated patients, Journal ofUrology 141(5), 1076-1083.
Organisation de l’UE Donnees Massives M2 MAS - MSS & CMI ISI
Exemple de donnees de taille modeste
Donnees de “prostate” : tableau avec 97 lignes et 9 colonnes dont lessignifications (en Anglais) sont les suivantes :
lcavol log(cancer volume)lweight log(prostate weight)age agelbph log(benign prostatic hyperplasia amount)svi seminal vesicle invasionlcp log(capsular penetration)gleason Gleason scorepgg45 percentage Gleason scores 4 or 5lpsa log(prostate specific antigen) - Variable a expliquer
Remarque importante : tableau qui peut facilement se stocker enmemoire dans R ou Python !
Organisation de l’UE Donnees Massives M2 MAS - MSS & CMI ISI
Modelisation statistique
Observations : (Y1,X1), . . . , (Yn,Xn) avec
Yi ∈ R (variable reponse) et Xi ∈ Rp (variables explicatives),
pour tout 1 ≤ i ≤ n
Pour tout 1 ≤ i ≤ n, les composantes du vecteurXi = (X(1)
i , . . . ,X(p)i ) sont les mesures observees des p variables
pour le i-eme individu
Quelle relation estimer entre Yi et les p variables X(1)i , . . . ,X(p)
i ?
Organisation de l’UE Donnees Massives M2 MAS - MSS & CMI ISI
Le modele lineaire en statistique
Modelisation lineaire : il est suppose que
Yi =
p∑j=1
θjX(j)i + εi, pour tout 1 ≤ i ≤ n,
ou θ1, . . . , θp sont des parametres inconnus a estimer, etε1, . . . , εn sont des variables aleatoires (typiquement iid etcentrees) qui representent un bruit additif
Modele lineaire sous forme vectorielle/matricielle :
Y = Xθ + ε
avec Y ∈ Rn, X ∈ Rn×p et ε ∈ Rn
Organisation de l’UE Donnees Massives M2 MAS - MSS & CMI ISI
Le modele lineaire en statistique
Principe de minimisation des des moindres carres qui conduit aprendre
θ = (XtX)−1XtY,
comme estimateur du vecteur de parametres θ, sous l’hypothese que
la matrice XtX de taille p× p soit inversible
mais egalement (et l’on en parle peu...)
que le calcul numerique de θ soit faisable sur votre ordinateur !
Donnees de “protaste” : n = 97 et p = 8 - Cadre de la statistique du20eme siecle...
Organisation de l’UE Donnees Massives M2 MAS - MSS & CMI ISI
ILSVRC Challenge (2010) 2
Probleme de classification d’images - Apprentissage : n > 106
images de taille p ≈ 400× 400 > 105 pixels (variables explicatives)labellisees - 1000 classes (variable reponse) et test sur 150 000images
2. Krizhevsky, A., Sutskever, I., and Hinton, G. E. (2012)
Organisation de l’UE Donnees Massives M2 MAS - MSS & CMI ISI
Alors les donnees massives?
Constat : explosion du stockage des donnees depuis une dizained’annees, et niveau croissant ( ?) de difficulte d’analyse statistique.
Dans le cadre n individus et p variables :1 tableau de donnees que l’on peut stocker en memoire et calcul
matriciel usuel sur l’ensemble des donnees possible en tempsraisonnable via R ou Python (par exemple)
2 donnees que l’on ne peut pas stocker en memoire et/ou calculmatriciel usuel impossible en temps raisonnable surl’ensemble des donnees - Solution = algorithmes stochastiques
3 donnees impossibles a stocker sur un seul ordinateur - versle stockage distribue des donnees et calcul distribue - Solution =Hadoop et Mapreduce !
4 donnees massives, non-structurees et en flux - Bien au dela del’ambition de cette UE !