Réseaux de neurones, exploration aléatoire Comment les

Table des matièresIntelligence arti�cielle

Le dé� des jeux classiquesExploration d'arbres de coups

Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après

Réseaux de neurones, exploration aléatoire...Comment les machines ont appris à

nous battre ?

J. Rocher

J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?








Intelligence arti�cielleDe quoi parle-t-on ?L'IA et les jeux de ré�exion

Le dé� des jeux classiques

Exploration d'arbres de coupsTechniques classiques pour les échecsLa recherche �Monte-Carlo�

Réseaux de neurones et Deep learningRéseaux de neuronesApprentissage profond

AlphaGo, AlphaZero, et aprèsAlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero





De quoi parle-t-on ?L'IA et les jeux de ré�exion

�Intelligence arti�cielle� : de quoi parle-t-on ?

�Machine capable d'un comportement intelligent�

IA

générale :traite touttype deproblèmes

IA

spéci�que :un seul typede problème








IA


IA









IA


IA







Une autre distinction

IA forte :conscience

sensibilité,esprit

IA faible :simule uncomporte-mentintelligent

En pratique : des IA faibles et spéci�ques








sensibilité,esprit










sensibilité,esprit








Une machine qui penserait �comme un humain�

Alan Turing,1950 :�une machinepeut-elle penser ?�

Réponse pratique :�jeu del'imitation�






Une machine qui penserait �comme un humain�

Alan Turing,1950 :�une machinepeut-elle penser ?�

Réponse pratique :�jeu del'imitation�






Des modèles du raisonnement humain ?

Jeu humain : logique, calcul

mais aussi intuition, expérimentation,créativité...

Jeu théorique :

peut être résolu par exploration exhaustive

Jeux hors d'atteinte de toute résolution :

échecs, shogi, go...









Jeu théorique :












Jeu théorique :












Jeu théorique :












Jeu théorique :












Jeu théorique :








Échecs : le roi des jeux ?

Jeu ancré dans laculture occidentale

Dé� depuis lesdébuts del'informatique

Niveau humaindépassé en 1997(DeepBlue vsKasparov)





















Shogi : un cousin plus subtil

Plus grand, plusde pièces

Parachutage ⇒plus de coups

Moins de nulles,un meilleuréquilibre





















Le go : un autre monde

Jeu d'occupationde territoire

Complexitégigantesque,incomparable auxéchecs

Longtempsconsidéréinabordable parl'IA.

Succès récents(depuis 10 ans) :révolution de l'IA.
































Complexité des jeux

Estimation du nombre de parties aux échecs(Shannon, 1950) :

30× 30× 30... (80 fois environ) : environ 10120

parties !

Nombre d'atomes dans l'univers : 1080 environ

Au jeu de go : peut-être 10400 parties ?

...⇒ exploration complète impossible.








parties !











parties !











parties !











parties !








Techniques classiques pour les échecsLa recherche �Monte-Carlo�

L'algorithme Min-Max

Depuis une position donnée, arbre de coups possibles

fonction d'évaluation d'une position :

Un joueur cherche à la maximiser l'autre à laminimiser

Hypothèse du jeu idéal : on remonte les valeurs descoups optimaux.


























Exemple et élagage α− β






... Dans les programmes d'échecs

Catalogues d'ouvertures et de �nales

Excellente fonction d'évaluation dans les situations�calmes� de milieu de partie

Di�érentes adaptations du Min-Max pour n'utiliserque ces évaluations.
























Limites de ces méthodes

Con�ance absolue dans la fonction d'évaluation :impossible

Hypothèse du jeu idéal : déraisonnable

S'il y a trop de coups possibles (go), commentdécider lesquels explorer le plus ?
























Les algorithmes MCTS

Idée : on améliore l'évaluation de chaque position àchaque visite

On choisit au hasard pondéré l'action à e�ectuer, enprivilégiant les coups prometteurs ou peu explorés.

Si on arrive sur une position non-explorée, on l'évalueen terminant la partie au hasard

On corrige alors les évaluations le long du chemin suivi




































Une méthode e�cace au go

Ne nécessite pas beaucoup de connaissances etpresque pas de données

Trouve des coups originaux et inattendus






Une méthode e�cace au go

Ne nécessite pas beaucoup de connaissances etpresque pas de données

Trouve des coups originaux et inattendus





Réseaux de neuronesApprentissage profond

Du neurone réel au neurone formel

Idée des débuts de l'IA : simuler le cerveau humain

Fonctionnement schématique d'un neurone :

I Plusieurs entrées, de poids di�érents (selon lessynapses)

I Si un seuil est dépassé, signal 1 en sortie, sinon 0








Fonctionnement schématique d'un neurone :

I Plusieurs entrées, de poids di�érents (selon lessynapses)









Fonctionnement schématique d'un neurone :I Plusieurs entrées, de poids di�érents (selon les

synapses)









Fonctionnement schématique d'un neurone :I Plusieurs entrées, de poids di�érents (selon les

synapses)I Si un seuil est dépassé, signal 1 en sortie, sinon 0






Modélisation

Paramètres modi�ables du neurone : poidssynaptiques (p1, p2, ...pn), biais b

Entrée (x1, x2, ...xn)

Calcul a�ne : s = p1x1 + p2x2 + ...+ pnxn + b

Application d'une �fonction seuil� (�ltrenon-linéaire) : y = φ(s)






Modélisation










Modélisation










Modélisation










Apprentissage

On veut que le neurone donne une sortie attendue y∗

pour une entrée donnée

On adapte les poids (et le biais) a�n de rapprocher yde y∗ : méthode de descente de gradient

Plusieurs sorties nécessitent plusieurs neurones ; dansce cas �ltre global.

Une seule couche de neurones : ne peut pasapprendre des sorties complexes.






Apprentissage











Apprentissage











Apprentissage











Perceptron multicouche






Quelques limites du perceptron

Pour être précis, nécessite beaucoup de donnéesd'apprentissage

Pour ne pas �surapprendre�, nécessite beaucoup deneurones

Il vaut mieux beaucoup de couches qu'une grossecouche cachée

Aspect �boite noire� des couches intermédiaires

Améliorations : réseaux convolutifs, architecturerésiduelle...


















































Succès historiques du �Deep learning�

dès 1986 (Y. LeCun) : système de lecture de chi�resmanuscrits (chèques)

puis un long hiver...

années 2010 : augmentation des donnéesd'apprentissage, accélération matérielle (GPU)

Application spectaculaire à la reconnaissance d'images



































AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero

Imiter le jeu des joueurs forts

2 réseaux entraînés sur une base de parties KGS :

I ... à prévoir la probabilité de chaque coupI ... à prévoir le vainqueur de la partie

... résultats prédictifs appliqués à d'autres parties !







2 réseaux entraînés sur une base de parties KGS :I ... à prévoir la probabilité de chaque coup

I ... à prévoir le vainqueur de la partie








2 réseaux entraînés sur une base de parties KGS :I ... à prévoir la probabilité de chaque coupI ... à prévoir le vainqueur de la partie








2 réseaux entraînés sur une base de parties KGS :I ... à prévoir la probabilité de chaque coupI ... à prévoir le vainqueur de la partie







Apprentissage par renforcement

Jouer le coup jugé le plus probable donne unprogramme de niveau correct

Permet de générer un grand nombre de parties : jeucontre lui-même.

On réutilise ces parties pour entraîner de nouveau lesréseaux.
























Amélioration en cours de jeu : réseaux + MCTS

Algorithme MCTS guidé par les probabilités fourniespar le réseau de neurones

Évaluations combinant le réseau de valeurs et laméthode Monte-Carlo

Algorithme complexe avec de nombreux paramètresréglables

Dépasse largement tous les programmes existants




































Première victoire contre un pro

Fan Hui(championd'Europe) battu5− 0 en octobre2015






Première victoire contre un pro

Fan Hui(championd'Europe) battu5− 0 en octobre2015






Lee Sedol






Match contre Lee Sedol

Réseaux plus épais et entraînés sur des parties duprogramme complet

Lee Sedol, contre toute attente (des pros) perd lestrois premières

Victoire de Lee Sedol à la quatrième partie !

Et défaite à la dernière. L'humain est dépassé.




































Dernière victoire d'un humain contre la machine ?






Dernière victoire d'un humain contre la machine ?






Tabula rasa

Janvier 2017 : �AlphaGo Master� gagne toutes separties (60) contre des top pros puis Ke Jie 3− 0

Programme plus simple qu'AlphaGo Fan et AlphaGoLee : un seul réseau, architecture résiduelle.

AlphaGo Zero : La même architecture de réseau estréinitialisée avec des poids aléatoires, et n'apprendplus que par renforcement

Données humaines limitées au strict minimum (règles)






Tabula rasa










Tabula rasa










Tabula rasa










Performances d'AlphaGo Zero






Vers un algorithme général d'apprentissage ?

AlphaZero : algorithme d'apprentissage adaptable àplusieurs jeux

Essentiellement les mêmes idées qu'AlphaGo Zero :pas de données humaines hors des règles des jeux

Programme moins gourmand en ressources que lesprécédents, et apprentissage plus rapide !

Dépasse les meilleurs programmes existants auxéchecs, au shogi et au go en moins de 8 heuresd'apprentissage.
































Documents

Réseaux de neurones, exploration aléatoire Comment les