Upload
others
View
5
Download
0
Embed Size (px)
Citation preview
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Réseaux de neurones, exploration aléatoire...Comment les machines ont appris à
nous battre ?
J. Rocher
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Intelligence arti�cielleDe quoi parle-t-on ?L'IA et les jeux de ré�exion
Le dé� des jeux classiques
Exploration d'arbres de coupsTechniques classiques pour les échecsLa recherche �Monte-Carlo�
Réseaux de neurones et Deep learningRéseaux de neuronesApprentissage profond
AlphaGo, AlphaZero, et aprèsAlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
De quoi parle-t-on ?L'IA et les jeux de ré�exion
�Intelligence arti�cielle� : de quoi parle-t-on ?
�Machine capable d'un comportement intelligent�
IA
générale :traite touttype deproblèmes
IA
spéci�que :un seul typede problème
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
De quoi parle-t-on ?L'IA et les jeux de ré�exion
�Intelligence arti�cielle� : de quoi parle-t-on ?
�Machine capable d'un comportement intelligent�
IA
générale :traite touttype deproblèmes
IA
spéci�que :un seul typede problème
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
De quoi parle-t-on ?L'IA et les jeux de ré�exion
�Intelligence arti�cielle� : de quoi parle-t-on ?
�Machine capable d'un comportement intelligent�
IA
générale :traite touttype deproblèmes
IA
spéci�que :un seul typede problème
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
De quoi parle-t-on ?L'IA et les jeux de ré�exion
Une autre distinction
IA forte :conscience
sensibilité,esprit
IA faible :simule uncomporte-mentintelligent
En pratique : des IA faibles et spéci�ques
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
De quoi parle-t-on ?L'IA et les jeux de ré�exion
Une autre distinction
IA forte :conscience
sensibilité,esprit
IA faible :simule uncomporte-mentintelligent
En pratique : des IA faibles et spéci�ques
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
De quoi parle-t-on ?L'IA et les jeux de ré�exion
Une autre distinction
IA forte :conscience
sensibilité,esprit
IA faible :simule uncomporte-mentintelligent
En pratique : des IA faibles et spéci�ques
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
De quoi parle-t-on ?L'IA et les jeux de ré�exion
Une machine qui penserait �comme un humain�
Alan Turing,1950 :�une machinepeut-elle penser ?�
Réponse pratique :�jeu del'imitation�
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
De quoi parle-t-on ?L'IA et les jeux de ré�exion
Une machine qui penserait �comme un humain�
Alan Turing,1950 :�une machinepeut-elle penser ?�
Réponse pratique :�jeu del'imitation�
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
De quoi parle-t-on ?L'IA et les jeux de ré�exion
Des modèles du raisonnement humain ?
Jeu humain : logique, calcul
mais aussi intuition, expérimentation,créativité...
Jeu théorique :
peut être résolu par exploration exhaustive
Jeux hors d'atteinte de toute résolution :
échecs, shogi, go...
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
De quoi parle-t-on ?L'IA et les jeux de ré�exion
Des modèles du raisonnement humain ?
Jeu humain : logique, calcul
mais aussi intuition, expérimentation,créativité...
Jeu théorique :
peut être résolu par exploration exhaustive
Jeux hors d'atteinte de toute résolution :
échecs, shogi, go...
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
De quoi parle-t-on ?L'IA et les jeux de ré�exion
Des modèles du raisonnement humain ?
Jeu humain : logique, calcul
mais aussi intuition, expérimentation,créativité...
Jeu théorique :
peut être résolu par exploration exhaustive
Jeux hors d'atteinte de toute résolution :
échecs, shogi, go...
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
De quoi parle-t-on ?L'IA et les jeux de ré�exion
Des modèles du raisonnement humain ?
Jeu humain : logique, calcul
mais aussi intuition, expérimentation,créativité...
Jeu théorique :
peut être résolu par exploration exhaustive
Jeux hors d'atteinte de toute résolution :
échecs, shogi, go...
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
De quoi parle-t-on ?L'IA et les jeux de ré�exion
Des modèles du raisonnement humain ?
Jeu humain : logique, calcul
mais aussi intuition, expérimentation,créativité...
Jeu théorique :
peut être résolu par exploration exhaustive
Jeux hors d'atteinte de toute résolution :
échecs, shogi, go...
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
De quoi parle-t-on ?L'IA et les jeux de ré�exion
Des modèles du raisonnement humain ?
Jeu humain : logique, calcul
mais aussi intuition, expérimentation,créativité...
Jeu théorique :
peut être résolu par exploration exhaustive
Jeux hors d'atteinte de toute résolution :
échecs, shogi, go...
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Échecs : le roi des jeux ?
Jeu ancré dans laculture occidentale
Dé� depuis lesdébuts del'informatique
Niveau humaindépassé en 1997(DeepBlue vsKasparov)
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Échecs : le roi des jeux ?
Jeu ancré dans laculture occidentale
Dé� depuis lesdébuts del'informatique
Niveau humaindépassé en 1997(DeepBlue vsKasparov)
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Échecs : le roi des jeux ?
Jeu ancré dans laculture occidentale
Dé� depuis lesdébuts del'informatique
Niveau humaindépassé en 1997(DeepBlue vsKasparov)
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Shogi : un cousin plus subtil
Plus grand, plusde pièces
Parachutage ⇒plus de coups
Moins de nulles,un meilleuréquilibre
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Shogi : un cousin plus subtil
Plus grand, plusde pièces
Parachutage ⇒plus de coups
Moins de nulles,un meilleuréquilibre
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Shogi : un cousin plus subtil
Plus grand, plusde pièces
Parachutage ⇒plus de coups
Moins de nulles,un meilleuréquilibre
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Le go : un autre monde
Jeu d'occupationde territoire
Complexitégigantesque,incomparable auxéchecs
Longtempsconsidéréinabordable parl'IA.
Succès récents(depuis 10 ans) :révolution de l'IA.
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Le go : un autre monde
Jeu d'occupationde territoire
Complexitégigantesque,incomparable auxéchecs
Longtempsconsidéréinabordable parl'IA.
Succès récents(depuis 10 ans) :révolution de l'IA.
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Le go : un autre monde
Jeu d'occupationde territoire
Complexitégigantesque,incomparable auxéchecs
Longtempsconsidéréinabordable parl'IA.
Succès récents(depuis 10 ans) :révolution de l'IA.
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Le go : un autre monde
Jeu d'occupationde territoire
Complexitégigantesque,incomparable auxéchecs
Longtempsconsidéréinabordable parl'IA.
Succès récents(depuis 10 ans) :révolution de l'IA.
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Complexité des jeux
Estimation du nombre de parties aux échecs(Shannon, 1950) :
30× 30× 30... (80 fois environ) : environ 10120
parties !
Nombre d'atomes dans l'univers : 1080 environ
Au jeu de go : peut-être 10400 parties ?
...⇒ exploration complète impossible.
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Complexité des jeux
Estimation du nombre de parties aux échecs(Shannon, 1950) :
30× 30× 30... (80 fois environ) : environ 10120
parties !
Nombre d'atomes dans l'univers : 1080 environ
Au jeu de go : peut-être 10400 parties ?
...⇒ exploration complète impossible.
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Complexité des jeux
Estimation du nombre de parties aux échecs(Shannon, 1950) :
30× 30× 30... (80 fois environ) : environ 10120
parties !
Nombre d'atomes dans l'univers : 1080 environ
Au jeu de go : peut-être 10400 parties ?
...⇒ exploration complète impossible.
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Complexité des jeux
Estimation du nombre de parties aux échecs(Shannon, 1950) :
30× 30× 30... (80 fois environ) : environ 10120
parties !
Nombre d'atomes dans l'univers : 1080 environ
Au jeu de go : peut-être 10400 parties ?
...⇒ exploration complète impossible.
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Complexité des jeux
Estimation du nombre de parties aux échecs(Shannon, 1950) :
30× 30× 30... (80 fois environ) : environ 10120
parties !
Nombre d'atomes dans l'univers : 1080 environ
Au jeu de go : peut-être 10400 parties ?
...⇒ exploration complète impossible.
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Techniques classiques pour les échecsLa recherche �Monte-Carlo�
L'algorithme Min-Max
Depuis une position donnée, arbre de coups possibles
fonction d'évaluation d'une position :
Un joueur cherche à la maximiser l'autre à laminimiser
Hypothèse du jeu idéal : on remonte les valeurs descoups optimaux.
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Techniques classiques pour les échecsLa recherche �Monte-Carlo�
L'algorithme Min-Max
Depuis une position donnée, arbre de coups possibles
fonction d'évaluation d'une position :
Un joueur cherche à la maximiser l'autre à laminimiser
Hypothèse du jeu idéal : on remonte les valeurs descoups optimaux.
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Techniques classiques pour les échecsLa recherche �Monte-Carlo�
L'algorithme Min-Max
Depuis une position donnée, arbre de coups possibles
fonction d'évaluation d'une position :
Un joueur cherche à la maximiser l'autre à laminimiser
Hypothèse du jeu idéal : on remonte les valeurs descoups optimaux.
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Techniques classiques pour les échecsLa recherche �Monte-Carlo�
Exemple et élagage α− β
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Techniques classiques pour les échecsLa recherche �Monte-Carlo�
... Dans les programmes d'échecs
Catalogues d'ouvertures et de �nales
Excellente fonction d'évaluation dans les situations�calmes� de milieu de partie
Di�érentes adaptations du Min-Max pour n'utiliserque ces évaluations.
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Techniques classiques pour les échecsLa recherche �Monte-Carlo�
... Dans les programmes d'échecs
Catalogues d'ouvertures et de �nales
Excellente fonction d'évaluation dans les situations�calmes� de milieu de partie
Di�érentes adaptations du Min-Max pour n'utiliserque ces évaluations.
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Techniques classiques pour les échecsLa recherche �Monte-Carlo�
... Dans les programmes d'échecs
Catalogues d'ouvertures et de �nales
Excellente fonction d'évaluation dans les situations�calmes� de milieu de partie
Di�érentes adaptations du Min-Max pour n'utiliserque ces évaluations.
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Techniques classiques pour les échecsLa recherche �Monte-Carlo�
Limites de ces méthodes
Con�ance absolue dans la fonction d'évaluation :impossible
Hypothèse du jeu idéal : déraisonnable
S'il y a trop de coups possibles (go), commentdécider lesquels explorer le plus ?
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Techniques classiques pour les échecsLa recherche �Monte-Carlo�
Limites de ces méthodes
Con�ance absolue dans la fonction d'évaluation :impossible
Hypothèse du jeu idéal : déraisonnable
S'il y a trop de coups possibles (go), commentdécider lesquels explorer le plus ?
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Techniques classiques pour les échecsLa recherche �Monte-Carlo�
Limites de ces méthodes
Con�ance absolue dans la fonction d'évaluation :impossible
Hypothèse du jeu idéal : déraisonnable
S'il y a trop de coups possibles (go), commentdécider lesquels explorer le plus ?
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Techniques classiques pour les échecsLa recherche �Monte-Carlo�
Les algorithmes MCTS
Idée : on améliore l'évaluation de chaque position àchaque visite
On choisit au hasard pondéré l'action à e�ectuer, enprivilégiant les coups prometteurs ou peu explorés.
Si on arrive sur une position non-explorée, on l'évalueen terminant la partie au hasard
On corrige alors les évaluations le long du chemin suivi
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Techniques classiques pour les échecsLa recherche �Monte-Carlo�
Les algorithmes MCTS
Idée : on améliore l'évaluation de chaque position àchaque visite
On choisit au hasard pondéré l'action à e�ectuer, enprivilégiant les coups prometteurs ou peu explorés.
Si on arrive sur une position non-explorée, on l'évalueen terminant la partie au hasard
On corrige alors les évaluations le long du chemin suivi
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Techniques classiques pour les échecsLa recherche �Monte-Carlo�
Les algorithmes MCTS
Idée : on améliore l'évaluation de chaque position àchaque visite
On choisit au hasard pondéré l'action à e�ectuer, enprivilégiant les coups prometteurs ou peu explorés.
Si on arrive sur une position non-explorée, on l'évalueen terminant la partie au hasard
On corrige alors les évaluations le long du chemin suivi
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Techniques classiques pour les échecsLa recherche �Monte-Carlo�
Les algorithmes MCTS
Idée : on améliore l'évaluation de chaque position àchaque visite
On choisit au hasard pondéré l'action à e�ectuer, enprivilégiant les coups prometteurs ou peu explorés.
Si on arrive sur une position non-explorée, on l'évalueen terminant la partie au hasard
On corrige alors les évaluations le long du chemin suivi
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Techniques classiques pour les échecsLa recherche �Monte-Carlo�
Une méthode e�cace au go
Ne nécessite pas beaucoup de connaissances etpresque pas de données
Trouve des coups originaux et inattendus
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Techniques classiques pour les échecsLa recherche �Monte-Carlo�
Une méthode e�cace au go
Ne nécessite pas beaucoup de connaissances etpresque pas de données
Trouve des coups originaux et inattendus
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Réseaux de neuronesApprentissage profond
Du neurone réel au neurone formel
Idée des débuts de l'IA : simuler le cerveau humain
Fonctionnement schématique d'un neurone :
I Plusieurs entrées, de poids di�érents (selon lessynapses)
I Si un seuil est dépassé, signal 1 en sortie, sinon 0
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Réseaux de neuronesApprentissage profond
Du neurone réel au neurone formel
Idée des débuts de l'IA : simuler le cerveau humain
Fonctionnement schématique d'un neurone :
I Plusieurs entrées, de poids di�érents (selon lessynapses)
I Si un seuil est dépassé, signal 1 en sortie, sinon 0
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Réseaux de neuronesApprentissage profond
Du neurone réel au neurone formel
Idée des débuts de l'IA : simuler le cerveau humain
Fonctionnement schématique d'un neurone :I Plusieurs entrées, de poids di�érents (selon les
synapses)
I Si un seuil est dépassé, signal 1 en sortie, sinon 0
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Réseaux de neuronesApprentissage profond
Du neurone réel au neurone formel
Idée des débuts de l'IA : simuler le cerveau humain
Fonctionnement schématique d'un neurone :I Plusieurs entrées, de poids di�érents (selon les
synapses)I Si un seuil est dépassé, signal 1 en sortie, sinon 0
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Réseaux de neuronesApprentissage profond
Modélisation
Paramètres modi�ables du neurone : poidssynaptiques (p1, p2, ...pn), biais b
Entrée (x1, x2, ...xn)
Calcul a�ne : s = p1x1 + p2x2 + ...+ pnxn + b
Application d'une �fonction seuil� (�ltrenon-linéaire) : y = φ(s)
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Réseaux de neuronesApprentissage profond
Modélisation
Paramètres modi�ables du neurone : poidssynaptiques (p1, p2, ...pn), biais b
Entrée (x1, x2, ...xn)
Calcul a�ne : s = p1x1 + p2x2 + ...+ pnxn + b
Application d'une �fonction seuil� (�ltrenon-linéaire) : y = φ(s)
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Réseaux de neuronesApprentissage profond
Modélisation
Paramètres modi�ables du neurone : poidssynaptiques (p1, p2, ...pn), biais b
Entrée (x1, x2, ...xn)
Calcul a�ne : s = p1x1 + p2x2 + ...+ pnxn + b
Application d'une �fonction seuil� (�ltrenon-linéaire) : y = φ(s)
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Réseaux de neuronesApprentissage profond
Modélisation
Paramètres modi�ables du neurone : poidssynaptiques (p1, p2, ...pn), biais b
Entrée (x1, x2, ...xn)
Calcul a�ne : s = p1x1 + p2x2 + ...+ pnxn + b
Application d'une �fonction seuil� (�ltrenon-linéaire) : y = φ(s)
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Réseaux de neuronesApprentissage profond
Apprentissage
On veut que le neurone donne une sortie attendue y∗
pour une entrée donnée
On adapte les poids (et le biais) a�n de rapprocher yde y∗ : méthode de descente de gradient
Plusieurs sorties nécessitent plusieurs neurones ; dansce cas �ltre global.
Une seule couche de neurones : ne peut pasapprendre des sorties complexes.
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Réseaux de neuronesApprentissage profond
Apprentissage
On veut que le neurone donne une sortie attendue y∗
pour une entrée donnée
On adapte les poids (et le biais) a�n de rapprocher yde y∗ : méthode de descente de gradient
Plusieurs sorties nécessitent plusieurs neurones ; dansce cas �ltre global.
Une seule couche de neurones : ne peut pasapprendre des sorties complexes.
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Réseaux de neuronesApprentissage profond
Apprentissage
On veut que le neurone donne une sortie attendue y∗
pour une entrée donnée
On adapte les poids (et le biais) a�n de rapprocher yde y∗ : méthode de descente de gradient
Plusieurs sorties nécessitent plusieurs neurones ; dansce cas �ltre global.
Une seule couche de neurones : ne peut pasapprendre des sorties complexes.
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Réseaux de neuronesApprentissage profond
Apprentissage
On veut que le neurone donne une sortie attendue y∗
pour une entrée donnée
On adapte les poids (et le biais) a�n de rapprocher yde y∗ : méthode de descente de gradient
Plusieurs sorties nécessitent plusieurs neurones ; dansce cas �ltre global.
Une seule couche de neurones : ne peut pasapprendre des sorties complexes.
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Réseaux de neuronesApprentissage profond
Perceptron multicouche
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Réseaux de neuronesApprentissage profond
Quelques limites du perceptron
Pour être précis, nécessite beaucoup de donnéesd'apprentissage
Pour ne pas �surapprendre�, nécessite beaucoup deneurones
Il vaut mieux beaucoup de couches qu'une grossecouche cachée
Aspect �boite noire� des couches intermédiaires
Améliorations : réseaux convolutifs, architecturerésiduelle...
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Réseaux de neuronesApprentissage profond
Quelques limites du perceptron
Pour être précis, nécessite beaucoup de donnéesd'apprentissage
Pour ne pas �surapprendre�, nécessite beaucoup deneurones
Il vaut mieux beaucoup de couches qu'une grossecouche cachée
Aspect �boite noire� des couches intermédiaires
Améliorations : réseaux convolutifs, architecturerésiduelle...
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Réseaux de neuronesApprentissage profond
Quelques limites du perceptron
Pour être précis, nécessite beaucoup de donnéesd'apprentissage
Pour ne pas �surapprendre�, nécessite beaucoup deneurones
Il vaut mieux beaucoup de couches qu'une grossecouche cachée
Aspect �boite noire� des couches intermédiaires
Améliorations : réseaux convolutifs, architecturerésiduelle...
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Réseaux de neuronesApprentissage profond
Quelques limites du perceptron
Pour être précis, nécessite beaucoup de donnéesd'apprentissage
Pour ne pas �surapprendre�, nécessite beaucoup deneurones
Il vaut mieux beaucoup de couches qu'une grossecouche cachée
Aspect �boite noire� des couches intermédiaires
Améliorations : réseaux convolutifs, architecturerésiduelle...
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Réseaux de neuronesApprentissage profond
Quelques limites du perceptron
Pour être précis, nécessite beaucoup de donnéesd'apprentissage
Pour ne pas �surapprendre�, nécessite beaucoup deneurones
Il vaut mieux beaucoup de couches qu'une grossecouche cachée
Aspect �boite noire� des couches intermédiaires
Améliorations : réseaux convolutifs, architecturerésiduelle...
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Réseaux de neuronesApprentissage profond
Succès historiques du �Deep learning�
dès 1986 (Y. LeCun) : système de lecture de chi�resmanuscrits (chèques)
puis un long hiver...
années 2010 : augmentation des donnéesd'apprentissage, accélération matérielle (GPU)
Application spectaculaire à la reconnaissance d'images
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Réseaux de neuronesApprentissage profond
Succès historiques du �Deep learning�
dès 1986 (Y. LeCun) : système de lecture de chi�resmanuscrits (chèques)
puis un long hiver...
années 2010 : augmentation des donnéesd'apprentissage, accélération matérielle (GPU)
Application spectaculaire à la reconnaissance d'images
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Réseaux de neuronesApprentissage profond
Succès historiques du �Deep learning�
dès 1986 (Y. LeCun) : système de lecture de chi�resmanuscrits (chèques)
puis un long hiver...
années 2010 : augmentation des donnéesd'apprentissage, accélération matérielle (GPU)
Application spectaculaire à la reconnaissance d'images
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
Réseaux de neuronesApprentissage profond
Succès historiques du �Deep learning�
dès 1986 (Y. LeCun) : système de lecture de chi�resmanuscrits (chèques)
puis un long hiver...
années 2010 : augmentation des donnéesd'apprentissage, accélération matérielle (GPU)
Application spectaculaire à la reconnaissance d'images
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero
Imiter le jeu des joueurs forts
2 réseaux entraînés sur une base de parties KGS :
I ... à prévoir la probabilité de chaque coupI ... à prévoir le vainqueur de la partie
... résultats prédictifs appliqués à d'autres parties !
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero
Imiter le jeu des joueurs forts
2 réseaux entraînés sur une base de parties KGS :I ... à prévoir la probabilité de chaque coup
I ... à prévoir le vainqueur de la partie
... résultats prédictifs appliqués à d'autres parties !
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero
Imiter le jeu des joueurs forts
2 réseaux entraînés sur une base de parties KGS :I ... à prévoir la probabilité de chaque coupI ... à prévoir le vainqueur de la partie
... résultats prédictifs appliqués à d'autres parties !
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero
Imiter le jeu des joueurs forts
2 réseaux entraînés sur une base de parties KGS :I ... à prévoir la probabilité de chaque coupI ... à prévoir le vainqueur de la partie
... résultats prédictifs appliqués à d'autres parties !
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero
Apprentissage par renforcement
Jouer le coup jugé le plus probable donne unprogramme de niveau correct
Permet de générer un grand nombre de parties : jeucontre lui-même.
On réutilise ces parties pour entraîner de nouveau lesréseaux.
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero
Apprentissage par renforcement
Jouer le coup jugé le plus probable donne unprogramme de niveau correct
Permet de générer un grand nombre de parties : jeucontre lui-même.
On réutilise ces parties pour entraîner de nouveau lesréseaux.
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero
Apprentissage par renforcement
Jouer le coup jugé le plus probable donne unprogramme de niveau correct
Permet de générer un grand nombre de parties : jeucontre lui-même.
On réutilise ces parties pour entraîner de nouveau lesréseaux.
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero
Amélioration en cours de jeu : réseaux + MCTS
Algorithme MCTS guidé par les probabilités fourniespar le réseau de neurones
Évaluations combinant le réseau de valeurs et laméthode Monte-Carlo
Algorithme complexe avec de nombreux paramètresréglables
Dépasse largement tous les programmes existants
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero
Amélioration en cours de jeu : réseaux + MCTS
Algorithme MCTS guidé par les probabilités fourniespar le réseau de neurones
Évaluations combinant le réseau de valeurs et laméthode Monte-Carlo
Algorithme complexe avec de nombreux paramètresréglables
Dépasse largement tous les programmes existants
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero
Amélioration en cours de jeu : réseaux + MCTS
Algorithme MCTS guidé par les probabilités fourniespar le réseau de neurones
Évaluations combinant le réseau de valeurs et laméthode Monte-Carlo
Algorithme complexe avec de nombreux paramètresréglables
Dépasse largement tous les programmes existants
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero
Amélioration en cours de jeu : réseaux + MCTS
Algorithme MCTS guidé par les probabilités fourniespar le réseau de neurones
Évaluations combinant le réseau de valeurs et laméthode Monte-Carlo
Algorithme complexe avec de nombreux paramètresréglables
Dépasse largement tous les programmes existants
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero
Première victoire contre un pro
Fan Hui(championd'Europe) battu5− 0 en octobre2015
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero
Première victoire contre un pro
Fan Hui(championd'Europe) battu5− 0 en octobre2015
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero
Lee Sedol
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero
Match contre Lee Sedol
Réseaux plus épais et entraînés sur des parties duprogramme complet
Lee Sedol, contre toute attente (des pros) perd lestrois premières
Victoire de Lee Sedol à la quatrième partie !
Et défaite à la dernière. L'humain est dépassé.
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero
Match contre Lee Sedol
Réseaux plus épais et entraînés sur des parties duprogramme complet
Lee Sedol, contre toute attente (des pros) perd lestrois premières
Victoire de Lee Sedol à la quatrième partie !
Et défaite à la dernière. L'humain est dépassé.
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero
Match contre Lee Sedol
Réseaux plus épais et entraînés sur des parties duprogramme complet
Lee Sedol, contre toute attente (des pros) perd lestrois premières
Victoire de Lee Sedol à la quatrième partie !
Et défaite à la dernière. L'humain est dépassé.
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero
Match contre Lee Sedol
Réseaux plus épais et entraînés sur des parties duprogramme complet
Lee Sedol, contre toute attente (des pros) perd lestrois premières
Victoire de Lee Sedol à la quatrième partie !
Et défaite à la dernière. L'humain est dépassé.
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero
Dernière victoire d'un humain contre la machine ?
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero
Dernière victoire d'un humain contre la machine ?
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero
Tabula rasa
Janvier 2017 : �AlphaGo Master� gagne toutes separties (60) contre des top pros puis Ke Jie 3− 0
Programme plus simple qu'AlphaGo Fan et AlphaGoLee : un seul réseau, architecture résiduelle.
AlphaGo Zero : La même architecture de réseau estréinitialisée avec des poids aléatoires, et n'apprendplus que par renforcement
Données humaines limitées au strict minimum (règles)
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero
Tabula rasa
Janvier 2017 : �AlphaGo Master� gagne toutes separties (60) contre des top pros puis Ke Jie 3− 0
Programme plus simple qu'AlphaGo Fan et AlphaGoLee : un seul réseau, architecture résiduelle.
AlphaGo Zero : La même architecture de réseau estréinitialisée avec des poids aléatoires, et n'apprendplus que par renforcement
Données humaines limitées au strict minimum (règles)
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero
Tabula rasa
Janvier 2017 : �AlphaGo Master� gagne toutes separties (60) contre des top pros puis Ke Jie 3− 0
Programme plus simple qu'AlphaGo Fan et AlphaGoLee : un seul réseau, architecture résiduelle.
AlphaGo Zero : La même architecture de réseau estréinitialisée avec des poids aléatoires, et n'apprendplus que par renforcement
Données humaines limitées au strict minimum (règles)
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero
Tabula rasa
Janvier 2017 : �AlphaGo Master� gagne toutes separties (60) contre des top pros puis Ke Jie 3− 0
Programme plus simple qu'AlphaGo Fan et AlphaGoLee : un seul réseau, architecture résiduelle.
AlphaGo Zero : La même architecture de réseau estréinitialisée avec des poids aléatoires, et n'apprendplus que par renforcement
Données humaines limitées au strict minimum (règles)
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero
Performances d'AlphaGo Zero
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero
Vers un algorithme général d'apprentissage ?
AlphaZero : algorithme d'apprentissage adaptable àplusieurs jeux
Essentiellement les mêmes idées qu'AlphaGo Zero :pas de données humaines hors des règles des jeux
Programme moins gourmand en ressources que lesprécédents, et apprentissage plus rapide !
Dépasse les meilleurs programmes existants auxéchecs, au shogi et au go en moins de 8 heuresd'apprentissage.
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero
Vers un algorithme général d'apprentissage ?
AlphaZero : algorithme d'apprentissage adaptable àplusieurs jeux
Essentiellement les mêmes idées qu'AlphaGo Zero :pas de données humaines hors des règles des jeux
Programme moins gourmand en ressources que lesprécédents, et apprentissage plus rapide !
Dépasse les meilleurs programmes existants auxéchecs, au shogi et au go en moins de 8 heuresd'apprentissage.
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero
Vers un algorithme général d'apprentissage ?
AlphaZero : algorithme d'apprentissage adaptable àplusieurs jeux
Essentiellement les mêmes idées qu'AlphaGo Zero :pas de données humaines hors des règles des jeux
Programme moins gourmand en ressources que lesprécédents, et apprentissage plus rapide !
Dépasse les meilleurs programmes existants auxéchecs, au shogi et au go en moins de 8 heuresd'apprentissage.
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?
Table des matièresIntelligence arti�cielle
Le dé� des jeux classiquesExploration d'arbres de coups
Réseaux de neurones et Deep learningAlphaGo, AlphaZero, et après
AlphaGo : une combinaison originaleAlphaGo Zero et AlphaZero
Vers un algorithme général d'apprentissage ?
AlphaZero : algorithme d'apprentissage adaptable àplusieurs jeux
Essentiellement les mêmes idées qu'AlphaGo Zero :pas de données humaines hors des règles des jeux
Programme moins gourmand en ressources que lesprécédents, et apprentissage plus rapide !
Dépasse les meilleurs programmes existants auxéchecs, au shogi et au go en moins de 8 heuresd'apprentissage.
J. Rocher Réseaux de neurones, exploration aléatoire... Comment les machines ont appris à nous battre ?