AlphaZero de DeepMind, le champion de l'apprentissage des échecs !

AlphaZero, Deepmind , c'est quoi ?

Le programme d'échecs de DeepMind, filiale de Google dédiée à l’intelligence artificielle s'appelle AlphaZero. Zero signifiant qu'au départ le niveau de jeu du programme est nul : il ne connaît que les règles du jeu d'échecs, donc il ne possède aucune stratégie de jeu, mais il a une fonctionnalité d'apprentissage par renforcement. Plus il joue, plus il tire des conclusions, plus il apprend et meilleur devient son niveau. Il apprend uniquement en jouant avec lui-même (et jamais face à des êtres humains)
Nick Hynes du MIT déclare "C’est comme une civilisation étrangère qui invente ses propres mathématiques. Ce que nous voyons ici est un modèle exempt de préjugés et de présomptions humaines. L’IA peut apprendre tout ce qu’elle détermine comme optimal, ce qui peut être plus nuancé que nos propres conceptions du même sujet ."



24 heures d'apprentissage
"Partant d’un jeu aléatoire et n’ayant aucune connaissance à part les règles du jeu, AlphaZero a atteint en 24 heures un niveau de jeu surhumain dans les parties d’échecs et a battu de manière convaincante un programme de classe mondiale" explique DeepMind  (lire cet article  en pdf) qui précise qu'il a fallu 9 heures d’entraînement et 44 millions de parties pour maîtriser les échecs avec cet algorithme d’apprentissage de renforcement général. 



Stockfish battu ! 

Ensuite il a fallu 4 heures seulement à AlphaZero pour surclasser Stockfish, le  moteur d'échecs open source, considéré aujourd'hui  comme l'un des  meilleurs au monde avec Komodo, programmes extrêmement forts, capables de battre des champions  humains qui, d'ailleurs, ne veulent plus les affronter. (Rappel : affrontement  mythique entre Gary Kasparov et Deep Blue d'IBM, où le champion russe a été défait en 1997 )






AlphaZero et Stockfish ont disputé un match de 100 parties, à la cadence de 1 minute par coup pour chaque programme. Le match s'est soldé par 75 parties nulles et 25 victoires de AlphaZero et donc ZERO défaites. Ce qui est un résultat  extraordinaire...tant les victoires, à ce niveau, sont rares

Une approche "humaine"...

"AlphaZero recherche seulement 80 000 positions par seconde aux échecs contre 70 millions pour Stockfish. AlphaZero compense ce faible nombre en utilisant son réseau de neurones profonds pour se concentrer beaucoup plus sélectivement sur les variantes les plus prometteuses – sans doute une approche de recherche plus ‘humaine' "écrit DeepMind... Plus humaine...c'est beaucoup dire... mais désormais, la force brute  de calculs infinis n'est clairement plus l'arme principale des programmes informatiques.

Peter Heine Nielsen, qui compte parmi les meilleurs joueurs du monde et qui est le secondant de l'actuel champion du monde Magnus Carlsen, a commenté ainsi cette nouvelle à la BBC: "Je me suis toujours demandé comment cela se passerait si une espèce supérieure débarquait sur terre et nous montrait comment elle jouait aux échecs. Maintenant je sais."

A noter qu'il avait  réussi les mêmes performances avec  le Shogi (échecs japonais) et le Go en 2016 et 2017 et Il ne lui aura fallu que respectivement 2 et 8 heures pour maîtriser ces deux jeux supplémentaires.


Fréquence des ouvertures jouées par AlphaZero
après 2h, 4h, 6h, 8h...de pratique
la sicilienne est...délaissée !


Compléments avec parties, vidéos.. sur:
-ChessCom en français
-Chessbase en anglais