L’intelligence artificielle AlphaZero joue et apprend déjà comme un surhomme.

Publié par Simon Taquet le décembre 11, 2018 | Maj le décembre 11, 2018

Ces 64 carrés occupent un espace restreint et fini, mais offrent tant de possibilités et de combinaisons, que les hommes ont eu besoin de millénaires pour perfectionner leurs mouvements, et n’ont pourtant jamais atteint le jeu parfait. Mais là où la sagesse et l’ingéniosité ne peuvent s’unir, l’intelligence artificielle (IA) peut venir. Une IA perfectionnée et développée depuis plus d’un demi-siècle, comme l’a démontré Deep Blue en 1997, lorsqu’elle a battu le champion du monde Gary Kasparov.

AlphaZero, le champion qui apprend

Vingt ans ont passé depuis. Aujourd’hui, l’un des champions les plus acharnés de l’IA est AlphaZero, un programme informatique développé par DeepMind et né d’AlphaGo, qui a réussi à battre le meilleur joueur de go du monde. AlphaZero est capable d’atteindre un niveau de maîtrise surhumaine des échecs, d’aller et de shogi, et ce, en apprenant. Vous pouvez apprendre à partir de zéro, simplement en connaissant les règles, en seulement 24 heures, simplement en jouant contre vous-même. Il y a un an, DeepMind a publié un brouillon démontrant qu’AlphaZero était capable de battre les programmes les plus avancés pour jouer aux trois jeux discutés : Stockfish, Elmo et AlphaGo Zero lui-même. Il l’a fait en utilisant des circuits conçus pour permettre l’apprentissage machine et basés sur des réseaux neuronaux. Tous ont permis à l’AI non seulement d’atteindre des performances extraordinaires, mais aussi de tenir compte d’un plus large éventail de règles. Ces réalisations viennent d’être publiées dans la revue Science.

“Nos résultats démontrent qu’un algorithme d’apprentissage général et booster peut apprendre de zéro – sans avoir besoin d’ajouter des connaissances ou des données préalables, fournies par les humains, en connaissant seulement les règles – et atteindre des performances surhumaines dans plusieurs jeux très complexes”, ont écrit les chercheurs, sous la direction de David Silver. AlphaZero représente donc un pas en avant important dans la tâche de créer une intelligence artificielle avancée capable de maîtriser des jeux plus complexes par elle-même.

“Le but de DeepMind est de construire des systèmes qui peuvent résoudre certains des problèmes les plus complexes du monde et de créer un programme qui peut apprendre lui-même comment maîtriser les échecs, shogi et partir de zéro est un premier pas important sur cette voie,” Demis Hassabis, directeur et co-fondateur de DeepMind, dit dans un communiqué.

Pour sa part, Silver a déclaré que son rêve serait “de voir le même type de système appliqué non seulement aux jeux de société, mais à toutes sortes d’applications réelles, telles que la conception de médicaments, de matériaux ou la biotechnologie”.

Apprendre du renforcement

Mais comment fonctionne AlphaZero ? Selon Murray Campbell, chercheur chez IBM, dans un article d’analyse publié dans Science, “AlphaZero est basé sur l’apprentissage du renforcement, un paradigme très général pour apprendre à agir dans un environnement qui récompense des actions utiles. Dans le cas des jeux de société, l’IA s’entraîne en jouant à un grand nombre de jeux contre elle-même.

Ces dernières années, les réseaux neuronaux et l’apprentissage profond ont été appliqués à ce processus de renforcement. À cette occasion, les recherches de Silver ont amélioré cet apprentissage en profondeur en créant un algorithme, le Monte Carlo Search Tree (MCTS), déjà utilisé en go, pour apprendre de nouveaux jeux. Le système part de paramètres générés au hasard et le réseau neuronal les modifie peu à peu.

Un joueur flexible

Comme Yoshiharu Habu, le deuxième joueur de l’histoire avec plus de titres shogi, le dit dans une déclaration, cet apprentissage rend AlphaZero “un joueur flexible qui préfère faire des ouvertures pour des attaques rapides quand il débute à jouer, mais qui joue défensif quand il commence en deuxième.

De plus, il est créatif : “Certains de ses mouvements, comme déplacer le roi au centre du plateau, vont à l’encontre de la théorie du shogi et, du point de vue humain, mettent AlphaZero dans ce qui semble être une position dangereuse. Mais, incroyablement, il garde le contrôle du conseil. Cette IA est si efficace que Habu croit que son style de jeu montre qu’il y a de nouvelles possibilités à explorer dans ce jeu de société centenaire.

Les prochains jeux à maîtriser

Cependant, Murray Campbell a souligné que toutes ces réalisations ont été réalisées dans un environnement favorable aux IAs. Fondamentalement, parce que ces jeux permettent au joueur d’observer tout ce que l’adversaire fait et d’avoir toutes les informations nécessaires pour prendre des décisions, pas comme au poker, où ce qui n’est pas connu a un poids important. De plus, ces jeux de société “ont deux joueurs, ils sont à somme nulle, déterministes, statiques et discrets”, ce qui permet, selon le chercheur IBM, de simuler parfaitement l’évolution du jeu à travers des séquences arbitraires de jeux.

Pour cette raison, Campbell a suggéré que les développeurs doivent maintenant chercher une nouvelle génération de jeux pour offrir de nouveaux défis aux IA, tels que les jeux vidéo tels que StarCraft II ou Dota, dans lesquels l’information est seulement partielle et où il existe une grande diversité d’actions et de possibilités. Une IA finira-t-elle par battre les meilleurs joueurs de jeux vidéo du monde ?

L'actualité des Médias

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *