Les limites des réseaux neuronaux aux échecs

L'actuel tournoi mondial des programmes d'échecs apportent des enseignements intéressants sur les limites des systèmes à réseaux neuronaux.

Le programme classique Stockfish semble avoir considérablement affiné sa fonction d'évaluation depuis l'an passé: il a remporté le tournoi de Première Division, éliminant au passage le champion de l'an passé LCZero qui n'a fini que troisième.

LCZero est devenu à la fois plus difficile à battre (il a terminé le tournoi sans une seule défaite) mais aussi plus frileux en attaque et donc remportant au total moins de victoires. Or l'expérience des forts joueurs humains montre que les joueurs les plus solides en défense (comme Leko ou Karjakine qui est surnommé "le ministre de la défense") obtiennent sur la durée de moins bons résultats que des joueurs prenant plus de risque pour gagner et acceptant de ce fait de perdre de temps en temps.

La super-finale en 50 parties double ronde (même ouverture jouée avec les Blancs puis avec les Noirs) se joue actuellement entre StockFish et le second du tournoi, à savoir le programme mixte AllieStein, qui combine une évaluation heuristique déterministe avec élagage alpha-bêta et le calcul statistique par réseau neuronal.

Après 12 parties, StockFish mène par deux victoires à une (toutes les victoires ont été remportées avec les Blancs). On peut en tirer deux premières conclusions:

1°) l'ascension des systèmes à réseaux neuronaux n'est pas irrésistible.

2°) les programmes classiques ne sont pas au bout de leurs progrès.

On peut même se demander si l'on n'assiste pas à un début de plafonnement des systèmes à réseaux neuronaux du fait de l'instabilité intrinsèque de leurs évaluations, d'une part, et de leur incapacité à fournir une traçabilité stratégique à leurs décisions, d'autre part, un peu comme ce qui s'est passé dans les années 80 avec les systèmes experts dont on attendait monts et merveilles mais qui se sont révélés trop instables pour être industriellement exploitables dès que l'on combinait quelques centaines de règles (sauf dans quelques domaines bien délimités comme le diagnostic médical).

La sélectivité des programmes classiques leur permet désormais d'atteindre une profondeur de calcul encore inaccessible aux systèmes à réseaux neuronaux. Par exemple, dans la 6ème partie (qu'il a remportée), StockFish a pu annoncer mat en... 49 coups au 37ème coup des Noirs.

L'instabilité des évaluations est bien illustrée par les pics d'excitation des programmes à réseaux neuronaux, qu'on pourrait ici soupçonner d'une certaine "exhubérance irrationnelle" (selon la formule employée par un ancien banquier central à propos des marchés financiers), dans l'évaluation des positions lors de la 5ème partie. L'instabilité de l'évaluation produite par AllieStein du 18ème au 23ème coup  montre bien le principal défaut de ces systèmes: si leur base statistique d'échantillonnage n'est pas assez représentative des potentialités de la position, l'évaluation peut fluctuer énormément d'un coup à l'autre (cette instabilité est un problème spécifique aux réseaux neuronaux qui n'a rien à voir avec l'effet d'horizon).

Le déroulement de cette partie, quoiqu'affecté d'une certaine tension tactique, n'est pourtant pas si compliqué; StockFish avec les Noirs a sacrifié une Tour contre un seul pion pour démolir le grand roque des Blancs puis obtenu aisément l'égalisation en menaçant de récupérer un cavalier et un pion au passage puis en forçant une nulle par répétition. C'est une ligne de jeu qui me semble à la portée d'un fort joueur humain du fait du grand nombre de coups plus ou moins forcés (à chacun de leur demi-coup, les Blancs n'ont qu'un ou deux coups plausibles pour se défendre), mais elle a visiblement échappé à BlueLeela (une version dopée de LCZero) tout comme à AllieStein qui jouait les Blancs. Les deux versions de StockFish se sont montrées par contraste beaucoup plus réalistes dans leurs fluctuations (que l'on peut par ailleurs expliquer par l'effet d'horizon):

evaluations

 Je concluerai ce billet par un retour aux échecs humains. Le champion français MVL s'est fait assez piteusement éliminer hier en demi-finale par Radjabov dans une ouverture anglaise symétrique. Les savants commentateurs d'Europe Echecs ont relevé que son refus d'échanger les Dames au 26ème coup était probablement une erreur, mais je crois plutôt que MVL a péché par orgueil en ne choisissant pas d'échanger les Dames dès le début de la partie: en jouant 6.... Dxd1! au lieu de 6.... Dc7?, il aurait facilement égalisé dans l'ouverture en déroquant le Roi blanc au passage et ainsi augmenté fortement ses chances d'obtenir la nulle dans cette deuxième partie longue, et donc de se qualifier le lendemain aux départages grâce à sa supériorité incontestable en parties rapides (il est présentement numéro 1 mondial à cette cadence et Radjabov seulement 21ème.)

Le Club est l'espace de libre expression des abonnés de Mediapart. Ses contenus n'engagent pas la rédaction.