Sur les réseaux neuronaux. Recherches récentes

Les réseaux neuronaux ou réseaux de neurones artificiels, encore très mal connus du grand public, même quand il s'intéresse à l'informatique, sont de plus en plus utilisés dans les systèmes d'Intelligence Artificielle avancée, dont l'ambition est de prolonger l'intelligence des humains dans des domaines qu'ils ont de plus en plus de mal à maîtriser.

C'est ainsi qu'ils contribuent aux diagnostics médicaux complexes, comme à la réalisation d'un nombre croissant  de technologies civiles et militaires.

Cependant, il apparaît de plus en plus que même les spécialistes savent encore peu de choses sur les Réseaux neuronaux et la façon dont ils travaillent. Aussi aujourd'hui un certain nombre de chercheurs, en s’appuyant sur les mathématiques, essaient d'en construire une théorie. Ceci non seulement au bénéfice de la connaissance en général, mais pour définir les tâches qu'ils seront les mieux à même d'accomplir.

Les réseaux neuronaux visent à imiter le cerveau humain, voire à augmenter ses capacités. Or l'on sait que le cerveau travaille généralement en faisant appel à de petites abstractions puis en les combinant dans de plus grandes. C'est ainsi que pour identifier un chien et le distinguer d'un oiseau, il faut d'abord constater que l'objet observé dispose de quatre pattes au contraire de l'oiseau. En observant différents traits de cette nature, le cerveau pourra sans trop de risques d'erreurs décider qu'il est en présence d'un chien. L'objectif des chercheurs est de rendre les réseaux neuronaux de plus en plus capables de cette sorte de chose.

Les réseaux neuronaux sont constitués d'éléments de petite taille, dits neurones, connectés de différentes façons par des liaisons électroniques. On peut décider qu'une première couche de neurones représentera un attribut élémentaire (la patte, la tête, la queue dans notre exemple). Une seconde couche de neurones combinera ces attributs en objet plus complexes (un animal quadrupède) puis une troisième couche décidera qu'il s'agit d'un chien.

En fonction du nombre et de la difficulté des tâches attendues du réseau, les ingénieurs décideront du nombre de neurones nécessaires dans une couche, et du nombre de couches à superposer . Ce faisant ils éviteront toutes complexités inutiles ralentissant le travail et pouvant l'induire en erreur. C'est ainsi que pour des tâches relativement simples, telles qu'identifier des images, ils choisiront des réseaux eux-mêmes simples, réservant les plus complexes aux tâches plus difficiles telles qu'identifier la parole.

Pour les premières, les architectures seront de type linéaire. Pour les secondes les réseaux nécessaires seront dotés d'architectures dites « récurrentes » dans lesquels les neurones pourront être connectés, non à une couche supérieure, mais à des couches adjacentes, avant de monter à la couche supérieure. Le nombre de neurones par couche sera déterminé en fonction principalement de la vitesse recherchée. Cependant, dans la pratique, les ingénieurs feront appel à des signes empiriques, en sélectionnant les réseaux donnant le plus satisfaction. Il y a plus de 1000 aujourd'hui utilisés.

Différentes méthodes ont été proposées ces dernières années pour choisir le type de réseau le plus adéquat, compte tenu du nombre de neurones par couches (largeur) et du nombre de couches (profondeur). Dans un article récent 1), David Rolnick et MaxTegmark du MIT ont montré qu'en augmentant la profondeur et en diminuant la largeur, la même tâche peut être accomplie avec un plus faible nombre de neurones (ce qui, disons-le, paraît s'imposer intuitivement). La démonstration est complexe. Nous ne la résumerons évidemment pas ici.

Dans une série d'articles datés d'octobre 2018 2) étudiant la topologie des réseaux neuronaux, le mathématicien Jesse Johnson, aujourd'hui chercheur chez Sanofi , a montré que dans les cas difficiles, accroître la profondeur ne pouvait pas compenser la diminution de largeur.

Les concepteurs de réseaux neuronaux devront donc, là encore, étudier de façon empirique la meilleur solution – étant entendu que la réalisation des réseaux neuronaux avec les technologies actuelles représente un coût non négligeable.

Références

1) Voir arxiv The power of deeper networks for expressing natural functions

2) Voir Johnson https://ldtopology.wordpress.com/author/jessejohnson/

 

Le Club est l'espace de libre expression des abonnés de Mediapart. Ses contenus n'engagent pas la rédaction.