Stocker la totalité des données numériques de la planète dans une mémoire d’ADN qui tiendrait dans une camionnette : telle est l’ambition de Nick Goldman, de l’Institut européen de bioinformatique à Hinxton (EMBL/EBI, Royaume-Uni). Pour l’instant, Goldman et son équipe n’ont réalisé qu’une petite fraction de cet objectif : ils ont encodé dans de l’ADN synthétique un ensemble de 154 sonnets de Shakespeare, ainsi qu’un article scientifique au format pdf, une photo en couleur de leur institut, et un enregistrement au format MP3 du célèbre discours de Martin Luther King en 1963, « I have a dream »…

Agrandissement : Illustration 1

Le rêve d’utiliser l’ADN comme mémoire informatique remonte à plusieurs décennies. Support de l’information génétique, l’ADN est extrêmement stable : des chercheurs ont reconstitué le génome des Néandertaliens à partir d’échantillons vieux de 40.000 ans ! De plus, l’ADN fournit un support d’une très haute densité, énergétiquement peu coûteux, et a fait la preuve de son efficacité depuis les débuts de la vie, il y a plus de 3,5 milliards d’années.
Les premières tentatives de stockage d’information dans l’ADN datent de 1988. Elles ont eu un succès limité, car elles reposaient sur l’utilisation de l’ADN de cellules vivantes, en général des bactéries. Or, les cellules vivantes meurent et se reproduisent, processus au cours duquel surviennent des mutations. L’ADN in vivo n’est donc pas une mémoire idéale, car l’information enregistrée peut être altérée.
En 2010, l’équipe de l’Institut Craig Venter, à Rockville, près de Washington, a réussi à archiver dans l’ADN 8000 bits d’information, l’équivalent d’un texte de quelques pages, en produisant une bactérie dotée d’un génome artificiel. L’équipe de Nick Goldman a multiplié ce résultat par 650, en stockant 5,2 millions de bits d’information dans l’ADN (autrement dit, une suite de 5,2 millions de « 0 » et de « 1 »).
Mais l’approche de Goldman, décrite dans un article que vient de publier en ligne la revue Nature, est tout à fait différente de celle de Venter. Elle consiste à coder l’information dans de l’ADN synthétique, fabriqué par une machine et non par une cellule.
Naturelle ou synthétique, une molécule d’ADN est formée de deux brins parallèle le long lesquels s’enchaînent, de manière aléatoire, des séquences formées de quatre bases : l’adénine (A), la cytosine (C), la guanine (G) et la thymine (T). Les bases se succèdent sur le brin d’ADN comme les lettres d’un texte ou les 0 et 1 d’une séquence numérique.

Agrandissement : Illustration 2

On peut synthétiser un ADN fait d’une séquence arbitraire de A, C, G et T. Le principe de la technique de Goldman est de convertir les 0 et 1 d’une séquence numérique en un équivalent sous forme de bases, selon un codage précis. Ce codage fait correspondre à chaque série de huit bits (ou byte) un « mot » formé de cinq lettres qui doivent être A, C, G ou T, comme « TAGAT » ou « GCTAG ».
L’ensemble des informations numérisées par Goldman - sonnets de Shakespeare, photo, discours de Luther King… - peut être représentée par une séquence numérique de 757.051 bytes, qui a été convertie en une suite de mots de cinq lettres formés avec A,T, G et C. Il ne restait plus, pour fabriquer la mémoire biologique, qu’à synthétiser un segment d’ADN constitué de la même séquence de lettres.
En fait, les chercheurs ont introduit quelques raffinements pour limiter les risques d’erreur. La séquence n’a pas été traitée en un seul bloc, mais découpée en petites chaînes de 117 lettres chacune. Chacune de ces petites chaînes comporte une information d’indexation qui permet de savoir où elle se situe dans la séquence globale. De plus, les chaînes de 117 lettres se chevauchent en partie, de sorte que la mémoire est redondante.
Toutes les données ont été transmises à la société Agilent Technologies, en Californie, qui a synthétisé les brins d’ADN et les a renvoyés aux chercheurs à Hinxton. Ces derniers ont alors pu décoder la mémoire ADN et reconstituer l’information enregistrée, avec 100% d’exactitude.
« Il s’agit d’une importante étape », estime George Church, de l’université Harvard, aux Etats-Unis. L’équipe de Church a réalisé l’année dernière une mémoire d’ADN similaire à celle de Goldman, mais en utilisant un système de codage légèrement différent (voir notre article ici).
Les performances des deux procédés sont grosso modo équivalentes et ouvrent la perspective d’un stockage des données illimité, fiable et peu énergivore. La méthode de Goldman permettrait, en principe, d’archiver les 90 pétabytes de données (90 x 1015 bytes) mémorisées dans les ordinateurs du Cern, le laboratoire européen de physique des particules à Genève, dans seulement 41 grammes d’ADN !
Cette information pourrait être conservée pendant des millénaires pourvu que la mémoire soit maintenue au froid, au sec et dans l’obscurité. Goldman observe aussi qu’alors que les technologies de mémoire électronique sont rapidement obsolètes, l’étude de l’ADN va se poursuivre pendant longtemps, de sorte que son utilisation comme support de mémoire ne se démoderait pas rapidement.
Le principal obstacle au développement de ce type de technique, actuellement, est son prix : l’équipe de Goldman estime aujourd’hui que coder un mégabyte (million de bytes) de données par son procédé coûte 12.400 dollars (9200 euros) et qu’il faut 220 dollars (160 euros) pour décoder les mêmes données.
Mais ces coûts baissent à un rythme exponentiel, de sorte que la technique de l’ADN pourrait devenir pertinente pour des stockage d’information de longue durée. Si les coûts diminuent d’un facteur 100 dans la prochaine décennie, cette technique pourrait être rentable pour des informations que l’on veut stocker pendant 50 ans ou plus.
Selon Church, interrogé dans Nature, ces estimations sont peut-être pessimistes, car « le coût de la lecture et de l’écriture sur l’ADN a été divisé par un million pendant les neuf dernières années, du jamais vu même dans le domaine de l’électronique. »
Goldman a même imaginé comment réagiraient des scientifiques du futur s’ils retrouvaient des mémoires d’ADN après une catastrophe planétaire : « Ils se rendraient rapidement compte qu’il ne s’agit pas d’ADN ordinaire. Il n’y a pas de répétitions, tout a la même longueur. A l’évidence, cela ne peut pas venir d’une bactérie ou d’un être humain, et mérite d’être examiné.»
Même si l’humanité disparaissait, des extraterrestres pourraient tenter de décoder les mémoires d’ADN, en supposant qu’elles nous aient survécu. Mais peut-être n’est-il pas nécessaire d’en arriver là pour vérifier l’intérêt du procédé…