Knowtex Blog

Plie-la comme Levinthal

Le 29 septembre 2011 par Tom Roud

Ou comment 75000 geeks ont contribué à l’avancée de la science en jouant au dessein intelligent.

Préambule : 3D Biologie

Vous l’avez sans doute remarqué, la plupart des objets biologiques (animaux, personnes, cellules) existent dans un espace à 3 dimensions. Vous savez peut-être aussi que votre ADN peut se lire et se coder comme une série de lettres correspondant aux 4 acides nucléiques à la base du code génétique (les fameux ACTG).

Voici à titre d’exemple les 600 premières bases codant pour un gène pris au hasard par mes soins, le gène Pax6 (la séquence complète comme la plupart des gènes humains sont publiques et peuvent se trouver ici) :

1 tagtaaactt tgtgggagga aaaaaaatag aaacaacccc ggtttctatt ttctttctgg
61 tttgattgtc caaatgtcca ataattgaag actgattaaa taaccaaacc atgttttacc
121 tataagttgc aaaacttgtc attaagaaga ctgtgttgga gagacatatt taatgccatg
181 ggaagacttt tggatcacag taaatggtgg gggaaagcag gttgcaaaac agtttgaatc
241 ttatggccca atgtttgcca agtagtgata gagtgagttt tctagaggaa aaaaacacca
301 agtgttaact ctgggtggaa gaattcagct gatgtttgcc cttccttctt atttgtattt
361 tctagttttt ctataagaaa cacgatttct tgtagatttt aacattgact attttaaaaa
421 tcttcctaag gaatcatttt tgaaactccc atgtttacaa gtgccttcac ccccagctcc
481 tgggccatct cctagaggag aggctgcctc cctggaggag tgaggctcca gggctgatac
541 gcagtgatgc acacagcatt ttcccattcc taggctaaca attggcctgt ggtttttatg

En d’autres termes, fondamentalement, tout le vivant est codé dans cette séquence ordonnée de lettres. Objet qui est donc en fait fondamentalement simple et unidimensionnel. Comment alors générer des objets biologiques très tridimensionnels à partir d’une simple liste (aussi longue soit-elle) ? Pour répondre à cette question, révisons quelques secondes notre dogme central de la biologie.

En général – car il y a évidemment pléthore d’exceptions – l’ADN code donc une telle suite d’acides aminés. Certaines parties de cet ADN sont alors en quelque sorte « recopiées » en ARN, sorte de jumeau (ou d’ancêtre, c’est selon) de l’ADN. Cet ARN messager est plus ou moins libre de ses mouvements, et se trouve transporté dans la cellule vers ce qu’on appelle les ribosomes.

Les ribosomes font alors un boulot de traduction : ils lisent cette séquence d’ARN et, utilisant le code génétique, la transforment alors en séquence d’acides aminés qui se replie sur elle-même en protéine, structure en trois dimensions (pour s’en convaincre, on pourra consulter ce billet hypergeek de cristallographe déclarant sa flamme à sa structure préférée). Cette structure 3D des protéines est par ailleurs très importante car la fonction d’une protéine dépend très fortement de sa forme – et le jour où l’on est capable de prédire à coup sûr la forme 3D d’une protéine à partir d’une séquence d’ADN, on devient capable de concevoir des protéines artificielles pour inventer de nouvelles fonctions biologiques, ce qui constituerait une révolution.

Problème : replier des protéines

D’où la question : comment passe-t-on simplement d’une séquence linéaire d’acides aminés à une vraie protéine en 3D avec toutes ses fonctions biologiques ? C’est a priori un problème très compliqué. Cependant, on s’est vite aperçu de la chose suivante : si on fabrique (plus ou moins artificiellement) une séquence d’acides aminés, celle-ci a tendance à « naturellement » se replier sur elle-même et à acquérir spontanément en solution la forme tridimensionnelle de la protéine observée in vivo.

En d’autres termes, le passage d’une liste d’acides aminés à une vraie protéine fonctionnelle est un processus purement physique, la nature faisant tout le boulot de sculpture tridimensionnelle des protéines à partir de la séquence d’acides aminés. On doit donc être capable a priori, connaissant une séquence d’ADN, le code génétique, et les lois de la physique, de prédire la forme de la protéine correspondante.

Ces lois de la physique peuvent se résumer en quelques lignes. Une protéine contient des acides aminés hydrophiles (qui aiment l’eau) et hydrophobes (qui n’aiment pas l’eau), d’autres chargés positivement ou négativement. La physique impose que les charges opposées s’attirent tandis que les mêmes charges se repoussent ; elle impose aussi que les parties hydrophiles essaient de rester au contact de l’eau – le milieu naturel de la cellule – alors que les parties hydrophobes essaient de s’en éloigner le plus possible.

Résultat : une séquence d’acide aminé se replie spontanément en une espèce de blob dont l’extérieur, au contact de l’eau est plutôt fait de parties hydrophiles et dont l’intérieur, protégé de l’eau, est fait de parties hydrophobes. Concrètement, tout ça est calculable mathématiquement à l’aide d’une fonction appelée énergie. Et la physique, comme souvent, est implacable : la structure 3D d’une protéine correspond au blob qui minimise l’énergie de repliement de sa séquence d’acides aminés.

Il y a une chose que l’on sait très bien faire : si l’on vous donne une forme d’une protéine en 3D, connaissant les parties hydrophiles et parties hydrophobes, vous êtes capable de calculer relativement facilement son énergie. Or, pour pouvoir connaître comment se replie une protéine, il faut savoir résoudre un problème inverse : non pas trouver l’énergie connaissant la structure, mais au contraire la structure correspondant au minimum d’énergie.

Du Paradoxe de Levinthal à la Playstation 3

Le problème physique de la minimisation de l’énergie pour les séquences d’acides aminés a occupé pas mal de gens depuis quelques décennies. C’est en fait un problème hyper difficile : a priori, pour connaître la structure minimisant l’énergie, il faudrait calculer toutes les configurations possibles de la séquence d’acides aminés correspondante. Or, les protéines humaines peuvent être encodées par des séquences de l’ordre du millier d’acides aminés : trouver le nombre de configurations possibles en 3D d’un « serpent » de 1000 acides aminés prend un temps colossal.

En 1969, Levinthal avait estimé le nombre de configurations possibles d’une séquence à 10 puissance 143, soulevant alors un paradoxe célèbre : comment la nature elle-même est-elle capable de trouver aussi rapidement – un repliement de protéine prend à peine quelques secondes – LA bonne forme de protéine parmi les 10 puissances 143 possibles ?

On a pu partiellement résoudre le paradoxe de Levinthal depuis (hypothèse de « l’entonnoir de repliement », expliqué sur cette page Wikipédia) : les protéines sont « conçues » (par l’évolution) pour se replier très vite via des étapes de repliement intermédiaires, ce qui fait qu’elles n’ont pas besoin d’explorer aléatoirement les 10 puissances 143 configurations possibles pour trouver leur minimum d’énergie. Reste que le scientifique n’est pas plus avancé pour autant : même aidé par les simplifications de repliement trouvées par l’évolution, l’homme, s’il veut prédire la structure des protéines, doit énumérer et calculer énormément de configurations d’énergies.

C’est d’ailleurs ce qui a motivé l’émergence de certains projets basés sur la force brute, tels que Folding@home ou Rosetta@home, qui propose à l’utilisateur d’installer sur son ordinateur ou sa Playstation 3 un petit programme participant à ce travail colossal d’énumération de séquences possibles lorsque la machine est inutilisée (on pourra consulter la série de vidéos sur ce projet expliquant notamment les enjeux et les besoins en matière de calcul de repliement).

Temps de cerveau humain disponible

Mais une autre piste a été récemment explorée, faisant l’objet principal de ce billet et d’une publication dans Nature. On l’a dit plus haut, l’évolution a fait les choses de façon relativement intelligente pour permettre aux protéines de se replier rapidement. Et si ce design intelligent de la nature pouvait être compris et mis en exergue par notre propre intelligence ?

C’est sur cette idée que le projet Foldit est né : le repliement d’une protéine est un problème certes compliqué, mais peut-être parfaitement analysable par une intelligence capable de voir les choses globalement, avec en plus un zeste d’intuition. Plutôt que d’utiliser la force brute de Deep Blue de la biophysique énumérant toutes les configurations possibles, utilisons les Kasparov qui sommeillent en chacun de nous pour réaffirmer la supériorité de l’homme sur la machine (un peu à l’image de ce qui s’est passé pour reCAPTCHA ) .

Comment convaincre des centaines, voire des milliers de personnes de s’attaquer à l’ardu problème du repliement des protéines ? L’idée tient en deux mots : jeu et compétition. Zoran Popovic et son équipe mettent au point Foldit, un jeu 3D online au charme délicieusement rétro, dans lequel les joueurs jouent les uns contre les autres pour trouver le plus rapidement possible les repliements de protéines particulièrement ardues.

Un article de The Economist daté du 8 mai 2008 lance la machine et assure un premier afflux de joueurs. David Baker et son groupe (les biochimistes du projet) mettent en ligne quelques structures dont ils connaissent déjà le résultat pour tester la viabilité du projet. Groupes de « folders », stratégies collectives et wiki émergent rapidement. Sur les 10 structures proposées, les joueurs de Foldit font mieux que Rosetta, le programme maison de Baker, dans 5 cas, et aussi bien dans 3 autres cas. L’essai est concluant et prometteur.

C’est encore Wired qui décrit probablement le mieux l’excitation et l’émulation geek derrière la résolution de ces puzzles :

« Vers minuit le 28 juillet 2009, Laurent de Jerphanion (pseudo : Dejerpha) fixait son écran incrédule devant la structure multicolore intriquée. Le manager en marketing parisien de 43 ans travaillait sur la structure T0461 depuis de nombreuses soirées. Aucune amélioration ne semblait possible, la victoire était à lui.

Mais il ne comprenait pas ce qu’il venait de voir sur le tableau de score. Il avait été à l’instant dépassé par un Américain de 13 ans appelé Cheese. Le gamin (vrai nom : Aristides Poehlman) venait juste d’accomplir un saut extraordinaire de plus de 20 points en un seul mouvement, une heure avant la deadline du puzzle. Mais de Jerphanion, l’un des meilleurs joueurs de Foldit n’avait pas l’intention de se laisser faire. “À nous deux maintenant !”

À l’autre bout de la planète, 7 h du soir en Virginie, la maison Poehlman était en transe. Les parents de Cheese étaient aussi des Folders. À la suite de l’avancée de son fils, Athena, sa mère, envoya un “Wow ! Way to go! ” dans la fenêtre de chat global de Foldit. D’autres encouragements arrivaient du reste de l’équipe, disséminée aux 4 coins du monde. Mais en quelques minutes, de Jerphanion arrivait encore une fois à tirer son épingle du jeu et était repassé en tête d’un point !

Poehlman trouvait sa structure bonne. Trop bonne. Aucune chance qu’il puisse refaire un progrès de 20 points : il était passé alors par une reconstruction drastique d’une boucle d’acides aminés très profonde, mouvement très risqué. Cheese se força à se concentrer sur des réarrangements plus petits. Il marqua deux points sur la structure, cliqua pour exécuter une torsion suivie d’une secousse d’une chaîne sur le côté. Cette section d’acides aminés s’ébroua comme un chien mouillé, mais le score ne changea pas.

Pendant ce temps, à Paris, de Jerphanion tourna sa propre version de la protéine et la regarda de l’intérieur. Une amélioration solide le rendrait imbattable. Il attrapa une boucle, la força à rentrer dans un trou mais poussa trop fort. La protéine explosa en un feu d’artifice d’alarmes et d’alertes d’acides aminés en collision. Il annula son mouvement.

Poehlman aussi essayait de compresser un autre point. Il tourna la protéine sur elle-même et repéra une boucle pendante à l’extrémité de l’hélice la plus large. Il la tira le long des flancs de la protéine et retenta une petite secousse. Le programme mit à jour son score. Poehlman exulta : “Je viens juste de repasser devant d’ 1 pt.”

À moins d’une minute de la fin, les parents de Poehlman descendirent pour retrouver leur fils se balançant nerveusement en face de son ordinateur tout en se rongeant les ongles. Il savait que de Jerphanion pouvait l’anéantir en un instant.
Finalement, la deadline était passée. Poehlman dansait de joie alors que sa structure 3D était téléchargée sur le serveur de Baker.
 »

Foldit semble marcher du tonnerre. Tous les deux ans est organisée une compétition entre les différents groupes de biochimistes mondiaux (CASP) pour prédire la structure de nouvelles protéines. 15 problèmes avaient été soumis en parallèle à Foldit, sur les 15, 7 ont été primés à CASP, dans la catégorie la plus difficile. Tous ont été résolus par l’équipe Poehlman. Ce qui a incité les concepteurs de Foldit à inviter son leader dans les labos, afin d’étudier soigneusement ses stratégies de repliement dans le but de les implémenter numériquement…

Prochain défi pour les joueurs de Foldit : la conception d’une protéine totalement artificielle, le genre de distraction geek qui peut mener au prix Nobel…

>> Billet initialement publié le 16 août 2010 sur le blog Matières Vivantes

>> Illustrations : dullhunk, Argonne National Laboratory,  Felix the Cat (Flickr, Licence CC),  logo et capture d’écran de Foldit.

1 commentaire

  1. Guillaume Hédouin le 07 octobre 2011 à 00:09

    L’utilisation sans pincettes de « Intelligent design » ou « dessein intelligent » est plutôt périlleuse ! non ?
    N’y avait-il pas d’autre façon d’exprimer le principe ?

Ajoutez un commentaire

Pas encore membre ? Inscrivez-vous pour laisser un commentaire ! Déjà membre ? Connectez-vous

Tous les contenus, sauf exception signalée, sont sous licence Creative Commons BY-NC-SA