Grand espoir pour le problème du repliement des protéines: l’IA, de nouveau bat les records.

Otmane El aloi
6 min readJan 29, 2021

--

I. C’est quoi une protéine ?

Les protéines, on les trouve partout dans la nourriture, dans la viande, les œufs, les poissons…et surtout qu’elles se trouvent aussi dans le corps humains, et maintes sont leurs fonctions: les protéines régulatrices, qui modulent l’activité d’autres protéines, les protéines de signalisation, qui captent les signaux extérieurs, et assurent leur transmission dans la cellule ou l’organisme, les protéines motrices, permettant aux cellules ou organismes de se mouvoir. En résumé c’est la roue motrice des êtres vivants.

Ils appartiennent à une classe des macromolécules, constituées principalement d’un enchaînement d’acides aminés liés entre eux. Toutes les protéines de tous les êtres vivants connus ne sont constituées — à quelques exceptions près — que de 22 acides aminés différents, alors qu’il existe 30 mille protéines différentes chez l’être humain. De plus, il existe un autre élément dans la composition qui caractérise une protéine d’une autre ; et bien c’est sa forme.

Après être construite, la protéine se replie sur elle-même pour acquérir une forme spécifique, Ceci est un principe général de la physique qui dit que les corps physiques tendent toujours à minimiser leurs énergies.

Ceci nous montre l’intérêt de l’étude de la forme de la protéine. C’est pour cette raison que les biologistes cherchent à repérer les formes des protéines rencontrées. Or c’est un peu délicat : c’est une problématique relevée il y a 50 ans.

II. Problématique :

  • Comment prédire la forme des protéines en partant de la succession des acides aminés qui les composent?
  • Pourquoi s’intéresser à cette problématique?

“I think that we shall be able to get a more thorough understanding of the nature of disease in general by investigating the molecules that make up the human body, including the abnormal molecules, and that this understanding will permit…the problem of disease to be attacked in a more straightforward manner such that new methods of therapy will be developed.” LINUS PAULING, 1960

III. Techniques employées :

Pour attaquer cette problématique, diverses techniques ont été utilisées :

  • Des techniques expérimentales : comme la microscopie cryoélectronique, la résonance magnétique nucléaire et la cristallographie par diffraction des rayons X (C’est beau mais laissons cela pour un prochain article, lien pour les plus motivés). Cette dernière technique nécessite des conditions physiques très particulières, ce qui la rend coûteuse, et pas toujours applicable.
  • Des techniques de simulation numérique. 
  • Techniques employant les dernières avancées en IA.

Afin de confronter ces différentes approches, une compétition a été créée en 1994 sous le nom de CASP (Critical Assessment of protein Structure Prediction). Elle est organisée tous les deux ans, et plus de 100 groupes de chercheurs y participent (plus de détails: Here), et ils ont le choix sur la catégorie de prédiction sur laquelle ils souhaitent être évalués :

Exemple de catégories proposées :

  • Rankings: Regular targets (T)
  • Rankings: Multimeric targets (H,To) 
  • Rankings: Inter-domain prediction 
  • Rankings: Refinement targets (R) 
  • Rankings: Contact predictions

En 2020, l’équipe DeepMind de Google semble être dans la bonne voie. En effet, même les organisateurs de la compétition témoignent de ceci en disant :

« Progrès sans précédent dans la capacité des méthodes de calcul à prédire la structure des protéines »

Ils ont employé des techniques basées sur un réseau de neurones profond qu’ils ont appelé AlphaFold, la forte disponibilité des données rend cette approche possible et plus efficace. En effet, l’Équipe DeepMind a décroché la première place dans la catégorie de Free Modeling, c’est une catégorie très difficile vu qu’elle ne se base pas sur des structures de protéines prédéterminées.

Pour regarder tous les classements je vous invite à consulter le site officiel de la compétition CASP.

Détail vulgarisé de l’algorithme employé pour faire la prédiction :

  1. C’est quoi un réseau de neurones ?

Avant d’aborder l’algorithme de DeepMind (AlphaFold2), je vous mets une vulgarisation du fonctionnement d’un réseau de neurones, qui est une composante cruciale dans AlphaFold2.

Comme règle générale, un réseau de neurones repose sur un grand nombre de processeurs opérant en parallèle et organisés en tiers. Le premier tiers reçoit les entrées d’informations brutes, un peu comme les nerfs optiques de l’être humain lorsqu’il traite des signaux visuels. Ensuite, chaque tiers reçoit les sorties d’informations du tiers précédent. On retrouve le même processus chez l’Homme, lorsque les neurones reçoivent des signaux en provenance des neurones proches du nerf optique. Le dernier tiers, quant à lui, produit les résultats du système.

2. Explication simplifiée de l’algo AlphaFold2 :

Et maintenant que vous êtes plus familier avec cette technique de l’apprentissage profond, creusons encore plus pour découvrir cette belle avancée de DeepMind. En regardant la structure d’un réseau de neurones, on veut vite lui donner la séquence des acides aminés qui compose la protéine en entrée, en espérant qu’il nous donne la structure de la protéine en sortie. En réalité c’est plus compliqué. Mais ne vous inquiétez pas, je vous simplifierai la démarche. AlphaFold2 se compose de deux grandes parties:

  • La construction d’une matrice de distance entre les paires des acides aminés et la détermination des angles entre les liaisons chimiques qui les séparent. 
  • La prédiction de la forme de la protéine.

2.1 Qu’est-ce que c’est que la matrice de distance?

Ce n’est qu’un tableau où on regroupe toute les paires de distances entres certains points, dans notre cas entre acides aminés.

Ou en utilisant des gradients de couleurs pour bien identifier les points les plus proches.

La matrice construite (sous la base d’un réseau de neurones aussi) permet au programme AlphaFold d’évaluer la performance de sa prédiction et donc de modifier sa structure (les coefficients) afin de converger vers la bonne forme.

Le flux de prédiction est résumé dans la figure qui suit:

Conclusion :

AlphaFold2 est une véritable avancée, pour la prédiction de la forme des protéines, mais il reste tout de même pas très parfait. En effet, même s’il arrive à prédire la forme de plusieurs protéines, il se plante encore sur d’autres comme le montrent les deux figures ci-dessous:

Cette approche pourrait servir à améliorer la compréhension du corps et de son fonctionnement, ce qui permettra aux scientifiques de cibler et de concevoir de meilleurs traitements pathologiques. Certaines maladies rares impliquent des mutations dans un seul gène, entraînant une protéine mal formée qui peut avoir des effets profonds sur la santé d’un organisme entier. Un outil comme AlphaFold pourrait aider les chercheurs sur les maladies rares à prédire rapidement et économiquement la forme d’une protéine d’intérêt. À mesure que les scientifiques acquièrent davantage de connaissances sur les formes des protéines et leur fonctionnement grâce à des simulations et des modèles, cette méthode peut éventuellement aider à contribuer à la découverte de médicaments efficaces, tout en réduisant les coûts associés à l’expérimentation.

Sources :

--

--

Otmane El aloi
Otmane El aloi

Written by Otmane El aloi

Hi! I am an engineering student, doing applied mathematics for data science as a major. I like learning new things.

No responses yet