L’industrie biotechnologique est constamment à la recherche de la mutation parfaite, où les propriétés de différentes protéines sont combinées synthétiquement pour obtenir l’effet souhaité. Il peut être nécessaire de développer de nouveaux médicaments ou enzymes qui prolongent la durée de conservation du yaourt, décomposent les plastiques dans la nature ou rendent la lessive efficace à basse température de l’eau.
De nouvelles recherches de DTU Compute et du Département d’informatique de l’Université de Copenhague (DIKU) peuvent à long terme aider l’industrie à accélérer le processus. Dans la revue Communication Natureles chercheurs expliquent comment une nouvelle façon d’utiliser l’apprentissage automatique (ML) dessine une carte des protéines, ce qui permet de nommer une liste candidate des protéines que vous devez examiner de plus près.
Ces dernières années, nous avons commencé à utiliser l’apprentissage automatique pour dresser un tableau des mutations autorisées dans les protéines. Le problème est cependant que vous obtenez des images différentes selon la méthode que vous utilisez, et même si vous entraînez le même modèle plusieurs fois, cela peut fournir des réponses différentes sur la façon dont la biologie est liée.
« Dans nos travaux, nous cherchons à rendre ce processus plus robuste, et nous montrons que vous pouvez extraire beaucoup plus d’informations biologiques que vous n’en avez pu auparavant. C’est un pas en avant important pour pouvoir explorer le paysage des mutations dans la recherche de protéines aux propriétés spéciales », explique la postdoc Nicki Skafte Detlefsen de la section Systèmes cognitifs de DTU Compute.
La carte des protéines
Une protéine est une chaîne d’acides aminés et une mutation se produit lorsqu’un seul de ces acides aminés de la chaîne est remplacé par un autre. Comme il existe 20 acides aminés naturels, cela signifie que le nombre de mutations augmente si rapidement qu’il est totalement impossible de toutes les étudier. Il y a plus de mutations possibles qu’il n’y a d’atomes dans l’univers, même si vous regardez de simples protéines. Il n’est pas possible de tout tester de manière expérimentale, vous devez donc être sélectif quant aux protéines que vous souhaitez essayer de produire par synthèse.
Les chercheurs de DIKU et DTU Compute ont utilisé leur modèle ML pour générer une image de la façon dont les protéines sont liées. En présentant le modèle pour de nombreux exemples de séquences de protéines, il apprend à dessiner une carte avec un point pour chaque protéine afin que les protéines étroitement liées soient placées à proximité les unes des autres tandis que les protéines éloignées sont placées loin les unes des autres.
Le modèle ML est basé sur les mathématiques et la géométrie développées pour dessiner des cartes. Imaginez que vous devez faire une carte du globe. Si vous zoomez sur le Danemark, vous pouvez facilement dessiner une carte sur un morceau de papier qui préserve la géographie. Mais si vous devez dessiner la terre, des erreurs se produiront parce que vous étirez le globe, de sorte que l’Arctique devient un long pays au lieu d’un pôle. Donc, sur la carte, la terre est déformée. Pour cette raison, la recherche en cartographie a développé de nombreuses mathématiques qui décrivent les distorsions et compensent les distorsions sur la carte.
C’est exactement la théorie que DIKU et DTU Compute ont pu étendre pour couvrir leur modèle d’apprentissage automatique (apprentissage profond) pour les protéines. Parce qu’ils maîtrisent la distorsion sur la carte, ils peuvent également la compenser.
« Cela nous permet de parler de ce qu’est une cible de distance sensible entre des protéines étroitement liées, puis nous pouvons soudainement la mesurer. De cette façon, nous pouvons tracer un chemin à travers la carte des protéines qui nous indique dans quelle direction nous nous attendons. une protéine pour se développer d’une autre, c’est-à-dire mutées, car elles sont toutes liées à l’évolution. De cette façon, le modèle ML peut mesurer une distance entre les protéines et tracer des chemins optimaux entre des protéines prometteuses », explique Wouter Boomsma, professeur associé au section pour l’apprentissage automatique chez DIKU.
Les chercheurs ont testé le modèle sur des données provenant de nombreuses protéines présentes dans la nature, où leur structure est connue, et ils peuvent voir que la distance entre les protéines commence à correspondre au développement évolutif des protéines, de sorte que les protéines qui sont proches de les uns des autres au cours de l’évolution sont placés à proximité les uns des autres.
« Nous sommes maintenant capables de mettre deux protéines sur la carte et de tracer la courbe entre elles. Sur le chemin entre les deux protéines se trouvent des protéines possibles, qui ont des propriétés étroitement liées. Ce n’est pas une garantie, mais c’est l’occasion d’avoir une hypothèse. sur les protéines que l’industrie biotechnologique devrait tester lors de la conception de nouvelles protéines », explique Søren Hauberg, professeur à la section Systèmes cognitifs de DTU Compute.
La collaboration unique entre DTU Compute et DIKU a été établie par le biais d’un nouveau centre d’apprentissage automatique dans les sciences de la vie (MLLS), qui a débuté l’année dernière avec le soutien de la Fondation Novo Nordisk. Au centre, des chercheurs en intelligence artificielle des deux universités travaillent ensemble pour résoudre les problèmes fondamentaux de l’apprentissage automatique motivés par des questions importantes dans le domaine de la biologie.
Les cartes de protéines développées font partie d’un projet à grande échelle qui s’étend de la recherche fondamentale aux applications industrielles, par exemple en collaboration avec Novozymes et Novo Nordisk.
Nicki Skafte Detlefsen et al, Apprendre des représentations significatives de séquences protéiques, Communication Nature (2022). DOI : 10.1038/s41467-022-29443-w