Une méthode d’ingénierie des protéines utilisant des expériences simples et rentables et des modèles d’apprentissage automatique peut prédire quelles protéines seront efficaces pour un objectif donné, selon une nouvelle étude menée par des chercheurs de l’Université du Michigan.
La méthode a un potentiel considérable pour assembler des protéines et des peptides pour des applications allant des outils industriels aux thérapeutiques. Par exemple, cette technique peut aider à accélérer le développement de peptides stabilisés pour traiter des maladies d’une manière que les médicaments actuels ne peuvent pas permettre, notamment en améliorant la façon dont les anticorps se lient exclusivement à leurs cibles en immunothérapie.
« Les règles qui régissent le fonctionnement des protéines, de la séquence à la structure en passant par la fonction, sont très compliquées. Contribuer à l’interprétabilité des efforts d’ingénierie des protéines est particulièrement passionnant », a déclaré Marshall Case, titulaire d’un doctorat en génie chimique à l’UM et premier auteur de l’étude. étude.
Actuellement, la plupart des expériences d’ingénierie des protéines utilisent des méthodes complexes et exigeantes en main-d’œuvre et des instruments coûteux pour obtenir des données très précises. Le long processus limite la quantité de données pouvant être acquises, et les méthodes complexes sont difficiles à apprendre et à exécuter, un compromis en termes de précision.
« Notre méthode a montré que pour de nombreuses applications, vous pouvez éviter ces méthodes compliquées », a déclaré Case, aujourd’hui biologiste informatique chez Manifold Biotechnologies.
La méthode mise à jour commence par trier les cellules en deux groupes, appelés tri binaire, selon qu’elles expriment ou non un trait souhaité, comme la liaison à des molécules fluorescentes. Ensuite, les cellules sont séquencées pour obtenir les codes ADN sous-jacents des protéines d’intérêt. Les algorithmes d’apprentissage automatique réduisent ensuite le bruit dans les données de séquençage pour identifier la meilleure protéine possible.
« Plutôt que de sélectionner le ‘meilleur livre’ de la bibliothèque, c’est comme lire de nombreux livres, puis rassembler différentes pages de différentes histoires pour créer le meilleur livre possible, même s’il ne se trouvait pas dans votre bibliothèque d’origine », a déclaré Greg. Thurber, professeur agrégé de génie chimique à l’UM et auteur correspondant de l’article. « J’ai été surpris de constater la robustesse de cette technique utilisant des données de tri simples et binaires. »
Améliorant encore son accessibilité, la méthode utilise des modèles d’apprentissage automatique linéaires, plus faciles à interpréter que les modèles comportant des dizaines de paramètres.
« Comme nous pouvons apprendre des règles physiques sur le fonctionnement réel des protéines, nous pouvons utiliser des équations linéaires pour modéliser le comportement non linéaire des protéines et ainsi fabriquer de meilleurs médicaments », a déclaré Case.
La recherche est publié dans la revue Actes de l’Académie nationale des sciences et a été menée au Advanced Genomics Core, au Center for Structural Biology, au Biological Mass Spectrometry Facility et au Proteomics & Peptide Synthesis Core.
Plus d’information:
Marshall Case et al, Apprentissage automatique pour prédire les propriétés continues des protéines à partir de données de tri cellulaire binaire et cartographier l’espace de séquence invisible, Actes de l’Académie nationale des sciences (2024). DOI : 10.1073/pnas.2311726121