Des chercheurs du Royaume-Uni espèrent qu’une nouvelle base de données accessible au public qu’ils ont créée se réduira au lieu de croître avec le temps. C’est parce qu’il s’agit d’un recueil de milliers de protéines sous-étudiées codées par des gènes du génome humain, dont l’existence est connue mais dont les fonctions ne le sont généralement pas.
La base de données, surnommée « unknome », est l’œuvre de Matthew Freeman de la Dunn School of Pathology, Université d’Oxford, Angleterre, et de Sean Munro du MRC Laboratory of Molecular Biology à Cambridge, Angleterre, et de leurs collègues, et est décrite dans le revue en libre accès PLOS Biologie. Leurs propres enquêtes sur un sous-ensemble de protéines dans la base de données révèlent qu’une majorité contribue à d’importantes fonctions cellulaires, notamment le développement et la résilience au stress.
Le séquençage du génome humain a clairement montré qu’il code pour des milliers de séquences protéiques probables dont les identités et les fonctions sont encore inconnues. Il y a plusieurs raisons à cela, notamment la tendance à concentrer les rares dollars de recherche sur des cibles déjà connues et le manque d’outils, y compris les anticorps, pour interroger les cellules sur la fonction de ces protéines. Mais les risques d’ignorer ces protéines sont importants, selon les auteurs, car il est probable que certaines, peut-être beaucoup, jouent un rôle important dans les processus cellulaires critiques et peuvent à la fois fournir des informations et des cibles pour une intervention thérapeutique.
Pour favoriser une exploration plus rapide de ces protéines, les auteurs ont créé la base de données unknome (www.unknome.org), qui attribue à chaque protéine un score de « connaissance », reflétant les informations contenues dans la littérature scientifique sur la fonction, la conservation entre les espèces, la compartimentation subcellulaire et d’autres éléments.
Sur la base de ce système, il existe plusieurs milliers de protéines dont la connaissance est proche de zéro. Les protéines d’organismes modèles sont incluses, ainsi que celles du génome humain. La base de données est ouverte à tous et est personnalisable, permettant à l’utilisateur de fournir ses propres pondérations à différents éléments, générant ainsi son propre ensemble de scores de notoriété pour hiérarchiser ses propres recherches.
Pour tester l’utilité de la base de données, les auteurs ont choisi 260 gènes chez l’homme pour lesquels il existait des gènes comparables chez les mouches et qui avaient des scores de connaissance de 1 ou moins chez les deux espèces, indiquant que presque rien n’était connu à leur sujet. Pour beaucoup d’entre eux, un knock-out complet du gène était incompatible avec la vie à la mouche ; des knockdowns partiels ou des knockdowns spécifiques à des tissus ont conduit à la découverte qu’une grande partie contribuait aux fonctions essentielles influençant la fertilité, le développement, la croissance des tissus, le contrôle de la qualité des protéines ou la résistance au stress.
Les résultats suggèrent que, malgré des décennies d’études détaillées, il reste des milliers de gènes de mouches à comprendre, même au niveau le plus élémentaire, et il en va clairement de même pour le génome humain. « Ces gènes non caractérisés n’ont pas mérité leur négligence », a déclaré Munro. « Notre base de données fournit une plate-forme puissante, polyvalente et efficace pour identifier et sélectionner des gènes importants de fonction inconnue pour analyse, accélérant ainsi la fermeture de l’écart dans les connaissances biologiques que représente l’inconnu. »
Munro ajoute : « Le rôle de milliers de protéines humaines reste flou et pourtant la recherche a tendance à se concentrer sur celles qui sont déjà bien comprises. Pour aider à résoudre ce problème, nous avons créé une base de données Unknome qui classe les protéines en fonction du peu de connaissances à leur sujet, puis effectué des criblages fonctionnels sur une sélection de ces protéines mystérieuses pour démontrer comment l’ignorance peut conduire à la découverte biologique. »
Plus d’information:
Rocha JJ, Jayaram SA, Stevens TJ, Muschalik N, Shah RD, Emran S, et al. (2023) Functional unknomics: Screening systématique des gènes conservés de fonction inconnue, PLoS Biologie (2023). DOI : 10.1371/journal.pbio.3002222