L’équipe développe un algorithme d’IA universel pour le nettoyage en profondeur des données génomiques unicellulaires

Tous tels nach Plastik Mit zunehmendem Abfall augmente auch das

Tout comme interroger une seule personne sur sa santé fournira des informations sur mesure et personnalisées impossibles à glaner dans un grand sondage, le génome ou le transcriptome d’une cellule individuelle peut fournir beaucoup plus d’informations sur sa place dans les systèmes vivants que le séquençage d’un lot entier de cellules. Mais jusqu’à ces dernières années, la technologie n’existait pas pour obtenir ces données génomiques à haute résolution – et jusqu’à aujourd’hui, il n’existait aucun moyen fiable de garantir la haute qualité et l’utilité de ces données.

Des chercheurs de l’Université de Caroline du Nord à Charlotte, dirigés par le Dr Weijun Luo et le Dr Cory Brouwer, ont développé un algorithme d’intelligence artificielle pour « nettoyer » les données de séquençage d’ARN unicellulaire bruyant (scRNA-Seq). L’étude, « A Universal Deep Neural Network for In-Depth Cleaning of Single-Cell RNA-Seq Data », a été publiée dans Communication Nature le 7 avril 2022.

De l’identification des gènes spécifiques associés à la drépanocytose et au cancer du sein à la création des vaccins à ARNm dans la pandémie de COVID-19 en cours, les scientifiques ont recherché des génomes pour percer les secrets de la vie depuis le projet du génome humain des années 1990. La technologie a fait un bond depuis ces premiers jours de regroupement de milliers de cellules pour décrypter les millions de paires de bases qui composent l’information génétique, et en 2009, les chercheurs ont créé le scRNA-Seq, désormais largement utilisé dans la recherche biomédicale, qui ne séquence que le transcriptome ou l’exprimé. partie du génome dans une seule cellule d’un organisme vivant.

Malheureusement, les données scRNA-Seq sont très bruyantes et comportent de nombreuses erreurs et problèmes de qualité. Le séquençage d’une seule cellule plutôt que de plusieurs cellules entraîne de fréquents «abandons» – des gènes manquants dans les données. Une seule cellule, comme une seule personne, peut avoir ses propres problèmes de santé ou se trouver à un stade délicat de son cycle de vie – elle vient peut-être de se diviser ou d’être en voie de mort cellulaire, ce qui peut créer davantage d’erreurs ou de variations techniques dans les données scRNA-Seq. Outre les problèmes spécifiques à une seule cellule, le profilage génomique s’accompagne généralement de problèmes « normaux » d’erreurs de séquençage. Toutes ces erreurs doivent être « nettoyées » des données avant de pouvoir être utilisées ou interprétées, c’est là qu’intervient le nouvel algorithme d’IA.

L’algorithme, appelé AutoClass, est une avancée par rapport aux méthodes statistiques existantes. La plupart des méthodes existantes supposent que les erreurs (ou bruits) suivraient une certaine distribution prédéfinie, ou quelle est la probabilité que les erreurs se produisent et quelle pourrait être leur ampleur. Les méthodes existantes sont souvent incapables de nettoyer complètement les données pour révéler des signaux biologiques, et peuvent même ajouter de nouvelles erreurs en raison de leurs hypothèses erronées sur la distribution des données. À l’inverse, AutoClass ne fait aucune hypothèse de distribution ; par conséquent, il peut corriger efficacement une large gamme de bruits ou de variations techniques.

« AutoClass est un algorithme d’IA basé sur un réseau neuronal profond spécial conçu pour maximiser à la fois la suppression du bruit et la rétention du signal. » Le Dr Luo a déclaré : « L’IA apprend par elle-même à différencier le signal du bruit dans les données en voyant suffisamment de données. Habituellement, plus elle voit de données, mieux elle est performante.

Dans l’étude, le Dr Luo et son équipe ont démontré qu’AutoClass peut reconstruire des données scRNA-Seq de haute qualité et améliorer l’analyse en aval sous plusieurs aspects. De plus, AutoClass est robuste et fonctionne bien dans divers types et conditions de données scRNA-Seq.

AutoClass est très efficace et évolutif, et fonctionne bien avec des données d’une large gamme de tailles d’échantillons et de tailles de fonctionnalités, et fonctionne sans problème même sur un PC ou un ordinateur portable ordinaire. AutoClass est open source et disponible en ligne.

Plus d’information:
Hui Li et al, Un réseau de neurones profond universel pour le nettoyage en profondeur des données RNA-Seq unicellulaires, Communication Nature (2022). DOI : 10.1038/s41467-022-29576-y

Fourni par l’Université de Caroline du Nord à Charlotte

ph-tech