Methode des maschinellen Lernens beleuchtet grundlegende Aspekte der Evolution

Die EU schlaegt einen 12 Milliarden Dollar Plan vor um den wachsenden Cybersicherheitsbedrohungen

Ein Forscherteam am Computational Biology Department (CBD) der Carnegie Mellon University hat neue Methoden entwickelt, um Teile des Genoms zu identifizieren, die für das Verständnis der Entwicklung bestimmter Merkmale von Arten entscheidend sind.

Die Arbeit, erschienen in Wissenschaft und geleitet von Fakultät für Informatik, Assistenzprofessor Andreas Pfenning, trägt zum Zoonomia-Projekt, ein Versuch, das gesamte Genom von 240 Säugetieren zu sequenzieren, um grundlegende Aspekte von Genen und Merkmalen mit wichtigen Auswirkungen auf den Schutz der menschlichen Gesundheit und die Erhaltung der biologischen Vielfalt zu beleuchten. Um diese neuen, großen Datensätze zu verstehen, ist die neueste Technologie der künstlichen Intelligenz (KI) und des maschinellen Lernens (ML) erforderlich.

Bestimmte Teile des Genoms, die als kodierende DNA bekannt sind, liefern Anweisungen zur Herstellung von Proteinen, den unverzichtbaren Regulatoren der Zellfunktion. Im Laufe der Zeit ergeben sich geringfügige Unterschiede in den Anweisungen, die die codierende DNA für die Proteinproduktion bereitstellt, und wird zu einer der treibenden Kräfte der Evolution.

Doch diese proteinproduzierenden DNA-Stücke machen nur ein mageres Prozent der drei Milliarden Nukleotidpaare aus, aus denen das menschliche Genom besteht. Andere nichtkodierende DNA-Regionen, sogenannte Enhancer, bestimmen, wann und wo bestimmte Gene aktiv sind.

Das CMU-Team hat einen ML-Ansatz namens Tissue-Aware Conservation Inference Toolkit (TACIT) entwickelt, um mehr über die Funktionsweise dieser Bereiche zu erfahren. Während ein traditionelles Evolutionsmodell Veränderungen in der Gehirngröße einer Spezies durch eine Reihe von Mutationen in einer Gruppe von Genen demonstrieren könnte, können Enhancer einfach Gene ein- oder ausschalten und dasselbe Ergebnis erzielen.

Die meisten Forschungen zur Evolution von Säugetieren konzentrieren sich auf die Teile des Genoms, die sich über Millionen von Jahren relativ wenig verändert haben. Diese konservierten Regionen, insbesondere Gene, geben Einblick in grundlegende Elemente in der DNA von Säugetieren, die einzigartige Merkmale einzelner Arten hervorheben.

Die Herausforderung für Pfenning und sein Team besteht darin, dass sich die DNA-Enhancer-Regionen im Laufe der Zeit in ihrer Sequenz, aber nicht in ihrer Funktion ändern können. Zum Beispiel reguliert ein gut untersuchter Islet-Enhancer trotz mehr als 700 Millionen Jahren Evolution die Genniveaus bei Menschen, Mäusen, Zebrafischen und Schwämmen in ähnlichen Mustern. Dies macht es viel schwieriger, sie mit herkömmlichen Methoden zur Untersuchung einzelner Nukleotide zu identifizieren und zu verfolgen.

TACIT begegnet diesem Problem, indem es genau vorhersagt, ob ein Enhancer in einem bestimmten Zelltyp oder Gewebe aktiv sein wird. Es ermöglicht Wissenschaftlern, diese wichtigen Enhancer-Regionen in einem neu sequenzierten Genom zu identifizieren, ohne ein neues Laborexperiment durchzuführen, was potenzielle Anwendungen in der Naturschutzbiologie bietet. Das Toolkit kann Vorhersagen darüber treffen, wie Verstärker in gefährdeten oder bedrohten Arten funktionieren, wo kontrollierte Laborexperimente unmöglich sind.

„TACIT bietet eine beispiellose Möglichkeit, die Funktion von Teilen des Genoms außerhalb von Genen bei Arten vorherzusagen, für die wir keine primären Gewebeproben erhalten können, wie z. B. beim Großen Tümmler und dem vom Aussterben bedrohten Spitzmaulnashorn“, sagte Irene Kaplow, eine Hauptautorin von das Papier und ein Postdoktorand und Lane Fellow in CBD. „Da sich ML-Methoden und Methoden zur Identifizierung von Enhancern aus bestimmten Zelltypen verbessern, gehe ich davon aus, dass wir in der Lage sein werden, die Funktionen von TACIT zu erweitern, um neue Arten von Einblicken in die Evolution von Säugetieren zu liefern.“

Nach der Vorhersage der Funktion genomischer Sequenzen bei den 240 Säugetieren wendete das Forschungsteam TACIT an, um die Teile des Genoms zu identifizieren, die sich in Säugetieren für größere Gehirne entwickelt haben, und stellte fest, dass sich diese tendenziell in der Nähe von Genen befanden, deren Mutationen mit dem menschlichen Gehirn in Verbindung gebracht wurden. Größenstörungen. Sie identifizierten auch einen Enhancer, der mit dem Sozialverhalten bei Säugetieren assoziiert ist und spezifisch für einen bestimmten Subtyp von Neuronen ist, das Parvalbumin-positive inhibitorische Interneuron.

„Wir glauben, dass dies nur die Spitze des Eisbergs ist“, sagte Pfenning, Seniorautor der Studie. „Wir haben interessante Beziehungen gefunden, indem wir TACIT auf eine kleine Anzahl von Geweben und eine kleine Anzahl von Merkmalen angewendet haben, aber es gibt noch viel mehr zu entdecken.“

Mehr Informationen:
Irene M. Kaplow et al., Zusammenhang zwischen der genetischen Variation von Enhancern bei Säugetieren und komplexen Phänotypen mithilfe von maschinellem Lernen, Wissenschaft (2023). DOI: 10.1126/science.abm7993

Bereitgestellt von der Carnegie Mellon University

ph-tech