Von intelligenten Chatbots bis hin zu Apps, die ganze Artikel schreiben können: Künstliche Intelligenz (KI) wird zu einem immer allgegenwärtigeren Teil unseres Lebens. Michael Schon, wissenschaftlicher Mitarbeiter an der Wageningen University & Research, entwickelt ein KI-Tool, das Vergleiche nichtkodierender RNA in Pflanzengenomen durchführen kann. Das Tool soll künftig die Entwicklung neuer Pflanzensorten beschleunigen und vereinfachen, die beispielsweise resistenter gegen Dürre oder Krankheiten sind.
Proteine sind die Bausteine für Zellen in Organismen. Die Anweisungen zur Herstellung dieser Proteine werden durch RNA aus Genen ausgegeben (kodiert). Neben diesen kodierenden RNAs können einige Gene nicht-kodierende RNAs produzieren, also RNA, die keine Anweisungen zur Herstellung eines Proteins enthält.
Auch bei der Entwicklung von Organismen spiele diese Art von RNA eine wichtige Rolle, sagt Michael Schon. „Sie können zum Beispiel Gene aktivieren oder das Gegenteil tun und sie ausschalten. Das wirkt sich auf das Aussehen einer Pflanze und ihre Eigenschaften aus. Bestimmte wichtige nichtkodierende RNAs bestimmen auch, ob eine Pflanze überhaupt zur Reife gelangt.“
Verwandte innerhalb derselben Familie
Nicht-kodierende RNA könnte möglicherweise auch Aufschluss darüber geben, warum eine Pflanzenart zu einer bestimmten Familie gehört, aber unterschiedliche Eigenschaften aufweist. In früheren Forschungen identifizierte Schon nicht-kodierende RNAs von Arabidopsis thaliana (Ackerschmalwand). Diese Pflanze wird von Pflanzenwissenschaftlern als Modellorganismus verwendet.
„Arabidopsis gehört zur Familie der Brassicaceae, zusammen mit wichtigen Nutzpflanzen wie Brokkoli, Blumenkohl und Kohlrabi. Diese Familie ist auch als Senf- oder Kreuzblütlerfamilie bekannt. Es ist jedoch schwierig, nicht-kodierende RNAs von Arabidopsis mit denen anderer Pflanzen in der Familie zu vergleichen Senfgewächse, da sich frühere Arbeiten bei diesen Arten hauptsächlich auf proteinkodierende Gene konzentrierten.“
Begrenzte Annotation nicht-kodierender RNA
Das bedeutet, dass ein Vergleich zwischen Pflanzen eine separate Genannotation für die nicht-kodierende RNA für jede Kulturpflanze erfordert. Im Rahmen seines Veni-Projekts sucht Schon nach neuen Wegen, nicht-kodierende RNAs zu identifizieren, indem er das Wissen verwandter Arten nutzt.
„Für Pflanzen innerhalb der Senfgewächse sind mehr als 200 Genomsequenzen verfügbar. Jedes Genom wird als große Textdatei gespeichert, die aus Millionen von Buchstaben besteht, die die Basen eines DNA-Moleküls (A, C, T und G) darstellen. Weil das nicht -Kodierende Teile sind in diesen Genomen nicht richtig katalogisiert (annotiert), es ist unmöglich, alle in diesem Datenberg verstreuten nicht-kodierenden Gene zu vergleichen. Dafür brauche ich neue Strategien und Werkzeuge.
Ein kleiner Teil jedes Genoms
Das erste Problem besteht darin, zu wissen, wo im Genom gesucht werden muss. Eines der Tools, die Schon entwickelt, nennt er GeneSketch. Um die entsprechenden Teile verschiedener Genomen zu finden, verwendet er eine Methode namens Minimizer Sketch.
„Die Idee hinter der Minimizer-Skizze ist, dass man sich nur ein kleines Stück DNA – eine Skizze – ansehen muss und nicht die gesamte Sequenz“, sagt Schon. „Das bedeutet, dass man für einen Vergleich nur auf einige tausend Zeichen pro Genom achten muss, statt auf Millionen.“
Bisher wurde die Minimizer-Skizze verwendet Bauen Sie einen Baum der Primatenevolution, zu der auch Menschen und ihre nächsten Verwandten gehören. Es stellte sich heraus, dass aus Skizzen von weniger als 1 % des gesamten Genoms ein sehr genauer Stammbaum unserer Vorfahren erstellt werden kann. Eine Minimierungsskizze ist daher eine sehr effiziente Methode, um abzuschätzen, wie ähnlich DNA-Stücke einander sind, und sollte daher auch für den Vergleich von Genomen innerhalb der Senffamilie nützlich sein.“
Gleiche Technologie wie ChatGPT
Nachdem Sie wissen, wo Sie suchen müssen, besteht der nächste Schritt darin, zu verstehen, was Sie sehen. Die Technologie, die Schon in GeneSketch einsetzen will, ist die gleiche, die derzeit in anderen KI-Tools wie ChatGPT zum Einsatz kommt.
„Das ist so etwas wie ‚Transformator‘-Technologie“, sagt Schon.
„Sie können einen Transformator beispielsweise bitten, ein fehlendes Wort in einem Satz einzufügen. Zunächst gibt Ihnen der Transformator ein zufälliges Wort, weil er noch nie zuvor Wörter gesehen hat. Wenn Sie ihn jedoch anhand von Millionen von Beispielsätzen trainieren, lernt er langsam.“ die richtigen Wörter zu erraten, indem man auf Muster im Text achtet.
„Nach dem Training eignet sich ein großes Sprachmodell wie ChatGPT sehr gut für bestimmte Aufgaben, etwa das Beantworten von Fragen oder das Übersetzen von einer Sprache in eine andere. Ein Transformator kann darauf trainiert werden, nicht nur menschliche Sprachen zu lernen, sondern auch die Sprache der DNA, die ihre eigenen Funktionen hat.“ Ich arbeite an einem Modell, um Muster in der DNA vieler verschiedener Arten zu erkennen und diese Muster in eine Sprache zu übersetzen, die wir als Menschen verstehen können.
Das Modell muss trainiert werden
Schon wird den Transformator für GeneSketch trainieren, um darauf zu achten, wie sich Gene zwischen verschiedenen Arten verändern, insbesondere bei nicht-kodierenden Genen. Aber er geht davon aus, dass er auf dem Weg dorthin auf einige Herausforderungen stoßen wird.
„Ein wichtiger Punkt ist die Zuverlässigkeit. Der Transformer ist eine relativ neue Technologie und macht Fehler. ChatGPT wurde zum Beispiel auf vielen verschiedenen Textquellen trainiert, aber wenn man ihm ein Thema stellt, das er während des Trainings nie gesehen hat, muss er das tun.“ Sie hoffen, dass es auf der Grundlage der Muster, die es gesehen hat, etwas Vernünftiges erfindet, aber das ist nie eine Garantie. Sie möchten natürlich vermeiden, dass ein Transformator Unsinn produziert, aber er trainiert kann viel Zeit und Geld kosten. Ist es besser, das Modell komplett von Grund auf zu trainieren oder auf vorhandenen Modellen aufzubauen?
Potenzial des GeneSketch
Schon hofft, nach dem ersten Jahr des im Oktober 2023 gestarteten Projekts über einen Prototypen des GeneSketch zu verfügen. Er will damit Genannotationen für die gesamte Senffamilie erstellen.
Das Tool könnte nicht nur für den Forschungssektor, sondern auch für die Agrarindustrie nützlich sein, sagt Schon. „Es könnte beispielsweise Saatgutzüchtern eine schnelle Möglichkeit bieten, die DNA einer Nutzpflanze und ihrer wilden Verwandten zu verstehen. Indem sie mehr darüber erfahren, wie Nutzpflanzen im Laufe der Jahrhunderte einzigartige Merkmale entwickeln konnten, könnten Züchter fundiertere Entscheidungen treffen.“ Die Verbesserung der Eigenschaften, etwa die Stärkung der Widerstandsfähigkeit der Pflanzen gegenüber dem Klimawandel, könnte also enorme Auswirkungen haben.