Die Astronomie erzeugt Berge von Daten – perfekt für die KI

Künstliche Intelligenz für den Privatgebrauch findet ihren Weg in den Alltag der Menschen, indem sie Texte und Bilder generiert und Aufgaben automatisiert. Doch Astronomen benötigen eine viel leistungsfähigere, spezialisiertere KI. Die riesigen Mengen an Beobachtungsdaten, die von modernen Teleskopen und Observatorien generiert werden, sind für Astronomen kaum zu erschließen.

Ein Team von Wissenschaftlern entwickelt eine neue KI für astronomische Daten namens AstroPT. Sie haben sie in einem neues Papier mit dem Titel „AstroPT: Skalierung großer Beobachtungsmodelle für die Astronomie“. Das Papier ist verfügbar auf der arXiv Preprint-Server und der Hauptautor ist Michael J. Smith, ein Datenwissenschaftler und Astronom von Aspia Space.

Astronomen stehen vor einer wachsenden Datenflut, die noch gewaltig zunehmen wird, wenn das Vera Rubin Observatory (VRO) 2025 online geht. Das VRO verfügt über die größte Kamera der Welt, und jedes seiner Bilder könnte 1.500 Großbildfernseher füllen. Während seiner 10-jährigen Mission wird das VRO etwa 0,5 Exabyte an Daten erzeugen, also etwa 50.000 Mal mehr Daten, als in der US-Kongressbibliothek enthalten sind.

Auch andere Teleskope mit riesigen Spiegeln nähern sich ihrem ersten Licht. Das Giant Magellan Telescope, das Thirty Meter Telescope und das European Extremely Large Telescope werden zusammen eine überwältigende Menge an Daten erzeugen.

Daten zu haben, die nicht verarbeitet werden können, ist dasselbe, als ob man sie überhaupt nicht hätte. Sie sind im Grunde inaktiv und haben keine Bedeutung, bis sie irgendwie verarbeitet werden. „Wenn man zu viele Daten hat und nicht über die Technologie verfügt, sie zu verarbeiten, ist es, als ob man keine Daten hätte“, sagt Cecilia Garraffo, Computerastrophysikerin am Harvard-Smithsonian Center for Astrophysics.

Hier kommt AstroPT ins Spiel.

AstroPT steht für Astro Pretrained Transformer, wobei ein Transformer eine bestimmte Art von KI ist. Transformer können eine Eingabesequenz in eine Ausgabesequenz ändern oder umwandeln. KI muss trainiert werden, und AstroPT wurde anhand von 8,6 Millionen 512 x 512 Pixel großen Bildern aus dem DESI Legacy Survey Data Release 8 trainiert. DESI ist das Dark Energy Spectroscopic Instrument. DESI untersucht die Wirkung der Dunklen Energie, indem es die optischen Spektren von zig Millionen Galaxien und Quasaren erfasst.

AstroPT und ähnliche KIs arbeiten mit „Tokens“. Tokens sind visuelle Elemente in einem größeren Bild, die eine Bedeutung haben. Indem Bilder in Tokens zerlegt werden, kann eine KI die größere Bedeutung eines Bildes verstehen. AstroPT kann einzelne Tokens in eine zusammenhängende Ausgabe umwandeln.

AstroPT wurde anhand visueller Token trainiert. Die Idee besteht darin, der KI beizubringen, das nächste Token vorherzusagen. Je gründlicher sie darauf trainiert wurde, desto besser wird sie funktionieren.

„Wir haben gezeigt, dass einfache generative autoregressive Modelle wissenschaftlich nützliche Informationen lernen können, wenn sie mit der Ersatzaufgabe vortrainiert werden, den nächsten 16 × 16 Pixel großen Patch in einer Folge von Galaxienbildpatches vorherzusagen“, schreiben die Autoren. In diesem Schema ist jeder Bildpatch ein Token.

Eines der Hindernisse beim Training von KI wie AstroPT betrifft das, was KI-Wissenschaftler die „Token-Krise“ nennen. Um effektiv zu sein, muss KI mit einer großen Anzahl hochwertiger Token trainiert werden. In einem Artikel aus dem Jahr 2023 erklärte ein anderes Forscherteam, dass ein Mangel an Token die Wirksamkeit einiger KIs wie LLMs oder Large Language Models einschränken kann. „Modernste LLMs erfordern für das Vortraining riesige Mengen an Textdaten im Internetmaßstab“, schrieben sie. „Leider … ist die Wachstumsrate hochwertiger Textdaten im Internet viel langsamer als die Wachstumsrate der von LLMs benötigten Daten.“

AstroPT steht vor dem gleichen Problem: einem Mangel an hochwertigen Tokens, mit denen trainiert werden kann. Wie andere KIs verwendet es LOMs oder Large Observation Models. Das Team sagt, dass ihre bisherigen Ergebnisse darauf hindeuten, dass AstroPT die Token-Krise durch die Verwendung von Daten aus Beobachtungen lösen kann. „Dies ist ein vielversprechendes Ergebnis, das darauf hindeutet, dass Daten aus den Beobachtungswissenschaften Daten aus anderen Bereichen ergänzen würden, wenn sie zum Vortraining eines einzelnen multimodalen LOM verwendet würden, und weist daher auf die Verwendung von Beobachtungsdaten als eine Lösung für die ‚Token-Krise‘ hin.“

KI-Entwickler sind bestrebt, Lösungen für die Token-Krise und andere KI-Herausforderungen zu finden.

Ohne bessere KI wird ein Engpass bei der Datenverarbeitung Astronomen und Astrophysiker daran hindern, aus den riesigen Datenmengen, die bald eintreffen werden, Entdeckungen zu machen. Kann AstroPT helfen?

Die Autoren hoffen, dass dies gelingt, aber es muss noch viel weiterentwickelt werden. Sie sagen, sie seien offen für die Zusammenarbeit mit anderen, um AstroPT zu verbessern. Um dies zu unterstützen, folgten sie so genau wie möglich den „aktuell führenden Community-Modellen“. Sie nennen es ein „für alle offenes Projekt“.

„Wir haben diese Entscheidungen in der Überzeugung getroffen, dass eine gemeinschaftliche Entwicklung in der Community den schnellsten Weg zur Realisierung eines Open-Source-Beobachtungsmodells im Webmaßstab ebnet“, schreiben sie.

„Wir laden potenzielle Mitarbeiter herzlich ein, sich uns anzuschließen“, schließen sie.

Es wird interessant sein zu sehen, wie KI-Entwickler mit der riesigen Menge an astronomischen Daten Schritt halten können, die auf uns zukommen.

Mehr Informationen:
Michael J. Smith et al, AstroPT: Skalierung großer Beobachtungsmodelle für die Astronomie, arXiv (2024). DOI: 10.48550/arxiv.2405.14930

Informationen zur Zeitschrift:
arXiv

Zur Verfügung gestellt von Universe Today

ph-tech