25 Jahre Daten aus umfangreichen Fusionsenergie-Experimenten in der „Cloud“ offen und für jedermann verfügbar

Bei den Hochtemperatur-Fusionsplasma-Experimenten, die im Large Helical Device (LHD) des National Institute for Fusion Science (NIFS) durchgeführt wurden, wurde im Februar 2022 durch den Einsatz einer ganzen Reihe hochmoderner Plasmadiagnosegeräte der Weltrekord für die erfasste Datenmenge von 0,92 Terabyte (TB) pro Experiment erneuert.

Der Internationale Thermonukleare Versuchsreaktor (ITER), der derzeit in Frankreich in internationaler Zusammenarbeit von sieben Parteien gebaut wird, soll in 10 Jahren etwa 1 TB Daten pro Experiment erzeugen, und LHD ist derzeit das einzige Experiment auf der Welt, das eng mit ITER verknüpfte Daten produziert.

Die Förderung von „Open Science“, bei der große Forschungsdatenbestände genutzt und in der Gesellschaft geteilt werden, wurde auf dem G7-Treffen 2023 in Sendai, Japan, als gemeinsame Erklärung angenommen. NIFS begann mit umfassenden Bemühungen um Open Science, indem es im Februar 2022 die „Open Access Policy“ und im Oktober 2022 die „Research Data Policy“ festlegte.

Seit 2023 sind alle aus LHD-Experimenten gewonnenen Daten unmittelbar nach der Erfassung und Analyse öffentlich zugänglich. Alle Quellcodes der Computerprogramme zur Datenanalyse sind ebenfalls frei verfügbar.

In der offenen Wissenschaft gilt das FAIR-Prinzip als wichtiger Indikator. NIFS betrachtet die Erfüllung der FAIR-Anforderungen an diagnostische Roh- und Analysedaten, also wertvolle digitale Assets des LHD-Projekts, als wichtiges Anliegen der LHD Academic Research Platform und setzt seine Bemühungen fort.

Obwohl LHD-Experimentdaten zu einem der weltweit größten Datenbestände geworden sind und von nationalen und internationalen Fusionsplasmaforschern häufig verwendet werden, wurden sie selten für andere Zwecke, wie etwa in anderen Forschungsbereichen oder in der Industrie, verwendet. Dies kann daran liegen, dass 1) es schwierig ist, aus einer Vielzahl von Experimentdaten die Daten von Interesse zu finden, und 2) die enorme Anzahl und die enorme Größe der einzelnen Daten es schwierig machen, einfach und schnell mit der Datenanalyse zu beginnen.

Zur Lösung dieser Probleme wird erwartet, dass 1) eine umfassende Vogelperspektive auf riesige Mengen experimenteller Daten ermöglicht wird und 2) die Datenanalyseumgebung problemlos so vorbereitet werden kann, dass Analysen sofort gestartet werden können und die Datenrechenressourcen je nach Bedarf erhöht oder verringert werden können.

Forschungsleistungen

LHD-Experimentdaten sind ein umfangreiches digitales Gut. Um ihre Nutzung durch Forscher in verschiedenen Bereichen, die Industrie und die breite Öffentlichkeit zu fördern, ist eine Computerumgebung erforderlich, die von jedem problemlos verwendet werden kann. Eine wichtige Möglichkeit bietet die Technologie „Cloud Services“.

Cloud-Dienste bieten eine Umgebung, in der Datenanalysen sofort gestartet werden können, sodass Forscher, Industrie und sogar Privatnutzer die Daten sehr effektiv nutzen können. Jetzt wurde NIFS für das „Amazon Web Services (AWS) Open Data Sponsorship Program“ übernommen und hat die Datenübertragung von etwa 2 Petabyte an LHD-Experimentdaten auf den Cloud-Speicher von AWS abgeschlossen. Amazon Simple Storage Service (Amazon S3), um sie im Internet für jeden frei zugänglich zu machen.

Für die Nutzung großer Mengen offener Daten ist außerdem eine Computerumgebung unverzichtbar, auf der eine Reihe von Datenanalyseprogrammen ausgeführt werden können. Auf LHD-Daten, die vollständig im Cloud-Speicher von AWS repliziert sind, kann nun jederzeit direkt von AWS-Cloud-Computern aus zugegriffen werden, um hochleistungsfähige Analysen großer Datenmengen durchzuführen.

Ein weiterer großer Vorteil für die Förderung von Open Science ist, dass wir dank Amazon S3 einen zuverlässigen, unterbrechungsfreien Datendienst bereitstellen können, der unabhängig vom NIFS-System und den Netzwerkkapazitäten ist.

Im Gegensatz zu anderen Forschungsfeldern, in denen bereits seit einigen Jahrzehnten ein internationaler Austausch von Forschungsdaten stattfindet, etwa bei der globalen Umwelt-, Wetter- und Astronomiebeobachtung, gibt es in der Fusionsenergieforschung und -entwicklung, insbesondere im experimentellen Bereich, nur wenig internationale Zusammenarbeit oder Datenaustausch.

Dies liegt daran, dass experimentelle Ergebnisse von Gerät zu Gerät oft unterschiedlich sind, was einen einfachen Vergleich und eine einfache Auswertung erschwert. Die offenen Daten des LHD stellen weltweit den ersten großen Schritt hin zur Interdisziplinarität und Universalisierung der Fusionsenergieforschung dar.

Die Ergebnisse werden präsentiert auf der 14. IAEA Technisches Treffen zu Steuerungssystemen, Datenerfassung, Datenmanagement und Fernteilnahme an der Fusionsforschung vom 15. bis 19. Juli 2024 in São Paulo, Brasilien.

Bedeutung der Erfolge und zukünftige Entwicklungen

Die Rohdaten- und Analysedatenbank von LHD, die weltweit größte Sammlung von Forschungsdaten zur Fusionsenergie, ist ein sehr wertvolles digitales Forschungsgut. Durch die Bereitstellung aller Daten als offene Daten in der AWS-Cloud wird erwartet, dass die Datenbank nicht nur für Forschungszwecke innerhalb und außerhalb der Fusionsforschung verwendet wird, sondern auch die Teilnahme der breiten Öffentlichkeit und neuer Teilnehmer aus anderen Ländern und Branchen anzieht, die neue Forschung und Entwicklung im Bereich Fusionsenergie starten möchten.

Die Hürden für den Einstieg sollen deutlich gesenkt werden. Darüber hinaus soll es eine wichtige digitale Plattform für den Austausch von Forschungswissen, den Austausch von Menschen und die Entwicklung nicht nur in Japan, sondern auch anderswo auf der Welt werden. Zu diesem Zweck fördert das NIFS dieses große Datenrepository unter dem Namen „Plasma and Fusion Cloud“ intensiv und nutzt dazu das NII RDC, die Forschungsdaten-Cloud-Plattform des National Institute of Informatics.

Um die Prinzipien der offenen Wissenschaft voranzutreiben, haben wir gerade damit begonnen, etwa 40 Millionen LHD-Daten einen globalen dauerhaften Identifikator, DOI (Digital Object Identifier), zuzuweisen, um ihre Auffindbarkeit und Zugänglichkeit zu erleichtern. Aufgrund der extrem großen Anzahl von Dateneinheiten kann es drei bis vier Jahre dauern, bis die Registrierung abgeschlossen ist.

Wenn jedoch alle Daten registriert sind, wird dies voraussichtlich die größte Anzahl öffentlich verfügbarer Forschungsdaten-DOIs auf der Welt sein und die derzeitigen Weltmarktführer wie Geoscience Australia (ca. 7 Millionen DOIs), CERN (ca. 6,7 Millionen) und die Interdisciplinary Earth Data Alliance (IEDA) in den USA (ca. 5 Millionen) übertreffen.

Ushio Usami, der Länderleiter für den weltweiten öffentlichen Sektor von AWS in Japan, sagte: „Wir freuen uns sehr, in Zusammenarbeit mit dem National Institute for Fusion Science zur Nutzung der Fusionsenergie beitragen zu können. Ich hoffe, dass diese offenen Daten nicht nur im akademischen Forschungsbereich in Japan, sondern auch von Unternehmen auf der ganzen Welt genutzt werden, um technologische Innovationen in verschiedenen wissenschaftlichen Bereichen zu fördern.“

Dr. Keiichi Nakano, leitender Forscher für die Cyber-Science-Infrastruktur des Research Center for Open Science and Data Platform des National Institute of Informatics (NII) und zugleich Programmleiter für die „Entwicklung eines Forschungsdaten-Ökosystems zur Förderung datengetriebener Wissenschaft“, sagte: „Bei dieser Errungenschaft wurde die von uns aufgebaute Forschungsdaten-Infrastruktur (NII Research Data Cloud: NII RDC) als Funktion zur Nutzung riesiger Datenmengen eingesetzt.“

„Wir freuen uns, dass das NII RDC einen Beitrag zur praktischen Umsetzung von Open Science leisten konnte, die weltweite Auswirkungen haben wird. Wir hoffen, unsere Zusammenarbeit mit NIFS weiter zu vertiefen und durch diese Forschungsdaten zur Entwicklung der globalen Open Science beizutragen.“

Mehr Informationen:
Das National Institute for Fusion Science veröffentlicht ungefähr 2 Petabyte an Daten aus 25 Jahren Large Helical Device (LHD)-Experimenten als offene Daten auf AWS.

Zur Verfügung gestellt von National Institutes of Natural Sciences

ph-tech