Jeden Winter, Frühling und Sommer treffen sich Extremwetterprognostiker und Forscher, um die neuesten, vielversprechendsten Tools und Innovationen für die Unwettervorhersage zu testen, um zu sehen, wie sie sich in realen Umgebungen verhalten.
Diese Testbed-Experimente, die von der National Oceanic and Atmospheric Administration (NOAA) orchestriert werden, prognostizieren Winterstürme, schwere Gewitter bzw. Sturzfluten.
Das Hydrometeorology Testbed veranstaltete kürzlich das 12. jährliche Winter Weather Experiment (WWE). Als umfassendes, kollaboratives „Research-to-Operations“-Erlebnis brachte es Mitglieder der Prognose-, Forschungs- und akademischen Gemeinschaften zusammen, um die Herausforderungen der Winterwettervorhersage zu bewerten und zu diskutieren.
„Wir erstellen Betriebsprognosen, indem wir neue Eingaben oder neue Modelle verwenden, um zu testen, wie gut sie funktionieren“, sagte Keith Brewster, Senior Research Scientist und Operations Director des Center for Analysis and Prediction of Storms (CAPS) an der University of Oklahoma. „Wenn wir eine Vorhersage versprechen, wo Gewitter auftreten, können wir dann erwarten, dass ein Prognostiker sie verwendet?“
Im Hintergrund des Experiments summen Supercomputer im Texas Advanced Computing Center (TACC) – die zu den schnellsten gehören, die akademischen Forschern weltweit zur Verfügung stehen.
Das CAPS-Team begann 2011 mit der Verwendung von TACC-Systemen für das Hazardous Weather Testbed Spring Experiment, um schwere Gewitter besser vorhersagen zu können. Sie rechneten damals auf dem original Stampede-Supercomputer bei TACC – dem sechstschnellsten der Welt in seiner Blütezeit. Von 2017 bis 2021 verwendeten sie Stampede2 (12. schnellste) über die Extreme Science and Engineering Discovery Environment (XSEDE). Seit 2021 nutzen sie Frontera, den schnellsten Universitäts-Supercomputer der Welt und derzeit den 13. schnellsten Gesamtplatz.
„Was uns TACC und XSEDE bieten, ist die Möglichkeit, diese Experimente in Echtzeit oder nahezu in Echtzeit durchzuführen“, sagte Brewster.
Das CAPS-Team reicht seine Prognosesimulationen bis 22:00 Uhr ein, nachdem Wetterbeobachtungen und andere Eingabedaten für den 00 UTC-Zyklus eingehen. Die Simulationen laufen über Nacht und sind am nächsten Morgen um 8:00 Uhr fertig, wobei sie Wetterereignisse für dreieinhalb Tage vorhersagen.
„Bei Stampede haben wir mit TACC zusammengearbeitet, um eine spezielle Warteschlange einzurichten, in der uns eine dedizierte Anzahl von Kernen zugewiesen wird“, sagte Brewster. Diese Art von „dringendem Computing“ ist zu einem Markenzeichen von TACC geworden, das es dem Zentrum ermöglicht, Hurrikan-Sturmfluten vorherzusagen, Weltraumschrott im erdnahen Orbit zu überwachen und COVID-19-Modelle mit Strom zu versorgen. „In jüngerer Zeit ist die Kapazität von Frontera so groß, dass wir in der regulären Warteschlange mit einer VIP-Priorität laufen können, wodurch unsere Nutzung effizienter und weniger störend für andere Forschungsbenutzer wird.“
Das diesjährige Winterwetterexperiment hatte drei wichtige wissenschaftliche Ziele: subjektiv die Nützlichkeit von Prognosen des konvektionsermöglichenden Modells (CAM) zu messen, um zwei- bis dreitägige Schneefallprognosen zu verbessern; objektive Bewertung der Schneefallvorhersagen unter Verwendung von Verifizierungssystemen nach Gemeinschaftsstandard; und bestimmen Sie die optimale Kombination von Physik zur Verwendung in Modellen der nächsten Generation.
Das Team war in erster Linie daran interessiert, die Menge der Schneefallanhäufung vorherzusagen, aber es testete auch seine Fähigkeit, die Unterschiede zwischen Schnee, Graupel und Eisregen in Vorhersagen zu bestimmen und andere Facetten des Winterwetters, wie die Windgeschwindigkeit, vorherzusagen.
„Prognostikern die Möglichkeit zu geben, diese experimentellen Modelle in realen Situationen zu verwenden, ermöglicht es Prognostikern und Forschern, die Stärken, betrieblichen Herausforderungen und die Verwendbarkeit von Prognostikern schon früh in der Entwicklungsphase zu bestimmen“, sagte James Correia Jr., Koordinator des Hydrometeorology Testbed. „Dies ermöglicht es uns, gemeinsam in NOAA-Testbeds Verbesserungen an unserem Prognoseprozess, unseren Modellen und der Art und Weise vorzunehmen, wie wir Forschungs- und Betriebsherausforderungen angehen und lösen.“
Jüngste Testbed-Programme beinhalteten auch die wichtige Aufgabe, das Wettermodell der nächsten Generation der NOAA, das FV3-Modell, zu evaluieren. Dieses Modell hat sich bei Prognosen im globalen Maßstab als erfolgreich erwiesen, und die Agentur plant, es auch operativ für regionale Modelle mit viel höherer Auflösung einzusetzen, wie sie in den hochwirksamen Testumgebungen dargestellt sind. Das neue Multi-Scale-Prognosesystem ist als Unified Forecasting System (UFS) bekannt.
„Zusätzlich zu Echtzeittests hat CAPS TACC-Supercomputer verwendet, um Fälle erneut auszuführen, um die Grundursache von Problemen zu identifizieren, die in früheren Testbeds identifiziert wurden“, sagte Brewster. „Dies führt zu Tuning und anderen Verbesserungen der ursprünglichen Codes.“
Das Winterwetterexperiment lief im Laufe des Winters an 27 Falltagen nahezu in Echtzeit auf Frontera, einschließlich objektiver Verifizierung und maschinellem Lerntraining – ein zukunftsweisender Aspekt der Forschung. Brewster präsentierte die Ergebnisse in einem von der NOAA im März 2022 organisierten Webinar.
Nach dem Experiment führen die Forscher in der Regel detailliertere Studien zu bestimmten Aspekten der Vorhersagen durch, die vom Wetterprogrammbüro der NOAA im Rahmen des Testbed-Wettbewerbs in Zusammenarbeit mit dem Wettervorhersagezentrum und dem Sturmvorhersagezentrum der NOAA – beides Abteilungen des Nationalen Wetterdienstes – finanziert werden.
Testen von Ensemble-Konsensverfahren
Die meisten Wetterbeobachter sind mit der Idee von Ensemble-Modellen vertraut – den Schwärmen von Spuren, die die Ergebnisse verschiedener Simulationen darstellen, die von Wettervorhersagern gemittelt und interpretiert werden.
Mithilfe von Frontera erstellt Brewsters Team Echtzeit-Ensemble-Prognosen.
„In der Entscheidungstheorie hat sich gezeigt, dass man besser beraten wird, wenn man einen Konsens von Experten erhält, als von einer einzelnen Person“, sagte Brewster. „Dank TACC können wir 13 Modelle generieren – 13 ‚Experten‘, die vorhersagen, wie das Wetter sein wird. Von dort aus arbeiten wir daran, Ensemble-Konsensprodukte zu entwickeln, die am besten zur Verbesserung der Vorhersagen beitragen.“
Manchmal übertrumpft die Benutzerfreundlichkeit durch einen menschlichen Bediener reine Vorhersagefähigkeiten. Die Kommunikation der Konsensentscheidung aus einem Ensemble von Prognosen ist ein solches Beispiel.
„Wir Forscher sind da drin, beobachten und beteiligen uns eine Woche lang – als wären wir im Wetteramt und erstellen Vorhersagen, damit Leute wie ich die Probleme sehen können“, erklärte Brewster. „Wir versuchen, realistisch zu sein: Kann sich jemand wirklich zehn bis 15 Modelle anschauen? Oder sorgt das für mehr Unsicherheit?“
Ein Ansatz, den das CAPS-Team für Ensemble-Konsensus-Methoden untersucht hat, ist die LPM-Methode (Local Probability Match Mean). Die LPM-Methode unterteilt ein Gebiet in Patches, berechnet die atmosphärische Dynamik über diesem Patch und verteilt die Ergebnisse lokal. (Nathan Snook und das CAPS-Team haben die Methode in einem Artikel aus dem Jahr 2020 beschrieben und verschiedene Methoden zur Berechnung dieses Mittelwerts verglichen Geophysikalische Forschungsbriefe.)
Eine Bewertung der Genauigkeit durch die NOAA zeigte, dass der lokale Wahrscheinlichkeits-Match-Mittelwert (LPM) bei der objektiven Niederschlagsbewertung etwas schlechter abschnitt als der Wahrscheinlichkeits-Match-Mittelwert (PM).
„Aber hier kommen die Testbed-Aktivitäten ins Spiel“, sagte Brewster. „Wenn sich ein Mensch eine Prognose ansieht, schaut er nicht auf die Rohdaten einer Website. Er schaut auf die Form – Konsensreflexion – und in dieser Hinsicht wurde LPM als besser angesehen. Das war ein Gewinn für uns.“ Team.“
Das LPM wurde seitdem in das operative High Resolution Ensemble Forecast-System der NOAA implementiert. Das ist das Ziel des NOAA-Testbed-Programms: Forschungsideen zu nehmen und sie durch Tests und Bewertungen in quasi-operativen Umgebungen zum tatsächlichen Einsatz zu bringen.
„Das nennen wir Technologietransfer“, sagte Brewster. „Es gibt eine technische Kluft, wo Forscher wie unser Team an Modellen arbeiten, Papiere erstellen und es schwierig sein kann, neue Modelle oder Konzepte in den Betrieb zu bringen. Der Technologietransfer fand statt, weil er sich bewährt hat und nicht nur auf TACC und anderen Forschern lief, aber zu anderen Prognostikern. Das bringt uns über die Kluft von Zeitschriftenartikeln zu Auswirkungen auf reale Vorhersagen.
Nathan Snook et al, Vergleich und Verifizierung von punktweisen und Patch-weisen lokalisierten wahrscheinlichkeitsabgeglichenen Mittelwertalgorithmen für Ensemble-Konsens-Niederschlagsvorhersagen, Geophysikalische Forschungsbriefe (2020). DOI: 10.1029/2020GL087839