Geowissenschaftliche Modelle ermöglichen es Forschern, potenzielle Szenarien mit numerischen Darstellungen der Erde und relevanter Systeme zu testen, von der Vorhersage großräumiger Auswirkungen des Klimawandels bis hin zur Unterstützung bei der Landbewirtschaftung. Das Schätzen von Parametern für herkömmliche Modelle ist jedoch rechenintensiv und berechnet Ergebnisse für bestimmte Standorte und Szenarien, die sich nur schwer auf andere Szenarien extrapolieren lassen, so Chaopeng Shen, außerordentlicher Professor für Bau- und Umweltingenieurwesen an der Penn State.
Um diese Probleme anzugehen, haben Shen und andere Forscher ein neues Modell entwickelt, das als differenzierbares Parameterlernen bekannt ist und Elemente sowohl der traditionellen prozessbasierten Modelle als auch des maschinellen Lernens für eine Methode kombiniert, die breit angewendet werden kann und zu stärker aggregierten Lösungen führt. Ihr Modell, veröffentlicht in Naturkommunikationsteht Forschern öffentlich zur Verfügung.
„Ein Problem, mit dem herkömmliche prozessbasierte Modelle konfrontiert sind, war, dass sie alle irgendeine Art von Parametern benötigen – die Variablen in der Gleichung, die bestimmte Attribute des geophysikalischen Systems beschreiben, wie z Ich habe keine direkten Beobachtungen für“, sagte Shen. „Normalerweise müssten Sie diesen Prozess namens Parameterinversion oder Parameterschätzung durchlaufen, bei dem Sie einige Beobachtungen der Variablen haben, die die Modelle vorhersagen werden, und dann gehen Sie zurück und fragen: „Was sollte mein Parameter sein?“
Ein gängiges prozessbasiertes Modell ist ein evolutionärer Algorithmus, der sich über viele Iterationen des Betriebs weiterentwickelt, damit er die Parameter besser abstimmen kann. Diese Algorithmen sind jedoch nicht in der Lage, große Maßstäbe zu handhaben oder auf andere Kontexte verallgemeinert zu werden.
„Es ist, als würde ich versuchen, mein Haus zu reparieren, und mein Nachbar hat ein ähnliches Problem und versucht, sein Haus zu reparieren, und es gibt keine Kommunikation zwischen uns“, sagte Shen. „Jeder versucht, sein eigenes Ding zu machen. Ebenso, wenn Sie evolutionäre Algorithmen auf ein Gebiet anwenden – sagen wir auf die Vereinigten Staaten –, werden Sie ein separates Problem für jedes kleine Stück Land lösen, und es gibt keine Kommunikation zwischen ihnen, also dort ist eine Menge Mühe verschwendet. Außerdem kann jeder sein Problem auf seine eigene uneinheitliche Weise lösen, und das führt zu viel physischem Unrealismus.
Um Probleme für größere Regionen zu lösen, nimmt Shens Modell die Daten von allen Standorten auf, um eine Lösung zu erhalten. Anstatt Daten von Standort A einzugeben und eine Lösung von Standort A zu erhalten, dann Daten von Standort B für die Lösung von Standort B einzugeben, gibt Shen Daten von Standort A und B für eine Lösung ein, die umfassender ist.
„Unser Algorithmus ist viel ganzheitlicher, weil wir eine globale Verlustfunktion verwenden“, sagte er. „Das bedeutet, dass während des Parameterschätzungsprozesses die Verlustfunktion jedes Standorts – die Diskrepanz zwischen der Ausgabe Ihres Modells und den Beobachtungen – aggregiert wird. Die Probleme werden gleichzeitig gemeinsam gelöst. Ich suche nach einer Lösung für die gesamten Kontinent. Und wenn Sie mehr Datenpunkte in diesen Workflow einbringen, erzielen alle bessere Ergebnisse. Während es auch einige andere Methoden gab, die eine globale Verlustfunktion verwendeten, haben Menschen die Formel abgeleitet, sodass die Ergebnisse nicht optimal waren.
Shen bemerkte auch, dass seine Methode viel rechenintensiver ist als die traditionellen Methoden. Wofür ein Supercluster mit 100 Prozessoren normalerweise zwei bis drei Tage benötigt, benötigt heute nur noch eine grafische Recheneinheit eine Stunde.
„Die Kosten pro Gitterzelle sind enorm gesunken“, sagte er. „Es ist wie mit Skaleneffekten. Wenn Sie eine Fabrik haben, die ein Auto baut, aber jetzt dieselbe Fabrik 10.000 Autos baut, sinken Ihre Kosten pro Einheit dramatisch. Und das Gleiche passiert, wenn Sie mehr Punkte in diesen Arbeitsablauf einbringen. Gleichzeitig wird jeder Standort durch die Beteiligung anderer Standorte jetzt besser bedient.“
Reine maschinelle Lernmethoden können gute Vorhersagen für ausführlich beobachtete Variablen treffen, aber sie können Ergebnisse liefern, die schwer zu interpretieren sind, weil sie keine Bewertung kausaler Beziehungen enthalten.
„Ein Deep-Learning-Modell könnte eine gute Vorhersage treffen, aber wir wissen nicht, wie es das gemacht hat“, sagte Shen und erklärte, dass ein Modell zwar gute Vorhersagen machen kann, Forscher aber die offensichtliche kausale Beziehung falsch interpretieren können. „Mit unserem Ansatz sind wir in der Lage, prozessbasierte Modelle und maschinelles Lernen auf einer grundlegenden Ebene organisch zu verknüpfen, um alle Vorteile des maschinellen Lernens und auch die Erkenntnisse, die von der physischen Seite kommen, zu nutzen.“
Wen-Ping Tsai et al, From Calibration to Parameter Learning: Harnessing the scaling effects of big data in geoscientific modelling, Naturkommunikation (2021). DOI: 10.1038/s41467-021-26107-z