Einer der herausforderndsten Aspekte der modernen Chemie ist die Verwaltung von Daten. Wenn Wissenschaftler beispielsweise eine neue Verbindung synthetisieren, durchlaufen sie mehrere Trial-and-Error-Versuche, um die richtigen Bedingungen für die Reaktion zu finden, und erzeugen dabei riesige Mengen an Rohdaten. Solche Daten sind von unglaublichem Wert, da maschinelle Lernalgorithmen wie Menschen viel aus gescheiterten und teilweise erfolgreichen Experimenten lernen können.
Die derzeitige Praxis besteht jedoch darin, nur die erfolgreichsten Experimente zu veröffentlichen, da kein Mensch die große Zahl fehlgeschlagener Experimente sinnvoll verarbeiten kann. Aber KI hat dies geändert; Genau das können diese Methoden des maschinellen Lernens leisten, vorausgesetzt, die Daten werden in einem maschinenumsetzbaren Format gespeichert, das jeder verwenden kann.
„Lange Zeit mussten wir Informationen aufgrund der begrenzten Seitenzahl in gedruckten Zeitschriftenartikeln komprimieren“, sagt Professor Berend Smit, der das Labor für Molekulare Simulation an der EPFL Valais Wallis leitet. „Heutzutage haben viele Zeitschriften nicht einmal mehr gedruckte Ausgaben, aber Chemiker haben immer noch mit Reproduzierbarkeitsproblemen zu kämpfen, weil in Zeitschriftenartikeln entscheidende Details fehlen veröffentlichte Ergebnisse als Rohdaten werden selten veröffentlicht.“
Aber die Lautstärke ist hier nicht das einzige Problem; Datenvielfalt ist eine andere: Forschungsgruppen verwenden verschiedene Tools wie die Software Electronic Lab Notebook, die Daten in proprietären Formaten speichern, die manchmal nicht miteinander kompatibel sind. Dieser Mangel an Standardisierung macht es Gruppen nahezu unmöglich, Daten auszutauschen.
Jetzt hat Smit mit Luc Patiny und Kevin Jablonka von der EPFL eine Perspektive in veröffentlicht Naturchemie präsentiert eine offene Plattform für den gesamten Chemie-Workflow: von der Initiierung eines Projekts bis zu seiner Veröffentlichung.
Die Wissenschaftler stellen sich die Plattform als „nahtlose“ Integration dreier entscheidender Schritte vor: Datenerfassung, Datenverarbeitung und Datenveröffentlichung – alles mit minimalen Kosten für die Forscher. Das Leitprinzip ist, dass Daten FAIR sein sollten: leicht auffindbar, zugänglich, interoperabel und wiederverwendbar. „Zum Zeitpunkt der Datenerhebung werden die Daten automatisch in ein Standard-FAIR-Format konvertiert, sodass alle „fehlgeschlagenen“ und teilweise erfolgreichen Experimente zusammen mit dem erfolgreichsten Experiment automatisch veröffentlicht werden können“, sagt Smit.
Aber die Autoren gehen noch einen Schritt weiter und schlagen vor, dass Daten auch maschinell verwertbar sein sollten. „Wir sehen immer mehr Data-Science-Studien in der Chemie“, sagt Jablonka. „In der Tat versuchen die jüngsten Ergebnisse des maschinellen Lernens, einige der Probleme anzugehen, von denen Chemiker glauben, dass sie unlösbar sind. Unsere Gruppe hat beispielsweise enorme Fortschritte bei der Vorhersage optimaler Reaktionsbedingungen mithilfe von Modellen des maschinellen Lernens gemacht. Aber diese Modelle wären viel wertvoller, wenn sie es könnten.“ könnten auch Reaktionsbedingungen lernen, die fehlschlagen, aber ansonsten bleiben sie voreingenommen, weil nur die erfolgreichen Bedingungen veröffentlicht werden.
Abschließend schlagen die Autoren fünf konkrete Schritte vor, die das Feld unternehmen muss, um einen FAIR-Datenmanagementplan zu erstellen:
„Wir glauben, dass es nicht nötig ist, neue Dateiformate oder Technologien zu erfinden“, sagt Patiny. „Im Prinzip ist die gesamte Technologie vorhanden, und wir müssen vorhandene Technologien nutzen und sie interoperabel machen.“
Die Autoren weisen auch darauf hin, dass das bloße Speichern von Daten in einem beliebigen elektronischen Laborbuch – der aktuelle Trend – nicht unbedingt bedeutet, dass Menschen und Maschinen die Daten wiederverwenden können. Vielmehr müssen die Daten strukturiert und in einem standardisierten Format veröffentlicht werden, und sie müssen auch genügend Kontext enthalten, um datengesteuerte Aktionen zu ermöglichen.
„Unsere Perspektive bietet eine Vision dessen, was wir für die Schlüsselkomponenten halten, um die Lücke zwischen Daten und maschinellem Lernen für Kernprobleme in der Chemie zu schließen“, sagt Smit. „Wir bieten auch eine Open-Science-Lösung an, bei der die EPFL die Führung übernehmen kann.“
Luc Patiny, Das kollektive Wissen der Chemie offen und maschinell nutzbar machen, Naturchemie (2022). DOI: 10.1038/s41557-022-00910-7. www.nature.com/articles/s41557-022-00910-7