Fossile Pflanzen zeigen die Entwicklung des grünen Lebens auf der Erde, aber die am häufigsten gefundenen Proben – fossile Blätter – sind auch am schwierigsten zu identifizieren. Eine große, frei zugängliche visuelle Blattbibliothek, die von einem von der Penn State geleiteten Team entwickelt wurde, bietet eine neue Ressource, die Wissenschaftlern hilft, diese Blätter zu erkennen und zu klassifizieren.
„Die Komplexität von Blättern ist unermesslich, und die Terminologie, die wir haben, um sie zu beschreiben, ist nur der kleinste Anfang dessen, was benötigt wird“, sagte Peter Wilf, Professor für Geowissenschaften an der Penn State. „Forscher brauchen viel zugänglichere visuelle Referenzen, um die Unterschiede zwischen den vielen Pflanzengruppen zu untersuchen, damit wir mehr davon in Worte fassen können. Es gibt viele Pflanzenfamilien, die oberflächlich ähnlich aussehen, und diese Sammlung bietet eine Gelegenheit, dies zu sehen neue Muster.“
Das Studium fossiler und moderner Blätter erfordert traditionell Forschungsbesuche in Museumssammlungen, was Finanzierung, Planung und Zeit für Reisen zu mehreren Orten erfordert. Immer mehr Museen stellen Blattsammlungen online, aber oft haben diese Bilder eine niedrige Auflösung, sind in großer Menge schwer zugänglich, haben wenig aussagekräftige Dateinamen oder die Blätter werden mit anderen Pflanzenteilen und Etiketten fotografiert, was einen schnellen Vergleich schwierig macht, sagten die Wissenschaftler.
Die Wissenschaftler kombinierten Bilder moderner und fossiler Blätter aus mehreren prominenten Sammlungen, darunter mehrere, die zuvor in keinem Format online waren, und verbrachten Tausende von Stunden damit, die Daten zu formatieren, um einen einzigen, zusammengeführten, frei zugänglichen Datensatz mit standardisierten, leicht durchsuchbaren Dateinamen und hoch zu erstellen -auflösende Bilder. Sie haben sich gemeldet PhytoKeys dass die Datensatz ist im Figshare Plus-Repository verfügbar.
Der Datensatz enthält 30.252 Bilder, darunter 26.176 Bilder von gesäuberten und geröntgten Blättern und 4.076 fossilen Blättern. Freigelegte Blätter sind Exemplare, die chemisch gebleicht, gefärbt und auf Objektträgern montiert wurden, um Venenmuster sichtbar zu machen. Jedes Bild stellt ein beglaubigtes Museumsexemplar dar.
„Was wir hier getan haben, ist, diese riesige Bildungsressource für alle zugänglich zu machen, indem wir all diese Bilder aus verschiedenen Altquellen überprüft und standardisiert haben“, sagte Wilf. „Wir alle haben 15 Jahre gebraucht, um das zu tun und alle Dateinamen zu konvertieren, aber jetzt können Sie das gesamte Paket mit einem einzigen Browser-Klick auf Ihrem Desktop haben. Jeder Dateiname enthält die Schlüsselinformationen in der gleichen Reihenfolge für eine schnelle Alpha- Sortierung: Familie, Gattung, Art und Exemplarnummer. Die Dateinamen können in Sekundenschnelle nach dem Artikel gesucht werden, an dem Sie interessiert sind, und die Bilder können mit Standardwerkzeugen wie der Windows-Suchleiste angezeigt werden. Alle Bilder haben Originalauflösung, nichts ist heruntergerechnet.“
Der Datensatz ist eine potenzielle Ressource nicht nur für die Schulung von Studenten, sondern auch für maschinelle Lernprogramme. Durch das Einspeisen geprüfter Trainingsdaten in Lernalgorithmen können sie Blätter besser identifizieren und wichtige visuelle Muster finden, die Menschen möglicherweise übersehen haben oder nicht sehen konnten.
„Für Wissenschaftler, die sich mit botanischen Fächern befassen, insbesondere mit Gebieten wie der Paläobotanik, können diese Werkzeuge am zuverlässigsten eingesetzt werden, um die Wirkung menschlicher Expertise zu erleichtern und zu vervielfachen“, sagte Jacob Rose, Doktorand an der Brown University, der eng mit Wilf zusammengearbeitet hat, um die zu erstellen Datensatz. Sein Berater Thomas Serre, Professor für Informatik an der Brown University, leistete ebenfalls einen Beitrag. „Diese Modelle als Ausgangspunkt für einen Experten zu verwenden, um sie entweder zu akzeptieren, abzulehnen oder weiter zu prüfen, könnte sich bald als ein tiefgreifendes Beispiel für den Einsatz von Technologie erweisen, um den Wert zu erweitern, der für einen einzelnen Wissenschaftler möglich ist, sowie das, was möglich ist uns als Gesellschaft, etwas über die natürliche Welt zu lernen, sowohl im Maßstab als auch in der Präzision.“
Maschinelles Lernen kann besonders wichtig für Paläobotaniker sein, die meistens isolierte fossile Blätter ohne Samen, Früchte oder Blüten finden, die bei der Identifizierung von Pflanzen helfen könnten. Erschwerend kommt hinzu, dass viele der einzelnen Fossilien ausgestorbene Pflanzen darstellen.
Der neue Datensatz ist eine vielversprechende Option für das Training des maschinellen Lernens, da er Beispiele für moderne und fossile Blätter enthält, die mindestens auf Familienebene überprüft wurden, eine höhere taxonomische Klassifizierung, die das erste Standardziel für die Identifizierung fossiler Blätter ist. Zur Familie der Fagaceae gehören beispielsweise Buchen, Kastanien und Eichen.
Der Datensatz enthält Bilder aus den Beiträgen von Jack A. Wolfe und Leo J. Hickey zur National Cleared Leaf Collection und der Scott Wing X-Ray-Sammlung im Smithsonian National Museum of National History, Washington, DC, und Daniel I. Axelrod Cleared Blattsammlung im Museum für Paläontologie der Universität von Kalifornien, Berkeley. Ebenfalls enthalten sind Fossilienbilder von verschiedenen Fundorten in Nord- und Südamerika. Der größte Beitrag stammt vom Florissant Fossil Beds National Monument in Colorado.
„Diese Datenbank stellt die Informationen in diesen Sammlungen Menschen auf der ganzen Welt in einer Form zur Verfügung, die einfacher zu durchsuchen ist als das Original und besser für digitale Analysen zugänglich ist“, sagte Scott Wing, Forschungsgeologe und Kurator für Paläobotanik am Smithsonian. „Wir glauben, dass die Datenbank neue Forschungen anregen und auch die Museumssammlungen für Menschen öffnen wird.“
Peter Wilf et al., Ein Bilddatensatz von gereinigten, geröntgten und fossilen Blättern, die auf Pflanzenfamilie für menschliches und maschinelles Lernen überprüft wurden, PhytoKeys (2021). DOI: 10.3897/PhytoKeys.187.72350