Neues KI-Tool hilft bei der Nutzung einer Datenbank mit 10 Millionen Biologiebildern

Forscher haben den bislang größten Datensatz biologischer Bilder entwickelt, der für maschinelles Lernen geeignet ist – und ein neues, auf Visionen basierendes Werkzeug der künstlichen Intelligenz, um daraus zu lernen.

Die Ergebnisse der neuen Studie erweitern den Umfang dessen, was Wissenschaftler mithilfe künstlicher Intelligenz tun können, um Bilder von Pflanzen, Tieren und Pilzen zu analysieren, um neue Fragen zu beantworten, erheblich, sagte Samuel Stevens, Hauptautor der Studie und Doktorand. Student der Informatik und Ingenieurwissenschaften an der Ohio State.

„Unser Modell wird für Aufgaben nützlich sein, die den gesamten Lebensbaum umfassen“, sagte Stevens. „Forscher werden in der Lage sein, Studien durchzuführen, die vorher nicht möglich gewesen wären.“

Die Ergebnisse sind veröffentlicht auf der arXiv Preprint-Server.

Stevens und seine Kollegen kuratierten und veröffentlichten zunächst den weltweit größten und vielfältigsten Bilddatensatz, der für maschinelles Lernen geeignet ist: TreeOfLife-10M, der über 10 Millionen Bilder von Pflanzen, Tieren und Pilzen enthält und mehr als 454.000 Taxa im Baum des Lebens abdeckt. Im Vergleich dazu enthält die bisher größte Datenbank, die für maschinelles Lernen bereit ist, nur 2,7 Millionen Bilder mit 10.000 Taxa. Die Vielfalt dieser Daten ist eines der Schlüsselmerkmale ihres Algorithmus.

Anschließend entwickelten sie BioCLIP, ein neues Modell für maschinelles Lernen, das den Forschern im Dezember zur Verfügung gestellt wurde und darauf ausgelegt ist, aus dem Datensatz zu lernen, indem es sowohl visuelle Hinweise in den Bildern als auch verschiedene mit den Bildern verknüpfte Texttypen verwendet, wie z. B. taxonomische Beschriftungen und andere Informationen.

Die Forscher testeten BioCLIP, indem sie prüften, wie gut es Bilder dahingehend klassifizieren konnte, wo sie im Baum des Lebens hingehören – einschließlich eines Datensatzes seltener Arten, den es während des Trainings nicht sah. Die Ergebnisse zeigten, dass die Leistung bei dieser Aufgabe 17 bis 20 % besser war als bei bestehenden Modellen.

Das BioCLIP-Modell ist hier öffentlich zugänglich. Seine Demo, sagte Stevens, könne auch die Art eines beliebigen Bildes eines Organismus genau erkennen, sei es aus der Serengeti-Savanne, Ihrem örtlichen Zoo oder Ihrem Hinterhof.

Herkömmliche Computeransätze, die zur Organisation zahlreicher biologischer Bilddatenbanken verwendet werden, seien in der Regel für bestimmte Aufgaben konzipiert und nicht in dem Maße in der Lage, neue Fragen, Kontexte und Datensätze zu berücksichtigen, sagte Stevens.

Da das Modell außerdem umfassend auf den gesamten Lebensbaum angewendet werden kann, unterstütze ihre KI Biologen besser, deren reale Forschung einen breiteren Schwerpunkt habe, als diejenigen, die bestimmte Nischen untersuchen, fügte er hinzu.

Was den Ansatz dieses Teams so effektiv macht, ist laut Yu Su, Co-Autor der Studie und Assistenzprofessor für Informatik und Ingenieurwesen an der Ohio State, die Fähigkeit ihres Modells, fein abgestimmte Darstellungen von Bildern zu erlernen bzw. diese zu erkennen Unterschied zwischen ähnlich aussehenden Organismen innerhalb derselben Art und einer Art, die deren Aussehen nachahmt.

Während allgemeine Computer-Vision-Modelle für den Vergleich gewöhnlicher Organismen wie Hunde und Wölfe nützlich sind, haben frühere Studien gezeigt, dass sie die subtilen Unterschiede zwischen zwei Arten derselben Pflanzengattung nicht berücksichtigen können.

Aufgrund seines besseren Verständnisses von Nuancen, sagte Su, sei das Modell in diesem Artikel auch in einzigartiger Weise dafür geeignet, Bestimmungen über seltene und unsichtbare Arten zu treffen.

„BioCLIP deckt um viele Größenordnungen mehr Arten und Taxa ab als die bisher öffentlich zugänglichen Modelle für allgemeines Sehen“, sagte er. „Selbst wenn es eine bestimmte Art noch nie zuvor gesehen hat, kann es zu einer vernünftigen Schlussfolgerung darüber kommen, dass es wahrscheinlich ist, dass dieser Organismus diesem ähnlich sieht.“

Da die KI immer weiter voranschreitet, so das Fazit der Studie, könnten Modelle des maschinellen Lernens wie dieses bald zu wichtigen Werkzeugen für die Entschlüsselung biologischer Geheimnisse werden, deren Verständnis andernfalls viel länger dauern würde. Und während sich diese erste Version von BioCLIP stark auf Bilder und Informationen von Citizen-Science-Plattformen stützte, sagte Stevens, dass zukünftige Modelle durch die Einbindung weiterer Bilder und Daten aus wissenschaftlichen Labors und Museen aufgewertet werden könnten. Da Labore in der Lage sind, ausführlichere Textbeschreibungen von Arten zu sammeln, die ihre morphologischen Merkmale und andere subtile Unterschiede zwischen eng verwandten Arten detailliert beschreiben, werden solche Ressourcen eine Fülle wichtiger Informationen für das KI-Modell liefern.

Darüber hinaus verfügen viele wissenschaftliche Labore über Informationen zu Fossilien ausgestorbener Arten, von denen das Team erwartet, dass sie den Nutzen des Modells ebenfalls erweitern werden.

„Taxonomien ändern sich ständig, wenn wir Namen und neue Arten aktualisieren. Daher möchten wir in Zukunft die bestehende Arbeit viel stärker nutzen, um sie zu integrieren“, sagte er. „Wenn man in der KI mehr Daten auf ein Problem wirft, erhält man bessere Ergebnisse. Ich denke also, dass es eine größere Version gibt, die wir weiter zu einem größeren, stärkeren Modell trainieren können.“

Weitere Co-Autoren der Ohio State sind Jiaman Wu, Matthew J. Thompson, Elizabeth G. Campolongo, Chan Hee Song, David Edward Carlyn, Tanya Berger-Wolf und Wei-Lun Chao. Li Dong von Microsoft Research, Wasila M Dahdul von der University of California, Irvine und Charles Stewart vom Rensselaer Polytechnic Institute trugen ebenfalls dazu bei.

Mehr Informationen:
Samuel Stevens et al., BioCLIP: A Vision Foundation Model for the Tree of Life, arXiv (2023). DOI: 10.48550/arxiv.2311.18803

Zeitschrifteninformationen:
arXiv

Zur Verfügung gestellt von der Ohio State University

ph-tech