Neues Tool überwacht den Artenschutz in ressourcenarmen Sprachen

Aktivisten, die sich an vorderster Front für den Artenschutz einsetzen, verfolgen regelmäßig Nachrichtenartikel auf Informationen über Infrastrukturprojekte, die gefährdete Tiere bedrohen könnten. Doch diese Überwachung erfordert mehr Personalzeit, als die Organisationen vor Ort erübrigen können.

Forscher der Carnegie Mellon University trugen dazu bei, diese Belastung zu verringern, indem sie gemeinsam mit dem World Wildlife Fund (WWF) for Nature ein Tool entwickelten, das Medienartikel zum Thema Umweltschutz überwacht und identifiziert.

Einmal pro Woche brauche der WWF Indien zwei Vollzeitkräfte, um die Nachrichten zu verfolgen und Probleme im Zusammenhang mit dem Artenschutz zu identifizieren, sagt Fei Fang, außerordentlicher Professor in der Abteilung für Software und gesellschaftliche Systeme (S3D) an der School of Computer Science der Carnegie Mellon University.

Forscher der CMU arbeiteten mit dem WWF an der Entwicklung von Tools zur Medienüberwachung, mit denen die Mitarbeiter weniger Zeit mit der Analyse von Nachrichten zu Infrastruktur und Umweltschutz verbringen und sich mehr auf die Förderung und den Schutz der Tierwelt konzentrieren können.

Die Instrumente wurden um die Medienbeobachtung in wenig verbreiteten Sprachen wie Hindi und Nepali erweitert, um Nachrichten aus Gemeinden zu sammeln, in denen die Tierwelt besonders gefährdet ist.

„Wir versuchen, die für den Umweltschutz relevanten Nachrichtenartikel zeitnah in mehreren Sprachen zu identifizieren, insbesondere in den ressourcenarmen Sprachen, für die wir nicht viele Kennzeichnungsdaten haben“, sagte Fang.

Fang setzte ihr erstes Modell, NewsPanda, 2022 im Vereinigten Königreich, Indien und Nepal ein. Das Toolkit erkannte und analysierte wöchentlich automatisch Nachrichten und Regierungsartikel in englischer Sprache, die Bedrohungen für Naturschutzgebiete beschreiben.

Ein vorab trainiertes Large Language Model (LLM) klassifizierte die Artikel als relevant für Naturschutz und Infrastruktur. Das NewsPanda-Team erstellte seinen Datensatz mit WWF Nepal und Indien und beschriftete mehr als 1.000 Artikel. Neben dem Scraping und Analysieren der Artikel platzierte NewsPanda sie auch auf einer Karte und erstellte einen Bot, um Artikel über soziale Medien zu teilen.

Mitarbeiter des WWF, die NewsPanda nutzten, fragten Fang, ob ihr Team dieses Tool für Artikel in lokalen Sprachen wie Hindi und Nepali aktualisieren könne. Doch die Mitarbeiter dieser Organisationen wollten nicht 1.000 Artikel erneut etikettieren, um die für diese Sprachen benötigten Trainingsdaten zu erstellen.

Fang sagte, ihr Forschungsteam müsse einen effizienteren Weg finden, um die lokale Medienüberwachung zu unterstützen. Sie wandte sich an Lei Li, einen Assistenzprofessor am Language Technologies Institute (LTI) der CMU, der an mehrsprachiger natürlicher Sprachverarbeitung arbeitet.

„Auf dem aktuellen Stand der Technologie zur Textklassifizierung und Informationsextraktion funktionieren Werkzeuge zur natürlichen Sprachverarbeitung gut für ressourcenintensive Sprachen wie Englisch, Spanisch, Deutsch, Französisch und Chinesisch, weil man für ein überwachtes Training gekennzeichnete Daten braucht“, sagte Li.

„Wenn Sie eine neue Sprache hinzufügen möchten, für die Sie keine annotierten Daten haben, funktioniert das nicht gut. Genau dieses Problem versuchen wir zu lösen. Wir versuchen, den Text dieser Artikel zu verstehen und die wichtigsten Informationen in einer anderen Sprache zu extrahieren, ohne viele von Menschen markierte Daten zu haben.“

WWF Nepal erklärte sich bereit, dem Forschungsteam bei der Entwicklung dieses Tools zu helfen. Zunächst probierte das CMU-Forschungsteam handelsübliche maschinelle Übersetzungstools aus, die jedoch keine qualitativ hochwertigen Übersetzungen vom Englischen ins Nepalesische lieferten. Daher entwickelten die Forscher NewsSerow, ein Nachrichtenüberwachungssystem, das mithilfe eines LLM Artikel in Nepalesisch zusammenfasst und klassifiziert. Das Tool ist nach einem Serau benannt, einem in Nepal vorkommenden Tier.

Die Technologie, mit der NewsSerow erstellt wurde, ist nicht neu, aber die Art und Weise, wie die Tools zusammengestellt wurden, ist leistungsstark, sagte Fang. NewsSerow hat drei Module: Zusammenfassung, Klassifizierung und Reflexion. Die Zusammenfassung verwendet GPT-3.5 Turbo, ein LLM ähnlich wie ChatGPT von OpenAI, um die Informationen im Artikel in drei Sätzen in einer bestimmten Sprache wie Nepali zusammenzufassen.

Anschließend wird der Text anhand des Titels und der Zusammenfassung des Artikels als für den Naturschutz relevant oder nicht relevant klassifiziert und diese Klassifizierung wird mit einer Erklärung versehen. Die Forscher verwendeten kontextbezogenes Lernen im LLM, um das Klassifizierungsmodul zu entwickeln.

Sie lieferten 10 Beispiele, darunter Titel, Zusammenfassung, Klassifizierungsbezeichnung und eine Erklärung der Artikel durch einen Experten auf dem jeweiligen Gebiet. Das Verfahren bedeutete, dass die Mitarbeiter des WWF Nepal nicht mehr als 1.000 Artikel kennzeichnen mussten, sondern nur 10.

Abschließend führt NewsSerow eine Reflexion durch, die überprüft, ob die Relevanzklassifizierung des Tools korrekt ist. Das Reflexionsmodul ist optional und wurde von den Forschern hinzugefügt, um die Anzahl falscher Positivergebnisse zu verringern.

Die Forscher stellten fest, dass die Leistung von NewsSerow mit anderen Modellen zur Nachrichtenzusammenfassung und -klassifizierung vergleichbar war, die jedoch wesentlich mehr Trainingsdaten erforderten.

„Genau das wollen wir erreichen. Wir möchten, dass dieser Workflow, den wir für NewsSerow entwickelt haben, auch für andere ressourcenarme Sprachen verwendet wird“, sagte Fang. „Es ist schwierig, wenn man ein Tool für eine neue Sprache entwickeln möchte, aber ein Fachexperte gebeten wird, 300, 500 oder 1.000 Artikel für uns zu kennzeichnen. Es ist nicht so schwer, ihn zu bitten, 10 zu kennzeichnen. Das ist machbar.“

Forscher arbeiten mit dem WWF Indien zusammen, um dieses Tool auf die Medienüberwachung in Hindi und anderen Sprachen auszuweiten und auf andere Quellen wie soziale Medien auszudehnen.

Ein Dokument mit detaillierten Informationen zum System ist verfügbar auf der arXiv Preprint-Server.

Mehr Informationen:
Sameer Jain et al., Wo es wirklich darauf ankommt: Few-Shot-Medienmonitoring zum Umweltschutz für ressourcenarme Sprachen, arXiv (2024). DOI: 10.48550/arxiv.2402.11818

Informationen zur Zeitschrift:
arXiv

Zur Verfügung gestellt von der Carnegie Mellon University

ph-tech