Forscher nutzt maschinelles Lernen, um bei der Digitalisierung alter Texte aus der Indus-Zivilisation zu helfen

Die Zivilisation des Industals gilt neben Mesopotamien und Ägypten als eine der drei frühesten Zivilisationen der Weltgeschichte. Die Indus-Zivilisation war geographisch größer als diese beiden, als sie sich ab 3300 v. Chr. über das heutige Pakistan und Indien erstreckte. Sie verfügte über einheitliche Gewichte und Maße, geschickte Handwerker, ein vielfältiges Handels- und Gewerbesystem und über 500 Symbole und Zeichen für die Kommunikation.

Aber eine Frage beschäftigt Wissenschaftler seit Jahrzehnten und behindert Versuche, mehr über diese Zivilisation zu erfahren: Waren diese Zeichen eine Sprache oder ähnelten sie eher Piktogrammen? Auch wenn einige Experten beginnen, die in Indus-Inschriften vorkommende Rechts-nach-Links-Schrift zu übersetzen, besteht wenig Einigkeit.

„Das ist eine Kontroverse, die noch nicht geklärt ist“, sagte Debasis Mitra, ein Professor für Informatik, der dank eines Romanstipendiums, das er vom National Endowment for the Humanities erhalten hat, jetzt mit dieser Suche verbunden ist: „Digitalisierung und Archivierung antiker Schriften ( ASDA) von Indus Valley Artifacts mithilfe von Deep Learning.

Der studentische Hilfsassistent Deva Atturu, der im April seine Masterarbeit verteidigen wird, unterstützt Mitra bei der Durchführung der durch Stipendien finanzierten Forschung. Erst diesen Monat nahmen er und Mitra virtuell an der South Asian Archaeology Conference 2024 der University of Chicago teil, wo Atturu ihre Arbeit vorstellte.

Bei den Schriften, die sie studieren, kann es sich um eine Reihe von Symbolen handeln, etwa Dollarzeichen oder Bilder von Geschäftstransaktionen, oder diese Symbole können Grapheme sein, einzelne Buchstaben oder Buchstabengruppen, die Sprachlaute darstellen.

„Beide Seiten haben sehr starke Argumente“, sagte Mitra.

Es geht ihm nicht darum, das Argument zu lösen, sondern diejenigen zu befähigen, die es wollen, indem er einen Algorithmus für maschinelles Lernen entwickelt, um die antike Schrift der Indus-Zivilisation zu identifizieren und zu digitalisieren. Es besteht ein Mangel an digitalisierten Daten, den Mitra beheben möchte.

Der Prozess nutzt ein automatisiertes Skripterkennungssystem (ASR), um codierte Graphemsequenzen aus einem Datensatz von mehr als 1.000 Fotos von Indus-Robben zu extrahieren. Mithilfe zweistufiger künstlicher neuronaler Netze hat das ASR einen Erfolg von 88 % bei der Erkennung von Graphemen erzielt.

Dennoch war der Prozess eine Herausforderung. Maschinelles Lernen wird häufig durch die Eingabe großer Datenmengen ermöglicht, um das System grundsätzlich zu trainieren. In diesem Fall müssen jedoch nicht viele Daten eingegeben werden. Und die vorhandenen Daten können manchmal „verrauscht“ oder verzerrt sein.

„Ich arbeite an der medizinischen Bildgebung und einige der Herausforderungen sind ähnlich“, sagte Mitra.

Mitra wendet verschiedene Elemente des maschinellen Lernens auf das Projekt an, um zu versuchen, neue Daten zu generieren oder um zu sehen, ob ein anderer Ansatz möglicherweise besser funktioniert. Und er findet sich auch auf Konferenzen wieder, die für Informatiker normalerweise nicht auf dem Programm stehen, wie etwa der Jahreskonferenz Südasiens letztes Jahr, die von der University of Wisconsin in Milwaukee ausgerichtet wurde, wo er dieses maschinelle Lernprojekt vorstellte.

Durch die Teilnahme an diesen Veranstaltungen bleibt er in Kontakt mit Archäologen, die ihm weitere Daten liefern können. „Ich gehe zu diesen Konferenzen und versuche, mit ihnen zu reden“, sagte er.

Er nimmt auch die Hilfe von Studenten des Indian Statistical Institute in seiner Heimat Indien in Anspruch. Gemeinsam machen sie Fortschritte. Sie können einige Motive und Grapheme digitalisieren und je nach Datenmenge sogar ein Skript erstellen. Dies zu tun und in eine Datenbank zu übertragen, ist das Ziel der anfänglichen Zuschussfinanzierung.

Die nächste Phase? Erstellen Sie ein System, das es Archäologen vor Ort ermöglicht, ein Smartphone-Foto eines Textes oder Symbols aufzunehmen und es zur Digitalisierung in die Datenbank einzuspeisen.

Dass diese Bemühungen darauf abzielen, eine der großen Zivilisationen in der Geschichte seines Landes zu beleuchten und besser zu verstehen, ist für Mitra eine zusätzliche Motivation.

„Es ist Teil meiner Geschichte, also gibt es dafür eine zusätzliche Motivation. Und offensichtlich sehe ich, dass indische Studenten aus demselben Grund sehr interessiert sind“, sagte er. „Aber einer der ersten Durchbrüche gelang einigen amerikanischen Studenten, die großes Interesse an Indien hatten, und einige von ihnen sagten, sie hätten Indien anschließend besucht.“

Bereitgestellt vom Florida Institute of Technology

ph-tech