Wie lernen neuronale Netze? Eine mathematische Formel erklärt, wie sie relevante Muster erkennen

Neuronale Netze haben zu Durchbrüchen in der künstlichen Intelligenz geführt, einschließlich der großen Sprachmodelle, die heute in einer Vielzahl von Anwendungen eingesetzt werden, vom Finanzwesen über das Personalwesen bis hin zum Gesundheitswesen. Aber diese Netzwerke bleiben eine Black Box, deren Innenleben Ingenieure und Wissenschaftler nur schwer verstehen können.

Jetzt hat ein Team unter der Leitung von Daten- und Informatikern an der University of California in San Diego neuronale Netze mit einer Röntgenaufnahme untersucht, um herauszufinden, wie sie tatsächlich lernen.

Die Forscher fanden heraus, dass eine in der statistischen Analyse verwendete Formel eine optimierte mathematische Beschreibung liefert, wie neuronale Netze wie GPT-2, ein Vorläufer von ChatGPT, relevante Muster in Daten, sogenannte Features, lernen. Diese Formel erklärt auch, wie neuronale Netze diese relevanten Muster nutzen, um Vorhersagen zu treffen.

„Wir versuchen, neuronale Netze anhand erster Prinzipien zu verstehen“, sagte Daniel Beaglehole, ein Ph.D. Student am UC San Diego Department of Computer Science and Engineering und Co-Erstautor der Studie. „Mit unserer Formel kann man einfach interpretieren, welche Merkmale das Netzwerk verwendet, um Vorhersagen zu treffen.“

Das Team stellen ihre Erkenntnisse vor im Tagebuch Wissenschaft.

Warum ist das wichtig? KI-gestützte Werkzeuge sind mittlerweile im Alltag allgegenwärtig. Banken nutzen sie, um Kredite zu genehmigen. Krankenhäuser nutzen sie zur Analyse medizinischer Daten wie Röntgen- und MRT-Aufnahmen. Unternehmen nutzen sie, um Bewerber zu prüfen. Allerdings ist es derzeit schwierig, den Mechanismus zu verstehen, den neuronale Netze nutzen, um Entscheidungen zu treffen, und die Verzerrungen in den Trainingsdaten, die sich darauf auswirken könnten.

„Wenn man nicht versteht, wie neuronale Netze lernen, ist es sehr schwer festzustellen, ob neuronale Netze zuverlässige, genaue und angemessene Antworten liefern“, sagte Mikhail Belkin, korrespondierender Autor des Artikels und Professor am UC San Diego Halicioglu Data Science Institute . „Dies ist besonders wichtig angesichts des rasanten jüngsten Wachstums des maschinellen Lernens und der neuronalen Netztechnologie.“

Die Studie ist Teil einer größeren Anstrengung in Belkins Forschungsgruppe, eine mathematische Theorie zu entwickeln, die erklärt, wie neuronale Netze funktionieren. „Die Technologie hat die Theorie um ein Vielfaches überholt“, sagte er. „Wir müssen aufholen.“

Das Team zeigte auch, dass die statistische Formel, die sie verwendeten, um zu verstehen, wie neuronale Netze lernen, bekannt als Average Gradient Outer Product (AGOP), zur Verbesserung der Leistung und Effizienz in anderen Arten von Architekturen für maschinelles Lernen angewendet werden könnte, die keine neuronalen Netze umfassen.

„Wenn wir die zugrunde liegenden Mechanismen verstehen, die neuronale Netze antreiben, sollten wir in der Lage sein, Modelle für maschinelles Lernen zu erstellen, die einfacher, effizienter und besser interpretierbar sind“, sagte Belkin. „Wir hoffen, dass dies zur Demokratisierung der KI beitragen wird.“

Die maschinellen Lernsysteme, die Belkin sich vorstellt, würden weniger Rechenleistung und damit weniger Strom aus dem Netz benötigen, um zu funktionieren. Diese Systeme wären auch weniger komplex und daher leichter zu verstehen.

Veranschaulichung der neuen Erkenntnisse anhand eines Beispiels

(Künstliche) neuronale Netze sind Rechenwerkzeuge zum Erlernen von Beziehungen zwischen Datenmerkmalen (z. B. zur Identifizierung bestimmter Objekte oder Gesichter in einem Bild). Ein Beispiel für eine Aufgabe ist die Feststellung, ob in einem neuen Bild eine Person eine Brille trägt oder nicht. Maschinelles Lernen geht dieses Problem an, indem es dem neuronalen Netzwerk viele Beispielbilder (Trainingsbilder) zur Verfügung stellt, die als Bilder von „einer Person, die eine Brille trägt“ oder „einer Person, die keine Brille trägt“ gekennzeichnet sind.

Das neuronale Netzwerk lernt die Beziehung zwischen Bildern und ihren Beschriftungen und extrahiert Datenmuster oder Merkmale, auf die es sich konzentrieren muss, um eine Entscheidung zu treffen. KI-Systeme gelten unter anderem deshalb als Black Box, weil es oft schwierig ist, mathematisch zu beschreiben, welche Kriterien die Systeme tatsächlich für ihre Vorhersagen verwenden, einschließlich möglicher Verzerrungen. Die neue Arbeit liefert eine einfache mathematische Erklärung dafür, wie die Systeme diese Funktionen lernen.

Merkmale sind relevante Muster in den Daten. Im obigen Beispiel gibt es eine Vielzahl von Funktionen, die die neuronalen Netze lernen und dann verwenden, um festzustellen, ob eine Person auf einem Foto tatsächlich eine Brille trägt oder nicht.

Ein Merkmal, auf das bei dieser Aufgabe geachtet werden muss, ist der obere Teil des Gesichts. Weitere Merkmale könnten der Augen- oder Nasenbereich sein, wo häufig Brillen aufliegen. Das Netzwerk achtet selektiv auf die Merkmale, die es als relevant erfährt, und verwirft dann die anderen Teile des Bildes, wie den unteren Teil des Gesichts, die Haare usw.

Beim Feature-Learning handelt es sich um die Fähigkeit, relevante Muster in Daten zu erkennen und diese Muster dann zu nutzen, um Vorhersagen zu treffen. Im Brillenbeispiel lernt das Netzwerk, auf den oberen Teil des Gesichts zu achten. Im Neuen Wissenschaft In ihrer Arbeit identifizierten die Forscher eine statistische Formel, die beschreibt, wie die neuronalen Netze Funktionen lernen.

Alternative neuronale Netzwerkarchitekturen: Die Forscher zeigten weiter, dass die Einführung dieser Formel in Computersysteme, die nicht auf neuronalen Netzwerken basieren, es diesen Systemen ermöglicht, schneller und effizienter zu lernen.

„Wie ignoriere ich, was nicht notwendig ist? Menschen sind darin gut“, sagte Belkin. „Maschinen machen das Gleiche. Große Sprachmodelle zum Beispiel implementieren diese ‚selektive Aufmerksamkeit‘ und wir wissen nicht, wie sie das machen. In unserem.“ Wissenschaft In unserer Arbeit stellen wir einen Mechanismus vor, der zumindest einen Teil davon erklärt, wie die neuronalen Netze „selektiv Aufmerksamkeit schenken“.

Mehr Informationen:
Adityanarayanan Radhakrishnan et al., Mechanismus für Feature-Learning in neuronalen Netzen und Backpropagation-freie Modelle für maschinelles Lernen, Wissenschaft (2024). DOI: 10.1126/science.adi5639

Bereitgestellt von der University of California – San Diego

ph-tech