Encord, ein Neuling in der KI-Datenkennzeichnung, will auf einer steigenden Flutwelle reiten – Tech

Encord ein Neuling in der KI Datenkennzeichnung will auf einer steigenden

Bevor Sie auch nur daran denken können, einen Algorithmus zu entwickeln, um ein Röntgenbild zu lesen oder einen Blutausstrich zu interpretieren, muss die Maschine wissen, was was auf einem Bild ist. All das Versprechen von KI im Gesundheitswesen – ein Bereich, der angezogen hat 11,3 Milliarden Dollar in private Investitionen im Jahr 2021, kann nicht ohne sorgfältig gekennzeichnete Datensätze realisiert werden, die Maschinen sagen, wonach sie genau suchen.

Das Erstellen dieser beschrifteten Datensätze wird selbst zu einer Branche, in der sich Unternehmen rühmen, die weit nördlich des Einhornstatus liegen. Heute möchte Encord, ein kleines Startup aus Y Combinator, einen Teil der Aktion übernehmen. Mit dem Ziel, beschriftete Datensätze für Computer-Vision-Projekte zu generieren, hat Encord seine eigene Beta-Version eines KI-gestützten Beschriftungsprogramms namens CordVision auf den Markt gebracht. Der Markteinführung folgt Pilotprogrammen bei Stanford-Medizin, Memorial Sloan Kettering und Kings College London. Es wurde auch von getestet Kheiron Medical und Nämlich KI.

Encord hat eine Reihe von Werkzeugen entwickelt, mit denen Radiologen in DICOM-Bilder hineinzoomen können, ein Format, das allgemein zur Übertragung medizinischer Bilder verwendet wird. Und anstatt einen Radiologen dazu zu bringen, sich hinzusetzen und ein ganzes Bild mit Anmerkungen zu versehen, ist die Software so konzipiert, dass sichergestellt wird, dass nur wichtige Teile des Bildes beschriftet werden.

Encord wurde 2020 von Eric Landau, der einen Hintergrund in angewandter Physik hat, und Ulrik Stig Hansen gegründet. Hansen arbeitete am Imperial College London an einem Masterarbeitsprojekt, bei dem es um die Visualisierung großer medizinischer Bilddatensätze ging. Hansen war es, der zunächst bemerkte, wie zeitaufwändig es war, beschriftete Datensätze zu kuratieren.

Diese beschrifteten Datensätze sind wichtig, weil sie „Grundwahrheiten“ liefern, von denen Algorithmen lernen können. Es gibt einige Möglichkeiten, KI zu erstellen, die keine beschrifteten Datensätze erfordern, aber weitgehend hat sich die KI (insbesondere im Gesundheitswesen) auf überwachtes Lernen verlassen, was sie erfordert.

Um einen beschrifteten Datensatz zu erstellen, geht mehr als ein Arzt die Bilder buchstäblich einzeln durch und zeichnet Polygone um relevante Merkmale. In anderen Fällen kann dies mit Open-Source-Tools oder -Sensoren erfolgen. Wie auch immer, die wissenschaftliche Literatur deutet darauf hin, dass dieser Schritt einen großen Engpass in der Welt der KI im Gesundheitswesen darstellt, insbesondere in der Radiologie, einem Bereich, in dem der KI große Fortschritte prognostiziert wurden, der jedoch weitgehend keine großen Paradigmenwechsel bewirkt hat .

„Ich weiß, dass es viel Skepsis gibt [of AI in the medical world]. Wir glauben, dass der Fortschritt sehr langsam ist“, sagte Landau gegenüber Tech. „Wir glauben, dass der Übergang zu einem Ansatz, bei dem man sich in erster Linie wirklich Gedanken über die Trainingsdaten macht, dazu beitragen wird, die Weiterentwicklung dieser Modelle zu beschleunigen.“

Als Autoren eines 2021 Papier in Frontiers in Radiology bemerken, dass menschliche Etikettierer 24 Jahre Arbeit brauchen, um einen Datensatz von etwa 100.000 Bildern zu etikettieren. Ein weiteres 2021 Positionserklärung herausgegeben von der European Association of Nuclear Medicine (EANM) und der European Association of Cardiovascular Imaging (EACVI), stellt fest, dass „die Beschaffung gekennzeichneter Daten bei der medizinischen Bildanalyse zeitaufwändig und teuer sein kann“. Aber es weist auch darauf hin, dass neue Techniken entstehen, die die Dinge beschleunigen können.

Bildnachweis: Encord DICOM-Etikettierungsplattform

Ironischerweise sind diese neuen Techniken selbst Versionen künstlicher Intelligenz. Das Papier Frontiers in Radiology aus dem Jahr 2021 zeigte beispielsweise, dass der Prozess durch die Anwendung eines aktiven Lernansatzes um 87 % schneller sein könnte. Es würde nur 3,2 Arbeitsjahre dauern, im Gegensatz zu den 24 Jahren, um zum Beispiel mit 100.000 Bildern zurückzukehren.

CordVision ist im Grunde eine Version eines aktiven Lernprozesses namens Mikromodellierung. Diese Technik funktioniert im Großen und Ganzen, indem ein Team eine kleine, repräsentative Auswahl der Bilder beschriftet. Dann wird eine bestimmte KI auf diese Bilder trainiert und dann auf den breiteren Pool angewendet, den die KI beschriftet. Dann können menschliche Prüfer die Arbeit der KI überprüfen, anstatt die Kennzeichnung von Grund auf neu vorzunehmen.

Landu bricht es gut in einem Blogbeitrag auf seiner Medium-Seite: Stellen Sie sich vor, Sie erstellen einen Algorithmus, der The Batman in Batman-Filmen erkennen soll. Ihr Mikromodell würde auf fünf Bildern trainiert, die den Batman von Christian Bale darstellen. Ein anderer könnte trainiert werden, Ben Afflecks Batman zu erkennen, und so weiter. Alles in allem bauen Sie den größeren Algorithmus aus jedem kleinen Teil auf und setzen ihn dann für die Serie als Ganzes frei.

„Das ist etwas, von dem wir fanden, dass es ziemlich gut funktioniert, weil man mit sehr, sehr wenigen Anmerkungen und Bootstrapping des Prozesses davonkommen könnte“, sagte er.

Encord hat Daten veröffentlicht, um Landaus Behauptungen zu untermauern. Zum Beispiel, eine Studie In Zusammenarbeit mit dem Kings College London wurde CordVision mit einem von Intel entwickelten Beschriftungsprogramm verglichen. Fünf Labeler adressierten 25.744 Endoskopie-Videoframes. Die Gastroenterologen, die CordVision verwendeten, bewegten sich 6,4-mal schneller.

Die Methode war auch wirksam, wenn sie auf einen Testsatz von 15.521 COVID-19-Röntgenstrahlen angewendet wurde. Nur 5 % aller Bilder wurden überprüft, und die endgültige Genauigkeit eines KI-Kennzeichnungsmodells betrug 93,7 %.

Allerdings ist Enord bei weitem nicht das einzige Unternehmen, das diesen Engpass erkannt und versucht hat, KI einzusetzen, um den Etikettierungsprozess zu vereinfachen. Bestehende Unternehmen in diesem Bereich melden bereits hohe Bewertungen. Zum Beispiel erreichte Scale AI a Bewertung von 7,3 Milliarden US-Dollar im Jahr 2021 und Schnorchel hat Einhornstatus erreicht.

Der größte Konkurrent des Unternehmens ist nach Landaus Eingeständnis wahrscheinlich Labelbox. Labelbox hatte ungefähr 50 Kunden, als Tech sie in der Phase der Serie A behandelte. Im Januar schloss das Unternehmen eine Serie D im Wert von 110 Millionen US-Dollar ab und war damit in unmittelbarer Nähe der 1-Milliarden-Dollar-Marke.

CordVision ist immer noch ein sehr kleiner Fisch. Aber es ist in eine Datenkennzeichnungs-Flutwelle geraten. Landau sagt, dass das Unternehmen nach Orten sucht, die noch Open-Source- oder interne Tools verwenden, um ihre eigene Datenkennzeichnung vorzunehmen.

Bisher hat das Unternehmen seit seinem Abschluss bei Y Combinator 17,1 USD an Seed- und Series-A-Finanzierung aufgebracht. Das Unternehmen ist von seinen beiden Gründern auf ein Team von 20 Mitarbeitern angewachsen. Encord, sagt Landau, verbrenne kein Geld. Das Unternehmen sucht derzeit keine Mittelbeschaffung und glaubt, dass die aktuellen Spenden ausreichen werden, um dieses Tool durch den Kommerzialisierungsprozess zu bringen.

tch-1-tech