Am Donnerstag French großes Sprachmodell (LLM) Entwickler Mistral startete eine neue API für Entwickler, die komplexe PDF -Dokumente bearbeiten. Mistral OCR ist eine OPI -API (optische Charaktererkennung), die jede PDF in eine Textdatei verwandeln kann, damit die KI -Modelle die Einnahme erleichtern können.
LLMs, das beliebte Genai -Tools wie das Chatgpt von OpenAI untermauert, funktioniert besonders gut mit Rohtext. Unternehmen, die ihren eigenen KI -Workflow erstellen möchten, wissen, dass es äußerst wichtig geworden ist, Daten in einem sauberen Format zu speichern und zu indizieren, damit diese Daten für die KI -Verarbeitung wiederverwendet werden können.
Im Gegensatz zu den meisten OCR -APIs ist Mistral OCR eine multimodale API, was bedeutet, dass sie feststellen kann, wann Illustrationen und Fotos mit Textblöcken verflochten sind. Die OCR -API erstellt Begrenzungsboxen um diese grafischen Elemente und enthält sie in die Ausgabe.
Mistral OCR gibt auch nicht nur eine große Textwand aus. Die Ausgabe ist in Markdown formatiert, einer Formatierungssyntax, mit der Entwickler einer einfachen Textdatei Links, Header und andere Formatierungselemente hinzufügen.
LLMs verlassen sich stark auf Markdown für ihre Trainingsdatensätze. Wenn Sie einen KI -Assistenten verwenden, wie z. B. Mistrals LE -Chat oder Openai’s Chatgpt, erstellen sie häufig Markdown, um Kugellisten zu erstellen, Links hinzuzufügen oder einige Elemente fett zu machen. Assistenten -Apps formatieren die Markdown -Ausgabe nahtlos in eine reichhaltige Textausgabe. Deshalb sind Rohtext – und Markdown – in den letzten Jahren wichtiger geworden, als Genai boomt hat.
„Im Laufe der Jahre haben Organisationen zahlreiche Dokumente angesammelt, häufig in PDF- oder Folienformaten, die für LLMs, insbesondere für Lappensysteme, nicht zugänglich sind. Mit Mistral OCR können unsere Kunden nun reichhaltige und komplexe Dokumente in lesbare Inhalte in allen Sprachen umwandeln “, sagte Guillaume, Mitbegründer und Chief Science Officer von Mistral, Guillaume.
„Dies ist ein entscheidender Schritt zur weit verbreiteten Einführung von AI -Assistenten in Unternehmen, die den Zugang zu ihrer riesigen internen Dokumentation vereinfachen müssen“, fügte er hinzu.
Mistral OCR ist auf der API -Plattform von MISTRAL oder über seine Cloud -Partner (AWS, Azure, Google Cloud Vertex usw.) verfügbar. Und für Unternehmen, die mit klassifizierten oder sensiblen Daten arbeiten, bietet Mistral eine lokale Bereitstellung an.
Laut dem in Paris ansässigen KI-Unternehmen ist Mistral OCR besser als APIs von Google, Microsoft und OpenAI. Das Unternehmen hat sein OCR -Modell mit komplexen Dokumenten getestet, die mathematische Ausdrücke (Latex -Formatierung), erweiterte Layouts oder Tabellen umfassen. Es soll auch mit nicht englischen Dokumenten besser abschneiden.
Angesichts der Tatsache, dass Mistral OCR nur eine Sache und eins macht, glaubt das Unternehmen, dass es auch schneller ist als das, was da draußen ist. Das ist keine Überraschung, wenn Sie es mit einem multimodalen LLM wie GPT-4O vergleichen, das auch OCR-Funktionen hat (darunter viele andere Merkmale).
Mistral verwendet auch Mistral OCR für seinen eigenen KI -Assistenten Le Chat. Wenn ein Benutzer eine PDF -Datei hochlädt, verwendet das Unternehmen Mistral OCR im Hintergrund, um zu verstehen, was sich im Dokument befindet, bevor der Text verarbeitet wird.
Unternehmen und Entwickler werden höchstwahrscheinlich ein Mistral-OCR mit einem RAG-System (auch bekannt als Abruf von Abruf-Augmented-Generation) verwenden, um multimodale Dokumente als Eingabe in einem LLM zu verwenden. Und es gibt viele potenzielle Anwendungsfälle. Zum Beispiel könnten wir uns vorstellen, dass Anwaltskanzleien sie nutzen, um sie schnell durch riesige Dokumentevolumina zu pflügen.
RAG ist eine Technik, mit der Daten abgerufen und als Kontext mit einem generativen KI -Modell verwendet werden.