Seit seiner Gründung im Jahr 2013 hat sich Databricks auf sein Ökosystem von Partnern wie Fivetran, Rudderstack und dbt verlassen, um Tools für die Datenaufbereitung und das Laden bereitzustellen. Doch jetzt, auf seinem jährlichen Data + AI Summit, kündigte das Unternehmen an: SeeFloweine eigene Datentechniklösung, die die Datenaufnahme, -transformation und -orchestrierung übernehmen kann und die Notwendigkeit einer Drittanbieterlösung überflüssig macht.
Mit LakeFlow können Databricks-Benutzer bald ihre Datenpipelines erstellen und Daten aus Datenbanken wie MySQL, Postgres, SQL Server und Oracle sowie Unternehmensanwendungen wie Salesforce, Dynamics, Sharepoint, Workday, NetSuite und Google Analytics aufnehmen.
Warum dieser Sinneswandel, nachdem man sich so lange auf seine Partner verlassen hat? Databricks-Mitbegründer und CEO Ali Ghodsi erklärte, dass er, als er vor zwei Jahren seinen Beirat beim Databricks CIO Forum nach zukünftigen Investitionen fragte, mit Anfragen nach mehr Funktionen für maschinelles Lernen rechnete. Stattdessen wünschte sich das Publikum eine bessere Datenaufnahme aus verschiedenen SaaS-Anwendungen und Datenbanken. „Alle im Publikum sagten: Wir wollen einfach in der Lage sein, Daten aus all diesen SaaS-Anwendungen und Datenbanken in Databricks zu übertragen“, sagte er. „Ich habe ihnen wörtlich gesagt: Wir haben großartige Partner dafür. Warum sollten wir diese redundante Arbeit machen? Das gibt es in der Branche bereits.“
Wie sich herausstellt, nutzte die überwiegende Mehrheit der Databricks-Kunden nicht die Partner des Ökosystems, sondern entwickelte ihre eigenen maßgeschneiderten Lösungen, um Randfälle und ihre Sicherheitsanforderungen abzudecken, auch wenn sich die Entwicklung von Konnektoren und Datenpipelines mittlerweile wie ein Massengeschäft anfühlen mag.
Zu diesem Zeitpunkt begann das Unternehmen zu erkunden, welche Möglichkeiten es in diesem Bereich hatte, was schließlich im vergangenen November zur Übernahme des Echtzeit-Datenreplikationsdienstes Arcion führte.
Ghodsi betonte, dass Databricks plant, sein Partner-Ökosystem „weiter zu verdoppeln“, aber es gibt eindeutig einen Teil des Marktes, der einen solchen Service in die Plattform integriert haben möchte. „Das ist eines dieser Probleme, mit denen sie sich einfach nicht befassen wollen. Sie wollen nichts anderes kaufen. Sie wollen nichts anderes konfigurieren. Sie wollen einfach, dass die Daten in Databricks sind“, sagte er.
In gewisser Weise sollte das Einspeisen von Daten in ein Data Warehouse oder einen Data Lake tatsächlich ein Muss sein, denn die eigentliche Wertschöpfung erfolgt erst später. LakeFlow verspricht, dass Databricks nun eine End-to-End-Lösung anbieten kann, mit der Unternehmen ihre Daten aus einer Vielzahl von Systemen beziehen, sie nahezu in Echtzeit transformieren und aufnehmen und dann produktionsreife Anwendungen darauf aufbauen können.
Im Kern besteht das LakeFlow-System aus drei Teilen. Der erste Teil ist LakeFlow Connect, das die Konnektoren zwischen den verschiedenen Datenquellen und dem Databricks-Dienst bereitstellt. Es ist vollständig in die Datenverwaltungslösung Unity Data Catalog von Databricks integriert und basiert teilweise auf Technologie von Arcion. Databricks hat auch viel Arbeit investiert, um dieses System bei Bedarf schnell und auf sehr große Arbeitslasten skalierbar zu machen. Derzeit unterstützt dieses System SQL Server, Salesforce, Workday, ServiceNow und Google Analytics, MySQL und Postgres folgen in Kürze.
Der zweite Teil ist LakeFlow Pipelines, im Wesentlichen eine Version des bestehenden Delta Live Tables-Frameworks von Databricks zur Implementierung von Datentransformation und ETL in SQL oder Python. Ghodsi betonte, dass LakeFlow Pipelines einen Modus mit geringer Latenz für die Datenübertragung bietet und auch inkrementelle Datenverarbeitung ermöglichen kann, sodass für die meisten Anwendungsfälle nur Änderungen an den Originaldaten mit Databricks synchronisiert werden müssen.
Der dritte Teil ist LakeFlow Jobs, die Engine, die für eine automatisierte Orchestrierung sorgt und die Integrität und Bereitstellung der Daten gewährleistet. „Bisher haben wir über das Einlesen der Daten gesprochen, das sind Connectors. Und dann haben wir gesagt: Lasst uns die Daten transformieren. Das sind Pipelines. Aber was ist, wenn ich andere Dinge tun möchte? Was ist, wenn ich ein Dashboard aktualisieren möchte? Was ist, wenn ich ein maschinelles Lernmodell anhand dieser Daten trainieren möchte? Welche anderen Aktionen muss ich in Databricks ausführen? Dafür ist Jobs der Orchestrator“, erklärte Ghodsi.
Ghodsi bemerkte auch, dass viele Databricks-Kunden jetzt versuchen, ihre Kosten zu senken und die Anzahl der Dienste, für die sie bezahlen, zu konsolidieren – ein Refrain, den ich seit etwa einem Jahr fast täglich von Unternehmen und ihren Anbietern höre. Das Angebot eines integrierten Dienstes für die Datenaufnahme und -transformation entspricht diesem Trend.
Databricks führt den LakeFlow-Dienst stufenweise ein. Den Anfang macht LakeFlow Connect, das bald als Vorschau verfügbar sein wird. Das Unternehmen verfügt über eine Anmeldeseite für die Warteliste. Hier.