Fivetran, das Unternehmen, das vor allem dafür bekannt ist, Unternehmen beim Aufbau ihrer Datenpipelines zu unterstützen, hat am Dienstag angekündigt die allgemeine Verfügbarkeit seines neuesten Produkts, des Fivetran Managed Data Lake Service.
Der neue Service soll die repetitive Arbeit der Verwaltung von Datenseen durch Automatisierung und Rationalisierung für die Kunden des Unternehmens eliminieren, sodass diese sich auf die Erstellung von Produkten auf der Grundlage dieser Daten konzentrieren können. Ab sofort unterstützt der Service Amazon S3, Azure Data Lake Storage (ADLS) und Microsoft OneLake, Unterstützung für Google Cloud ist geplant.
Traditionell unterstützte Fivetran nur Data Warehouses, die typischerweise zum Speichern strukturierter, relationaler Daten verwendet werden, um Analytics- und Business Intelligence-Anwendungen (BI) zu betreiben. Data Lakes hingegen sind zum Speichern strukturierter und unstrukturierter Daten aus einer Vielzahl von Quellen und für Anwendungsfälle gedacht, die oft Echtzeitanalysen und maschinelle Lernworkloads umfassen. Databricks hat auch das Konzept der Haus am Seedessen Ziel es ist, das Beste aus beiden Welten in einem einzigen Daten-Repository zu vereinen.
„Die Idee ist, dass wir die skalierbare Infrastruktur, die wir in den letzten neun Jahren für BI bereitgestellt haben, auf KI und die gesamte Workload-Umgebung übertragen“, sagte mir Taylor Brown, Mitbegründer und COO von Fivetran.
Der Managed Data Lake Service verwendet die über 500 vorhandenen Konnektoren von Fivetran und normalisiert und dedupliziert sie, bevor er sie in einen der unterstützten Data Lakes im Delta Lake- oder Apache Iceberg-Tabellenformat sendet. Im Data Lake können Benutzer dann mit der Rechenmaschine ihrer Wahl (z. B. Databricks, Snowflake, Starburst oder Redshift) arbeiten, um diese Daten zu operationalisieren – oder sie auf eine Machine-Learning-Plattform zu bringen, um ihre neuen KI-Anwendungen zu betreiben.
„Fivetran hat eigentlich nur die Data Warehouses unterstützt, […] und sicherlich verwenden einige Kunden diese Tools als Datenseen, aber viele Kunden, insbesondere die größeren Kunden, haben darum gebeten, dass wir mehr Iceberg- und Delta Lake-Formate in Datenseen unterstützen“, sagte Brown.
Brown erzählte mir, dass viele Kunden, die den neuen Managed Service während der Vorschauphase ausprobierten, feststellten, dass sie dieselben Pipelines bauten, um ihre Daten in Data Warehouses und Data Lakes zu laden.
Ein Problem bei Data Lakes ist, dass es oft schwierig ist, sicherzustellen, dass Benutzer nur auf die Daten zugreifen können, die sie verwenden sollen. In der Ankündigung vom Dienstag betonte Fivetran, dass es sich in vorhandene Datenkataloge und Governance-Lösungen wie AWS Glue, Databricks Unity Catalog und Microsoft Purview integrieren lässt.
„Wir freuen uns sehr, dass Fivetran Delta Lake als direktes Ziel unterstützt“, sagte Himanshu Raja, Director of Product bei Databricks. „Mit dieser neuen Funktion können Kunden jetzt Fivetran verwenden, um ein offenes Lakehouse mit Delta Lake zu erstellen, das von der Databricks Data Intelligence Platform unterstützt wird. Wir freuen uns auch sehr über die bevorstehende Fivetran-Integration mit Unity Catalog, um sofort einsatzbereite Governance und Sicherheit für alle von Fivetran generierten Tabellen bereitzustellen.“
Bis Ende August stellt Fivetran den neuen Service kostenlos zur Verfügung (bis zu 10.000 US-Dollar pro Kunde). Danach wird Fivetran sein aktuelles Verbrauchsmodell anwenden, um dafür Gebühren zu erheben. „Einer der Vorteile der Nutzung des Managed Data Lake Service von Fivetran ist, dass die Aufnahme kostenlos ist“, sagte Brown. „Wenn Sie innerhalb von Snowflake oder Databricks oder den anderen nachgelagerten Verbrauchern laden, müssen Sie die Warehouse-Berechnung verwenden, um die Daten tatsächlich aufzunehmen, was ziemlich [expensive] in manchen Fällen.“