ClickHousedas Open-Source-Startup für Echtzeitanalysedatenbanken, das 2021 aus Yandex ausgegliedert wurde, gab am Dienstag die Übernahme von PeerDB bekannt, einem Unternehmen, das sich auf kostengünstige Postgres-Replikation und Änderungsdatenerfassung konzentriert.
Seit seiner Einführung und sogar schon davor, als es ein von Yandex unterstütztes Open-Source-Projekt war, hat sich ClickHouse einen Namen als Echtzeit-Data-Warehouse für große Unternehmen gemacht. Zu seinen Kunden zählen die Deutsche Bank, eBay, Fastly, GitLab, HubSpot, Microsoft, ServiceNow und Spotify. Und obwohl ClickHouse bereits einen Postgres-Connector anbot, mit dem Unternehmen ihre Daten aus der beliebten relationalen Datenbank in ihre Analysedatenbank verschieben konnten, bietet PeerDB Geschwindigkeitsverbesserungen von bis zu 10x sowie eine Reihe von Spezialfunktionen, die ClickHouse bisher nicht anbot.
„Wir begannen unsere Reise mit dem Aufbau einer Datenbewegung ETL-Tool mit einem Laserfokus auf Postgres. Wir begannen mit dieser Nische, die weltweit beste Möglichkeit zur Replikation von Daten von Postgres in Data Warehouses bereitzustellen. […] Wir haben unseren ClickHouse-Connector vor etwa sechs Monaten veröffentlicht und seitdem ist er nur noch gewachsen und jetzt ist er der am schnellsten wachsende Connector und übertrifft die anderen Data Warehouses wie Snowflake und BigQuery“, sagt PeerDB-Mitbegründer und CEO Sai Srirampur hat es mir erzählt. Bevor er PeerDB gründete, arbeitete Srirampur am PostgreSQL-Dienst von Azure, nachdem Microsoft Citus Data übernommen hatte, wo er zuvor gearbeitet hatte.
Srirampur erzählte mir, dass er bei PeerDB immer Wert auf „Qualität statt Quantität“ legen wollte, was das Team dazu veranlasste, sich voll und ganz auf die Entwicklung eines speziellen ETL-Tools für Postgres zu konzentrieren. Dazu gehört das anfängliche Laden von bis zu mehreren Terabyte an Daten aus einer Postgres-Datenbank in ein Warehouse wie ClickHouse, aber – vielleicht am wichtigsten – auch das Change Data Capture-System, das sicherstellt, dass die ursprüngliche Datenbank und das Data Warehouse synchron bleiben.
Wie sich herausstellte, war Postgres für die Mehrheit der PeerDB-Kunden die Hauptdatenquelle für ihr Data Warehouse. Das ist vielleicht keine Überraschung, da diese Kunden eher einen Dienst wie PeerDB wählen würden, aber ClickHouse sah offensichtlich auch einen wachsenden Markt für ein solches Tool.
„Was wir sehr, sehr oft sehen, ist [customers] Postgres als transaktionales Backend für kundenorientierte Anwendungen zu verwenden und diese Daten dann für Analysezwecke in ClickHouse zu verschieben – das ist ein sehr, sehr gängiges Muster, und es gibt eine Reihe von Kunden, die es verwenden“, sagt ClickHouse-Mitbegründer Juri Israilewski sagte mir. „Natürlich ist Postgres eine sehr komplexe Technologie. Sie ist super leistungsstark, erfordert aber wirklich fundiertes Wissen, insbesondere für Anwendungsfälle zur Änderungsdatenerfassung.“
Im Laufe der Zeit wird das PeerDB-Team daran arbeiten, die Änderungsdatenerfassung auch für zusätzliche Datenquellen zu ermöglichen. Bestehende kommerzielle Kunden können den PeerDB-Cloud-Dienst bis zum 24. Juli 2025 nutzen.
Die bestehenden Open-Source-Komponenten von PeerDB bleiben Open Source, ohne dass sich ihre Lizenzen ändern. ClickHouse wird auch die produktionstauglichen Helm-Charts für das Enterprise-Angebot von PeerDB als Open Source bereitstellen.
Die beiden Unternehmen gaben den Preis der Übernahme nicht bekannt, aber es ist erwähnenswert, dass PeerDB Ende 2023 eine Seed-Finanzierungsrunde in Höhe von 3,6 Millionen US-Dollar abgeschlossen hat, wobei 8VC die Runde anführte.
„Ich denke, wir haben uns auf einen fairen Preis geeinigt, der die Arbeit des PeerDB-Teams angemessen belohnt und anerkennt und der sowohl dem Team als auch seinen Investoren gegenüber fair ist“, sagte Izrailevsky. „Gleichzeitig denke ich, dass es angesichts des Potenzials immer noch eine großartige Gelegenheit für uns ist.“