Daten haben sich zu einer der größten Ressourcen der Welt entwickelt und untermauern alles, von Videoempfehlungs-Engines und digitalem Banking bis hin zur aufkeimenden KI-Revolution. Aber in einer Welt, in der Daten zunehmend über Standorte verteilt werden, von Datenbanken über Data Warehouses bis hin zu Data Lakes und darüber hinaus, kann es ein Mammut-Unterfangen sein, sie alle in einem kompatiblen Format für die Verwendung in Echtzeitszenarien zu kombinieren.
Für den Kontext können Anwendungen, die keinen sofortigen Datenzugriff in Echtzeit benötigen, Daten einfach kombinieren und in festgelegten Intervallen in Stapeln verarbeiten. Diese sogenannte „Batch-Datenverarbeitung“ kann beispielsweise für die Verarbeitung monatlicher Verkaufsdaten nützlich sein. Aber oft ein Unternehmen Wille benötigen Echtzeitzugriff auf Daten, während sie erstellt werden, und dies kann beispielsweise für Kundensupport-Software von entscheidender Bedeutung sein, die sich auf aktuelle Informationen über jeden einzelnen Verkauf stützt. An anderer Stelle müssen Ride-Hail-Apps auch alle möglichen Datenpunkte verarbeiten, um einen Mitfahrer mit einem Fahrer zu verbinden – das kann nicht ein paar Tage warten. Diese Art von Szenarien erfordert eine sogenannte „Stream-Datenverarbeitung“, bei der Daten gesammelt und für den Echtzeitzugriff kombiniert werden – etwas, das weitaus komplexer zu konfigurieren ist.
Und das ist etwas, das Bulldozer setzt sich dafür ein, indem es schnelle, schreibgeschützte APIs direkt von jeder Quelle über ein Plug-and-Play-Dateninfrastruktur-Backend unterstützt.
Bulldozer in der Handarbeit von Vivek Gudapuri Und Matteo Pelati, die das Unternehmen vor knapp einem Jahr von Singapur aus gegründet haben. Das Duo hat ein verteiltes Team von 10 Personen in Asien und Osteuropa aufgebaut, während sie sich darauf vorbereiten, über das aktuelle Produkt hinaus zu expandieren Quelle vorhanden (dh nicht ganz Open Source) Inkarnation und in ein vollständig monetarisierbares Produkt.
Dozer hat sein Produkt mit einer Handvoll nicht bekannt gegebener Designpartner getestet, und heute taucht es aus der Tarnung auf, auf das jeder Entwickler zugreifen kann. Das Unternehmen gab außerdem bekannt, dass es 3 Millionen US-Dollar an Seed-Finanzierung von erhalten hat Sequoia Hauptstadt IndienGoogles Gradient Ventures, AnstiegUnd Januar Hauptstadt.
Verteilt
Es gibt bereits unzählige Tools, die darauf ausgelegt sind, verteilte Daten zu transformieren, zu integrieren und nutzbar zu machen, einschließlich Streaming-Datenbanken und ETL-Tools (Extract, Transform, Load) wie z Apache Flink, Airbyte und Fivetran; Caching-Layer für transiente Datenspeicherung wie Redis; und Instant-APIs, die von Hasura oder Supabase unterstützt werden, um Daten zwischen Systemen zu leiten.
Dozer seinerseits arbeitet in all diesen verschiedenen Kategorien, übernimmt die seiner Meinung nach besten Teile und beseitigt die Reibung, die mit dem Aufbau der Infrastruktur und der Einrichtung von Echtzeit-Datenanwendungen einhergeht.
Benutzer schließen Dozer an ihren vorhandenen Datenstapel an, der Datenbanken, Data Warehouses und Data Lakes umfassen kann, und Dozer kümmert sich um die Datenextraktion, das Caching und die Indizierung in Echtzeit und stellt sie über APIs mit geringer Latenz zur Verfügung. Während also etwas wie Airbyte oder Fivetran dabei hilft, Daten in ein Data Warehouse zu bringen, konzentriert sich Dozer auf die andere Seite – „diese Daten auf die effizienteste Weise zugänglich zu machen“, erklärte Gudapuri gegenüber Tech.
Gudapuri sagte, dass Dozer „einen eigensinnigen Ansatz verfolgt“, einen, der sehr spezifische Probleme angeht und nicht mehr. Zum Beispiel lösen etablierte Streaming-Datenbanken viele Probleme, die weit über das hinausgehen, was Dozer bietet, bei dem es darum geht, Echtzeit-Datenaktualisierungen und APIs in einem einzigen Produkt bereitzustellen.
„Wir lösen genau die richtige Menge an Problemen in jeder dieser Kategorien, um Entwicklern ein schnelles Bauerlebnis sowie sofort einsatzbereite Leistung zu bieten“, sagte Gudapuri. „Entwickler müssen (derzeit) mehrere Tools integrieren, um dasselbe zu erreichen.“
Beispielsweise wird eine vorhandene Streaming-Datenbank wahrscheinlich versuchen, dem Benutzer die gesamte Datenbankerfahrung zu präsentieren, vollgestopft mit Abfragemodul, Datenexploration, OLAP (Online-Analyseverarbeitung), usw. Dozer bietet diese Dinge bewusst nicht an, sondern konzentriert sich stattdessen auf das, was Pelati „vorberechnete Ansichten“ nennt, mit SQL, Python und JavaScript, die alle über niedrige Latenzzeit zugänglich sind gRPC Und AUSRUHEN APIs.
Und aus diesem Grund, sagt Pelati, kann Dozer eine bessere Latenz bei Datenabfragen versprechen.
„Aufgrund dieser Designentscheidungen bietet Dozer eine weit überlegene Abfragelatenz, die für kundenorientierte Anwendungen erforderlich ist“, sagte Pelati. „Ein einzelner Entwickler kann innerhalb von Minuten ganze Daten-Apps erstellen, was normalerweise Monate dauern würde. Ein Team muss nicht mehrere Integrationen erstellen und pflegen, was Zeit und Geld spart.“
Der (nicht ganz) Open-Source-Faktor
Während Dozer als „Open Source“-Plattform angepriesen wird, ein kurzer Blick darauf Lizenz auf GitHub zeigt, dass es eine verwendet Elastic-Lizenz 2.0 (ELv2), die Enterprise-Search-Firma Elastic mit derselben Lizenz vor zwei Jahren adoptiert als Teil seines Übergangs weg aus echter Open Source. In der Tat die Elastic-Lizenz wird nicht als Open Source anerkanntda es Dritte daran hindert, die Software zu übernehmen und sie selbst als gehosteten oder verwalteten Dienst anzubieten.
Genauer gesagt kann ELv2 als „source available“-Lizenz bezeichnet werden, was effektiv bedeutet, dass es viele der Vorteile einer freizügigeren Open-Source-Lizenz bietet wie MIT, einschließlich der Transparenz der Codebasis, der Möglichkeit, die Fähigkeiten von Dozer zu erweitern oder Funktionen zu optimieren und Fehler zu beheben. Dies allein wird wahrscheinlich ausreichen, um die Herzen und Köpfe von Unternehmen jeder Größe zu gewinnen, solange es nicht AWS oder ein anderer Cloud-Gigant ist, der direkt auf Dozer monetarisieren möchte.
Das Unternehmen sagte jedoch, dass es beabsichtige, „sehr bald“ auf eine Doppellizenz umzusteigen, bei der alles im Dozer-Kernprojekt enthalten sein wird MIT-lizenziert, außer für „ein Kernmodul“. Darüber hinaus betont das Unternehmen schnell, dass alle seine Client-Bibliotheken bereits MIT-lizenziert sind, einschließlich Python, ReagierenUnd JavaScript.
Es ist erwähnenswert, dass einige Unternehmen selbst interne Tools entwickelt haben, um ein ähnliches Problem zu lösen, das Dozer angeht, einschließlich Netflix, das Bulldozer gebaut hat mehrere Jahre zurück. Insbesondere einer der Hauptschöpfer von Bulldozer, Ioannis Papapanagiotouarbeitet jetzt als Berater für Dozer.
Es ist noch früh für Dozer, aber mit 3 Millionen US-Dollar auf der Bank von einer Vielzahl hochkarätiger Unterstützer ist das Unternehmen auf dem Weg zur Kommerzialisierung ziemlich gut finanziert, was die Einführung einer gehosteten SaaS-Version mit einer Reihe von beinhalten wird Zusatzfunktionen. Gudapuri sagte, es gehe davon aus, dass dies in den kommenden Monaten live gehen werde.
„Der gehostete Dienst kümmert sich um die automatische Skalierung, sofortige Bereitstellungen, Sicherheit, Compliance, Ratenbegrenzung und einige zusätzliche Funktionen“, sagte Gudapuri.