Auf seinem Data + AI Summit hat Databricks heute die erforderliche Anzahl von Ankündigungen gemacht, die man von den Flaggschiff-Entwicklerveranstaltungen eines Unternehmens erwarten würde. Darunter die Einführung von Delta Lake 2.0, der nächsten Version seiner Plattform für den Bau von Datenseehäusern, MLflow 2.0die nächste Generation seiner Plattform zur Verwaltung der Pipeline für maschinelles Lernen, die jetzt MLflow-Pipelines mit Vorlagen für die Bootstrapping-Modellentwicklung und einige Ankündigungen rund um die enthält Apache Spark Datenanalyse-Engine, die Teil des Kerns der Databricks-Plattform ist.
Mit Spark Connect hat Databricks heute eine neue Client- und Serverschnittstelle für Spark angekündigt, die auf der DataFrame-API. In Spark ist ein DataFrame eine verteilte Sammlung von Daten, die in Spalten organisiert und über eine API in Sprachen wie Scala, Java, Python oder R verfügbar gemacht werden. Mit Spark Connect übernimmt Databricks dieses Konzept, entkoppelt dann aber Client und Server, was Das Unternehmen sagt, dass es zu einer besseren Stabilität führen und Remote-Konnektivität als integrierte Funktion ermöglichen wird.
Was vielleicht noch spannender ist, ist etwas, das Databricks Project Lightspeed nennt, das das Unternehmen als die nächste Generation der Spark-Streaming-Engine beschreibt. Databricks argumentiert, dass sich auch die Anforderungen an das, was Streaming-Engines bereitstellen können, geändert haben, da jetzt mehr Anwendungen Streaming-Daten erfordern.
„Spark Structured Streaming ist seit den Anfängen des Streamings aufgrund seiner Benutzerfreundlichkeit, Leistung, seines großen Ökosystems und seiner Entwicklergemeinschaften weit verbreitet“, erklärt das Unternehmen in der heutigen Ankündigung. „In diesem Sinne Databricks wird mit der Community zusammenarbeiten und die Teilnahme am Projekt Lightspeed fördern, um die Leistung zu verbessern, die Ökosystemunterstützung für Konnektoren zu verbessern und die Funktionalität für die Verarbeitung zu verbessern Daten mit neuen Operatoren und APIs und vereinfachen Bereitstellung, Betrieb, Überwachung und Fehlerbehebung.“
Ein Databricks-Sprecher sagte mir, dass das Projekt von geleitet wird Karthik Ramasamydem Head of Streaming des Unternehmens, mit Fokus auf höherem Durchsatz, geringerer Latenz und niedrigeren Kosten sowie einem erweiterten Ökosystem von Konnektoren und zusätzlichen Datenverarbeitungsfunktionen.