
Databricks spendiert deklarative Pipelines für das Open-Source-Projekt Apache Spark™
Databricks, das Daten- und KI-Unternehmen, stellt sein deklaratives ETL-Kernframework als Apache Spark™ Declarative Pipelines für Open Source zur Verfügung. Diese Initiative folgt auf zwei Milliarden Downloads von Apache Spark und die kürzliche Einführung von Apache Spark 4.0.
Diese Releases bauen auf dem langjährigen Engagement von Databricks für offene Ökosysteme auf und gewährleisten, dass Benutzer die erforderliche Flexibilität und Kontrolle haben, ohne an einen Anbieter gebunden zu sein. Spark Declarative Pipelines bewältigt eine der größten Herausforderungen im Bereich Data Engineering und erleichtert die Erstellung und den Betrieb zuverlässiger, skalierbarer Datenpipelines von Anfang bis Ende.
Spark Declarative Pipelines bietet eine einfachere Möglichkeit, Datenpipelines für Batch- und Streaming-ETL-Workloads über alle von Apache Spark unterstützten Datenquellen hinweg zu definieren und auszuführen, darunter Cloud-Speicher, Message Buses, Change Data Feeds und externe Systeme. Dieses bewährte deklarative Framework für den Aufbau von Datenpipelines hilft Engineers, häufige Probleme wie komplexe Pipeline-Erstellung, manuellen Betriebsaufwand und isolierte Batch-/Streaming-Prozesse zu lösen.
Spark Declarative Pipelines basiert auf dem deklarativen ETL-Framework von Databricks, das von Tausenden von Kunden genutzt wird. Mit seiner bewährten Fähigkeit, komplexe Datenengineering-Workloads und Streaming mit geringer Latenz zu verarbeiten, legt Spark Declarative Pipelines den Grundstein für die nächste Generation der Datenverarbeitung und -governance. Mit Spark Declarative Pipelines können mehr Community-Mitglieder damit beginnen, Engineering-Zeiten und -Kosten zu reduzieren und neue KI-Agentensysteme und andere Workloads in der Produktion zuverlässig zu unterstützen.
„Unser Engagement für Open Source ist unerschütterlich. Databricks hat seinen Ursprung in der Wissenschaft und der Open-Source-Community und wurde 2013 von den ursprünglichen Entwicklern der Lakehouse-Architektur und Open-Source-Projekten wie Apache Spark, Delta Lake, MLflow und Unity Catalog gegründet“, erklärt Matei Zaharia, Mitbegründer und CTO von Databricks. „Wir haben eng mit der Community zusammengearbeitet, um Reibungsverluste bei Datenformaten zu beseitigen, die zu Informationssilos führten. Spark Declarative Pipelines bieten Unternehmen nun eine offene Möglichkeit, hochwertige Pipelines zu erstellen.“
Zu den wichtigsten Vorteilen von Spark Declarative Pipelines gehören:
- Vereinfachte Pipeline-Erstellung: Data Engineers und Data Analysts können mit minimalem Programmieraufwand schnell robuste Pipelines definieren und sich so auf die Bereitstellung geschäftskritischer Erkenntnisse konzentrieren.
- Verbesserte Bedienbarkeit per Design: Spark Declarative Pipelines helfen dabei, Probleme frühzeitig in der Entwicklung zu erkennen, da die Pipeline-Definitionen klar sind und vor der Ausführung vollständig validiert werden. Dadurch wird das Risiko von Fehlern in nachgelagerten Prozessen reduziert und die Fehlerbehebung und Wartung der Pipelines vereinfacht.
- Einheitliche Batch- und Streaming-Verarbeitung: Datenteams können sowohl Echtzeit- als auch periodische Verarbeitungsanforderungen flexibel über eine einzige API für die Definition und Verwaltung von Batch- und Streaming-Datenpipelines erfüllen, was die Entwicklung und Wartung vereinfacht.
„Deklarative Pipelines verbergen die Komplexität des modernen Data Engineering unter einem einfachen, intuitiven Programmiermodell. Als Engineering Manager schätze ich es sehr, dass sich meine Engineers auf das konzentrieren können, was für das Unternehmen am wichtigsten ist. Es ist spannend zu sehen, dass diese Innovation nun als Open Source verfügbar ist und damit noch mehr Teams zugänglich wird.“ – Jian (Miracle) Zhou, Senior Engineering Manager, Navy Federal Credit Union.
„Bei 84.51˚ suchen wir ständig nach Möglichkeiten, den Aufbau und die Wartung unserer Datenpipelines zu vereinfachen, insbesondere da wir zunehmend auf offenere und flexiblere Tools umsteigen. Der deklarative Ansatz hat uns dabei sehr geholfen, die Menge des zu verwaltenden Codes zu reduzieren, und es ist nun einfacher, sowohl Batch- als auch Streaming-Daten zu unterstützen, ohne separate Systeme miteinander verbinden zu müssen. Die Open-Source-Veröffentlichung dieses Frameworks als Spark Declarative Pipelines ist ein großer Schritt für die Spark-Community.“ – Brad Turnbaugh, Sr. Data Engineer, 84.51°

Databricks spendiert deklarative Pipelines für das Open-Source-Projekt Apache Spark™
Databricks, das Daten- und KI-Unternehmen, stellt sein deklaratives ETL-Kernframework als Apache Spark™ Declarative Pipelines für Open Source zur Verfügung. Diese Initiative folgt auf zwei Milliarden Downloads von Apache Spark und die kürzliche Einführung von Apache Spark 4.0.
Diese Releases bauen auf dem langjährigen Engagement von Databricks für offene Ökosysteme auf und gewährleisten, dass Benutzer die erforderliche Flexibilität und Kontrolle haben, ohne an einen Anbieter gebunden zu sein. Spark Declarative Pipelines bewältigt eine der größten Herausforderungen im Bereich Data Engineering und erleichtert die Erstellung und den Betrieb zuverlässiger, skalierbarer Datenpipelines von Anfang bis Ende.
Spark Declarative Pipelines bietet eine einfachere Möglichkeit, Datenpipelines für Batch- und Streaming-ETL-Workloads über alle von Apache Spark unterstützten Datenquellen hinweg zu definieren und auszuführen, darunter Cloud-Speicher, Message Buses, Change Data Feeds und externe Systeme. Dieses bewährte deklarative Framework für den Aufbau von Datenpipelines hilft Engineers, häufige Probleme wie komplexe Pipeline-Erstellung, manuellen Betriebsaufwand und isolierte Batch-/Streaming-Prozesse zu lösen.
Spark Declarative Pipelines basiert auf dem deklarativen ETL-Framework von Databricks, das von Tausenden von Kunden genutzt wird. Mit seiner bewährten Fähigkeit, komplexe Datenengineering-Workloads und Streaming mit geringer Latenz zu verarbeiten, legt Spark Declarative Pipelines den Grundstein für die nächste Generation der Datenverarbeitung und -governance. Mit Spark Declarative Pipelines können mehr Community-Mitglieder damit beginnen, Engineering-Zeiten und -Kosten zu reduzieren und neue KI-Agentensysteme und andere Workloads in der Produktion zuverlässig zu unterstützen.
„Unser Engagement für Open Source ist unerschütterlich. Databricks hat seinen Ursprung in der Wissenschaft und der Open-Source-Community und wurde 2013 von den ursprünglichen Entwicklern der Lakehouse-Architektur und Open-Source-Projekten wie Apache Spark, Delta Lake, MLflow und Unity Catalog gegründet“, erklärt Matei Zaharia, Mitbegründer und CTO von Databricks. „Wir haben eng mit der Community zusammengearbeitet, um Reibungsverluste bei Datenformaten zu beseitigen, die zu Informationssilos führten. Spark Declarative Pipelines bieten Unternehmen nun eine offene Möglichkeit, hochwertige Pipelines zu erstellen.“
Zu den wichtigsten Vorteilen von Spark Declarative Pipelines gehören:
- Vereinfachte Pipeline-Erstellung: Data Engineers und Data Analysts können mit minimalem Programmieraufwand schnell robuste Pipelines definieren und sich so auf die Bereitstellung geschäftskritischer Erkenntnisse konzentrieren.
- Verbesserte Bedienbarkeit per Design: Spark Declarative Pipelines helfen dabei, Probleme frühzeitig in der Entwicklung zu erkennen, da die Pipeline-Definitionen klar sind und vor der Ausführung vollständig validiert werden. Dadurch wird das Risiko von Fehlern in nachgelagerten Prozessen reduziert und die Fehlerbehebung und Wartung der Pipelines vereinfacht.
- Einheitliche Batch- und Streaming-Verarbeitung: Datenteams können sowohl Echtzeit- als auch periodische Verarbeitungsanforderungen flexibel über eine einzige API für die Definition und Verwaltung von Batch- und Streaming-Datenpipelines erfüllen, was die Entwicklung und Wartung vereinfacht.
„Deklarative Pipelines verbergen die Komplexität des modernen Data Engineering unter einem einfachen, intuitiven Programmiermodell. Als Engineering Manager schätze ich es sehr, dass sich meine Engineers auf das konzentrieren können, was für das Unternehmen am wichtigsten ist. Es ist spannend zu sehen, dass diese Innovation nun als Open Source verfügbar ist und damit noch mehr Teams zugänglich wird.“ – Jian (Miracle) Zhou, Senior Engineering Manager, Navy Federal Credit Union.
„Bei 84.51˚ suchen wir ständig nach Möglichkeiten, den Aufbau und die Wartung unserer Datenpipelines zu vereinfachen, insbesondere da wir zunehmend auf offenere und flexiblere Tools umsteigen. Der deklarative Ansatz hat uns dabei sehr geholfen, die Menge des zu verwaltenden Codes zu reduzieren, und es ist nun einfacher, sowohl Batch- als auch Streaming-Daten zu unterstützen, ohne separate Systeme miteinander verbinden zu müssen. Die Open-Source-Veröffentlichung dieses Frameworks als Spark Declarative Pipelines ist ein großer Schritt für die Spark-Community.“ – Brad Turnbaugh, Sr. Data Engineer, 84.51°