Wiki

Azure Databricks

Azure Databricks ist eine Analyseplattform, die als Cloud-Dienst von Microsoft angeboten wird. Im Rahmen eines Data Lakehouse Ansatzes ermöglicht es der Azure Service, große Datenmengen schnell und effizient zu verarbeiten und für ganz unterschiedliche Einsatzgebiete nutzbar zu machen. Databricks basiert auf verschiedenen Open-Source-Technologien, die verhältnismäßig anspruchsvoll in der Handhabung sind. In Azure lässt sich der Service aber sehr einfach einrichten und betreiben. So ist ein Einsatz von Azure Databricks prinzipiell für jedes Unternehmen sinnvoll, das an die Grenzen seiner analytischen Möglichkeiten stößt und das Potenzial seiner Big Data besser ausschöpfen möchte.

Schichten eines Databricks Lakehouse

Was sind die Bestandteile von Azure Databricks?

Azure Databricks setzt sich aus verschiedenen Open-Source-Tools zusammen. Im Einzelnen sind das:

  • Apache Spark: Ein Framework, das die Verarbeitung großer Datensätze auf mehrere Computer verteilen kann. Databricks ermöglicht dadurch die für Big Data, Data Science und Machine Learning notwendigen Rechenleistungen. Zur Entlastung der Programmierer übernimmt eine benutzerfreundliche API den Großteil der Routinearbeiten in einer Spark-Umgebung.
  • Delta Lake: Eine Speicherschicht, die auf einen Data Lake aufsetzt und die Grundlage für jedes Lakehouse bildet. Sie unterstützt sowohl die Batch-Datenverarbeitung als auch ACID-Transaktionen, skalierbare Metadaten und Unified Streaming. So lässt sich ein Data Lake einerseits mit den Vorteilen eines Data Warehouse ausstatten. Andererseits können Daten in Echtzeit verarbeitet und analysiert werden. Dabei ist Delta Lake zu hundert Prozent mit Spark kompatibel.
  • MLflow: Eine Plattform zur Verwaltung von Workflows für maschinelles Lernen. Dabei deckt MLflow den gesamten Machine-Learning-Lebenszyklus ab. Modelle können während des Trainings und der Ausführung überwacht werden. Sie lassen sich speichern, in den Produktionscode laden und schließlich in eine Pipeline überführen. Entsprechend wird MLflow vor allem von MLOps-Teams und für Data Science verwendet.

Ergänzend verfügt Databricks mit dem Unity Catalog über ein Werkzeug, das eine umfassende Governance und Informationssicherheit bei der Datennutzung auch im großen Maßstab ermöglicht.

Wofür kann Azure Databricks eingesetzt werden?

Auf Basis der beschriebenen Komponenten deckt Azure Databricks die gesamte Spannbreite unternehmensrelevanter Analyseszenarien ab. Einerseits lassen sich klassische Business Intelligence Aufgaben der Datenintegration mittels ETL umsetzen – sprich: Daten unterschiedlicher Systeme und unterschiedlichen Umfangs werden gefiltert, bereinigt und zusammengeführt. Andererseits können auch alle Anforderungen der modernen Datenverarbeitung und Analyse bedient werden.

So besteht die Möglichkeit, Ströme von Echtzeitdaten auszuwerten und auf der Basis beispielsweise „smarte“ Produkte zu entwickeln. Ebenso lassen sich Machine-Learning-Modelle für Künstliche Intelligenz effektiv trainieren und verwalten. Nicht zuletzt kann Databricks die unterschiedlichen Data Lake Storages der gängigen Cloud-Anbieter nutzen. Mit Hilfe des sehr leistungsfähigen Abfragesystems können Data Engineer, Data Analyst und Data Scientist daraufhin explorative Analysen nach ihren jeweiligen Vorstellungen und Zielen vornehmen.

Wie können Sie mit Azure Databricks neue Werte schaffen?

Databricks lässt sich in Azure mit wenigen Klicks aufsetzen. Die Plattform ist perfekt auf die weiteren Azure Services abgestimmt, sodass sich um sie herum schnell und einfach eine skalierbare Data Lakehouse Lösung ganz nach den eigenen Vorstellungen maßschneidern lässt. Da es sich um einen „Managed Service“ handelt, entstehen auch im laufenden Betrieb kaum Aufwände für Wartung und Updates.

Unternehmen müssen somit keine komplizierten Infrastrukturen einrichten und mit schwerfälligen Tools umgehen, um ihre Big Data zu erschließen. Allerdings: Was auf dem Papier sehr simpel aussieht, bedarf zumindest einer gewissen Expertise im Umgang mit den Technologien sowie Daten im Allgemeinen. So kann es auch beim Einsatz von Databricks sinnvoll sein, eine externe Beratung hinzuzuziehen.

Wollen auch Sie Azure Databricks nutzen, um eine zukunftsfähige Daten- und Analyseplattform für Ihr Unternehmen aufzubauen? Dann schauen Sie doch mal auf der Seite Databricks Lakehouse vorbei oder informieren Sie sich über unser Data Strategy Assessment.

turn your data into value.

Workshop

Data Strategy Assessment

Sie wollen die Potenziale in Ihren Daten ausschöpfen und für Ihr künftiges Wachstum nutzbar machen? Aber Sie wissen nicht, wo Sie starten sollen? In unserem Data Strategy Assessment definieren wir gemeinsam Ihr erstes Leuchtturmprojekt und entwickeln einen Plan für die technische Umsetzung in der Cloud.

Join #teamoraylispeople

Gestalte mit uns
die Welt der Daten