Für immer mehr Unternehmen gehört es zu den täglichen Aufgaben, ständig wachsende Datenmengen effektiv zu erfassen und gewinnbringend auszuwerten. Wohl auch deswegen wirbelt der Databricks-Dienst in der Microsoft Azure Cloud so viel Staub auf. Die auf Apache Spark basierende Analyseplattform kann schon jetzt als eine der Schlüsseltechnologien für die effektive Verarbeitung von Big Data und die Entwicklung Künstlicher Intelligenz (KI) betrachtet werden. So bewertet der Gartner Magic Quadrant 2020 die Plattform als führend im Bereich Data Science und Machine Learning. Aber was genau ist an Databricks so besonders? Wo liegen die Vorteile? Und für wen macht der Einsatz überhaupt Sinn? Mein kleines Databricks FAQ soll Ihnen im Folgenden die fünf wichtigsten Fragen rund um den zukunftsweisenden Analysedienst beantworten:
- Wo liegt der Nutzen von Databricks?
- Wo kann ich Databricks einsetzen?
- Wie werden Sicherheitsfragen bei Databricks geregelt?
- Wer sollte Databricks verwenden?
- Wie viel kostet Databricks?
1. Wo liegt der Nutzen von Databricks?
Databricks ist ein Universalwerkzeug für die Verarbeitung, Transformation und Analyse großer Datenmengen. Dabei hat der Dienst verschiedene Eigenschaften und Funktionen, die für den Aufbau und Betrieb moderner, datengetriebener Unternehmenslösungen von besonderem Vorteil sind:
- Einfach einzurichten und zu betreiben
- Interaktive Arbeitsbereiche für die Zusammenarbeit
- Alle Analyseanforderungen werden abgedeckt
- Gezahlt wird nur nach Nutzung
Einfach einzurichten und zu betreiben
Gegenüber der komplexen Basistechnologie Apache Spark ist Databricks sehr einfach in der Handhabung. Zum einen lässt sich der Cloud-Dienst mit wenigen Klicks aufsetzen. Zum anderen ist er vollständig gemanagt, sodass auch im laufenden Betrieb kaum Aufwände für Wartung und Updates anfallen. Sie müssen also nicht länger komplizierte Infrastrukturen einrichten und mit schwerfälligen Tools umgehen, um Ihre Big Data zu erschließen. Vielmehr können Sie sich beim Umgang mit Daten auf ihre Kernaufgaben konzentrieren – nämlich: gewinnbringende Erkenntnisse für das Geschäft zu erschließen.
Interaktive Arbeitsbereiche für die Zusammenarbeit
Für die Zusammenarbeit verschiedener Experten stellt Databricks einen interaktiven Arbeitsbereich zur Verfügung. Der gemeinsame Arbeitsbereich ist mit Notebookfunktionen für das Coding ausgestattet und unterstützt viele beliebte Programmiersprachen wie SQL, Python, Java oder R. Entsprechend fühlen sich hier Data Engineers genauso zu Hause, wie Data Scientists und Business Analysten. Letztlich schaffen Sie ein dynamisches Arbeitsumfeld, in dem sich datengetriebene Innovationen deutlich schneller vorantreiben lassen.
Alle Analyseanforderungen werden abgedeckt
Databricks bedient sämtliche Anforderungen rund um Big Data und der modernen Datenanalyse auf einer Plattform. Sie müssen also nicht mehr verschiedene Dienste bzw. Softwareprogramme in Anspruch nehmen, die für die jeweilige Aufgabe und Datenbankumgebung optimiert sind. Azure stellt zudem ergänzende Funktionen und Werkzeuge bereit. Vor allem für Nutzer, die grafische Oberflächen einer Coding-Umgebung vorziehen, ist dies eine Bereicherung. In der Folge lässt sich ein Spektrum abdecken, das von der Verarbeitung von Massendaten über die Analysen von Echtzeitdatenströmen bis hin zu maschinellem Lernen reicht.
Gezahlt wird nach Nutzung
Durch den Cloud-Ansatz bleiben auch die Kosten transparent und kontrollierbar. Rechenleistung und Speicherkapazität skalieren unabhängig voneinander. Die Skalierung von Rechenclustern erfolgt dynamisch. Bezahlt wird letztlich nur das, was der Anwender auch tatsächlich nutzt. So lässt sich beispielsweise die Rechenleistung – etwa für das Training von KI-Modellen – kurzfristig massiv steigern und dann direkt wieder abschalten.
2. Wo kann ich Databricks einsetzen?
Mit Databricks decken Sie die gesamte Spannbreite unternehmensrelevanter Analyseszenarien ab:
- ETL/Datenintegration
- Explorative Analysen
- Echtzeitanalysen von Datenströmen
- Maschinelles Lernen/KI
ETL/Datenintegration
Daten aus unterschiedlichen Systemen und unterschiedlichen Umfangs können gefiltert, bereinigt und zusammengeführt werden. So lassen sich viele Modernisierungen im Data Warehouse vornehmen – wie etwa den Aufbau eines Data Lakes – und größere ETL-Prozesse aus der lokalen Infrastruktur ablösen.
Explorative Analysen
Data Scientists können auf großen Datenmengen explorative Analysen vornehmen und neue Muster und Zusammenhänge aufdecken. Der Dienst ermöglicht den Aufbau umfangreicher Data Lakes. Die aus Spark stammenden Abfragesysteme eignen sich wiederrum sehr gut dazu, diese Big Data zu analysieren und Business-Fragen zu beantworten.
Echtzeitanalysen von Datenströmen
Von Sensoren generierte Datenströme können im Sekundentakt analysiert werden. Dabei lassen sich Daten, die simultan von mehreren Systemen gesendet werden, in hoher Geschwindigkeit zusammenführen. Auf diese Weise lassen sich beispielsweise Produktionsmaschinen und -strecken überwachen. Ebenso können die Datenströme zur Entwicklung „smarter“ Datenprodukte genutzt werden.
Maschinelles Lernen/KI
Mit MLflow steht ein eigenes Framework zur Verfügung, um Machine-Learning(ML)-Projekte über den gesamten Lebenszyklus hinweg zu verwalten. Dabei ermöglicht es Databricks, ein ML-Modell parallel bzw. verteilt auf der eigenen Cluster-Umgebung zu trainieren, wodurch sich die Trainingszeiten massiv verkürzen. Die erstellten Modelle lassen sich in einem austauschbaren Format speichern, was die Übertragung auf andere Plattformen erleichtert. Sie können schließlich die Basis für mächtige KI-Lösungen bilden.
3. Wie werden Sicherheitfragen bei Databricks geregelt
Beim Umgang mit unternehmenssensiblen Daten stellt sich immer die Frage, wer darauf überhaupt Zugriff haben darf und in welchem Umfang. Databricks ermöglicht über die Azure Active Directory eine rollenbasierte Zugriffssteuerung. Der Dienst kann in einem eigenen virtuellen Netzwerk des Anwenderunternehmens genutzt werden, womit eigene Daten und Skripte effektiv von der Außenwelt abgegrenzt und gesichert sind.
4. Wer sollte Databricks verwenden?
Grundsätzlich empfiehlt sich Databricks für Jeden, der das Potential von Big Data schnell und effizient ausschöpfen möchte. Insbesondere sind aber Unternehmen angesprochen, die mit ihren aktuellen analytischen Möglichkeiten an ihre Grenzen stoßen – d.h., umfangreiche Datenmengen können zwar gespeichert, aber nicht mehr weiterverarbeitet werden. Databricks sprengt diese Barriere und macht vermeintlich schwierige oder sogar unlösbare Aufgabenstellungen plötzlich wieder einfach und handhabbar.
Zudem ist die Lösung natürlich für all jene interessant, die in ihrem Unternehmen bereits auf Cloud-Datenbanken von Azure setzen. Hier wird in technologischer Hinsicht das zusammengeführt, was zusammengehört. So ist der Ein- bzw. Umstieg besonders schnell und einfach zu bewerkstelligen.
5. Wie viel kostet Databricks?
Da es sich bei Databricks um einen Cloud-Dienst handelt, hängen die Kosten von der konkreten Nutzung ab. Sie bestehen einerseits aus den Serverkosten, die beim Cloudanbieter anfallen (neben Microsoft bieten auch die Amazon Web Services den Dienst an). Anderseits werden die konkreten Nutzungskosten bzw. Databricks Units (DBUs) abgerechnet. Dabei ist die Anzahl der abgerechneten DBUs abhängig von der Server- und Clustergröße sowie der genutzten Laufzeit.
Daraus ergibt sich die folgende Berechnungsformel:
Kosten = (Anzahl Server * DBU) * h/Nutzung + (Anzahl Server * Instanzpreise) * h/Nutzung
Hat mein Databricks FAQ Fragen offen gelassen? Dann informieren Sie sich weiter unter Azure Databricks oder besuchen unser Microsoft Modern Data Warehouse Training.
Wie funktioniert Databricks? Informieren Sie sich jetzt!
Unser Databricks-Experte Benjamin erklärt im Video anhand eines konkreten Beispiels, wie Databricks in der Praxis angewendet werden kann.
Kommentare (0)