5 gute Gründe, die für einen Data Lake sprechen
Der Data Lake hat sich – insbesondere im Kontext des Modern Data Warehouses (MDWH) – zu einem De-facto-Standard für moderne Business Intelligence-, Analytics-, IoT- und KI-Projekte entwickelt. Aber warum ist das so? Im Folgenden werde ich fünf Gründe präsentieren, die aufzeigen, was den Data Lake so attraktiv macht:
- Alle Dateien befinden sich an einem Ort
- Beliebige Datenformate lassen sich speichern
- Tools können frei gewählt werden
- Flexibel und skalierbar
- Entwicklungskosten werden gesenkt
1. Alle Daten befinden sich an einem Ort
Ein Data Lake hält sämtliche Daten eines Unternehmens gesammelt an einem zentralen Ort vor. Dabei kann es sich sowohl um Rohdaten als auch um vorverarbeitete oder gar abgeschlossene Analyse-Daten handeln. In einem gut geführten Data Lake sind jegliche Daten mittels Metadaten katalogisiert. Somit müssen sich Endanwender die Daten nicht mehr aus diversen Quellsystemen mühselig zusammensuchen. Es geht also keine Zeit mehr dabei verloren, die benötigten Daten in verschiedenen Silos zu identifizieren und in die Analysen einzubinden. Vielmehr kann der Anwender direkt loslegen.
Da sich alle Daten an einem einzigen Ort befinden, können Sicherheitspolicies effektiv eingeführt und angewendet werden. Schließlich ist ein Data Lake von außen betrachtet nichts anderes als eine riesige Festplatte. Entsprechend lassen sich Berechtigungen genauso wie auf normalen Dateien vergeben.
2. Beliebige Datenformate lassen sich speichern
Ein Data Lake kann alle erdenklichen Dateiformate aufnehmen, da er über ein sehr großes Dateisystem verfügt. Daher müssen die Daten auch nicht vor dem Abspeichern in zeitraubenden ETL-Prozessen (Extract – Transform – Load) aufbereitet werden, wie es bei einem klassischen Data Warehouse (DWH) der Fall ist. Vielmehr werden die Daten in ihrer ursprünglichen Form direkt abgelegt und erst bei Bedarf im Zielsystem transformiert (ELT). Neue Daten können also viel schneller eingespielt werden, als bei einem klassischen DWH.
3. Tools können frei gewählt werden
Da die Daten zunächst in ihrer Rohform im Data Lake vorliegen, können beliebige Tools zur Weiterverarbeitung verwendet werden – sprich: Die Transformation lässt sich mit den Werkzeugen durchführen, die die Mitarbeiter am besten beherrschen oder die für den abzubildenden Vorgang die beste Unterstützung bieten. Das bedeutet auch, dass unterschiedliche Anwenderkreise verschiedene Tools nutzen können. Beispielsweise greift der Data Scientist mit R oder SAS auf die Rohdaten zu, während ein Business Analyst mit PowerBI bereits vorbereitete Daten analysiert.
4. Flexibilität & Skalierbarkeit
Anwender können mit einem Data Lake deutlich flexibler arbeiten als mit einem klassischen DWH, da die Datenspeicherung völlig losgelöst von der Verarbeitung erfolgt. Die Daten müssen nicht erst den gesamten Ladeprozess durchlaufen, um neue Analysen bereitzustellen. Vielmehr kann ein Data Scientist neue Analysen auf Rohdaten in einer kleinen Sandbox als Proof of Concept (PoC) vornehmen – unabhängig vom eigentlichen Betrieb. Im Erfolgsfall kann ein solcher PoC direkt durch andere Nutzer weiterverwendet werden. Ebenso lässt sich der PoC aus der Datenlandschaft wieder sehr leicht wieder entfernen, wenn er nicht die gewünschten Ergebnisse bringt.
Im Übrigen führt das Sandbox-Konzept dazu, dass die Arbeit auf einem Data Lake gut skalierbar ist. Zusätzlich befördert wird die Skalierbarkeit durch den Cloud-Ansatz: Speicher ist hier relativ günstig. Dazu bieten die Provider auch eine redundante Datenhaltungen an, durch die sowohl in Hinsicht auf den Speicherplatz als auch die Datenzugriffe skaliert werden kann. Das macht den Data Lake schlussendlich zu einer sehr zukunftssicheren Lösung, da Unternehmen nicht länger durch ihre vorhandene Hardware limitiert werden.
5. Entwicklungskosten werden gesenkt
Zu guter Letzt lassen sich durch einen Data Lake auch Entwicklungskosten senken. Denn: Die Anwender können mit dem vorhandenen Know-how zu ihren bevorzugten Tools alle gewünschten Erkenntnisse erzielen. Es ist nicht notwendig, Mitarbeiter speziell zu schulen oder gar neu einzustellen. Zudem lassen sich die neusten Technologien verwenden, was Standardprozesse eigentlich immer vereinfacht. Auch eröffnen neue Technologien oftmals Möglichkeiten, die ältere Werkzeuge nicht bieten. Und: Da der Data Lake alle Daten direkt wie ein normales Dateisystem bereitstellt, sind Unternehmen auch nicht an bestimmte, lizenzpflichtige Softwareprodukte gebunden. Stattdessen können Open-Source-Technologien zum Einsatz kommen, was zusätzlich Kosten einspart.
Sind noch Fragen offen geblieben? Gerne stehe ich für eine persönliche Beratung rund um den Data Lake und sinnvolle Anwendungsfälle zur Verfügung.
Neuen Kommentar schreiben