19.11.2019

Wie du in 5 Schritten Databricks Connect installierst

Technical Value

Voraussetzungen

Du darfst keine Spark-Installationen auf deinem PC installiert haben. Falls du Python schon nutzt, lohnt sich folgender Befehl:

  1. pip uninstall pyspark

Schritt 1: Konfiguriere dein Cluster

In den Advanced Options deines Clusters findest du die Spark-Config. Hier hinterlegst du die folgenden beiden Zeilen: 

Cluster Konfiguration Spark-Config

Schritt 2: Sammle die notwendigen Informationen

Trage die Infos zusammen, die wir in Schritt 3 für die Einrichtung benötigen.

  1. Der Host. Dieser bildet den Beginn der Databricks-URL, z. B. https://westeurope.azuredatabricks.net
  2. Die Organization ID. Auch diese bekommst du aus der URL. Es ist die Zahlenfolge, die hinter „o=“ zu finden ist, z. B. 5684337135249119
  3. Die Cluster ID. Im Cluster unter Advanced Options -> Tags steht die Cluster ID, z. B. 0123-062140-tines951
  4. Den Token. Diesen musst du in Databricks generieren. Dazu gibt es auf der Website eine Anleitung. (Vorsicht: Groß- und Kleinschreibung ist wichtig!)
  5. Den Port. Bei Azure ist dieser immer 8787

Schritt 3: Erstelle ein Virtual Environment und richte Databricks Connect ein

Zunächst brauchen wir eine virtuelle Python-Umgebung. Diese muss zwingend dieselbe Python-Version wie das Cluster haben. Stand Oktober 2019 ist dies meistens Python 3.5.

Öffne die Anaconda Prompt:

Anaconda Prompt

 


 

Erstelle eine virtuelle Umgebung:

  1. conda create --name bricksEnv python=3.5

Anaconda Virtuelle Umgebung

Aktiviere die Umgebung:

  1. conda activate bricksEnv

Installiere Databricks Connect:

Wichtig: Die Version von Databricks Connect (z. B. 5.5.) muss der Version deines Clusters entsprechen!

  1. pip install databricks-connect==5.5.*

Richte Databricks Connect mit den Informationen aus Schritt 2 ein:

  1. Databricks-connect configure

Teste die Verbindung

  1. Databricks-connect configure

Nun solltest du folgende Fehlermeldung erhalten. Diese beheben wir in Schritt 4.

Fehlermeldung

Schritt 4: Java 8 installieren

Databricks Connect funktioniert nur mit Java 8. Downloade dir also die Java 8-Runtime von der Oracle Website. (Eine Registrierung ist erforderlich)
Wichtig: Installiere Java nicht im Standard-Pfad, sondern unter C:\Java

Zielordner ändern

Starte nun Powershell als Administrator.

Powershell als Administrator öffnen

Nun must du folgenden Befehl ausführen:

  1. [Environment]::SetEnvironmentVariable("JAVA_HOME", "C:\Java", "Machine")

Starte nun die Anaconda Prompt neu (sonst wird die neue Umgebungsvariable nicht erkannt) und führe

  1. databricks-connect test

erneut aus. Die Java-Version macht nun keine Probleme mehr.

Java Version fehlerfrei

Stattdessen tritt ein neuer Fehler auf:

Neue Fehlermeldung

Diesen beheben wir in Schritt 5.

Schritt 5: Winutils installieren

Starte Powershell wieder als Administrator und führe folgende zwei Befehle aus:

  1. New-Item -Path "C:\<a href="/glossar/hadoop">Hadoop</a>\Bin" -ItemType Directory -Force
  2. [Environment]::SetEnvironmentVariable("HADOOP_HOME", "C:\Hadoop", "Machine")

Lade dir nun die Winutils-Exce von Github herunter.

Winutils Exce

Lege die Datei nach dem Download in den Ordner "C:\Hadoop\Bin\“.

Starte anschließend die Anaconda Prompt neu und führe

  1. databricks-connect test

aus. Diesmal sollte der Test erfolgreich durchlaufen.

All tests passed

Geschafft!

Jetzt kannst Du Python-Befehle von Visual Studio aus gegen dein Databricks Cluster abfeuern.
Achte aber darauf, dass du im richtigen Environment bist:

Richtiges Environment

Am Anfang jedes Python Files musst Du die Spark Session einfangen. Wie das geht, siehst Du in folgendem Beispielcode:

  1. from pyspark.sql import SparkSession
  2. spark = SparkSession.builder.getOrCreate()
  3. diamonds = spark.read.csv("/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv", header="true", inferSchema="true")
  4. diamonds.show()

Das Ergebnis sieht etwa so aus:

Ergebnis Spark Session

Ich hoffe, ich konnte dir mit diesem Tutorial weiterhelfen. Falls du noch Fragen hast, schreibe sie gerne in die Kommentare. Gerne kannst du dir das Tutorial auch nochmal in Video-Form anschauen, hier erkläre ich alles nochmal genau:

 

Neuen Kommentar schreiben

Der Inhalt dieses Feldes wird nicht öffentlich zugänglich angezeigt.

Klartext

  • Keine HTML-Tags erlaubt.
  • HTML - Zeilenumbrüche und Absätze werden automatisch erzeugt.
  • Web page addresses and email addresses turn into links automatically.
Teilen auf

Newsletter Anmeldung

Abonnieren Sie unseren Newsletter!
Lassen Sie sich regelmäßig über alle Neuigkeiten rundum ORAYLIS und die BI- & Big-Data-Branche informieren.

Jetzt anmelden