Entwicklungsumgebung Data-Engineering (macOS)¶
Motivation¶
Fertig konfigurierte und einsatzfähige BigData-Umgebungen sind für die tägliche Arbeit wunderbar geeignet. Manchmal muss man aber "unter die Haube schauen", um die Zusammenhänge besser zu verstehen oder um herauszufinden, welche Fragen man zum Debugging stellen möchte. Dies ist bei den vorkonfigurierten Data-Engineering-Plattformen nur schwer möglich. Da die meisten Werkzeuge aber Opensource und frei verfügbar sind, lässt sich mit wenig Aufwand ein eigenes Testbed aufbauen.
Da die Kapazität meiner Entwicklungsserver momentan recht ausgelastet ist und ich viel unterwegs bin, habe ich mich diesmal dazu entschieden, die Umgebung auf meinem (Intel)-Macbook zu installieren. Das folgende Wiki ist aus meinen Arbeitsnotizen entstanden.
Informationen zur Plattform¶
MacBook Pro von 2019, 6 Core Intel i7, 16 GB RAM, macOS 14 Sonoma
Homebrew 4.2.12
Kubectl
Docker Desktop 4.22.1
Übersicht über die verschiedenen Anleitungen¶
K8s (Kubernetes) mit minikube¶
Kurze Beschreibung, wie man minikube und eine kleine Test-Applikation startet.
Spark-Cluster und Pyspark unter Kuernetes (minikube)¶
Die Howto listet die notwendigen Schritte auf, um lokal eine Spark-Umgebung unter Kubernetes (minikube) zu starte, ein Image zu erstellen und zu starten.
Spark-Cluster und Pyspark mit Hilfe von Docker¶
Mit Hilfe von Docker kann man eine Umgebung schaffen, die die "klassische" Installation mit permanent laufenden Workern nachbildet.
Spark aus den Sourcen bauen¶
Es gibt zwar fertige vorkompilierte Spark-Images, aber hier werden die notwendigen Schritte aufgelistet, die man benötigt, um Spark aus den Apache-Sourcen zu bauen.