Hadoop-Lösungen

Das Ecosystem rund um Apache Hadoop ist in den letzten Jahren immer vielfältiger und umfangreicher geworden. Als Nutzer von Apache Nutch habe ich die Entstehung und Entwicklung hautnah miterlebt. Heute versprechen fertige Distributionen "Hadoop out of the box". Diese schlüsselfertigen Lösungen sprechen gerade Entwickler an. Die vielfältigen Möglichkeiten des Ecosystems lassen sich innerhalb weniger Minuten nutzen.

Apache Hadoop ist nicht nur ein Software-Paket, sondern ein kompletter Werkzeugkasten mit vielen sich ergänzenden oder konkurierenden Elementen. Mit der Entscheidung für Apache Hadoop muss man auch entscheiden, welche Werkzeuge wirklich für die Big Data Anwendung und den Unternehmenserfolg sinnvoll sind. Eine Selbstbeschränkung erleichtert die Qualifikation der Beteiligten und sichert den Weg zum Erfolg ab.

Im Regelbetrieb zeigen fertige Distributionen oft ihre Grenzen. Eine individuelle Konfiguration und Auswahl auf die wirklich benötigten Komponenten erlaubt es, umfangreiche Einsparpotentiale zu erschließen. "Randfaktoren", wie Netzwerk, Stromverbrauch oder Cloud-Leistungen, gewinnen mit dem Betrieb an Bedeutung und beeinflussen die Wirtschaftlichkeit ganz maßgeblich.

Mit dem Erfolg von Cluster-Anwendungen werde diese immer wichtiger für den Erfolg des Unternehmens. Da die Anwendungen organisch mit der Entwicklung wachsen, wird diese Bedeutung erst spät bewusst. Das Betriebskonzept, das Monitoring oder der "Plan B" für den Fehlerfall bleiben genauso wie die Dokumentation gerne auf der Strecke.

Ich habe sehr gute Erfahrungen damit gemacht, neben den Entwicklungssystemen (in der Cloud), die Produktionssysteme basierend auf den Original-Sourcen (Vanilla-Sourcen) der Apache Foundation auf dedizierten Servern aufzubauen. Die Hardware der dedizierten Maschinen kann in der Regel zu 70% - 90% ausgeschöpft werden und die Cluster liegen damit in ihrer Wirtschaftlichkeit weit vor den Cloud-Angeboten (siehe "Adding Up the Price/Performance Advantages Of Bare-Metal vs. Virtualized Servers in the Cloud"). Die individuell konfektionierten Systeme sind konkret auf den Anwendungsfall ausgerichtet und lassen sich so einfacher überwachen und betrieben.

Gerne helfe ich Ihnen beim Einstieg in die Nutzung des Hadoop-Ecosystems oder bei Betrieb und Konsolidierung bestehender Anwendungen.