Distributionen für Unternehmen

Alles, was Sie über Hadoop wissen müssen

28.04.2014

Von

Bernd Reder (Autor)

Bernd Reder ist freier Journalist und Autor mit den Schwerpunkten Technologien, Netzwerke und IT in München.

Alle Posts des Autors Email:

Was Hadoop kostet

Laut einer Umfrage der Marktforschungsgesellschaft IDC unter Nutzern von Hadoop gaben rund 50 Prozent der Unternehmen zwischen 100.000 und 200.000 Dollar dafür aus, vorhandene Datenbestände in eine Hadoop-Infrastruktur zu überführen (Migration). Ein Teil davon entfiel auf einmalige Aufwendungen, etwa für die Entwicklung von Modulen für das erstmalige Konvertieren von Daten. Hinzu kommen laufende Kosten für die Infrastruktur. Pro Server, so IDC, müsse ein Unternehmen ungefähr 1600 Dollar im Jahr veranschlagen.

Immerhin gaben 82 Prozent der Befragten an, dass sich diese Investitionen nachweislich ausgezahlt hätten. Dennoch ist der Anteil derjenigen, die den Nutzen von Hadoop nicht quantifizieren können, mit 18 Prozent relativ hoch.

Potenzielle Schwachpunkte von Hadoop

In Online-Foren diskutieren Nutzer von Big-Data-Lösungen teilweise höchst kontrovers über die Vor- und Nachteile von Hadoop. Laut Guy Harrison, Executive Director R&D in der Software-Sparte von Dell, weist Hadoop in folgenden Bereichen Schwachpunkte auf:

• Backup: Von Ausnahmen abgesehen (MapR mit einer Snapshot-Funktion) sind bei Hadoop nur rudimentäre Backup- und Disaster-Recovery-Funktionen vorhanden. Das ist angesichts der strategischen Bedeutung von Big-Data-Projekten in vielen Unternehmen hoch problematisch. Die oft zitierte mangelnde Fehlertoleranz von Hadoop ist dagegen mittlerweile kein Thema mehr.

• Echtzeitfähigkeit: Die Auswertung von Daten in Echtzeit zählt nicht zu den Stärken von Hadoop.

• Verwaltung von Ressourcen: Sie ist aus Sicht des Dell-Managers ebenfalls verbesserungsfähig. So seien Funktionen, die eine Blockade von geschäftskritischen Operationen durch Ad-hoc-Anfragen verhindern, noch nicht ausgereift.

• Sicherheit: Dies ist einer der am häufigsten kritisierten Punkte. User, die sich an einen Hadoop-Cluster angemeldet haben, besitzen im Normallfall Zugang zu allen Daten, die dort lagern. In der Praxis ist es laut Harrison denn auch üblich, den Nutzern umfassende Zugriffsrechte auf Daten einzuräumen. Allerdings ist Besserung in Sicht, etwa durch das von Intel angestoßene Projekt "Rhino". Es stellt eine hardwareunterstützte Verschlüsselung und eine Mehrfaktor-Authentifizierung, inklusive Single-Sign-on, für die einzelnen Hadoop-Ressourcen bereit. Intel hat Rhino in seine eigene Hadoop-Distribution integriert. Zudem ermöglichen es Rhino und ein weiteres Projekt namens Accumulo, den Zugriff auf Daten bis hinab auf die Ebene eines Record (Datensatzes) zu steuern.

• Anbindung an externe Tools: Die Anbieter von Hadoop-Distributionen verwenden eigene, proprietäre Enterprise-Monitoring-Konsolen. Die Anbindung an andere Lösungen wie Openview und Foglight für die Überwachung der Performance ist nicht vorgesehen.

Hinzu kommt ein Faktor, der weniger mit Technik als mit der Situation auf dem Arbeitsmarkt zu tun hat: der Mangel an Data Scientists, also Fachleuten, die letztlich Big-Data-Analysen beherrschen.

Fazit

Hadoop ist für Unternehmen, die eine Big-Data-Lösung suchen, ein interessanter Ansatz. Für die Open-Source-Software spricht vor allem ihre hohe Flexibilität, bedingt durch die vielen Ergänzungen, die in der Hadoop-Ökosphäre zur Verfügung stehen. Allerdings liegt darin auch eine Gefahr: Wer aus den Basiskomponenten und Erweiterungen eine maßgeschneiderte Hadoop-Implementierung zusammenstellen möchte, benötigt das entsprechende Know-how und muss genügend Zeit für das Aufsetzen und Testen einplanen. Komfortabler sind daher für Unternehmen vorkonfigurierte Hadoop-Distributionen inklusive eines guten technischen Supports durch den Hersteller. (pg)

Aktuelle IDG-Studien

Seit der Einführung von ChatGPT beherrscht kein anderes IT-Thema so die Schlagzeilen wie (generative) künstliche Intelligenz. Wir schauen auf Einsatzszenarien, Hintergründe und Folgen.

Mehr zur Studie erfahren
Der Einsatz von No-/Low-Code boomt. Lange dauert es wohl nicht mehr, bis Software-Entwicklung und Prozessmodellierung via grafischer UI das klassische Coding überholen. Mehr in der Studie.

Mehr zur Studie erfahren
Unternehmen rüsten auf: Je komplexer die Gefährdungslage, desto stärker der Bedarf an Security Services. Dazu alles zu Cyberattacken und Gegenmaßnahmen.

Mehr zur Studie erfahren
Hybrid Work: Wer als Arbeitgeber für die jungen Generationen interessant und attraktiv sein will, darf nicht auf eine moderne IT-Infrastruktur und -Arbeitsumgebung verzichten. Mehr in der Studie.

Mehr zur Studie erfahren
Das datengesteurte Unternehmen - Realität oder Hirngespinst? Erst wenige Firmen schaffen es, mithilfe von Daten-Insights neue Geschäftsmodelle auf die Beine zu stellen. Mehr in der Studie.

Mehr zur Studie erfahren
Für knapp neun von zehn Unternehmen kommt künftig eine Migration in die Cloud ohne strategischen Ansatz nicht infrage. Trends und Zahlen rund ums Thema in unserer Studie.

Mehr zur Studie erfahren
Unternehmen wollen energieeffizienter und nachhaltiger werden. Dazu müssen sie aber noch ihre IT-Strategien anpassen und die notwendige Datenbasis schaffen. Mehr dazu in der Studie.

Mehr zur Studie erfahren
Integrationsplattformen sind Drehscheiben für die Vernetzung von Anwendungen im Unternehmen und unterstützen zudem die Prozessautomatisierung. Mehr in der Studie.

Mehr zur Studie erfahren
Die End-to-End-Automatisierung von Geschäftsprozessen stellt einen wichtigen Eckpfeiler der digitalen Transformation der Unternehmen dar. Trends und Zahlen rund ums Thema in unserer Studie.

Mehr zur Studie erfahren
Auch in wirtschaftlich schwierigen Zeiten ist das (IT/Enterprise) Service Management geschäftskritsich - gerade mit Hinblick auf eine stärkere (Prozess-)Automatisierung. Trends und Zahlen dazu in der Studie.

Mehr zur Studie erfahren