Bossie-Awards

Die besten Entwickler-Tools

17.09.2009
Von Stefan Ueberhorst

Hadoop and Hive

Im Web-2.0-Zeitalter erfordert das rapide steigende Datenaufkommen neue Mechanismen für hochskalierbare und verteilt arbeitende Software. Hier greift das Open-Source-Framework Hadoop und dessen QL-Erweiterung Hive.
Im Web-2.0-Zeitalter erfordert das rapide steigende Datenaufkommen neue Mechanismen für hochskalierbare und verteilt arbeitende Software. Hier greift das Open-Source-Framework Hadoop und dessen QL-Erweiterung Hive.

Software für hochskalierbares und verteiltes Daten-Processing ist im Prinzip nichts Neues. Eine Herausforderung der letzten Jahre sind dagegen die weltweit verteilte Verarbeitung zum Beispiel der riesigen Datenaufkommen im Google-Umfeld, das Cloud-Computing und das rapide wachsende Volumen unstrukturierter Daten in sozialen Netzwerken.

Ein auf Java basierendes Open-Source-Framework für derart skalierbare und verteilt arbeitende Programme ist "Hadoop". Das inzwischen unter dem Dach der Apache Software Foundation angesiedelte Projekt wurde ursprünglich vom Lucene-Erfinder Doug Cutting initiiert und stützt sich auf den Google-Algorithmus "MapReduce" sowie auf Vorschläge des Google-Dateisystems. Damit sind Rechenprozesse in Datenhaltungen bis in den Petabyte-Bereich möglich. Von Facebook stammt ursprüngliche "Hive", das inzwischen ebenfalls als Open-Source-Projekt bei Apache läuft. Es erweitert Hadoop unter anderem um die Möglichkeit, Abfragen in den verteilten Dateisystemen in einer SQL-ähnlichen Syntax zu formulieren.