Hadoop and Hive
Software für hochskalierbares und verteiltes Daten-Processing ist im Prinzip nichts Neues. Eine Herausforderung der letzten Jahre sind dagegen die weltweit verteilte Verarbeitung zum Beispiel der riesigen Datenaufkommen im Google-Umfeld, das Cloud-Computing und das rapide wachsende Volumen unstrukturierter Daten in sozialen Netzwerken.
Ein auf Java basierendes Open-Source-Framework für derart skalierbare und verteilt arbeitende Programme ist "Hadoop". Das inzwischen unter dem Dach der Apache Software Foundation angesiedelte Projekt wurde ursprünglich vom Lucene-Erfinder Doug Cutting initiiert und stützt sich auf den Google-Algorithmus "MapReduce" sowie auf Vorschläge des Google-Dateisystems. Damit sind Rechenprozesse in Datenhaltungen bis in den Petabyte-Bereich möglich. Von Facebook stammt ursprüngliche "Hive", das inzwischen ebenfalls als Open-Source-Projekt bei Apache läuft. Es erweitert Hadoop unter anderem um die Möglichkeit, Abfragen in den verteilten Dateisystemen in einer SQL-ähnlichen Syntax zu formulieren.