Supercomputing

Parstream beschleunigt Analyse von Massendaten

28.06.2011
Von Stefan  Ueberhorst
Das deutsche Startup zeigte auf der Supercomputing Conference in Hamburg ein massiv-paralleles Datenbanksystem für komplexe Analysen in großen Beständen.

Auf der 26. International Supercomputing Conference hat sich das Who-is-Who aus dem Bereich High-Performance-Computing getroffen. Unter den mehr als 2000 Teilnehmern befindet sich auch das Kölner Jungunternehmen Parstream, das einen neuartigen Index zur Nutzung von Multiprozessorarchitekturen einschließlich der Graphics Processing Units (GPUs) in Hochleistungs-Computern entwickelt hat. Damit sollen Daten bis in den Petabyte-Bereich hinein verarbeitet und in Bruchteilen einer Sekunde analysiert werden können, heißt es seitens des Herstellers.

Ungebremste Datenflut

Hintergrund der Entwicklung ist die weltweit explodierende Datenmenge. Laut IDC-Marktforschern soll sie im Jahr 2020 bereits 44-mal größer sein als 2009 und ein Volumen von 25 Zettabyte erreichen. "Big Data ist nicht mehr nur ein Thema für die Wissenschaft. Längst stehen auch viele Unternehmen vor der Herausforderung, riesige Datenmengen verarbeiten zu müssen und vor allem das Wissen, das in ihnen schlummert, für ihr Geschäft zu nutzen", sagt Jörg Bienert, einer der Gründer und Geschäftsführer von Parstream.

SQL und No-SQL

Weder traditionelle Datenbanksysteme noch No-SQL-Ansätze, so Bienert, würden den künftigen Anforderungen optimal gerecht: Relationale Datenbanken seien zu langsam und eher auf die Analyse kleinerer Datenmengen ausgelegt, während No-SQL-Datenbanken schlecht für komplexere Abfragen gerüstet seien, bei denen vielfache Beziehungen zwischen verschiedenen Datensets hergestellt werden müssten. In Form einer spaltenorientierten In-Memory-Datenbank will Parstream beide Eigenschaften kombinieren: die Funktionsweise relationaler Datenbanken einschließlich der Fähigkeit, Tabellen zu verbinden (Join), und die Vorteile des No-SQL-Ansatzes, der die parallele und damit sehr viel schnellere Datenverarbeitung ermöglicht.

Komprimierter Index

Der Hersteller hat sein gleichnamiges Produkt auf Multiprozessorarchitekturen ausgerichtet. Es nutzt dabei Standardarchitekturen auf CPU-Basis, GPUs und Mehrkernsysteme beziehungsweise eine Kombination dieser Techniken. Der Schlüssel zur Ressourcennutzung liegt in einem neuartigen Index, den Parstream zum Patent angemeldet hat.

Dabei handelt es sich um einen so genannten High Parallel Compressed Index, der im Gegensatz zu den Indizes anderer Datenbanken nicht dekomprimiert werden muss. "Auf diese Weise sind wir in der Lage, im Vergleich zu anderen Systemen nur noch rund ein Zwanzigstel der Datenmenge bewegen und analysieren zu müssen", erklärt Bienert. Mit der Technik sei es zudem möglich, Daten simultan zu durchsuchen und zu analysieren. Auch die Entkopplung von Datenimport und Datenanalyse trage erheblich zur Geschwindigkeitssteigerung bei: Laut Hersteller wird die Analyse nicht langsamer, wenn gleichzeitig neue Daten geladen werden. Möglich sei dies aufgrund der multidimensionalen Partitionierung nach spezifischen Filterelementen bereits während des Datenimports.

Weniger Hardware nötig

Dank der Komprimierung, so Bienert, benötige das System bis zu 20-mal weniger Hardwarekapazität im Vergleich zur traditionellen Auswertung von Massendaten. Dabei sei die Datenbank skalierbar, ihre Leistungsfähigkeit steige proportional zur Anzahl der eingesetzten Hardware. Als Infrastruktur können sowohl Einzel-Server und Cluster als auch Cloud-Lösungen eingesetzt werden.

Anwendungsszenarien für sein Produkt sieht Parstream in den verschiedensten Branchen. Einen hohen Bedarf an komplexen Analysen von Massendaten haben zum Beispiel der Energiesektor im Zuge der Einführung von Smart Grids, Telekommunikationsunternehmen für die Qualitätsüberwachung der Netze, E-Commerce-Unternehmen für immer ausgefeiltere Web-Analysen, die Finanzwirtschaft für die Aufdeckung von Kreditkartenbetrug oder die Wissenschaft für die Klima- oder Genforschung.

COMPUTERWOCHE Marktstudie

Datenqualität (39,90 €)

Was tun für eine bessere Datenqualität? Wir haben unsere Leser aus dem IT-Management gefragt, ob und mit welchem Erfolg sie für einen sauberen Datenbestand sorgen.

hier bestellen: