Massive Parallelverarbeitung bei Big Data

Quo vadis, Data Warehousing?

Sponsored Sponsored
10.04.2012 | von 
Klaus Manhart
Dr. Klaus Manhart hat an der LMU München Logik/Wissenschaftstheorie studiert. Seit 1999 ist er freier Fachautor für IT und Wissenschaft und seit 2005 Lehrbeauftragter an der Uni München für Computersimulation. Schwerpunkte im Bereich IT-Journalismus sind Internet, Business-Computing, Linux und Mobilanwendungen.
Email:
Big Data, unstrukturierte Daten und immer ausgefeiltere BI-Analysen in immer kürzeren Zeiten lassen herkömmliche Data Warehouses alt aussehen. Massive Parallelverarbeitung könnte die zukunftsweisende Technologie für das Data Warehousing sein.
MPP-Architekturen: In der Shared-Nothing-Architektur erhält jeder Knoten einen Teil der Gesamtdaten, die er mit seinen eigenen Ressourcen bearbeitet.
MPP-Architekturen: In der Shared-Nothing-Architektur erhält jeder Knoten einen Teil der Gesamtdaten, die er mit seinen eigenen Ressourcen bearbeitet.
Foto: Data Mart

Data-Warehouse-Systeme (DWH) sind in vielen Unternehmen in die Jahre gekommen. Technische und ökonomische Schwächen haben Performance-Probleme, höhere Betriebskosten und immer aufwendigere Entwicklungsprozesse zur Folge. Spätestens mit der Verarbeitung großer Massendaten - Stichwort Big Data - und dem damit einhergehenden Zuwachs an Analysebedarf sind herkömmliche DWHs überfordert.

Viele BI- und Datenbankexperten sehen im Massive Parallel Processing (MPP) die zukunftsweisende Technologie für das Data Warehousing, heißt es in einer Analyse des BI-Spezialisten Data Mart Consulting. Grundsätzlich unterscheidet man bei MPP-Datenbanken zwischen zwei Architekturen: Shared Nothing und Shared Everything.

  • In der Shared-Nothing-Architektur erhält jeder Knoten einen Teil der Gesamtdaten, die er mit seinen eigenen Ressourcen bearbeitet. Ein "Master-Server" organisiert sowohl bei ETL-Prozessen als auch bei allen abfrageorientierten Prozessen die optimale Verteilung der Daten bzw. der Last auf die Knoten. Diese Architektur ist ausschließlich für Data-Warehouse-Anwendungen geeignet und erzeugt hier sehr gute Performance.

  • Die Shared-Everything-Architektur ist dem seit langem bekannten Datenbankcluster sehr ähnlich. Die Knoten teilen sich alle verfügbaren Ressourcen und nutzen einen gemeinsamen Datenbestand, der in der Regel auf dem Storage liegt. In Anwendungsbeispielen hat dieses Konzept zwar Performancenachteile bei reinen Data-Warehouse-spezifischen Aufgaben gezeigt, ist aber im Gegensatz zur Shared-Nothing-Architektur auch für die OLTP-Anwendung ausgelegt und geeignet.

Wer beherrscht das Thema Big Data?

Machen Sie mit und gewinnen Sie den Big-Data-Award!
Machen Sie mit und gewinnen Sie den Big-Data-Award!

Die COMPUTERWOCHE sucht die besten Big-Data-Projekte. Bewerben Sie sich als Anbieter von Produkten und Dienstleistungen zusammen mit Ihrem Referenzkunden beim COMPUTERWOCHE- Award "Big Data 2012". In Zusammenarbeit mit einer renommierten Jury kürt die Redaktion am 26. September in Offenbach am Main je drei Gewinner in den beiden Kategorien "Managing Data" und "Analyzing Data". Darüber hinaus vergeben wir in einer Sonderkategorie Publikumspreise für das beste Big-Data-Projekt sowie die innovativste Big-Data-Technologie.

Weitere Informationen unter: www.bigdata12.de