Was die DB2 Warehouse Edition leistet

21.08.2007
Von Stefan  Ueberhorst

SQL Warehousing

Das SQL-Warehousing-Tool erlaubt den Zugriff auf alle gängigen Datenbanken auf den unterschiedlichsten Plattformen. Der gesamte Extraktionsvorgang sowie die notwendigen Berechnungen werden in so genannten Data Flows verwaltet, dokumentiert und zusammengefasst. Der dazugehörige SQL-Code wird automatisch generiert. Er kann direkt modifiziert werden. Die Zugriffe erfolgen über ODBC, JDBC oder DRDA. Es lassen sich aber auch Files einlesen. Ferner stehen alle Möglichkeiten zur Verarbeitung von XML zur Verfügung. Die einzelnen Verarbeitungsschritte werden in einem Flow Chart dokumentiert, darüber hinaus kann man Test Flows erstellen, mit denen die gesamte Verarbeitung gestestet werden kann. Durch die Einbindung des "Information Server", bestehend aus dem "Information Integrator" und "Datastage", sind weitere Extraktionsanforderungen wie virtueller Zugriff, "Near Real Time Warehousing" oder Zugriffe auf unstrukturierte Dokumente möglich.

Das auf Eclipse basierende DB2 Design Studio vereinheitlicht die Erstellung von Modellen für physische Daten, Würfel, Data Mining sowie für SQL-Datenfluss und Steuerung unter einer einheitlichen Benutzeroberfläche.
Das auf Eclipse basierende DB2 Design Studio vereinheitlicht die Erstellung von Modellen für physische Daten, Würfel, Data Mining sowie für SQL-Datenfluss und Steuerung unter einer einheitlichen Benutzeroberfläche.

Die DB2 UDB als Kernstück der Warehouse-Architektur bietet zahlreiche Möglichkeiten zur Skalierung und Performance-Optimierung. Genannt seien hier die Module Database-(Hash-) Partitioning, Range-Partitioning, Multidimensional-Clustering sowie Performance- und Storage-Optimization. Dabei wird durch die verschiedenen Kombinationsmöglichkeiten die Software auf Komplexität, Datenvolumen und Benutzeranzahl abgestimmt. Neben der Möglichkeit, die Performance von DB2 durch den Performance-Expert zu steigern oder durch den Einsatz entsprechender Hardware-Cluster einem hohen Workload gerecht zu werden, ist an dieser Stelle besonders die Funktionalität des Multidimensional Clustering (MDC) hervorzuheben.

Der mip-Chefin zufolge ist das MDC eine sehr elegante Methode, um Daten flexibel, kontinuierlich und automatisch in mehreren Dimensionen zu clustern. Es ist daher besonders für Data Warehousing und andere große Datenbankumgebungen geeignet. Die Abfragen werden beschleunigt, Daten-Maintenance-Operationen wie zum Beispiel Reorganisation und Index-Maintenance werden durch INSERT, UPDATE und DELETE deutlich reduziert. MDC ermöglicht es, die Daten einer Tabelle physikalisch in mehr als einer Dimension gleichzeitig zu clustern - so als ob mehrere "clustered indexes" auf einer Tabelle möglich wären. Eine als MDC-Tabelle angelegte Tabelle stellt sicher, dass die einzelnen Sätze sich auf der Platte innerhalb eines Disk-Blocks (ein Block ist ein Vielfaches einer DB2-Page, zum Beispiel 32 DB2-Pages) befinden und alle Sätze irgendeines Blocks dieselben Dimensionswerte haben. Alle Blöcke haben die gleiche Anzahl von DB2-Pages, und mehrere Blöcke können dieselben Dimensionswerte beinhalten, falls es die Anzahl der Datensätze mit den gleichen Dimensionswerten erforderlich macht. Umgang mit Dimensionen Die Dimensionen einer MDC-Tabelle werden beim CREATE TABLE spezifiziert. Für jede der spezifizierten Dimensionen wird automatisch ein Block-Index erstellt sowie zusätzlich ein kombinierter Block-Index für die gesamten Dimensionen. Dimensionen sind nicht beschränkt auf Spalten oder Sequenzen von Spalten, sondern können auch einen Ausdruck mit einem arithmetischen Operator, eine Skalarfunktion etc. enthalten.