Daten-Management

Was steckt hinter Data Warehouse 2.0?

Sascha Alexander ist Manager Marketing & Kommunikation bei der QUNIS GmbH, Neubeuern, die auf Beratung und Projekte in der Business Intelligence, Big Data und Advanced Analytics spezialisiert ist. Zuvor war der Autor als Director Communications bei den Marktforschungs- und Beratungsunternehmen BARC und PAC tätig. Als ehemaliger Redakteur der COMPUTERWOCHE sowie Gründer und Chefredakteur des Portals und Magazins für Finanzvorstände CFOWORLD verbindet ihn zudem eine lange gemeinsame Zeit mit IDG.
Seine Themenschwerpunkte sind: Business Intelligence, Data Warehousing, Datenmanagement, Big Data, Advanced Analytics und BI Organisation.
Stephen Brobst, Chief Technology Officer beim Data-Warehouse-Spezialisten Teradata, erklärt, was er vom neuen 2.0-Begriff hält.

CW: Was ist von dem Slogan Data Warehouse 2.0 zu halten, der seit etwa 2006 in Fachkreisen kursiert?

Brobst: Von Data Warehouse 2.0 sprechen Experten wie Ralph Kimball, wenn es um den Umbau älterer Data-Warehouse-Systeme geht, die im Wesentlichen für Reporting und einfache multidimensional aufbereitete Analysen (Olap) entworfen wurden. Da Firmen heute auch operative Daten einbeziehen wollen, sind stärker normalisierte Datenstrukturen nötig. Auf diese Weise lassen sich betriebliche Beziehungen zwischen den Daten schneller aktualisieren und verwalten (manche Marktbeobachter wollen hinter dem Begriff zudem neue Infrastrukturansätze sehen, in denen ein Data Warehouse beispielsweise per Cloud Computing genutzt wird).

Laut Stephen Brobst, CTO von Teradata, kommen Data-Warehouse-Systeme heute nicht mehr ohne ausgefeilte Optimierungstechnik aus.
Laut Stephen Brobst, CTO von Teradata, kommen Data-Warehouse-Systeme heute nicht mehr ohne ausgefeilte Optimierungstechnik aus.
Foto: Teradata

Ferner wird die Nutzung oder Koexistenz strukturierter und unstrukturierter Daten sowie das Lifecycle-Management von INformationen im Zusammenhang mit Data Warehouse 2.0 genannt. Dahinter stehen Leute wie Bill Inmon. Auch hier könnte eine stärkere Normalisierung des Datenbankdesigns beide Datentypen vereinen.

CW: War dieses Designproblem abzusehen?

Brobst: Vor allem Datenbanken ohne spezielle Optimierungstechnik und ausgefeiltes Dateisystem haben Anwender dazu verführt, ihr Data Warehouse anders als heute benötigt aufzubauen. Manche versuchen nun, sich über eine Hub-and-spoke-Architektur zu helfen, in der ein Data Warehouse mit stärker normalisierten Daten abhängige Data Marts versorgt (siehe auch den Beitrags zu den Trends im Daten-Management).

Ein Administrator pro Terabyte

CW: Wie können Firmen die Leistung ihres Data Warehouse steigern?

Brobst: Vor allem eine manuelle Partitionierung der Daten in der Datenbank kann gegen die wachsenden Datenmengen helfen. Denkbar ist auch ein Tuning des Datenbank-Optimizers. Allerdings ist es auf Dauer keine Lösung, wenn der Administrator das System für neue Anforderungen ständig anpassen muss (siehe auch wie sich die Datenbanktechnik speziell im Data Warehousing verändert). Bei Oracle brauchen sie heute schon einen Administrator pro Terabyte. Besser wäre es, wenn sich das System selber verwalten könnte.