Das Multiple-Data-Warehouse-System
Auch die Produktvorstellungen Teradatas richten sich in erster Linie darauf, Daten besser zu integrieren sowie den Nutzern effizientere Analysen zu ermöglichen. Beispielsweise präsentierte der Hersteller in Amsterdam neue Funktionen für sein "Query Grid". Anwender könnten damit mit einer einzigen Abfrage auf Daten aus verschiedenen analytischen Systemen zugreifen. Der Self-Service erfordere keine besonderen Werkzeuge oder die Unterstützung der IT-Abteilung. Mit Teradata QueryGrid können die Anwender unkompliziert auf alle Daten, unabhängig von deren Quelle, zugreifen und komplexe Analysen durchführen, verspricht der Hersteller.
Außerdem hat Teradata seine Datenbank um weitere Funktionen ausgebaut. Mit dem "Software-Defined Warehouse", das im Wesentlichen auf bestehenden Funktionen wie dem "Workload Management" und "Data Labs" basiert, sollen mehrere Data Warehouses in einem System zusammengeführt sowie die Verwaltung vereinfacht und beschleunigt werden können. Anwenderunternehmen könnten damit mehrere, voneinander getrennte Data Warehouses betreiben, wenn dies beispielsweise aufgrund regulatorischer Vorschriften erforderlich sei, aber gleichzeitig in einem integrierten System ihre Datenbestände konsolidieren.
Keine Aufgabe für ein System allein
Für die wachsenden Anforderungen hinsichtlich großvolumiger Datenspeicherung und zügiger Verarbeitung hat Teradata mit seiner "Data Warehouse Appliance 2800" ein neues vorintegriertes System vorgestellt. Die Appliance ist Teradata zufolge auf hohe Geschwindigkeit für In-Memory-Datenverarbeitung hin optimiert und eigne sich damit auch für komplexe und leistungshungrige analytische Aufgaben. Das System arbeitet mit neuen Intel-Haswell-CPUs sowie DDR-4-Hauptspeicher. Im Vergleich zum Vorgängersystem soll Version 2800 doppelt so viel Rechenleistung und vier Mal so viel Speicherplatz bieten. Dies will der Hersteller durch eine höhere Speicherdichte und kompaktere Rechenknoten erreichen.
Für Wimmer dreht sich im Zuge dieser Ankündigungen alles um das analytische Ökosystem. "Kein einzelnes System kann die Vielfalt und Masse an Daten handhaben, die ein Unternehmen heute benötigt, um sich am Markt durchzusetzen", konstatierte der Manager. Wer behaupte, die Vielzahl an neuen Daten und neuen Datenquellen mit einem System einfangen zu können, erzähle Geschichten. Wimmer glaubt nicht an eine Lösung, die alles in einem System vereinigt, egal von welchem Anbieter. Heute gehe es darum, Transaktionsdaten mit anderen Daten zu verknüpfen und zu kombinieren. Und die lägen nicht unbedingt in den eigenen operativen Systemen. "All Data, all Analytics, all Users", lautet sein Credo.
Das Data Warehouse bleibt die Schaltzentrale
Doch trotz eines verteilten Daten-Ökosystems gibt sich der Teradata-Manager überzeugt von der Zukunft des Data-Warehouse. Den Wert eines solchen aber nur hinsichtlich der Transaktionsdaten zu beurteilen, sei zu kurz gegriffen. Wer dies tue, verstehe nichts von dem Geschäft. Bei einem Data Warehouse komme es darauf an, den Nutzern Daten zur Verfügung zu stellen, unabhängig davon, wo die Quellen dieser Daten liegen. Die Anwender sollten gar nicht merken, von wo das System die Daten nehme. In diese Integration im Hintergrund müsse man investieren, sagt Wimmer. "Ich glaube nicht, dass ein einzelner Anbieter eine allein passende Antwort hat in einem Markt, der eine brutale Dynamik mitbringt."
Teradata sei immer der Partner für Analytics gewesen, so der Manager. "Auf der Seite bleiben wir auch." Man sehe alle operativen Systeme als einen Pool für Daten. Das Kerngeschäft sei es, Daten aus unterschiedlichsten Systemen in Teradata zu laden. Das schwierige in diesem Umfeld sei jedoch, dass man heute nicht wissen könne, welche Daten in zwei Jahren zur Verfügung stehen. Gleiches gelte dafür, welche Fragen Unternehmen künftig stellten und welche Antworten sie benötigten. Wimmer geht davon aus, dass Daten in Zukunft nicht mehr weggeworfen werden, weil man schlichtweg nicht wisse, ob man sie doch noch einmal braucht. In diesem Zusammenhang sei allerdings eine ökonomische Diskussion über Daten zu führen. "Wenn es günstig genug wird, dann werde ich auch Daten speichern, von denen ich nicht weiß, ob sie jemals zu verwerten sein werden", prognostizierte der Manager. Das lasse sich jedoch nur im Rahmen von Ökosystemen umsetzen. "Wenn man hier nur Einzelsysteme in Betracht zieht, dann wird das ganze unbezahlbar."
Neben der technischen Diskussion wird aus Sicht des Teradata-Managers auch über Datenschutz zu reden ein. "Wir brauchen in Deutschland eine Diskussion darüber, wie wir mit Daten umgehen", mahnte Wimmer. Es gehe um Transparenz und eine offene Kommunikation darüber, was Unternehmen mit Daten machen. Es gelte Vertrauen aufzubauen, Transparenz zu schaffen und den Mehrwert für die Kunden aufzuzeigen. "Stattdessen verbringen wir mehr Zeit damit, darüber zu diskutieren, wie riskant Daten sein können, als darüber, welche Vorteile mit Hilfe von Daten zu erzielen sind."
Die Security-Diskussion & Frösche auf der Flucht
Dass die derzeitigen Diskussionen, die vor allem die Risiken in den Vordergrund stellen, aus Sicht eines Herstellers, der sein Geld mit Lösungen für das Daten-Management erwirtschaftet, in die falsche Richtung zielen, ist nachzuvollziehen. Falsch lag aber indes auch Wimmer mit seinem Vergleich vom Frosch im heißen Wasser. Die Geschichte ist ein modernes Märchen, das immer wieder gerne kolportiert und für die Untermauerung eigener Thesen aufgegriffen wird, aber schlussendlich einfach nicht der Wahrheit entspricht. Jeder Frosch, der merkt, dass das Wasser, in dem er sitzt, heißer wird, versucht natürlich der Gefahr zu entkommen, sagen die Wissenschaftler. Würde den Tieren das zum Überleben notwendige Temperaturempfinden fehlen, gäbe es schon längst keine Frösche mehr.
- Big Data
Unternehmen sollten sich im Klaren sein, welche Daten sie erfassen und welche Ergebnisse sie erzielen wollen. Für Big Data sollten möglichst viele bis alle Daten erfasst werden können. Im Gegensatz zu BI-Lösungen sollten sich Verantwortliche nicht in Nebensächlichkeiten verstricken, sondern immer das große Ganze sehen. - Big Data
Der Branchenverband BITKOM bietet eine kostenlose PDF-Datei, die als Leitfaden für Big Data-Projekte verwendet werden kann. - Big Data
Mit Hadoop und HDInsight in Microsoft Azure können Sie Big Data auch in der Microsoft Cloud betreiben. - Big Data
Um sich mit Hadoop und Big Data zu beschäftigen, ist HDInsight der schnellste Weg. Microsoft stellt für Entwickler eine Offline-Testumgebung für HDInsight zur Verfügung. - Big Data
Um Big Data-Lösungen zu nutzen, benötigen Sie in den meisten Fällen eine NoSQL-Datenbank, zusätzlich zu vorhandenen Datenbanken, beispielsweise MongoDB. - Big Data
Wer sich etwas mit Big Data bereits auseinandergesetzt hat und Lösungen in diesem Bereich einsetzt, kann die Umgebung mit weiteren Möglichkeiten erweitern. Auch hier steht eine Vielzahl an Opensource-Pridukten zur Verfügung, zum Beispiel Apache Giraph. - Big Data
Microsoft noch das kostenlose ebook „Introducing Microsoft Azure HDInsight“ zur Verfügung. Diese bietet einen idealen Einstieg in die Möglichkeiten von Big Data, HDInsight und Hadoop, auch für andere Plattformen. - Big Data
HBase kann als Datenbank für Big Data-Lösungen genutzt werden. Diese Technologie baut auf Google Big Table auf und kann sehr große Datenmengen speichern. - Big Data
Die meisten Unternehmen nutzen für die Verarbeitung von Big Data vor allem Hadoop-Distributionen oder Cloud-Lösungen. Die meisten Tools und Distributionen gehören zum Apache Projekt. Apache Mahout erlaubt eine bessere Verwaltung der Daten in Hadoop. - Big Data
Cloudlösungen bei Microsoft Azure, Google Cloud Platform oder Amazon Web Services, werden oft nach Datenvolumen berechnet und Berechnungsdauer. Entwickler sollten in die Abfragen und die Big Data-Anwendungen daher auch das Herunterfahren und Ausschalten von Big Data-Umgebungen einbeziehen.