Big Data im Griff

In-Memory-Datenbanken - Wegbereiter für eine effiziente Datenanalyse

19.05.2016 von Björn Böttcher

Im Rahmen der Digitalisierung ist der Einsatz von Business Intelligence- und Analysesoftware in allen Bereichen eines Unternehmens eine Notwendigkeit geworden. Leistungsfähige und skalierbare In-Memory-Datenbanken werden dabei immer wichtiger.

Datenbank-Technologien haben sich im Laufe des IT-Zeitalters als fester Pfeiler einer gesunden Unternehmens-IT behauptet. In vielen Bereichen würde ohne Datenbanken kein Geschäftsmodell mehr funktionieren. Der Online-Handel boomt wie nie zuvor und Amazon erweiterte sein Portfolio gerade erst um eine eigene Flugzeugflotte.

Dies zeigt, dass der Handel in diesem Bereich rasant wächst und immer mehr Daten verarbeiten muss. Auch soziale Plattformen, wie Xing, LinkedIn oder Facebook, haben einen enormen Datenvorrat zu beherbergen. Die Datenberge türmen sich mittlerweile auf mehrere Milliarden an Datensätzen und haben längst die Terabyte und Petabyte Grenzen überschritten.

10 Dinge, die Sie über Big Data wissen sollten

Big Data
Unternehmen sollten sich im Klaren sein, welche Daten sie erfassen und welche Ergebnisse sie erzielen wollen. Für Big Data sollten möglichst viele bis alle Daten erfasst werden können. Im Gegensatz zu BI-Lösungen sollten sich Verantwortliche nicht in Nebensächlichkeiten verstricken, sondern immer das große Ganze sehen.

Big Data
Der Branchenverband BITKOM bietet eine kostenlose PDF-Datei, die als Leitfaden für Big Data-Projekte verwendet werden kann.

Big Data
Mit Hadoop und HDInsight in Microsoft Azure können Sie Big Data auch in der Microsoft Cloud betreiben.

Big Data
Um sich mit Hadoop und Big Data zu beschäftigen, ist HDInsight der schnellste Weg. Microsoft stellt für Entwickler eine Offline-Testumgebung für HDInsight zur Verfügung.

Big Data
Um Big Data-Lösungen zu nutzen, benötigen Sie in den meisten Fällen eine NoSQL-Datenbank, zusätzlich zu vorhandenen Datenbanken, beispielsweise MongoDB.

Big Data
Wer sich etwas mit Big Data bereits auseinandergesetzt hat und Lösungen in diesem Bereich einsetzt, kann die Umgebung mit weiteren Möglichkeiten erweitern. Auch hier steht eine Vielzahl an Opensource-Pridukten zur Verfügung, zum Beispiel Apache Giraph.

Big Data
Microsoft noch das kostenlose ebook „Introducing Microsoft Azure HDInsight“ zur Verfügung. Diese bietet einen idealen Einstieg in die Möglichkeiten von Big Data, HDInsight und Hadoop, auch für andere Plattformen.

Big Data
HBase kann als Datenbank für Big Data-Lösungen genutzt werden. Diese Technologie baut auf Google Big Table auf und kann sehr große Datenmengen speichern.

Big Data
Die meisten Unternehmen nutzen für die Verarbeitung von Big Data vor allem Hadoop-Distributionen oder Cloud-Lösungen. Die meisten Tools und Distributionen gehören zum Apache Projekt. Apache Mahout erlaubt eine bessere Verwaltung der Daten in Hadoop.

Big Data
Cloudlösungen bei Microsoft Azure, Google Cloud Platform oder Amazon Web Services, werden oft nach Datenvolumen berechnet und Berechnungsdauer. Entwickler sollten in die Abfragen und die Big Data-Anwendungen daher auch das Herunterfahren und Ausschalten von Big Data-Umgebungen einbeziehen.

Um aber genau mit diesen enormen Datenmengen seinen Nutzern oder Kunden Dienste anbieten zu können, müssen viele zeitkritische Datenbankabfragen an die Server gestellt werden. Mit klassischen Datenbanktechnologien ist diese Datenflut kaum noch zu bewältigen. Sicherlich kann man mit Optimierungen, Speichererweiterungen, Skalierung und geschickter Indizierung mehr Performance herausholen, jedoch wäre das nur eine kurzfristige Lösung. Im Zuge der Digitalisierung gibt es aber immer mehr Fachabteilungen in Firmen, die mit Daten experimentieren und versuchen neue Dienste und Produkte zu generieren oder Prozesse zu optimieren.

Im Big Data Umfeld haben sich spaltenorientierte, skalierbare und für große Datenmengen optimierte Datenbanken wie Apache HBase oder Apache Cassandra etabliert. Beide Vertreter kommen jedoch aus einer nicht relationalen Welt und bieten hier entsprechende Freiheiten, aber auch Einschränkungen, wie etwa bei Ad-Hoc-Abfragen. Wünschenswert wäre daher eine relationale Datenbank-Technologie, welche mit der Performance von nicht-relationalen Datenbanken mithalten kann.

Bildergalerie: In-Memory-Datenbanken

Basis: 2864 Befragte.jpg
2864 Anwender hat Crisp Research zum Thema In-Memory befragt: 42 Prozent haben sich mit der Technik bereits beschäftigt. Doch nur für 150 von ihnen steht der Einsatz von SAP HANA fest.

Eingesetzte Datenbank.jpg
Vor allem Microsoft- und Oracle-Systeme sind die bevorzugten Datenbanken in den befragten Anwenderunternehmen.

Pläne für In-Memory-Datenbanken
Gut vier von zehn Befragten haben bereits eine In-Memory-Datenbanktechnik evaluiert. Allerdings sagen auch fast 60 Prozent, dass derzeit eine In-Memory-basierte Datenverarbeitung für sie nicht von Interesse sei.

Entscheidung in Sachen HANA
200 Anwenderunternehmen von den 2864 Befragten beschäftigen sich intensiver mit SAP HANA. Rund ein Drittel setzt das System bereits produktiv ein. Fast die Hälfte prüft noch und knapp jeder Fünfte kann sich noch nicht so recht entscheiden.

Ziel: HANA als Beschleuniger.jpg
Mehr als die Hälfte der HANA-Interessenten erwartet, dass das In-Memory-System die Unternehmensprozesse beschleunigt. Außerdem soll HANA dabei helfen, Systeme zu konsolidieren, um so die Komplexität zu verringern. Immerhin jeder Achte ist unzufrieden mit Oracles Lizenzpolitik und will deshalb den Anbieter wechseln.

Strategische Ziele.jpg
Vor allem im Umfeld von Big Data, dem Customer Relationship Management (CRM) und Industrie 4.0 sowie dem Internet der Dinge solle HANA zum Einsatz kommen. Simulationen neuer Geschäftsmodell spielen bei der strategischen Zielsetzung allerdings noch keine besonders große Rolle.

HANA-Einführung.jpg
Das Gros der HANA-Interessenten will das System für Business Intelligence (BI) und das Reporting einsetzen. Der Einsatz als Betriebsplattform für neue Workloads kommt nicht einmal für ein Viertel der Unternehmen in Frage. Als Innovations-Show-Case spielt HANA derzeit nur eine untergeordnete Rolle.

HANA-Architektur.jpg
Die meisten Anwender sehen HANA derzeit als ergänzendes System und Beschleuniger für ihre bestehenden Architekturen. Nur jeder Fünfte der Befragten will HANA als Primär-System einsetzen und bestehende Systeme abschalten.

Anwendern fehlt HANA-Knowhow.jpg
Vor allem das fehlende Knowhow für HANA im eigenen Haus wie bei potenziellen Partnern bereitet den Verantwortlichen Kopfzerbrechen. Außerdem fehlen den Befragten Migrationskonzepte für Nicht-SAP-Systeme.

Anwender monieren technische Probleme.jpg
Neben den Klassikern wie Zeit- und Budget-Überschreitungen beklagen die HANA-Anwender auch Probleme mit der Systemstabilität sowie nicht erfüllte Erwartungen hinsichtlich der Leistung.

Anwendern ist HANA zu teuer.jpg
Verbesserungspotenzial sehen die Befragten vor allem bei den Kosten. Sie wünschen sich ein attraktiveres Lizenzmodell, mehr Out-of-the-Box-Lösungen sowie günstigere Wartungskosten.

Bereits 1984 erblickte ein Ansatz einer solchen Technologie das Licht der Welt. Mit der TM1-OLAP-Datenbank, führte IBM eine sogenannte In-Memory-Datenbank basierend auf Online Analytical Processing (OLAP) in den Markt ein. Bei In-Memory-Datenbanken werden die Daten im Arbeitsspeicher des Rechners geladen und von dort direkt zur Nutzung abgerufen. Doch für den Durchbruch dieser Technologie fehle es in der Vergangenheit an geeigneter IT-Infrastrukturen. Server, Storage, Netzwerke und Betriebssysteme waren bei weitem nicht so leistungsstark und dynamisch, wie es für diese Technologie erforderlich wäre. Erst in den letzten Jahren erlebte diese Technologie durch hoch performante IT-Infrastrukturen ihre Renaissance.

Oracle TimeTen, SAP HANA oder Parstream sind die momentan bekannten und am weitesten verbreiteten In-Memory-Lösungen im Unternehmenseinsatz. Weitere Lösungen aus dem Bereich In-Memory-Datenbanken sind beispielsweise:

Technologische Herausforderungen bei In-Memory-Datenbanken

Auch wenn die extrem schnellen Antwortzeiten der eingesetzten Technologie oftmals eine Indizierung und Voraggregierung von Tabellen oder Daten in OLAP-Würfeln nicht mehr erforderlich machen, so bleiben auch beim Einsatz von In-Memory-Technologie noch Herausforderungen, die es zu meistern gilt.

Die vorrangige Fragestellung betrifft bei solchen Datenbanksystemen natürlich den Arbeitsspeicher. Wie groß muss dieser sein und was passiert mit Datenmengen, welche größer sind, als der vorhandene Arbeitsspeicher im laufenden Betrieb?

Hier haben die meisten Hersteller Caching- und Kompressions-Algorithmen entsprechend optimiert und neue entwickelt, um die häufig verwendeten Daten immer blitzschnell im Hauptspeicher bereitzuhalten. Daten werden also dynamisch und vollkommen automatisiert nachgeladen, Indizierungen - falls notwendig - automatisch erstellt und auch wieder verworfen. Dadurch sinkt auch für den operativen Betrieb der Wartungsaufwand und Administratoren werden entlastet.

Vor der Anschaffung muss man sich bereits darüber Gedanken machen, ob eine spezielle Hardware für den Einsatz einer bestimmten In-Memory-Technologie notwendig ist, oder ob die Software so flexibel und dynamisch ist, dass sie mit herkömmlicher und bereits vorhandener Cluster-Technologie im Unternehmen auskommt.

Wenn ein Anbieter hier mit den Stärken seiner Technologie auftrumpfen kann, so ist dies sicherlich ein entscheidender Vorteil im Anschaffungsprozess, sofern das Augenmerk hier nur auf ein Einsatzszenario für die Hardware liegt. Fast ebenso wichtig ist die Integration von bestehenden ETL-Prozessen (Extract-Transform-Load) in die neue Technologie. Hier sollte auf den Grad der unterstützten Standards ein besonderes Augenmerk gelegt werden. Denn wenn dieser Grad sehr hoch ist, muss im Idealfall wenig an den Prozessen verändert werden und oftmals können sogar Front-Ends (Web, Mobile, etc.) nahezu nahtlos weiterverwendet werden.

Warum Analytics nicht in die IT-Abteilung gehören

Fünf gute Gründe ...
... warum Analytics nicht in die IT-Abteilung, sondern in die Fachbereiche gehören und warum jeder Fachbereichsleiter einen Data Scientist in seinem Team haben sollte.

Analytics können helfen, Unternehmensziele zu erreichen
Analytics dient keinem Selbstzweck. Der Wert von analytischen Services oder Datenprodukten entsteht erst durch die Einbindung in Geschäftsprozesse. Erst durch die Realisierung eines effektiven Nutzens in Form von Effizienzsteigerungen und damit verbundenen Kostensenkungen, der Generierung von Neugeschäft oder eine gesteigerten Kundenloyalität werden tatsächliche Effekte im Geschäftsergebnis messbar.<br /><br /> Fachbereiche sind in ihrer Funktion für die Steigerung von einzelnen Erfolgsfaktoren verantwortlich und haben daher ein Interesse zu verstehen, an welcher Stelle ihnen Analytics helfen kann. Zudem sollten die Mitarbeiter im Fachbereich auch zu einem Stück weit verstehen, wie die Analysen funktionieren, um mit dem Wissen zu ihren Geschäftsproblemen beispielsweise das Transferdenken zu leisten, wie man Daten anreichern sollte oder welche zusätzlichen Analysen durchgeführt werden sollten. Außerhalb des Fachbereichs hat für gewöhnlich niemand das entsprechende Interesse die Unternehmenskennzahlen in dem speziellen Bereich positiv zu beeinflussen und kein anderer kann es besser.

Anwendungsfälle ergeben sich aus den Erfahrungen, die Mitarbeiter im täglichen Betrieb sammeln
Gesunder Menschenverstand, Erfahrungswerte für Abwägungen zwischen Machbarem und Sinnvollem und ein Gespür für die echten Probleme in einem Unternehmensbereich sind relativ seltene Fähigkeiten, schwer zu erlangen und wenn dann über einen längeren Zeitraum im täglichen Geschäft entstanden. Das unverzichtbare Wissen, die sogenannte "Magic Sauce" für eine erfolgreiche Anwendung von analytischen Fähigkeiten ist und bleibt in den Fachbereichen.

Data Scientists brauchen das Know-how des Fachbereichs, um Modelle praxisrelevant zu entwickeln
Ein guter Data Scientist zeichnet sich durch ein breites Wissen von analytischen Methoden, Anwenderkenntnis von analytischen Technologien, Fähigkeiten zur Datenaufbereitung und Kreativität aus. Aber die Arbeit eines Risikoanalysten bei einer Bank und eines Marketinganalysten bei einem Online-Händler unterscheiden sich.<br /><br />Der Grund, warum sie ihre Jobs nicht ohne weiteres tauschen können, ist das Verständnis über ihren Fachbereich und das Wissen was funktioniert und was nicht. So wertvoll Datenprodukte für einzelne Fachbereiche sein können, häufig ist es ein Ansatz aus Testen und Lernen, der aus einem analytisch einwandfreien Modell ein für den praktischen Einsatz wertvolles und nachhaltiges Datenprodukt generiert.

Ergebnisse müssen interpretiert und Maßnahmen abgeleitet werden
Auch wenn der Data Scientist nicht im Fachbereiche angesiedelt ist: Eine enge Zusammenarbeit ist unerlässlich. Spätestens wenn es an das Verstehen von Ergebnissen und Ableiten von Maßnahmen oder die Integration in Geschäftsprozessen geht, nehmen Fachbereiche die Führungsrolle ein. Je enger die Einbindung während der gesamten Entwicklung des analytischen Anwendungsfalls, desto wahrscheinlicher ist die Akzeptanz und Relevanz für die Anwendung in den Fachbereichen.

Ein Data Scientists im eigenen Team schafft Agilität und Vorsprung
Sobald dem Fachbereich bewusst ist, welchen Mehrwert Analytics und die richtige Datenauswertung bietet, können sich Data Scientists häufig nicht mehr vor kurzfristigen Anfragen retten und müssen ihre Kapazität zwischen Fachbereichen balancieren. Arbeitet Data Scientist jedoch im eigenen Team, ist er schneller erreichbar. Analyseprojekte können dauerhaft weiterentwickelt werden und auf die immer schneller wechselnden Prioritäten vieler Fachbereiche kann reagiert werden. Der Data Scientist kann sich mit der Zeit Fachbereichswissen aneignen, entlastet somit andere Fachmitarbeiter und kann sie zugleich in ihren analytischen Fähigkeiten weiterentwickeln – als Hilfe zur Selbsthilfe für die Kollegen im Fachbereich.

In-Memory-Datenbanken und Self-Service-Datenanalyse - eine sinnvolle Symbiose

Mit HyPer zum Beispiel holt sich der Datenanalysespezialist Tableau Software eine In-Memory-Lösung, samt Experten und Entwicklerteam, ins Haus, welche simultane Online Transaction Processing (OLTP) und Online Analytical Processing (OLAP) ohne Leistungsbeeinträchtigung verspricht. Die Technologie wurde als Forschungsprojekt an der TU München gestartet und zeigt, dass sich deutsche Universitäten nicht hinter den Top Start-Ups aus dem Silicon Valley verstecken müssen.

HyPer bietet als Hauptspeicher-Datenbank eine Möglichkeit klassische OLAP- und OLTP-Prozesse effektiv abzufragen und diese zusätzlich mit transaktionssicheren Snapshots absichern. Damit bereitet diese Datenbank-Technologie den Weg für Echtzeit Business Intelligence Anwendungen.

Fazit

Die rasante Entwicklung von neuen Datenbanktechnologien und das schnelle verarbeiten großer Datenvolumen deuten darauf hin, das BI- und Analytics-Anbieter zukünftig noch stärker in den HPC-Bereich (High Performance Computing) investieren werden, um Anwender bei der Analyse der rasant steigenden Datenmengen zu unterstützen und die Performance ihrer Analysen weiter zu optimieren. Denn im digitalen Zeitalter müssen Ergebnisse, Analysen und Visualisierung in Echtzeit funktionieren.

So ist auch davon auszugehen, dass alle Anbieter in diesem Segment ihre Produkte zukünftig noch stärker an die Cloud-Plattformen von Google, AWS und Microsoft anbinden werden. Spannend ist die Frage, wer in dieser Welt die Richtung beim Einsatz von Machine Learning-Verfahren bestimmt - die BI- oder die Cloud Provider?