In-Memory-Computing

Sechs Bibliotheken im Arbeitsspeicher

10.04.2013 | von 
Volker Grappendorf
Volker Grappendorf (52) ist seit dem 1. Januar 2013 Managing Director bei der Silicon Graphics GmbH. Zusätzlich zu dieser Funktion verantwortet er den Vertrieb in Deutschland, Österreich und der Schweiz sowie das Partnergeschäft in EMEA. Nach Abschluss seines Studiums der Wirtschaftswissenschaften an der Universität Stuttgart war Grappendorf zehn Jahre im IT-Direktvertrieb als Key-Account-Manager tätig. In den letzten 15 Jahren hatte er verschiedene Managementpositionen unter anderem bei EMC, StorageTech und Hitachi Data Systems inne.
In-Memory-Technologie hat das Potenzial, ein neues Computing-Zeitalter einzuleiten. Die Beherrschung von Big Data lässt die Vision vom Realtime Enterprise zru Realität werden.

Sicherlich haben auch Sie einige PDFs auf Ihrem Rechner, womöglich eine Sammlung an Büchern und anderen Dokumenten. Jetzt stellen Sie sich vor, Sie laden all diese Bücher, vielleicht einige hundert Megabyte oder ein paar Gigabyte, in Ihren Arbeitsspeicher, damit diese quasi ohne Verzögerung abrufbar und durchsuchbar sind. Und jetzt stellen Sie sich vor, Sie könnten das Gleiche mit allen digitalisierten Büchern der gesamten US-amerikanischen Kongressbibliothek mit der Größe von 10 Terabyte machen - und das alles in weniger als drei Sekunden. Dabei hätten Sie genug freien Speicher, um noch fünf weitere Bibliotheken zu laden. Das alles macht In-Memory möglich und damit auch die Nutzung von Big Data und Datenbanken aus dem Hauptspeicher heraus.

In der heutigen Zeit ist es besonders interessant zu beobachten, dass In-Memory-Technologien, die schon seit Jahren auf dem Markt sind, immer noch aktiv in Unternehmen zum Einsatz kommen. Gleichzeitig werden mit großer Dynamik neue In-Memory-Verfahren entwickelt und getestet. Aktuell ist besonders SAPs HANA im Gespräch.

Bei In-Memory sind besonders die Analysemöglichkeiten interessant, bei denen das Problem für die Weiterverarbeitung nicht in kleinere Pakete aufgeteilt werden muss, um diese auf mehrere kleine Cluster zu verteilen. Wenn ein einziger großer Arbeitsspeicher zur Verfügung steht, lassen sich bestimmte Beziehungen viel schneller und deutlicher erkennen und herstellen. Zum Beispiel bei der Analyse von Social Media-Daten, Betrugserkennung oder wissenschaftlichen Problemstellungen wie den kosmologischen Berechnungen von Stephen Hawking an der Universität Cambridge.

Der Einsatz eines einzigen In-Memory-Systems erleichtert die Arbeit von Wissenschaftlern und Unternehmen erheblich, entfallen doch die physikalisch gesetzten Grenzen der Arbeitsspeicher-Limitierung. Bildlich gesprochen lässt sich der gesamte Wald erkennen und nicht nur einzelne Bäume. Dieser Ansatz wird "Befreiung von kleinen Technologien" genannt, wenn es um In-Memory geht. Es fallen Dinge weg wie die Pflege und Wartung von Datenbankindizes, Aggregation und die Aufbereitung der Daten zur Weiterverarbeitung. Allein dieser letzte Punkt sorgt bereits dafür, dass die vielfältigen Möglichkeiten zur Betrachtung der Gesamtheit der Daten in jeglicher Konstellation begrenzt sind, da sie vorselektiert und geordnet werden müssen. Es wird sozusagen die Anzahl der Antworten eingeschränkt, die möglich wären, ebenso die Vielfältigkeit der Fragen, die gestellt werden könnten.

Nutzen und Möglichkeiten von Big Data

Besonders die Wissenschaft, die solche In-Memory-Technologien schon seit Jahren verwendet, kann als Vorreiter für marktwirtschaftliche Unternehmen betrachtet werden, bei denen diese Möglichkeiten erst seit einigen wenigen Jahren zum Einsatz kommen. Zudem wächst die Anzahl der analytischen Verfahren so schnell, dass wir uns langsam aber sicher dem annähern, was unser Gehirn zu leisten in der Lage ist, wenn es um Verknüpfungen und das Bilden von Zusammenhängen geht. Dabei ist vor allem die Visualisierung von Abhängigkeiten und Verbindungen ein wesentliches Element, das Analysten hilft, Zusammenhänge sowie wiederkehrende Muster zu erkennen und - einfach gesagt - echten Nutzen aus Big Data zu ziehen.

Im Gegensatz dazu sind Zusammenhänge mittels Spreadsheets oder traditioneller Reports nicht so leicht erkennbar. Einige Firmen, die sich mit dem Thema beschäftigen, entwickelten zuletzt beeindruckende Visualisierungen und interaktive, assoziative Technologien wie TIBCO spotfire oder QlikTech. Diese erlauben es, schnell Fragen zu stellen und basierend auf In-Memory-Technologie sofort Antworten darauf zu erhalten, oder wie Tableu die Daten anschaulich zu visualisieren.

Grenzenloser Arbeitsspeicher

Unzureichende Größe kann ein einschränkender Faktor sein, und es gilt dabei vor allem den Anwendungszweck im Blick zu behalten. Laptops haben heute beispielsweise mehrere Gigabyte Arbeitsspeicher und genügen so selbst rechenintensivsten Anforderungen wie Videoschnitt oder -encodierung. Wenn man jedoch Big Data analysieren und ein Gesamtbild sowie die Zusammenhänge erkennen will, reicht der Speicher bei weitem nicht aus.

Das Projekt "Twitter Heartbeat", das SGI zusammen mit der Universität Illinois, USA, durchgeführt hat, ist eines dieser Beispiele für Speicherintensität. Hier kam das Big Brain-System UV2 zum Einsatz, um alle weltweiten Tweets zu einem bestimmten Thema nach Tonalität und Intensität zu analysieren und auf einer Weltkarte in Form einer Heatmap darzustellen. Somit konnten zum Beispiel bei den US-Präsidentschaftswahlen die verschiedenen politischen Lager der Bundesstaaten und deren Fortschritte im Laufe des Wahltags in Echtzeit visualisiert werden. Diese ressourcenhungrige Applikation war vor allem auf eins angewiesen: einen riesigen In-Memory-Speicher von 64 Terabyte - das 16.000-Fache eines guten handelsüblichen Laptops. Nur mittels In-Memory können solche Berechnungen und Analysen nativ im System vorgenommen werden, ohne Sie nachher im System zusammenführen und abgleichen zu müssen.

Perfektes Zusammenspiel - In-Memory und Scale-Out

Eine andere Option für solche Projekte ist der Einsatz von Scale-Out-Technologien und Clustern, die jedoch dafür sorgen, dass viele Systeme verbunden und verwaltet werden müssen. Das Limit für den Hauptspeicher ist auf einige Terabyte begrenzt, folglich muss die zu verarbeitende Aufgabe in Arbeitspakete auf das Gesamtsystem aufgeteilt werden. Es gibt interessante Projekte, die NoSQL und Hadoop nutzen, und für einen ersten Überblick über die vorhandenen Daten oder einfache Auswertungen ist Scale-Out ein guter Anfang. Die besten Ergebnisse erhalten Forschung und Industrie aber mit einer Kombination aus In-Memory- und Scale-Out-Auswertungen im Petabyte-Bereich.

Quo vadis, Big Data?

Einer der aufkommenden Trends im Umgang mit Big Data ist neben den Analyseeigenschaften die direkte Verarbeitung und Transaktion beispielsweise im Finanzsektor. Applikationen greifen direkt auf Big Data zu, ohne dass die Daten aufbereitet werden müssen. Bankgeschäfte und Finanztransaktionen können dann genauso einfach vonstatten gehen wie heute mit relationalen Datenbanken. Der Einsatz solcher Technologien in Echtzeit ist essenziell in einer Welt, in der sich alles auf mobile Geräte verlagert. Dabei wird die Bandbreite mitwachsen müssen, um die auszuwertenden Daten transferieren zu können. Heutzutage geht es beispielsweise deutlich schneller, 20 Terabyte von München nach Hamburg auf Festplatten in einem Flugzeug zu versenden als auf digitalem Wege.

Ein mittelfristiger Trend ist die Interaktion mit Big Data mittels Gesten und Sprachsteuerung. Diese Eingabemethoden werden die Tastatur-Maus-Kombination ablösen sowie Probleme und Informationen in einer weitaus umfassenderen Größenordnung greifbarer machen als heute. Daten werden leichter zu filtern und die Ergebnisse besser sein, angefordert durch ein einfaches generisches Sprachkommando oder eine Wischgeste. Apple hat beispielsweise mit Siri und natürlichen Fingergesten gezeigt wie erfolgreich diese Art von Interaktion sein kann.

Der Drucker aus dem Drucker

Zusammenfassend lassen sich die Möglichkeiten, die Big Data-Analysen ermöglichen, kaum alle aufzählen. 3D-Drucker könnten hier eine industrielle Revolution ins Rollen bringen, da Bauteile und ganze Gegenstände aus dem Drucker kommen werden - auch Drucker selbst. Durch die Entwicklung von neuen Materialien und Einsatzzwecken für die gedruckten Komponenten wird sich die produzierende Industrie im Grundsatz verändern.

Die Infrastruktur dahinter - sowohl aus logistischer, aber vor allem aus Informationssicht - wird dabei eine zentrale Rolle spielen. Handelsketten für Bürobedarf oder Baumärkte könnten zu den Fabriken der Zukunft werden, indem die Ware vor Ort gedruckt und auf Kundenwunsch sogar personalisiert wird. Dazu ist die Verarbeitung von riesigen Datenmengen sowie ihre Bereitstellung notwendig. Die benötigte Rechenpower dafür wird immens sein und das übersteigen, was heute erhältlich ist. Innovation darf und wird sich jedoch nicht von Hardwarelimitierungen einschränken lassen. (hv)