VVV versus AAA

Big Data zum Anfassen

29.05.2015 von Bertram Geck

Den Begriff Big Data in drei Sätzen zu erklären war von Beginn an nicht möglich und wird mit zunehmender Marktdurchdringung nicht einfacher. Der Autor gibt in seinem Beitrag einen Überblick zu den aktuellen Begrifflichkeiten und Technologien.

Viele Unternehmen hantieren mit immer größeren Datenmengen.
Foto: Santiago Cornejo, Fotolia.com

Ebenso unübersichtlich wie die zahlreichen und immer schneller wachsenden Datenberge erscheinen auch die Begrifflichkeiten, sowie die angebotenen IT-Lösungen und Systeme, die im Zusammenhang mit Big Data angeboten werden. Was ist eigentlich Big-Data?

Volume, Velocity und Variety (VVV)

Volume
Volume bezieht sich auf die exorbitante Datenmenge, die in jeder Sekunde entsteht und kontinuierlich wächst. Applikationen mit einem Datenvolumen im mehrstelligen Terabyte- oder sogar Petabyte-Bereich sind Realität.

Velocity
Velocity beschreibt, dass die Daten nicht nur schubweise, sondern fortlaufend produziert werden. Somit stehen viele Unternehmen vor der Herausforderung, immer schneller - im Idealfall in Echtzeit - große Datenmengen verarbeiten zu müssen.

Variety
Variety verfolgt das Ziel, die unkontrollierten und oftmals unstrukturierten Datenströme - egal aus welchem Kanal sie kommen und welches Format sie haben - so aufzubereiten, dass wertvolle Informationen gewonnen werden können.

Aufnehmen, Aufbereiten und Anzeigen (AAA)

Die drei "V" aus dem ersten Absatz sind für den Anwender eher virtuell und nur hilfreich zur Kategorisierung von Big-Data. Hilfreich für der Nutzung von Big-Data sind für den Anwender erst einmal drei andere Vokabeln: Aufnehmen, Aufbereiten und Anzeigen. Welche Daten werden wie erfasst? Wie werden die Daten aufbereitet und wie kann man sie anzeigen, damit der größte Nutzen draus erkenntlich wird?

Markttrends

Selbst erfahrenen IT-Entscheidern fällt es immer schwerer, die Möglichkeiten von Big Data zu durchblicken. Dennoch ist allen Beteiligten eines klar: Die vorhanden Daten können und sollten genutzt werden.

Dies beweisen auch die Marktanalysen zu den Technologietrends für 2015 von Forschungsinstituten wie Gartner, Forrester oder IDC, die allesamt das Thema Big Data aufnehmen.

Reifegrade von Beratungshäusern liefern mehr oder weniger systematische Ansätze, die Unternehmen zu einem Big-Data Verständnis zu führen. Diverse Reifegradmodelle werden beworben. Die unterschiedlichen Reifegrade bei der Big-Data-Kompetenz in den Branchen zeigen, wie verschieden die Bedingungen für Big-Data-Initiativen sein können, mit denen sich Unternehmen konfrontiert sehen. Wenn solche Initiativen nur halbherzig geplant werden, ist ein Scheitern vorherbestimmt. Damit das Potential voll genutzt werden kann, müssen Unternehmen eine ganzheitliche, bereichsübergreifende Herangehensweise wählen.

Big Data Glossar

Die Begriffe rund um Big Data
Big Data - was ist das eigentlich? Jeder spricht drüber, jeder versteht etwas anderes darunter. Klicken Sie sich durch unser Glossar mit den wichtigsten und meistgenutzten Begriffen (manche sagen auch "Buzzwords") und verstehen Sie, was damit genau gemeint ist. <br /><br /> <em>zusammengestellt von <a href="http://www.kommunikation-in-sendling.com/" target="_blank">Kriemhilde Klippstätter</a>, freie Autorin und Coach (SE) in München</em>

Ad Targeting
Der Versuch, die Aufmerksamkeit des potenziellen Kunden zu gewinnen, meist durch "passgenaue" Werbung.

Algorithmus
Eine in Software gegossene mathematische Formel mit der ein Datensatz analysiert wird.

Analytics
Mit Hilfe von Software-basierenden Algorithmen und statistischen Methoden werden Daten interpretiert. Dazu benötigt man eine analytische Plattform, die aus Software oder Software plus Hardware besteht und die die Werkzeuge und Rechenpower bereitstellt, um unterschiedliche analytische Abfragen durchführen zu können. Es gibt eine Reihe unterschiedlicher Formen und Einsatzzwecke, die in diesem Glossar näher beschrieben sind.

Automatic Identification and Capture (AIDC)
Jede Methode der automatischen Identifizierung und Datensammlung über eine Gegebenheit und die nachfolgende Speicherung in ein Computersystem. Etwa die Informationen aus einem RFID-Chip, die ein Scanner ausliest.

Behavioral Analytics
Behavioral Analytics nutzt Informationen über das menschliche Verhalten, um die Absichten zu verstehen und zukünftiges Verhalten vorhersehen zu können.

Business Intelligence (BI)
Der generelle Ausdruck für die Identifizierung, Herkunft und Analyse der Daten.

Call Detail Record (CDR) Analyse
Diese enthält Daten, die die Telekommunikationsunternehmen über die Nutzung von Mobilfunkgesprächen – etwa Zeitpunkt und Dauer der Gespräche – sammeln.

Cassandra
Ein verteiltes Datenbank-Verwaltungssystem für sehr große strukturierte Datenbanken („NoSQL“-Datenbanksystem) auf Open-Source-Basis (Apache).

Clickstream Analytics
Bezeichnet die Analyse der Web-Aktivitäten eines Benutzers per Auswertung seiner Klicks auf einer Website.

Competitive Monitoring
Tabellen, in denen die Aktivitäten der Konkurrenz im Web automatisch gespeichert werden.

Complex Event Processing (CEP)
Ein Prozess, bei dem alle Aktivitäten in den Systemen einer Organisation überwacht und analysiert werden. Bei Bedarf kann sofort in Echtzeit reagiert werden.

Data Aggregation
Das Sammeln von Daten aus unterschiedlichen Quellen für die Erstellung eines Berichts oder für eine Analyse.

Data Analytics
Ein Stück Software, mit dem Informationen aus einem Datensatz gezogen werden. Das Ergebnis kann ein Report, ein Status oder eine Aktion sein, die automatisch gestartet wird.

Data Architecture and Design
Legt dar, wie Unternehmensdaten strukturiert sind. Meist erfolgt das in drei Prozessschritten: Begriffliche Abbildung der Geschäftseinheiten, logische Abbildung der Beziehungen innerhalb der Geschäftseinheit sowie die physikalische Konstruktion eines Systems, das die Tätigkeiten unterstützt.

Data Exhaust
Die Daten, die eine Person bei ihrer Internet-Aktivität "nebenbei" erzeugt.

Data Virtualization
Der Prozess der Abstraktion verschiedener Datenquellen durch eine einzige Zugriffsschicht auf die Daten.

Distributed Object
Ein Stück Software, das es erlaubt, mit verteilten Objekten auf einem anderen Computer zusammenzuarbeiten.

De-Identification
Das Entfernen aller Daten, die eine Person mit einer bestimmten Information verbindet.

Distributed Processing
Die Ausführung eines Prozesses über verschiedene per Netzwerk verbundene Computer hinweg.

Drill
Apache Drill ist eine Open-Source-SQL-Suchmaschine für Hadoop- und NoSQL-Datenmanagement-Systeme.

Hadoop
Ein freies, in Java geschriebenes Framework der Apache Foundation für skalierbare, verteilt arbeitende Software in einem Cluster. Es basiert auf dem bekannten MapReduce-Algorithmus der Google Inc. sowie auf Vorschlägen des Google-Dateisystems.

HANA
SAPs Software-und Hardware-Plattform mit In-Memory-Computing für Echtzeitanalysen und große Transaktionsvolumen.

In-Database Analytics
In-Database Analytics bezeichnet die Integration der Analysemethoden in die Datenbank. Der Vorteil ist, dass die Daten für die Auswertung nicht bewegt werden müssen.

In-Memory Database
Jedes Datenbanksystem, das den Hauptspeicher für die Datenspeicherung benutzt.

In-Memory Data Grid (IMDG)
Die verteilte Datenspeicherung im Hauptspeicher vieler Server für schnellen Zugriff und bessere Skalierbarkeit.

Machine-generated Data
Alle Daten, die automatisch von einem Rechenprozess, einer Applikation oder einer nicht-menschlichen Quelle erzeugt werden.

Map/reduce
Ein Verfahren, bei dem ein großes Problem in kleinere aufgeteilt und an verschiedene Rechner im Netz oder Cluster oder an ein Grid aus unterschiedlichen Computern an verschiedenen Standorten ("map") zur Bearbeitung verteilt wird. Die Ergebnisse werden dann gesammelt und in einem (reduzierten) Report dargestellt. Google hat sein Verfahren unter der Marke "MapReduce" schützen lassen.

Mashup
Dabei werden unterschiedliche Datensätze innerhalb einer Applikation so kombiniert, dass das Ergebnis verbessert wird.

NoSQL
Datenbanken, die nicht relational aufgebaut sind und mit denen sich große Datenvolumina handhaben lassen. Sie benötigen keine festgelegten Tabellenschemata und skalieren horizontal. Beispielsweise ist Apache Cassandra eine NoSQL.

Operational Data Store (ODS)
Darin werden Daten aus unterschiedlichen Quellen gesammelt damit noch weitere Operationen ausgeführt werden können, bevor die Daten in ein Data Warehouse exportiert werden.

Pattern Recognition
Die Klassifizierung von automatisch erkannten Mustern.

Predictive Analytics
Diese Form der Analytics nutzt statistische Funktionen in einem oder mehreren Datensätzen, um Trends oder zukünftige Ereignisse vorherzusagen.

Recommendation Engine
Per Algorithmus werden die Kundenbestellungen einer Website analysiert und sofort passende Zusatzprodukte ausgesucht und angeboten.

Risk Analysis
Die Anwendung statistischer Methoden auf einen oder mehrere Datensätze, um das Risiko eines Projekts, einer Handlung oder Entscheidung abschätzen zu können.

Sentiment Analysis
Dabei werden Einträge von Leuten in sozialen Netzwerken über ein Produkt oder ein Unternehmen statisch ausgewertet.

Variable Pricing
Dabei folgt der Kaufpreis eines Produkts dem Angebot und der Nachfrage. Das erfordert die Echtzeit-Überwachung von Konsum und Lagerbestand.

Parallel Data Analysis
Ein analytisches Problem wird in Teilaufgaben aufgebrochen und die Algorithmen werden auf jede Problemkomponente zeitgleich und parallel angewendet.

Query Anal
In diesem Prozess wird eine Suchanfrage optimiert, um das bestmögliche Ergebnis zu erhalten.

Reference Data
Daten, die ein physikalisch oder virtuell vorhandenes Objekt und seine Eigenschaften beschreiben.

Technologien

Hadoop Distributionen
Wer Informationen zum Thema Big Data sucht, wird mit großer Sicherheit auf den Begriff Hadoop stoßen. Es handelt sich dabei um ein Open Source Projekt der Apache Software Foundation (ASF), das in der Programmiersprache Java geschrieben wurde und ein Framework für skalierbare und verteilt arbeitende Software darstellt. Grundlage bildet der von Google Inc. verwendete MapReduce-Algorithmus, der es ermöglicht intensive Rechenprozesse mit großen Datenmengen durchzuführen. Durch seine große Verteilung kann Hadoop allerdings nur in Clustern betrieben werden.

Die zwei Kern-Komponenten einer Hadoop Distribution bestehen aus einem Hadoop Distributed File System (HDFS) und dem MapReduce. Da aber auch andere Dateisysteme verwendet werden können, erstreckt sich der Markt der Big Data Anbieter in unüberschaubare Dimensionen. Sie unterscheiden sich alle in Funktionalität und technischer Umsetzung.

NO-SQL Databases
Wo relationale Datenbanken an Ihre Grenzen geraten, setzt No-SQL an. Da diese Datenbanken keine festgelegten Tabellenschemata benötigen, können sie flexibel eingesetzt und Verbindungen untereinander hergestellt werden. Dabei verrät bereits der Name 'Not only'-SQL, dass SQL-Datenbanken nicht ersetzt, sondern vielmehr um eine flexible, schnelle und ausfallsichere Erweiterung ergänzt werden.

Besonders im Bereich E-Commerce und in sozialen Netzwerken, wo Beziehungen der Daten zueinander sehr komplex sind, finden diese Datenbanken große Anwendung.

Visual Analytics
Um gut durchdachte Entscheidungen treffen zu können, ist die individuell angepasste, graphische Aufbereitung der gesammelten Daten wichtiger denn je. Da sich die Daten schneller und komplexer entwickeln, als dass sie mit klassischen Werkzeugen analysiert werden könnten, setzen Visual Analytics auf Interaktionsmechanismen, die selbst mehrdimensionale Daten aufbereiten können. Durch die Kombination aus menschlicher Auffassungsgabe und den Stärken der automatischen Datenanalyse entstehen hieraus hoch komplexe aber dennoch überschaubare Charts.

Predictive Analytics
Mit den richtigen Werkzeugen können zukünftige Geschäftsentwicklungen bereits heute erkannt und Handlungen dementsprechend angepasst und bewertet werden. Hierzu werden Modelle herangezogen, die aussagekräftige Muster und Abhängigkeiten in Datenbeständen identifizieren und zukünftige Ereignisse vorhersagen. Dadurch können Prognosen selbst dann getroffen werden, wenn sich Geschäfte und Märkte nicht gleichläufig entwickeln. Je nach Anforderung können hierzu prädiktive, präskriptive und Entscheidungsmodelle herangezogen werden.

Big Data anfassen

Um diese Thematik greifbar zu machen, findet am 14.-15.04.2015 das Big Data Lab Forum in Nürnberg statt. Hierbei bekommen Entscheider, Umsetzer und Entwickler auch ohne Spezialkenntnisse die Möglichkeit, sich über das Thema Big Data zu informieren und in einem Tool Park sogar 'live' zu testen. Durch die Kombination aus Fachvorträgen, Diskussionen und Workshops wird ein Hands-on Lab geschaffen, welches zeigt, wie mit den richtigen Werkzeugen geeignete Informationen aus großen Datenmengen gezogen werden können. Durch die herstellerneutrale und branchenoffene Ausrichtung entsteht daraus eine interaktive Informationsplattform sowie ein Vergleichsinstrument für alle Big Data Interessierte. (bw)