Big Data

Data Scientists - auf der Suche nach den Schätzen im Datenberg

13.04.2015 von Peter Ilg
Big Data - das sind gewaltige Datenmengen, angefallen in elektronischen Geschäftsprozessen, automatisch erhoben von Maschinen, generiert von Nutzern in Social Media. Das ist pures Gold. Analysten veredeln die Daten, indem sie aus der Masse die Informationen herausfiltern, die den Unternehmen dienen.

Big Data - das sind gewaltige Datenmengen, angefallen in elektronischen Geschäftsprozessen, automatisch erhoben von Maschinen, generiert von Nutzern in Social Media. Das ist pures Gold. Analysten veredeln die Daten, indem sie aus der Masse die Informationen herausfiltern, die den Unternehmen dienen.

Alle zwei Jahre verdoppelt sich das Datenvolumen, und nur drei Prozent der Daten lassen sich über Schlagworte suchen. Genug Arbeit also für Data Scientists, ein Berufsbild mit Zukunft.
Foto: McIek - Shutterstock.com

Das Volumen gespeicherter Daten wächst weltweit rasant. Und immer häufiger gehen Unternehmen dazu über, mit Hilfe von Datenanalysten aus gigantisch großen Datenmengen entscheidungsrelevante Informationen zu gewinnen. "Data Scientists werten beispielsweise Kundenverhalten aus, um passgenaue Angebote machen zu können", sagt Professor Dr. Christian Koot. Er ist Studienkoordinator des berufsbegleitenden Masterstudiengangs Wirtschaftsinformatik mit einem Schwerpunkt 'Big Data und Business Analytics' an der Hochschule Aalen. "Wir haben die entsprechenden Inhalte bewusst in den Wirtschaftsinformatik-Studiengängen angesiedelt, da Big Data technisches und betriebswirtschaftliches Wissen einschließlich Statistik voraussetzt, um große Datenmengen analysieren und interpretieren zu können."

Auf eine Bestellung bei Amazon hin folgen passende Produktempfehlungen. Das ist das Werk von Data Scientists. Web-Shops ist eines ihrer Tätigkeitsfelder. Andere sind im Kreditgeschäft, dem Risikomanagement von Versicherungen oder Industrie 4.0. Indem Maschinendaten ausgewertet werden, lassen sich Wartungen planen und dadurch Maschinenstillstände vermeiden. Versicherungen schöpfen Datenquellen aus, um ihre Kraftfahrzeugversicherung zu tarifieren. Und im Finanzbereich werden Börsen- und Unternehmenswerte gebündelt und kombiniert, um verlässliche Informationen für die Entwicklung des Kapitalmarkts vorherzusagen. Das geschieht in Hochgeschwindigkeit durch In-Memory Datenbanken. Diese Technologie hinterlegt Daten im Arbeitsspeicher. Dort geht die Suche viel schneller als auf dem klassischen Speicherort, den magnetischen Festplatten. In Verbindung mit Analysewerkzeugen führt das zu rasend schnellen Ergebnissen.

Zum Video: Data Scientists - auf der Suche nach den Schätzen im Datenberg

Big Data bewegt sich langsam aber sicher aus seiner Nische hin zum Mainstream der täglichen Unternehmenspraxis. Aber viele Unternehmen schöpfen die Potentiale der vorhandenen Daten noch nicht effektiv aus. "Häufig mangelt es an einer ganzheitlichen Strategie und an geeigneten Analysemethoden. Außerdem müssen ganz praktische Probleme wie die Knappheit an geeigneten Big-Data-Spezialisten oder die Frage nach den geeigneten technischen Voraussetzungen gelöst werden, um die Möglichkeiten von Big Data voll auszuschöpfen", sagt Olaf Riedel, er ist Partner bei Ernst & Jung. Die Beratungsgesellschaft hat eine Studie zum Thema erstellt, mit dem Ergebnis: indem Daten professionell genutzt werden, lassen sich Umsätze deutlich steigern. Data Scientist machen Unternehmen erfolgreicher.

"Big Data ist ein junges Berufsfeld und Data Scientists meist Quereinsteiger aus Informatik, Mathematik und Statistik", sagt Marc Beierschoder, Verantwortlicher für Analytics beim IT-Dienstleister Accenture in Kronberg im Taunus. Data Scientist brauchen nach seinen Angaben ein ausgeprägtes mathematisch-analytisches Talent, gute Kenntnisse von statistischen Methoden, ein tiefes Verständnis für digitale Methoden und sie müssen Zusammenhänge in Daten identifizieren können. "Nur dann können sie Aussagen treffen, die dem Unternehmen dienen." Das können höhere Einnahmen, effizientere Abläufe oder mehr Kundentreue sein.

Big Data: Neue Berufsbilder
Big Data: Neue Berufsbilder
In den teilweise euphorischen Einschätzungen von Markforschern und IT-Unternehmen ist immer wieder die Rede von neuen Berufsbildern, die Big Data mit sich bringen soll. Dazu zählen unter anderem folgende Tätigkeiten:
Data Scientist
Er legt fest, welche Analyseformen sich am besten dazu eignen, um die gewünschten Erkenntnisse zu erzielen und welche Rohdaten dafür erforderlich sind. Solche Fachleute benötigen solide Kenntnisse in Bereichen wie Statistik und Mathematik. Hinzu kommen Fachkenntnisse über die Branche, in der ein Unternehmen beziehungsweise tätig ist und über IT-Technologien wie Datenbanken, Netzwerktechniken, Programmierung und Business Intelligence-Applikationen. Ebenso gefordert sind Verhandlungsgeschick und emotionale Kompetenz, wenn es um die Zusammenarbeit mit anderen Abteilungen geht.
Data Artist oder Data Visualizer
Sie sind die "Künstler" unter den Big-Data-Experten. Ihre Hauptaufgabe besteht darin, die Auswertungen so zu präsentieren, dass sie für Business-Verantwortliche verständlich sind. Die Fachleute setzen zu diesem Zweck Daten in Grafiken und Diagramme um.
Data Architect
Sie erstellen Datenmodelle und legen fest, wann welche Analyse-Tools Verwendung finden und welche Datenquellen genutzt werden sollen. Auch sie benötigen ein umfassendes Know-how auf Gebieten wie Datenbanken, Datenanalyse und Business Intelligence.
Daten-Ingenieur
Diese Aufgabe ist stark auf die IT-Infrastruktur ausgerichtet. Der Dateningenieur ist das Big-Data-Analysesystem zuständig, also die Hard- und Software sowie Netzwerkkomponenten, die für das Sammeln und Auswerten von Daten benötigt werden. Eine vergleichbare Funktion haben System- und Netzwerkverwalter im IT-Bereich.
Information Broker
Er kann mehrere Rollen spielen, etwa die eines Datenhändlers, der Kunden Informationen zur Verfügung stellt, oder die eines Inhouse-Experten, der Datenbestände von unterschiedlichen Quellen innerhalb und außerhalb des Unternehmens beschafft. Außerdem soll er Ideen entwickeln, wie sich diese Daten nutzbringend verwenden lassen.
Data Change Agents
Diese Fachleute haben eine eher "politische" Funktion. Sie sollen bestehende Prozesse im Unternehmen analysieren und anpassen, sodass sie mit Big-Data-Initiativen kompatibel sind. Nur dann lässt sich aus solchen Projekten der größtmögliche Nutzen ziehen. Wichtig sind daher ausgeprägte Kommunikationsfähigkeiten, Verständnis für Unternehmensprozesse sowie Kenntnisse im Bereich Qualitätssicherung und Qualitätsmanagement (Six Sigma, ISO 9000).

Entscheidend ist die Datenaufbereitung

Sind unsere Kunden der Marke treu? Will ein Unternehmen hierauf eine Antwort, kann Accenture sie liefern. Ein Projektteam arbeitet zunächst konzeptionell und geht den Fragen nach: welche Daten liegen vor, welche Aussagen können wir treffen und worin liegt der Wert fürs Unternehmen? Das Team bediente sich aus verschiedenen Quellen wie den Systemen fürs Kundenbeziehungsmanagement, Unternehmenssteuerung und externen Quellen wie Social Media. Je mehr unterschiedliche Daten zur Verfügung stehen, umso genauer wird das Ergebnis. Doch Quantität führt nicht automatisch zu einer höheren Qualität der Analysen. Das Brauchbare muss herausgefiltert werden. Das macht Analysesoftware nach genauen Vorgaben. Entscheidend für die Qualität der Ergebnisse ist die Datenaufbereitung. Eine gute Qualität liefern vollständige, richtige und konsistente Daten.

Bei der Allianz liegen Datenkomprimierung und Analyse in einer Hand. Mihael Ankerst, 42, leitet das Referat Kundendaten und Statistik. "Wir verdichten Kundendaten entlang von Geschäftsvorfällen, analysieren diese und stellen darauf aufbauend Überlegungen zum Bedarf unserer Kunden an." Ankerst hat Informatik studiert und in dieser Disziplin promoviert. Sein Studienschwerpunkt war Data-Mining, das ist die Analyse großer Datenmengen mit dem Ziel, Zusammenhänge zu erkennen. Darüber hat er seine Diplomarbeit geschrieben und promoviert. Anschließend hat er vier Jahre in den USA als Datenanalyst gearbeitet.

Seit 2005 ist er bei der Allianz und hat acht Mitarbeiter im Team, darunter Informatiker, Mathematiker, Statistiker. Sie analysieren Kundendaten unter dreierlei Gesichtspunkten: Kunden werden segmentiert, um Zielgruppen oder Untergruppen zu erkennen, damit die passend angesprochen werden können. Der zielgruppenspezifischen Ansprache dient auch die Prognose von Kundenverhalten, die zu dem Ergebnis führt, welche Kunden welchen Bedarf haben. Und schließlich werden Kunden und deren Verhalten statistisch ausgewertet, um eine Erklärung dafür zu finden, warum die Entwicklung in die eine oder andere Richtung geht.

Mihael Ankerst, Allianz: "Unsere Mitarbeiter brauchen methodisches Wissen, um geeignete statistische Verfahren zur Datenanalyse einzusetzen.
Foto: McIek - Shutterstock.com

Daten, die dafür zugrunde gelegt werden, sind die 20 Millionen Privatkunden der Allianz Deutschland und externe Quellen. Analysiert wird mithilfe von Software anhand vorgegebener Kriterien. Ankersts Mitarbeiter müssen verstehen, was eine Versicherung ist und wie sie funktioniert. Sie brauchen methodisches Wissen, um geeignete statistische Verfahren zur Datenanalyse einzusetzen und sie müssen verstehen, wie die Versicherungsrealität in Daten abgebildet ist. Software und Techniken, die zur Datenanalyse genutzt werden sind SQL von Oracle, In-Memory-Technologien und die Programmiersprachen SAS und R. "Bei den persönlichen Skills steht Kommunikation über allem, weil vieles in unserem Job über den Austausch mit Kollegen geschieht."

Auch in anderen Abteilungen bei der Allianz arbeiten Datenanalysten, beispielsweise bei den Aktuaren zur Kalkulation von Tarifen und in der IT. "Grob geschätzt kommen etwa 80 zusammen", sagt Ankerst. Und der Trend sei eindeutig steigend, weil das Kerngeschäft der Versicherung auf Daten beruht und die Digitalisierung unserer Gesellschaft stark zunimmt.

Big Data

Die Menge an Daten, die erstellt, vervielfältigt und konsumiert werden, wird 2020 bei etwa 40 Zettabytes liegen. Das ist eine Zahl mit 21 Nullen. Innerhalb von zehn Jahren soll die Datenmenge dann um das 50-fache gestiegen sein, schätzen Marktbeobachter von IDC und des Speichersystem-Herstellers EMC. Und es werden immer mehr: Alle zwei Jahre verdoppelt sich das Datenvolumen. Seit 2002 werden Daten häufiger digital als analog gespeichert. Seitdem hat auch die Vielfalt der Datentypen zugenommen. Dazu gehören Video, Audiodateien, Texte in E-Mails, Nachrichten in Social Media, Suchanfragen bei Google, Anzeigen auf Plattformen für den Verkauf gebrauchter Autos oder Einträge in Foren zu Gesundheitsfragen. Nur drei Prozent der Daten lassen sich über ein Schlagwort suchen. Um rasch fündig zu werden, braucht es eine leistungsfähige Technik, unter anderem In-Memory-Computer. Diese Rechner haben gigantisch große Arbeitsspeicher. Auf der Suche nach wichtigen Informationen durchforsten sie nicht mehr mühsam Festplatten, denn die Daten liegen abrufbereit im Arbeitsspeicher.

Big-Data-Glossar
Die Begriffe rund um Big Data
Big Data - was ist das eigentlich? Jeder spricht drüber, jeder versteht etwas anderes darunter. Klicken Sie sich durch unser Glossar mit den wichtigsten und meistgenutzten Begriffen (manche sagen auch "Buzzwords") und verstehen Sie, was damit genau gemeint ist. <br /><br /> <em>zusammengestellt von <a href="http://www.kommunikation-in-sendling.com/" target="_blank">Kriemhilde Klippstätter</a>, freie Autorin und Coach (SE) in München</em>
Ad Targeting
Der Versuch, die Aufmerksamkeit des potenziellen Kunden zu gewinnen, meist durch "passgenaue" Werbung.
Algorithmus
Eine in Software gegossene mathematische Formel mit der ein Datensatz analysiert wird.
Analytics
Mit Hilfe von Software-basierenden Algorithmen und statistischen Methoden werden Daten interpretiert. Dazu benötigt man eine analytische Plattform, die aus Software oder Software plus Hardware besteht und die die Werkzeuge und Rechenpower bereitstellt, um unterschiedliche analytische Abfragen durchführen zu können. Es gibt eine Reihe unterschiedlicher Formen und Einsatzzwecke, die in diesem Glossar näher beschrieben sind.
Automatic Identification and Capture (AIDC)
Jede Methode der automatischen Identifizierung und Datensammlung über eine Gegebenheit und die nachfolgende Speicherung in ein Computersystem. Etwa die Informationen aus einem RFID-Chip, die ein Scanner ausliest.
Behavioral Analytics
Behavioral Analytics nutzt Informationen über das menschliche Verhalten, um die Absichten zu verstehen und zukünftiges Verhalten vorhersehen zu können.
Business Intelligence (BI)
Der generelle Ausdruck für die Identifizierung, Herkunft und Analyse der Daten.
Call Detail Record (CDR) Analyse
Diese enthält Daten, die die Telekommunikationsunternehmen über die Nutzung von Mobilfunkgesprächen – etwa Zeitpunkt und Dauer der Gespräche – sammeln.
Cassandra
Ein verteiltes Datenbank-Verwaltungssystem für sehr große strukturierte Datenbanken („NoSQL“-Datenbanksystem) auf Open-Source-Basis (Apache).
Clickstream Analytics
Bezeichnet die Analyse der Web-Aktivitäten eines Benutzers per Auswertung seiner Klicks auf einer Website.
Competitive Monitoring
Tabellen, in denen die Aktivitäten der Konkurrenz im Web automatisch gespeichert werden.
Complex Event Processing (CEP)
Ein Prozess, bei dem alle Aktivitäten in den Systemen einer Organisation überwacht und analysiert werden. Bei Bedarf kann sofort in Echtzeit reagiert werden.
Data Aggregation
Das Sammeln von Daten aus unterschiedlichen Quellen für die Erstellung eines Berichts oder für eine Analyse.
Data Analytics
Ein Stück Software, mit dem Informationen aus einem Datensatz gezogen werden. Das Ergebnis kann ein Report, ein Status oder eine Aktion sein, die automatisch gestartet wird.
Data Architecture and Design
Legt dar, wie Unternehmensdaten strukturiert sind. Meist erfolgt das in drei Prozessschritten: Begriffliche Abbildung der Geschäftseinheiten, logische Abbildung der Beziehungen innerhalb der Geschäftseinheit sowie die physikalische Konstruktion eines Systems, das die Tätigkeiten unterstützt.
Data Exhaust
Die Daten, die eine Person bei ihrer Internet-Aktivität "nebenbei" erzeugt.
Data Virtualization
Der Prozess der Abstraktion verschiedener Datenquellen durch eine einzige Zugriffsschicht auf die Daten.
Distributed Object
Ein Stück Software, das es erlaubt, mit verteilten Objekten auf einem anderen Computer zusammenzuarbeiten.
De-Identification
Das Entfernen aller Daten, die eine Person mit einer bestimmten Information verbindet.
Distributed Processing
Die Ausführung eines Prozesses über verschiedene per Netzwerk verbundene Computer hinweg.
Drill
Apache Drill ist eine Open-Source-SQL-Suchmaschine für Hadoop- und NoSQL-Datenmanagement-Systeme.
Hadoop
Ein freies, in Java geschriebenes Framework der Apache Foundation für skalierbare, verteilt arbeitende Software in einem Cluster. Es basiert auf dem bekannten MapReduce-Algorithmus der Google Inc. sowie auf Vorschlägen des Google-Dateisystems.
HANA
SAPs Software-und Hardware-Plattform mit In-Memory-Computing für Echtzeitanalysen und große Transaktionsvolumen.
In-Database Analytics
In-Database Analytics bezeichnet die Integration der Analysemethoden in die Datenbank. Der Vorteil ist, dass die Daten für die Auswertung nicht bewegt werden müssen.
In-Memory Database
Jedes Datenbanksystem, das den Hauptspeicher für die Datenspeicherung benutzt.
In-Memory Data Grid (IMDG)
Die verteilte Datenspeicherung im Hauptspeicher vieler Server für schnellen Zugriff und bessere Skalierbarkeit.
Machine-generated Data
Alle Daten, die automatisch von einem Rechenprozess, einer Applikation oder einer nicht-menschlichen Quelle erzeugt werden.
Map/reduce
Ein Verfahren, bei dem ein großes Problem in kleinere aufgeteilt und an verschiedene Rechner im Netz oder Cluster oder an ein Grid aus unterschiedlichen Computern an verschiedenen Standorten ("map") zur Bearbeitung verteilt wird. Die Ergebnisse werden dann gesammelt und in einem (reduzierten) Report dargestellt. Google hat sein Verfahren unter der Marke "MapReduce" schützen lassen.
Mashup
Dabei werden unterschiedliche Datensätze innerhalb einer Applikation so kombiniert, dass das Ergebnis verbessert wird.
NoSQL
Datenbanken, die nicht relational aufgebaut sind und mit denen sich große Datenvolumina handhaben lassen. Sie benötigen keine festgelegten Tabellenschemata und skalieren horizontal. Beispielsweise ist Apache Cassandra eine NoSQL.
Operational Data Store (ODS)
Darin werden Daten aus unterschiedlichen Quellen gesammelt damit noch weitere Operationen ausgeführt werden können, bevor die Daten in ein Data Warehouse exportiert werden.
Pattern Recognition
Die Klassifizierung von automatisch erkannten Mustern.
Predictive Analytics
Diese Form der Analytics nutzt statistische Funktionen in einem oder mehreren Datensätzen, um Trends oder zukünftige Ereignisse vorherzusagen.
Recommendation Engine
Per Algorithmus werden die Kundenbestellungen einer Website analysiert und sofort passende Zusatzprodukte ausgesucht und angeboten.
Risk Analysis
Die Anwendung statistischer Methoden auf einen oder mehrere Datensätze, um das Risiko eines Projekts, einer Handlung oder Entscheidung abschätzen zu können.
Sentiment Analysis
Dabei werden Einträge von Leuten in sozialen Netzwerken über ein Produkt oder ein Unternehmen statisch ausgewertet.
Variable Pricing
Dabei folgt der Kaufpreis eines Produkts dem Angebot und der Nachfrage. Das erfordert die Echtzeit-Überwachung von Konsum und Lagerbestand.
Parallel Data Analysis
Ein analytisches Problem wird in Teilaufgaben aufgebrochen und die Algorithmen werden auf jede Problemkomponente zeitgleich und parallel angewendet.
Query Anal
In diesem Prozess wird eine Suchanfrage optimiert, um das bestmögliche Ergebnis zu erhalten.
Reference Data
Daten, die ein physikalisch oder virtuell vorhandenes Objekt und seine Eigenschaften beschreiben.