Vier neue Berufsbilder

Big Data Jobs: Wer macht was?

16.03.2016 von Bastian Dickehage
Data Scientist, Data Engineer, Data Steward, Management Scientist - bei den vielen neuaufkommenden Jobbeschreibungen im Big-Data- und Analytics-Umfeld fällt der Überblick schwer. Wir bringen Licht in das Begriffs-Wirrwarr.
  • Der (Big) Data Engineer ist der Herr der Datenversorgung.
  • Der Management Scientist ist der Vermittler zwischen den Fachbereichs-Welten.
  • Der Data Scientist gibt Antworten auf analytische Fragestellungen auf Grundlage von Daten.
  • Der Data Steward ist für die Überwachung der Datanqualität und -integrität zuständig.

Getrieben durch neue Speichertechnologien basierend auf neuen Verfahren wie In-Memory Computing, spaltenorientierte Datenbanken oder verteilten Programmiermodellen (Map Reduce) hat das Big-Data-Thema gerade in größeren Unternehmen an Relevanz gewonnen. Topmanager der Großkonzerne auf Fach- und IT-Seite müssen sich mit den Megatrend auseinandersetzen und bewerten, wie die neuen technologischen Möglichkeiten am besten für ihren Aufgabenbereich einzusetzen sind.

10 Dinge, die Sie über Big Data wissen sollten
Big Data
Unternehmen sollten sich im Klaren sein, welche Daten sie erfassen und welche Ergebnisse sie erzielen wollen. Für Big Data sollten möglichst viele bis alle Daten erfasst werden können. Im Gegensatz zu BI-Lösungen sollten sich Verantwortliche nicht in Nebensächlichkeiten verstricken, sondern immer das große Ganze sehen.
Big Data
Der Branchenverband BITKOM bietet eine kostenlose PDF-Datei, die als Leitfaden für Big Data-Projekte verwendet werden kann.
Big Data
Mit Hadoop und HDInsight in Microsoft Azure können Sie Big Data auch in der Microsoft Cloud betreiben.
Big Data
Um sich mit Hadoop und Big Data zu beschäftigen, ist HDInsight der schnellste Weg. Microsoft stellt für Entwickler eine Offline-Testumgebung für HDInsight zur Verfügung.
Big Data
Um Big Data-Lösungen zu nutzen, benötigen Sie in den meisten Fällen eine NoSQL-Datenbank, zusätzlich zu vorhandenen Datenbanken, beispielsweise MongoDB.
Big Data
Wer sich etwas mit Big Data bereits auseinandergesetzt hat und Lösungen in diesem Bereich einsetzt, kann die Umgebung mit weiteren Möglichkeiten erweitern. Auch hier steht eine Vielzahl an Opensource-Pridukten zur Verfügung, zum Beispiel Apache Giraph.
Big Data
Microsoft noch das kostenlose ebook „Introducing Microsoft Azure HDInsight“ zur Verfügung. Diese bietet einen idealen Einstieg in die Möglichkeiten von Big Data, HDInsight und Hadoop, auch für andere Plattformen.
Big Data
HBase kann als Datenbank für Big Data-Lösungen genutzt werden. Diese Technologie baut auf Google Big Table auf und kann sehr große Datenmengen speichern.
Big Data
Die meisten Unternehmen nutzen für die Verarbeitung von Big Data vor allem Hadoop-Distributionen oder Cloud-Lösungen. Die meisten Tools und Distributionen gehören zum Apache Projekt. Apache Mahout erlaubt eine bessere Verwaltung der Daten in Hadoop.
Big Data
Cloudlösungen bei Microsoft Azure, Google Cloud Platform oder Amazon Web Services, werden oft nach Datenvolumen berechnet und Berechnungsdauer. Entwickler sollten in die Abfragen und die Big Data-Anwendungen daher auch das Herunterfahren und Ausschalten von Big Data-Umgebungen einbeziehen.

Haben Unternehmen früher fast ausschließlich Daten der eigenen Anwendungen genutzt, sind in den vergangenen Jahren eine Vielzahl extern Quellen wie Social Media oder vernetzte Geräte im Internet der Dinge hinzugekommen. Das führt dann auch zu neuen Berufsbildern - so taucht der Begriff des "Data Scientist" in der letzten Zeit vermehrt auf. Hier scheint es sich um die Art "Zauberer" zu handeln, den jedes Unternehmen braucht, um das Wunderwerk Big Data zum Leben zu erwecken. Wie eine vielköpfige Hydra scheint er die Lösung aller Probleme zu sein - für jeden etwas anders, aber immer passend. Neue Studiengänge entstehen, die ihre Studenten zum "Master of Data Science" ausbilden und das nicht erst seitdem die Harvard Business Review ihn zum "Sexiest Job of the 21st Century" gekürt hat. Doch wer ist dieser Held der Gegenwart, dessen Berufsbild gar nicht so neu ist?

Um ein wenig Einblick und ein diversifizierteres Bild zu liefern, werden im Folgenden einige Begriffe und Rollen innerhalb von Unternehmen beschrieben, die häufig im Zusammenhang mit dem Berufsfeld des Data Scientists in Verbindung gebracht werden.

(Big) Data Engineer

Der Data Engineer ist im Wesentlichen für das Zusammenführen von Daten verantwortlich. Er kreiert aus den zur Verfügung stehenden Daten und Technologien eine Landschaft, in der sich der Data Scientist ausleben kann. Sein Wissen beschränkt sich nicht nur auf die im Unternehmen vorhanden Daten und ihre Speicherorte, er kennt sich auch damit aus, wie man diese Daten am besten in eine zentrale Analyseinfrastruktur integriert, welche Technolgien sich dazu eignen und welche zusätzlichen externen Daten zur Anreicherung genutzt werden können.

Zum Big Data Engineer wird er, wenn er mit großen Datenmengen arbeitet, die zur Speicherung und Verarbeitung Big-Data-Technologien benötigen. Dabei ist die Abgrenzung von Big Data nicht strikt definiert - große Datenmengen können aber beispielsweise eine Millionen Verkaufstransaktionen eines Onlinehändlers oder eine Millionen gehostete Telefonate eines Telekommunikationsanbieters sein. Aber auch ein Sensor, der alle zwei Nanosekunden 50 Megabyte Daten produziert. Seine Leistung beginnt bei dem Verständnis der fachlichen Anforderungen und der Planung und Entwicklung einer robusten und flexiblen Big-Data-Infrastruktur (auch bezeichnet als Big Data Architekt), geht über das Anschließen von internen und externen Datenquellen über Batch-, Echtzeit- und Streaming-Schnittstellen bis hin zur Sicherung eines reibungslosen Betriebs und Aktualität der Daten. Er ist quasi der Stadionarchitekt, Greenkeeper und Zeugwart für die Fußballmannschaft. Der (Big) Data Engineer ist der Herr der Datenversorgung.

Data Scientists
Die Aufgaben des Business Developer
Business Developer blicken tief in die Geschäftsprozesse und können Unternehmensziele mit Datenanalysen in Verbindung bringen. Sie entwickeln eine erste Fragestellung oder decken ein Problem auf, das anhand der erhobenen Daten gelöst werden soll. Als Schnittstelle zwischen Geschäftswelt und Technik kann er den Nutzen der Analyseergebnisse am besten einschätzen und arbeitet daher eng mit dem Data Analyst zusammen.
Die Aufgaben des Data Analyst
Der Data Analyst besitzt profunde Kenntnis über datengetriebene analytische Methoden, Data Mining-Verfahren und Techniken der Datenvisualisierung. Mit ihnen können Datensätze automatisch klassifiziert oder hinsichtlich ihrer Ähnlichkeit gruppiert werden. So kann der Data Analyst die Aussagekraft der Daten bewerten und relevante Muster und Auffälligkeiten in den Datenströmen erkennen.
Die Aufgaben des Data Manager
Der Data Manager sorgt dafür, dass die Qualität der Daten optimiert wird und sie durch Metadaten ausreichend beschrieben werden. Dazu zählt, dass sich der Data Manager einen Überblick über die Nutzungsrechte verschafft und bei sensiblen Daten weiß, wofür diese verwendet werden dürfen.
Die Aufgaben des Application Developer
Der Application Developer setzt die Plattform auf, auf der die Daten integriert und die Anwendungen entwickelt und installiert werden. Er beherrscht verschiedene Werkzeuge zur Parallelisierung und Echtzeitverarbeitung, so dass die statistischen Modelle des Data Analysten auch auf großen Datenmengen genutzt werden können.
Die Aufgaben des Security Manager
Der Security Manager sorgt dafür, dass die Zusammenführung, Anreicherung und Analyse von Daten keine Rückschlüsse auf Einzelpersonen zulässt und damit die Persönlichkeitsrechte verletzen könnte. Der Security Manager muss also den Datenschutz organisatorisch und technisch umsetzen.
Die 5 Typen von Data Scientists im Überblick
Das Schaubild zeigt noch einmal alle 5 Typen von Data Scientists und ihre Aufgaben im Überblick.

Management Scientist

Der Management Scientist hingegen ist eher der Manager oder Teamchef, um im Bild der Fußballmannschaft zu bleiben. Er ist als Erster vor Ort, analysiert die Lage und diskutiert die fachlichen Problemstellungen, die mit Hilfe von Datenanalysen gelöst werden sollen. Mit wachsendem Anklang an datengetriebener Entscheidungsunterstützung gibt es heute kaum noch einen fachlichen Bereich oder eine Branche, in der Datenanalysen nicht eingesetzt werden.

Die Leistung des Management Scientist besteht darin, die Sprache des technisch- und datenunversierten Fachmitarbeiters in die des Data Scientists zu übersetzen. Es beginnt bei der Spezifizierung der eigentlichen fachlichen Problemdefinition, der Übersetzung und des Schärfens der dahinterliegenden analytischen Fragestellung, geht über die Identifikation von benötigten Daten, dem Management der operativen Analyse bis hin zur Kommunikation von analytischen Ergebnissen und Handlungsempfehlungen. Für seine Aufgabe benötigt der Management Scientist ein gutes Verständnis sowohl von analytischen Methoden und Vorgängen als auch fachlichen Prozessen und Auswirkungen. Er benötigt ein gewisses Verständnis der Fachbereiche, um den Fachvertreter zu verstehen und dem Data Scientist das Problem zu erklären, als auch die Möglichkeit analytische Ergebnisse zu bewerten sowie Vorgehen und Ergebnisse dem Fachvertreter in seiner Sprache schmackhaft zu machen. Der Management Scientist ist der Vermittler zwischen zwei Welten.

(Big) Data Scientist

Die Kernaufgabe des Data Scientists ist es, Antworten auf analytische Fragestellungen aus Daten zu generieren mit Hilfe von analytischen Methoden aus Bereichen der Statistik, des Machine Learnings oder Operations Research. Er wird zum Big Data Scientist, wenn er mit großen Datenmengen arbeitet und Erkenntnisse mit Hilfe von Analysemethoden generiert, die auf Big-Data-Technologien wie Hadoop aufbauen. Seine Aufgabe fängt mit dem Verständnis des fachlichen Problems an, geht über die Auswahl der benötigten Hilfsmittel wie Daten, Technologien und Methoden und mündet in eine Ideenfindungsphase.

Einen guten Data Scientist zeichnet vor allem das Repertoire dieses Baukasten und der schneller Griff zu den passenden Mitteln aus. Der Stereotyp des Data Scientist ist ein bärtiger, T-Shirt tragender Nerd, der aus wenigen Daten innerhalb kürzester Zeit mit Hilfe von frei verfügbaren Tools und Technologien geniale Erkenntnisse zieht und diese anschaulich visualisiert und erklärt. Er ist also der Spielmacher, der im entscheidenden Match den Unterschied machen kann. Der Data Scientist arbeitet in jeder Phase eng mit dem Data Engineer und dem Management Scientist zusammen, denn nur zusammen können sie die fachliche Aufgabenstellung lösen. Wenn der Data Scientist weniger Aufgaben des Data Engineers oder des Management Scientists übernehmen muss, hat er mehr Zeit für seine eigentlichen Aufgaben - genau wie im Profifußball auch die Spieler nicht selbst die Tore aufstellt oder die Linien auf dem Platz markiert. Aber je kleiner das Unternehmen ist, desto häufiger übernimmt der Data Scientist in der Regel auch die Aufgaben von Data Engineer und dem Management Scientist.

Analytics-Tools für Web, Mobile und Social
15 Analytics-Tools für Web, Mobile und Social im Überblick
Moderne Analytics-Tools aus der Cloud versetzen Unternehmen in die Lage, ihre Kundschaft besser verstehen und ihre Marketing-Initiativen effizienter planen und auswerten zu können. Im Folgenden eine Vorstellung professioneller Alternativen für die Analyse von Web-Auftritten, mobilen Apps und Social-Media-Profilen.
Mixpanel
Mixpanel ist ein anspruchsvolles Analytics-Tool für Web- und Mobile-Apps. Davon können Softwarehersteller und Webseitenbetreiber profitieren, die ihre Nutzer besser verstehen möchten.
Intercom
Eine weniger bekannte, aber vielversprechende Alternative zu Mixpanel ist Intercom. Der ebenfalls aus San Francisco stammende SaaS-Dienst adressiert Softwareanbieter, die nicht nur wissen, wer ihre User sind und wie sie ihre Produkte nutzen, sondern auch mit ihnen in Kontakt treten möchten.
Kissmetrics
Während sich Google Analytics auf Seitenabrufe, Besucherzahlen und ähnliche Statistiken fokussiert, zeigt Kissmetrics, welche Personen hinter den Klicks stehen. Der Clou: Durch ausgefeilte "User Tracking"-Methoden ist der 2008 in Kalifornien lancierte Service in der Lage, die Aktivitäten der Seitenbesucher über verschiedene Online-Kanäle zu erfassen.
Woopra
n direkter Konkurrenz zu Kissmetrics steht Woopra. So fokussiert sich diese speziell auf die Bedürfnisse von Sales- und Marketing-Teams ausgerichtete Lösung ebenfalls auf persönliche Kundenprofile.
GoSquared
Professionelle Analytics-Tools müssen nicht unbedingt aus den USA stammen. Als Beweis dafür dient der in England beheimatete Softwareanbieter GoSquared. Seine gleichnamige Analytics-Plattform richtet sich in erster Linie an E-Commerce-Anbieter und punktet mit professionellen Features im Bereich Social, Echtzeit-Statistiken und Trends.
Chartbeat
Mit Chartbeat präsentiert sich ein nützliches Tool, das sich auf die Analyse von Echtzeitdaten fokussiert. Was geschieht in diesem Moment auf meiner Website? Wie viele Besucher sind gerade auf dieser oder jener Seite aktiv? Aus welchen Ländern kommen sie?
App Annie
App-Anbieter, die den Erfolg ihrer mobilen Apps professionell messen möchten, finden in App Annie einen Analytics-Service, der ausführliche App Store-Statistiken liefert.
Flurry Analytics
Flurry Analytics ist so etwas wie Google Analytics, aber speziell für App-Anbieter. So dient der Dienst aus Kalifornien auch der effizienten Datenverkehrsanalyse, nur nicht von Websites, sondern von Mobile-Apps.
Apsalar
Eine nennenswerte Alternative zu Flurry Analytics, die ebenfalls in San Francisco entwickelt wird und mit iOS und Android kompatibel ist, ist Apsalar. In diesem Fall muss der Anwender ebenfalls ein SDK (Software Development Kit) in seine App einbauen, das für die automatische Erfassung der Nutzerdaten sorgt.
App Figures
App-Entwickler wollen nicht nur wissen, wie die eigene App bei den Nutzern ankommt und wie sie in der Praxis verwendet wird, sondern auch wie sie im Vergleich zur Konkurrenz steht.
Mopapp
App-Anbieter, die an Tools wie Apsalar und App Figures interessiert sind, aber nicht nur die iOS- und Android-Stores auswerten möchten, sind bei Mopapp genau an der richtigen Adresse.
AppTrace
Mit AppTrace bietet das Berliner Softwarehaus Adjust einen weiteren Online-Dienst, der ebenfalls viele interessante Store-Statistiken bereitstellt und kostenlos ist. Wie der Anbieter erklärt, werden dabei öffentliche Daten aus 155 Ländern ausgewertet.
SocialBench
SocialBench ist ein anspruchsvolles Social-Marketing-Tool, das Community-Management und zahlreiche analytische Werkzeuge auf einen gemeinsamen Nenner bringt.
Sprout Social
Eine gute Alternative zu SocialBench bietet sich mit Sprout Social an. 2010 in Chicago gegründet dient der Cloud-Service ebenfalls als ein ganzheitliches Social-Media-Management-Dashboard, die über zahlreiche Analytics- und Monitoring-Funktionen verfügt.
Quintly
Der Online-Dienst Quintly ermöglicht die effektive Analyse und Steuerung der eigenen Unternehmenspräsenz in den wichtigsten sozialen Netzwerken. Die in Köln entwickelte Lösung unterstützt Facebook, Twitter, Youtube, Google+, LinkedIn und Instagram.

Auch früher gab es übrigens bereits Data Scientists. Sie hießen Data Miner, Datenanalysten oder waren in speziellen Rollen, die ihnen Titel wie Marketing Analyst, Aktuar oder Logistikplaner verliehen haben. Was sich geändert hat und in das neue Berufsbild des Data Scientists nun mit hineinspielt, ist eine Form von Kreativität und Cleverness. Der Data Scientist ist der Herr der Datenauswertung.

Data Steward

Der Data Steward ist eine Rolle, die auch gerne in diesem Zusammenhang fällt: Im Vergleich zu den anderen drei Berufsbildern hat er nicht unmittelbar etwas mit dem Spielgeschehen zu tun. Er ist für die Überwachung der Qualität und der fachlichen Korrektheit von Daten zuständig. Häufig teilt er sich die Aufgabe mit weiteren Data Stewards in Datenbereiche auf oder arbeitet mit Kollegen in der IT-Abteilung zusammen, die "Data Custodians" genannt werden. Die Datenbereiche gliedern sich nach fachlichen Entitäten, also beispielsweise nach Kunde, Produkt, Transaktionen, Zahlungen, Partnern oder Kampagnen.

Die Aufgaben des Data Stewards gehen von der Definition der Datenbereiche in seiner Hoheit, über die Definition von allgemeinen Regeln und Leitlinien zum Inhalt und zur Nutzung dieser Datenbereiche bis hin zur Prüfung der Einhaltung der geltenden Regeln. Mit den Standards, für deren Einhaltung er sorgt, sichert er die dauerhafte Qualität der Daten, ihrer Verarbeitung, ihrer Auswertung und letztendlich ihrer Nutzung zur operativen Steuerung und Entscheidungsfindung von Geschäftsprozessen. Böse Zungen behaupten, der Data Steward sei wie ein Funktionär beim Sport - man weiß nicht genau wofür, aber irgendwie braucht man ihn. (sh)

Big-Data-Glossar
Die Begriffe rund um Big Data
Big Data - was ist das eigentlich? Jeder spricht drüber, jeder versteht etwas anderes darunter. Klicken Sie sich durch unser Glossar mit den wichtigsten und meistgenutzten Begriffen (manche sagen auch "Buzzwords") und verstehen Sie, was damit genau gemeint ist. <br /><br /> <em>zusammengestellt von <a href="http://www.kommunikation-in-sendling.com/" target="_blank">Kriemhilde Klippstätter</a>, freie Autorin und Coach (SE) in München</em>
Ad Targeting
Der Versuch, die Aufmerksamkeit des potenziellen Kunden zu gewinnen, meist durch "passgenaue" Werbung.
Algorithmus
Eine in Software gegossene mathematische Formel mit der ein Datensatz analysiert wird.
Analytics
Mit Hilfe von Software-basierenden Algorithmen und statistischen Methoden werden Daten interpretiert. Dazu benötigt man eine analytische Plattform, die aus Software oder Software plus Hardware besteht und die die Werkzeuge und Rechenpower bereitstellt, um unterschiedliche analytische Abfragen durchführen zu können. Es gibt eine Reihe unterschiedlicher Formen und Einsatzzwecke, die in diesem Glossar näher beschrieben sind.
Automatic Identification and Capture (AIDC)
Jede Methode der automatischen Identifizierung und Datensammlung über eine Gegebenheit und die nachfolgende Speicherung in ein Computersystem. Etwa die Informationen aus einem RFID-Chip, die ein Scanner ausliest.
Behavioral Analytics
Behavioral Analytics nutzt Informationen über das menschliche Verhalten, um die Absichten zu verstehen und zukünftiges Verhalten vorhersehen zu können.
Business Intelligence (BI)
Der generelle Ausdruck für die Identifizierung, Herkunft und Analyse der Daten.
Call Detail Record (CDR) Analyse
Diese enthält Daten, die die Telekommunikationsunternehmen über die Nutzung von Mobilfunkgesprächen – etwa Zeitpunkt und Dauer der Gespräche – sammeln.
Cassandra
Ein verteiltes Datenbank-Verwaltungssystem für sehr große strukturierte Datenbanken („NoSQL“-Datenbanksystem) auf Open-Source-Basis (Apache).
Clickstream Analytics
Bezeichnet die Analyse der Web-Aktivitäten eines Benutzers per Auswertung seiner Klicks auf einer Website.
Competitive Monitoring
Tabellen, in denen die Aktivitäten der Konkurrenz im Web automatisch gespeichert werden.
Complex Event Processing (CEP)
Ein Prozess, bei dem alle Aktivitäten in den Systemen einer Organisation überwacht und analysiert werden. Bei Bedarf kann sofort in Echtzeit reagiert werden.
Data Aggregation
Das Sammeln von Daten aus unterschiedlichen Quellen für die Erstellung eines Berichts oder für eine Analyse.
Data Analytics
Ein Stück Software, mit dem Informationen aus einem Datensatz gezogen werden. Das Ergebnis kann ein Report, ein Status oder eine Aktion sein, die automatisch gestartet wird.
Data Architecture and Design
Legt dar, wie Unternehmensdaten strukturiert sind. Meist erfolgt das in drei Prozessschritten: Begriffliche Abbildung der Geschäftseinheiten, logische Abbildung der Beziehungen innerhalb der Geschäftseinheit sowie die physikalische Konstruktion eines Systems, das die Tätigkeiten unterstützt.
Data Exhaust
Die Daten, die eine Person bei ihrer Internet-Aktivität "nebenbei" erzeugt.
Data Virtualization
Der Prozess der Abstraktion verschiedener Datenquellen durch eine einzige Zugriffsschicht auf die Daten.
Distributed Object
Ein Stück Software, das es erlaubt, mit verteilten Objekten auf einem anderen Computer zusammenzuarbeiten.
De-Identification
Das Entfernen aller Daten, die eine Person mit einer bestimmten Information verbindet.
Distributed Processing
Die Ausführung eines Prozesses über verschiedene per Netzwerk verbundene Computer hinweg.
Drill
Apache Drill ist eine Open-Source-SQL-Suchmaschine für Hadoop- und NoSQL-Datenmanagement-Systeme.
Hadoop
Ein freies, in Java geschriebenes Framework der Apache Foundation für skalierbare, verteilt arbeitende Software in einem Cluster. Es basiert auf dem bekannten MapReduce-Algorithmus der Google Inc. sowie auf Vorschlägen des Google-Dateisystems.
HANA
SAPs Software-und Hardware-Plattform mit In-Memory-Computing für Echtzeitanalysen und große Transaktionsvolumen.
In-Database Analytics
In-Database Analytics bezeichnet die Integration der Analysemethoden in die Datenbank. Der Vorteil ist, dass die Daten für die Auswertung nicht bewegt werden müssen.
In-Memory Database
Jedes Datenbanksystem, das den Hauptspeicher für die Datenspeicherung benutzt.
In-Memory Data Grid (IMDG)
Die verteilte Datenspeicherung im Hauptspeicher vieler Server für schnellen Zugriff und bessere Skalierbarkeit.
Machine-generated Data
Alle Daten, die automatisch von einem Rechenprozess, einer Applikation oder einer nicht-menschlichen Quelle erzeugt werden.
Map/reduce
Ein Verfahren, bei dem ein großes Problem in kleinere aufgeteilt und an verschiedene Rechner im Netz oder Cluster oder an ein Grid aus unterschiedlichen Computern an verschiedenen Standorten ("map") zur Bearbeitung verteilt wird. Die Ergebnisse werden dann gesammelt und in einem (reduzierten) Report dargestellt. Google hat sein Verfahren unter der Marke "MapReduce" schützen lassen.
Mashup
Dabei werden unterschiedliche Datensätze innerhalb einer Applikation so kombiniert, dass das Ergebnis verbessert wird.
NoSQL
Datenbanken, die nicht relational aufgebaut sind und mit denen sich große Datenvolumina handhaben lassen. Sie benötigen keine festgelegten Tabellenschemata und skalieren horizontal. Beispielsweise ist Apache Cassandra eine NoSQL.
Operational Data Store (ODS)
Darin werden Daten aus unterschiedlichen Quellen gesammelt damit noch weitere Operationen ausgeführt werden können, bevor die Daten in ein Data Warehouse exportiert werden.
Pattern Recognition
Die Klassifizierung von automatisch erkannten Mustern.
Predictive Analytics
Diese Form der Analytics nutzt statistische Funktionen in einem oder mehreren Datensätzen, um Trends oder zukünftige Ereignisse vorherzusagen.
Recommendation Engine
Per Algorithmus werden die Kundenbestellungen einer Website analysiert und sofort passende Zusatzprodukte ausgesucht und angeboten.
Risk Analysis
Die Anwendung statistischer Methoden auf einen oder mehrere Datensätze, um das Risiko eines Projekts, einer Handlung oder Entscheidung abschätzen zu können.
Sentiment Analysis
Dabei werden Einträge von Leuten in sozialen Netzwerken über ein Produkt oder ein Unternehmen statisch ausgewertet.
Variable Pricing
Dabei folgt der Kaufpreis eines Produkts dem Angebot und der Nachfrage. Das erfordert die Echtzeit-Überwachung von Konsum und Lagerbestand.
Parallel Data Analysis
Ein analytisches Problem wird in Teilaufgaben aufgebrochen und die Algorithmen werden auf jede Problemkomponente zeitgleich und parallel angewendet.
Query Anal
In diesem Prozess wird eine Suchanfrage optimiert, um das bestmögliche Ergebnis zu erhalten.
Reference Data
Daten, die ein physikalisch oder virtuell vorhandenes Objekt und seine Eigenschaften beschreiben.