Was ist Data Science?

09.05.2022
Von  und
Thor Olavsrud ist Senior Writer bei CIO.com und beschäftigt sich mit IT-Security, Big Data, Open-Source-Technologie sowie Microsoft-Tools und -Servers. Er lebt in New York.


Florian beschäftigt sich mit vielen Themen rund um Technologie und Management. Daneben betätigt er sich auch in sozialen Netzen.
Data Science – oder Datenwissenschaft – unterstützt Unternehmen dabei, ihre Daten gewinnbringend zu nutzen.
Erst die Datenwissenschaft ermöglicht es, Geschäftsdaten in Mehrwert zu verwandeln. Das sollten Sie zum Thema Data Science wissen.
Erst die Datenwissenschaft ermöglicht es, Geschäftsdaten in Mehrwert zu verwandeln. Das sollten Sie zum Thema Data Science wissen.
Foto: PopTika - shutterstock.com

Nur eine konsistente Daten- und Analytics-Strategie ebnet den Weg zu datengetriebenen Geschäftsmodellen. Dabei spielt Data Science eine essenzielle Rolle: Sie befähigt Unternehmen dazu, ihre Geschäftsdaten zu nutzen, um Kosten zu reduzieren, neue Geschäftsmöglichkeiten zu erschließen oder die Customer Experience zu optimieren. Das sollten Sie zum Thema Datenwissenschaft wissen.

Data Science - Definition

Data Science ist eine Methode, um Insights aus strukturierten und unstrukturierten Daten zu gewinnen. Dabei kommen diverse Ansätze zum Zuge - von der statistischen Analyse bis hin zu Machine Learning. Die meisten Unternehmen setzen Datenwissenschaft ein, um Daten in Mehrwerte zu verwandeln und zwar in Form von:

  • Umsatzsteigerungen,

  • Kostensenkungen,

  • Business Agility,

  • optimierten Kundenerfahrungen oder

  • neu entwickelten Produkten.

Data Science gibt den von einer Organisation gesammelten Daten einen Zweck.

Datenwissenschaft - Ziele und Ergebnisse

Die Datenwissenschaft ist im Allgemeinen eine Teamdisziplin. Data Scientists bilden den Kern der meisten Teams in diesem Bereich - aber der Weg von den Daten über die Analyse bis hin zum Produczion Value erfordert die Einbindung verschiedener Fähigkeiten und Rollen. So sollten beispielsweise Datenanalysten an Bord sein, um Datenmodelle zu pflegen und die Daten zu untersuchen, bevor sie dem Team präsentiert werden. Dateningenieure werden benötigt, um die zur Anreicherung von Datensätzen benötigten Pipelines zu erstellen und die Informationen unternehmensweit verfügbar zu machen.

Das Ziel der Data Science manifestiert sich darin, Mittel zu entwickeln, um aus Daten geschäftsorientierte Erkenntnisse zu gewinnen. Das erfordert Verständnis darüber, wie Werte und Informationen in einem Unternehmen fließen - und die Fähigkeit, dieses zu nutzen, um Geschäftsmöglichkeiten zu identifizieren. Auch wenn es sich dabei um einmalige Projekte handeln kann, versuchen Data-Science-Teams in der Regel, wichtige Daten-Assets zu identifizieren, die in Daten-Pipelines gewandelt werden können, die dann wiederum wartbare Tools und Lösungen füttern. Beispiele hierfür wären etwa Lösungen, die von Banken eingesetzt werden, um Kreditkartenbetrug zu verhindern oder Tools, die bei der Positionierung von Windkraftanlagen helfen.

Der geschäftliche Nutzen von Data Science hängt von den Bedürfnissen des jeweiligen Unternehmens ab: Datenwissenschaft kann ein Unternehmen zum Beispiel dabei unterstützen, Tools zu entwickeln, die Hardware-Ausfälle vorhersagen. Damit ließen sich ungeplante Ausfallzeiten vermeiden und Wartungsarbeiten besser planen.

Data Science vs. Data Analytics

Obwohl eng miteinander verwandt, ist die Datenanalyse eine Komponente der Datenwissenschaft, die verwendet wird, um zu verstehen, wie die Daten eines Unternehmens aussehen. Data Science nutzt die Ergebnisse von Data Analytics, um Probleme zu lösen.

Der Unterschied zwischen Datenanalyse und Datenwissenschaft liegt auch im Zeitmaßstab: Data Analytics beschreibt den aktuellen Zustand der Realität, während Data Science diese Daten nutzt, um Vorhersagen über die Zukunft zu treffen oder diese besser zu verstehen.

Datenwissenschaft - Prozesse und Methoden

Production-Engineering-Teams arbeiten in Sprint-Zyklen mit festgelegten Zeitplänen. Das ist für Data-Science-Teams oft schwierig, da im Vorfeld meist sehr viel Zeit darauf verwendet werden kann, festzustellen, ob ein Projekt überhaupt durchführbar ist: Bevor das Team diese Frage beantworten kann, müssen die Daten jedoch erst gesammelt und bereinigt werden.

Data Science sollte idealerweise einer wissenschaftlichen Methode folgen, auch wenn das nicht immer der Fall oder nicht realisierbar ist. Es gilt der Grundsatz: Wissenschaft braucht Zeit. Man verbringt ein wenig Zeit damit, seine Hypothese zu bestätigen und dann sehr viel Zeit damit, sich selbst zu widerlegen. In der Business-Welt ist Zeit jedoch ein entscheidender Faktor. Das bedeutet für die Datenwissenschaft des Öfteren, sich mit einem Ergebnis abzufinden, das "gut genug" aber eben nicht "optimal" ist. Dabei besteht jedoch die Gefahr, dass die Ergebnisse einem Confirmation Bias oder Overfitting zum Opfer fallen.

Data Science - Tools

Data-Science-Teams nutzen eine breite Palette von Tools, darunter SQL, Python, R, Java und eine Fülle von Open-Source-Projekten wie Hive, oozie und TensorFlow. Diese Tools werden für eine Vielzahl von datenbezogenen Aufgaben eingesetzt - von der Datenextraktion und -bereinigung bis hin zur algorithmischen Analyse von Daten mit statistischen Methoden oder Machine Learning. Zu den gängigen Tools im Bereich Datenwissenschaft gehören unter anderem:

  • SAS: Dieses proprietäre Statistik-Tool kommt für Data Mining, statistische Analysen, Business Intelligence, Analysen klinische Studien und Zeitreihenanalysen zum Einsatz.

  • Tableau: Das populäre Datenvisualisierungs-Tool gehört inzwischen zu Salesforce.

  • TensorFlow: Die Softwarebibliothek für Machine Learning wurde ursprünglich von Google entwickelt und unter der Apache License 2.0 lizenziert. TensorFlow wird unter anderem eingesetzt, um Deep Neural Networks zu trainieren.

  • DataRobot: Die automatisierte ML-Plattform wird genutzt, um KI-Instanzen aufzubauen, einzusetzen und zu warten.

  • BigML: Diese Plattform für maschinelles Lernen konzentriert sich darauf, Datensätze und -modelle zu erstellen und gemeinsam zu nutzen.

  • Knime: Eine Open-Source-Plattform für Datenanalyse, Reportings und Integrationsaufgaben.

  • Apache Spark: Diese vereinheitlichte Analyse-Engine wurde für die Verarbeitung großer Datenmengen entwickelt und unterstützt Datenbereinigung, -transformation, -modellerstellung und -auswertung.

  • RapidMiner: Die Data-Science-Plattform ist darauf konzipiert, Teams bei der Datenvorbereitung, ML-Projekten und Predictive-Analytics-Modellen zu unterstützen.

  • Matplotlib: Diese Open-Source-Bibliothek für Python bietet Tools, um statische, animierte und interaktive Visualisierungen zu erstellen.

  • Excel: Die Tabellenkalkulationssoftware von Microsoft ist das vielleicht meistgenutzte Business-Intelligence-Tool. Excel ist allerdings auch für Datenwissenschaftler praktisch, die mit kleineren Datensätzen arbeiten.

  • js: Diese JavaScript-Bibliothek wird verwendet, um interaktive Visualisierungen in Webbrowsern zu erstellen.

  • ggplot2: Dieses fortschrittliche Datenvisualisierungspaket für R ermöglicht Data Scientists, analysierten Daten in Visualisierungen zu verwandeln.

  • Jupyter: Dieses auf Python basierende Open-Source-Tool wird verwendet, um Live-Code, Visualisierungen und Präsentationen umzusetzen.

Datenwissenschaft - Jobs

Die Zahl der Studiengänge für Datenwissenschaft steigt zwar rapide an, aber deren Absolventen sind nicht unbedingt das, wonach Unternehmen im Bereich Data Science suchen. Bei Firmen sind zum Beispiel Kandidaten mit einem Hintergrund in Statistik beliebt, vor allem wenn sie über Fachwissen verfügen und die Fähigkeit besitzen, Ergebnisse an Business-Anwender zu kommunizieren.

Viele Unternehmen suchen auch gezielt nach Bewerbern mit einem Doktortitel - insbesondere in Physik, Mathematik, Informatik, Wirtschaft oder auch Sozialwissenschaften. Den Doktortitel sehen dabei viele als Beweis dafür, dass ein Kandidat in der Lage ist, ein bestimmtes Thema gründlich zu erforschen und Informationen dazu an andere weiterzugeben.

Viele gefragte Datenwissenschaftler oder Data-Science-Teamleads haben einen nicht-traditionellen Hintergrund, in manchen Fällen sogar einen, der nur sehr wenig mit Computerwissenschaften zu tun hat. In vielen Fällen besteht die Schlüsselfähigkeit eines Data Scientist für Unternehmen darin, Zusammenhänge aus nicht-traditionellen Perspektiven betrachten und verstehen zu können.

Data Science - Gehälter

Wir haben einige der beliebtesten Job-Rollen im Bereich Data Science sowie ihr zugehöriges Durchschnittsgehalt (für Deutschland) für Sie zusammengefasst. Die Datengrundlage dafür liefert das Karriereportal PayScale:

  • Data Analyst: 46.300 Euro

  • Data Scientist: 55.400 Euro

  • Data Engineer: 57.800 Euro

  • Junior Data Analyst: 40.100 Euro

  • Senior Data Analyst: 63.400 Euro

  • Senior Data Scientist: 73.400 Euro

  • Lead Data Scientist: 81.600 Euro

  • Senior Data Engineer: 72.200 Euro

  • Data Manager: 67.200 Euro

  • Data Architect: 76.200 Euro

  • Data Science Manager: 90.800 Euro

  • Analytics Manager: 66.800 Euro

  • Director of Analytics: 107.500 Euro

  • Business Intelligence Analyst: 45.900 Euro

  • Research Scientist: 57.300 Euro

  • Research Analyst: 38.600 Euro

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation CIO.com.