Datenanalyse, Semantik und Geschäftsmodelle finden

Was Data Scientists können müssen

Dr. Dirk Hecker ist Geschäftsführer der Fraunhofer-Allianz Big Data.
Regine Freitag ist Leiterin Schulungsprogramm, Geschäftsstelle Fraunhofer-Allianz Big Data
Unter dem Begriff Data Scientist sammeln sich höchst unterschiedliche Tätigkeiten. Ein Blick auf die unterschiedlichen Facetten eines Berufsfelds, das für Firmen überlebenswichtig werden kann.
Männer, die auf Daten starren: Zwei Fraunhofer Data Scientists planen Datenstrukturen und Analysemethoden.
Männer, die auf Daten starren: Zwei Fraunhofer Data Scientists planen Datenstrukturen und Analysemethoden.
Foto: Fraunhofer IAIS

Sehr viele Unternehmen sind auf der Suche nach Data Scientists, um sich die Potenziale datengetriebener Vorgehensweisen und Geschäftsmodelle zu erschließen oder sie auszubauen. Was bei der Fülle von Anforderungen in diesem Arbeitsbereich und der dafür notwendigen Kompetenzen schnell klar wird: DEN Data Scientist gibt es nicht. Unter den Begriff fallen eine Reihe von Unterprofilen, die ein Mitarbeiter selten alle gleich gut erfüllen kann. Im ersten Schritt geht es also darum, festzustellen, welches Anforderungsprofil gemeint ist, wenn ein Unternehmen Data Scientists sucht.

Vier Profile des Data Scientists

Das Feld lässt sich in vier Kategorien oder Profile im Team unterteilen: Data Analyst, Data Architect, Data Manager und Data Business Developer.

  • Data Analysts benötigen profunde Kenntnisse in der Datenanalytik. Meist sind sie Mathematiker und Informatiker, die gutes statistisches Know-how mitbringen. Sie sind diejenigen, die Daten auswerten, nach Mustern suchen und diese aufbereiten. Typischerweise beginnen Unternehmen ihre Data-Science-Teams mit Analysten.

  • Data Architecs kommen bei Datenmengen ins Spiel, die den Begriff Big Data auch verdienen. Zu ihren Kernkompetenzen gehören Verfahren zum Umgang mit großen unstrukturierten Datenmengen aus verschiedenen Datenquellen. Oft entwickeln sie auch die Anwendungen mit. Data Scientists können es sich nicht leisten, lang auf Ergebnisse zu warten. Daher benötigen sie Know-how dazu, wie sich große Datenmengen auf einem Cluster verteilt bearbeiten lassen. Dafür eignen sich, je nachdem, um welche Daten es geht, unterschiedliche Verfahren und Infrastrukturen. Data Architects stellen Unternehmen zumeist dann ein, wenn die ersten Projekte Erfolge zeigen und es um immer größere Datenvolumen geht.

  • Data Manager engagieren Unternehmen oftmals erst dann, wenn sie bemerkt haben, welche Probleme ohne sie auftreten. Die Aufgabe der Data Manager ist es, sich um die Qualität der Daten zu kümmern, ihnen eine Semantik zu geben. Sie müssen Daten miteinander verknüpfen können, auch wenn sie aus unterschiedlichen Abteilungen stammen und unterschiedliche Strukturen aufweisen. Und es geht darum, repräsentative Trainingsdaten anzulegen, um das Modell immer wieder rekalibrieren zu können. Viele reden von einem "Big Data Lake", den sie angelegt haben. Dieser kann jedoch auch ein Datengrab werden, wenn die Daten darin nicht richtig aufbereitet sind.

  • Kein Unternehmen sollte sich ein Team von Data Scientists aufbauen, einfach nur, weil es auch eines haben möchte. Sie benötigen immer klare Business Cases. Daher braucht ein vollständiges Data Science Team auch einen Data Business Developer - eine Person, die die Unternehmensziele und Marktgegebenheiten gut mit den Datenanalysen verbinden und Business Cases schaffen kann. Während in den anderen Ausprägungen der interdisziplinäre Hintergrund eher von Informatik, Mathematik, Statistik und Sozialwissenschaften gebildet wird, sind hier Kenntnisse der Betriebswirtschaftslehre wichtig.

Wo Datenprofis in einzelnen Branchen eingesetzt werden

Welche Kompetenzen für Unternehmen im Vordergrund stehen, hängt von ihrem Anwendungsbereich ab. Und davon, wie strategisch das Unternehmen die digitale Transformation angehen möchte. Natürlich wird auch ein Data Analyst Teilaufgaben der anderen Bereiche erfüllen können, aber für wirklichen Erfolg ist eine Spezialisierung und ein Teamaufbau notwendig. Das gilt auch innerhalb des Profils Analyst. Denn unterschiedliche Datentypen bedingen unterschiedliches Verfahrens-Know-how. Damit benötigen Unternehmen je nach ihrer Branche und den dort vorherrschenden Datentypen unterschiedliche Spezialisten.

Unternehmen, die sich vornehmlich im Bereich Industrie 4.0 Ibewegen, benötigen etwa Spezialisten für die Zeitreihenanalyse. Sie werden es mit großen Datenströmen zu tun haben, die zeitlich geordnete Sensor- und Prozessdaten enthalten. Hier geht es für Data Scientists zunächst meist darum, Modelle zur Erkennung von Anomalien und zur vorausschauenden Wartung (Predictive Maintenance etwa für Produktionsmaschinen oder für Aufzüge in Gebäuden) zu schaffen, um vorhersagen zu können, wann ein Defekt auftreten wird.

Bilderkennungsverfahren werden in der Medizin immer wichtiger, um schon früh Veränderungen im Gewebe erkennen zu können.
Bilderkennungsverfahren werden in der Medizin immer wichtiger, um schon früh Veränderungen im Gewebe erkennen zu können.
Foto: beerkoff - shutterstock.com

Ähnliche Fragen gibt es in der Medizin, aber mit ganz anderen Daten. Für Ultraschall-, Röntgen- und MRT-Daten sind Bilderkennungsverfahren wichtig. Diese können helfen, Veränderungen oder Schädigungen im Gewebe zu erkennen und zu bewerten. Und zwar möglichst schon im Frühstadium. Unterstützen können solche Verfahren auch bei einer Operation oder Behandlung, um die Geräte optimal einzustellen und zu führen.

Versicherungen setzen Bilderkennungsverfahren ein, um auf Fotos Schäden zu erkennen und zu begutachten. In der Produktion decken Kameras etwa Qualitätsmängel am entstehenden Produkt frühzeitig auf. Bilderkennung erleichtert auch die direkte Analyse von Videos im Sicherheitsbereich, wenn es darum geht, verdächtiges Verhalten zu erkennen oder sich bewegende Personen und Fahrzeuge zu verfolgen.

Im Bereich Kundenkommunikation und -Service stehen Texte im Vordergrund - bei Social Media Monitoring etwa oder bei der Bearbeitung von E-Mails und Briefen. Hier müssen große Textmengen gefiltert, gruppiert und klassifiziert werden. Dafür ist es erforderlich, Stichwörter und Daten zu extrahieren und Stimmungen zu erkennen.

Durch den Trend zu Sprachassistenten geht es bei der Kundenkommunikation und bei intelligenten Geräten in vielen Bereichen zunehmend auch um Spracherkennung. Spracheingabe muss in Text umgewandelt und die generierten Antworten akustisch ausgegeben werden. Chatbots sollen die Struktur und Semantik von Sätzen soweit verstehen, dass sie Unterhaltungen im Kontext führen können.

Intelligente Roboter oder autonome Agenten in eGames oder auf digitalen Märkten haben oft mehrere Aktionen durchzuführen, bevor sie ihr Ziel erreichen oder ihren Auftrag ausgeführt haben. Sie müssen dazu Änderungen in ihrer Umgebung wahrnehmen, in Bezug auf ihr Ziel analysieren und daraus lernen, jeweils die beste nächste Aktion auszuwählen. Für diese verschiedenen Datentypen sind unterschiedliche Verfahren notwendig - dazu müssen Data Scientists Spezialwissen aufbauen, um die Potenziale datengetriebener Anwendungsfälle zu erschließen.

Seminare von Praktikern für Praktiker

Natürlich existieren Grundlagenkenntnisse, die alle Unterprofile teilen. In den Schulungen, die etwa die Fraunhofer-Allianz Big Data mit der Fraunhofer Academy anbietet, gehören dazu die neuesten Entwicklungen im Bereich Open Source. Das Data-Science-Feld wird von großen Akteuren ganz massiv durch quelloffene Bibliotheken vorangetrieben: Spark MLlib durch Apache, Torch durch Facebook, TensorFlow durch Google, AML durch Amazon.

Dies wird auch in den Seminaren behandelt - gedacht für Praktiker, die neue Methoden und Tools kennenlernen wollen und vermittelt durch Praktiker, die alle in vielen Projekten selbst beteiligt waren. Auch anhand von Schulungen, die ihre Schwerpunkte auf die Data-Scientist-Berufsprofile oder Anwendungsfelder wie Industrie 4.0, Smart Buildings oder die Energiewirtschaft legen. Hier geht es vertieft um Fragen folgender Art:

  • Wie lässt sich ein intelligentes Energiemanagement betreiben?

  • Was kann die Simulation von Energienetzen zur Prozess- und Kostenoptimierung beitragen?

  • Wie können intelligente Fertigungssysteme datengetriebene Fabrikbetriebsoptimierung umsetzen?

Gerade Data Scientists müssen sich permanent weiterbilden. IT-Wissen veraltet sehr schnell, Bibliotheken zu Datenanalyse zurzeit noch viel schneller, auch durch neue Entwicklungen im Bereich Machine Learning - ein unglaublich dynamisches Forschungsfeld mit riesigen Potenzialen in der Künstlichen Intelligenz. Unternehmen sollten daher hier noch mehr als in anderen Bereichen dafür Sorge tragen, dass sich ihre Data Scientists regelmäßig weiterbilden.

Gerade beim Machine Learning ist die Nachfrage nach Weiterbildung besonders stark. Hier geht es um neue Verfahrensklassen für künstliche neuronale Netze. Durch die Nutzung von Big Data ist es heute möglich, leistungsfähige neuronale Netze mit so viel Daten zu trainieren, dass sie richtig gute Ergebnisse liefern. Es gibt aber viele Varianten von neuronalen Netzen - hier steht im Vordergrund, sich das Wissen über die Unterschiede anzueignen, um richtig auszuwählen. Zusätzliche Kenntnisse und Verfahren sind erforderlich, wenn die Ergebnisse nicht nur genau, sondern auch nachvollziehbar sein sollen.

Künftige Berufsprofile: Chief Data Officer, Text-Miner, Data Broker

Die Digitalisierung hat so manche Berufszweige differenziert. Was wird uns in Zukunft erwarten?
Die Digitalisierung hat so manche Berufszweige differenziert. Was wird uns in Zukunft erwarten?
Foto: alphaspirit - shutterstock.com

Ein bereits neu entstandenes Berufsbild ist das des Chief Data Officer: Seine Aufgabe ist es, Unternehmen strategisch, technisch und personell datengetrieben aufzustellen, Geschäftsfelder zu identifizieren und voranzutreiben. In den USA zeigt sich das stärker ausgeprägt als in Deutschland - dort sind die CDOs auf Vorstandsebene oder direkt darunter angesiedelt und mit entsprechenden Befugnissen ausgestattet. In Deutschland werden sie eher auf Abteilungsleiterebene eingestuft.

In Zukunft dürften sich die Berufsbilder der Data Science noch weiter differenzieren. Vorstellbar sind etwa Spezialisierungen wie Text-Miner, Bildverarbeiter, Sprachspezialist und Data Broker. Ein grundlegendes Thema ist immer die Datensicherheit. Die Spezialisierung wird noch weiter zunehmen, je weiter die Digitalisierung und Automatisierung die verschiedenen Wirtschaftssegmente durchziehen. Bei sehr vielen Tätigkeitsfeldern mit sich wiederholenden Aufgaben können Assistenzsysteme eine effiziente Unterstützung für das Personal darstellen.

Entsprechend wichtig werden auch Fachleute für die Mensch-Maschine-Interaktion. Menschengerechte Entwicklung wird in den kommenden Jahren ein ganz großes Thema - genau wie Datenschutz und Datensouveränität. Es stellt eine politische wie gesellschaftliche Aufgabe dar, dass dies mit Beteiligung der betroffenen Personen geschieht. Und dass jeder informiert und souverän über seine Daten entscheiden kann, damit ein datenschutzgerechter Austausch sichergestellt ist.

Das beginnt mit vermeintlich simplen Dingen: Überlegen Sie mal, wie viele moderne Autos Regensensoren besitzen. Wenn Sie deren Daten über eine neutrale Plattform anonymisiert auswerten könnten - zusammen mit den Temperaturfühlern der Klimaanlage - wie würde sich das auf die Genauigkeit von Wetterprognosen auswirken? Andere im Verkehr generierte Daten könnten helfen, die Pünktlichkeit im Verkehr- und Transportwesen zu optimieren und die Sicherheit zu verbessern.