Datenanalyse, Semantik und Geschäftsmodelle finden

Was Data Scientists können müssen

14.05.2019 von Dirk Hecker und Regine Freitag
Unter dem Begriff Data Scientist sammeln sich höchst unterschiedliche Tätigkeiten. Ein Blick auf die unterschiedlichen Facetten eines Berufsfelds, das für Firmen überlebenswichtig werden kann.
Männer, die auf Daten starren: Zwei Fraunhofer Data Scientists planen Datenstrukturen und Analysemethoden.
Foto: Fraunhofer IAIS

Sehr viele Unternehmen sind auf der Suche nach Data Scientists, um sich die Potenziale datengetriebener Vorgehensweisen und Geschäftsmodelle zu erschließen oder sie auszubauen. Was bei der Fülle von Anforderungen in diesem Arbeitsbereich und der dafür notwendigen Kompetenzen schnell klar wird: DEN Data Scientist gibt es nicht. Unter den Begriff fallen eine Reihe von Unterprofilen, die ein Mitarbeiter selten alle gleich gut erfüllen kann. Im ersten Schritt geht es also darum, festzustellen, welches Anforderungsprofil gemeint ist, wenn ein Unternehmen Data Scientists sucht.

Vier Profile des Data Scientists

Das Feld lässt sich in vier Kategorien oder Profile im Team unterteilen: Data Analyst, Data Architect, Data Manager und Data Business Developer.

Data Scientists
Die Aufgaben des Business Developer
Business Developer blicken tief in die Geschäftsprozesse und können Unternehmensziele mit Datenanalysen in Verbindung bringen. Sie entwickeln eine erste Fragestellung oder decken ein Problem auf, das anhand der erhobenen Daten gelöst werden soll. Als Schnittstelle zwischen Geschäftswelt und Technik kann er den Nutzen der Analyseergebnisse am besten einschätzen und arbeitet daher eng mit dem Data Analyst zusammen.
Die Aufgaben des Data Analyst
Der Data Analyst besitzt profunde Kenntnis über datengetriebene analytische Methoden, Data Mining-Verfahren und Techniken der Datenvisualisierung. Mit ihnen können Datensätze automatisch klassifiziert oder hinsichtlich ihrer Ähnlichkeit gruppiert werden. So kann der Data Analyst die Aussagekraft der Daten bewerten und relevante Muster und Auffälligkeiten in den Datenströmen erkennen.
Die Aufgaben des Data Manager
Der Data Manager sorgt dafür, dass die Qualität der Daten optimiert wird und sie durch Metadaten ausreichend beschrieben werden. Dazu zählt, dass sich der Data Manager einen Überblick über die Nutzungsrechte verschafft und bei sensiblen Daten weiß, wofür diese verwendet werden dürfen.
Die Aufgaben des Application Developer
Der Application Developer setzt die Plattform auf, auf der die Daten integriert und die Anwendungen entwickelt und installiert werden. Er beherrscht verschiedene Werkzeuge zur Parallelisierung und Echtzeitverarbeitung, so dass die statistischen Modelle des Data Analysten auch auf großen Datenmengen genutzt werden können.
Die Aufgaben des Security Manager
Der Security Manager sorgt dafür, dass die Zusammenführung, Anreicherung und Analyse von Daten keine Rückschlüsse auf Einzelpersonen zulässt und damit die Persönlichkeitsrechte verletzen könnte. Der Security Manager muss also den Datenschutz organisatorisch und technisch umsetzen.
Die 5 Typen von Data Scientists im Überblick
Das Schaubild zeigt noch einmal alle 5 Typen von Data Scientists und ihre Aufgaben im Überblick.

Wo Datenprofis in einzelnen Branchen eingesetzt werden

Welche Kompetenzen für Unternehmen im Vordergrund stehen, hängt von ihrem Anwendungsbereich ab. Und davon, wie strategisch das Unternehmen die digitale Transformation angehen möchte. Natürlich wird auch ein Data Analyst Teilaufgaben der anderen Bereiche erfüllen können, aber für wirklichen Erfolg ist eine Spezialisierung und ein Teamaufbau notwendig. Das gilt auch innerhalb des Profils Analyst. Denn unterschiedliche Datentypen bedingen unterschiedliches Verfahrens-Know-how. Damit benötigen Unternehmen je nach ihrer Branche und den dort vorherrschenden Datentypen unterschiedliche Spezialisten.

Unternehmen, die sich vornehmlich im Bereich Industrie 4.0 Ibewegen, benötigen etwa Spezialisten für die Zeitreihenanalyse. Sie werden es mit großen Datenströmen zu tun haben, die zeitlich geordnete Sensor- und Prozessdaten enthalten. Hier geht es für Data Scientists zunächst meist darum, Modelle zur Erkennung von Anomalien und zur vorausschauenden Wartung (Predictive Maintenance etwa für Produktionsmaschinen oder für Aufzüge in Gebäuden) zu schaffen, um vorhersagen zu können, wann ein Defekt auftreten wird.

Bilderkennungsverfahren werden in der Medizin immer wichtiger, um schon früh Veränderungen im Gewebe erkennen zu können.
Foto: beerkoff - shutterstock.com

Ähnliche Fragen gibt es in der Medizin, aber mit ganz anderen Daten. Für Ultraschall-, Röntgen- und MRT-Daten sind Bilderkennungsverfahren wichtig. Diese können helfen, Veränderungen oder Schädigungen im Gewebe zu erkennen und zu bewerten. Und zwar möglichst schon im Frühstadium. Unterstützen können solche Verfahren auch bei einer Operation oder Behandlung, um die Geräte optimal einzustellen und zu führen.

Versicherungen setzen Bilderkennungsverfahren ein, um auf Fotos Schäden zu erkennen und zu begutachten. In der Produktion decken Kameras etwa Qualitätsmängel am entstehenden Produkt frühzeitig auf. Bilderkennung erleichtert auch die direkte Analyse von Videos im Sicherheitsbereich, wenn es darum geht, verdächtiges Verhalten zu erkennen oder sich bewegende Personen und Fahrzeuge zu verfolgen.

Im Bereich Kundenkommunikation und -Service stehen Texte im Vordergrund - bei Social Media Monitoring etwa oder bei der Bearbeitung von E-Mails und Briefen. Hier müssen große Textmengen gefiltert, gruppiert und klassifiziert werden. Dafür ist es erforderlich, Stichwörter und Daten zu extrahieren und Stimmungen zu erkennen.

Durch den Trend zu Sprachassistenten geht es bei der Kundenkommunikation und bei intelligenten Geräten in vielen Bereichen zunehmend auch um Spracherkennung. Spracheingabe muss in Text umgewandelt und die generierten Antworten akustisch ausgegeben werden. Chatbots sollen die Struktur und Semantik von Sätzen soweit verstehen, dass sie Unterhaltungen im Kontext führen können.

Intelligente Roboter oder autonome Agenten in eGames oder auf digitalen Märkten haben oft mehrere Aktionen durchzuführen, bevor sie ihr Ziel erreichen oder ihren Auftrag ausgeführt haben. Sie müssen dazu Änderungen in ihrer Umgebung wahrnehmen, in Bezug auf ihr Ziel analysieren und daraus lernen, jeweils die beste nächste Aktion auszuwählen. Für diese verschiedenen Datentypen sind unterschiedliche Verfahren notwendig - dazu müssen Data Scientists Spezialwissen aufbauen, um die Potenziale datengetriebener Anwendungsfälle zu erschließen.

Seminare von Praktikern für Praktiker

Natürlich existieren Grundlagenkenntnisse, die alle Unterprofile teilen. In den Schulungen, die etwa die Fraunhofer-Allianz Big Data mit der Fraunhofer Academy anbietet, gehören dazu die neuesten Entwicklungen im Bereich Open Source. Das Data-Science-Feld wird von großen Akteuren ganz massiv durch quelloffene Bibliotheken vorangetrieben: Spark MLlib durch Apache, Torch durch Facebook, TensorFlow durch Google, AML durch Amazon.

Dies wird auch in den Seminaren behandelt - gedacht für Praktiker, die neue Methoden und Tools kennenlernen wollen und vermittelt durch Praktiker, die alle in vielen Projekten selbst beteiligt waren. Auch anhand von Schulungen, die ihre Schwerpunkte auf die Data-Scientist-Berufsprofile oder Anwendungsfelder wie Industrie 4.0, Smart Buildings oder die Energiewirtschaft legen. Hier geht es vertieft um Fragen folgender Art:

Gerade Data Scientists müssen sich permanent weiterbilden. IT-Wissen veraltet sehr schnell, Bibliotheken zu Datenanalyse zurzeit noch viel schneller, auch durch neue Entwicklungen im Bereich Machine Learning - ein unglaublich dynamisches Forschungsfeld mit riesigen Potenzialen in der Künstlichen Intelligenz. Unternehmen sollten daher hier noch mehr als in anderen Bereichen dafür Sorge tragen, dass sich ihre Data Scientists regelmäßig weiterbilden.

Gerade beim Machine Learning ist die Nachfrage nach Weiterbildung besonders stark. Hier geht es um neue Verfahrensklassen für künstliche neuronale Netze. Durch die Nutzung von Big Data ist es heute möglich, leistungsfähige neuronale Netze mit so viel Daten zu trainieren, dass sie richtig gute Ergebnisse liefern. Es gibt aber viele Varianten von neuronalen Netzen - hier steht im Vordergrund, sich das Wissen über die Unterschiede anzueignen, um richtig auszuwählen. Zusätzliche Kenntnisse und Verfahren sind erforderlich, wenn die Ergebnisse nicht nur genau, sondern auch nachvollziehbar sein sollen.

Künftige Berufsprofile: Chief Data Officer, Text-Miner, Data Broker

Die Digitalisierung hat so manche Berufszweige differenziert. Was wird uns in Zukunft erwarten?
Foto: alphaspirit - shutterstock.com

Ein bereits neu entstandenes Berufsbild ist das des Chief Data Officer: Seine Aufgabe ist es, Unternehmen strategisch, technisch und personell datengetrieben aufzustellen, Geschäftsfelder zu identifizieren und voranzutreiben. In den USA zeigt sich das stärker ausgeprägt als in Deutschland - dort sind die CDOs auf Vorstandsebene oder direkt darunter angesiedelt und mit entsprechenden Befugnissen ausgestattet. In Deutschland werden sie eher auf Abteilungsleiterebene eingestuft.

In Zukunft dürften sich die Berufsbilder der Data Science noch weiter differenzieren. Vorstellbar sind etwa Spezialisierungen wie Text-Miner, Bildverarbeiter, Sprachspezialist und Data Broker. Ein grundlegendes Thema ist immer die Datensicherheit. Die Spezialisierung wird noch weiter zunehmen, je weiter die Digitalisierung und Automatisierung die verschiedenen Wirtschaftssegmente durchziehen. Bei sehr vielen Tätigkeitsfeldern mit sich wiederholenden Aufgaben können Assistenzsysteme eine effiziente Unterstützung für das Personal darstellen.

Entsprechend wichtig werden auch Fachleute für die Mensch-Maschine-Interaktion. Menschengerechte Entwicklung wird in den kommenden Jahren ein ganz großes Thema - genau wie Datenschutz und Datensouveränität. Es stellt eine politische wie gesellschaftliche Aufgabe dar, dass dies mit Beteiligung der betroffenen Personen geschieht. Und dass jeder informiert und souverän über seine Daten entscheiden kann, damit ein datenschutzgerechter Austausch sichergestellt ist.

Das beginnt mit vermeintlich simplen Dingen: Überlegen Sie mal, wie viele moderne Autos Regensensoren besitzen. Wenn Sie deren Daten über eine neutrale Plattform anonymisiert auswerten könnten - zusammen mit den Temperaturfühlern der Klimaanlage - wie würde sich das auf die Genauigkeit von Wetterprognosen auswirken? Andere im Verkehr generierte Daten könnten helfen, die Pünktlichkeit im Verkehr- und Transportwesen zu optimieren und die Sicherheit zu verbessern.

Arbeitswelt 2025. Die Jobs der Zukunft

Zwei Entwicklungen beeinflussen heute und in Zu­kunft massiv unsere Arbeitswelt: die Digitalisierung und - in der Folge daraus - das agile Arbeiten. Wie verändern sich die Jobs von SAP-Beratern durch Künstliche Intelligenz? Welche Jobprofile verbergen sich hinter dem Data Scientisten? Diese und andere Fragen beantwortet unser Heft. Jetzt zum kostenlosen Download.