Data Scientists

Kommt der Datenwissenschaftler 2.0?

01.07.2020 von Hans Königes

Data Scientist gilt für viele immer noch als Traumjob. Doch am Datenwissenschaftler-Himmel ziehen dunkle Wolken auf - der technologische Fortschritt wird das Berufsbild nachhaltig verändern.

Der Blick auf Daten und deren Analyse verändert sich. Die Rolle des Data Scientists wandelt sich vom Statistiker mit mathematisch-wissenschaftlichem Hintergrund zum universellen Datenspezialisten mit Programmierkenntnissen.
Foto: Zapp2Photo - shutterstock.com

Tom Becker, Regional Vice President Central Europe bei Alteryx, warnt, die technologische Entwicklung könnte künftig viele Aufgaben des Data Scientists automatisieren. Im COMPUTERWOCHE-Interview erläutert er, welche Konsequenzen das für die Datenwissenschaftler hat und wie sich das Berufsbild verändern wird.

Astronaut, Feuerwehrmann, Tierarzt - das waren Traumjobs unserer Kindheit. Hat der Job des Data Scientist diese Rolle eingenommen?

Becker: Aus meiner Sicht ist es höchste Zeit, den Hype rund um diesen Beruf einmal kritisch zu hinterfragen. Übersetzt ist der Data Scientist ein Datenwissenschaftler. Nun wird in den Unternehmen gerade die digitale Transformation vorangetrieben. Dafür brauchen wir Menschen, die auf operativer Ebene mit Daten arbeiten und Analysen erstellen. Das heißt jedoch nicht, das jeder Datenarbeiter eine Ausbildung als Data Scientist benötigt.

Als allumfassende Wunderwaffe wird Data Science ihrer Rolle, die sie früher vielleicht einmal hatte, nicht mehr gerecht. Dafür sehen wir vor allem zwei Gründe: Erstens verlangen Datenprojekte das Fachwissen aus den Abteilungen, es wird also eine starke vertikale Ausrichtung der Datenteams sowie mehr Domänenexpertise benötigt. Zweitens werden immer mehr Aufgaben rund um die Datenwissenschaft automatisiert, sind per Self-Service-App verfügbar oder nur einen Mausklick in der Cloud entfernt. So erhalten deutlich mehr Mitarbeiter in den Fachbereichen Zugang zu Analysen.

Welche Konsequenzen ergeben sich daraus und raten Sie gar vom Studium Data Science ab?

Becker: Ganz so kritisch sehe ich das nicht. Wenn jedoch künftig mehr Menschen mit Daten arbeiten sollen, muss der Umgang damit vereinfacht werden. Wir sollten daher in den Fachbereichen das Wissen zu Datenanalysen ausbauen. Einige Themen, die sich heute im Studiengang Data Science finden, lernt ein Student ja schon in anderen Fachgebieten wie Informatik, Mathematik oder Maschinenbau.

Und jetzt kommt die entscheidende Neuerung. Wir können Mitarbeitern heute ganz neue Werkzeuge bereitstellen, um Daten schneller und leichter auszuwerten. Die Cloud vereinfacht die Art und Weise, wie wir leistungsfähige Analyse-Tools verwenden und die Möglichkeiten von künstlicher Intelligenz (KI), Deep Learning und Machine Learning (ML) einsetzen. Dazu kommen Data-Management-Plattformen, die neue Daten-Pipelines per Mausklick bereitstellen. Anwender aus allen Fachbereichen greifen auf diese Self-Service-Lösungen zu und sind in der Lage, schneller Entscheidungen zu treffen.

Tom Becker, Regional Vice President Central Europe, Alteryx: "Ein Drittel der Business-Entscheider hat erhebliche Schwierigkeiten damit, Daten gezielter für geschäftliche Entscheidungen zu nutzen."
Foto: Tom Becker - Altery

Brauchen wir also in jedem Ausbildungsberuf einen zusätzlichen Kurs zum Thema Data Science?

Becker: Die Rolle des Datenwissenschaftlers wandelt sich, sie wird breiter. Aus Statistikern mit mathematisch-wissenschaftlichem Hintergrund werden universelle Datenspezialisten mit Programmierkenntnissen. Wir benötigen zusätzliche Definitionen, um die weiter spezialisierten Aufgabenfelder zu klassifizieren. Sicher, der klassische Data Scientist wird weiterhin Modelle entwickeln, mit denen sich Mehrwerte aus Daten generieren lassen. Unternehmen benötigen jedoch neue Daten-affine Mitarbeiter, wie Data Worker und Data Engineers. Wir sollten daher schon in der Fachausbildung darauf achten, dass der Wert von Daten erkannt wird und entsprechende Data-Analytics-Kurse integrieren.

Es ist schon heute für die Wirtschaft und Gesellschaft fundamental, dass wir mit Daten umgehen können. Diese Fähigkeiten sollten bereits in der Schule gelehrt werden. Ich habe schon Unterricht in der Grundschule zur Programmierung von Lego Mindstorms gegeben, also für die Robotik-Plattform der bekannten Plastikbausteine. Das hilft bereits, um Kindern den Umgang mit Daten, Computern und Robotern näherzubringen.

Wir werden also eine weitere Spezialisierung von Data Scientists erleben?

Becker: Auf jeden Fall benötigten wir neue Rollen für aufkommende Spezialgebiete rund um das Datenmanagement und die Datenanalyse. Technologien wie Machine Learning, Deep Learning und KI leben von ausfallsicheren Infrastrukturen, stets verfügbaren Datenpipelines und, ganz wichtig, von einer hohen Datenqualität. Hier helfen Data Engineers, die IT-Infrastruktur zu entwickeln. Benötigt werden auch Spezialisten wie Machine Learning Engineers, die beispielsweise IoT-Umgebungen aufbauen und dafür sorgen, dass selbstlernende Systeme entstehen. Dann haben wir noch das breite Feld der Datenqualität. Wir könnten künftig einen Data Quality Security Officer sehen, der dafür sorgt, dass die Datenqualität stimmt. Denn fehlerhafter Input eines ML-Modells führt auch zu falschen Analysen einer KI-Anwendung. Auf all diese Aufgaben können sie sich heute als Data Scientist bewerben. Verfügen diese Experten auch über das notwendige Domänenwissen?

Wie Analytic Process Automation die Datenanalyse vereinfacht

Also wird es doch wieder komplexer, weil viele Spezialisten benötigt werden?

Becker: Nicht unbedingt. Die Arbeit von Datenspezialisten wird sich durch die Automatisierung von Prozessen weiter vereinfachen. Hierbei unterstützt eine neue Generation von Lösungen für Analytic Process Automation, die das gemeinsame Arbeiten an Daten und Analysen vereinfacht. Eine Analyse von Forrester besagt, dass Citizen Data Scientists beziehungsweise Data Worker bereits im Jahr 2021 in der Lage sein werden, mehr Aufgaben abzuarbeiten als hochqualifizierte Datenspezialisten.

Warum eine Automatisierung dringend notwendig ist, zeigen auch die folgenden Zahlen. So verbringen viele Mitarbeiter die meiste Zeit damit, Daten zu suchen. Dies schließt die hochbezahlten Data Scientists mit ein. Laut IDC verwenden Datenanalysten bis zu 70 Prozent ihrer Arbeitszeit auf die Suche nach Daten. Data Worker verschwenden bis zu 44 Prozent der Arbeitszeit mit vergeblichen Recherchen. Außerdem nutzen Data Worker zwischen vier und sieben unterschiedliche Softwarewerkzeuge für ihre datenbezogenen Aufgaben, was ebenfalls vergeudete Zeit bedeutet.

Gibt es denn schon Lösungen für diese automatisierte Datenwelt?

Becker: In der IT-Industrie spricht jeder von der digitalen Transformation. Diese muss jedoch erst einmal in den Köpfen der Menschen ankommen, bevor sie an den Arbeitsplätzen zur Realität wird. Aus meiner Sicht ist eine neue Datenkultur notwendig und dies ist wichtiger, als eine Gruppe hochbezahlter Akademiker einzustellen. Letztes Jahr gab es dazu eine Umfrage von NewVantage Partners. Das IT-Beratungshaus hat ermittelt, dass 72 Prozent der Unternehmen keine Datenkultur definiert haben und 69 Prozent sehen sich nicht als datengetriebene Organisation. Dazu noch eine aufschlussreiche Aussage der Analysten von IDC: Ein Drittel der Business-Entscheider hat erhebliche Schwierigkeiten damit, Daten gezielter für geschäftliche Entscheidungen zu nutzen.

Da stellt sich für mich doch die Frage, wie ein Data Scientist, vor allem wenn er in der Position eines Lone Wolfs arbeitet, nachhaltig etwas bewegen kann? Es ist also an der Zeit, über grundsätzliche Dinge im Unternehmen zu reden.

Roundtable Machine Learning

Julia Ertl, Accenture
„Man hat bei Data-Science-Projekten mit Proof of Concepts angefangen, das waren oft isolierte und sehr experimentelle Analysen. Seitdem ist beim Aufbau von IT-Infrastruktur jedoch viel passiert, und die viel größere Herausforderung gilt der tatsächlichen Nutzung der Ergebnisse. Der Knackpunkt ist nun, die IT-Infrastruktur mit der Organisation, ihren Prozessen und vor allem Menschen zusammenzubringen. Dafür müssen zum einen die richtigen Leute mit ins Boot geholt, zum anderen neues Wissen und neue Rollen aufgebaut werden.“

Dr. Kay Knoche, Pegasystems
„In vielen Fällen ist der Status quo der totale Blindflug, und man macht es sich dadurch schwerer, als es ohnehin schon ist. Wir raten unseren Kunden immer dazu, aus den vorhandenen Daten eine Decision zu machen, damit zumindest eine Action operationalisiert ist. Die Endresultate, die KPIs, kann man permanent gegeneinander messen und dadurch feststellen, welches Modell am Ende am besten performt.“

Mehmet Yildizoglu, Data Reply
„Es geht darum, wie man mit den verschiedenen Modellen möglichst viel aus dem jeweiligen Use Case rausholen und Mehrwert schaffen kann. Man kann also nicht schon im Vorfeld pauschaliert sagen, welcher Algorithmus den besten Fit für das Problem liefert. Man muss es ausprobieren, und wenn man eine Lösung in Betrieb nehmen will, braucht es mehr als einen reinen Data Scientist. Das ist auch der Grund, weshalb sich dessen Profil ändert: weg von der rein akademischen Betrachtung und hin in Richtung Produktivsetzung, gepaart mit Software-Engineering-Know-how.“

Manuel Namyslo, SAP
„Es gibt immer noch eine große Lücke zwischen dem Data Scientist und der IT: Modelle, die lokal entwickelt wurden, werden verworfen, nur weil man nicht weiß, wie man diese in seine Systemlandschaft integriert. Die Nachfrage nach einer Plattform ist groß, in der Data Pipelines aufgebaut, Modelle produktiv gesetzt und Workflows hinterlegt werden können. Denn am Ende des Tages müssen sich die Erkenntnisse, die ich aus den Daten gewinne, in den Geschäftsprozessen des Unternehmens widerspiegeln.“

Walter Obermeier, UiPath
„Face recognition in China ist ein gutes Beispiel dafür, dass es beim Datenschutz immer zwei Betrachtungsweisen gibt. Auf der einen Seite will niemand, dass er irgendwo erkannt wird. Auf der anderen Seite möchte man in Europa auch gerne die Sicherheit haben. Beides zusammen geht aber nicht. Ein Machine Learning Tool nimmt nur die Daten, die man ihm auch zur Verfügung stellt. Die Gefahr geht also nicht vom Machine Learning aus, sondern davon, wann welche Daten wie und zu welchem Zweck verwendet werden dürfen.“

Dr. Christian Schneider, wetter.com
„Egal was man erfindet, egal wie gut das sein mag – man kann es fast immer für schlechte Dinge missbrauchen. Damit Machine Learning nicht zu Unrecht in Verruf kommt, müssen die Rahmenbedingungen so gesetzt werden, dass der Algorithmus eben nur für die entsprechende Aufgabe eingesetzt wird.“

Glauben Sie, dass eine solche Umbruchstimmung in der aktuellen Zeit Gehör findet?

Becker: Genau jetzt ist der richtige Zeitpunkt. Viele Menschen gehen ihren Jobs im Homeoffice nach und sind gezwungen, rein digital zu arbeiten. Kinder lernen den Umgang mit E-Learning-Plattformen, da Schulen noch nicht vollständig geöffnet sind. Da findet also bereits eine Transformation in den Köpfen statt. Die Gefahr besteht, dass wir wieder in alte Muster zurückfallen, nachdem sich die Situation normalisiert hat.

Zu Beginn der Corona-Krise wurden praktisch alle Prozesse aus dem Berufsalltag ad-hoc digitalisiert, damit Mitarbeiter remote arbeiten können. Diese Prozesse generieren neue Daten, die die Performance einer Organisation transparent macht und Defizite aufzeigt. Diese Daten können jetzt helfen, Lieferketten zu optimieren, was beim Neustart der Wirtschaft extrem wichtig sein wird.

Wir machen uns in unseren Projekten dafür stark, dass Mitarbeiter befähigt werden, diese Daten zu nutzen. Self-Service-Tools helfen dabei, Analysen schnell und ohne IT-Experten zu realisieren sowie Aufgaben zu übernehmen, die früher ausschließlich von Data Scientists durchgeführt wurden. Wer Corona-bedingt in Kurzarbeit gehen muss, erhält bei uns kostenfrei einen Online-Kurs auf Udacity, der die Grundlagen der Datenwissenschaft in 150 Stunden vermittelt.

Also lautet das Fazit: Der Data Scientist ist tot, lang lebe der Data Scientist?

Becker: Die operativen Aufgaben rund um die Datenwissenschaft haben sich verändert. Es kommt Data Science 2.0 auf uns zu, wie das automatisierte Ausrollen von Modellen für die Datenanalyse. Softwarehersteller wie DataRobot entwickeln mit ML automatisiert Analysemodelle, die Mitarbeiter in den Fachbereichen auch ohne wissenschaftlichen Hintergrund verwenden können. Allerdings werden für die Interpretation der Daten unter Umständen doch wieder Mitarbeiter mit statistischem Know-how benötigt, was für die These spricht, dass wir vor allem neue Data-Science-Spezialgebiete definieren müssen.

Vor allem müssen wir die Aufgaben zur Datenanalyse vereinfachen und automatisieren. Mit dem neuen Konzept von Analytic Process Automation schaffen Unternehmen hierfür die organisatorischen Grundlagen, da dies Menschen, Prozesse und Daten vereint. Erst die Kombination dieser drei Faktoren ermöglicht eine nachhaltige Veränderung an den Arbeitsplätzen, da es die Nutzung von Daten demokratisiert, also für alle möglich macht. Wir nennen es eine neue Datenkultur. So wird jeder Mitarbeiter zum Data Worker, der im operativen Bereich Aufgaben übernehmen kann, die sonst auf dem Tisch eines Data Scientists landen würden. (fm/pg)