Technologie erklärt

Data-Science-Fachjargon für Business-Entscheider

28.02.2024 von Isaac Sacolick
Data-Science-Teams können nur dann erfolgreich sein, wenn die Business-Führungskräfte MLops, Modelops und Machine Learning Lifecycle verstehen. Versuchen Sie Ihr Glück mit diesen Analogien und Beispielen.
Diese Kommunikationsstrategien helfen Datenwissenschaftlern weiter, wenn es darum geht, Business-Entscheidern Data-Science-Zusammenhänge zu vermitteln.
Foto: Jacob Lund - shutterstock.com

Wenn Sie ein Datenwissenschaftler sind oder mit Machine-Learning-Modellen arbeiten, verwenden Sie Tools, um Daten zu labeln, Technologieumgebungen, um Modelle zu trainieren, und bringen ein grundlegendes Verständnis von MLops und Modelops mit. Wenn Sie ML-Modell in der Produktion einsetzen, nutzen Sie sehr wahrscheinlich auch ML-Monitoring, um Data Drift und andere Risiken in Zusammenhang mit den Modellen zu identifizieren.

Datenwissenschaftler setzen diese grundlegenden ML-Praktiken und -Plattformen ein, um gemeinsam Modelle zu entwickeln, Infrastruktur zu konfigurieren und Modelle in großem Umfang zu pflegen. Darüber hinaus sind diese Tools auch wichtig, um die Anzahl der Modelle in der Produktion zu erhöhen, die Qualität von Vorhersagen zu verbessern und die Kosten für die Modellwartung zu senken.

Diese Praktiken und Tools Business- und Budget-Entscheidern zu vermitteln, die den Return on Investment und Business Impact von ML- und KI-Investitionen verstehen wollen, ist kein leichtes Unterfangen. Das Data-Science-Fachchinesisch wirkt auf sie vor allem abschreckend. Deshalb sollten Sie alles daransetzen, Ihren Jargon zu definieren und zu simplifizieren, damit alle Stakeholder um die Bedeutung der Schlüsseldisziplinen im Bereich Datenwissenschaft wissen und diese durchdringen können.

Machine Learning Lifecycle?

Als Entwickler oder Datenwissenschaftler verfügen Sie über einen technischen Prozess, mit dem Sie neue Ideen umsetzen können - vom Konzept bis hin zum Business Value. Dieser Lebenszyklus-Prozess umfasst:

Business-Entscheider verstehen den Begriff Lebenszyklus unter Umständen nicht. Viele sehen Softwareentwicklung und Data Science immer noch als einmalige Investitionen an - was allzu oft zu technischen Schulden und Problemen mit der Datenqualität führt. Wenn es darum geht, Business-Menschen den ML-Lebenszyklus zu vermitteln, sollten Sie auf Begriffe wie Modellentwicklung, Deployment und Monitoring verzichten.

Marcus Merrell, Vice President of Technology Strategy beim Testing-Spezialisten Sauce Labs, empfiehlt stattdessen, auf Analogien aus der realen Welt zu setzen: "Machine Learning ist in gewisser Weise mit der Landwirtschaft vergleichbar: Die Nutzpflanzen, die wir heute kennen, sind das ideale Ergebnis früherer Generationen, die Muster erkannten, mit Kombinationen experimentierten und Informationen mit anderen Landwirten austauschten, um mit dem gesammelten Wissen bessere Variationen zu schaffen. Maschinelles Lernen ist ein ganz ähnlicher Prozess, nur dass dabei ein Algorithmus trainiert wird."

Diese Analogie ist in meinen Augen besonders treffend, weil sie generatives Lernen veranschaulicht, aber auch Anpassungen in Echtzeit berücksichtigen kann (die beispielsweise aufgrund von Wetterlagen oder Lieferkettenfaktoren auftreten).

MLops?

Für die meisten Entwickler und Datenwissenschaftler ist MLops das Machine-Learning-Äquivalent zu DevOps. Infrastruktur, Deployment und andere technische Prozesse zu automatisieren, verbessert die Zusammenarbeit und hilft den Teams, sich auf die Geschäftsziele zu fokussieren, statt sich manuell an technischen Tasks abzuarbeiten. Für die Business-Entscheider im Unternehmen sind diese Zusammenhänge nur schwer zu durschauen, insbesondere wenn ein Team dringend Budget für Tools oder Zeit für die Einführung von Best Practices benötigt.

"MLops oder Machine Learning Operations ist die Praxis der Zusammenarbeit und Kommunikation zwischen Data Science, IT und dem Unternehmen, um den End-to-End-Lebenszyklus von Machine-Learning-Projekten zu managen", erklärt Alon Gubkin, CTO und Mitbegründer der Observability-Plattform Aporia. "Bei MLops geht es darum, verschiedene Teams und Abteilungen innerhalb eines Unternehmens zusammenzubringen, um sicherzustellen, dass Machine-Learning-Modelle effektiv eingesetzt und gewartet werden."

Haben Sie es mit Führungskräften zu tun, die datengetrieben agieren, schlägt Thibaut Gourdel, Technical Product Marketing Manager beim Datenexperten Talend, vor, weitere Details hinzuzufügen: "MLops fördert die Anwendung agiler Softwareprinzipien in ML-Projekten, etwa die Versionskontrolle von Daten und Modellen sowie eine kontinuierliche Datenvalidierung, Testing und Deployment, um Wiederholbarkeit und Zuverlässigkeit von Modellen sowie die Produktivität der Teams zu verbessern."

Data Drift?

Wann immer Sie (sinnvolle) Analogien verwenden können, sollten Sie das tun. Das gilt auch, wenn es um Data Drift geht. Führungskräfte können sich unter dem Begriff "Drift" wahrscheinlich etwas vorstellen, haben aber unter Umständen Schwierigkeiten, das mit der Welt der Daten in Einklang beziehungsweise Zusammenhang zu bringen.

"Ein Data Drift tritt auf, wenn die Daten, die das Modell in der Produktion sieht, nicht mehr mit den historischen Daten übereinstimmen, auf denen es trainiert wurde. Unabhängig davon, wie der Drift auftritt, ist es entscheidend, diese Veränderungen schnell zu erkennen. Nur so kann die Modellgenauigkeit gewahrt und der Impact auf das Business abgemildert werden", erklärt Krishnaram Kenthapadi, Chief AI Officer und Scientist bei Fiddler AI, und fügt hinzu: "Man könnte einen Data Drift auch mit den Produkten eines Unternehmens vergleichen, die im Laufe der Zeit an Beliebtheit einbüßen, weil sich die Verbraucherpräferenzen geändert haben."

David Talby, CTO von John Snow Labs, hat eine weitere Analogie auf Lager: "Ähnlich wie der Wert eines Neuwagens sinkt, sobald man ihn vom Parkplatz bewegt, verhält sich ein Machine-Learning-Modell, weil sich die Dinge in der Produktion anders verhalten als noch innerhalb der Forschungsumgebung. Unabhängig davon, wie gut ein Modell funktioniert, muss es immer gewartet werden, weil die Welt darum herum sich verändert."

Die wichtige Botschaft, die Data-Science-Experten vermitteln sollten: Daten sind nicht statisch, deswegen müssen ML-Modelle auf ihre Genauigkeit hin überprüft und mit neueren oder relevanteren Daten neu trainiert werden.

ML-Monitoring?

Produzierende Unternehmen verwenden diverse Tools, um Fehler zu erkennen - etwa Abweichungen in der Output-Qualität. Stellen Sie sich ein ML-Modell als eine kleine Produktionsanlage vor. Schon macht es Sinn, dass Datenwissenchaftler ML-Monitoring-Tools benötigen, um Performance- oder Qualitätsprobleme identifizieren zu können.

"ML-Monitoring umfasst eine Reihe von Techniken, die während der Produktion eingesetzt werden, um Probleme zu erkennen, die sich negativ auf die Leistung des ML-Modells auswirken und zu qualitativ schlechten Erkenntnissen führen können", erklärt Katie Roberts, Data Science Solution Architect beim Datenbankspezialisten Neo4j.

Hillary Ashton, Chief Product Officer bei Teradata, weiß, wie Sie Ihrer ML-Monitoring-Argumentation weiteren Nachdruck verleihen: "Weil Unternehmen ihre Investitionen in KI/ML-Initiativen beschleunigen, wird die Zahl der KI-Modelle drastisch steigen. Jedes einzelne dieser Modelle muss sicher gespeichert und kontinuierlich überwacht werden, um die Genauigkeit zu gewährleisten."

Modelops?

MLops konzentriert sich auf multidisziplinäre Teams, die zusammenarbeiten, um Modelle zu entwickeln, einzusetzen und zu warten. Aber wie entscheiden Führungskräfte, in welche Modelle sie investieren, welche gewartet werden müssen - und wie schaffen sie Transparenz über Kosten und Nutzen von KI/ML-Initiativen? Diese Fragen fallen in den Bereich der Governance - und sollen mit Modelops-Praktiken und -Plattformen adressiert werden. Das Problem: Die Notwendigkeit und der Nutzen von Modelops zeigen sich im Regelfall erst, wenn es bereits (zumindest teilweise) implementiert ist.

Nitin Rakesh, CEO und Managing Director beim IT-Dienstleister Mphasis, schlägt deswegen vor, Modelops wie folgt zu erklären: "Mit Modelops stellen Unternehmen sicher, dass ML-Modelle bereitgestellt und gewartet werden, um ihren Wert zu maximieren und die Governance für verschiedene Versionen zu gewährleisten."

Teradata-CPO Ashton empfiehlt zudem, ein Praxisbeispiel ins Spiel zu bringen: "Modelops befähigt Datenwissenschaftler, Datenqualitätsrisiken zu identifizieren und zu beheben, wenn Modelle sich verschlechtern." (fm)

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Infoworld.