KI und die Rolle von Data Pipelines

Wie Sie KI-Projekte zum Erfolg führen

29.01.2020
Anzeige  Wer KI-Projekte erfolgreich umsetzen möchte, muss eine Hürde nehmen: KI- und Machine-Learning-Algorithmen „funktionieren“ nur dann zufriedenstellend, wenn sie mit den richtigen Daten gespeist werden. Mit einer durchgängigen „Daten-Pipeline“ – vom Rand des Netzwerks bis zur Cloud – lässt sich dies erreichen.

Künstliche Intelligenz (KI) und Machine Learning (ML) sind mehr als ein "Hype". Das zeigt ein Blick auf die Einsatzfelder dieser Technologien. So lässt sich ein KI-Algorithmus im Bereich "Warranty Risk Reduction" einsetzen. Das KI-System erfasst und korreliert in diesem Fall beispielsweise die Daten von Komponenten, die in Fahrzeugen oder Maschinen verbaut wurden. Dadurch kann ein Hersteller nachvollziehen, welche Produkte fehlerhafte Teile von Zulieferern enthalten und diese Systeme gezielt ersetzen.

Die Hälfte der IT- und KI-Experten betrachtet die mangelnde Qualität und das hohe Datenvolumen als das größte Problem für KI-Projekte (IDC).
Die Hälfte der IT- und KI-Experten betrachtet die mangelnde Qualität und das hohe Datenvolumen als das größte Problem für KI-Projekte (IDC).
Foto: Phonlamai Photo - shutterstock.com

Anspruchsvoller ist dagegen, Muster und Zustände zu erfassen und zu interpretieren. In diesem Fall wertet eine KI-Lösung Sensordaten aus, etwa die Temperatur einer Maschine. Überschreiten Messdaten einen Grenzwert, informiert das System den Bediener oder fährt die Maschine eigenständig herunter. Zudem leitet der Algorithmus aus den Datenmustern Vorhersagen darüber ab, unter welchen Bedingungen ein System ausfallen könnte, Stichwort vorausschauende Wartung (Predictive Maintenance).

Zu den schwierigsten Aufgaben für KI-Lösungen gehört, das menschliche Verhalten nachzuahmen (Humanized Artificial Intelligence). Beispiele sind das autonome Fahren und Ansätze wie "Mobility as a Service". So sagen KI-Systeme voraus, zu welchen Zeiten Nutzer von Mobilitätsdiensten bestimmte Verkehrsmittel bevorzugen und was sie dafür zu bezahlen bereit sind. In einem autonomen Fahrzeug dagegen übernimmt ein KI-System die Rolle des Fahrers - eine besonders anspruchsvolle Aufgabe.

Die größten Herausforderungen bei KI-Projekten

Künstliche Intelligenz und maschinelles Lernen bieten somit Firmen und öffentlichen Einrichtungen die Chance, innovative, zukunftsorientierte Produkte und Services zu entwickeln. Doch "mal eben schnell" ein KI-oder Machine-Learning-Projekt zu starten, funktioniert nicht. Denn die Qualität entsprechender Lösungen hängt maßgeblich davon ab, dass Daten aus unterschiedlichen Quellen dynamisch und in hoher Qualität zur Verfügung stehen. Doch daran hapert es häufig: Datenbestände liegen in unterschiedlichen Formaten vor und sind in separaten "Datensilos" gespeichert. Hinzu kommen weitere Faktoren, etwa der Mangel an KI-Spezialisten und die hohe Belastung der IT-Abteilungen.

Wie wichtig das Thema Daten für KI-Projekte ist, zeigt ein Resultat einer Studie von IDC. Ihr zufolge stufte die Hälfte der IT- und KI-Experten die mangelnde Qualität und das hohe Volumen von Daten als größtes Problem ein. Auf dem zweiten Platz folgte mit 47 Prozent, dass den Fachleuten keine durchgängige Datenmanagement-Lösung zur Verfügung stand.

Durchgängiges Datenmanagement von Edge bis Cloud

Doch diese "Klippen" lassen sich umschiffen. Ein wichtiger Ansatzpunkt ist, ein "End-to-End"-Datenmanagement einzurichten. Die Grundlage bildet eine durchgängige Data Fabric in Verbindung mit einer Datenmanagement-Lösung wie ONTAP von NetApp. Ein solcher Ansatz stellt sicher, dass Anwender den gesamten Lebenszyklus von KI- und Machine-Learning-Daten und der entsprechenden Anwendungen kontrollieren können. Das gilt für den Rand eines Netzwerks (Edge). Dort werden die Daten erzeugt, etwa von Sensoren. Die zweite Komponente einer Data Fabric sind Core-Systeme wie Hochleistungs-Storage-Lösungen. In diesem "Kern" werden KI-Modelle trainiert, getestet und implementiert.

Eine leistungsfähige Data Pipeline für KI und Machine Learning erfordert nicht nur einen Unterbau aus leistungsstarken und flexiblen Storage-Lösungen, sondern auch ein umfassendes Datenmanagement.
Eine leistungsfähige Data Pipeline für KI und Machine Learning erfordert nicht nur einen Unterbau aus leistungsstarken und flexiblen Storage-Lösungen, sondern auch ein umfassendes Datenmanagement.
Foto: NetApp

Der dritte Bestandteil sind Cloud-Ressourcen. Dazu gehören KI-Frameworks und Server-Kapazitäten, die Anbieter wie Amazon Web Services (AWS), Google und Microsoft auf ihren Cloud-Plattformen anbieten. Sie ermöglichen es einem Unternehmen, KI-Lösungen zu entwickeln und einzusetzen, ohne dass sie die erforderliche Hard- und Software im eigenen Rechenzentrum vorhalten müssen.

Eine Data Fabric zusammen mit NetApp ONTAP ermöglicht es dem Nutzer, alle KI-Daten unabhängig von der IT-Infrastruktur zu verwalten. Das heißt, ein Unternehmen kann Storage-Systeme im eigenen Rechenzentrum und Cloud-Ressourcen nutzen, als handle es sich um ein "großes", integriertes Speichersystem. Die Verwaltung der Daten erfolgt weitgehend automatisiert. Das heißt, die KI-Fachleute im Unternehmen können sich auf ihre Kernaufgabe konzentrieren, also Use Cases zu entwickeln sowie KI- und ML-Modelle zu trainieren.

Hilfsmittel für KI-Initiativen

Damit der Start ins KI-Zeitalter möglichst reibungslos verläuft, sollten Unternehmen zudem prüfen, welche weiteren Hilfsmittel zur Verfügung stehen. Dazu zählt beispielsweise eine vorkonfigurierte, hoch skalierbare KI-Infrastruktur wie NetApp ONTAP AI. Sie ist gewissermaßen ein schlüsselfertiges KI-Rechenzentrum, mit einem Supercomputer von NVIDIA sowie High-End-Storage-Komponenten von NetApp. Mit NetApp ONTAP AI können KI-Entwickler sofort loslegen, sprich Algorithmen trainieren und Anwendungen entwickeln. Das spart Zeit und entlastet die IT-Abteilung.

Vergleichbare Vorteile im Rahmen von KI-Projekten bietet ein weiterer Ansatz: eine integrierte, konvergente Infrastruktur-Lösung wie NetApp FlexPod. Sie besteht aus validierten, vorkonfigurierten Servern, Storage-Systemen und Netzwerk-Komponenten. Mit FlexPod Datacenter for AI/ML steht sogar eine spezielle Version für KI und Machine Learning bereit. Ein konvergentes System eignet sich für Unternehmen, die ihre IT-Infrastruktur schnell und unkompliziert für anspruchsvolle Workloads wie KI, Machine Learning und Big Data & Analytics fit machen wollen.

Managed Service: NetApp Cloud Volumes

Will ein Unternehmen KI- und Machine-Learning-Workloads auf Cloud-Plattformen transferieren, etwa von AWS, Microsoft oder Google, bietet sich eine weitere Lösung an: NetApp Cloud Volumes. Dies ist ein gemanagter "Cloud-nativer" File-Storage-Dienst auf Basis der NetApp ONTAP Datenmanagement-Lösung. Der Vorteil ist, dass ein Unternehmen die KI-Frameworks nutzen kann, die der Cloud-Service-Provider anbietet, gleichzeitig aber die Kontrolle über die Daten behält. Zudem muss sich die IT-Abteilung des Nutzers nicht um die Administration der Cloud Volumes kümmern.

Mithilfe einer Data Fabric und einer Datenmanagement-Lösung wie NetApp ONTAP können Nutzer KI-Daten und -Anwendungen in der Cloud oder "on premises" verwalten.
Mithilfe einer Data Fabric und einer Datenmanagement-Lösung wie NetApp ONTAP können Nutzer KI-Daten und -Anwendungen in der Cloud oder "on premises" verwalten.
Foto: NetApp

Eine Hilfe bei der Umsetzung eines KI-Projekts sind zudem flexible Nutzungs- und Finanzierungsmodelle für Hybrid- und Multi-Clouds. Eine solches Modell hat NetApp mit Keystone entwickelt. Es handelt sich um "Pay-as-You-Go"-Datenmanagement auf Basis der Data Fabric und ONTAP von NetApp. Hinzu kommen Hochleistungs-Storage-Lösungen und Managed Services. Der Anwender kann wählen, wo er die Services ausführen will: im eigenen Rechenzentrum, in einer Hybrid-Umgebung oder einer Public Cloud. Zudem hat der Nutzer die Möglichkeit, auch das Management der Umgebung auszulagern.

Fazit: Alles was für ein KI-Projekt notwendig ist

Wer mit Argumenten wie "zu wenig IT-Ressourcen" oder "Die IT-Abteilung ist überlastet" KI-Projekte abschmettert, liegt falsch. Denn es gibt sehr wohl Optionen, diese Herausforderungen zu meistern. Das belegt das umfassende Lösungsportfolio von NetApp. Es enthält alle Komponenten, mit denen Unternehmen schnell und mit überschaubarem Aufwand KI-Lösungen entwickeln und implementieren können - sei es im eigenen Rechenzentrum oder in einer Cloud-Umgebung. Nun liegt es an den Unternehmen, die Chancen zu ergreifen, die ihnen Künstliche Intelligenz, Deep Learning und maschinelles Lernen bieten.