Künstliche Intelligenz in der Praxis

Mit einer Data Pipeline KI-Projekte zum Erfolg führen

13.12.2019
Anzeige  Wer Künstliche Intelligenz in der Praxis einsetzen möchte, benötigt mehr als Server, Storage-Lösungen, KI-Algorithmen und Data Scientists. Entscheidend ist, ob die erforderlichen Daten schnell und in der erforderlichen Güte den KI- und Machine-Learning-Systemen zur Verfügung stehen. Das leistet eine durchgängige Data Pipeline
Die Qualität der Daten sowie Optionen, diese zu speichern und aufzubereiten, zählen für deutsche Unternehmen zu den größten Herausforderungen bei Projekten in den Bereichen KI und Machine Learning
Die Qualität der Daten sowie Optionen, diese zu speichern und aufzubereiten, zählen für deutsche Unternehmen zu den größten Herausforderungen bei Projekten in den Bereichen KI und Machine Learning
Foto: IDG Research Services

Künstliche Intelligenz (KI) ist schon längst in der Realität angekommen. Das belegt die Studie "Künstliche Intelligenz in Deutschland, Österreich und der Schweiz", die das Marktforschungs- und Beratungsunternehmen IDC in Zusammenarbeit mit NetApp erstellt hat. Demnach haben bereits 38 Prozent der Unternehmen in der DACH-Region mindestens ein KI-Projekt umgesetzt. Rund 82 Prozent planen dies in den kommenden zwölf Monaten.

Zu den beliebtesten Einsatzfeldern von KI zählen die Optimierung von Abläufen in Vertrieb und Marketing (29 Prozent) sowie die Automatisierung von Prozessen in der IT (30 Prozent). NetApp setzt beispielsweise KI-Algorithmen in seiner Datenmanagement-Lösung Active IQ ein, um die Telemetriedaten von Speichersystemen auszuwerten. Dadurch erkennt die KI-Software, welche Engpässe sich ergeben könnten, etwa beim Speicherplatz. Die IT-Abteilung erhält dann automatisch und in Echtzeit Handlungsempfehlungen, um solche Risiken zu beseitigen.

KI-Projekte richtig planen und umsetzen

Damit ein KI-Projekt den gewünschten Nutzen bringt, ist eine sorgfältige Planung unverzichtbar. Zunächst gilt es, einen Use Case zu entwickeln. Ein Beispiel: KI- und Machine-Learning-Algorithmen (ML) erkennen anhand der Analyse von Maschinendaten, ob bei einem Bearbeitungszentrum in einer Fabrik das Wartungsintervall verkürzt werden muss. Der zweite Schritt besteht darin, sich einen Überblick über die Tools und das Fachwissen der Mitarbeiter zu verschaffen, etwa ob Data Scientists vorhanden sind und welche KI-Algorithmen sich am besten für den Einsatzzweck eignen.

Eine zentrale Rolle spielen die Daten, mit denen ein KI- oder ML-Algorithmus trainiert wird. Zu prüfen ist, wie sich Daten aus unterschiedlichen Quellen zusammenfassen und den Entwicklern bereitstellen lassen. Außerdem ist zu berücksichtigen, wem die Daten "gehören", Stichwort Data Ownership.

Prototyping am besten in der Cloud

Sind die Rahmenbedingungen klar, sollte eine Prototyping-Plattform implementiert werden. Dafür bieten sich Cloud-Services an, beispielweise von AWS, der Google Cloud Platform und Microsofts Cloud-Plattform Azure. Mit Services wie Azure Data Bricks, Azure Machine Learning und ONNX können Unternehmen mit überschaubarem Aufwand KI-Apps und -Agents entwickeln sowie Machine-Learning-Modelle erstellen und trainieren.

"Passt" der Use Case, wird eine Produktionsplattform für die KI-Services erstellt. Dabei spielen ein durchgängiges "End-to-End"-Datenmanagement, etwa auf Basis von NetApp ONTAP, sowie Data Pipelines eine Schlüsselrolle.

Eine durchgängige Data Pipeline einrichten

Struktur einer Data Pipeline: Sie umfasst drei Ebenen – von Edge-Systemen wie IoT-Komponenten über einen Core (Kern) bis hin zu Cloud-Instanzen.
Struktur einer Data Pipeline: Sie umfasst drei Ebenen – von Edge-Systemen wie IoT-Komponenten über einen Core (Kern) bis hin zu Cloud-Instanzen.
Foto: NetApp

Doch was ist eine Data Pipeline? Dies sind die Stationen, welche die Daten durchlaufen müssen, wenn ein KI-Modell implementiert wird:

  • den Rand einer IT-Infrastruktur (Edge),

  • den Kern (Core) sowie

  • Cloud-Umgebungen.

Die Daten werden meist am Rand (Edge) der IT-Infrastruktur erzeugt, etwa von IoT-Komponenten (Internet of Things) wie Sensoren an einer Werkzeugmaschine. Bei diesem Einspeisen ("Ingest") von Daten können wenige Gigabyte, aber auch Terabyte an Informationen anfallen.

Der Core ist das Herzstück der Datenpipeline. Dort werden die Informationen in Formate umgesetzt, mit dem das KI- oder Machine-Learning-Modell etwas "anfangen" kann. Der Kern ist zudem für weitere Aufgaben zuständig, etwa das Training der KI- und ML-Algorithmen sowie den Test und die Implementierung der Modelle. Cloud-Ressourcen wiederum lassen sich für unterschiedliche Zwecke einsetzen. Zum einen können Entwickler Grafikprozessoren in einer Cloud nutzen, um Berechnungen durchzuführen. Zum anderen dienen cloudbasierte Systeme für das Speichern und Archivieren von Daten.

Wichtig: Storage-Ressourcen und Datenmanagement

Eine leistungsfähige Data Pipeline für KI und Machine Learning erfordert nicht nur einen Unterbau aus leistungsstarken und flexiblen Storage-Lösungen, sondern auch ein umfassendes Datenmanagement.
Eine leistungsfähige Data Pipeline für KI und Machine Learning erfordert nicht nur einen Unterbau aus leistungsstarken und flexiblen Storage-Lösungen, sondern auch ein umfassendes Datenmanagement.
Foto: NetApp

Eine Herausforderung beim Aufbau Data Pipeline besteht darin, an jedem Erfassungs- und Bearbeitungspunkt der Daten die optimalen Storage- und Datenmanagement-Ressourcen bereitzustellen. Am Edge sind beispielsweise kleine und große Dateien vorzufinden, die sequenziell auf Speichermedien geschrieben werden und zudem zwischen Edge und Core hin und her laufen. Hier sind Storage-Systeme mit kurzen Latenzzeiten und einer hohen I/O-Performance gefragt. Dafür kommen beispielweise Lösungen von NetApp ONTAP Select in Betracht. Diese Software-Defined Storage-Services erlauben es, Daten auf einfache Weise zu verschieben und zu replizieren. Das gelingt, weil ein zentrales Management zum Zuge kommt, in Verbindung mit einer Data Fabric.

Eine Data Fabric ermöglicht es, Daten unabhängig von der IT-Infrastruktur zu verwalten. Das heißt, ein Unternehmen kann Storage-Systeme im hauseigenen Rechenzentrum und Cloud-Ressourcen nutzen, als handle es sich um ein integriertes Speichersystem.

Der Core: Hochleistungsserver und Flash-Storage

Im Core einer Data Pipeline ist eine hohe Rechenleistung erforderlich, um die KI- und Machine-Learning-Modelle zu trainieren. Dabei fallen viele parallele Rechenvorgänge an, für die sich Server mit High-End-Grafikprozessoren (GPUs) am besten eignen, etwa der NVIDIA DX-1. Um die Cache-Speicher der GPUs permanent mit neuen Daten zu füllen, sind wiederum Hochleistungs-Storage-Systeme mit hoher Bandbreite und kurzen Latenzzeiten erforderlich. Diese Anforderungen erfüllten All-Flash-Storage-Systeme, etwa der Reihe NetApp AFF A800 mit Latenzzeiten von unter 500 Mikrosekunden und einer Million IOPS (Input/Output Operations per Second).

Für den Einstieg kommen All-Flash-Systeme wie das AFF A300 oder AFF A200 in Betracht. Sie bieten zwar eine niedrigere Performance als das AFF A800, sind dafür aber preisgünstiger. Als Dateisystem für KI und Machine Learning empfiehlt sich NFS. Es unterstützt hohe I/O-Werte ausgelegt. Außerdem lassen sich NFS-Speicherlösungen ausgezeichnet skalieren.

Komplettlösung für schnellen Einstieg

Wer sich die Mühe ersparen möchte, Hochleistungsserver und Storage-Systeme separat zu implementieren, kann auf "All-in-One"-Lösungen zurückgreifen. Ein Beispiel ist NetApp ONTAP AI - ein integriertes Hard- und Softwaresysteme für KI-Anwendungen. Es besteht aus dem NVIDIA DGX-1 Supercomputer und dem NetApp All Flash FAS System A800. Unternehmen erhalten dadurch eine integrierte und vorkonfigurierte Lösung, mit der sie sofort KI- und ML-Projekte in Angriff nehmen können. Entwickler und Data Scientists können sich somit auf ihre Kernaufgabe konzentrieren: KI-Modelle zu erarbeiten.

Zudem sollten Ressourcen für das Backup und Archivieren von Daten zur Verfügung stehen. Hier bietet sich eine für Objekt-Daten optimierte Backup-Appliance wie NetApp StorageGRID Webscale an. Mit ihr lassen sich Datenbestände in unterschiedlichen Rechenzentren und Clouds zentral archivieren.

Tipps für die Praxis

Zum Abschluss noch ein paar Tipps für die Planung und Umsetzung von KI-Vorhaben:

  • Realistische Use Cases und fest umrissene Anwendungsszenarien definieren.

  • Die Datenqualität optimieren. Denn sie ist entscheidend für die Qualität der KI-Anwendungen.

  • Bereitstellungsmodelle prüfen: Je nach Branche und deren Anforderungen in Bezug auf Compliance und Datenschutz kommen KI-Plattformen und -Services aus einer Public Cloud, in einer Hybrid Cloud oder im eigenen Datacenter in Betracht.

  • Für einen schnellen Start integrierte Lösungen ins Auge fassen, beispielsweise NetApp ONTAP AI.

  • Eine durchgängige Data Pipeline schaffen - ohne Performance-Flaschenhälse, aber mit einem End-to-End-Datenmanagement.

  • Berücksichtigen, dass ein KI-Projekt schnell Größenordnungen von Terabyte oder gar Petabyte von Daten erreichen kann. Daher hoch skalierbare KI-Plattformen und Storage-Lösungen verwenden.

  • Prüfen, welche Anbieter von Storage-Lösungen und Datenmanagement-Plattformen einen Ansatz anbieten, mit dem sich eine integrierte Datenarchitektur aufbauen lässt. Denn damit steht und fällt der Erfolg jedes KI-Projekts.