Grafikprozessoren

So managen und verteilen Sie GPU-Ressourcen optimal

29.04.2022
Anzeige  Grafikprozessoren (GPUs) sind in Bereichen wie KI-Training unverzichtbar. Ihr effizienter Einsatz erfordert jedoch ein durchdachtes Ressourcen-Management.
GPUs sind vielseitig anwendbar, können in der Praxis jedoch zu Herausforderungen führen - Inspur kann hier mit einer Lösung aufwarten.
GPUs sind vielseitig anwendbar, können in der Praxis jedoch zu Herausforderungen führen - Inspur kann hier mit einer Lösung aufwarten.
Foto: Dmitriy Rybin - shutterstock.com

Grafikprozessoren (GPUs) können aufgrund ihrer parallelen Verarbeitungsarchitektur eine Vielzahl an Berechnungen gleichzeitig durchführen. Sie eignen sich deswegen hervorragend für Anwendungsbereiche wie Big Data, KI-Training und -Inferenz sowie das Rendern von Bildern, bei denen es darauf ankommt, möglichst schnell eine große Anzahl an Rechenoperationen durchzuführen. Allerdings stellen sich bei der GPU-Verarbeitung in der Praxis oft viele Herausforderungen, wie zum Beispiel ein schlechtes Ressourcen-Management oder eine geringe Auslastungsrate. AIStation ist eine von Inspur Information entwickelte KI-Entwicklungsplattform, die speziell zur Lösung dieser Probleme konzipiert wurde und auf einem einfach einzurichtenden und verbesserten System zur Planung von GPU-Ressourcen beruht.

Schwierigkeiten beim Management von GPU-Rechenressourcen

Entwickler, Systemforscher und Unternehmen, die im Bereich KI tätig sind, sind beim Einsatz von GPU-Rechenressourcen mit folgenden Problemen konfrontiert:

  • Unzureichende Verwaltung der GPU-Ressourcenbei geteilter Nutzung durch verschiedene Prozessoren, Personen und Aufgaben

  • Geringe Auslastungrate der GPU-Ressourcen, da bei KI-Diensten mit geringen Rechenanforderungen nicht alle GPUs voll ausgenutzt werden

  • Schwierigkeiten bei hohen Geschwindigkeiten und bei der Wiederverwendung von GPU-Ressourcen. Um den Anforderungen von Online-KI-Diensten gerecht zu werden, muss eine automatische Skalierung entsprechend den Abfragen pro Sekunde (QPS) erfolgen.

Um diese Probleme zu lösen, ermöglicht die AIStation-Inferenzplattform die stetige, feingranulare Zuweisung, Planung und Verwaltung von GPU-Ressourcen und stellt somit eine optimale Lösung für Unternehmen zur effizienten Nutzung von GPU-Ressourcen dar.

Feingranulares GPU-Ressourcen-Management mit AIStation

AIStation ermöglicht Anwendungen, die GPUs als Rechenressourcen nutzen, über ein GPU-Verteilungssystem eine einzelne GPU-Beschleunigerkarte für mehrere Container (oder Dienste) zu nutzen. Die Inferenzplattform bietet Funktionen für die granulare Zuweisung und Planung von GPU-Speicher und Kernel - genauer gesagt ermöglicht sie sowohl eine granulare Aufteilung des GPU-Kernels als auch des Speichers. Anwender können verschiedene Arten von Diensten auf ein- und derselben GPU ablaufen lassen und so eine Auslastungsrate der GPU-Ressourcen von 100 Prozent erreichen.

Darüber hinaus gewährleistet AIStation die Isolierung von Diensten auf einem Speicher. Durch die Berechnung einer optimalen Planungsstrategie ermittelt AIStation ein Schema, das überschüssige Ressourcen minimiert und die Verfügbarkeit für bereitgestellte Dienste gewährleistet. Wenn bestimmte Dienste ordnungsgemäß für verschiedene GPUs eingesetzt werden, werden ungenutzte GPU-Ressourcen für andere Dienste verfügbar. Diese Ressourcenplanung gilt auch für GPU-Ressourcen auf verschiedenen Knoten.

AIStation liefert eine Vielzahl an Vorteilen.
AIStation liefert eine Vielzahl an Vorteilen.
Foto: sakkmesterke - shutterstock.com

Mit AIStation ist zudem eine fein abgestufte Skalierung der GPU-Ressourcen auf der Grundlage von HPA und QPS möglich, das heißt, die Anzahl der Kopien von Diensten lässt sich anhand von Metriken wie CPU-Auslastungrate, durchschnittliche Speicherauslastung und QPS skalieren. Die Inferenzplattform gewährleistet schließlich einen minimalen Verlust an Rechenleistung. Das GPU-Verteilungssystem von AIStation hat einen durchschnittlichen Leistungsverlust von 1,3 Prozent, was sich nur unwesentlich auf die Anwendungsleistung auswirkt.

AIStation unterstützt mit einem Szenario-basierten Design:

  • Nicht-invasiver Architekturaufbau: AIStationlässt sich ganz einfach in andere Plattformen integrieren und nur mit YAML und Docker-Images bereitstellen. Es ist sofort verfügbar und einsatzbereit.

  • Hochverfügbarkeit (HA): Im GPU-Verteilungssystem ist jede Steuerungskomponente auf höchste Verfügbarkeit hin konzipiert. Gleichzeitig ist nur eine der Instanzen für jedes Modul führend und delegiert die Aktivität für das Modul. Fällt die Führungsinstanz aus, wird sofort eine neue Instanz ausgewählt, um eine hohe Verfügbarkeit der Steuerungskomponente zu gewährleisten.

  • Präzisere Überwachung: AIStation kann die GPU-Auslastung der Applikationen eines Anwenders in Echtzeit überwachen und relevante Daten berechnen und speichern, was eine präzisere Überwachung der GPU-Auslastung in Echtzeit ermöglicht.

AIStation in der Praxis: Finanzbranche

Ein Unternehmen aus der Finanzbranche benötigte eine einheitliche Algorithmus-Anwendungsplattform für seinen Versicherungsdienst, um verschiedene ISV-Algorithmus-Anwendungen zentral zu verwalten und die Ressourcennutzung zu optimieren. Die Wiederverwendungsrate ihrer GPU-Ressourcen war stark eingeschränkt, sodass ein manuelles Eingreifen erforderlich war, um die riesigen Mengen an Inferenzen und Berechnungen zu bewältigen. Wenn die Anpassung der Spitzenlast nicht rechtzeitig erfolgte, traten verschiedene Probleme auf, wie zum Beispiel langsame Antworten auf Anfragen, hohe Latenzzeiten bei Berechnungen und Unterbrechungen der Berechnungen.

Auch in der Finanzbranche findet AIStation immer mehr Anwendungsbereiche und trägt zu einer verbesserten Ressourcenverwaltung bei.
Auch in der Finanzbranche findet AIStation immer mehr Anwendungsbereiche und trägt zu einer verbesserten Ressourcenverwaltung bei.
Foto: jiang jie feng - shutterstock.com

Durch die Einführung der AIStation-Inferenzplattform konnte die Ressourcenverwaltung in allen großen Inferenzszenarien erheblich verbessert werden. Vor allem die Wiederverwendungsrate von GPU-Ressourcen ließ sich um 300 Prozent steigern. Dadurch konnte der Kunden nicht nur verschiedene Arten von Online-Inferenzdiensten flexibler handhaben, sondern auch die Stabilität seines Geschäftssystems maßgeblich verbessern.

Energiesektor

Das 28-köpfige Entwicklungsteam eines Unternehmens aus dem Energiesektor nutzte zwei 8-Karten-V100-GPU-Server mit 32 GB Speicher. Um die verfügbaren 16 GPUs optimal für Inferenztests nutzen zu können, mussten die Entwickler den Teammitgliedern GPU-Ressourcen manuell korrekt zuweisen. Da es weniger GPUs als Entwickler gibt, stellte die effiziente Zuweisung und Nutzung der GPU-Ressourcen ein großes Problem dar.

Mit Inspur AIStation wurde jede GPU in 8 Instanzen aufgeteilt und bekam 4 GB Speicher zugewiesen. Auf diese Weise entstanden durch die 16 GPU-Karten ganze 128 Instanzen für Entwickler, wobei jedem Entwickler 4 bis 5 Instanzen zur Verfügung standen. Die Auslastungsrate jeder GPU wurde um das 8-fache erhöht.