KI-Systeme

ML-Trainings: Auf den Server kommt es an

08.03.2022
Anzeige  Wie schnell sich ML-Systeme trainieren lassen, hängt vom Server ab. Lesen Sie, worauf es dabei ankommt und welche Server am besten abschneiden.
MLPerf bestätigt die hohe Leistungsstärke von Inspur-Servern
MLPerf bestätigt die hohe Leistungsstärke von Inspur-Servern
Foto: Gorodenkoff-shutterstock.com

MLPerf umfasst eine Reihe branchenüblicher Benchmarks zur Leistungsmessung von maschinellem Lernen. Er wurde 2018 von mehreren Organisationen, darunter Google, die Harvard University und Stanford University, ins Leben gerufen. Die Benchmarks messen die Trainings- oder Inferenzzeit des Systems unter Berücksichtigung einer Zielvorgabe. Die Ergebnisse werden jedes Jahr veröffentlicht.

Der leistungsfähigste Server ist um mehr als 16 Prozent schneller

Zu den MLPerf-Trainingsaufgaben gehören die Bildklassifizierung (ResNet50), Objekterkennung (SSD und Mask R-CNN), die Verarbeitung natürlicher Sprache (BERT) usw. Dieser Artikel konzentriert sich auf das Bildklassifikationsmodell ResNet50. ResNet - eine Abkürzung für Residual Network - ist ein künstliches neuronales Netz, das häufig für die Bildklassifizierung herangezogen wird. Als ein klassisches neuronales Netz kommt es auch als Basis für viele Aufgaben bei der Verarbeitung von Kamerabildern (so genanntes Computer Vision) zum Einsatz.

Die ResNet50-Trainingsaufgabe ist in den frühesten MLPerf-v0.5-Benchmarks enthalten. Die folgende Abbildung zeigt die besten Einzelserverergebnisse von ResNet50 in den vorherigen MLPerf-Trainingsbenchmarks. In den MLPerf-Training-v0.7-Benchmarks beendete der Inspur-AI-Server NF5488A5 die ResNet50-Trainingsaufgabe in 33,37 Minuten und damit um 16,1 Prozent schneller als andere Server und führte bei der Einzelserverleistung das Ranking an. In den neuesten MLPerf-Training-v1.0-Benchmarks erledigte der Inspur-AI-Server NF5688M6 die ResNet50 Trainingsaufgabe in 27,38 Minuten, also um 17,95 Prozent schneller als das v0.7-Ergebnis.

Optimale Einzelserverleistungsergebnisse von ResNet50 in früheren MLPerf-Trainingsbenchmarks
Optimale Einzelserverleistungsergebnisse von ResNet50 in früheren MLPerf-Trainingsbenchmarks
Foto: Inspur

Leistungssteigerung durch Kombination der Schlüsselkomponenten

In den MLPerf-Training-v1.0-Benchmarks ist der für ResNet50 verwendete Datensatz ein ImageNet-2012-Datensatz mit 1,28 Millionen Bildern. Das Qualitätssoll liegt bei 75,9 Prozent und die Mindestanzahl der Durchläufe bei 5. Das vorgelegte Ergebnis ist die zum Erreichen der Zielgenauigkeit benötigte Trainingszeit (in Minuten). Kleinere Werte bedeuten bessere Leistung. Der endgültige Benchmark ist der Mittelwert von 3 Durchläufen (aus insgesamt 5 Durchläufen), wobei die höchsten und niedrigsten Ergebnisse gestrichen werden.

Die Auswahl von Hardware und Plattform ist entscheidend für die Trainingsleistung von ResNet50. Leseleistung des Laufwerks, CPU-Rechenleistung, CPU-GPU-Übertragungsleistung sowie GPU-Rechenleistung wirken sich erheblich auf die Trainingsgeschwindigkeit aus. Für dieses MLPerf-Benchmark verwendete Inspur NF5688M6- und NF5488A5-Server. Durch die Kombination der oben erwähnten Schlüsselkomponenten steigern die Server ihre Leistung und können so Trainingsaufgaben schnell erledigen und die Hardware-Leistungsanforderungen für das Training erfüllen.

Bestwerte für Inspur-Server

In einem 6U-Gehäuse beherbergt der NF5688M6 zwei der neuesten Intel-Ice-Lake-CPUs und 8 der modernsten NVIDIA-500W-A100-GPUs, die über NVSwitch miteinander verbunden sind. Dies ermöglicht eine schnelle CPU-GPU-Datenübertragung mit PCIe-4.0-Verbindung. Luftkühlungstechnologien mit einem unabhängigen Luftkanal verhindern einen Rückfluss verhindern, sodass auch bei hohen Umgebungstemperaturen eine stabile Umgebung für die 8 500W-A100-GPUs gewährleistet ist. Bei den MLPerf-Training-v1.0-Benchmarks schnitt der NF5688M6 bei der Einzelserverleistung für ResNet50, DLRM und SSD am besten ab.

Der NF5488A5 beherbergt in einem 4U-Gehäuse acht NVIDIA-A100-Hochleistungs-GPUs mit Flüssigkeitskühlung sowie zwei AMD-EPYC-7742-CPUs mit PCIe 4.0 und bietet damit eine beträchtliche Einzelservertrainingsleistung und hohen Datendurchsatz für KI-Anwendungen. NF5488A5 stellte den Rekord für die Einzelservertrainingsleistung von ResNet50 in den MLPerf-Training-v0.7-Benchmarks auf und belegte im MLPerf Training v1.0 den ersten Platz für die Einzelserverleistung von BERT.

Inspur-Server NF5688M6 (links) und NF5488A5 (rechts)
Inspur-Server NF5688M6 (links) und NF5488A5 (rechts)
Foto: Inspur

Hier gehts zum Video
Foto: Inspur

Kürzere Trainingszeiten durch gezielte Anpassungen

Die Trainingszeit für ResNet50-Modelle wird hauptsächlich von zwei Faktoren beeinflusst. Bei gleicher Leistung für andere Parameter gilt: Je weniger Schritte erforderlich sind, desto kürzer ist die Trainingszeit. Der andere Faktor ist die Geschwindigkeit für jeden dargestellten Schritt, einschließlich Lesen und Vorverarbeiten von Daten und Training.

Um diesen beiden Faktoren Rechnung zu tragen, nutzt Inspur die folgenden Anpassungsverfahren:

  1. Anpassung der Hyperparameter einschließlich Lerntempo, Stapelgröße und Optimierer, um die Anzahl der Schritte für das ResNet50-Modell von 41 auf 35 zu reduzieren und so etwa 15 Prozent Leistungssteigerung zu erzielen.

  2. Optimierung von DALI, um Dekodierung und Datenverarbeitung mit GPU-Ressourcen zu beschleunigen und etwa 1 Prozent Leistungssteigerung zu erreichen.

  3. Verbesserung der GPU-GPU-Kommunikationseffizienz mit NCCL zur Beschleunigung des Trainings, was etwa 0,1 Prozent Leistungssteigerung erbringt.

Solide Basis für Anwendungen von KI-Technologien

Nach über dreijähriger Entwicklungszeit hat sich der MLPerf-Benchmark zu einem ausgereiften Standard für die Leistungsbewertung verschiedener KI-Rechenplattformen in realen Szenarien mit aktuellen Modellen entwickelt. Inspur hat die in MLPerf v0.7 verwendete Optimierungsmethode der ResNet-Konvergenz der Allgemeinheit zur Verfügung gestellt, und die Methode wurde in den v1.0-Benchmarks weitgehend übernommen. In Zukunft werden etablierte Chip- und Systemanbieter mit ihren Soft- und Hardware-Optimierungsmethoden MLPerf mitverbessern, die Leistung von Plattformen für das KI-Computing verbessern und eine solide Grundlage für die Anwendung von KI-Technologien in weiteren Szenarien schaffen.