Foto: jamesteohart - shutterstock.com
Die Leistung von Wetter- und Klimavorhersageanwendungen hängt stark von der Speicherbandbreite und FLOPS (Gleitkommaoperationen pro Sekunde) ab. In diesem Zusammenhang ist die neue dritte Generation der Intel-Xeon-Scalable-Prozessorserie, auch Ice Lake genannt, besonders vielversprechend. Im Vergleich zur vorherigen Generation dieser Prozessorserie (Cascade Lake) weist der Chip der dritten Generation einige Verbesserungen auf:
Verbesserter Fertigungsprozess (10 nm statt früher 14 nm) und Erhöhung der theoretischen Transistordichte (um das 2,7-Fache)
Überarbeitete Mikroarchitektur und (um 20 Prozent) verbesserte IPC
Erhöhte maximale Zahl an Prozessorkernen (40 statt früher 28), optimierte AVX2/AVX512-Befehlssätze und erhöhte L3-Cache-Kapazität jedes Prozessorkerns (1,5 MB statt früher 1,375 MB)
Stark verbesserte E/A-Leistung, höhere Anzahl Speicherkanäle (8 statt früher 6) und verkürzte Speicherzugriffslatenz. Das PCIe-Protokoll wurde von PCIe 3.0 auf PCIe 4.0 umgestellt. Die UPI-Busbandbreite wurde geringfügig verbessert.
Viele Anwender erwarten nun mit Spannung, zu welchen Ergebnissen die aus den optimierten AVX-Befehlssätzen resultierenden höheren FLOPS und die verbesserte Speicherbandbreite aufgrund von mehr Speicherkanälen, führen werden. Wir - Ingenieure des chinesischen Technologieunternehmens Inspur - sind der Frage nachgegangen und haben eine Analyse mit verschiedenen gängigen Wetter- und Klimavorhersagemodellen durchgeführt.
Foto: Inspur
Mit Ice Lake laufen die WRF um 42 Prozent schneller
Zunächst haben wir die WRF (Weather Research and Forecasting Model) auf dem Intel-6230-Cascade-Lake-Prozessor und dem 8358-Ice-Lake-Prozessor unter Verwendung von 224 Prozessorkernen getestet. Das WRF-Modell lief 695 Sekunden auf der 6230-Prozessorplattform und 489 Sekunden auf der 8358-Prozessorplattform, wobei die Leistung auf der letztgenannten Plattform um 42 Prozent stieg (siehe Abbildung 1). Das liegt vor allem daran, dass WRF eine rechen- und speichergebundene Anwendung ist und die 8-Kanal-Speicherarchitektur des Ice-Lake-Prozessors die Speicherbandbreite verbessert. Darüber hinaus verbesserten die höheren FLOPS-Werte und der latenzarme Zugriff auf den Speicher erheblich die Leistung von WRF auf der 8358-Prozessorplattform.
Vorhersagemodell MPAS-A mit Ice Lake sogar 71 Prozent schneller
Wir testeten außerdem die MPAS-A-Leistung (Model for Prediction Across Scales-Atmosphere) auf dem Intel-6230-Cascade-Lake-Prozessor und dem 8358-Ice-Lake-Prozessor unter Verwendung von 320 Prozessorkernen. MPAS-A lief 26,5 Sekunden auf der 6230-Prozessorplattform und 15,5 Sekunden auf der 8358-Prozessorplattform, wobei die Leistung auf der letztgenannten Plattform um 71 % zunahm (siehe Abbildung 2). Ähnlich wie WRF ist auch MPAS-A eine speichergebundene Anwendung. Die erhöhte Anzahl von Speicherkanälen im 8358-Prozessor trug daher ebenfalls zur Leistungssteigerung von MPAS-A bei.
Abbildung 3 zeigt den Vergleich von Echtzeit-FLOPS und Speicherbandbreite auf einem einzelnen Rechenknoten für den MPAS-A-Testfall, der auf den Prozessorplattformen 6230 und 8358 läuft. Wie aus der Abbildung ersichtlich ist, lieferte MPAS-A auf der 8358-Prozessorplattform eine wesentlich höhere Leistung als auf der 6230-Prozessorplattform, was auf die starke Verbesserung der FLOPS und Speicherbandbreite zurückzuführen ist. Außerdem lag das BF-Verhältnis von MPAS-A auf der 6230-Prozessorplattform bei etwa 2,55 und auf der 8358-Prozessorplattform bei etwa 2,40. Der Grund für das geringfügig niedrigere BF-Verhältnis auf der 8358-Prozessorplattform ist die geringere LLC-Fehlerrate, die sich aus dem zusätzlichen L3-Cache jedes Prozessorkerns ergibt.
Foto: Inspur
Satte Leistungszugewinne beim Community Earth System Model
Der Test wurde auf dem Ice-Lake-Prozessor 8358 und drei Cascade-Lake-Prozessoren, darunter 6248, 6230 und 6258R, unter Verwendung eines Knotens durchgeführt. CESM (Community Earth System Model) lieferte auf der 8358-Ice-Lake-Prozessorplattform eine deutlich höhere Leistung als auf den Cascade-Lake-Prozessoren. Die Leistung stieg um 94 Prozent gegenüber dem 6230-Prozessor, um 83 Prozent gegenüber dem 6248-Prozessor und um 65 Prozent gegenüber dem 6258R-Prozessor (siehe Abbildung 4). CESM ist IO-gebunden und kommunikationsgebunden. Daher konnte die Leistungssteigerung keinen idealen linearen Wert erreichen und fiel etwas ab, lag aber immer noch bei 83 Prozent (im Vergleich zum 6248-Prozessor) und 94 Prozent (im Vergleich zum 6230-Prozessor).
Fazit
Bei einer gleichen Anzahl an Prozessorkernen verbesserte sich die WRF-Leistung auf der Prozessorplattform Ice Lake 8358 im Vergleich zur Prozessorplattform Cascade Lake 6230 um 42 % und die MPAS-A-Leistung um 71 %. Das liegt vor allem daran, dass WRF eine rechen- und speichergebundene Anwendung und MPAS-A ebenfalls eine speichergebundene Anwendung ist. Die 8-Kanal-Speicherarchitektur des Ice-Lake-Prozessors verbessert die Speicherbandbreite. Darüber hinaus verbesserten die höheren FLOPS-Werte und der latenzarme Zugriff auf den Speicher erheblich die Leistung von WRF und MPAS-A auf der 8358-Prozessorplattform. Bei dem nicht durch die Speicherbandbreite begrenzten CESM steigerten die deutlich höhere Speicherbandbreite und FLOPS des Ice-Lake-Prozessors die CESM-Leistung um 82,7 Prozent gegenüber dem 6248-Prozessor und um 94,1 Prozent gegenüber dem 6230-Prozessor.