Wetter- und Klima-Anwendungen

Vorhersage-Apps profitieren von neuer Intel CPU-Generation

09.03.2022
Anzeige  Mehr FLOPS, höhere Speicherbandbreite: So wirken sich die neuen Intel Ice Lake Prozessoren auf die Leistung von Wetter- und Klimavorhersageanwendungen aus.
Leistungsstarke und verbesserte Prozessoren werden in Zukunft immer essentieller.
Leistungsstarke und verbesserte Prozessoren werden in Zukunft immer essentieller.
Foto: jamesteohart - shutterstock.com

Die Leistung von Wetter- und Klimavorhersageanwendungen hängt stark von der Speicherbandbreite und FLOPS (Gleitkommaoperationen pro Sekunde) ab. In diesem Zusammenhang ist die neue dritte Generation der Intel-Xeon-Scalable-Prozessorserie, auch Ice Lake genannt, besonders vielversprechend. Im Vergleich zur vorherigen Generation dieser Prozessorserie (Cascade Lake) weist der Chip der dritten Generation einige Verbesserungen auf:

  • Verbesserter Fertigungsprozess (10 nm statt früher 14 nm) und Erhöhung der theoretischen Transistordichte (um das 2,7-Fache)

  • Überarbeitete Mikroarchitektur und (um 20 Prozent) verbesserte IPC

  • Erhöhte maximale Zahl an Prozessorkernen (40 statt früher 28), optimierte AVX2/AVX512-Befehlssätze und erhöhte L3-Cache-Kapazität jedes Prozessorkerns (1,5 MB statt früher 1,375 MB)

  • Stark verbesserte E/A-Leistung, höhere Anzahl Speicherkanäle (8 statt früher 6) und verkürzte Speicherzugriffslatenz. Das PCIe-Protokoll wurde von PCIe 3.0 auf PCIe 4.0 umgestellt. Die UPI-Busbandbreite wurde geringfügig verbessert.

Viele Anwender erwarten nun mit Spannung, zu welchen Ergebnissen die aus den optimierten AVX-Befehlssätzen resultierenden höheren FLOPS und die verbesserte Speicherbandbreite aufgrund von mehr Speicherkanälen, führen werden. Wir - Ingenieure des chinesischen Technologieunternehmens Inspur - sind der Frage nachgegangen und haben eine Analyse mit verschiedenen gängigen Wetter- und Klimavorhersagemodellen durchgeführt.

Hier gehts zum Video
Foto: Inspur

Mit Ice Lake laufen die WRF um 42 Prozent schneller

Zunächst haben wir die WRF (Weather Research and Forecasting Model) auf dem Intel-6230-Cascade-Lake-Prozessor und dem 8358-Ice-Lake-Prozessor unter Verwendung von 224 Prozessorkernen getestet. Das WRF-Modell lief 695 Sekunden auf der 6230-Prozessorplattform und 489 Sekunden auf der 8358-Prozessorplattform, wobei die Leistung auf der letztgenannten Plattform um 42 Prozent stieg (siehe Abbildung 1). Das liegt vor allem daran, dass WRF eine rechen- und speichergebundene Anwendung ist und die 8-Kanal-Speicherarchitektur des Ice-Lake-Prozessors die Speicherbandbreite verbessert. Darüber hinaus verbesserten die höheren FLOPS-Werte und der latenzarme Zugriff auf den Speicher erheblich die Leistung von WRF auf der 8358-Prozessorplattform.

Vergleich der WRF-Leistung auf den Prozessorplattformen 6230 und 8358
Vergleich der WRF-Leistung auf den Prozessorplattformen 6230 und 8358

Vorhersagemodell MPAS-A mit Ice Lake sogar 71 Prozent schneller

Wir testeten außerdem die MPAS-A-Leistung (Model for Prediction Across Scales-Atmosphere) auf dem Intel-6230-Cascade-Lake-Prozessor und dem 8358-Ice-Lake-Prozessor unter Verwendung von 320 Prozessorkernen. MPAS-A lief 26,5 Sekunden auf der 6230-Prozessorplattform und 15,5 Sekunden auf der 8358-Prozessorplattform, wobei die Leistung auf der letztgenannten Plattform um 71 % zunahm (siehe Abbildung 2). Ähnlich wie WRF ist auch MPAS-A eine speichergebundene Anwendung. Die erhöhte Anzahl von Speicherkanälen im 8358-Prozessor trug daher ebenfalls zur Leistungssteigerung von MPAS-A bei.

Abbildung 3 zeigt den Vergleich von Echtzeit-FLOPS und Speicherbandbreite auf einem einzelnen Rechenknoten für den MPAS-A-Testfall, der auf den Prozessorplattformen 6230 und 8358 läuft. Wie aus der Abbildung ersichtlich ist, lieferte MPAS-A auf der 8358-Prozessorplattform eine wesentlich höhere Leistung als auf der 6230-Prozessorplattform, was auf die starke Verbesserung der FLOPS und Speicherbandbreite zurückzuführen ist. Außerdem lag das BF-Verhältnis von MPAS-A auf der 6230-Prozessorplattform bei etwa 2,55 und auf der 8358-Prozessorplattform bei etwa 2,40. Der Grund für das geringfügig niedrigere BF-Verhältnis auf der 8358-Prozessorplattform ist die geringere LLC-Fehlerrate, die sich aus dem zusätzlichen L3-Cache jedes Prozessorkerns ergibt.

Vergleich der MPAS-A-Leistung auf den Prozessorplattformen 6230 und 8358
Vergleich der MPAS-A-Leistung auf den Prozessorplattformen 6230 und 8358
Vergleich von Echtzeit-FLOPS und Speicherbandbreite auf einem einzelnen Rechenknoten für den MPAS-A-Testfall, der auf den Prozessorplattformen 6230 und 8358 läuft
Vergleich von Echtzeit-FLOPS und Speicherbandbreite auf einem einzelnen Rechenknoten für den MPAS-A-Testfall, der auf den Prozessorplattformen 6230 und 8358 läuft
Foto: Inspur

Satte Leistungszugewinne beim Community Earth System Model

Der Test wurde auf dem Ice-Lake-Prozessor 8358 und drei Cascade-Lake-Prozessoren, darunter 6248, 6230 und 6258R, unter Verwendung eines Knotens durchgeführt. CESM (Community Earth System Model) lieferte auf der 8358-Ice-Lake-Prozessorplattform eine deutlich höhere Leistung als auf den Cascade-Lake-Prozessoren. Die Leistung stieg um 94 Prozent gegenüber dem 6230-Prozessor, um 83 Prozent gegenüber dem 6248-Prozessor und um 65 Prozent gegenüber dem 6258R-Prozessor (siehe Abbildung 4). CESM ist IO-gebunden und kommunikationsgebunden. Daher konnte die Leistungssteigerung keinen idealen linearen Wert erreichen und fiel etwas ab, lag aber immer noch bei 83 Prozent (im Vergleich zum 6248-Prozessor) und 94 Prozent (im Vergleich zum 6230-Prozessor).

Vergleich der CESM-Leistung auf verschiedenen Prozessorplattformen
Vergleich der CESM-Leistung auf verschiedenen Prozessorplattformen

Fazit

Bei einer gleichen Anzahl an Prozessorkernen verbesserte sich die WRF-Leistung auf der Prozessorplattform Ice Lake 8358 im Vergleich zur Prozessorplattform Cascade Lake 6230 um 42 % und die MPAS-A-Leistung um 71 %. Das liegt vor allem daran, dass WRF eine rechen- und speichergebundene Anwendung und MPAS-A ebenfalls eine speichergebundene Anwendung ist. Die 8-Kanal-Speicherarchitektur des Ice-Lake-Prozessors verbessert die Speicherbandbreite. Darüber hinaus verbesserten die höheren FLOPS-Werte und der latenzarme Zugriff auf den Speicher erheblich die Leistung von WRF und MPAS-A auf der 8358-Prozessorplattform. Bei dem nicht durch die Speicherbandbreite begrenzten CESM steigerten die deutlich höhere Speicherbandbreite und FLOPS des Ice-Lake-Prozessors die CESM-Leistung um 82,7 Prozent gegenüber dem 6248-Prozessor und um 94,1 Prozent gegenüber dem 6230-Prozessor.