Rechenpower für das Metaverse

Meta baut schnellsten KI-Supercomputer der Welt

25.01.2022
Von 
Martin Bayer ist Chefredakteur von COMPUTERWOCHE, CIO und CSO. Spezialgebiet Business-Software: Business Intelligence, Big Data, CRM, ECM und ERP.
Der Facebook-Mutterkonzern Meta will mit seinem neuen Numbercruncher "Research SuperCluster" bestehende Services verbessern und die technische Grundlage für sein kommendes virtuelles Universum legen, das Metaverse.
Metas KI-Superrechner Research SuperCluster (RSC) - hier könnte das Metaverse entstehen.
Metas KI-Superrechner Research SuperCluster (RSC) - hier könnte das Metaverse entstehen.
Foto: Meta

Der Research SuperCluster (RSC) arbeitet mit 760 DGX-A100-Systemen von Nvidia. Jeder dieser Grafikbeschleuniger enthält acht Prozessoren. Insgesamt kommt das RSC damit auf 6080 Graphics Processing Units (GPUs). Verbunden sind die Systeme über Nvidias Quantum-Infiniband-Technik mit einem Datendurchsatz von 1600 Gigabit pro Sekunde (Gb/s). Als Datenspeicher kommt ein sagenhaftes 175 Petabyte (PB) fassendes Storage-Array von PureStorage zum Einsatz, das von einem FlashBlade-System mit zehn PB des gleichen Herstellers sowie einem Cache-Speicher von Penguin Computing Altus mit 46 PB unterstützt wird.

RSC beschleunigt KI-Training

Erste Benchmarks hätten eine enorme Leistungssteigerung gegenüber den Vorgängersystemen ergeben, berichteten die Meta-Ingenieure Kevin Lee, Technical Program Manager, und Shubho Sengupta, Software Engineer, in einem Blog-Beitrag. Computer-Vision-Workflows ließen sich um den Faktor 20 schneller abarbeiten und komplexe Natural-Language-Processing (NLP-)Modelle drei Mal so schnell wie bisher trainieren. Ein Modell mit mehreren Milliarden Parametern könne so innerhalb von drei Wochen trainiert werden, hieß es. Früher hätte man neun Wochen warten müssen.

Bereits in der ersten Ausbaustufe hätte das RSC einen Platz unter den Top Ten der schnellsten Supercomputer der Welt sicher. Doch Meta plant bereits weiter. Noch im laufenden Jahr soll das System auf insgesamt 16.000 GPUs aufgerüstet werden. Die Performance für das Training von KI-Modellen soll sich damit noch einmal um den Faktor 2,5 erhöhen. Um die Prozessoren zügig mit den notwendigen Daten zu versorgen, werde die Bandbreite in der Anbindung der Speichersysteme auf 16 Terabit pro Sekunde (TB/s) aufgebohrt. Das ambitionierte Ziel des Konzerns: Den schnellsten KI-Supercomputer der Welt zu bauen.

Metaverse braucht enorme Rechenpower

Mit den zukünftig geplanten KI-Modellen will Meta seine existierenden Services verbessern sowie komplett neue Dienste entwickeln, speziell für das im vergangenen Jahr angekündigte Metaverse. "Die Nutzererfahrungen, die wir im Metaverse ermöglichen wollen, benötigen eine enorme Rechenleistung", sagte Meta-CEO Mark Zuckerberg. RSC werde KI-Modelle ermöglichen, die aus Billionen von Beispieldaten lernen und Hunderte von Sprachen verstehen könnten. Beispielsweise ließen sich Übersetzungsdienste in Echtzeit anbieten, wenn sich Spieler oder Projektteams aus aller Welt im virtuellen Raum treffen.

Für sein künftiges Metaverse braucht Meta-CEO Mark Zuckerberg ordentlich Rechenpower. Das Research SuperCluster (RSC) ist ein erster Baustein dafür.
Für sein künftiges Metaverse braucht Meta-CEO Mark Zuckerberg ordentlich Rechenpower. Das Research SuperCluster (RSC) ist ein erster Baustein dafür.
Foto: Frederic Legrand - COMEO - shutterstock.com

Neben dem Bau des künftigen Metaverse geht es für Meta aber auch um die Lösung von Alltagsproblemen. Politiker und Behörden in aller Welt erhöhen den Druck auf das Social Network, möglichst schnell schädliche Inhalte wie beispielsweise Hass-Posts zu identifizieren und von den Seiten zu entfernen. Auch beim Erkennen missliebiger Inhalte soll RSC helfen.

Das Research SuperCluster (RSC) hängt nur an den Meta-eigenen Rechenzentren.
Das Research SuperCluster (RSC) hängt nur an den Meta-eigenen Rechenzentren.
Foto: Meta

Meta will für das Training von RSC Daten aus seinen Produktivsystemen verwenden, beteuert aber gleichzeitig, alle Security- und Privacy-Richtlinien einzuhalten. Bevor Daten in den neuen Rechenboliden hochgeladen würden, sichere ein spezieller Privacy-Prozess, dass diese korrekt anonymisiert worden seien. Sämtliche Daten würden verschlüsselt und erst direkt vor dem Training dekodiert. Die entsprechenden Schlüssel würden nach dem Training zerstört, so dass auf ältere Daten nicht mehr zugegriffen werden könnte. Laut Meta hängt RSC auch nicht direkt am Internet. Das System sei nur im Hintergrund mit den Meta-eigenen Rechenzentren verbunden.