Machine Learning meets Data Center

RZ-Strategien der Unternehmen im Wandel

10.07.2017
Von 
Dr. Carlo Velten schreibt als Experte zu den Themen Cloud-Platforms und -Developers, Enterprise Cloud Management und Digital Business. Dr. Carlo Velten ist CEO des IT-Research- und Beratungsunternehmens Crisp Research AG. Seit über 15 Jahren berät Carlo Velten als IT-Analyst namhafte Technologieunternehmen in Marketing- und Strategiefragen.
Zum Processing von Machine Learning-Verfahren eignet sich laut Experten Standard-x86-Hardware nur begrenzt. Viele Machine Learning-Algorithmen sind nicht nur besonders rechenintensiv, sondern laufen dann am effizientesten, wenn sie auf spezialisierter Hardware betrieben werden. Rechenzentren müssen sich darauf einstellen.

Auch kann die Abstraktion von IT-Infrastruktur via Virtualisierung im Kontext von Machine Learning eher eine Barriere beziehungsweise ein Kostentreiber sein, auf den man gerne verzichtet. Folgende Trends zeichnen sich auf der Hardware- und Infrastrukturseite ab:

  • Machine Learning-as-a-Service: Nutzung von generalisierten Machine Learning-Diensten, wie zum Beispiel Bilderkennung, Sentimentanalyse etc., via API auf den großen Cloud-Plattformen

  • Grafik-Chips: Der Einsatz von GPUs verspricht beim Processing von Machine Learning deutliche Performance- und Effizienz-Vorteile und wird von Unternehmen wie Nvidia derzeit mit neuen Enterprise-kompatiblen Produktlinien deutlich vorangetrieben.

  • Spezial-Hardware: Mittels Spezial-Hardware, wie sogenannter FGPA (Field Programmable Gate Array) oder auch ASIC (Application-Specific Integrated Circuit), lassen sich Performance und Effizienz beim Processing von Machine Learning-Verfahren weiter verbessern. So nutzt Microsoft auf der eigenen Azure Cloud sogenannte FPGA´s. Google hat vor einiger Zeit unter dem Namen Tensor seine Spezial-Hardware zur Kalkulation von Machine Learning- und vor allem Deep Learning-Algorithmen gelaunched, auch wenn diese derzeit nur in den Google-Rechenzentren betrieben und noch nicht vertrieben werden.

  • Systems-on-the Chip (SoC): Hinzu kommt der Trend, dass immer mehr IoT-Geräte und vernetzte Produkte auf eine eigene Compute-Unit und Intelligenz, zum Beispiel in Form von Machine Learning-Algorithmen, zurückgreifen müssen. Mit "Systems-on-the-Chip" beziehungsweise "Systems-on-the-programmable-Chip" werden autonome bzw. teil-autonome Embedded Systems (vernetzte Autos, Kühlschränke, Smarte Funktionskleidung etc.) ermöglicht, die einen Großteil des sogenannten "Edge Computing" bzw. "Fog Computing" ausmachen.

IT.Infrastruktur und Hardware im Kontext von Machine Learning.
IT.Infrastruktur und Hardware im Kontext von Machine Learning.
Foto: Crisp Research 2017

Für Digitalisierungsentscheider, als auch CIOs- und RZ-Leiter, wird sich in den nächsten Jahren somit einiges ändern, da man nicht mehr ausschließlich auf die gut bewährten x86-Standard-Infrastrukturen zurückgreifen kann. Denn diese eignen sich für den skalierenden, großflächigen Einsatz von Machine Learning nur noch bedingt beziehungsweise sind aus Kosten- und Performance-Gründen vielfach ungeeignet. Nach 10-Jahren der IT-Infrastruktur-Konsolidierung wird es demnächst wieder etwas "bunter" in den Rechenzentren der Unternehmen und ihrer Service- und Cloud-Provider. Vielfalt, Komplexität und Hardware-Expertise kennzeichnen die Landschaften der nächsten 5 bis 10 Jahre. In diesem Kontext stellen sich auch die großen Chip-Hersteller neu auf und investieren in eine von Machine Learning determinierte Zukunft.

Nvidia

So will Nvidia seine dominante Position im Markt für Machine Learning-Prozessoren stärken und den Umsatz seiner Produktlinien Nvidia Tesla P40, P4, Drive PX2 und Pascal P100 weiter steigern. Zur Hilfe kommt Nvidia ein attraktiver Software-Stack (CUDA, CuDNN) sowie der wahrscheinliche Launch der Volta GPU Prozessorserie zum Ende des Jahres. Die starken Quartalszahlen von Nvidia gehen eindeutig auf das positive Geschäft im Bereich Machine Learning zurück, da der Gaming-Markt sich in den letzten Jahren deutlich abgekühlt hat.

AMD

Auch AMD bereitet den Launch einer neuen GPU-Chip Serie namens Vega vor, die bis zu 25 TFLOPS mit 0,5-Precision liefern soll. Zudem wurde der Software Stack überarbeitet und unter dem Namen Radeon Open Compute Platform (ROCm) als Open Source frei verfügbar gemacht - eine interessante Alternative zu Nvidia’s CUDA and CuDNN.

Intel

Intel überarbeitet nicht nur seine Xeon-Prozessorserie mit IP aus der Nervana-Übernahme, die Machine Learning Acceleration-Funktionalität in die Standard-Chip-Serien injiziert. Zudem wird Intel eine neue Prozessor-Generation auf Basis der Nervana-Architektur unter gleichen Namen herausbringen (Nervana Engine - Codename "Lake Crest"). Damit entwickelt Intel seit langer Zeit erstmals wieder eine komplett neue Prozessor-Architektur, die nur auf einen speziellen Use Case ausgerichtet ist (ASIC). Zusammen mit der 15 Milliarden US-Dollar Übernahme von Mobileye in 2016 und dem FPGA-Hersteller Altera für 16,7 Milliarden US-Dollar in 2015 wird klar, dass auch Intel alles auf die Karte "Machine Learning" setzt.

Qualcomm und Xilinx

Aber auch Qualcomm und Xilinx schlafen nicht und investieren in großem Stile in neue Technologien und Produktlinien. So versucht Xilinx die FPGA-Technologien "Mainstream-fähig" zu machen und in die Corporate Data Center zu bringen. Wie schnell dies geht, wird sich noch zeigen. Fest steht, dass die Innovationsgeschwindigkeit und Vielfalt im Hardware-Markt wieder deutlich zunehmen.

CIOs und Machine Learning-Spezialisten können sich auf jeden Fall über eine Fülle neuer Konzepte und Architekturen freuen, wie hier in Form des "Reconfigurable Acceleration Stacks" von Xilinx exemplarisch dargestellt:

Der Reconfigurable Acceleration Stack von Xilinx im Detail.
Der Reconfigurable Acceleration Stack von Xilinx im Detail.
Foto: Xilinx