Ein falsch konfigurierter Enterprise Configuration Service (ECS) war die Ursache für einen großflächigen Ausfall verschiedener Microsoft-365-Dienste. Das berichtete die IT-Nachrichtenseite Bleeping.com unter Berufung auf einen Fehlerbericht von Microsoft. Der Vorfall ereignete sich schon am 21. Juli. Es habe etwa fünf Stunden gedauert, die Störung in den Griff zu bekommen, hieß es von Seiten des Softwarekonzerns.

Bei ECS handelt es sich um ein internes Konfigurations-Repository, das Microsoft-Dienste in die Lage versetzt, weitreichende dynamische Änderungen an mehreren Diensten und Funktionen vorzunehmen. Auch gezielte Änderungen, zum Beispiel an spezifischen Konfigurationen pro Tenant oder Benutzer, werden per ECS gesteuert. Ein Code-Fehler sorgte am 21. Juli dafür, dass fehlerhafte Konfigurationen rasend schnell verbreitet wurden. Interne Statusmeldungen in ECS registrierten erfolgreiche Abrufe, während diese in Wahrheit ein fehlerhaftes JSON-Objekt enthielten.

Keine Teams-Calls, keine E-Mails

Der Fehler hat eine regelrechte Kaskade von Störungen ausgelöst. Was mit kleineren, lokal begrenzten Microsoft-Teams-Problemen begann, endete mit einem großflächigen Ausfall. Davon betroffen waren auch andere Web-Dienste wie zum Beispiel Exchange Online, der Cloud-PC Windows 365 und Office Online. Etliche Unternehmen waren in ihrer Kommunikation und Zusammenarbeit massiv eingeschränkt. Teams-Calls konnten nicht stattfinden, E-Mails nicht versendet werden. Microsoft zufolge waren etwa 300.000 Verbindungen gestört. Vor allem Unternehmen in Asien und der Pazifik-Region seien betroffen gewesen, da der Ausfall genau in die Bürozeiten dort fiel.

Das Ausmaß der Störung sei abhängig davon gewesen, wie intensiv die Microsoft-Dienste die von ECS bereitgestellte fehlerhafte Konfiguration nutzten, so die Fehleranalyse der Techniker. Der Konzern arbeitet eigenen Angaben zufolge daran, die Ausfallsicherheit seiner Dienste zu verbessern. Bei zukünftigen ECS-Ausfällen will Microsoft auf frühere zwischengespeicherte Konfigurationsversionen zurückgreifen können. Außerdem sollen Fehler schneller erkannt und isoliert werden, um die Auswirkungen eines ECS-Ausfalls zu begrenzen. (ba)