Cloudflare hat Details zu dem massiven Ausfall vom 18. November veröffentlicht – und bestätigt damit, dass ein interner Konfigurationsfehler das weltweite Netzwerk über Stunden destabilisiert hat. Bereits am Vormittag hatten wir über erste Störungen berichtet („Cloudflare-Störung: Globales Netzwerk seit dem Vormittag beeinträchtigt“). Nun liegt die technische Analyse vor, und sie zeigt deutlich, wie ein einziger Prozess innerhalb des Systems einen globalen Kaskadeneffekt auslösen konnte.

Fehlerhafte Datei löst Kettenreaktion aus
Laut Cloudflare begann der Vorfall um 11:20 UTC, als eine neu generierte Datei für das Bot-Management-System an sämtliche Server im Netzwerk verteilt wurde. Die Datei enthielt jedoch aufgrund einer fehlerhaften Datenbank-Abfrage plötzlich doppelt so viele Einträge wie üblich. Das führte dazu, dass ein Teil der Proxy-Software die Datei nicht mehr laden konnte, weil interne Größenlimits überschritten wurden. Damit endeten zahlreiche HTTP-Anfragen mit einem 5xx-Fehler – für Nutzer sah das nach einem vollständigen Cloudflare-Ausfall aus.

Fluktuierende Fehler machten Diagnose schwieriger
Besonders verwirrend: Die Datei wurde alle fünf Minuten neu generiert – teils fehlerhaft, teils korrekt. Dadurch schwankte der Zustand des Netzwerks ständig zwischen „teilweise funktionsfähig“ und „komplett down“. Cloudflare prüfte zunächst sogar, ob ein DDoS-Angriff die Ursache sein könnte, da das Status-Dashboard ausgerechnet zur selben Zeit nicht erreichbar war. Erst als sämtliche Datenbankknoten die fehlerhafte Version erzeugten, trat das Problem stabil auf – und wurde damit endlich identifizierbar.
Rückrollung bringt Entlastung – vollständige Erholung erst am Nachmittag
Um 14:24 UTC stoppte Cloudflare die Verteilung der beschädigten Datei und ersetzte sie manuell durch eine funktionierende Version. Ab 14:30 UTC floss der Großteil des Traffics wieder normal. Die letzten betroffenen Dienste – darunter Login-Systeme, Turnstile und Teile des Dashboards – normalisierten sich erst gegen 17:06 UTC.
Betroffen waren u. a.:
- Core-Proxy-Dienste (CDN, Routing, WAF)
- Turnstile (Login-CAPTCHA)
- Workers KV
- Cloudflare Access
- Dashboard-Login
In einigen Fällen wurden falsche Bot-Scores vergeben, was bei Kunden mit Bot-Regeln zu Fehlblockaden führen konnte.
Ursache lag in Änderung am Datenbanksystem
Auslöser des Problems war eine interne Umstellung im Rechte- und Sicherheitsmodell der ClickHouse-Cluster, die künftig für bessere Kontrolle sorgen sollte. Dabei wurden zusätzliche Tabellen sichtbar, was die Abfrage zur Generierung der Bot-Feature-Datei unerwartet veränderte. Die Software, die diese Datei verarbeitet, war auf eine fixe maximale Anzahl von Features ausgelegt – und stürzte ab, sobald diese Grenze überschritten wurde.
Cloudflare kündigt Maßnahmen an
Der Ausfall gilt als der schwerste seit 2019. Cloudflare kündigt weitreichende Konsequenzen an:
- härtere Validierung interner Konfigurationsdateien
- zusätzliche globale Kill-Switches
- strengere Prüfung auf Fehlermodi in sämtlichen Proxy-Modulen
- Schutzmechanismen gegen Ressourcenermüdung durch Debugging-Systeme
CEO Matthew Prince entschuldigte sich öffentlich und nannte den Vorfall „zutiefst schmerzhaft für jedes Teammitglied“.
Zumindest war die Fehlersuche zielführend und sehr schnell – einschließlich entsprechender Kommunikation! Danke dafür!
Also war die eigentliche Ursache nicht die zu groß gewordene Datei, sondern die Software mit dem festen Limit.
Wie kann man so etwas nur programmieren?
So eine Software ist nicht zukunftssicher und es ist doch vorhersehbar, das es bei festen Limits irgendwann kracht.