Schwerer Cloudflare-Ausfall: Betreiber erklärt Ursache

Cloudflare hat Details zu dem massiven Ausfall vom 18. November veröffentlicht – und bestätigt damit, dass ein interner Konfigurationsfehler das weltweite Netzwerk über Stunden destabilisiert hat. Bereits am Vormittag hatten wir über erste Störungen berichtet („Cloudflare-Störung: Globales Netzwerk seit dem Vormittag beeinträchtigt“). Nun liegt die technische Analyse vor, und sie zeigt deutlich, wie ein einziger Prozess innerhalb des Systems einen globalen Kaskadeneffekt auslösen konnte.

Fehlerhafte Datei löst Kettenreaktion aus

Laut Cloudflare begann der Vorfall um 11:20 UTC, als eine neu generierte Datei für das Bot-Management-System an sämtliche Server im Netzwerk verteilt wurde. Die Datei enthielt jedoch aufgrund einer fehlerhaften Datenbank-Abfrage plötzlich doppelt so viele Einträge wie üblich. Das führte dazu, dass ein Teil der Proxy-Software die Datei nicht mehr laden konnte, weil interne Größenlimits überschritten wurden. Damit endeten zahlreiche HTTP-Anfragen mit einem 5xx-Fehler – für Nutzer sah das nach einem vollständigen Cloudflare-Ausfall aus.

Fluktuierende Fehler machten Diagnose schwieriger

Besonders verwirrend: Die Datei wurde alle fünf Minuten neu generiert – teils fehlerhaft, teils korrekt. Dadurch schwankte der Zustand des Netzwerks ständig zwischen „teilweise funktionsfähig“ und „komplett down“. Cloudflare prüfte zunächst sogar, ob ein DDoS-Angriff die Ursache sein könnte, da das Status-Dashboard ausgerechnet zur selben Zeit nicht erreichbar war. Erst als sämtliche Datenbankknoten die fehlerhafte Version erzeugten, trat das Problem stabil auf – und wurde damit endlich identifizierbar.

Rückrollung bringt Entlastung – vollständige Erholung erst am Nachmittag

Um 14:24 UTC stoppte Cloudflare die Verteilung der beschädigten Datei und ersetzte sie manuell durch eine funktionierende Version. Ab 14:30 UTC floss der Großteil des Traffics wieder normal. Die letzten betroffenen Dienste – darunter Login-Systeme, Turnstile und Teile des Dashboards – normalisierten sich erst gegen 17:06 UTC.

Betroffen waren u. a.:

Core-Proxy-Dienste (CDN, Routing, WAF)
Turnstile (Login-CAPTCHA)
Workers KV
Cloudflare Access
Dashboard-Login

In einigen Fällen wurden falsche Bot-Scores vergeben, was bei Kunden mit Bot-Regeln zu Fehlblockaden führen konnte.

Ursache lag in Änderung am Datenbanksystem

Auslöser des Problems war eine interne Umstellung im Rechte- und Sicherheitsmodell der ClickHouse-Cluster, die künftig für bessere Kontrolle sorgen sollte. Dabei wurden zusätzliche Tabellen sichtbar, was die Abfrage zur Generierung der Bot-Feature-Datei unerwartet veränderte. Die Software, die diese Datei verarbeitet, war auf eine fixe maximale Anzahl von Features ausgelegt – und stürzte ab, sobald diese Grenze überschritten wurde.

Cloudflare kündigt Maßnahmen an

Der Ausfall gilt als der schwerste seit 2019. Cloudflare kündigt weitreichende Konsequenzen an:

härtere Validierung interner Konfigurationsdateien
zusätzliche globale Kill-Switches
strengere Prüfung auf Fehlermodi in sämtlichen Proxy-Modulen
Schutzmechanismen gegen Ressourcenermüdung durch Debugging-Systeme

CEO Matthew Prince entschuldigte sich öffentlich und nannte den Vorfall „zutiefst schmerzhaft für jedes Teammitglied“.

Schwerer Cloudflare-Ausfall: Betreiber erklärt Ursache

zurück zur Startseite

2 Kommentare zu “Schwerer Cloudflare-Ausfall: Betreiber erklärt Ursache”

Schreibe einen Kommentar Abbrechen

Aktuelle News auf Deskmodder.de

alle News anzeigen

Schwerer Cloudflare-Ausfall: Betreiber erklärt Ursache

Fehlerhafte Datei löst Kettenreaktion aus

Fluktuierende Fehler machten Diagnose schwieriger

Rückrollung bringt Entlastung – vollständige Erholung erst am Nachmittag

Ursache lag in Änderung am Datenbanksystem

Cloudflare kündigt Maßnahmen an

2 Kommentare zu “Schwerer Cloudflare-Ausfall: Betreiber erklärt Ursache”

Schreibe einen Kommentar Abbrechen

WhatsApp: Forscher laden 3,5 Milliarden Profile – größter Abfluss der Geschichte

Windows 11 Kalender im Info-Bereich bekommt wieder Termine

Apple schiebt Mac Pro wohl aufs Abstellgleis

Schwerer Cloudflare-Ausfall: Betreiber erklärt Ursache

Deutsche Bahn bremst Öffnung des DB Navigators offenbar weiterhin aus

PowerToys 0.96 wieder mit neuen Highlights

Meross MS605 vorgestellt: Neuer Präsenzsensor setzt auf Thread und deutlich mehr Präzision