Schwerer Cloudflare-Ausfall: Betreiber erklärt Ursache

Cloudflare hat Details zu dem massiven Ausfall vom 18. November veröffentlicht – und bestätigt damit, dass ein interner Konfigurationsfehler das weltweite Netzwerk über Stunden destabilisiert hat. Bereits am Vormittag hatten wir über erste Störungen berichtet („Cloudflare-Störung: Globales Netzwerk seit dem Vormittag beeinträchtigt“). Nun liegt die technische Analyse vor, und sie zeigt deutlich, wie ein einziger Prozess innerhalb des Systems einen globalen Kaskadeneffekt auslösen konnte.

Grafik: Cloudflare

Fehlerhafte Datei löst Kettenreaktion aus

Laut Cloudflare begann der Vorfall um 11:20 UTC, als eine neu generierte Datei für das Bot-Management-System an sämtliche Server im Netzwerk verteilt wurde. Die Datei enthielt jedoch aufgrund einer fehlerhaften Datenbank-Abfrage plötzlich doppelt so viele Einträge wie üblich. Das führte dazu, dass ein Teil der Proxy-Software die Datei nicht mehr laden konnte, weil interne Größenlimits überschritten wurden. Damit endeten zahlreiche HTTP-Anfragen mit einem 5xx-Fehler – für Nutzer sah das nach einem vollständigen Cloudflare-Ausfall aus.

Grafik: Cloudflare

Fluktuierende Fehler machten Diagnose schwieriger

Besonders verwirrend: Die Datei wurde alle fünf Minuten neu generiert – teils fehlerhaft, teils korrekt. Dadurch schwankte der Zustand des Netzwerks ständig zwischen „teilweise funktionsfähig“ und „komplett down“. Cloudflare prüfte zunächst sogar, ob ein DDoS-Angriff die Ursache sein könnte, da das Status-Dashboard ausgerechnet zur selben Zeit nicht erreichbar war. Erst als sämtliche Datenbankknoten die fehlerhafte Version erzeugten, trat das Problem stabil auf – und wurde damit endlich identifizierbar.

Rückrollung bringt Entlastung – vollständige Erholung erst am Nachmittag

Um 14:24 UTC stoppte Cloudflare die Verteilung der beschädigten Datei und ersetzte sie manuell durch eine funktionierende Version. Ab 14:30 UTC floss der Großteil des Traffics wieder normal. Die letzten betroffenen Dienste – darunter Login-Systeme, Turnstile und Teile des Dashboards – normalisierten sich erst gegen 17:06 UTC.

Betroffen waren u. a.:

  • Core-Proxy-Dienste (CDN, Routing, WAF)
  • Turnstile (Login-CAPTCHA)
  • Workers KV
  • Cloudflare Access
  • Dashboard-Login

In einigen Fällen wurden falsche Bot-Scores vergeben, was bei Kunden mit Bot-Regeln zu Fehlblockaden führen konnte.

Ursache lag in Änderung am Datenbanksystem

Auslöser des Problems war eine interne Umstellung im Rechte- und Sicherheitsmodell der ClickHouse-Cluster, die künftig für bessere Kontrolle sorgen sollte. Dabei wurden zusätzliche Tabellen sichtbar, was die Abfrage zur Generierung der Bot-Feature-Datei unerwartet veränderte. Die Software, die diese Datei verarbeitet, war auf eine fixe maximale Anzahl von Features ausgelegt – und stürzte ab, sobald diese Grenze überschritten wurde.

Cloudflare kündigt Maßnahmen an

Der Ausfall gilt als der schwerste seit 2019. Cloudflare kündigt weitreichende Konsequenzen an:

  • härtere Validierung interner Konfigurationsdateien
  • zusätzliche globale Kill-Switches
  • strengere Prüfung auf Fehlermodi in sämtlichen Proxy-Modulen
  • Schutzmechanismen gegen Ressourcenermüdung durch Debugging-Systeme

CEO Matthew Prince entschuldigte sich öffentlich und nannte den Vorfall „zutiefst schmerzhaft für jedes Teammitglied“.

Schwerer Cloudflare-Ausfall: Betreiber erklärt Ursache
zurück zur Startseite

2 Kommentare zu “Schwerer Cloudflare-Ausfall: Betreiber erklärt Ursache

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Hiermit akzeptiere ich die Datenschutzerklärung für diesen Kommentar.

Aktuelle News auf Deskmodder.de
alle News anzeigen
Deskmodder