揭秘Cloudflare突發(fā)全球故障原因:官方稱非網(wǎng)絡(luò)攻擊
IT之家11月19日消息,Cloudflare是一家提供關(guān)鍵互聯(lián)網(wǎng)基礎(chǔ)設(shè)施服務(wù)的公司,昨晚突發(fā)全球故障,包括社交平臺(tái)X(原Twitter)和OpenAI的ChatGPT在內(nèi)的多個(gè)網(wǎng)站用戶均出現(xiàn)服務(wù)問題,被IT之家小伙伴調(diào)侃:上次Amazon掛壁帶走了半個(gè)互聯(lián)網(wǎng),這次Cloudflare帶走了剩下半個(gè)。
隨后,Cloudflare官方發(fā)布博客,解釋了昨晚全球故障的原因。

世界標(biāo)準(zhǔn)時(shí)間2025年11月18日11:20(IT之家注:北京時(shí)間19:20),Cloudflare的網(wǎng)絡(luò)開始出現(xiàn)無法傳輸核心網(wǎng)絡(luò)流量的重要故障。這表現(xiàn)為嘗試訪問客戶站點(diǎn)的互聯(lián)網(wǎng)用戶看到的錯(cuò)誤頁面,顯示Cloudflare網(wǎng)絡(luò)內(nèi)部出現(xiàn)故障。

Cloudflare官方表示,該問題并非由任何形式的網(wǎng)絡(luò)攻擊或惡意活動(dòng)直接或間接引起。相反,它是由Cloudflare數(shù)據(jù)庫系統(tǒng)權(quán)限的變更觸發(fā)的,該變更導(dǎo)致數(shù)據(jù)庫向Cloudflare機(jī)器人管理系統(tǒng)使用的“功能文件(feature file)”中輸出多個(gè)條目。該功能文件隨后大小翻倍。預(yù)期之外的大文件隨后被傳播到構(gòu)成網(wǎng)絡(luò)的全部機(jī)器上。
運(yùn)行在這些機(jī)器上的軟件用于跨網(wǎng)絡(luò)路由流量,它會(huì)讀取這個(gè)功能文件,以使Bot Management系統(tǒng)能夠及時(shí)應(yīng)對(duì)不斷變化的威脅。該軟件對(duì)功能文件的大小有限制,這個(gè)限制低于其兩倍的大小,導(dǎo)致了軟件失效。
Cloudflare官方最初錯(cuò)誤地懷疑是由超大規(guī)模DDoS攻擊引起的,隨后正確識(shí)別了核心問題,并用該文件的早期版本進(jìn)行了替換。到了北京時(shí)間22:30,核心流量基本恢復(fù)正常。在接下來的幾個(gè)小時(shí)內(nèi),官方努力減輕網(wǎng)絡(luò)各部分的負(fù)載,隨著流量重新上線。截至北京時(shí)間11月19日01:06,Cloudflare的所有系統(tǒng)均恢復(fù)正常運(yùn)行。
下圖展示了Cloudflare網(wǎng)絡(luò)提供的5xx錯(cuò)誤HTTP狀態(tài)代碼的數(shù)量。正常情況下,這個(gè)數(shù)值應(yīng)該非常低,并且在停機(jī)開始之前也是如此。

圖中11:20(北京時(shí)間19:20)之前的量是網(wǎng)絡(luò)觀察到5xx錯(cuò)誤的預(yù)期基準(zhǔn)。峰值以及隨后的波動(dòng)表明系統(tǒng)由于加載了錯(cuò)誤的特性文件而失效。值得注意的是,系統(tǒng)在一段時(shí)間后會(huì)自動(dòng)恢復(fù),然后又掛掉。這對(duì)于內(nèi)部錯(cuò)誤來說是非常不尋常的行為。
官方解釋稱,該文件每五分鐘由一個(gè)在ClickHouse數(shù)據(jù)庫集群上運(yùn)行的查詢生成,該集群正在逐步更新以改進(jìn)權(quán)限管理。只有當(dāng)查詢運(yùn)行在已更新集群部分時(shí)才會(huì)生成錯(cuò)誤數(shù)據(jù)。因此,每五分鐘都有可能生成一組良好或錯(cuò)誤的配置文件,并迅速在網(wǎng)絡(luò)中傳播。
錯(cuò)誤持續(xù)到14:30(北京時(shí)間22:30),直到官方識(shí)別并解決了根本問題,通過停止不良功能文件的生成和傳播,并將一個(gè)已知良好的文件手動(dòng)插入到功能文件分發(fā)隊(duì)列中,解決了這個(gè)問題。然后強(qiáng)制重啟了核心代理。
IT之家附受影響的服務(wù)如下:
服務(wù) / 產(chǎn)品
影響描述
核心CDN和安全服務(wù)
HTTP 5xx狀態(tài)碼。這篇帖子頂部的屏幕截圖顯示了典型錯(cuò)誤頁面,該頁面會(huì)傳遞給終端用戶。
Turnstile
Turnstile加載失敗。
Workers KV
Workers KV返回了顯著升高的HTTP 5xx錯(cuò)誤,因?yàn)閷?duì)KV的“前端”網(wǎng)關(guān)的請(qǐng)求由于核心代理故障而失敗。
控制面板
雖然儀表盤基本可以正常工作,但由于登錄頁面上的Turnstile不可用,大多數(shù)用戶無法登錄。
電子郵件安全
雖然電子郵件處理和投遞未受影響,但官方觀察到某個(gè)IP信譽(yù)源的臨時(shí)訪問中斷,這降低了垃圾郵件檢測的準(zhǔn)確性,并阻止了一些新域名年齡檢測的觸發(fā),但未觀察到對(duì)客戶的關(guān)鍵影響。官方還發(fā)現(xiàn)一些自動(dòng)遷移操作出現(xiàn)故障;所有受影響的郵件已進(jìn)行審查和修復(fù)。
訪問
對(duì)于大多數(shù)用戶,身份驗(yàn)證失敗普遍存在,從事件開始一直持續(xù)到13:05(北京時(shí)間21:05)回滾操作啟動(dòng)時(shí)?,F(xiàn)有的訪問會(huì)話未受影響。
所有失敗的認(rèn)證嘗試都導(dǎo)致顯示錯(cuò)誤頁面,這意味著在認(rèn)證失敗期間,這些用戶無法訪問目標(biāo)應(yīng)用。在此期間成功的登錄已被正確記錄。
當(dāng)時(shí)嘗試進(jìn)行的任何Access訪問配置更新要么完全失敗,要么傳播非常緩慢。所有配置更新現(xiàn)已恢復(fù)。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com

