該公司的和 Sora 服務從下午 1 點開始降級或不可用。至 : 下午OpenAI 在事件報告中表示,太平洋時間。報告稱,該事件是由於新的遙測服務壓垮 Kubernetes 控制平面並在公司的關鍵系統中產生級聯故障而引起的。該公司在報告中表示:“這一事件是內部變革的結果,目的是在我們的機隊中推出新的遙測技術,而不是由安全事件或最近的發射引起的。”
報告稱,OpenAI 部 電話號碼數據 署了高可靠性,因為該服務將收集詳細的 Kubernetes 控制平面指標並提高公司對其係統狀態的可見性。報告稱,遙測服務部署四分鐘後,發生了中斷,因為它導致執行資源密集型 Kubernetes API 操作,導致 Kubernetes API 伺服器不堪重負,並導致大多數 OpenAI 大型叢集中的 Kubernetes 控制平面癱瘓。
根據報告,OpenAI 在幾分鐘內檢測到並識別了該問題並開始修復。報告稱,該公司正在實施並優先考慮多項措施來防止類似事件,包括改善分階段推出以及更好地監控基礎設施變更。報告稱:“我們對這一事件給我們所有客戶造成的影響表示歉意——從 ChatGPT 用戶到開發人員,再到依賴 OpenAI 產品的企業。”
|