阿里云發布香港可用區C服務中斷事件說明,稱將盡快處理賠償事宜


阿里云發布香港可用區C服務中斷事件說明,稱將盡快處理賠償事宜

文章插圖

阿里云發布香港可用區C服務中斷事件說明,稱將盡快處理賠償事宜

文章插圖
_原題為:阿里云發布香港可用區C服務中斷事件說明,稱將盡快處理賠償事宜)
12月25日,阿里云發布香港Region可用區C服務中斷事件說明,并向所有受到故障影響的客戶公開致歉,稱將盡快處理賠償事宜 。阿里云表示,將盡一切努力從此次事件中吸取經驗教訓,持續提升云服務的穩定性 。在說明中,阿里云公布了本次事件的故障情況、問題分析和改進措施,具體如下:
處理過程
12月18日08:56,阿里云監控到香港Region可用區C機房包間通道溫控告警,阿里云工程師介入應急處理,通知機房服務商進行現場排查 。09:01 , 阿里云監控到該機房多個包間溫升告警,此時工程師排查到冷機異常 。09:09,機房服務商按應急預案對異常冷機進行4+4主備切換以及重啟,但操作失敗,冷水機組無法恢復正常 。09:17,依照故障處理流程,啟動制冷異常應急預案,進行輔助散熱和應急通風 。嘗試對冷機控制系統逐個進行隔離和手工恢復操作,但發現無法穩定運行,聯系冷機設備供應商到現場排查 。此時,由于高溫原因,部分服務器開始受到影響 。
自10:30開始,為避免可能出現的高溫消防問題 , 阿里云工程師陸續對整個機房計算、存儲、網絡、數據庫、大數據集群進行降載處理 。期間,繼續多次對冷機設備進行操作,但均不能保持穩定運行 。
12:30,冷機設備供應商到場,在多方工程師診斷下 , 對冷塔、冷卻水管路及冷機冷凝器進行手工補水排氣操作,但系統仍然無法保持穩定運行 。阿里云工程師對部分高溫包間啟動服務器關機操作 。14:47,冷機設備供應商對設備問題排查遇到困難,其中一個包間因高溫觸發了強制消防噴淋 。15:20,經冷機設備商工程師現場手工調整配置,冷機群控解鎖完成并獨立運行,第1臺冷機恢復正常,溫度開始下降 。工程師隨后繼續通過相同方法對其他冷機進行操作 。18:55,4臺冷機恢復到正常制冷量 。19:02 , 分批啟動服務器,并持續觀察溫升情況 。19:47,機房溫度趨于穩定 。同時,阿里云工程師開始進行服務啟動恢復,并進行必要的數據完整性檢查 。
21:36 , 大部分機房包間服務器陸續啟動并完成檢查,機房溫度穩定 。其中一個包間因消防噴淋啟動,未進行服務器上電 。因為保持數據的完整性至關重要,工程師對這個包間的服務器進行了仔細的數據安全檢查,這里花費了一些必要的時間 。22:50,數據檢查以及風險評估完成,最后一個包間依據安全性逐步進行供電恢復和服務器啟動 。
服務影響
12月18日09:23,香港Region可用區C部分ECS服務器開始出現停機,觸發同可用區內宕機遷移 。隨著溫度繼續升高,受影響的服務器停機數量持續增加,客戶業務開始受到影響,影響面擴大到香港可用區C的EBS、OSS、RDS等更多云服務 。
阿里云香港可用區C的故障,沒有直接影響客戶在香港其他可用區運行的業務 , 但影響了香港RegionECS管控服務(ControlPlane)的正常使用 。因大量可用區C的客戶在香港其他可用區新購ECS實例,從12月18日14:49開始 , ECS管控服務觸發限流 , 可用性最低跌至20% ??蛻粼谑褂肦unInstances/CreateInstanceAPI購買新ECS實例時,如果指定了自定義鏡像,部分實例在購買成功之后會出現啟動失敗的現象,由于自定義鏡像數據服務依賴可用區C的單AZ冗余版本的OSS服務,無法通過重試解決 。此時 , 部分Dataworks、k8s用戶控制臺操作也受到了故障影響 。API完全恢復可用為當日23:11 。

相關經驗推薦