阿里巴巴|自動找出復雜故障根本原因,阿里AI獲智能運維國際競賽冠軍

阿里巴巴|自動找出復雜故障根本原因,阿里AI獲智能運維國際競賽冠軍

文章圖片


家里WIFI如果發生故障 , 檢查下路由器基本就能發現原因 。 但對于擁有復雜架構的云計算平臺來說 , 要找出故障原因極為復雜和耗時 。 阿里打造出根因分析通用框架 , 利用AI快速定位故障根因 , 已應用于部分云計算產品 , 節省時間超過一半 , 準確率超過80% 。 該框架也在近期舉辦的ICASSP’22 AIOps Challenge網絡智能運維國際競賽中獲得冠軍 。
ICASSP(International Conference on Acoustics Speech and Signal Processing)是信號處理領域規模最大的國際學術會議 。 其中 , ICASSP’22 AIOps Challenge網絡智能運維競賽由香港中文大學(深圳)等機構主辦 , 希望用機器學習等方式來自動找出網絡故障的根本原因 , 此次共有382支隊伍參賽 。 由阿里達摩院決策智能實驗室和阿里云計算平臺組成的團隊獲得冠軍 , 并受主辦方之邀將其中主要算法以論文的形式發表在ICASSP上 。

阿里團隊MindOps獲得競賽冠軍
所謂根因分析(Root Cause Analysis) , 是指找到故障的根本原因 , 這是智能運維AIOps的重要研究方向 。 以云計算平臺為例 , 其穩定性至關重要 , 但由于架構復雜 , 模塊眾多 , 一旦出現故障 , 如果純靠人工來排查費時費力 , 已難以滿足需求 。 因此 , 基于機器學習等智能方式的根因分析應運而生 。
不過 , 根因分析的技術門檻頗高 , 挑戰重重 。 首先是運維數據往往來源于不同系統 , 形式多樣 , 需要大海撈針找出關鍵信息 。 其次是容易被表象迷惑 , 大型系統中 , 故障傳播的鏈路往往很長 , 根本原因可能隱藏在深層次節點中 。 此外還存在標注樣本數據少 , 異常少見等問題 。
【阿里巴巴|自動找出復雜故障根本原因,阿里AI獲智能運維國際競賽冠軍】阿里打造的根因分析通用框架 , 解決了上述難題 。 針對多源異構的海量數據 , 以時序分析技術來提取關鍵信息;針對標注樣本少 , 利用時間序列相似性等多種方法來進行數據增強;針對故障傳播鏈路長 , 運用結合了專家經驗和因果圖的圖算法來找出根本原因 。
該框架構建了豐富的算法工具箱和兵器庫 , 已應用于阿里云實時計算、通用計算等多個重要產品中 , 如Blink/Flink、MaxCompute、Dataworks等 , 幫助運維人員及時發現異常 , 快速定位問題根因 , 準確率達80%以上 , 相較之前能節省時間一半以上 。 比如實時計算平臺的熱點機器問題 , 會導致負載過高、作業緩慢 , 其原因鏈條較長 , 可能出自硬件故障 , 也可能是作業本身 , 人工排查較為耗時 , 而使用該框架能夠快速定位根因 。 此外 , 它還能幫助發現較為隱蔽的異常 , 比如部分機器下線會導致資源不足 , 迫使一些客戶等待排隊 , 這些在常規集群整體作業中難以發現 。

根因分析工具箱
此外 , 基于該框架的一篇論文之前還被國際頂會CIKM2021收錄 , 研究人員受邀作30分鐘的在線演講(Oral Presentation) 。

    相關經驗推薦