idc|建設領先的AI原生云,百度智能云落地新一代高性能AI計算集群

text":"百度智能云新一代高性能AI計算集群落地 , 提供EFLOPS級算力支持 , 并發布新一代GPU服務器實例GPU-H5-8NA100-IB01 。 該集群基于NVIDIA A100-80GB GPU和NVIDIA InfiniBand網絡構建 , 成為領先的AI原生云算力底座 。
研究人員可基于全新發布的實例組建上千節點規模的超高性能計算集群 , 成倍縮短超大AI模型的訓練時間 , 激發AI業務創新想象力 。
新的GPU服務器實例采用百度自研的X-MAN架構的超級AI計算機為硬件平臺 。
X-MAN自2016年推出以來 , 已在鳳巢、自動駕駛、自然語言處理等百度內部業務進行大規模應用多年 , 申請六項專利 , 包括PCie Fabric架構、液冷技術、最大支持64GPU卡擴展等 , 是百度AI業務快速落地的重要基礎設施 。
目前 , X-MAN已經全面升級到第四代X-MAN 4.0 , 為AI和HPC等計算場景進行了新的優化設計 。
配置方面 , 每臺X-MAN 4.0包含8張NVIDIA A100-80GB GPU , 并可支持8張200Gb/s 的InfiniBand網卡 , 實現了高速存儲、高速無阻網絡、高性能計算于一體的超級AI計算機 。
架構方面 , X-MAN 4.0全新設計的架構縮短了數據傳輸延遲 , 提高了數據傳輸帶寬 , 有效解決本地數據傳輸的通信瓶頸 , 降低AI作業中GPU的閑置時間 。 在MLCommons 1.1榜單中 , X-MAN 4.0在同配置單機硬件性能名列TOP2 。
為了實現更高的集群運行性能 , 百度智能云專門設計了適用于超大規模集群的InfiniBand網絡架構 。 這個架構優化了網絡收斂比 , 提升了網絡吞吐能力 。 并結合容錯、交換機親和 , 拓撲映射等手段 , 得以將EFLOPS級算力的計算集群性能發揮到極致 。
經過內部NLP研究團隊的驗證 , 在這個網絡環境下的超大規模集群上提交千億模型訓練作業時 , 同等機器規模下整體訓練效率是普通GPU集群的3.87倍 。
百度副總裁謝廣軍先生表示:“AI原生云是推動企業智能化升級的核心驅動力 。 作為中國AI公有云服務市場領跑企業 , 百度智能云一直在優化提升智能計算的核心能力 。 X-MAN 4.0助力百度內部業務發展的同時 , 我們也愿意將這一領先的架構開放給百度智能云的眾多客戶 , 幫助大家一起更高效地進行AI研發與探索 , 驅動業務創新 , 邁向AI原生 。 ”
為了幫助客戶更深入地了解新的GPU服務器實例 , 以及超大規模的高性能集群構建的技術細節 , 百度智能云將與NVIDIA 于3月16日晚19:00舉辦在線研討會進行詳細分享 , 解答客戶的問題 。 直播平臺在B站(百度智能云的朋友們)、視頻號(百度智能云) 。
【idc|建設領先的AI原生云,百度智能云落地新一代高性能AI計算集群】來源:信息新報
"

    相關經驗推薦