商湯|亞洲最大!上海“巨無霸”AI計算中心投用,支持萬億參數大模型訓練( 三 )


(2)高效的分布式調度:AIDC具有分布式任務調度系統 , 可在成千上萬個GPU上動態調度數以萬計的計算任務 。 該系統每年調度超過2000萬個任務 , 確保研發活動能及時及有效地進行 。 在多種調度策略的支持下 , 調度系統可保持算力的高利用率 , 大降訓練一個模型所需的平均成本 。
(3)高速的數據I/O:在數據集上訓練模型時 , 每個數據樣本都會以高頻率和隨機順序加載和處理多次 。 商湯的AIDC可提供非常高的IO吞吐量 , 允許訓練任務每秒加載超過200萬張圖片 , 保證訓練任務可以全速運行而無需等待數據 。
“2018年 , 我們做了一個原型機的預研項目 , 實現了把1000塊GPU卡連在同一個網絡上去加載數據進行運算 。 今天我們正在做更大的5000~10000張卡 , 把它連在同一個網絡上去進行計算 。 ”楊帆談道 。
(4)硬件/軟件協同設計:在分布式環境中 , 協同各計算節點GPU相互通信、頻繁從分布式存儲系統中獲取數據的復雜操作 , 易造成運行時性能的顯著損失 。 對此 , 商湯采用硬件/軟件協同設計的方法 , 根據其對AI任務的理解來配置硬件設置 , 同時設計軟件棧并進行跨層優化 。 通過這種設計 , 商湯的AIDC每年可生產數以萬計的模型 。
(5)高標準的系統安全:商湯在設計其架構時在多個層級確保系統安全 。 例如 , 商湯制訂全面的指引 , 按照不同安全級別對數據進行分類 , 并授予相應的訪問權限;商湯的存儲系統包括先進的訪問控制系統;敏感數據以加密的形式存儲及傳輸;分配給不同授權組的計算資源實現了合理隔離 。 商湯的安全團隊實時監控AIDC的運行 , 并在出現潛在風險時采取行動 。
(6)綠色低碳數據中心建設:AIDC采用了各種前沿的能源優化措施 , 預期AIDC啟動后的功耗將比中國其他數據中心的行業平均水平低約10% , 每年可節省約4500萬千瓦時功耗 。 AIDC預期將在2025年前后達到碳排放峰值 , 估計峰值排放量不超過35萬公噸二氧化碳當量 , 并于2050年前后達到凈零排放 。
四、建智算中心 , 應先評估地域產業升級需求AI計算中心是否真正能帶給產業應用價值?如何高效利用AI計算中心的資源?
談及這些問題 , 楊帆說 , 商湯對于AIDC的未來應用場景非常有信心 。 商湯不僅自己做 , 還對一個地方產業升級的需求強度和規模做了很好的測算與評估 。
在他看來 , 在一個地方建設智算中心 , 首要考慮的是評估這個地方的產業基礎和未來三年的產業升級需求 , 然后測算今天的AI技術及產品供應商能否滿足這些需求 , 才能知道應該建設多大規模的智算中心 。

數據治理也是AI產業發展中的一大挑戰 。 農業時代的生產資料是土地 , 工業時代的生產資料是能源 , 而數字時代的生產資料就是數據 。
對于能源 , 一升油加一升油 , 是兩升油 。 對于土地 , 一畝地加一畝地 , 是兩畝地 。
但數據不一樣 , 就是1T數據加1T數據 , 雖然變成了2T的數據 , 但其實際價值是大于2T的 。 更多的數據放在一起 , 將帶來非線性增長的價值 。
“這個是跟過去農業時代 , 工業時代的生產資料全都不一樣的、一個極其重要的新特性 。 ”楊帆分享了一些看法 , 數據最大的價值是低成本、可復制性和聚合之后實現的非線性增長價值 。
如何實現更多數據的連接 , 同時保障數據安全和隱私可控 , 又能夠界定清楚中間的權屬規定?這些需要行業繼續探索 , 去找到一個清晰的答案 。
楊帆說 , 商湯建設AIDC也是一種探索 , 可能在未來一到兩年 , 在AIDC的試運營階段開始后 , 商湯會在這個方面重點做一些思考、摸索和嘗試 , 因為他認為這是未來最核心的幾件事情之一 。

相關經驗推薦