顯卡|讓你的2060顯卡當3080用?這個國產AI加速項目有點猛

顯卡|讓你的2060顯卡當3080用?這個國產AI加速項目有點猛

我們常說 , 現在很多人工智能項目程序考驗的是鈔能力 , 沒錢堆顯卡硬件 , 根本就無法訓練哪怕稍微大一點的深度學習模型 。 特別是現在大模型越來越流行 , 越來越多了 。 雖然我們普通人能站在巨人的肩膀上 , 用很多大廠或高手開源出來的預訓練模型 , 不過機智客覺得我們更多情況下 , 自己都是受制于自己的硬件條件的 。 比如同等型號類型(比如同為某型號的super或Ti)我們是10系列顯卡 , 那么有些要求20系列顯卡的應用或深度學習項目就做不了 , 如果是20系列顯卡 , 肯定在某些項目中 , 比不上30系列顯卡 。
顯卡 , 不僅是那些廣大普通勞動人民游戲黨們心中的痛 , 也是我們廣大普通勞動人民調參俠AI愛好者心中的痛 。 不同的是 , 游戲界的兄弟姐妹們 , 面對顯卡桎梏 , 估計“沒的救” , 而對于深度學習愛好者們 , 估計還有得救 。 比如機智客看到報道的這個國產的名為Colossal-AI的項目 。 這貨 , 讓你的顯卡做原來做不了的事 , 訓練原來訓練不了的項目 。 沒錯 , 它是一個“加速器”:整合了多種深度學習并行方法的AI系統 。
【顯卡|讓你的2060顯卡當3080用?這個國產AI加速項目有點猛】
這個項目在多維并行、大規模優化、自適應任務調度、消除冗余內存等方面擁有獨特的功能優勢 。 機智客看相關資料顯示 , 這個也就是說 , 在以往數據并行、流水并行、張量并行基礎上 , 添加了自研的2維/2.5維/3維張量并行方法 , 以及序列并行實現 。 而自研LAMB、LARS等大規模優化器 , 解決了泛化誤差問題 。 通過演化算法 , Colossal-AI動態地優化調度決策 , 提升GPU利用率 。 另外在消除冗余內存方面 , 它使用zero redundancy optimizer技術 , 通過切分優化器狀態、梯度、模型參數 , 使GPU僅保存當前計算所需的部分 , 從而來消除數據并行、模型并行中存在的內存冗余 。 同樣 , 在面對傳統大模型難以部署的問題 , 它也可以僅使用少量GPU資源實現低成本部署大模型 。
不僅如此 , 這個項目還既考慮到了現在讓很多人詬病的能耗問題 , 又顧及到了使用者的體驗問題也就是易用性問題 。 比如盡可能減少數據移動量 , 比如僅修改少量代碼 , 就能將已有的單機代碼快速擴展到并行計算集群上 。
回到現實測試環境 , 在同等情況下訓練GPT-3 , Colossal-AI這貨能將訓練速度提高10.7% 。 通過系統優化 , 還能用比之前少幾十塊的GPU資源(比如從之前的128塊 , 降低到96塊)實現幾乎同樣的速度 。 要知道 , 這可是大模型啊 。
別的我們接觸的少 , 用我們以前用過的GPT-2來舉例子看看 , 據了解 , 研究人員僅用了256塊GPU , 耗時82.8小時就將15億參數的GPT-2訓練完成了 , 而更大的GPU規模呢 , 豈不是四五十個小時就能搞定了 。 是不是比較卓越?最后回到標題 , 當然了 , 機智客說讓我們的2060顯卡當3080顯卡用 , 面對本文提及的項目似乎并無意義 , 不過這樣的AI項目 , 的確是在降低我們的硬件成本和時間成本 。 雖然對單個的顯卡 , 而當我們切換到生產環境中以后 , 類似這樣的AI項目就是在讓我們GPU資源的利用提升了一個高度 , 以往不能訓練的 , 現在可以訓練了 。 如此AI , 豈不快哉 。

    相關經驗推薦