芯片設計|谷歌、英偉達及EDA廠商紛紛下場,AI如何改變芯片設計?( 三 )



△在同樣功能的前提下的一款64bit電路 , 基于PrefixRL設計的電路(左)面積要比基于最先進EDA工具設計的電路面積小25%
英偉達表示該技術證明了AI不僅可以從頭開始學習設計電路 , 而且這些電路比使用最新EDA工具設計的電路還要更小、更快 。
在一篇關于 PrefixRL 的六頁研究論文中 , 英偉達的研究人員表示 , 他們專注于一類稱為“并行前綴電路”(parallel-prefix circuits)的算術電路 , 其中包括加法器、增量器和編碼器等電路 , 所有這些都可以在更高級別被定義為前綴圖表 。
英偉達想弄清楚 AI 代理是否可以設計出更高質量的綴圖 , 并補充說“所有前綴圖表的狀態空間都很大【O(2^n^n)】 , 無法使用蠻力方法進行探索 。 ”
該論文寫道 , “使用電路生成器 , 即可將前綴圖轉換為帶有導線和邏輯門的電路 。 這些生成的電路隨后通過物理綜合工具加以進一步優化 , 比如使用門尺寸、復制和緩沖器插入等方法實現物理綜合優化 。
算術電路是由NAND、NOR和XOR等邏輯門 , 再配合大量導線構建而成的 , 同時既要小到能夠在指定的芯片上被大量封裝 , 又要具備極快的速度以降低性能延遲 , 同時在可能的范圍內將功率控制在最低 。 對于PrefixRL , 研究人員的關注重點是電路的大小和速度(用于降低延遲) , 因為這兩個指標往往會相互沖突 。 芯片設計的挑戰 , 就在于如何高效找到尺寸與性能最均衡的設計點 。 “簡而言之 , 我們希望在滿足延遲要求的條件下 , 盡可能縮小芯片尺寸 。 ”


△PrefixRL的一次4bit電路迭代示例
研究人員表示 , “由于這些物理綜合優化 , 最終的電路屬性(包括延遲、面積和功率)無法直接由原始前綴圖屬性(例如電平和節點數)轉換而來 。 所以AI代理才需要學習設計前綴圖 , 嘗試突破這道人類難以逾越的從前綴圖、到最終電路屬性的優化之路 。 我們將算術電路設計視為一種強化學習(Reinforcement Learning)任務 , 訓練一個代理來優化算術電路的面積和延遲特性 。 對于前綴電路 , 我們還專門設計了一個環境 , 允許強化學習代理在其中添加或刪除前綴圖內的節點 。 ”
接下來 , 設計流程要使前綴圖合法化 , 確保其中始終保持正確的前綴和計算方法 , 而后通過合法化的前綴圖創建電路 。 再引入物理綜合工具優化電路 , 最終測量電路的面積和延遲特性 。 在整個過程中 , 強化學習代理會通過添加或刪除節點的一系列步驟構建起前綴圖 。
Nvidia 研究人員在他們的工作中使用了完全卷積神經網絡和 Q 學習算法(一種強化學習算法) 。 該算法使用前綴圖的網格表示來訓練電路設計代理 , 網格中的每個元素都映射到前綴節點 。 網格表示用于 Q 網絡的輸入和輸出——輸出網格中的每個元素表示用于添加或刪除節點的 Q 值——神經網絡預測面積和延遲屬性的 Q 值 。

運行PrefixRL的對于算力需求很大 。 據研究人員介紹 , 整個物理模擬任務需要為每個GPU配備256個CPU , 而且訓練時間超過32000個GPU小時 。 為了滿足如此嚴苛的資源需求 , 英偉達專門創建了一個名為“Raptor”的分布式強化學習平臺 , 專門利用英偉達硬件實現這一級別的強化學習用例 。
研究人員們寫道 , “Raptor可提供多項功能 , 可以提高可擴展性和訓練速度 , 例如作業調度、自定義網絡和GPU感知數據結構 。 在PrefixRL用例當中 , Raptor能夠將工作負載混合分配給CPU、GPU和Spot實例 。 這個強化學習應用涉及多種網絡類型 , 其中Raptor能夠在英偉達集體通信庫(NCCL)之間切換以進行點對點傳輸 , 從而將模型參數直接從學習GPU傳輸至推理GPU 。 ”

相關經驗推薦