芯片設計|谷歌、英偉達及EDA廠商紛紛下場,AI如何改變芯片設計?( 二 )



同樣 , 另一家EDA工具大廠Cadence 也于2021年推出了首款基于全的設計工具 Cerebrus , 可以實現數字芯片設計的自動化與規?;?。
據介紹 , Cerebrus采用獨一無二的增強型機器學習 , 實現了高達 10 倍的工程生產力提升 , 20% 的 PPA 結果改進 。 同時 , 還實現了 RTL-to-GDS 的全流程自動優化 , 從而能夠更迅速地提供更佳的 PPA , 提升設計團隊的工作效率和生產力 。 Cerebrus采用可擴展、分布式計算解決方案 , 可利用本地或云端的計算資源 , 這種高效可擴展的解決方案可以應對設計規模和復雜度的不斷攀升 。

Cadence公布的數據顯示 , 一款5nm、3.5GHz CPU的PPA優化設計 , 采用手動開發的過程 , 通常則需要多名工程師耗費數月時間 , 而使用 Cerebrus 自動改進PPA之后 , 1 名工程師僅在 10 天內 , 即可顯著改善流程推動設計收斂 。
除了EDA廠商之外 , 谷歌、英偉達也在試圖利用AI算法來直接優化芯片設計過程 。
谷歌PRIME
2021年 , 谷歌就曾表示 , 其已經使用機器學習來優化其 TPU 設計的布局 。 今年3月 , 谷歌研究人員發布的一份報告顯示 , 他們已經開發出一種名為 PRIME 的深度學習方法 , 該方法通過借鑒現有的藍圖和性能數據來生成 AI 芯片架構 。 他們聲稱 , 與谷歌生產中 EdgeTPU 加速器和使用傳統工具制作的其他設計相比 , 他們的方法可以生產出延遲更低且所需空間更少的AI芯片設計 。
他們在一份報告中寫道:“也許使用先前設計的加速器數據庫進行硬件設計的最簡單方法是使用監督機器學習來訓練預測模型 , 該模型可以預測給定加速器的性能目標作為輸入 。 然后 , 可以通過優化該學習模型相對于輸入加速器設計的性能輸出來設計新的加速器 。 ”
該團隊表示 , 與使用傳統仿真驅動方法創建的芯片設計相比 , 采用 PRIME 方法延遲最多可降低1.5倍 , 而深度學習方法還將生成上述藍圖的時間減少了 99% 。

研究人員將 PRIME 生成的芯片設計與仿真生成的 EdgeTPU 進行了九個 AI 應用程序的比較 , 其中包括圖像分類模型 MobileNetV2 和 MobileNetEdge 。 至關重要的是 , PRIME 設計針對每個應用進行了優化 。
研究人員將芯片面積限制在 27mm2以下(EdgeTPU 加速器的默認設置) , 發現 PRIME 比 EdgeTPU在延時上降低了2.69 倍(在t-RNN Enc中高達 11.84 倍) , 同時還減少了約50%的芯片面積(在 MobileNetV3 中減少了55.9%) , 這一數據震驚了研究人員 , 因為他們根本沒有訓練 PRIME 來降低芯片尺寸 。 另外 , 即使在針對定制設計的 EdgeTPU 加速器進行了優化的 MobileNet 圖像分類模型上 , PRIME 也將延遲降低了1.85倍 。


PRIME 還在零樣本設置中為看不見的應用程序構建了有效的加速器 , 其延遲優于基于仿真的方法 1.26 倍 。 而隨著訓練應用程序數量的增加 , 性能差異也會增加 。

英偉達PrefixRL
今年7月 , 英偉達也通過其技術博客宣布 , 其最新的Hopper H100 GPU架構利用PrefixRL AI模型設計了13000個算術電路實例 。 該公司的三位深度學習科學家表示 , “可以使用人工智能設計更小、更快、更高效的電路 , 以在每一代芯片中提供更高的性能 。 龐大的計算電路陣列為英偉達GPU提供了動力 , 實現了人工智能、高性能計算和計算機圖形性能前所未有的加速 。 因此 , 改進這些算術電路的設計 , 對于提高GPU芯片的性能和效率至關重要 。 “

英偉達利用PrefixRL Al模型設計了一個64位加法器電路 , 測試結果顯示 , 該64位加法器電路比最先進的EDA工具設計的電路在功能相同的情況下 , 面積減少了25% , 同時速度快 。

相關經驗推薦