服務熱線
0755-83044319
發(fā)布時間:2025-07-28作者來源:薩科微瀏覽:611
從端側AI芯片工程師的角度來看,面對帶寬、能耗與成本三重挑戰(zhàn),引入SRAM存算一體架構(In-Memory Computing, IMC) 是應對當前大模型端側部署瓶頸的核心解決方案之一。
一、為什么DRAM主存+傳統計算架構難以滿足端側大模型部署?
DRAM(如LPDDR5/DDR5)的總線帶寬在端側芯片上極為有限(10–50 GB/s),遠低于大模型推理所需的數據吞吐量。
以一個70億參數的FP16模型為例,模型參數約占14GB,若每輪推理都需頻繁從DRAM中調入權重,將帶來巨大的訪問延遲與能耗開銷。
數據搬移的能耗遠高于計算本身:
一次DRAM訪問:約100~200 pJ/bit
一次SRAM訪問:約1~10 pJ/bit
一次MAC操作:<1 pJ(單精度)
在Transformer這類大模型中,90%以上能耗和延遲都來源于內存訪問。
傳統Von Neumann架構中,計算單元(MAC陣列)等待內存數據的時間極長,導致NPU/AI Core利用率遠低于理想值(通常 <50%)。
將權重存入SRAM,并在SRAM中進行局部計算,可顯著減少DRAM讀寫與片上總線流量,緩解帶寬瓶頸。
SRAM的高帶寬、低延遲特性,天然適合對參數讀取頻繁的模型結構(如注意力機制中的QKV矩陣計算)。
將部分權重映射到SRAM bitcell結構中,結合周邊MAC邏輯實現矩陣向量乘法(MVM)計算。
采用低位寬計算(如INT8甚至Binary),進一步降低功耗。
典型結構如:Processing-in-SRAM,或者更激進的Analog IMC in SRAM(電壓、電流作為計算媒介)。
SRAM存算一體架構是端側AI芯片實現“大模型部署”的關鍵方向。它本質上通過“就地計算”打破傳統架構的帶寬墻,顯著提高能效比和模型推理吞吐,降低功耗和散熱壓力,同時避免昂貴的DRAM訪問帶來的BOM成本上升,是應對端側算力三大矛盾(帶寬、功耗、成本)最可行的架構突破。
免責聲明:本文采摘自“老虎說芯”,本文僅代表作者個人觀點,不代表薩科微及行業(yè)觀點,只為轉載與分享,支持保護知識產權,轉載請注明原出處及作者,如有侵權請聯系我們刪除。
友情鏈接:站點地圖 薩科微官方微博 立創(chuàng)商城-薩科微專賣 金航標官網 金航標英文站
Copyright ?2015-2025 深圳薩科微半導體有限公司 版權所有 粵ICP備20017602號 粵公網安備44030002007346號