【產業戰報】記憶體快訊

【產業戰報】記憶體快訊
前言:Rubin ICMSP關鍵不只算力,還要記憶體!
輝達近日宣布將在 Vera Rubin 平台上採用 ICMS(推論情境記憶體儲存),目標是解決大規模推論運算中的記憶體瓶頸。新架構預期將採用 16TB TLC SSD,並將 KV 快取卸載至更具延展性的儲存體系,以強化 Rubin 的 AI 能力。
KV 快取是「AI 模型的短期記憶」。由於已經儲存先前已計算過的 key-value 配對,以避免重複運算。依據記憶體階層不同,KV 快取可配置在不同的運算記憶體層級中。例如,KV 快取可配置於 GPU HBM(G1),做為主動 KV 快取;配置於系統 DRAM(G2)做為暫存/外溢的 KV 快取;或者,做為置於本地 SSD(G3)中的暖 KV 快取;最後一種是容量最大、可跨節點共享的 KV 快取儲存層(G4)。
ICMSP 利用 DPU 所連接的 NVMe SSD 儲存來自 HBM 及 GPU 伺服器 DRAM的溢出鍵值快取資料。而 ICMSP SSD 擁有比一般 SSD 更高的頻寬與更低延遲,因為它所連接的 BlueField-4 DPU 是儲存加速器,可透過 Spectrum-6 乙太網路連接到 Vera Rubin Pod 中的 GPU,採用光子學技術,每個埠以 800 Gbps 運行。這個G3.5 層 Context Memory 為代理式 AI 的龐大快取資料而存在,主要存儲溫資料(warm data)並可隨時傳送到模型運算所需的熱資料裝置(DDR 或 HBM)。
傳統架構中,數據從 G1/G2 溢出後會直接落入 G4(慢速存儲),導致讀取時 GPU嚴重停頓。G3.5 層的引入,利用 BlueField-4 的算力與 NVMe 的速度,創造了一個「偽無限」的外部顯存池。對於 GPU 而言,訪問 G3.5 的數據雖然比 HBM 慢,但遠快於重計算,且透過預取技術(Prefetching)可以掩蓋部分延遲。

資料來源:Nvidia、富邦投顧
花旗銀行近期出具最新報告便指出,因為 Vera Rubin 平台預期將為 ICMS 運作採用 16TB TLC SSD,成為全球 NAND 需求成長動能。其中,每一套 Vera Rubin 伺服器系統需額外配置 1,152TB 的 SSD 才能運作 ICMS,全球 NAND 供應短缺將進一步惡化。
請登入以查看完整文章
閱讀VIP文章請先登入理財寶會員
文章相關標籤
關於作者
1
【最新消息】馬斯克提月球計畫,「11檔概念股」有望受惠?
2
國立大學兒讓他的退休夢碎...61歲父存300萬養老換來失控的後半生:引以為傲的獨生子成最大誤算
3
桃機10分鐘內3班機呼救「Mayday」 為何同時多台飛機燃油告急?「這航空公司」掉輪胎影響14航班
4
【台股盤後】權王營收突破4千億,加權力拼完美收官
5
【最新消息】矽光子多題材點火,「5檔概念股」強勢上攻!
月薪 7 萬 30 歲就退休!美股夢想家-施雅棠靠 3 配置滾出千萬身家、年領百萬股息!
5hours ago
02/11 強棒旺旺來交易回顧|聯合再生(3576)大漲創高
5hours ago
【ETF籌碼日報】官股大賣0056,外資、自營商大買0056達35億
8hours ago
【匯金油整理】洛根:「1、2月通膨可能走高。」
8hours ago
【台股盤後】金蛇年大漲破萬點,加權創高完美收官
8hours ago