【產業戰報】記憶體快訊

產業隊長 張捷

2026-02-05 00:09

1,613

【產業戰報】記憶體快訊

本文章內容僅為法說會訊息分享以及教學案例之用,內文提到的股票與產業皆非個股推薦,僅為訊息分享傳遞與個人交易心法與心得,進場前請謹慎風險評估、損益自負

前言:Rubin ICMSP關鍵不只算力,還要記憶體!

  • 輝達近日宣布將在 Vera Rubin 平台上採用 ICMS(推論情境記憶體儲存),目標是解決大規模推論運算中的記憶體瓶頸。新架構預期將採用 16TB TLC SSD,並將 KV 快取卸載至更具延展性的儲存體系,以強化 Rubin 的 AI 能力。

  • KV 快取是「AI 模型的短期記憶」。由於已經儲存先前已計算過的 key-value 配對,以避免重複運算。依據記憶體階層不同,KV 快取可配置在不同的運算記憶體層級中。例如,KV 快取可配置於 GPU HBM(G1),做為主動 KV 快取;配置於系統 DRAM(G2)做為暫存/外溢的 KV 快取;或者,做為置於本地 SSD(G3)中的暖 KV 快取;最後一種是容量最大、可跨節點共享的 KV 快取儲存層(G4)。

  • ICMSP 利用 DPU 所連接的 NVMe SSD 儲存來自 HBM 及 GPU 伺服器 DRAM的溢出鍵值快取資料。而 ICMSP SSD 擁有比一般 SSD 更高的頻寬與更低延遲,因為它所連接的 BlueField-4 DPU 是儲存加速器,可透過 Spectrum-6 乙太網路連接到 Vera Rubin Pod 中的 GPU,採用光子學技術,每個埠以 800 Gbps 運行。這個G3.5 層 Context Memory 為代理式 AI 的龐大快取資料而存在,主要存儲溫資料(warm data)並可隨時傳送到模型運算所需的熱資料裝置(DDR 或 HBM)。

  • 傳統架構中,數據從 G1/G2 溢出後會直接落入 G4(慢速存儲),導致讀取時 GPU嚴重停頓。G3.5 層的引入,利用 BlueField-4 的算力與 NVMe 的速度,創造了一個「偽無限」的外部顯存池。對於 GPU 而言,訪問 G3.5 的數據雖然比 HBM 慢,但遠快於重計算,且透過預取技術(Prefetching)可以掩蓋部分延遲。

  • 資料來源:Nvidia、富邦投顧

  • 花旗銀行近期出具最新報告便指出,因為 Vera Rubin 平台預期將為 ICMS 運作採用 16TB TLC SSD,成為全球 NAND 需求成長動能。其中,每一套 Vera Rubin 伺服器系統需額外配置 1,152TB 的 SSD 才能運作 ICMS,全球 NAND 供應短缺將進一步惡化。

請登入以查看完整文章

閱讀VIP文章請先登入理財寶會員

文章相關標籤