【產業研究報告】AI ASIC 搶吃GPU市場,台廠IC設計長線受惠!(上)

2024-06-12 17:49

更新:2024-06-12 17:56

15801
Source: Shutterstock

 

本文您將會看到:

上篇:

- 什麼是ASIC?跟GPU差異為何?

- 四大CSP大舉開發ASIC!Google、Amazon、Microsoft、META積極搶吃輝達AI市場!

下篇:

- 前端/後端IC設計是什麼?IC設計廠需要會哪些?

- 誰拿到訂單?謠言滿天飛!全球IC設計廠深度比較

- 結論

什麼是ASIC?跟GPU差異為何?

ASIC(Application Specific IC;特殊應用積體電路),是一種客製化的IC晶片,專為特定某個功能設計,可以因使用者的需求特別做對應功能的開發。一般現在市場上所談到的ASIC,都特指用於做AI 模型訓練/推論為主要功能的晶片,本文中的ASIC亦指相同功能。

而同樣是可以用來做AI訓練/推論用的GPU(Grapghic Processing Unit;圖形處理器),主要應用比較廣泛,對比ASIC來說,GPU一開始的功能是繪圖渲染,用作遊戲、圖像處理較多,後來輝達(NVIDIA)發現自家的GPU中所使用的CUDA技術,應用在AI模型訓練上具有奇效,因此輝達推出了一系列專用於AI訓練/推論所用的GPU。

目前輝達的GPU在AI訓練/推論的領域中,性能上還是最佳,但相對應的價格也最貴,過往A100/H100到B100/B200的價格皆遠高於自主開發的ASIC,同樣是用作AI訓練/推論的晶片,一片GPU的算力可以達到ASIC的10倍,但價格上也會是10倍或以上,這也使得開發ASIC具有強勁的性價比。

四大CSP大舉開發ASIC!Google、Amazon、Microsoft、META積極進攻輝達AI市場!

由於GPU的價格高昂,以及防止輝達吃下AI計算的所有市場份額,四大CSP(Cloud Service Provider;雲端服務供應商)(Google, Amazon, Microsoft, Meta)積極開發ASIC,用作AI訓練/推論的另一個解決方案。

ASIC與GPU是互補的,不是互相代替

從終端AI模型訓練(Training)的需求角度來看,GPU的晶片算力雖然輾壓ASIC,但AI模型在訓練上,晶片算力並不是越高越好,訓練大型的AI模型用GPU才會值回票價。訓練中小型的AI模型用上H100這種高規格的GPU,成本的負擔會非常大,並不需要使用頂規的GPU來做計算。ASIC的優勢在於訓練中小AI模型上更適合。

而ASIC能夠提供的除了性價比外,還有更低的功耗,更低的功耗代表著資料中心的運營成本能夠降低,電量的需求也會比較低。ASIC在設計之初能夠對應各種需求去做特化的方式,從根本上就會使得功耗比GPU更低。

因此GPU對AI訓練/推論提供的面向中,是屬於最高階需求那個層級,GPU規格高、價格昂貴的同時,提供了市面上其他人提供不了的最高規格的AI訓練/推論功能;另一方面ASIC提供的就會是一個性價比更高的解決方案,對於AI推論上可以用GPU 1/10的價格,取得約一半GPU性能的方案,同時也能讓CSP在開發AI模型時,規避掉完全依賴輝達(Nvidia)做為唯一的AI供應商的風險。

四大CSP ASIC細談

最早投入ASIC,晶片也最有競爭力Google

ASIC的主要開發商以Google最早投入心力,於2016年開發的TPU原先作為雲端服務計算使用,隨著生成式AI時代的來臨,最新款的TPU v5/ TPU v5e/ TPU v5p,以及往後的TPUv6/ TPU v7,發展方向都以AI訓練/推論作為主要研發功能。某幾代TPU的算力甚至比同期發表的GPU更為優秀,如TPU v4對比同期發表的Nvidia A100 GPU,在算力表現上大約是A100的1.1-1.2倍,而扣掉成本算下來,TPUv4的表現甚至在性價比上強過A100 2倍以上。現今最新款TPU v5p是算力最大的款式,而TPU v5e的CP值較高。

Google的ASIC開發主要合作夥伴是博通(Broadcom)(AVGO),博通與Google自2015年TPU首代開發時就是其合作夥伴,一直以來多數TPU的前後端都是由博通設計,市場共識認為下一代TPU v6以及用於資料中心的ARM based CPU,博通仍將持續拿下Google的訂單。但博通的ASIC設計專案毛利率高達70%,對比多數IC設計同業毛利相當之高。因此市場目前多數認為Google未來在前端IC設計的部分建置完善後,市場傳言TPU v7的訂單可能會給到聯發科(2454)。(IC前後端設計的部分將在下篇說明。)

後進者不落人後-Amazon AWS(Amazon Web Service)

AWS的主要ASIC晶片為Trainium/Inferentia系列,用於做AI訓練以及推論,以及資料中心的CPU Graviton系列。最早AWS的ASIC晶片也是用於自家的雲服務平台上,後隨著AI崛起始將晶片研發重心轉到訓練/推論上。AWS最早的Inferentia 1於2019年推出,合作夥伴是世芯-KY(3661),主要是由Amazon負責前端設計,後端由世芯負責。

目前產線上的Trainium 1/Inferentia 2 的合作夥伴皆為世芯-KY,Trainium 2/Inferentia 3 則由邁威爾(Marvell)(MRVL)負責,再下一代的Trainium 3/Inferentia 4 訂單則又交由世芯。

後來居上,OpenAI、Copilot助陣-Microsoft 微軟

微軟(Microsoft)在AI ASIC上的開發源自於旗下OpenAI、Copilot的需求。微軟在資料中心上目前多數仍使用GPU為主。微軟在ASIC部分於2023年底發布了用於AI訓練/推論用的Maia 100晶片。與微軟合作開發Maia 100的IC設計廠商是創意(3443),市場預計未來Maia 200的訂單也將持續由創意取得。

最晚起步,大砸千金奮起直追-Meta

Meta在資料中心上訓練的晶片目前近乎全數使用Nvidia的GPU,在2024年初宣布其ASIC晶片MTIA 1與博通合作開始研發,MTIA 1主要的功能也是在於AI的訓練/推論上。Meta選擇博通合作的理由也很直接,因為Meta進入市場比較晚,需要快速地研發出效能強勁的AI晶片,而整個委託IC設計市場上前後端IC設計最完整的正是博通,Meta不惜代價的選擇了訂價較高的博通,以及大力購買大量的GPU,可以看出Meta想在資料中心部分趕上其他CSP的決心。

 

延伸閱讀:

【產業研究報告】AI ASIC 搶吃GPU市場,台廠IC設計長線受惠!(下)

 

*本文章之版權屬筆者與 CMoney 全曜財經,未經許可嚴禁轉載,否則不排除訴諸法律途徑。

*本文章所提供資訊僅供參考,並無任何推介買賣之意,投資人仍須謹慎評估,自行承擔交易風險

文章相關標籤

想要收藏您喜愛的內容嗎?

加入會員即可收藏