Meta 自研 AI 推理芯片:四代路線圖深度解讀
芝能智芯出品
Meta 在AI領域有些豪賭的意味,花了好幾年時間,專心做推理芯片,基于 RISC-V 架構的、模塊化的、可以快速迭代的推理芯片。
MTIA是Meta 的人工智能加速器系列,Meta 發布了新的硬件路線圖,四代產品終于完整浮出水面:MTIA 300、400、450、500。

Part 1為什么是推理?
很多人可能不理解:為什么 Meta 不去做訓練芯片?答案很簡單訓練不是 Meta 的核心需求。
Meta 的日常運轉,依賴的是排名和推薦系統。每天數十億用戶在 Facebook、Instagram、WhatsApp 上的每一次滑動、每一次點擊,背后都有一套推薦算法在實時運算。
這套系統需要的是什么?不是超級算力,而是海量、頻繁的推理。
生成式 AI 興起之后,這個邏輯沒有改變,只是推理的規模變得更大了。
Meta 的判斷是:與其把訓練芯片的算力拿來跑推理,不如專門為推理設計芯片。用他們自己的話說,這是"針對自身特定需求高度優化的硬件"——不是最強的,但是最合適的。
MTIA 平臺基于行業標準軟件生態構建,PyTorch、vLLM、Triton 都原生支持,遵循 OCP 硬件標準。這些選擇讓 MTIA 的部署成本遠低于完全自研體系。

● MTIA 300:第一塊基石
2024 年,Meta 推出了第一代 MTIA 加速器——MTIA 300。
這款芯片的設計目標很明確:排名和推薦模型的推理加速。在生成式 AI 成為行業焦點之前,這兩類模型是 Meta 最大的算力消耗來源。
MTIA 300 基于 RISC-V 架構,這一點本身就值得注意——RISC-V 是開源指令集,不存在授權問題,也為后續迭代留足了自由度。
MTIA 300 已經投入生產,主要用于排名和推薦訓練。它奠定了模塊化設計的基礎,也驗證了 Meta 自研推理芯片這條路是走得通的。

● MTIA 400:生成式 AI 的入場券
生成式 AI 的爆發,讓 Meta 意識到 300 的能力已經不夠用了。
MTIA 400 的計算性能是 300 的五倍以上,HBM 內存帶寬提升了 50%,達到 9.2TB/s。這個數字放到當下的 AI 芯片市場里不算頂尖,但已經足夠支撐 Meta 跑更大規模的生成式 AI 推理任務。
更重要的是擴展能力。MTIA 300 最多支持 16 個節點的集群擴展,MTIA 400 一舉拉到 72 個節點。這意味著 MTIA 400 的性能和成本競爭力,終于可以和主流商用 AI 加速器正面較量了。
Meta 方面表示,MTIA 400 已完成實驗室測試,正在推進數據中心部署。

● MTIA 450:帶寬才是瓶頸
從 400 到 450,Meta 的優化方向發生了微妙的轉變。
這次是內存帶寬的直接翻倍——從 9.2TB/s 到 18.4TB/s。選擇背后有一套清晰的邏輯:生成式 AI 推理中,內存帶寬往往比原始算力更關鍵。
大模型需要頻繁訪問海量參數,帶寬不夠,算力再強也只是空轉。MTIA 450 為推理做了專門優化,HBM 帶寬翻倍的同時,還加強了對低精度數據類型——包括 Meta 自定義數據類型——的支持。
這種定制化的數據類型支持,是通用芯片很難做到的。計劃 2027 年初開始大規模部署。

● MTIA 500:模塊化的終極形態
路線圖上最后一款芯片是 MTIA 500,也是最能體現 Meta 設計哲學的一款。HBM 帶寬再提升 50%,達到 27.6TB/s,容量最高可達每臺加速器 512GB。如果 HBM 技術演進順利,這個容量數字還有進一步提升的空間。
更重要的是封裝方式的變化:MTIA 500 將采用 2×2 的小型計算芯片組配置。
Meta 在 300 到 400 的迭代中積累了大量模塊化設計經驗,2×2 配置意味著計算芯片、HBM 堆棧、網絡芯片、SoC 芯片可以獨立演進、單獨替換。
芯片從設計到量產需要兩年以上,在這個周期里工作負載可能已經發生巨大變化——模塊化是 Meta 給這個問題準備的答案。同樣計劃 2027 年大規模部署。
Part 2產品的迭代
從 300 到 500,Meta 給出了一組數據:HBM 帶寬提升 4.5 倍,計算浮點運算能力提升 25 倍。
時間跨度不到三年。四代產品,平均每代半年到一年的迭代周期。這對于芯片行業來說,是相當快的節奏。
傳統芯片從設計到量產通常需要兩到三年,Meta 能做到這一點,靠的就是模塊化——每一代都基于上一代產品,更新最關鍵的部分,其他部分盡量復用。
400、450、500 三代芯片共用同一套機架和網絡基礎設施,新芯片推出時可以直接替換舊芯片,不需要重建數據中心。
MTIA 還有一個容易被忽視的優勢:開放生態。
Meta 是 Open Compute Project(OCP)的重要成員,MTIA 的硬件設計遵循 OCP 標準。軟件層面,PyTorch、vLLM、Triton 都原生支持,不需要額外的軟件適配。
這些選擇降低了整個生態的門檻——客戶或者合作伙伴可以更平滑地接入 Meta 的硬件體系。
RISC-V 是開源指令集,OCP 是開放硬件標準,這兩件事加在一起,意味著 MTIA 的技術路線本身不存在出口管制風險。這也是為什么 MTIA 的演進路徑對國內 AI 芯片行業具有相當的參考價值。
小結
MTIA 系列的演進,專注訓練芯片的廠商在追求規模,專注推理芯片的 Meta 在追求效率。當潮水退去的時候,誰的模式更可持續,市場會給出答案。已有數十萬顆 MTIA 芯片投入生產,這個數字還在增長。
原文標題 : Meta 自研 AI 推理芯片:四代路線圖深度解讀
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
5月20日立即參評>> 【評選】維科杯•OFweek 2026中國智能制造行業年度評選
-
5月29日立即下載>> 【白皮書】工業視覺AI實戰白皮書合集
-
5月30日立即報名>> 2026激光行業應用創新發展藍皮書火熱招編中!
-
5月31日立即下載>> 【白皮書】村田室內外定位解決方案
-
即日-5.31立即申報>>> 維科杯·OFweek 2026光學行業年度評選
-
5月31日立即申報>>> 維科杯•OFweek 2026激光行業年度評選


分享









