热播电影高清在线观看,成人精品第一区二区三区,小说阅读,休假中图片完整版电影在线

深度丨從GPU到系統全棧，AI算力價值重心正向CPU遷移

2026-03-30 10:43

Ai芯天下

關注

前言：

在過去三年里，AI算力敘事幾乎被單一邏輯主導，GPU即算力，算力即GPU。

但當AI從模型競賽進入系統競賽，算力價值正在發生一場更深層的結構性轉移。

算力的價值重心正在從GPU芯片本身，向CPU+系統層遷移。

CPU回歸C位，從配角到調度中樞

Agentic AI的出現，徹底顛覆了AI的工作模式。

一個典型的Agent任務，往往包含數十次網絡搜索、API調用、代碼執行、文檔解析與結果編排，這些工作負載的特性，早已超出了GPU的并行優勢范疇。

在Agent的工作流中，GPU依然負責核心的token生成，而CPU承擔起了[讓token真正發揮作用]的重任。

這意味著，用戶感知到的AI響應速度與使用體驗，不再由GPU的算力上限決定，而是被CPU的處理效率牢牢卡住。

哪怕GPU能在毫秒級完成token生成，只要CPU的任務編排、工具執行出現延遲，整個系統的端到端體驗就會被無限拉長。

行業終于意識到，在Agentic AI時代，單純堆砌GPU已經解決不了根本問題。

康奈爾大學研究顯示，在五大代表性Agent工作負載中，CPU端的工具處理、邏輯調度、數據預處理環節，占總端到端延遲的比例達到43.8%—90.6%，遠高于GPU端的模型推理占比。

在最常用的Haystack RAG場景中，CPU處理甚至占據了總延遲的90%以上，GPU的推理計算僅占不到10%。

當百萬級Agent并發運行時，對CPU核心數的需求呈現指數級增長。

云廠商的實測數據顯示，同樣1萬張A100 GPU卡組成的集群，要想將GPU利用率打滿，配套的CPU核心數需要從傳統的50萬顆提升至120萬顆。

當算力規模上來之后，問題變成如何調度、分配和提高利用率，這正是CPU和系統層發揮作用的地方。

算力的消耗主體變了，價值標準隨之改變

當算力資源極其稀缺時，最重要的是[誰有GPU]。

IDC的調研數據也顯示，即使是頭部互聯網企業的AI推理集群，GPU平均利用率也長期低于40%，大量中小企業的GPU集群利用率甚至不足15%。

造成這種巨大浪費的核心原因是整個系統的數據流動、任務調度、內存管理能力，跟不上GPU的計算速度。

就像一輛頂級的超跑，在擁堵的城市道路上，根本無法發揮出最高時，而CPU正是這條道路的設計者與交通調度員。

MLPerf的行業基準測試顯示，在大模型訓練場景中，數據加載、預處理、參數同步的延遲，可占用總訓練時間的35%-60%，這直接導致GPU利用率不足40%。

GPU算力的天花板往往是由CPU的性能決定的，這種調度與管理的核心價值，在分布式AI集群中體現得更加明顯。

CXL（Compute Express Link）技術的普及，進一步強化了CPU的核心地位。

作為新一代高速互聯協議，CXL通過內存池化技術，將分散在不同服務器、不同加速卡上的內存資源，整合成一個統一的共享內存池，徹底打破了傳統架構的內存墻瓶頸。

而CPU正是整個CXL內存池的唯一主控單元，負責內存地址的統一映射、緩存一致性的維護、資源的動態分配。

實測數據顯示，基于CXL 3.0的內存池化架構，跨節點內存訪問延遲從傳統NUMA架構的220ns降至90ns，內存帶寬利用率從65%提升至92%，緩存未命中率從18%降至6%。

通用算力底座，才是AI泛化的關鍵

實體行業的AI應用幾乎都是[混合負載]場景，金融機構的服務器，既要跑核心交易系統、數據庫、風控中間件，又要跑用戶畫像的向量檢索。

制造企業的產線服務器，既要跑工業控制軟件、設備管理系統，又要跑產品質檢的計算機視覺模型。

政務系統的服務器，既要跑政務服務平臺、數據共享系統，又要跑智能問答、公文審核的大模型應用。

這些場景中，用戶最核心的訴求，不是單獨部署一套AI算力集群，而是在現有的業務系統上，無縫融合AI能力，這正是CPU的核心優勢所在。

GPU的架構設計天然面向并行計算，很難同時高效處理數據庫、中間件等串行的通用業務負載，強行混合部署只會導致兩者的性能都大幅下降。

而CPU的通用架構，天生就能適配各類業務負載與AI負載的混合運行，實現一套硬件、統一運維、統一調度，大幅降低企業的部署成本與運維復雜度。

云廠商的自研CPU，已經在這類場景中驗證了巨大的價值。

AWS Graviton4處理器，在搜索、廣告、推薦等主流在線AI應用場景中，性能相比前代提升35%-50%，相比同規格的x86實例，性價比提升30%-50%。

目前，全球已有超10萬家企業將其核心的在線AI推理業務遷移到Graviton實例上，其中既包括Epic Games這樣的互聯網企業，也包括SAP、IBM等企業級服務商。

阿里云的倚天710處理器，基于ARM v9架構與SVE2指令集，針對AI推理場景優化后，推理性能最高可提升2倍。

國內的自主可控CPU，更是借助這一趨勢，實現了AI場景的快速突破。

與此同時，CPU自身的AI能力已經實現了質的飛躍，徹底打破了[CPU不適合AI]的固有認知。

過去，CPU的AI計算依賴通用核心的矢量運算，性能與GPU差距巨大。

但現在，主流的服務器CPU都已經集成了專門的AI加速單元，通過專用指令集與硬件加速引擎，實現了AI性能的跨越式提升。

CPU為核，GPU為翼，帶來的產業變革

①AI原生的CPU架構，將成為下一代服務器芯片的核心競爭點。

過去的CPU設計，核心目標是通用計算性能的提升，AI加速只是附加功能。

未來的CPU設計，會從架構層面就針對AI負載進行原生優化。

CPU的競爭，將從單純的核數、主頻比拼，升級為AI全場景綜合能力的較量。

②端云協同的統一算力架構，CPU將成為AI泛化的核心底座。

當下的AI算力，端側、邊緣側、云側往往采用不同的架構，模型開發、適配、部署的成本極高。

這也是AWS、阿里云、華為等云廠商，都大力投入自研Arm架構CPU的核心原因。

③在AI原生的CPU賽道上，全球廠商都處于同一起跑線，國內廠商在場景理解、客戶需求適配、國產化生態上，有著天然的優勢。

鯤鵬、海光等廠商，已經在AI場景實現了技術突破，未來隨著AI在千行百業的落地，國產CPU有望從[替代者]，成長為AI算力市場的核心玩家，構建起自主可控的AI算力全棧體系。

④全棧軟件生態的競爭，將成為CPU廠商的核心護城河。

CPU的AI性能能不能充分發揮，很大程度上取決于軟件生態的完善度，包括對TensorFlow、PyTorch、飛槳等主流AI框架的深度適配。

對主流大模型的量化、壓縮優化，對行業場景的算子定制，對開發工具鏈的完善。

未來，各大CPU廠商都會在軟件生態上加大投入，構建從硬件到框架、從模型到場景的全棧AI軟件體系，這將成為決定市場格局的關鍵。

⑤CPU行業的指令集競爭，出現了新的軸線。

x86陣營與Arm陣營，將圍繞Agentic工作負載展開新一輪的角逐。

Agent調用的絕大多數工具在x86架構上完成了幾十年的優化，這種生態慣性是x86最大的護城河。

Arm陣營的核心競爭力是極致的功耗效率，NVIDIA Vera/Grace、AWS Graviton、Ampere等Arm架構CPU，在同等功耗下能實現更高的并發處理能力，與Agentic工作負載輕線程的特性高度契合。

結尾：

市場的反應，永遠是產業變革最真實的注腳。

如今，CPU已經從曾經的標準化商品組件，變成了能顯著影響AI系統性能的差異化產品。

AI算力的核心問題已經從性能轉向效率，GPU依然是AI的發動機，但CPU和系統層，正在成為方向盤和變速器。

部分資料參考：印科技：《接棒HBM的新卡點！》，半導體行業觀察：《算力的新因果：AI Agent時代，被重估的CPU價值與新機遇》，半導體前線：《GPU霸權松動！代理AI發力，CPU迎來高峰？》財聯社：《CPU何以站上[算力C位]？》

原文標題 : 深度丨從GPU到系統全棧，AI算力價值重心正向CPU遷移

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權或其他問題，請聯系舉報。

發表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

圖片新聞

免费久久国产&夜夜毛片&亚洲最大无码中文字幕&国产成人无码免费视频之奶水&吴家丽查理三级做爰&国产日本亚欧在线观看

發表評論

登錄