免费久久国产&夜夜毛片&亚洲最大无码中文字幕&国产成人无码免费视频之奶水&吴家丽查理三级做爰&国产日本亚欧在线观看

訂閱
糾錯
加入自媒體

深度丨從GPU到系統全棧,AI算力價值重心正向CPU遷移

2026-03-30 10:43
Ai芯天下
關注

前言:

在過去三年里,AI算力敘事幾乎被單一邏輯主導,GPU即算力,算力即GPU。

但當AI從模型競賽進入系統競賽,算力價值正在發生一場更深層的結構性轉移。

算力的價值重心正在從GPU芯片本身,向CPU+系統層遷移。

CPU回歸C位,從配角到調度中樞

Agentic AI的出現,徹底顛覆了AI的工作模式。

一個典型的Agent任務,往往包含數十次網絡搜索、API調用、代碼執行、文檔解析與結果編排,這些工作負載的特性,早已超出了GPU的并行優勢范疇。

在Agent的工作流中,GPU依然負責核心的token生成,而CPU承擔起了[讓token真正發揮作用]的重任。

這意味著,用戶感知到的AI響應速度與使用體驗,不再由GPU的算力上限決定,而是被CPU的處理效率牢牢卡住。

哪怕GPU能在毫秒級完成token生成,只要CPU的任務編排、工具執行出現延遲,整個系統的端到端體驗就會被無限拉長。

行業終于意識到,在Agentic AI時代,單純堆砌GPU已經解決不了根本問題。

康奈爾大學研究顯示,在五大代表性Agent工作負載中,CPU端的工具處理、邏輯調度、數據預處理環節,占總端到端延遲的比例達到43.8%—90.6%,遠高于GPU端的模型推理占比。

在最常用的Haystack RAG場景中,CPU處理甚至占據了總延遲的90%以上,GPU的推理計算僅占不到10%。

當百萬級Agent并發運行時,對CPU核心數的需求呈現指數級增長。

云廠商的實測數據顯示,同樣1萬張A100 GPU卡組成的集群,要想將GPU利用率打滿,配套的CPU核心數需要從傳統的50萬顆提升至120萬顆。

當算力規模上來之后,問題變成如何調度、分配和提高利用率,這正是CPU和系統層發揮作用的地方。

算力的消耗主體變了,價值標準隨之改變

當算力資源極其稀缺時,最重要的是[誰有GPU]。

IDC的調研數據也顯示,即使是頭部互聯網企業的AI推理集群,GPU平均利用率也長期低于40%,大量中小企業的GPU集群利用率甚至不足15%。

造成這種巨大浪費的核心原因是整個系統的數據流動、任務調度、內存管理能力,跟不上GPU的計算速度。

就像一輛頂級的超跑,在擁堵的城市道路上,根本無法發揮出最高時,而CPU正是這條道路的設計者與交通調度員。

MLPerf的行業基準測試顯示,在大模型訓練場景中,數據加載、預處理、參數同步的延遲,可占用總訓練時間的35%-60%,這直接導致GPU利用率不足40%。

GPU算力的天花板往往是由CPU的性能決定的,這種調度與管理的核心價值,在分布式AI集群中體現得更加明顯。

CXL(Compute Express Link)技術的普及,進一步強化了CPU的核心地位。

作為新一代高速互聯協議,CXL通過內存池化技術,將分散在不同服務器、不同加速卡上的內存資源,整合成一個統一的共享內存池,徹底打破了傳統架構的內存墻瓶頸。

而CPU正是整個CXL內存池的唯一主控單元,負責內存地址的統一映射、緩存一致性的維護、資源的動態分配。

實測數據顯示,基于CXL 3.0的內存池化架構,跨節點內存訪問延遲從傳統NUMA架構的220ns降至90ns,內存帶寬利用率從65%提升至92%,緩存未命中率從18%降至6%。

通用算力底座,才是AI泛化的關鍵

實體行業的AI應用幾乎都是[混合負載]場景,金融機構的服務器,既要跑核心交易系統、數據庫、風控中間件,又要跑用戶畫像的向量檢索。

制造企業的產線服務器,既要跑工業控制軟件、設備管理系統,又要跑產品質檢的計算機視覺模型。

政務系統的服務器,既要跑政務服務平臺、數據共享系統,又要跑智能問答、公文審核的大模型應用。

這些場景中,用戶最核心的訴求,不是單獨部署一套AI算力集群,而是在現有的業務系統上,無縫融合AI能力,這正是CPU的核心優勢所在。

GPU的架構設計天然面向并行計算,很難同時高效處理數據庫、中間件等串行的通用業務負載,強行混合部署只會導致兩者的性能都大幅下降。

而CPU的通用架構,天生就能適配各類業務負載與AI負載的混合運行,實現一套硬件、統一運維、統一調度,大幅降低企業的部署成本與運維復雜度。

云廠商的自研CPU,已經在這類場景中驗證了巨大的價值。

AWS Graviton4處理器,在搜索、廣告、推薦等主流在線AI應用場景中,性能相比前代提升35%-50%,相比同規格的x86實例,性價比提升30%-50%。

目前,全球已有超10萬家企業將其核心的在線AI推理業務遷移到Graviton實例上,其中既包括Epic Games這樣的互聯網企業,也包括SAP、IBM等企業級服務商。

阿里云的倚天710處理器,基于ARM v9架構與SVE2指令集,針對AI推理場景優化后,推理性能最高可提升2倍。

國內的自主可控CPU,更是借助這一趨勢,實現了AI場景的快速突破。

與此同時,CPU自身的AI能力已經實現了質的飛躍,徹底打破了[CPU不適合AI]的固有認知。

過去,CPU的AI計算依賴通用核心的矢量運算,性能與GPU差距巨大。

但現在,主流的服務器CPU都已經集成了專門的AI加速單元,通過專用指令集與硬件加速引擎,實現了AI性能的跨越式提升。

CPU為核,GPU為翼,帶來的產業變革

①AI原生的CPU架構,將成為下一代服務器芯片的核心競爭點。

過去的CPU設計,核心目標是通用計算性能的提升,AI加速只是附加功能。

未來的CPU設計,會從架構層面就針對AI負載進行原生優化。

CPU的競爭,將從單純的核數、主頻比拼,升級為AI全場景綜合能力的較量。

②端云協同的統一算力架構,CPU將成為AI泛化的核心底座。

當下的AI算力,端側、邊緣側、云側往往采用不同的架構,模型開發、適配、部署的成本極高。

這也是AWS、阿里云、華為等云廠商,都大力投入自研Arm架構CPU的核心原因。

③在AI原生的CPU賽道上,全球廠商都處于同一起跑線,國內廠商在場景理解、客戶需求適配、國產化生態上,有著天然的優勢。

鯤鵬、海光等廠商,已經在AI場景實現了技術突破,未來隨著AI在千行百業的落地,國產CPU有望從[替代者],成長為AI算力市場的核心玩家,構建起自主可控的AI算力全棧體系。

④全棧軟件生態的競爭,將成為CPU廠商的核心護城河。

CPU的AI性能能不能充分發揮,很大程度上取決于軟件生態的完善度,包括對TensorFlow、PyTorch、飛槳等主流AI框架的深度適配。

對主流大模型的量化、壓縮優化,對行業場景的算子定制,對開發工具鏈的完善。

未來,各大CPU廠商都會在軟件生態上加大投入,構建從硬件到框架、從模型到場景的全棧AI軟件體系,這將成為決定市場格局的關鍵。

⑤CPU行業的指令集競爭,出現了新的軸線。

x86陣營與Arm陣營,將圍繞Agentic工作負載展開新一輪的角逐。

Agent調用的絕大多數工具在x86架構上完成了幾十年的優化,這種生態慣性是x86最大的護城河。

Arm陣營的核心競爭力是極致的功耗效率,NVIDIA Vera/Grace、AWS Graviton、Ampere等Arm架構CPU,在同等功耗下能實現更高的并發處理能力,與Agentic工作負載輕線程的特性高度契合。

結尾:

市場的反應,永遠是產業變革最真實的注腳。

如今,CPU已經從曾經的標準化商品組件,變成了能顯著影響AI系統性能的差異化產品。

AI算力的核心問題已經從性能轉向效率,GPU依然是AI的發動機,但CPU和系統層,正在成為方向盤和變速器。

部分資料參考:印科技:《接棒HBM的新卡點!》,半導體行業觀察:《算力的新因果:AI Agent時代,被重估的CPU價值與新機遇》,半導體前線:《GPU霸權松動!代理AI發力,CPU迎來高峰?》財聯社:《CPU何以站上[算力C位]?》

       原文標題 : 深度丨從GPU到系統全棧,AI算力價值重心正向CPU遷移

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號