漲價(jià)潮里,DeepSeek選擇了清場(chǎng)

發(fā)現(xiàn)沒有,上周五DeepSeek V4發(fā)布后不到48小時(shí),人們甚至還沒來(lái)得及用它跑完一個(gè)完整項(xiàng)目,官方就甩出了另一枚炸彈。
Pro版本API價(jià)格限時(shí)2.5折,優(yōu)惠期持續(xù)到5月5日。緊接著,Pro和Flash的輸入緩存命中價(jià)格一步到位,打到原價(jià)的十分之一。

第一反應(yīng)是困惑。
3月以來(lái),無(wú)論海外的OpenAI、Anthropic,還是國(guó)內(nèi)的智譜、阿里、騰訊,AI產(chǎn)品與“降價(jià)”二字徹底絕緣。模型越做越大,API價(jià)格水漲船高,跑分結(jié)果一路往上,用戶對(duì)著賬單無(wú)話可說(shuō)。行業(yè)在短短一個(gè)月內(nèi)形成了驚人的默契:AI就該越來(lái)越貴,想體驗(yàn)到更好的智能,就得付更高的價(jià)格。而DeepSeek V4 Pro的價(jià)格已經(jīng)逼近國(guó)內(nèi)AI產(chǎn)品的下限,F(xiàn)lash版本比舊模型還便宜。此時(shí)繼續(xù)降價(jià),邏輯上無(wú)法解釋。
第二反應(yīng)是震驚。
輸入緩存命中價(jià)格降到0.025元,在智能體時(shí)代說(shuō)“接近免費(fèi)”沒有夸張成分。而且緩存命中的降價(jià)是永久的,不是限時(shí)活動(dòng)。一個(gè)自然的質(zhì)疑隨之而來(lái):這是不是文字游戲?必須緩存命中才能享受這個(gè)價(jià)格,實(shí)際使用中命中率能有多少?實(shí)測(cè)結(jié)果給出了答案:不是噱頭,是真的便宜。
當(dāng)國(guó)內(nèi)外同行還在為幾塊錢的定價(jià)調(diào)整反復(fù)權(quán)衡時(shí),DeepSeek直接把價(jià)格表里的小數(shù)點(diǎn)往左挪了一位。開發(fā)者眼里,這是慈善。競(jìng)爭(zhēng)對(duì)手眼里,這是價(jià)格戰(zhàn)。但兩者都沒有觸及本質(zhì)。
這是在清場(chǎng)。是一場(chǎng)早已分出勝負(fù)的成本斬殺。
DeepSeek之所以能在算力緊缺、人才流動(dòng)的環(huán)境下敢于如此激進(jìn)地調(diào)價(jià),原因藏在那份58頁(yè)的技術(shù)報(bào)告中。它早已不需要燒錢換市場(chǎng)。它是在用一套從頭重構(gòu)的底層架構(gòu),把大模型的推理成本推向了人們從未想象過(guò)的數(shù)量級(jí)。
01
記憶的工業(yè)化
讀技術(shù)報(bào)告時(shí),一個(gè)數(shù)字跳了出來(lái):在百萬(wàn)token上下文場(chǎng)景下,V4的KV Cache占用僅僅是前代V3.2的10%。十分之一的定價(jià),源頭就在這里。
要講清楚這件事,得從KV Cache說(shuō)起。今天人們與大模型的對(duì)話遠(yuǎn)比幾年前復(fù)雜,附上幾十頁(yè)的文檔作為參考資料已經(jīng)司空見慣。模型必須把這些冗長(zhǎng)的內(nèi)容記住,才能正確回答問題。這種記憶就是KV Cache。
問題在于,長(zhǎng)篇大論帶來(lái)的記憶既復(fù)雜又臃腫。一本百萬(wàn)字的書看起來(lái)輕薄,模型卻需要占用十幾張昂貴顯卡的顯存來(lái)保存記憶。實(shí)現(xiàn)長(zhǎng)上下文窗口的成本,一直居高不下。
有人選擇接受現(xiàn)實(shí),DeepSeek選擇了另一種路徑:掀翻傳統(tǒng)的記憶方式。
第一種新方法叫壓縮稀疏注意力。傳統(tǒng)注意力機(jī)制中,一個(gè)token對(duì)應(yīng)一組KV向量。壓縮稀疏注意力的做法是,通過(guò)可學(xué)習(xí)的線性投影和Softmax函數(shù)計(jì)算出壓縮權(quán)重,將連續(xù)多個(gè)token的KV狀態(tài)在序列維度上融合成一個(gè)單一條目。
翻譯成直覺能理解的話:以前模型需要逐字逐句記住用戶發(fā)來(lái)的內(nèi)容,現(xiàn)在它學(xué)會(huì)段落總結(jié),把每幾十個(gè)詞的核心意義濃縮成一句話。在V4 Pro中,壓縮率設(shè)為4,僅這一步,緩存體積在序列長(zhǎng)度上直接縮減75%。
第二種方法更加激進(jìn),叫重度壓縮注意力。它試圖把遠(yuǎn)大于常規(guī)壓縮窗口的token記憶壓進(jìn)一個(gè)條目,不做稀疏檢索,而是全局密集注意力計(jì)算。代價(jià)是計(jì)算開銷增加,回報(bào)是壓縮率驚人。在V4 Pro中,這一層的壓縮率是128。段落總結(jié)還夠,直接做篇章提煉,一整頁(yè)內(nèi)容濃縮成幾個(gè)關(guān)鍵詞。
但激進(jìn)壓縮必付代價(jià)。局部細(xì)粒度信息和嚴(yán)格的因果關(guān)系,都會(huì)被這種暴力壓縮破壞。DeepSeek的解法是,在注意力機(jī)制中增加一個(gè)獨(dú)立分支:窗口大小為128的滑動(dòng)窗口。最近128個(gè)token不被壓縮,以此保證模型對(duì)近期上下文的精確感知。緩存管理上,異構(gòu)KV Cache架構(gòu)將未壓縮token作為一種狀態(tài)獨(dú)立管理,讓高壓縮比下的回答質(zhì)量得以維持。
還有一步不能忽略:混合精度存儲(chǔ)與磁盤復(fù)用。KV Cache中的特征維度,只有用于旋轉(zhuǎn)位置編碼的最后64維保留BF16精度,其余全部量化為FP8格式。物理存儲(chǔ)又砍掉一半。
在這些層層削減之后,緩存體積已被壓縮90%以上,因此V4可以將這些高度壓縮的KV條目直接放到廉價(jià)的固態(tài)硬盤中。用戶發(fā)起長(zhǎng)文本請(qǐng)求時(shí),系統(tǒng)從硬盤直接拉取已壓縮的緩存,跳過(guò)了昂貴的GPU預(yù)填充計(jì)算,同時(shí)極大節(jié)省了HBM顯存。
成本降到十分之一,順理成章。
這是一種記憶的工業(yè)化。過(guò)去,記憶是手工作坊,每個(gè)細(xì)節(jié)都要原樣保存。現(xiàn)在,記憶變成了流水線,有標(biāo)準(zhǔn)化工序、有壓縮算法、有分級(jí)存儲(chǔ)。冗余被剔除,本質(zhì)被保留。
02
算力的結(jié)構(gòu)性瘦身
除了顯存占用,推理計(jì)算時(shí)的浮點(diǎn)運(yùn)算次數(shù),是衡量算力消耗最主要的標(biāo)準(zhǔn)。在1M長(zhǎng)上下文下,V4 Pro的單token推理FLOPs只有前代V3.2的27%。
下降的核心,是一套動(dòng)態(tài)稀疏選擇機(jī)制。即使有了壓縮緩存,查詢向量和前面幾萬(wàn)個(gè)壓縮后的KV向量計(jì)算注意力分?jǐn)?shù),計(jì)算量仍然龐大。DeepSeek的做法是:對(duì)于當(dāng)前查詢向量,模型通過(guò)下采樣和上采樣矩陣將其映射到低維隱空間,生成一個(gè)用于檢索的索引Query向量。這個(gè)索引向量與歷史緩存的壓縮塊計(jì)算粗略得分,每次生成token時(shí)只檢索得分最高的1024個(gè)壓縮KV條目,再進(jìn)行后續(xù)的核心注意力計(jì)算。
傳統(tǒng)注意力機(jī)制中,解碼計(jì)算復(fù)雜度隨上下文長(zhǎng)度線性增長(zhǎng)。壓縮稀疏注意力將復(fù)雜度強(qiáng)制截?cái)酁槌?shù)級(jí)運(yùn)算。當(dāng)上下文長(zhǎng)度達(dá)到一百萬(wàn)時(shí),常數(shù)級(jí)的計(jì)算量幾乎可以忽略不計(jì)。這是27%這個(gè)數(shù)字的結(jié)構(gòu)性來(lái)源。
與此同步推進(jìn)的,是精度的系統(tǒng)性妥協(xié)。V4不僅將混合專家架構(gòu)的專家權(quán)重量化為FP4精度,還首次將FP4深入注意力計(jì)算的核心。Query和Key向量的激活值緩存、加載、矩陣乘法,全部在FP4精度下運(yùn)行。量化感知訓(xùn)練期間,索引得分也從FP32降到BF16。硬件層面,F(xiàn)P4精度的吞吐量是FP8的兩倍。這種極低精度計(jì)算讓長(zhǎng)上下文的注意力計(jì)算速度加倍,同時(shí)維持了99.7%的KV檢索召回率。
99.7%的召回率值得品味。這意味著,算力下降了,精度幾乎沒有損失。過(guò)去人們本能地認(rèn)為,更便宜意味著更差。DeepSeek用數(shù)據(jù)證明,這個(gè)等式不總是成立。在工程的世界里,冗余和裕度并不天然等于更好的結(jié)果。
03
底層的極致壓榨
自頂向下看完整套算法優(yōu)化,再往下一層,是DeepSeek一貫的看家本領(lǐng):對(duì)底層基礎(chǔ)設(shè)施的徹底壓榨。這種優(yōu)化已經(jīng)到了“摳門”的地步,卻構(gòu)成了集群吞吐量提升和降價(jià)護(hù)城河的真實(shí)來(lái)源。
V4 Pro參數(shù)量達(dá)到1.6萬(wàn)億,在國(guó)內(nèi)僅次于Kimi系列模型。但這也是問題所在。混合專家架構(gòu)中,專家并行的跨節(jié)點(diǎn)通信,隨著參數(shù)膨脹成為瓶頸。DeepSeek團(tuán)隊(duì)用自研的TileLang語(yǔ)言編寫底層融合算子,將MoE層的計(jì)算按波次劃分。一波專家的通信一旦完成,GPU立刻開始計(jì)算,網(wǎng)絡(luò)層同時(shí)開始并行傳輸下一波專家的token。這種流水線式的重疊調(diào)度,將推理階段的常規(guī)工作負(fù)載加速了1.50到1.73倍,硬件利用率逼近極限。均攤到每個(gè)請(qǐng)求上的算力折舊成本,被進(jìn)一步壓低。
還有一個(gè)針對(duì)智能體應(yīng)用場(chǎng)景的獨(dú)特優(yōu)化。AI模型在執(zhí)行復(fù)雜任務(wù)時(shí),往往需要先運(yùn)行一個(gè)額外的小模型進(jìn)行意圖識(shí)別或工具調(diào)用的判斷。V4的解法更巧妙:在輸入序列后附加專用的特殊token進(jìn)行標(biāo)記。由于模型原生支持多級(jí)思考和長(zhǎng)短期記憶管理,可以直接復(fù)用主模型的KV Cache來(lái)并行執(zhí)行這些輔助任務(wù)。額外模型的維護(hù)成本和重復(fù)預(yù)填充的計(jì)算開銷,被一并消除。
這一步的意義,不是省了幾臺(tái)服務(wù)器。它指向一種哲學(xué)層面的分工:工具和意圖之間的界限被模型內(nèi)部化了。過(guò)去需要外部輔助系統(tǒng)完成的功能,現(xiàn)在被模型本身的結(jié)構(gòu)所吸收。這是壓縮,也是統(tǒng)一。
04
定價(jià)權(quán)的轉(zhuǎn)移
混合壓縮注意力疊加硬盤低成本緩存,等于十分之一的緩存命中價(jià)格。稀疏注意力加上FP4精度再加上底層極致榨取,等于2.5折的推理價(jià)格。理解了這些技術(shù),就能看明白這次突如其來(lái)的降價(jià),本質(zhì)不在慈善,也不在價(jià)格戰(zhàn)。這是利用技術(shù)代差發(fā)動(dòng)的降維打擊。
說(shuō)來(lái)有些諷刺。在國(guó)內(nèi)AI市場(chǎng)漲價(jià)的主旋律中,行業(yè)在一個(gè)月內(nèi)形成了心照不宣的默契:AI就該越來(lái)越貴。然后DeepSeek一言不發(fā),讓這種默契化為泡影。自研的千億MoE架構(gòu)、把單token成本打骨折的混合注意力機(jī)制,使得API價(jià)格降到對(duì)手不想、也不敢跟進(jìn)的水平。
這已經(jīng)不是同一個(gè)維度的競(jìng)爭(zhēng)。
DeepSeek從未想過(guò)燒錢換市場(chǎng),它背后是自研的整套推理框架,從底層算子到上層服務(wù)的全鏈路掌控。降價(jià),只是因?yàn)槌杀菊娴慕迪聛?lái)了。
而那些選擇漲價(jià)的企業(yè),無(wú)論是主動(dòng)還是被動(dòng),無(wú)意中暴露了一個(gè)更殘酷的事實(shí):它們的技術(shù)棧和成本結(jié)構(gòu),根本不在自己手里。
這輪洗牌過(guò)后,大模型市場(chǎng)的定價(jià)權(quán)將發(fā)生轉(zhuǎn)移。
過(guò)去,價(jià)格由“我能買到的最優(yōu)模型成本”來(lái)定義。現(xiàn)在,價(jià)格由DeepSeek的自研模型成本來(lái)定義。當(dāng)錨點(diǎn)已被砸到地板價(jià),漲價(jià)的廠商會(huì)突然發(fā)現(xiàn),手里的牌一張都打不出了。
百萬(wàn)級(jí)token上下文的廉價(jià)處理能力,讓過(guò)去因成本懸置而無(wú)法落地的長(zhǎng)文本分析、復(fù)雜Agent任務(wù)、橫跨多輪的記憶與規(guī)劃,都獲得了經(jīng)濟(jì)可行性。這不是一個(gè)模型能力的突破,這是應(yīng)用層即將大爆發(fā)的底層許可。
DeepSeek平臺(tái)及時(shí)打消了外界傳言“降價(jià)以應(yīng)對(duì)競(jìng)爭(zhēng)”的說(shuō)法。“此次調(diào)整正是技術(shù)與規(guī)模效應(yīng)形成正循環(huán)后,我們向市場(chǎng)自然傳導(dǎo)成本優(yōu)勢(shì)。”這種表述,比任何反擊都更有力。
05
最后的話
回顧整件事,有一條更深的線索。
價(jià)格從來(lái)不只是數(shù)字,它是權(quán)力結(jié)構(gòu)的物質(zhì)外衣。當(dāng)一個(gè)技術(shù)的定價(jià)權(quán)從供給方轉(zhuǎn)移到效率方手中,它意味著舊格局開始瓦解。
20世紀(jì)初,福特用流水線把汽車價(jià)格從富人玩具打到工人階層可承受的范圍,背后的力量不是慈善,是生產(chǎn)效率的代際躍遷。今天DeepSeek把大模型API價(jià)格打到同行的十分之一,性質(zhì)是一樣的。誰(shuí)掌握了最底層的效率,誰(shuí)就掌握了定價(jià)權(quán)。誰(shuí)掌握了定價(jià)權(quán),誰(shuí)就定義了下一個(gè)時(shí)代的基礎(chǔ)設(shè)施。
硅谷有一種廣為流傳的敘事:AGI將在某個(gè)實(shí)驗(yàn)室被秘密誕生,然后單方面重塑世界。DeepSeek的實(shí)踐提供了一種更安靜的敘事:真正的權(quán)力轉(zhuǎn)移,不需要一次驚艷的跑分或一篇石破天驚的論文。它只需要讓技術(shù)報(bào)告里藏著一行小字,把成本打到所有人無(wú)法跟進(jìn)的位置。然后用一個(gè)普通的周末,輕描淡寫地把價(jià)格表更新。
Token終將變?yōu)樗娨粯拥幕A(chǔ)資源。這句話說(shuō)了好幾年,一直像愿景。直到這個(gè)周末,它突然變成了可以用0.025元買到的東西。
原文標(biāo)題 : 漲價(jià)潮里,DeepSeek選擇了清場(chǎng)
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-

落地?zé)o錫!京東首個(gè)物流機(jī)器人超級(jí)工廠來(lái)了
-

OpenAI發(fā)布的AI瀏覽器,市場(chǎng)為何反應(yīng)強(qiáng)烈?
-

馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-

機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-

存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-

長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-

豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-

字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
最新活動(dòng)更多
-
即日-5.20立即下載>> 【限時(shí)免費(fèi)】物理場(chǎng)仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測(cè)未來(lái)·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會(huì)
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國(guó)機(jī)器人產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國(guó)機(jī)器人行業(yè)年度評(píng)選
-
精彩回顧立即查看>> 【在線會(huì)議】液冷服務(wù)器信號(hào)完整性及冷卻液關(guān)鍵電參數(shù)測(cè)試
推薦專題
- 1 特斯拉Optimus Gen3量產(chǎn)在即,哪些環(huán)節(jié)最具確定性?
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實(shí)測(cè):中文穩(wěn)、細(xì)節(jié)炸,設(shè)計(jì)師慌了
- 3 AI狂歡遇上油價(jià)破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 4 6000億美元估值錨定:字節(jié)跳動(dòng)的“去單一化”突圍與估值重構(gòu)
- 5 Tesla AI5芯片最新進(jìn)展總結(jié)
- 6 連夜測(cè)了一波DeepSeek-V4,我發(fā)現(xiàn)它可能只剩“審美”這個(gè)短板了
- 7 熱點(diǎn)丨AI“瑜亮之爭(zhēng)”:既生OpenClaw,何生Hermes?
- 8 2026,人形機(jī)器人只贏了面子
- 9 AI界的殺豬盤:9秒刪庫(kù)跑路,全員被封號(hào),還繼續(xù)扣錢!
- 10 AI Infra產(chǎn)業(yè)鏈卡在哪里了?
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享





