免费久久国产&夜夜毛片&亚洲最大无码中文字幕&国产成人无码免费视频之奶水&吴家丽查理三级做爰&国产日本亚欧在线观看

訂閱
糾錯
加入自媒體

梁文鋒有自己的節奏

2026-05-12 18:25
連線Insight
關注

圖片

文/竇文雪

編輯/子夜

在綠洲資本創始合伙人張津劍的一本書中,曾分享過一個MiniMax創始人閆俊杰與DeepSeek創始人梁文鋒第一次見面時的小故事。

彼時,梁文鋒穿著一件T恤,沒有自我介紹,就問了閆俊杰很多技術問題。

“還以為是助理,我想這助理還挺懂的”閆俊杰說,直到半個小時后閆俊杰詢問“梁總什么時候來?”才知道對方就是梁文鋒。

穿著簡單,沒有什么老板的架子,對技術很專注,這是梁文鋒給外界留下為數不多的印象,他多數時間出現在周圍人的描述中,從媒體的報道中可以總結出一個低調神秘、不喜歡參與公司團建、只對編程感興趣的形象,與傳統意義上“明星公司創始人”的畫像不同。

擁有這樣一位創始人的DeepSeek,也是AI大模型企業中最與眾不同的一個。

圖片

圖源DeepSeek官網

2024年5月,它靠遠低于傳統大模型的定價與成本、達到國際頂尖水平的性能、開源技術報告和模型權重,在眾星云集的AI大模型賽道中出圈,還引發了行業中的價格戰。

它不喜歡開產品發布會、不著急做產品迭代、不跟風加入新興的賽道、不過分吹捧產品,但不妨礙它依舊位于行業關注的中心。

它不講商業化故事,身處AI大模型這樣一個燒錢做研發的賽道但卻并不缺錢,因此,它在過去的很長一段時間中都在拒絕融資,認為資本干預可能會影響技術路線和公司的獨立發展。

因此,在近期被傳出將進行股權融資的時候,DeepSeek又成了AI圈討論的焦點。

輿論的發酵甚至趕不上DeepSeek估值增長的速度。自今年4月中旬,被傳出將以100億美元估值釋放3%左右股權融資后,DeepSeek的估值已經多次被改寫,近期,已經有報道稱DeepSeek的估值可能達到500億美元,三周內翻了5倍。

事情發展至今,故事似乎要向DeepSeek也不得不向巨大的融資額低頭的方向行走,但實則不然。DeepSeek對投資者的要求極高,不接受資本對公司有過多干涉,且根據The Information的報道,梁文鋒仍在這場融資中占據主導權,其個人出資最高達200億元人民幣,占總募資規模的40%。

很難以行業的共性或者趨勢來看待DeepSeek,因為他的掌舵者梁文鋒,一直有自己的節奏。

1、不缺錢的梁文鋒,對融資更謹慎

在很多初創企業的敘事里,融資的路徑大抵相同:成立-融資-組建團隊-發布產品-再融資,最后帶著背后的豪華資本朋友圈沖刺上市。

在這個過程中,企業和資本之間通常維持著一種心照不宣的關系:資本向企業提供資金、提出要求;企業出讓一部分控制權,但有了繼續走下去的底氣。

但DeepSeek從成立的第一天起就沒按照這個模板行走。外界廣泛流傳著梁文鋒曾給DeepSeek立下的“三不”規矩:不接受外部融資、不稀釋股權、不被任何人的商業化時間表綁架。

而這個略顯硬核的規矩,在被傳出融資消息之前就一直被DeepSeek嚴格遵守,就算如今第一個“不”已經被打破,不過DeepSeek在尋找資方的過程中,執行著后兩個“不”的原則。

圖片

近期,市場中流傳最多的除了DeepSeek的融資動作、估值變化等,還有一些資本被梁文鋒拒之門外的消息。

其中被廣泛討論的是DeepSeek與阿里和騰訊之間的談判。

這兩家互聯網大廠正在洽談投資DeepSeek的消息大約在4月23日前后被大量媒體提及,根據《財經》的報道,當時一位接近交易的人士透露,騰訊與阿里巴巴兩家投資方預計共計投資18億美元,DeepSeek的估值超過了200億美元。

不過到了5月,兩家企業均被曝出在談判中失利,不是因為錢不到位,而是因為他們都試圖從DeepSeek手中拿到更多的話語權,這觸碰了梁文鋒的底線。

而據白鯨實驗室報道,阿里與DeepSeek的投資已經談崩,核心分歧在于阿里希望在AI戰略上構建閉環生態,而DeepSeek堅持技術獨立,拒絕了生態綁定的條件。

不過對于這個消息,市場上還出現了另一種聲音:根據《每日經濟新聞》在5月9日的報道,有市場人士透露,阿里應該沒有進行談判。

另據彭博社報道,有知情人士透露,騰訊提出在本輪融資中認購DeepSeek最多20%的股份。但這一樣沒有被梁文鋒采納。

此后,外媒The Information報道稱,梁文鋒將個人出資最高達200億元人民幣,占本輪計劃融資總額40%,這個消息更是印證了梁文鋒在這輪融資中,決不出讓主動權的強硬態度。

報道還透露出騰訊已經更換了投資方式的消息,一位知情人士透露,“騰訊出資60億,占約2%股權。”

拒絕互聯網大廠拋來的橄欖枝,并自掏腰包占據融資主導權,梁文鋒的融資邏輯實則一直與錢無關。

DeepSeek不缺錢,其背后是梁文鋒創立的量化公司——幻方量化。

據私募排排網數據,2025年,幻方量化的平均收益率高達56.6%,管理規模超700億元。業內人士估算,僅2025年幻方量化就為梁文鋒帶來了超過7億美元的收入,這幾乎構成了,DeepSeek獨立運轉的“彈藥庫”。

而梁文鋒這次選擇在融資上“松口”,是因為DeepSeek技術的基本盤——人才,在近期經歷了不小的動蕩。

2025年底至2026年初,就先后有DeepSeek-V2架構的關鍵貢獻者羅福莉、第一代大語言模型核心作者王炳宣、R1核心作者郭達雅等核心人才離開DeepSeek,轉投他廠。

梁文鋒最在意的,不會是能否拿到更多融資、能否與互聯網大廠建立合作、能否吸引更強大的資本……而是如何在競對高薪“挖角”的環境下,留住自己的核心技術人員。

圖片

因此,他的這次融資,或許是希望通過外部資本給公司作出一個較為公允的估值,讓DeepSeek員工手中的期權在定價上更有吸引力。

在DeepSeek最新產品DeepSeek-V4的技術報告里,寫著一份長長的作者致謝名單,研究工程團隊約270人中,只有10人在研發期間離去。對應下來,技術研發人員離職率不到4%,意味著梁文鋒成功留住了97%的員工。

這些人,將繼續按照梁文鋒的思路,走向與眾不同的道路。

2、從DeepSeek-V4身上,看梁文鋒的“逆勢”思維

盡管有關DeepSeek融資的細節鋪天蓋地,但梁文鋒與DeepSeek都沒有對此進行過公開回應。反而是在此期間的4月24日,這家公司在沒有任何預熱的情況下,悄悄上線了行業等待了5個月的新產品——DeepSeek-V4預覽版。

按照DeepSeek的介紹,DeepSeek-V4擁有百萬字超長上下文,在Agent能力、世界知識和推理性能上均實現國內與開源領域的領先。

更引發市場討論的是這款產品的定價。

在產品發布不到48小時后,DeepSeek發布了API價格調整公告,公告顯示,DeepSeek-V4全系API輸入緩存命中價格降至首發價的十分之一,V4-Pro疊加限時2.5折,百萬Tokens輸入緩存命中低至0.025元,創全球大模型價格新低。

這樣的定價之所以引發關注,是因為DeepSeek-V4的核心優勢——超長上下文極其消耗計算量。據了解,標準的Transformer注意力,每個token都要和前面所有token做一次計算。而上下文從8K擴展到1M,其計算量將是平方級的增長。

而DeepSeek卻能在這樣的情況下依舊保持低價策略,這并不是一件容易的事。

如果對比同期OpenAI發布的最新產品GPT-5.5,DeepSeek定價的優惠程度則更為直觀。

以API價格為例,GPT-5.5的標準報價為輸入每百萬Token 5美元、輸出每百萬Token 30美元;DeepSeek-V4-Pro在2.5折促銷期內的報價為緩存命中輸入每百萬Token0.025元、緩存未命中輸入每百萬Token 3元、輸出每百萬Token 6元。

圖片

圖源DeepSeek官網

如果按1美元約合7.2元人民幣粗略折算,GPT-5.5的輸出價格約為每百萬Token 216元,是DeepSeek-V4-Pro促銷價的30多倍。

而DeepSeek降價的另一邊,在算力成本逐漸提高的情況下,漲價和收費已經成為大模型企業不得不做出的現實選擇。

例如GPT-5.5的價格比GPT-5.4整體貴了一倍;智譜AI在4月初公布了今年以來的第三次提價計劃,發布新一代旗艦模型GLM-5.1的同時提價10%;Kimi在4月下旬發布K2.6時,將API輸入價格從0.60美元/百萬Tokens上調至0.95美元/百萬Tokens,漲價58%。

一邊是行業整體的漲價趨勢,另一邊則是梁文鋒與DeepSeek的逆勢降價,場面似乎與兩年前驚人地相似,彼時,性價比極高的DeepSeek還意外引發了大模型行業的價格戰。

之所以說是“意外”,是因為梁文鋒無意引發價格戰,他曾在接受36氪的采訪時表示,自己對掀起行業價格戰一事非常意外,“我們只是按照自己的步調來做事,然后核算成本定價。”

但也與兩年前一樣,這一次DeepSeek-V4也無意引發價格戰,其能逆勢降價、把控好成本,是靠技術創新實現的。

其中,DeepSeek-V4成本壓縮的核心突破在于壓縮注意力機制的改善。

其設計了壓縮稀疏注意力(CSA)和重度壓縮注意力(HCA)兩種壓縮注意力機制,前者負責精準定位關鍵細節,后者負責把握全局脈絡。

DeepSeek將兩種注意力在前向傳播中每一層交替使用,將Prefill階段的注意力計算復雜度從O(N^2)降低為近似線性的O(N*k),并線性壓縮了Prefill和Decode階段的KV Cache,減少了推理時顯存和帶寬的壓力。

在這些層層削減之后,緩存體積已經被壓縮到了90%以上。

圖片

除此之外,DeepSeek降低成本的方式還有很多。

例如其靠一套動態稀疏選擇機制,將復雜度強制截斷為常數級運算。在1M長上下文下,V4 Pro的單token推理FLOPs降到了前代V3.2的27%;其自研的TileLang語言,能讓GPU計算與網絡傳輸并行,硬件利用率逼近極限;針對智能體任務,用特殊標記替代額外小模型,直接復用主模型的KV Cache來并行執行一些輔助任務。把推理成本壓到極致。

“我們的原則是不貼錢,也不賺取暴利。這個價格也是在成本之上稍微有點利潤。”這是梁文鋒在DeepSeek-V2引發價格戰后對媒體的回應,這也同樣適用于DeepSeek-V4。

對于梁文鋒來說,其他企業的定價如何,并不能成為他的參考依據,他只專注在自己的技術邏輯上,開出適用于DeepSeek的定價。

3、梁文鋒,并不著急產品迭代和商業化

梁文鋒著急產品迭代和商業化嗎?

如果經歷過從DeepSeek-V3.2,到DeepSeek-V4之間那5個月的漫長等待,這個答案可能呼之欲出。

在DeepSeek沉默的這五個月期間,不管是美國市場的OpenAI、Anthropic、谷歌Gemini,還是中國市場的阿里千問、字節跳動豆包、騰訊混元、小米MiMo等主流模型公司,都至少發布或迭代了多款模型,幾乎每2.8天就會有一款模型發布或迭代。

對于AI大模型公司而言,商業化幾乎是與產品迭代相伴相生的話題。企業們害怕自己的技術被趕超,害怕失去商業化優勢,進而失去自己在資本市場的想象力。

圖片

而長期不著急迭代的DeepSeek,在那段時間就已經開始被超越了。DeepSeek-V3.2的性能一度在國際市場調研機構Artificial Analysis的基準測試中,落后于penAI、Anthropic、谷歌Gemini、阿里千問、月之暗面Kimi、智譜GLM、MiniMax等旗艦模型。

更關鍵的是行業中掀起龍蝦熱后,Agent需求也隨之爆發,Coding能力成為各家企業追逐的方向,而DeepSeek-V3.2,在Agent和Coding能力上也顯得相對落后。

但不管其他企業的模型如何迭代、市場對DeepSeek的失望情緒有多高,這些似乎都很難影響到梁文鋒與DeepSeek的開發節奏。

梁文鋒有自己的堅持,在他為數不多的采訪中,“實現AGI”、“不追求短期的商業化”是其反復提及的觀點。

將大模型的底層技術做到極致,才是梁文鋒的追求。

DeepSeek-V4一經發布,就在很大程度上追平了前代作品在Agent方面的落后趨勢。

DeepSeek在發布公告中表示,相比前代模型,DeepSeek-V4-Pro在AgenticCoding評測中,已達到當前開源模型最佳水平,并在其他Agent相關評測中表現優異;在世界知識測評中,大幅領先其他開源模型;在數學、STEM、競賽型代碼的測評中,超越當前所有已公開評測的開源模型,并取得了比肩世界頂級閉源模型的成績。

DeepSeek-V4此次更新升級的核心能力之一——上下文,是Agent工具理解并記憶大量文本的關鍵,而DeepSeek此次發布的兩個模型都能支持100萬token的上下文長度,這將大大提升Agent閱讀文本、記住更多細節的能力。

根據差評的測試,將一本紅樓夢中隨便貼了一段三體的科幻小說內容發送給DeepSeek-V4查找異常,它用幾秒鐘就找到了。

另一個細節也體現了梁文鋒與DeepSeek不強調全球領先、將底層技術做到極致的態度——在產品的發布公告中承認自己與競對存在的差距。

其表示,目前DeepSeek-V4已成為公司內部員工使用的Agentic Coding模型,據評測反饋使用體驗優于Sonnet 4.5,交付質量接近Opus 4.6非思考模式,但仍與Opus 4.6思考模式存在一定差距。

圖片

圖源DeepSeek官方微信公眾號

對于AI行業已經說了很長時間的多模態故事,DeepSeek也是慢慢來的態度。

如今的DeepSeek-V4仍未搭載原生多模態能力,目前只有市場消息透露,其將在今年6月推出的V4模型迭代版本——V4.1會新增圖像、音頻理解處理能力,但輸出形式仍僅限文本生成。

種種跡象都在表明,如果沒有將產品的技術水平做到極致,外部市場動態與聲音,撼動不了梁文鋒的研發節奏和目標。

2024年,梁文鋒曾在36氪的采訪中表達過這樣一個觀點,“過去三十年,我們都只強調賺錢,對創新是忽視的。創新不完全是商業驅動的,還需要好奇心和創造欲。”

兩年過去,梁文鋒鮮少再對外發聲,但很明顯,他不想讓商業驅動創新的態度,直到現在都沒變。

(本文頭圖來源于DeepSeek官方微信公眾號。)

       原文標題 : 梁文鋒有自己的節奏

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號