免费久久国产&夜夜毛片&亚洲最大无码中文字幕&国产成人无码免费视频之奶水&吴家丽查理三级做爰&国产日本亚欧在线观看

訂閱
糾錯
加入自媒體

智譜GLM-5V-Turbo“擦槍走火”,國產多模態智能體戰爭一觸即發

2026-05-11 15:53
硅基星芒
關注

在國產大模型的激烈競爭中,智譜的GLM系列一直掌握著一張極具商業價值的王牌:極強的代碼能力。

隨著AI的主要形式從大語言模型轉向智能體,行業競爭進入下半場,開發者和開發生態是付費意愿最強的群體。

但是,行業巨頭們對AI的期許顯然不僅僅是一個“外包的程序員”,只有成為一個能真正接管系統工作流的全能型智能體,才能讓AI進入每個普通人的生活。

因此,一個強大的AI只會敲鍵盤還遠遠不夠,它必須長出眼睛,去審視網頁排版、看懂海報圖表、甚至要理解GUI上各種非文本的復雜信息。

前幾天,DeepSeek灰度測試“識圖模式”已經打響了第一槍。

如今,智譜也緊緊跟隨,正式開啟了多模態領域的全新探索。在最新模型GLM-5V-Turbo的技術報告中,我們可以清晰地認識到,這是智譜向原生多模態智能體發起的新一輪沖鋒,也是一份充滿技術暴力、工程妥協和商業考量的自白書。

01

視覺底座的暴力美學與微操藝術

向大語言模型中增加視覺能力,這個思路在過去幾年中早已被頻繁嘗試。

然而,由此誕生的視覺語言模型(VLM)往往只是個拼接而成的產物,語言模型是絕對的大腦,視覺模塊只是一個外掛攝像頭。

也就是說,模型壓根無法理解圖像等信息中蘊含的邏輯。把二維的視覺信號強行壓縮至一維的token序列,帶來的結果就會是看不懂圖像、忽略關鍵細節甚至產生嚴重的幻覺,自然也無法作為智能體使用。

因此,GLM-5V-Turbo在開篇就定下了基調:

多模態感知絕對不能只是一個輔助接口,它必須成為模型推理、規劃、工具調用和任務執行的原生核心組件。

因此,為了實現真正的“原生”,智譜這次在底層架構上動了三次大手術:

1.重構視覺底座:專為Agent而生的CogViT

智能體需要操控用戶的電腦,因此在圖形用戶界面中,模型不僅要知道圖片里有什么,還要關注各種容易被忽視的細節,哪怕一個長寬可能只有幾個像素的按鈕。

為此,智譜自研了一套高參數效率的視覺編碼器CogViT,并采用兩階段的預訓練:

第一階段是特征重構,兩個教師模型中,SigLIP2負責讓模型識別語義,DINOv3負責讓模型識別紋理,最后通過掩碼圖像建模增強模型視覺特征的表達;

第二階段是圖文對齊,通過引入NaFlex方案來處理動態分辨率,將全局的Batch Size直接提升至64K。

這種設計方式直接將智譜新模型的空間感知和幾何理解能力拉滿,也為后續操控網頁和手機UI打下了基石。

Refer to caption

2.工程與算法的平衡:多模態多Token預測(MMTP)

多模態能力的引入,必然伴隨著顯存和算力消耗的指數級膨脹。

關注AI領域的開發者應該都知道,智譜近半年來算力儲備并不寬裕,此前引發激烈討論的價格調整已經側面印證了在大規模推理面前,算力成本就是一個黑洞。

引入多Token預測(MTP)以提升推理效率是業內普遍使用的做法,不過智譜在引入MTP時,采用了一個教科書級別的工程決策:

直接把包含大量信息的視覺特征直接傳給MTP預測頭不可行,那就采用一個共享的特殊token“<|image|>”作為視覺輸入的占位符。

看似簡單的改動,其實最符合“工程實用主義”。它大幅降低了流水線并行中的通信復雜度,直接避免了顯存爆炸這個讓人頭疼的問題。

除此之外,在保證模型收斂穩定的前提下,這個“巧思”還能極大降低訓練和推理的算力成本。

Refer to caption

3.破除長尾魔咒:超大規模多模態強化學習系統

目前,智能體的訓練思路與大語言模型本質上并無區別,使用的仍然是強化學習。

但是,在智能體的訓練過程中,單任務強化學習很容易讓模型陷入震蕩。

而智譜的研究團隊發現,多任務協同強化學習能夠讓模型見識到更豐富的策略分布,甚至出現跨任務的思維模式遷移。

因此,智譜在超過30個任務類別上進行了聯合強化學習,并在基礎設施上實現全流水線解耦和異步執行。他們不僅將視覺切分這個環節從前向傳播階段提前至數據加載階段,還對GPU之間的通信做出了極致的內存管理。

02

從API分發到工作流接管的范式轉移

技術的底層重構,最終指向的永遠是商業變現邏輯的躍遷。

GLM-5V-Turbo展現出的多模態深度研究能力,正在預示著智譜AI應用的兩點商業變局:

一是用多模態深度研究打破傳統文本SaaS的壁壘。

對于此前大部分AI助手,大多只能閱讀純文本內容。即便是允許用戶上傳圖片、視頻、PDF等附件,一旦其中包含的非文本信息過多,AI的識別能力就會斷崖式下降。

然而,GLM-5V-Turbo能夠自主循環執行“規劃→多模態閱讀→狀態更新”這套工作流,直接解析各種圖表、文檔、PPT中的高價值視覺信息,直接交付Markdown商業報告和高度結構化的幻燈片。

Refer to caption

在這一點上,智譜的路線與昨天發布Claude for Microsoft 365、單刀直入殺進微軟生態的Anthropic幾乎完全相同。

因此,傳統的信息檢索工具必然會面臨降維打擊。當AI能夠端到端交付包含數據可視化的成品報告時,按token計費的模式也會逐漸走向“按交付項目計費”的商業模式。

二是Agent終極形態將會是模型(Model)與載具(Harness)的共生。

智譜的技術報告中給出了一個很有啟發性的觀點:

系統的能力邊界不再由模型單方面決定,而是由模型與它周圍的框架(Harness)共同塑造的。

作為國產模型的領頭羊之一,智譜官方也在不斷提供更為豐富的工具鏈(Official Skills),并且與行業標準框架Claude Code和Auto Claw均實現了無縫集成。

事實上,智譜早已清晰地認知到,單靠自己一家AI初創公司幾乎不可能創造出像Google一般的強大生態。與其孤注一擲,不如讓Claude Code和AutoClaw這些善于處理終端和文件邏輯的全球通用工具成為自己操作計算機的靈巧手。

此前人們期待的“全能大模型”神話,如今已經接近破滅,強如OpenAI也無法僅靠大語言模型實現AGI。未來的護城河必將轉移到模型能力與外部工具的深度耦合。

畢竟,作為付費主力的B端企業從來都不需要一個什么都能聊的機器人,而是需要一臺能夠直接無縫融合進已有系統的認知驅動引擎。

Refer to caption

03

血淚史:智能體研發的三條定律

智譜的這次技術報告發布之所以與眾不同,是因為研究團隊在報告末尾非常罕見且坦誠地分享了他們在研發過程中總結的設計視角。

這份用無數算力和通宵加班換來的“避坑指南”,遠比開源的模型和技術要寶貴,而且對整個AI行業來說都有極高的價值。

首先,千萬不要好高騖遠,底層感知才是決定模型天花板的基石。

最近一年來,AI行業逐漸形成了一種風氣,所有產品發布時總會帶上“深度思考”、“自我反思”、“長邏輯規劃”這些標簽,仿佛只有貼上這些標簽的才是高級的AI。

然而,在用戶的反饋中其實不難發現,這些高大上的標簽并沒有在具體的應用場景中得到落實。

智譜在實踐中發現,很多看似高級的規劃最終失敗,并不是過程中細枝末節的錯誤積少成多,而是模型在第一步就開始“盲人摸象”。或是沒看清細微的UI元素,或是搞錯了按鈕的空間位置。

智能體的運作邏輯與大語言模型截然不同,視覺感知絕非一個前期處理完就可以丟在一邊的低級模塊,它持續制約著模型高級推理能力的上限。

其次,面對智能體的訓練,應當放棄對“端到端”的迷信,主動擁抱分層優化。

這并非否認“訓練智能體應該使用智能體(而非大語言模型)強化學習”的論斷,但AI企業也必須面對目前訓練智能體成本高昂、高質量軌跡數據稀缺、評測標準缺少行業規范的現實。

一上來就讓模型學習極其復雜的長周期任務,帶來的結果要么是“只得其形未得其意”,要么是模型直接崩潰。

智譜的做法是把任務如庖丁解牛般細細切碎,從最底層的認清圖標,到單步動作預測,再到整條行為軌跡規劃,進行分層優化。事實證明,這不僅是算力有限時不得不做出的妥協,更是讓模型穩定收斂的最佳途徑之一。

最后,那些不能被精準評估的任務,沒有參考意義。

對于當前具備多模態能力的智能體來說,最難的并不是讓它干活,而是不知道如何客觀地“打分”。

相比網頁中的對話框,真實的計算機環境中充滿了開放性和不確定性。智譜意識到,只有設計出具有嚴格的步驟控制、能隔離不同維度的信號的驗證流程,這種端到端的評測才會有意義,才能反向指導模型的迭代過程。

04

結語

看完智譜的這份技術報告,與其說是一次模型能力的展示與講解,不如說是研究團隊與用戶的一次隔空座談會。

這份報告沒有把自己的模型描繪得十全十美,反而在最后拋出了幾個直擊靈魂的行業未解之謎:

視頻和圖像都是吃內存的怪物,在朝長周期的任務中應該如何實現上下文壓縮記憶?

模型什么時候才能擺脫人類投喂標準答案,自己涌現出更聰明的交互策略?

這些問題,一時半會還沒人能夠回答。

我們能看到的,只有一個正在快速進化的國產模型,以及整個AI行業正在步入艱難的深水區的現實。

增加多模態能力是智譜向全棧智能體進軍的必經之路,但路上的算力賬單早已無處不在。在算力緊缺的客觀現實下,智譜還是用精妙的架構設計、極端的顯存優化和分層的訓練策略,硬生生打出了一場令人稱贊的資源突圍之戰。

GLM-5V-Turbo已經證明它有能力接管用戶的電腦屏幕,而下一個考驗,是整個市場是否準備好了為“原生多模態”的生產力買單。

       原文標題 : 智譜GLM-5V-Turbo“擦槍走火”,國產多模態智能體戰爭一觸即發

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號