面對產業轉折點,商湯將發布具身智能“大腦”計劃。
文|趙艷秋 周路平
編|牛慧
2025世界人工智能大會(WAIC2025)將在本周末火爆開場。近日,商湯科技提前釋放出重要消息:將在大會上揭曉一款全新的具身智能“大腦”。
據商湯官方公眾號預告,7月27日的WAIC2025大模型論壇中,商湯將揭曉這款集成了感知能力、視覺導航、多模態交互的智能“大腦”系統,為機器人、智能設備等智能終端提供賦能。
實際上,商湯入局具身智能“大腦”賽場,業界并未感到意外。具身智能的研究與產業落地,主要由兩路人馬推進:一路是計算機視覺領域的研究和從業者,如李飛飛;另一路是機器人領域的從業者。而商湯起家于計算機視覺,如今加碼具身智能,不僅在情理之中,甚至可以說,這是它必然要落子的一步。
01
布局具身智能“大腦”
具身智能“大腦”已成為全球人工智能的核心競爭點。OpenAI與機器人公司Figure AI聯手打造通用機器人,谷歌推出具身智能RT-2模型,英偉達聚焦世界模型和仿真。國內如華為也在今年6月剛發布包含“大腦”的CloudRobo具身智能平臺。商湯則是最早一批入局者,在不斷演化其技術路徑。
為何全球科技企業對這一賽道高度重視?實際上,本輪具身智能熱潮,本質上就是大模型與機器人技術的深度融合帶來的。在“前大模型時代”,機器人是“只會一種技能的工人”——送餐的不會打螺絲,打螺絲的不會倒咖啡。本體泛化、任務泛化和場景泛化,成為具身智能三大瓶頸。
轉折發生在2022年。隨著ChatGPT等大模型的崛起,人工智能具備了自然語言理解、內容生成和深度推理能力,業界開始設想,能否讓機器人擁有一個“更聰明的大腦”?這樣,它就能打破本體限制,完成更復雜、更靈活的任務。
這便是具身智能“大腦”的重要意義。不過,目前該領域仍處在探索階段,技術路線還未“收斂”。一些業內人士提出,當前主要有三種:
VLA 模型(Vision-Language-Action):輸入語言+圖像,輸出動作。優勢是結構簡潔,但在物理屬性識別、利用物理規律與足夠的控制軌跡上存在不足。
“大小腦”架構:將“規劃”與“執行”分工,提高系統的模塊化和解釋性,但仍面臨泛化挑戰。
世界模型:對比前兩者,雄心則更大,對環境狀態、物理規律、時序邏輯等進行建模,強調多模態信息融合和推理能力,目標是讓智能體理解世界、預測變化、規劃行為。
從商湯目前披露的信息看,雖然未明確押注某一技術路線,但其分階段演進的方式,指向了對“世界模型”能力的持續積累。
在過去幾年,商湯在具身智能“大腦”上的探索和布局似乎可分為四個階段:
第一步:從“看”到“動”,構建視覺-感知-決策閉環。
2022年8月,商湯推出家用機器人“元蘿卜”,首次將視覺算法與機械手深度結合,完成棋子識別與遮擋環境下的精準抓取。這標志著商湯初步建立了“視覺-感知-決策”的閉環,機器人開始具備與物理世界互動的基礎框架。
傳統人工智能是“開環”的,坐在云端“思考”、“看見”世界。但一旦涉及操作,就要形成一個復雜的閉環——感知必須轉化為“理解”,并進一步驅動動作執行。這是具身智能的出發點。
第二步:“日日新V5.5 - V6”發布,多模態融合與推理能力邁向認知中樞。
2025年4月,商湯推出“日日新V6”多模態大模型,核心突破在于模態融合,支持長思維鏈、多模態推理與規劃能力,嘗試解決長期困擾具身智能的難題——稍微復雜、步驟多、時間跨度長,傳統系統就“斷鏈”。就像是機器人的“大腦皮層”,從“接收信號”躍升到“理解意圖”。
極為重要的是,它已被傅利葉、歸墟等機器人公司接入合作,意味著商湯具備了平臺級技術輸出能力,從研發走向產業賦能,進入戰略躍遷階段。
這一系列能力的進化并非一蹴而就。早在2024年7月商湯發布的“日日新V5.5”,是這一融合路線的重要中繼站:基于6000億參數模型性能升級,廣泛引入合成高階思維鏈數據,在數理邏輯、指令跟隨等方面表現突出,并首次推出原生流式多模態交互體驗模型“日日新5o”,推動AI從“響應輸入”走向“理解場景”。
此外,“日日新5.5 Lite”等端側模型也大幅提升效率與普及能力,拉近大模型與用戶之間的距離。
2024年底,商湯更是率先推出“日日新融合大模型”,領先實現原生融合模態訓練,成功打破語言模型與多模態模型各自為政的局限。該模型在SuperCLUE和OpenCompass兩大權威榜單中同時奪冠,成為“雙冠王”,意味著商湯首次在深度推理與多模態融合領域實現“模型一統”的實質性突破,這一系列創新,為V6的能力躍升創造了條件。
第三步:“大腦”平臺化,走向世界模型。
接下來,商湯即將發布具身智能“大腦平臺”,標志著其從單點能力向系統能力的整合與躍升。
而且,商湯在智駕領域布局積累很早。世界模型是其重點突破方向。商湯智駕品牌“絕影”構建的“開悟”,已經能理解物理規律、學習交通規則,在實際場景中落地。
而車和機器人,本質上都是具身智能體。具備感知、導航、交互等能力,是它們的共同訴求。商湯或將自動駕駛中構建的“世界模型”經驗遷移到機器人領域,推動具身智能大腦的的進一步演進。
這次產品發布,標志著商湯具身智能戰略,進入“平臺化”的新階段,并走向產業輸出。背后是商湯長期的技術預埋與戰略耐心。
02
商湯的準備
除了具身智能的大腦,商湯通過WAIC 2025釋放了另外一個明確信號:具身智能是“算力密度×數據密度×生態密度”的競爭。
這幾年,算力需求井噴,算力的密度很大程度上決定了模型演進和應用落地的速度,尤其是具身智能需要實現對物理世界的感知和理解,涉及多種模態,對算力的消耗有增無減。
有數據統計,具身智能場景的算力消耗占比已從2023年的12%躍升至28%。而英偉達的芯片在今年一季度的銷售額,有30%流向具身智能設備。
過去多年,商湯在算力上的投資巨大。早在2018年,商湯就打造了國內首個AI千卡集群原型機。兩年后,又建立了國內首個智算中心。到2024年底,商湯大裝置的算力規模達到23000PetaFlops,超過了一些主要大城市的公共智能算力。今年4月,商湯又發布了商湯大裝置SenseCore 2.0,朝著“最懂大模型的AI基礎設施”發力。
商湯做大裝置,其初心是提高AI模型的生產效率和降低使用成本。但大裝置+大模型的結合,讓商湯在算力層面的能力得到了大幅提升。比如商湯對模型推理過程,做預填充和解碼的分離,提升GPU硬件利用率并降低推理延遲。
商湯大裝置已幫商湯拿下了不少智算和大模型訂單。比如南方電網基于商湯大裝置,實現從模型、平臺算法到底層算力的100%國產化,構建了全棧國產電力AI基礎設施。而一家基建行業頭部設計院依托商湯大裝置的國產芯片及底座平臺,開發了工程勘察設計領域大語言模型、多模態大模型,解決了知識傳承困難、融合性差和應用程度低等難題。
IDC的報告顯示,商湯大裝置在2024年下半年穩居國內AI大模型解決方案市場第二位。
如今,商湯已經成長為“大裝置-大模型-應用”三位一體的AI廠商。
除了算力,高質量數據是具身智能發展的一大卡點。盡管大腦架構和技術路線正在快速演化,但所有路線最終都繞不開一個共識:數據,是具身智能最難啃的那塊骨頭。
而且有業內人士提出,具身智能和大模型一樣,同樣存在Scaling Law。在他們的試驗中,每多采10倍數據,機器人錯誤率就會降低大約10倍。如果想從99%的成功率提高到99.9%,意味著要多采10倍數據,但成本也呈指數級上升。
目前,具身智能的高質量數據來自于線下采集的真實數據、仿真合成數據以及互聯網數據。但兩者各有優劣。比如特斯拉和Google都選擇用搖操獲取數據,但背后的成本投入巨大。據悉,Google 做十幾萬條數據,用時十多個月,花了上千萬美元。
在業內看來,更加現實的做法是,利用互聯網視頻數據、合成數據,直接做到幾個9,再用真實數據進行強化學習。
人類80%以上的信息獲取來自視覺,商湯是以機器視覺起家,在視覺信息的處理上,有著一系列經驗技術。
同時,商湯也在推動融合模態的數據合成與融合任務的增強訓練。比如在預訓練階段,商湯不僅采用了天然存在的海量圖文交錯數據,還通過逆渲染、基于混合語義的圖像生成等方法合成了大量融合模態數據。在后訓練階段,商湯構建了大量的跨模態任務,包括視頻交互、多模態文檔分析、城市場景理解、車載場景理解等。
另外,除了算力、數據、模型等底層能力的積累,商湯在生態方面也在持續投入,通過旗下私募基金國香資本投資了一批具身智能企業,包括銀河通用機器人、眾擎機器人、鈦虎機器人、鹿明機器人等十幾家企業。這些企業覆蓋了具身智能全產業鏈,比如眾擎機器人主攻本體和運控,鈦虎機器人主攻關節模組。
這種生態密度,讓商湯比其他大模型廠商更貼近產業需求,了解產業動向。同時這些被投企業又給商湯提供了豐富的落地場景和真實數據,加速產業落地。
不難發現,從算力基礎設施,再到數據和生態,商湯在具身智能所需的各環節,也都在悄然押注和投入。
商湯即將推出具身智能“大腦”,恰逢2025年該產業由概念驗證走向初步產品化、平臺化的關鍵拐點。大模型與機器人融合,正加速從實驗室走向現實世界。頭部科技公司和研究機構的布局提速,已經掀起了具身智能的競爭熱潮。
與此同時,政策與資本的雙重推力也不容小覷:2025年政府工作報告中,具身智能作為新興產業首次被寫入其中。具身智能正在制造、無人零售、接待、健康醫療等產業滲透。僅在今年上半年,具身智能相關領域融資金額已經超過了200億元,融資事件達130件,遠超2024年全年。具身智能的 “黃金時代” 已悄然拉開序幕。
從商湯在具身智能“大腦”的技術布局以及其在算力、數據、生態等關鍵環節形成閉環能力來看,其在具身智能領域絕非偶然的戰略試探,而是其基于技術基因的必然延伸,更有望成為撬動其第二增長曲線的最佳支點。
從一系列信息的分析看,商湯在具身智能領域的動作,既是對自身能力邊界的重構,更是對下一代智能形態的提前卡位。當機器人與智能設備真正成為 “有大腦的具身智能體”之后,具身智能,或將成為商湯握住連接未來的關鍵鑰匙。


分享













