阿里通義千問于今日正式推出全新升級的 Qwen3-VL 系列——這是迄今為止 Qwen 系列中最強大的視覺語言模型。
Qwen3-VL 在文本理解與生成、感知與推理、上下文長度支撐、與Agent交互中的表現都展現出顯著進步。
目前,阿里已開源 Qwen3-VL-235B-A22B,同時包含 Instruct 與 Thinking 兩個版本。其中,Instruct 版本在多項主流視覺感知評測中,性能達到甚至超過 Gemini 2.5 Pro;而 Thinking 版本更是在眾多多模態推理的評測基準下取得了 SOTA 的表現。
核心亮點
Qwen3-VL 的目標,是讓模型不僅能“看到”圖像或視頻,更能理解事件并做出行動,從“識別”邁向“推理與執行”。
模型主要亮點有:
視覺智能體(Visual Agent):Qwen3-VL 能操作電腦和手機界面、識別 GUI 元素、理解按鈕功能、調用工具、執行任務,能通過調用工具有效提升在細粒度感知任務的表現。
視覺 Coding 能力大幅提升:實現圖像生成代碼以及視頻生成代碼,例如看到設計圖,代碼生成 Draw.io/HTML/CSS/JS 代碼。
空間感知能力大幅提升:2D grounding 從絕對坐標變為相對坐標,支持判斷物體方位、視角變化、遮擋關系,能實現 3D grounding。
長上下文支持和長視頻理解:全系列模型原生支持 256K token 的上下文長度,并可擴展至 100 萬 token。無論是幾百頁的技術文檔、整本教材,還是長達兩小時的視頻,都能完整輸入并記憶。
性能評估
整體來看,Qwen3-VL-235B-A22B-Instruct 在非推理類模型中多數指標表現最優,超越 Gemini 2.5 Pro 和 GPT-5 等閉源模型,展現了其在復雜視覺任務中的強大泛化能力與綜合性能。
在推理模型方面, Qwen3-VL-235B-A22B-Thinking 在 Mathvision 這類復雜的多模態數學題目上表現甚至優于 Gemini 2.5 Pro。雖然在多學科問題、視覺推理和視頻理解方面與閉源 SOTA 模型仍存在一定差距,但在 Agent 能力、文檔理解、2D/3D Grounding等任務上展現出明顯優勢。
在純文本任務上,Qwen3-VL-235B-A22B 的 Instruct 和 Thinking 的表現都與 Qwen3-235B-A22B-2507 不相上下。
結構設計更新
團隊在采用原生動態分辨率設計的基礎上,對結構設計進行了更新。
一是采用 MRoPE-Interleave,使用交錯分布的形式,實現對時間,高度和寬度的全頻率覆蓋。更具魯棒性的位置編碼能夠保證模型在圖片理解能力相當的情況下,提升對長視頻的理解能力。
二是引入 DeepStack 技術,融合 ViT 多層次特征,提升視覺細節捕捉能力和圖文對齊精度。將以往多模態大模型(LMM)單層輸入視覺 tokens 的范式,改為在大型語言模型 (LLM) 的多層中進行注入。這種設計能夠有效保留從底層(low-level)到高層(high-level)的豐富視覺信息,提升模型視覺理解的能力。
三是將原有的視頻時序建模機制 T-RoPE 升級為文本時間戳對齊機制。該機采用“時間戳-視頻幀”交錯的輸入形式,實現幀級別的時間信息與視覺內容的細粒度對齊,提升模型對視頻中動作、事件的語義感知與時間定位精度。
能力演示
視覺能力
Qwen3-VL 能像人一樣操作手機和電腦,自動完成許多日常任務。例如打開應用、點擊按鈕、填寫信息等,實現智能化的交互與自動化操作。
看圖推理
Qwen3-VL 可以觀察圖像的局部細節,并結合工具進行復雜推理。
代碼編程
Qwen3-VL 在前端開發方面可結合視覺理解和代碼生成能力。例如,能把手繪草圖轉成網頁代碼,或幫助調試界面問題,提升開發效率。
API 使用
用戶現可直接使用官方提供的 API,體驗 Qwen3-VL 系列的模型 Qwen3-VL-235B-A22B。使用示例如下:
參考資料:https://qwen.ai/blog?id=99f0335c4ad9ff6153e517418d48535ab6d8afef&from=research.latest-advancements-list