國產多模態搜索史詩級突破!Qwen3-VL登頂MMEB:支持30+語言,一套模型搞定圖文視頻
作者:Mingxin Li等
解讀:AI生成未來

亮點直擊
推出了基于 Qwen3-VL 基礎模型的 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 系列模型。
一套端到端的高精度多模態搜索pipeline,能夠將文本、圖像、視覺文檔和視頻映射到統一的表示空間。
Embedding 模型在 MMEB-V2 基準測試中得分為 77.8,排名第一,且支持俄羅斯套娃(Matryoshka)表示學習和量化,兼顧了性能與效率。
圖 1:統一多模態表示空間的圖示。 Qwen3-VL-Embedding 模型系列將多源數據(文本、圖像、視覺文檔和視頻)表示為公共流形。 通過跨模態(例如文本“城市建筑”及其相應圖像)調整語義概念,該模型實現了對復雜視覺和文本信息的整體理解。
解決的問題
多模態內容的激增:互聯網上充斥著圖像、文檔、視頻等多種數據,傳統僅基于文本的搜索無法滿足需求。
跨模態語義對齊難:需要精準理解和匹配不同模態間的語義概念(如“城市建筑”文本與對應圖片的匹配)。
復雜文檔與長視頻處理:現有模型在處理包含密集信息的圖表、長文檔和長視頻時往往力不從心。
部署效率與存儲成本:高維向量帶來的存儲和檢索成本限制了大規模應用。
提出的方案
統一框架:基于強大的 Qwen3-VL 基礎模型,構建了包含 Embedding(檢索)和 Reranker(精排)的雙模型架構。
多階段訓練策略:從大規模合成數據的對比預訓練,到多任務對比學習與 SFT,再到從 Reranker 模型蒸餾,逐步提升模型能力。
數據工廠:構建了自動化的數據合成與清洗流水線,生成了超過 3 億條高質量的多模態訓練數據。
應用的技術
多階段訓練:預訓練 -> 多任務微調 -> 蒸餾與模型合并。
困難負樣本挖掘:通過兩階段篩選(召回與相關性過濾)提升數據質量。
知識蒸餾:利用 Cross-Encoder 架構的 Reranker 指導 Embedding 模型的訓練。
俄羅斯套娃表示學習 (Matryoshka Representation Learning, MRL) :允許模型輸出不同維度的向量,靈活適應不同存儲需求。
量化感知訓練 (Quantization-Aware Training, QAT) :支持 int8 和二進制量化,確保存儲效率。
達到的效果
SOTA 性能:Qwen3-VL-Embedding-8B 在 MMEB-V2 上取得 77.8 分,超越了包括閉源 API 在內的所有現有模型。
純文本能力強:在 MTEB 多語言基準上得分為 67.9,保持了極具競爭力的純文本檢索能力。
高效部署:支持最大 32k token 輸入,且通過 MRL 和量化技術顯著降低了存儲和推理成本。模型架構
圖 2:Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 架構概述
Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 旨在對多模態實例進行任務感知的相關性判斷。
Embedding 模型:采用雙編碼器 (Bi-encoder) 架構,生成實例的密集向量表示,并使用余弦相似度作為相關性度量。
Reranking 模型:采用交叉編碼器 (Cross-encoder) 架構,對查詢-文檔對 (Query-Document Pair) 提供更細粒度的相關性評估。
模型架構基礎: 兩者均基于 Qwen3-VL 骨干網絡,使用因果注意力機制。經過大規模多模態、多任務相關性數據訓練后,模型保留了骨干網絡的世界知識、多模態感知和指令跟隨能力,同時獲得了評估相關性的能力。本工作訓練了兩種規模的模型——2B 和 8B。下表1總結了兩者:

Embedding 方法: Embedding 模型提取多模態輸入的任務感知密集向量。輸入格式遵循 Qwen3-VL 上下文結構:
System Message: 傳入指令(Instruction),默認指令為 "Represent the user's input."。User Message: 傳入待表示的多模態實例,可以是文本、圖像、視頻或其組合。最后,在輸入后附加一個 PAD (<|endoftext|>) token,該 token 對應的最后一層隱藏狀態即為實例的密集向量表示。
Reranking 方法: Reranking 模型采用 Pointwise 排序方法。
System Message: 傳入判斷相關性的指令,要求答案只能是 "yes" 或 "no"。User Message: 包含具體的 以及待評估的查詢和文檔。輸出: 通過計算模型預測下一個 token 為 "yes" 或 "no" 的概率來獲得相關性評分。

數據
為了賦予模型跨越不同模態、任務和領域的通用表示能力,策劃了一個大規模數據集。數據集內不同類別的分布如圖 3 所示。然而,無論是公開可用的數據還是專有的內部數據,在這些維度上都表現出顯著的不平衡,并且在特定場景中存在明顯的稀缺性。為了解決這些挑戰,我們利用數據合成來構建一個平衡的訓練語料庫,確保對所有模態、任務和領域進行穩健的覆蓋。

數據集格式
完整的數據集包含多個子數據集,表示為 。每個子數據集 由一個四元組 定義,結構如下:
指令 (Instruction, ) :一段文本描述,定義了該子數據集特定的相關性標準和任務目標。
查詢 (Queries, ) : 個查詢對象的集合,。每個 可以由文本、圖像、視頻或其任意多模態組合構成。
語料庫 (Corpus, ) : 個文檔對象的存儲庫,。與查詢類似,每個 可以是單一模態,也可以是文本、圖像和視頻的多模態組合。
相關性標簽 (Relevance Labels, ) :該組件標識查詢與文檔之間的關系,表示為 。對于每個查詢 , 表示相關文檔(正樣本)集合,而 表示不相關文檔(負樣本)集合。
附錄 A 中展示了代表性的數據集示例。
數據合成
采用數據合成來構建各種子數據集 。具體來說,將 Qwen3 Embedding中引入的方法擴展到了多模態場景。如 圖 4 所示,首先策劃了一個多樣化的種子多模態內容 (例如,來自 Web 的圖像/視頻)。然后,利用 Qwen3-VL-Instruct 生成:(1) 合成指令,(2) 合成查詢,以及 (3) 偽相關性標簽。
具體過程如下:
種子內容策劃:從公開數據集和網絡抓取中收集了大量的圖像和視頻,經過重復數據刪除和安全過濾,形成了種子語料庫 。
指令生成:對于 中的每個項目,我們提示 Qwen3-VL-Instruct 生成描述潛在檢索任務的指令 。例如,“為這個圖像生成一個搜索查詢”或“描述一個與此視頻剪輯相匹配的用戶查詢”。
查詢生成:基于指令和內容,模型生成相應的查詢 。為了增加多樣性,我們提示模型生成不同粒度(例如,粗粒度的類別與細粒度的描述)和不同模態(例如,文本查詢、相關圖像查詢)的查詢。
偽標簽生成:最初生成的查詢與種子內容配對作為正樣本,形成 。為了進一步細化這些標簽,使用在初步數據上訓練的早期 Embedding 模型版本執行檢索,并應用下一節中描述的過濾技術。
這種合成方法使我們能夠創建大規模、多樣化且任務特定的訓練數據,解決了自然發生的多模態檢索數據稀缺的問題。
正樣本優化與困難負樣本挖掘
困難負樣本在對比表示學習中起著至關重要的作用。為了提高正樣本對的質量并識別有效的困難負樣本,實施了一個自動化的兩階段挖掘流水線:召回 (Recall) 和相關性過濾 (Relevance Filtering)。
召回 (Recall) :對于每個子數據集 ,使用一個 Embedding 模型提取所有查詢 和文檔 的表示。對于每個查詢 ,我們基于余弦相似度檢索出 Top-K 最相關的候選文檔 ,其相關性分數記為 。
相關性過濾 (Relevance Filtering) :最后,基于相關性分數 優化相關性標簽 以消除噪聲:
正樣本優化 (Positive Refinement) :僅當至少有一個正文檔 的得分 時才保留查詢 ,其中 是作為分數閾值的超參數。如果沒有這樣的候選文檔存在,則丟棄查詢 。困難負樣本選擇 (Hard Negative Selection) :對于一個有效的查詢 ,我們計算其優化后的正樣本的平均得分 。任何非正文檔 僅當其得分滿足 時才被選為困難負樣本,其中 是一個小的安全邊際,用于防止包含“假陰性”樣本。訓練策略
為了訓練我們的 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker,采用了多階段訓練流水線,如圖 5 所示。這種方法旨在減輕大量弱監督數據與稀缺高質量樣本之間的數據不平衡。模型首先在大量弱監督、嘈雜的數據上進行預訓練,以建立相關性理解的基線并提升泛化能力。然后,我們在高質量、特定任務的數據集上進行微調,引導模型進行更精確的相關性評分和細粒度交互。除了上述原因外,多階段訓練策略的另一個目標是引導提升數據質量和模型性能。隨著訓練通過連續階段進行,模型的能力不斷增強。這種改進反過來促進了更有效的數據挖掘,從而優化了訓練數據的質量。這種迭代循環最終導致模型整體性能的大幅提升。

多階段訓練
實施了如下的三階段訓練策略:
階段 1:對比預訓練 (Stage 1: Contrastive Pre-training)為了對齊多模態表示空間并增強對各種模態、任務和領域的世界知識理解,首先在 Qwen3-VL-Instruct 模型上進行對比預訓練。在此階段,利用了 3 億個使用第 3 章中描述的合成流水線生成的合成多模態對。這些數據包含了廣泛的領域和任務,為穩健的表示學習提供了基礎。由此產生的模型記為 Qwen3-VL-Embedding: s0。
階段 2:多任務對比學習 (Stage 2: Multi-task Contrastive Learning)在此階段,我們在包含 4000 萬個樣本的高質量數據集上微調 s0 模型。該數據集是通過利用 s0 模型的檢索能力,從合成池以及公開和專有數據源中挖掘得到的。此階段不僅通過更高質量的數據細化了 Embedding 模型,還利用特定的檢索數據子集訓練了 Qwen3-VL-Reranker。由此產生的 Embedding 模型記為 Qwen3-VL-Embedding: s1。
階段 3:蒸餾與模型合并 (Stage 3: Distillation and Model Merging)為了進一步提升檢索性能,我們利用 Qwen3-VL-Reranker 模型的評分能力,將其知識蒸餾到 Embedding 模型中。我們使用 s1 模型挖掘了 400 萬個困難負樣本,創建了一個專注于具有挑戰性區分的訓練集。這一過程產生了 Qwen3-VL-Embedding: s2。最后,為了保持通用能力并在廣泛的任務中保持平衡的性能,我們將 s2 模型的權重與 s1 模型合并,得到最終模型 Qwen3-VL-Embedding: s3。
實現細節
基礎模型Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 系列基于 Qwen3-VL-Instruct 模型 (Qwen Team, 2024) 構建,利用了其強大的多模態理解和推理能力。
訓練配置所有模型均使用 AdamW 優化器進行訓練。對于 Qwen3-VL-Embedding 系列,將最大學習率設置為 。對于 Qwen3-VL-Reranker 系列,最大學習率為 。為了提高訓練效率,我們采用了 LoRA 微調并啟用了 Flash Attention。
輸入配置模型支持的最大上下文長度為 32k tokens。圖像輸入被調整大小以保持其原始縱橫比,最長邊限制為 1280 像素。對于視頻輸入,我們每秒采樣一幀,最大幀數限制為 64。
訓練目標
下面詳細介紹了 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 模型的訓練目標。
Embedding 模型的損失函數
Embedding 模型的訓練采用了多任務學習目標,結合了 InfoNCE 損失、CoSent 損失、MRL 損失、二值量化損失以及蒸餾損失。
檢索任務 (Retrieval Tasks)對于檢索任務,我們采用 InfoNCE 損失。對于批次 中的查詢 、其正文檔 和負文檔集合 ,損失定義為:
其中 表示余弦相似度, 是溫度超參數。我們在批次內使用負樣本,并輔以從第 3.3 節所述挖掘出的困難負樣本。
語義文本相似度 (STS) 任務 (Semantic Textual Similarity Tasks)對于 STS 任務,為了利用細粒度的相似度分數,使用 CoSent 損失:
其中 和 分別表示正樣本對和負樣本對的集合, 是縮放因子。
分類任務 (Classification Tasks)對于分類任務,我們將標簽描述視為查詢,將輸入(圖像/視頻)視為文檔。損失類似于 ,但在構建負樣本時,我們僅包括來自不同類別的樣本,并排除同一類別的任何樣本以避免假陰性。
知識蒸餾 (Knowledge Distillation)在第 3 階段,我們應用知識蒸餾,使 Embedding 模型的分數分布與 Reranker 教師模型的分數分布對齊。對于查詢 和一組候選文檔 ,蒸餾損失為:
其中 和 分別是教師和學生模型在 上的 softmax 歸一化得分分布。
俄羅斯套娃表示學習 (Matryoshka Representation Learning, MRL)為了支持靈活的嵌入維度,采用了 MRL。對于一組嵌套維度 ,總損失為:
其中 表示截斷到前 維的嵌入, 是權重系數。
量化感知訓練 (Quantization-Aware Training)為了確保二進制量化后的高性能,我們在訓練期間加入量化損失。如 (Zhang et al., 2025c) 建議,不對嵌入本身進行二值化,而是通過偽量化正則化項來促進二值化友好性:
其中 是嵌入向量,sg 表示停止梯度 (stop-gradient) 操作。這鼓勵嵌入向量靠近超立方體的頂點。
Reranker 模型的損失函數
我們將重排序構建為一個二分類問題:給定一個查詢-文檔對,模型預測一個特殊的 yes 標記(相關)或 no 標記(不相關)。
其中 表示 VLM 分配的概率。對于正樣本對,標簽 為 “yes”,對于負樣本對則為 “no”。該損失函數鼓勵模型為正確的標簽分配更高的概率,從而提高排序性能 (Dai et al., 2025)。
在推理過程中,最終的相關性分數是通過對 yes 和 no 標記的 logits 之差應用 sigmoid 函數計算得出的:
評估結果

MMEB-V2 基準測試 :Qwen3-VL-Embedding-8B 取得了 77.8 的總分,在圖像、視頻、視覺文檔等所有子任務中均表現優異,超越了 VLM2Vec、GME 以及閉源模型(如 Google Gemini Embedding, OpenAI text-embedding-3-large)。
視覺文檔檢索 (Visual Document Retrieval) :在 VisRAG、ViDoRe 等多個基準上,Qwen3-VL-Embedding 和 Reranker 系列模型展現了統治級的性能,優于 ColPali 和 ColQwen2 等模型。
純文本基準 (Text Benchmarks) :雖然是多模態模型,但在 MMTEB 純文本榜單上,Qwen3-VL-Embedding-8B 達到了 67.9 的均分,與同等規模的純文本 Embedding 模型能力相當。
Reranking 性能 :Qwen3-VL-Reranker-8B 在絕大多數重排序任務中顯著優于基線模型,相比 2B 版本有大幅提升。
消融實驗
MRL 與量化:實驗表明,隨著維度降低,性能會有所下降,但在合理范圍內(如 1024 降至 512)性能損失微小(約 1.4%),卻能帶來 50% 的存儲節省。Int8 量化幾乎不損失精度,而二進制量化在低維時會有較明顯的性能下降。
時空粒度影響:增加圖像的 Token 數和視頻的幀數能提升性能,但存在邊際效應遞減,過長的上下文甚至可能導致輕微的性能回退。
多階段訓練效果:消融研究顯示,從 S0 到 S1(多任務微調)提升顯著;S2(蒸餾)大幅提升了檢索任務性能但犧牲了部分分類能力;最終的 S3(合并)成功平衡了各項能力,實現了最佳的綜合性能。

結論
本報告介紹了 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker,這是面向多模態檢索的SOTA模型系列。通過將多階段訓練流水線與高質量多模態數據相結合,并最大程度地利用 Qwen3-VL 基礎模型的多模態知識和通用理解能力,Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 模型系列在廣泛的多模態檢索基準測試中實現了前所未有的性能,同時保持了強大的純文本能力。
此外,通過引入俄羅斯套娃表示學習(Matryoshka Representation Learning)和量化感知訓練(Quantization-Aware Training),Qwen3-VL-Embedding 系列具備了卓越的實際部署特性,在保持卓越性能的同時顯著降低了下游任務的計算成本。展望未來,有前景的研究方向包括擴展對更多模態的支持、開發更高效的訓練范式、增強組合推理能力以及建立更全面的評估協議。本工作相信這些模型代表了多模態檢索技術的重大進步,并希望它們能推動這一快速發展領域的進一步創新。
參考文獻
[1] Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking
原文標題 : 國產多模態搜索史詩級突破!Qwen3-VL登頂MMEB:支持30+語言,一套模型搞定圖文視頻
最新活動更多
- 1 特斯拉Optimus Gen3量產在即,哪些環節最具確定性?
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 4 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 5 Tesla AI5芯片最新進展總結
- 6 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 7 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 8 2026,人形機器人只贏了面子
- 9 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 10 AI Infra產業鏈卡在哪里了?



分享













