尽在多成影院,黑人粗大XXXHD精品,在线观看国产一区,久草视频在线视频在线观看

4B參數(shù)干翻14B！國產(chǎn)統(tǒng)一多模態(tài)“全能戰(zhàn)士” InternVL-U開源：理解、生成與編輯迎新高度

2026-03-13 14:33

作者：Changyao Tian等

解讀：AI生成未來
InternVL-U生成和圖像編輯效果

InternVL-U生成和圖像編輯效果

亮點直擊

InternVL-U 架構(gòu)：構(gòu)建了一個僅有 4B 參數(shù)的輕量級、高效統(tǒng)一多模態(tài)模型（UMM），在一個統(tǒng)一的框架內(nèi)實現(xiàn)了多模態(tài)的理解、推理、生成與編輯能力。

架構(gòu)設(shè)計理念創(chuàng)新：基于統(tǒng)一上下文建模（Unified Contextual Modeling）、視覺表示解耦（Decoupled Visual Representations）以及特定模態(tài)模塊化（Modality-Specific Modularity）三大原則，成功解決了高層語義理解與底層像素重建之間的沖突。

以推理為中心的數(shù)據(jù)合成范式（Reasoning-centric Paradigm）：針對高語義密度任務(wù)（如文本渲染、科學(xué)推理、空間操作等），構(gòu)建了全面的數(shù)據(jù)合成pipeline。通過引入思維鏈（Chain-of-Thought, CoT），將用戶抽象模糊的意圖轉(zhuǎn)化為包含規(guī)劃與約束的可執(zhí)行步驟，實現(xiàn)了從簡單指令遵循到深度意圖對齊的跨越。

解決的問題

性能與效率的權(quán)衡（Trade-offs）：現(xiàn)有的統(tǒng)一多模態(tài)模型很難在“保持強(qiáng)大的語義理解能力”與“獲得高質(zhì)量的圖像生成能力”之間取得平衡。

原生與集成 UMM 的架構(gòu)缺陷：完全原生（Fully-native）UMM：從頭聯(lián)合訓(xùn)練理解和生成任務(wù)面臨巨大的優(yōu)化和工程挑戰(zhàn)（不同模態(tài)數(shù)據(jù)分布沖突），且往往需要放棄社區(qū)已有 SOTA 多模態(tài)理解模型的先驗知識，訓(xùn)練成本極高。完全集成（Fully-ensemble）UMM：通常需要外接極其龐大的視覺生成頭（導(dǎo)致訓(xùn)練和部署成本劇增），或者引入復(fù)雜且碎片化的條件控制管道，難以與單一 MLLM 的隱藏狀態(tài)空間完美對齊。

訓(xùn)練數(shù)據(jù)分布的領(lǐng)域鴻溝：生成模型通常在紋理豐富但語義密度低的自然圖像上訓(xùn)練，而理解模型則高度依賴包含密集語義、文本和結(jié)構(gòu)化知識的合成圖像（如 GUI、圖表）。這種數(shù)據(jù)目標(biāo)的錯位阻礙了面向 AGI 的統(tǒng)一模型的演進(jìn)。

用戶意圖的抽象性：在真實場景中，用戶給出的生成或編輯指令往往簡短且模糊，缺乏具體約束，導(dǎo)致模型難以準(zhǔn)確捕捉意圖并生成符合邏輯的精細(xì)圖像（特別是涉及文本、科學(xué)知識和復(fù)雜邏輯時）。

提出的方案

基于先進(jìn) MLLM 的模塊化架構(gòu)：InternVL-U 建立在開源且性能領(lǐng)先的 InternVL 3.5 基礎(chǔ)之上，保留了強(qiáng)大的理解能力，并定制集成了一個基于 MMDiT 的輕量視覺生成頭（Visual Generation Head）。

視覺表示解耦：在理解任務(wù)中，輸入使用預(yù)訓(xùn)練 ViT 提取的高層語義特征；在生成任務(wù)中，輸出目標(biāo)則使用專門用于圖像重建的 VAE 壓縮的潛空間（Latent space）特征。

高質(zhì)量、高語義密度數(shù)據(jù)pipeline：設(shè)計了針對中英雙語排版渲染、科學(xué)知識結(jié)構(gòu)化（基于 GeoGebra 和 SVG）、空間幾何變換以及網(wǎng)絡(luò)熱梗（Meme）的專門合成pipeline。

引入 CoT 推理引導(dǎo)生成與編輯：在訓(xùn)練和推理階段利用大模型生成詳細(xì)的“思維鏈”步驟，將抽象指令擴(kuò)展為對物體、背景、樣式、約束條件的詳細(xì)描述，使得生成模型能獲得更清晰、更穩(wěn)定的監(jiān)督信號。

應(yīng)用的技術(shù)

混合生成目標(biāo)（Hybrid Generative Objectives）：對離散的文本采用標(biāo)準(zhǔn)的自回歸（AR）下個 Token 預(yù)測；對連續(xù)的視覺圖像潛變量采用基于流匹配（Flow Matching）的連續(xù)多變量概率空間建模。

帶門控注意力的雙流 MMDiT（Dual-Stream MMDiT with Gated Attention）：視覺生成頭采用雙流架構(gòu)處理多模態(tài)上下文和生成目標(biāo)，引入元素級門控機(jī)制（Gating Mechanism）來增強(qiáng)非線性，緩解高分辨率長上下文場景下的“注意力下沉（Attention-sink）”問題。

具有分辨率插值的統(tǒng)一 MSRoPE（Unified MSRoPE with Resolution Interpolation）：對上下文中的視覺 Token 和生成目標(biāo)應(yīng)用統(tǒng)一的 3D 旋轉(zhuǎn)位置編碼。采用分辨率插值策略（通過增加相鄰 Token 的步幅而非縮小索引范圍）來處理從低分辨率向高分辨率微調(diào)時的擴(kuò)展問題。

三階段漸進(jìn)式訓(xùn)練（Three-stage Progressive Training）：

生成頭預(yù)訓(xùn)練：凍結(jié) MLLM，僅訓(xùn)練生成頭及投影層，將視覺生成對齊到 MLLM 潛空間。

任意分辨率持續(xù)預(yù)訓(xùn)練：引入多種長寬比和更高分辨率，保持 MLLM 凍結(jié)，顯式注入條件圖像的 VAE 潛特征以提升編輯的像素級一致性。

統(tǒng)一監(jiān)督微調(diào)：解凍全模型進(jìn)行端到端優(yōu)化，加入 CoT 推理數(shù)據(jù)，讓模型學(xué)會在視覺執(zhí)行前通過文本推理進(jìn)行規(guī)劃。

達(dá)到的效果

性能越級：盡管總參數(shù)量僅為 4B（2B MLLM + 1.7B 生成頭），InternVL-U 在各類生成和編輯任務(wù)上持續(xù)超越了規(guī)模是其 3 倍以上的統(tǒng)一基線模型（如 14B 的 BAGEL）。

卓越的文本渲染與復(fù)雜生成能力：在通用的、以文本為中心的（如海報、UI 編輯）、以及知識密集型（如數(shù)學(xué)、物理原理圖）基準(zhǔn)測試中表現(xiàn)優(yōu)異，尤其是在生成高可讀性文本和遵循復(fù)雜指令方面，逼近了更大規(guī)模的專用生成模型。

保持頂尖的理解與推理水平：在統(tǒng)一了生成和編輯能力后，InternVL-U 在多模態(tài)理解基準(zhǔn)測試（如 MME-P、OCRBench、MMMU）上依然保持了與純理解模型相當(dāng)?shù)膹?qiáng)大能力，沒有出現(xiàn)“災(zāi)難性遺忘”或能力妥協(xié)。

InternVL-U方法

模型架構(gòu)

總體設(shè)計原則

如圖 3 所示，與近期強(qiáng)制對所有模態(tài)采用同質(zhì)化處理管道的方法（例如 Mixture-of-Transformer (MoT)）不同，本工作架構(gòu)的驅(qū)動理念是：不同的模態(tài)需要定制化的處理方式，以實現(xiàn)效率和性能的最大化。本文從三個關(guān)鍵維度闡述了設(shè)計原則：建模范式、結(jié)構(gòu)效率和數(shù)據(jù)表示。

具有模態(tài)自適應(yīng)生成的統(tǒng)一上下文建模。第一個原則旨在解決多模態(tài)理解（上下文）與生成（預(yù)測）之間的二分法。本文認(rèn)為，盡管上下文環(huán)境受益于統(tǒng)一的表示以促進(jìn)深度語義融合，但生成過程應(yīng)當(dāng)尊重每種模態(tài)固有的統(tǒng)計特性。

統(tǒng)一的上下文，自適應(yīng)的目標(biāo)：在上下文階段，本文將視覺和語言 Token 投影到一個共享的潛空間中，采用帶有因果掩碼的統(tǒng)一自回歸（AR）范式。這確保了模型在推理過程中能夠捕獲模態(tài)間復(fù)雜的高層語義依賴關(guān)系。

混合生成目標(biāo)：然而，對于預(yù)測目標(biāo)，本文偏離了“一切皆 Token 化”的方法。文本本質(zhì)上是離散且具有序列性的，最適合通過交叉熵?fù)p失在有限詞表上進(jìn)行分類分布建模。相反，視覺信號是連續(xù)且具有空間相關(guān)性的。雖然離散的視覺 Token 化是一種可行的替代方案（正如基于 VQ-VAE 的自回歸模型那樣），但它可能會引入量化瓶頸，并使得細(xì)粒度的空間建模變得不夠直接。因此，本文采用了混合的 “自回歸 + 擴(kuò)散” 建模范式。本文在連續(xù)的多變量概率空間中使用流匹配（Flow Matching，擴(kuò)散模型的一種廣義形式）來建模圖像生成，同時保留了文本的自回歸目標(biāo)。這種設(shè)計允許模型保留自回歸語言模型在文本上的優(yōu)勢，同時利用基于擴(kuò)散的方法在圖像上高保真生成的潛力。

通過特定模態(tài)模塊化設(shè)計實現(xiàn)結(jié)構(gòu)效率。第二個原則旨在解決完全模態(tài)不可知架構(gòu)在計算上的低效問題，這類架構(gòu)將所有模態(tài)視為統(tǒng)一的 Token 序列。本文認(rèn)為不同模態(tài)具有不同的“語義密度”：文本語義密集，而原始視覺 Patch 則是稀疏且冗余的。

基于編碼器的 MLLM 初始化：為了減輕使用通用 Transformer 處理原始模態(tài)時固有的參數(shù)和 FLOPs 浪費(fèi)，本文引入了特定模態(tài)的編碼主干（Stems）。本文使用基于編碼器的架構(gòu)（利用預(yù)訓(xùn)練的 ViT）來初始化多模態(tài)上下文建模骨干，而不是使用更龐大或原生的多模態(tài)設(shè)計。這種設(shè)計引入了必要的歸納偏置，在視覺信息進(jìn)入統(tǒng)一潛空間之前對其進(jìn)行了高效聚合。

特定模態(tài)生成頭：此外，考慮到文本和圖像的解碼需求不同，本文擴(kuò)展了預(yù)訓(xùn)練的 MLLM，為其增加了一個基于多模態(tài)擴(kuò)散 Transformer（MMDiT）架構(gòu)的專用圖像生成頭。MMDiT 作為一個專用的生成模塊，以統(tǒng)一的隱藏狀態(tài)作為條件信號，在連續(xù)的視覺潛空間中合成圖像，而不是讓上下文建模骨干去承擔(dān)像素級合成的重?fù)?dān)。這種層次化設(shè)計確保了骨干網(wǎng)絡(luò)可以專注于語義推理，而專門的主干和頭部模塊則負(fù)責(zé)特定模態(tài)的轉(zhuǎn)換，從而構(gòu)建出一個更加統(tǒng)一且計算高效的 UMM。

用于理解與生成的解耦視覺表示。第三個原則挑戰(zhàn)了這樣一個假設(shè)：用于理解圖像的視覺表示必須與用于生成圖像的視覺表示完全相同。本文提出了一種不對稱的表示策略，其動機(jī)在于：圖像理解主要依賴于包含語義信息的特征，而圖像生成則額外需要能夠保留可重建底層視覺細(xì)節(jié)的表示（正如人類可以感知復(fù)雜的場景，但未必能將其畫出來一樣）。

用于上下文理解的語義輸入：對于理解任務(wù)（上下文），本文僅利用通過預(yù)訓(xùn)練 ViT 直接從原始像素中提取的高層語義特征。這有助于保留復(fù)雜推理所需的語義保真度。

用于生成目標(biāo)的壓縮輸出：對于生成任務(wù)（目標(biāo)），本文采用了一個專門為圖像重建訓(xùn)練的獨立變分自編碼器（VAE）。該 VAE 將圖像壓縮到一個適合用于合成的潛空間中。

通過解耦這些表示，本工作不僅避免了“優(yōu)化權(quán)衡”（即單一編碼器難以平衡理解所需的高層抽象和生成所需的底層像素細(xì)節(jié)），還避免了因?qū)⑸赡繕?biāo)輸入上下文骨干網(wǎng)絡(luò)而增加的計算成本和架構(gòu)復(fù)雜性。這使得本文能夠在不犧牲生成質(zhì)量的前提下，利用最強(qiáng)大的預(yù)訓(xùn)練編碼器進(jìn)行理解。

視覺生成頭

基于上述原則，進(jìn)一步詳細(xì)介紹了定制開發(fā)的視覺生成頭的實現(xiàn)細(xì)節(jié)，如圖 4 所示。

用于上下文和目標(biāo)輸入的雙投影器。多模態(tài)隱藏狀態(tài)（上下文）和 VAE 圖像潛變量（目標(biāo)）的特征分布展現(xiàn)出顯著的異質(zhì)性。為了彌合這種異質(zhì)性，本文采用獨立的線性投影器將它們映射到視覺生成模塊的條件空間中。關(guān)鍵的是，本文觀察到，多模態(tài)上下文嵌入往往比 VAE 潛變量表現(xiàn)出更大的量級和更明顯的異常值。為了減少這種尺度不匹配并提高訓(xùn)練穩(wěn)定性，本文在投影之前在 VLM 分支上引入了一個額外的歸納層，顯式地將上下文特征的方差歸一化為 1。

帶有門控注意力的雙流 MMDiT 模塊。本文采用了完全的雙流（Dual-Stream）架構(gòu)，以應(yīng)對多模態(tài)上下文和生成目標(biāo)的截然不同的統(tǒng)計特性。雖然雙流通過聯(lián)合自注意力進(jìn)行交互以捕獲 Token 級的依賴關(guān)系，但它們在 QKVO 投影和前饋網(wǎng)絡(luò)（FFNs）上使用了獨立解耦的參數(shù)。此外，為了增強(qiáng)非線性并緩解在高分辨率、長上下文場景下觀察到的“注意力下沉（Attention-sink）”現(xiàn)象，本文在注意力模塊中集成了一個元素級門控機(jī)制（Gating Mechanism）。形式上，注意力層調(diào)制后的輸出為：

其中表示 Sigmoid 函數(shù)，和分別表示注意力層的輸入和輸出，表示可學(xué)習(xí)的門控投影矩陣，該矩陣同樣在雙流中是解耦的。據(jù)本文所知，這是首次在 MMDiT 架構(gòu)中集成門控機(jī)制，它以極小的參數(shù)開銷提供了更強(qiáng)的表達(dá)能力。

具有分辨率插值的統(tǒng)一 MSRoPE。本文采用多模態(tài)可擴(kuò)展的旋轉(zhuǎn)位置編碼（Multimodal Scalable RoPE, MSRoPE）對位置信息進(jìn)行編碼，確保嚴(yán)格保留空間結(jié)構(gòu)。

統(tǒng)一的 3D 編碼：過去的許多工作往往將多模態(tài)上下文中的視覺 Token 視為展平的 1D 序列，與此不同，本文對生成目標(biāo)和上下文中的視覺 Token 均應(yīng)用統(tǒng)一的 3D 位置嵌入（時間、高度、寬度）。這種對齊方式顯著有利于需要精確空間推理的任務(wù)，例如圖像編輯。

位置插值：為了促進(jìn)分辨率的縮放，本文解決了在高分辨率微調(diào)期間直接外推位置索引時觀察到的“平鋪偽影（tiling artifact）”問題。取而代之的是，本文采用了一種分辨率插值策略。本文基于目標(biāo)的最大分辨率（例如 1024px）定義位置嵌入的范圍。在初始的低分辨率預(yù)訓(xùn)練階段（例如 512px），本文并沒有使用較小的索引范圍，而是利用了完整的范圍，但增加了相鄰 Token 之間的步幅。這確保了模型從一開始就學(xué)習(xí)到一致的全局空間表示，從而在擴(kuò)展到更高分辨率時最小化領(lǐng)域鴻溝。

訓(xùn)練策略

訓(xùn)練目標(biāo)

為了賦予 UMM 處理和生成多模態(tài)內(nèi)容的能力，本文制定了一個聯(lián)合優(yōu)化目標(biāo)。給定多模態(tài)上下文序列，模型被訓(xùn)練為同時預(yù)測離散的文本 Token 和連續(xù)的圖像潛變量表示。

自回歸文本生成。對于文本部分，本文將文本生成視為離散詞表上的序列建模問題。本文采用標(biāo)準(zhǔn)的下個 Token 預(yù)測（Next-Token Prediction, NTP）目標(biāo)，即在給定上下文和前面 Token 的條件下，最小化目標(biāo) Token 的負(fù)對數(shù)似然：

其中表示長度為的文本序列中的第個Token，表示前面的 Token，是統(tǒng)一模型的參數(shù)。這一目標(biāo)確保模型保留了 MLLM 骨干網(wǎng)絡(luò)固有的推理和指令遵循能力。

用于圖像生成的流匹配。對于視覺部分，本文采用帶有速度參數(shù)化（Velocity parameterization）的流匹配框架來對圖像潛變量的連續(xù)分布進(jìn)行建模。不同于預(yù)測噪聲的擴(kuò)散模型，本文回歸的是將概率密度從高斯噪聲分布傳輸?shù)綌?shù)據(jù)分布的速度向量場。根據(jù)流匹配和受最優(yōu)傳輸啟發(fā)的傳輸路徑的常用表達(dá)形式，本文假設(shè)噪聲和真實圖像潛變量之間存在標(biāo)準(zhǔn)線性插值路徑。在時間的中間狀態(tài)定義為。目標(biāo)是最小化預(yù)測速度與線性軌跡上目標(biāo)漂移之間的均方誤差：

其中是模型在給定上下文條件下預(yù)測時間速度向量的輸出，而表示沿線性軌跡的真實瞬時速度。

統(tǒng)一的訓(xùn)練目標(biāo)。最終的訓(xùn)練目標(biāo)是離散和連續(xù)損失的加權(quán)總和：

其中和是平衡兩種模態(tài)的標(biāo)量超參數(shù)。在實踐中，本文在不同的訓(xùn)練階段（例如預(yù)訓(xùn)練與監(jiān)督微調(diào)階段）動態(tài)調(diào)整這些系數(shù)，以優(yōu)先關(guān)注特定的能力（如視覺保真度或推理能力）。

訓(xùn)練pipeline

為了在遵循前面概述的架構(gòu)原則的同時最大化訓(xùn)練效率，本文基于一個專門為理解任務(wù)優(yōu)化的預(yù)訓(xùn)練 MLLM 進(jìn)行初始化。由于基礎(chǔ) MLLM 缺乏視覺生成能力，本文設(shè)計了一個三階段課程（curriculum），在將視覺合成技能與語義推理統(tǒng)一起來之前，逐步解鎖這些技能。

階段 1：生成頭預(yù)訓(xùn)練。在初始階段，本工作專注于將新初始化的視覺生成頭與 MLLM 的潛空間對齊。本文凍結(jié)了 MLLM 以保留其語義表示，僅訓(xùn)練生成頭和投影器。遵循前人工作，本文跳過了 256px 的預(yù)訓(xùn)練，直接使用 512px 的固定分辨率來加速早期收斂。與以往僅依賴文本到圖像數(shù)據(jù)進(jìn)行初始化的方法不同，本文從一開始就混合使用了文生圖和圖像編輯數(shù)據(jù)集。這種多任務(wù)策略迫使生成頭同時關(guān)注文本指令和視覺上下文 Token，為多模態(tài)條件對齊奠定了堅實的基礎(chǔ)。

階段 2：任意分辨率的持續(xù)預(yù)訓(xùn)練。在穩(wěn)定初始化的基礎(chǔ)上，本文推進(jìn)到可變分辨率的訓(xùn)練，以處理多樣化的長寬比并增強(qiáng)視覺保真度。此時 MLLM 骨干網(wǎng)絡(luò)仍保持凍結(jié)。本文對訓(xùn)練語料庫進(jìn)行了二次過濾，僅保留高美感樣本，并丟棄那些長寬比極端且可能引起訓(xùn)練不穩(wěn)定的樣本。生成圖像的分辨率控制在 512 到 1024 像素之間，而長寬比維持在 0.5 到 2.0 之間。對于圖像編輯任務(wù)，保持輸入條件與輸出之間的像素級對齊至關(guān)重要。為此，本文進(jìn)一步將條件圖像的 VAE 潛變量顯式地注入到視覺生成頭中，以實現(xiàn)更好的像素級一致性。

階段 3：統(tǒng)一監(jiān)督微調(diào)。最后一個階段旨在進(jìn)一步融合前幾個階段獲得的視覺生成能力與預(yù)訓(xùn)練 MLLM 的推理能力。因此，包含 MLLM 骨干在內(nèi)的整個模型均被解凍，以實現(xiàn)端到端的優(yōu)化。訓(xùn)練語料庫基于更嚴(yán)格的標(biāo)準(zhǔn)進(jìn)一步過濾，并加入了額外 CoT 推理數(shù)據(jù)。通過將這些 CoT 數(shù)據(jù)與圖像生成和編輯數(shù)據(jù)混合，模型被賦予了在視覺域執(zhí)行生成之前，先通過文本推理進(jìn)行規(guī)劃的能力。

數(shù)據(jù)構(gòu)建

介紹了 InternVL-U 為何能在僅有 4B 參數(shù)的情況下實現(xiàn)強(qiáng)大的生成與編輯能力——核心在于其構(gòu)建的一套高質(zhì)量、高語義密度的數(shù)據(jù)合成pipeline。

基礎(chǔ)數(shù)據(jù)清洗與多粒度標(biāo)注：

開源數(shù)據(jù)整合與清洗：收集了海量開源的文生圖和圖像編輯數(shù)據(jù)，并通過多維度過濾（美學(xué)評分、分辨率、去重、去水印、安全過濾）獲取高質(zhì)量子集。

多粒度 Caption 打標(biāo)：利用先進(jìn)的 MLLM（如 Qwen2.5-VL）生成從簡短（Concise）、密集（Dense）到以人為中心（Human-centric）的不同粒度圖像描述，增強(qiáng)文本與視覺概念的綁定。

四大高語義密度垂直領(lǐng)域數(shù)據(jù)合成：

以文本為中心（Text-centric）：為了解決生成模型中“文字亂碼”的問題，專門設(shè)計了中英雙語的渲染與編輯pipeline。包括在純色或自然背景上動態(tài)排版文字，以及利用 OCR 和大模型結(jié)合的精準(zhǔn)文本替換數(shù)據(jù)。

2. 以科學(xué)為中心（Science-centric）：針對物理、化學(xué)、生物和計算機(jī)科學(xué)，利用編程工具（如 GeoGebra、SVG、matplotlib）合成具有嚴(yán)格邏輯和高度結(jié)構(gòu)化的視覺文本數(shù)據(jù)（如復(fù)雜的物理受力圖、二叉樹結(jié)構(gòu)圖等）。

3. 以空間幾何為中心（Spatial-centric）：針對空間關(guān)系的精準(zhǔn)控制，合成了包含3D立體幾何旋轉(zhuǎn)、平移、多視圖 CAD 等數(shù)據(jù)，確保模型具備嚴(yán)格的三維空間感知能力。

4. 以幽默/熱梗為中心（Humor-centric/Meme）：設(shè)計了包含文本檢測、消除、指令生成的五階段pipeline，專門用于表情包（Meme）的生成與二次編輯，捕捉人類的幽默、諷刺等抽象情緒。

核心殺手锏：以推理為中心的數(shù)據(jù)合成 (Reasoning-centric / CoT Paradigm) ：

解決“抽象指令”痛點：用戶通常給出的指令非常簡短模糊（如“畫一個過周末的表情包”或“把這個改成玻璃材質(zhì)”）。

思維鏈增強(qiáng)：引入 CoT，利用大模型作為“翻譯官”，在原始輸入和最終輸出之間插入顯式的推理步驟。將抽象指令轉(zhuǎn)化為包含具體對象細(xì)節(jié)、屬性約束、執(zhí)行步驟的詳細(xì)描述，為模型提供更清晰、穩(wěn)定的監(jiān)督信號。

實驗評估

通過大量的基準(zhǔn)測試，全面驗證了 InternVL-U 在“理解-推理-生成-編輯”四個維度的全能表現(xiàn)及“越級”戰(zhàn)斗力。

實驗設(shè)置與輕量化優(yōu)勢：

模型總參數(shù)量僅為 4B（2B 的理解骨干 + 1.7B 的視覺生成頭），但在測試中全面對標(biāo)甚至超越了規(guī)模是其數(shù)倍（如 14B 甚至 20B）的統(tǒng)一多模態(tài)模型和專用生成模型。

多模態(tài)理解與推理 (強(qiáng)大的基本盤) ：

無災(zāi)難性遺忘：在賦予模型生成和編輯能力后，InternVL-U 在 MME-P、OCRBench、MMMU 等 7 個主流理解榜單上依然保持了頂尖水平，大幅超越同級別的統(tǒng)一模型（如 Janus-Pro, Ovis-U1），并在 MMMU 上打平了 14B 參數(shù)的 BAGEL。

圖像生成能力 (Text-to-Image Generation) ：

通用生成：在 GenEval 和 DPG-Bench 上取得統(tǒng)一模型中的最高分，證明其在物體組合、屬性綁定方面的精準(zhǔn)度。

文本渲染（拔尖能力）：在 CVTG-2k 和 LongText-Bench 上表現(xiàn)出斷層式的領(lǐng)先，完美解決了以往統(tǒng)一模型難以渲染清晰、準(zhǔn)確中英雙語文字的缺陷。

知識密集型生成：得益于 CoT 策略，在 WISE 和 GenExam（包含數(shù)理化生等學(xué)科題目）榜單上，模型能夠正確調(diào)用內(nèi)在的世界知識生成符合科學(xué)事實的圖像，CoT 的加入帶來了極其顯著的性能飛躍。

圖像編輯能力 (Image Editing) ：

通用與文本編輯：在常規(guī)編輯榜單中展現(xiàn)了高保真的材質(zhì)替換與風(fēng)格遷移能力。為了評估文本編輯，本文還專門提出了一個新的高質(zhì)量基準(zhǔn) TextEdit，在這個榜單上，InternVL-U 的 F1 分?jǐn)?shù)直接對齊了閉源商業(yè)大模型（GPT-Image-1.5, Nano Banana Pro），遠(yuǎn)超開源競品。

推理驅(qū)動編輯：在高度依賴邏輯推導(dǎo)的 RISEBench 榜單上，加入 CoT 策略的 InternVL-U 得分從 3.6 暴漲至 9.4，擊敗了所有開源統(tǒng)一模型以及專用的 Qwen-Image-Edit。模型能夠完美執(zhí)行如“時間計算”、“算法規(guī)則（二叉樹插入）”等復(fù)雜邏輯約束下的修改。

結(jié)論

InternVL-U，一個統(tǒng)一的多模態(tài)模型，有效實現(xiàn)了理解、推理、生成與編輯能力的普及。通過遵循統(tǒng)一上下文建模（Unified context modeling）、特定模態(tài)模塊化（Modality-specific modularity）以及視覺表示解耦（Decoupled visual representations）的原則，本文架構(gòu)將強(qiáng)大的生成能力無縫集成到了表現(xiàn)優(yōu)異的理解骨干網(wǎng)絡(luò)中。

為了進(jìn)一步彌合高層智能與視覺生成之間的鴻溝，本文引入了結(jié)合思維鏈（CoT）范式的全面數(shù)據(jù)合成pipeline，使模型能夠?qū)⒂脩舫橄蟮囊鈭D與精準(zhǔn)的視覺執(zhí)行完美對齊。實證結(jié)果證實，InternVL-U 不僅在知識密集型的生成和編輯任務(wù)中表現(xiàn)出色，而且在多模態(tài)理解與推理基準(zhǔn)測試中依然保持了極具競爭力的性能。

希望 InternVL-U 能夠作為一個強(qiáng)大的基線模型，從而加速整個社區(qū)在開發(fā)全面、全能且面向 AGI（通用人工智能）的統(tǒng)一多模態(tài)模型（UMMs）方面的研究進(jìn)程。

參考文獻(xiàn)

[1] InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

原文標(biāo)題 : 4B參數(shù)干翻14B！國產(chǎn)統(tǒng)一多模態(tài)“全能戰(zhàn)士” InternVL-U開源：理解、生成與編輯迎新高度