真“六邊形戰(zhàn)士”!Capybara把圖像視頻全打通:一個(gè)模型搞定T2I、T2V、I2V!
作者:Capybara 團(tuán)隊(duì)
解讀:AI生成未來(lái)




亮點(diǎn)直擊
統(tǒng)一的視覺(jué)創(chuàng)作模型 Capybara: 針對(duì)當(dāng)前視覺(jué)內(nèi)容創(chuàng)作領(lǐng)域高度碎片化(單一模態(tài)、功能割裂、接口不兼容)的問(wèn)題,本文提出了Capybara,一個(gè)統(tǒng)一的視覺(jué)創(chuàng)作基礎(chǔ)模型。該模型能夠在單一框架下同時(shí)支持圖像/視頻的生成與編輯任務(wù)。
實(shí)現(xiàn)了真正的多模態(tài)統(tǒng)一接口: Capybara的核心創(chuàng)新在于其共享的多模態(tài)條件接口。單個(gè)模型能夠接收包含文本、圖像、視頻在內(nèi)的多種模態(tài)上下文輸入,并通過(guò)改變輸入的上下文和指令來(lái)實(shí)現(xiàn)多樣化的創(chuàng)作行為,無(wú)需切換架構(gòu)或訓(xùn)練多個(gè)專用模型。
整合并統(tǒng)一了四大類(lèi)核心創(chuàng)作任務(wù): 本文將分散的創(chuàng)作功能統(tǒng)一到一個(gè)框架下,包括:
1. 文本到圖像/視頻生成。
2. 上下文生成:基于草圖、主體參考、起始幀等視覺(jué)條件進(jìn)行生成。
3. 基于指令的編輯:通過(guò)文本指令編輯圖像/視頻,并首次將密集預(yù)測(cè)任務(wù)視為其特例。
4. 上下文編輯:由額外的視覺(jué)參考、風(fēng)格示例或多模態(tài)上下文驅(qū)動(dòng)的編輯,如關(guān)鍵幀傳播。
重構(gòu)了視覺(jué)創(chuàng)作的范式:本文將視覺(jué)創(chuàng)作重新定義為在統(tǒng)一主干網(wǎng)絡(luò)下對(duì)文本條件和多模態(tài)示例的組合。這種設(shè)計(jì)不僅支持靜態(tài)和動(dòng)態(tài)內(nèi)容創(chuàng)作,還能靈活地組合文本意圖與視覺(jué)上下文。
展示了強(qiáng)大的可擴(kuò)展性與應(yīng)用潛力:該框架能夠自然擴(kuò)展到長(zhǎng)視頻編輯,在高吞吐量支持下可進(jìn)一步實(shí)現(xiàn)流式視頻編輯。其統(tǒng)一的接口還支持組合式的多模態(tài)工作流程,例如在一個(gè)請(qǐng)求中混合使用圖像和視頻作為參考,以同時(shí)捕捉身份、運(yùn)動(dòng)和結(jié)構(gòu)信息,實(shí)現(xiàn)更靈活的創(chuàng)作。
總結(jié)速覽
解決的問(wèn)題
當(dāng)前視覺(jué)內(nèi)容創(chuàng)作領(lǐng)域存在高度碎片化的問(wèn)題:現(xiàn)有工作多聚焦于單一模態(tài)(如圖像或視頻)或僅實(shí)現(xiàn)部分創(chuàng)作功能(如僅生成或僅編輯)。這導(dǎo)致解決方案彼此割裂、接口互不兼容,且上下文條件(如草圖、參考幀)往往作為任務(wù)特定的附加模塊引入,難以構(gòu)建一個(gè)支持多樣化多模態(tài)輸入、具備統(tǒng)一創(chuàng)作流程的單一系統(tǒng)。
提出的方案
提出Capybara,一個(gè)統(tǒng)一的視覺(jué)創(chuàng)作基礎(chǔ)模型。該模型通過(guò)共享的多模態(tài)條件接口,將分散的生成與編輯任務(wù)整合到單一框架中。其核心設(shè)計(jì)是:?jiǎn)蝹(gè)模型接收包含文本、圖像和視頻的多模態(tài)上下文輸入,并通過(guò)改變所提供的上下文和指令來(lái)表達(dá)多樣化的創(chuàng)作任務(wù),無(wú)需切換架構(gòu)或訓(xùn)練獨(dú)立的專用模型。
應(yīng)用的技術(shù)
統(tǒng)一的條件接口:將視覺(jué)創(chuàng)作統(tǒng)一到單一的條件包中,包含(1)文本輸入、(2)主要視覺(jué)上下文(圖像/視頻/起始幀)、(3)可選輔助條件(風(fēng)格示例/草圖/深度圖等)。
多模態(tài)上下文學(xué)習(xí):支持在統(tǒng)一主干網(wǎng)絡(luò)下,對(duì)文本條件和多模態(tài)示例進(jìn)行組合。
四大任務(wù)框架:通過(guò)同一接口支持(1)文本到圖像/視頻生成、(2)基于視覺(jué)上下文的生成(如草圖/參考幀)、(3)基于指令的編輯(文本引導(dǎo)的編輯,含密集預(yù)測(cè))、(4)上下文編輯(視覺(jué)參考驅(qū)動(dòng)的編輯,如關(guān)鍵幀傳播)。
達(dá)到的效果
功能統(tǒng)一:成功將生成與編輯、圖像與視頻任務(wù)統(tǒng)一于單一模型,實(shí)現(xiàn)了跨模態(tài)的一致性變換。
靈活創(chuàng)作:能夠靈活組合文本意圖與視覺(jué)上下文,支持靜態(tài)(圖像)和動(dòng)態(tài)(視頻)內(nèi)容的創(chuàng)作。
強(qiáng)擴(kuò)展性:框架自然擴(kuò)展到長(zhǎng)視頻編輯,高吞吐量下可支持流式視頻編輯;同時(shí)支持組合式多模態(tài)工作流(如在單次請(qǐng)求中混合圖像/視頻作為參考),為靈活的多任務(wù)創(chuàng)作提供了基礎(chǔ)。
數(shù)據(jù)
為支持統(tǒng)一的視覺(jué)創(chuàng)作,構(gòu)建了一個(gè)聯(lián)合的圖像-視頻語(yǔ)料庫(kù),為文本到圖像/視頻生成、上下文生成、基于指令的編輯以及上下文編輯提供訓(xùn)練信號(hào)。因此,我們的數(shù)據(jù)既包含用于從零開(kāi)始的合成的標(biāo)準(zhǔn)文本-圖像/視頻對(duì),也包含包含文本與視覺(jué)輸入的上下文豐富的元組:用于基于參考主體的圖像/視頻生成的主體參考、用于基于條件控制的圖像/視頻生成(例如,草圖、布局、姿態(tài)、深度/邊緣圖)的視覺(jué)提示或結(jié)構(gòu)化控制、用于圖像生成視頻的以起始幀為條件的剪輯、用于基于指令編輯的成對(duì)源-指令-目標(biāo)示例,以及用于上下文編輯的參考驅(qū)動(dòng)的編輯元組(源加上一個(gè)或多個(gè)視覺(jué)范例)。對(duì)于傳播任務(wù),從 TV2V 數(shù)據(jù)集中隨機(jī)采樣數(shù)據(jù)作為我們的訓(xùn)練數(shù)據(jù)。
采用系統(tǒng)性的多階段處理工作流程,將異構(gòu)的原始數(shù)據(jù)集合轉(zhuǎn)化為高質(zhì)量的訓(xùn)訓(xùn)練數(shù)據(jù)。該流程包括:(1)質(zhì)量過(guò)濾:使用自動(dòng)化分類(lèi)器移除有缺陷的內(nèi)容(模糊、偽影、有害材料)和額外疊加元素(水印、字幕);(2)語(yǔ)義去重:通過(guò)基于嵌入的聚類(lèi)保留多樣化、非冗余的樣本;(3)分布再平衡:確保在主體類(lèi)別、場(chǎng)景類(lèi)型和視覺(jué)屬性上有足夠的代表性;(4)密集重述:使用在高質(zhì)量標(biāo)注上訓(xùn)練的雙語(yǔ)(中文/英文)視覺(jué)語(yǔ)言模型,生成對(duì)動(dòng)態(tài)元素(運(yùn)動(dòng)、攝像機(jī)運(yùn)動(dòng))和靜態(tài)特征(外觀、美學(xué)、風(fēng)格)的詳細(xì)描述。特別是針對(duì)編輯任務(wù),我們開(kāi)發(fā)了大規(guī)模合成流程,以生成配對(duì)數(shù)據(jù)(源圖像/視頻、編輯結(jié)果、指令)。
模型設(shè)計(jì)與訓(xùn)練
統(tǒng)一架構(gòu):將理解與生成解耦
為了構(gòu)建一個(gè)統(tǒng)一的視覺(jué)創(chuàng)作模型,核心挑戰(zhàn)在于接收各種上下文輸入:文本、圖像和視頻,并將它們?nèi)诤系揭粋(gè)能夠驅(qū)動(dòng)生成和編輯的單一條件空間中。因此,我們選擇了一種雙流解耦架構(gòu),將多模態(tài)理解與基于擴(kuò)散的合成分離開(kāi)來(lái):一個(gè)語(yǔ)義感知模塊專注于處理用戶輸入和對(duì)多模態(tài)上下文進(jìn)行推理,而一個(gè)視覺(jué)融合模塊則將對(duì)齊后的語(yǔ)義和視覺(jué)特征整合到去噪主干網(wǎng)絡(luò)中,以進(jìn)行高保真度合成。通過(guò)將理解與生成在結(jié)構(gòu)上解耦,避免強(qiáng)制一組模塊同時(shí)執(zhí)行高層級(jí)解釋和低層級(jí)去噪,從而使單個(gè)模型能夠通過(guò)簡(jiǎn)單地改變提供的上下文和指令來(lái)支持多樣化的創(chuàng)作任務(wù)。
語(yǔ)義模塊 提出的語(yǔ)義模塊將各種條件(例如,文本、圖像和視頻)整合到一個(gè)統(tǒng)一的潛在表示中。該模塊執(zhí)行上下文推理以提取特定于意圖的特征,同時(shí)在結(jié)構(gòu)上與去噪網(wǎng)絡(luò)保持隔離。這種設(shè)計(jì)提供了一個(gè)強(qiáng)大的語(yǔ)義先驗(yàn),指導(dǎo)生成過(guò)程嚴(yán)格遵循用戶的創(chuàng)作意圖。
視覺(jué)模塊 視覺(jué)模塊負(fù)責(zé)擴(kuò)散去噪過(guò)程以及精細(xì)像素級(jí)條件的精確整合。作為對(duì)來(lái)自語(yǔ)義模塊的高層級(jí)指導(dǎo)的補(bǔ)充,視覺(jué)模塊整合了細(xì)粒度的視覺(jué)條件。這種架構(gòu)將生成能力導(dǎo)向忠實(shí)的重建和時(shí)空一致性,確保在統(tǒng)一框架內(nèi)嚴(yán)格遵守多模態(tài)約束。
擴(kuò)散變換器主干網(wǎng)絡(luò) 本模型從預(yù)訓(xùn)練的 Hunyuan-Video 1.5 初始化,繼承了其變分自編碼器、擴(kuò)散變換器架構(gòu)和時(shí)空建模能力。在此基礎(chǔ)之上,我們引入了一種雙流解耦建模設(shè)計(jì):語(yǔ)義模塊將所有條件輸入處理成統(tǒng)一的表示,而視覺(jué)模塊則專注于處理低層級(jí)特征。這種架構(gòu)修改使得靈活的多條件建模成為可能,同時(shí)保留了預(yù)訓(xùn)練帶來(lái)的強(qiáng)大生成先驗(yàn)。
訓(xùn)練策略
為了建立一個(gè)統(tǒng)一的視覺(jué)生成框架,采用了一種漸進(jìn)的三階段訓(xùn)練方案。該策略旨在系統(tǒng)地應(yīng)對(duì)與統(tǒng)一各種任務(wù)和條件信號(hào)相關(guān)的獨(dú)特挑戰(zhàn)。訓(xùn)練軌跡使模型從穩(wěn)健的重建發(fā)展到廣泛的多任務(wù)泛化,最終實(shí)現(xiàn)高保真度的指令對(duì)齊。
第一階段:重建與上下文生成訓(xùn)練。 從強(qiáng)大的生成先驗(yàn)(從 HunyuanVideo-1.5 初始化)開(kāi)始。目標(biāo)是確保語(yǔ)義模塊產(chǎn)生的條件信號(hào)能夠被視覺(jué)模塊可靠地使用而不會(huì)導(dǎo)致性能下降,這對(duì)于未編輯區(qū)域必須保持一致的編輯任務(wù)尤其關(guān)鍵。此外,我們還訓(xùn)練了標(biāo)準(zhǔn)和上下文生成任務(wù)(基于參考主體的圖像/視頻生成、基于條件控制的圖像/視頻生成、圖像生成視頻)的混合,以引入像素級(jí)條件能力。
第二階段:編輯任務(wù)訓(xùn)練。 在第一階段為生成任務(wù)建立了穩(wěn)定的多模態(tài)條件接口之后,我們將訓(xùn)練擴(kuò)展到在相同統(tǒng)一框架下的編輯任務(wù)。具體來(lái)說(shuō),我們引入了基于指令的編輯(文本引導(dǎo)的圖像/視頻編輯),包括作為特例的密集預(yù)測(cè),其中指令要求生成與輸入內(nèi)容對(duì)齊的結(jié)構(gòu)化輸出。我們進(jìn)一步擴(kuò)展到由額外視覺(jué)參考、風(fēng)格/主體示例以及結(jié)構(gòu)化或區(qū)域特定引導(dǎo)驅(qū)動(dòng)的上下文編輯(基于參考的圖像/視頻編輯、跨視頻編輯),并包含了傳播序列,其中稀疏的已編輯關(guān)鍵幀監(jiān)督著跨更長(zhǎng)視頻的時(shí)間一致性變化傳遞。
第三階段:質(zhì)量微調(diào)。 最后,執(zhí)行質(zhì)量微調(diào)以改善在生成和編輯任務(wù)中的指令遵循度、視覺(jué)保真度和時(shí)間穩(wěn)定性。此階段側(cè)重于困難案例,如細(xì)粒度的編輯局部性、身份/外觀保持、復(fù)雜的多模態(tài)約束以及長(zhǎng)程時(shí)間一致性。我們收集更高質(zhì)量和更難處理的示例,并應(yīng)用有針對(duì)性的微調(diào)以減少偽影并加強(qiáng)輸入與輸出之間的對(duì)齊。
智能體輔助的視覺(jué)創(chuàng)作
對(duì)于迭代式視頻編輯,采用了一種包含智能體在環(huán)的閉環(huán)流程:規(guī)劃 → 編輯 → 評(píng)估/診斷 → 優(yōu)化。智能體將高層級(jí)意圖轉(zhuǎn)化為編輯計(jì)劃,定義要更改的內(nèi)容(內(nèi)容/風(fēng)格/運(yùn)動(dòng))和要保留的內(nèi)容,并附帶關(guān)于身份、局部性和時(shí)間范圍的約束。然后,它調(diào)用視頻編輯器(例如,文本到視頻/視頻到視頻,可選擇使用遮罩/框、參考或按片段調(diào)度)來(lái)生成候選剪輯片段。
一個(gè)評(píng)估模塊使用一小組指標(biāo)對(duì)結(jié)果進(jìn)行評(píng)分——目標(biāo)對(duì)齊度、主體一致性、時(shí)間穩(wěn)定性和約束滿足度——并輸出結(jié)構(gòu)化反饋,指出不正確的更改以及出現(xiàn)偽影的位置。智能體將此反饋轉(zhuǎn)化為更精確的指令和更新的控制項(xiàng)(提示詞修改、強(qiáng)度調(diào)度、時(shí)間窗口、區(qū)域約束、錨點(diǎn)),并進(jìn)行幾輪迭代,直到指標(biāo)穩(wěn)定或達(dá)到閾值。這是通過(guò)顯式診斷進(jìn)行的迭代式引導(dǎo),而不是一次性提示。
結(jié)論
Capybara,一個(gè)統(tǒng)一的視覺(jué)創(chuàng)作基礎(chǔ)模型,它有效地彌合了靜態(tài)與動(dòng)態(tài)內(nèi)容生成之間的鴻溝。通過(guò)統(tǒng)一從文本到圖像到復(fù)雜視頻編輯的多種范式,Capybara在精確的指令遵循、結(jié)構(gòu)穩(wěn)定性和逼真的視覺(jué)質(zhì)量方面表現(xiàn)出色。展示了在原生統(tǒng)一架構(gòu)、內(nèi)在的3D感知機(jī)制以及全面的多任務(wù)訓(xùn)練策略方面的核心技術(shù)革新,這些技術(shù)被有效地整合在一起,構(gòu)建了一個(gè)穩(wěn)健且通用的系統(tǒng)。它在處理復(fù)雜多條件場(chǎng)景、維持符合物理規(guī)律的時(shí)間連貫性,以及為全視覺(jué)創(chuàng)作實(shí)現(xiàn)無(wú)縫的專業(yè)級(jí)工作流程方面,展現(xiàn)出了卓越的能力。
參考文獻(xiàn)
[1]CAPYBARA: A Unified Visual Creation Model
原文標(biāo)題 : 真“六邊形戰(zhàn)士”!Capybara把圖像視頻全打通:一個(gè)模型搞定T2I、T2V、I2V!
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-

落地?zé)o錫!京東首個(gè)物流機(jī)器人超級(jí)工廠來(lái)了
-

OpenAI發(fā)布的AI瀏覽器,市場(chǎng)為何反應(yīng)強(qiáng)烈?
-

馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-

機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-

存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-

長(zhǎng)安汽車(chē)母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-

豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-

字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
最新活動(dòng)更多
-
即日-5.20立即下載>> 【限時(shí)免費(fèi)】物理場(chǎng)仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測(cè)未來(lái)·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會(huì)
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國(guó)機(jī)器人產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國(guó)機(jī)器人行業(yè)年度評(píng)選
-
精彩回顧立即查看>> 【在線會(huì)議】液冷服務(wù)器信號(hào)完整性及冷卻液關(guān)鍵電參數(shù)測(cè)試
推薦專題
- 1 特斯拉Optimus Gen3量產(chǎn)在即,哪些環(huán)節(jié)最具確定性?
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實(shí)測(cè):中文穩(wěn)、細(xì)節(jié)炸,設(shè)計(jì)師慌了
- 3 AI狂歡遇上油價(jià)破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 4 6000億美元估值錨定:字節(jié)跳動(dòng)的“去單一化”突圍與估值重構(gòu)
- 5 Tesla AI5芯片最新進(jìn)展總結(jié)
- 6 連夜測(cè)了一波DeepSeek-V4,我發(fā)現(xiàn)它可能只剩“審美”這個(gè)短板了
- 7 熱點(diǎn)丨AI“瑜亮之爭(zhēng)”:既生OpenClaw,何生Hermes?
- 8 2026,人形機(jī)器人只贏了面子
- 9 AI界的殺豬盤(pán):9秒刪庫(kù)跑路,全員被封號(hào),還繼續(xù)扣錢(qián)!
- 10 AI Infra產(chǎn)業(yè)鏈卡在哪里了?
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷(xiāo)售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷(xiāo)售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門(mén)市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享





