口型匹配、身份保持全面SOTA!清華&可靈X-Dub:拋棄修復(fù)思維,用“編輯”實(shí)現(xiàn)精準(zhǔn)同步!
作者:Xu He等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 范式轉(zhuǎn)變:本文將視覺配音從一個(gè)病態(tài)的“掩碼修復(fù)”任務(wù)重新定義為一個(gè)條件良好的“視頻到視頻編輯”任務(wù)。 自引導(dǎo)框架(X-Dub)?:提出了一個(gè)自我引導(dǎo)框
北交&字節(jié)最新開源ThinkGen:首次顯式利用多模態(tài)CoT處理生成任務(wù),多項(xiàng)任務(wù)性能SOTA
作者:Siyu Jiao等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 首次提出思考驅(qū)動(dòng)的視覺生成框架:?ThinkGen 是第一個(gè)顯式利用 MLLM 的思維鏈(CoT)推理來(lái)處理各種生成場(chǎng)景的思考驅(qū)動(dòng)視覺生成框架
超越Wan-2.1 和 MatrixGame!Yume1.5:交互式世界生成模型,單卡12 FPS實(shí)時(shí)交互渲染
作者:Xiaofeng Mao等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 聯(lián)合時(shí)空通道建模(TSCM):用于無(wú)限上下文生成,盡管上下文長(zhǎng)度不斷增加,該方法仍能保持穩(wěn)定的采樣速度。 將 Self-Forcing
AI自己當(dāng)導(dǎo)演?KlingAvatar 2.0“聯(lián)合推理”黑科技:讓數(shù)字人不僅會(huì)演,更懂劇本!新SOTA!
作者:快手Kling團(tuán)隊(duì) 解讀:AI生成未來(lái) 圖1 KlingAvatar 2.0生成生動(dòng)、保持身份的數(shù)字人類,具備精準(zhǔn)的攝像頭控制、豐富的情感表達(dá)、高質(zhì)量的動(dòng)作以及精準(zhǔn)的面部-唇部和音頻同步。它實(shí)現(xiàn)
僅960M參數(shù),不僅干翻百億大模型,速度還快了6倍!字節(jié)最新圖像編輯模型EditMGT開源啦
作者:Wei Chow,Linfeng Li等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 提出了EditMGT,這是首個(gè)基于MGT的圖像編輯模型,它通過(guò)利用MGT的令牌翻轉(zhuǎn)特性來(lái)顯式地保留與編輯無(wú)關(guān)的區(qū)域,從而從
為國(guó)爭(zhēng)光!智譜GLM-4.7橫掃全球開源模型,超越GPT5.2
智譜又為國(guó)爭(zhēng)光了!智譜正準(zhǔn)備在港交所上市,即將成為全球大模型第一股。同時(shí),發(fā)布了「GLM-4.7」模型。GLM-4.7最驚艷的是編程能力,在國(guó)產(chǎn)模型中排名第一。放眼全球,也是橫掃所有開源模型,甚至評(píng)分
6倍極速生成無(wú)限時(shí)長(zhǎng)人像視頻!復(fù)旦&微軟最新FlashPortrait:讓你成為數(shù)字人面具背后的TA
作者:Shuyuan Tu、Zhen Xing等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 提出了一種基于滑動(dòng)窗口的自適應(yīng)潛變量預(yù)測(cè)加速機(jī)制。該方法無(wú)需額外訓(xùn)練,僅在推理階段激活,可在保持無(wú)限長(zhǎng)度人像動(dòng)畫身份一致
超越Veo和Runway!可靈開源Kling-Omni:一個(gè)模型通吃視頻生成、剪輯和多模態(tài)推理!
作者:Kling 團(tuán)隊(duì) 解讀:AI生成未來(lái) 亮點(diǎn)直擊 統(tǒng)一的通用框架:Kling-Omni將多樣化的視頻生成、編輯和智能推理任務(wù)整合到一個(gè)端到端的通用生成框架中,打破了傳統(tǒng)碎片化的處理模式。 創(chuàng)新性的
加速近200倍!RTX 5090生成高質(zhì)量視頻只要1.9秒!清華&生數(shù)等重磅開源TurboDiffusion
作者:Jintao Zhang等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 提出了一種端到端的視頻生成加速框架,在保持視頻質(zhì)量的同時(shí),將擴(kuò)散模型的生成速度提升了??。 單張 RTX 5090 GPU 上,該框架能
NanobananaPro/GPT-4o/Sora2/國(guó)產(chǎn)模型誰(shuí)最強(qiáng)?ViStoryBench:全能故事可視化基準(zhǔn)首發(fā)!
作者:Cailin Zhuang, Ailin Huang,Yaoqi Hu等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 如果把“故事可視化”理解成一次跨媒介的“編碼—傳輸—解碼”:文本劇本(編碼)→ 模型生成圖
大幅超越π0.5和X-VLA!清北最新Motus:理解、生成、控制全能, 海量視頻喂出“最強(qiáng)大腦”
作者:Hongzhe Bi等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 統(tǒng)一的基礎(chǔ)模型:Motus,一個(gè)統(tǒng)一的具身基礎(chǔ)模型,首次在一個(gè)生成式框架內(nèi)集成了五種主流范式(世界模型、逆動(dòng)力學(xué)模型、VLAs、視頻生成模型
24FPS實(shí)時(shí)生成!騰訊混元推出WorldPlay:打破“速度與記憶”悖論,720P無(wú)限流視頻隨意玩!
作者:Wenqiang Sun等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 WorldPlay,一個(gè)針對(duì)通用場(chǎng)景的實(shí)時(shí)、長(zhǎng)期一致的世界模型。 雙重動(dòng)作表示:提出了一種結(jié)合離散鍵盤輸入和連續(xù)攝像機(jī)姿態(tài)的雙重動(dòng)作表示
徹底告別VAE!清華x可靈聯(lián)手開源SVG-T2I:生成理解合二為一,性能媲美SD3
作者:Minglei Shi等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 首次在視覺特征模型(VFM)特征空間上對(duì)文本到圖像的隱擴(kuò)散模型進(jìn)行了大規(guī)模驗(yàn)證。 開源了SVG-T2I模型的完整訓(xùn)練與推理流程,并提供多個(gè)
年終盤點(diǎn):誰(shuí)會(huì)成為中國(guó)的"Nano Banana"?
?有界UnKnown原創(chuàng) 作者丨山茶 編輯|錢江 回顧2025年,AI行業(yè)最重要的變化不是模型,而是Agent真正進(jìn)入工作流。 11月,Nano Banana一經(jīng)發(fā)布就在創(chuàng)作工具賽道撕出一道缺口。它不
視頻模型降維打擊?浙大&哈佛提出 IF-Edit:無(wú)需訓(xùn)練,用“生成視頻”的思路修圖!
作者:Zechuan Zhang等 解讀:AI生成未來(lái) 論文標(biāo)題: Are Image-to-Video Models Good Zero-Shot Image Editors? 機(jī)構(gòu): 浙江大學(xué)、哈
鐵釘水上漂、子彈穿蘋果不炸?Nano-Banana等17款SOTA模型顫抖迎物理邏輯推理大考!
作者:Tianyang Han等 解讀:AI生成未來(lái) 本文第一作者Tianyang Han是美團(tuán)MeiGen團(tuán)隊(duì)的算法研究科學(xué)家,主要研究方向是圖像生成和多模態(tài)大語(yǔ)言模型。 亮點(diǎn)直擊 PicWorld
NeurIPS 2025 | 硬剛可靈1.5!阿里通義&清華等開源Wan-Move:指哪動(dòng)哪的“神筆馬良”
作者:Ruihang Chu等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 Wan-Move,一個(gè)用于圖像到視頻生成中運(yùn)動(dòng)控制的框架。與需要運(yùn)動(dòng)編碼的現(xiàn)有方法不同,它通過(guò)編輯條件特征注入運(yùn)動(dòng)引導(dǎo),無(wú)需添加新模塊,從
1步頂100步!TwinFlow:無(wú)需教師模型,僅單步推理,Qwen-Image-20B生成速度漲100倍!
作者:Zhenglin Cheng等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 簡(jiǎn)單而有效的一步生成框架。提出了一種一步生成框架,該框架不需要輔助訓(xùn)練模型(GAN 判別器)或凍結(jié)的教師模型(不同的/一致性蒸餾),
原生多模態(tài)統(tǒng)一架構(gòu)比不過(guò)單模態(tài)專家模型?華為團(tuán)隊(duì)出品的EMMA “Say No”
作者:Xin He, Longhui Wei等 解讀:AI生成未來(lái) 背景與動(dòng)機(jī) 當(dāng)前多模態(tài)大模型已經(jīng)成為大模型領(lǐng)域最為重要的研究熱點(diǎn),尤其是隨著OpenAI的GPT-4O展現(xiàn)出極強(qiáng)的多模交互生成能力,
北航&美團(tuán)等最新EditThinker:給AI修圖裝上“大腦”,F(xiàn)lux、OmniGen2瞬間智商暴漲!
作者:Hongyu Li等 解讀:AI生成未來(lái) 圖1。EditThinker 概述。子圖(a)展示了多輪思考編輯流程,該流程迭代批評(píng)、優(yōu)化和重復(fù)編輯指令,子圖(b)報(bào)告了四個(gè)圖像編輯基準(zhǔn)測(cè)試的結(jié)果,展
資訊訂閱
- 精彩回顧 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》 查看回顧
- 精彩回顧 OFweek 2025(第十四屆)中國(guó)機(jī)器人產(chǎn)業(yè)大會(huì) 查看回顧
- 精彩回顧 Ansys Motion薄膜卷曲卷對(duì)卷工藝仿真解決方案 查看回顧
- 精彩回顧 STM32全球線上峰會(huì) 查看回顧
- 精彩回顧 2024視覺感知技術(shù)在半導(dǎo)體與印刷包裝創(chuàng)新大會(huì) 查看回顧
- 精彩回顧 全數(shù)會(huì)2024中國(guó)人形機(jī)器人技術(shù)創(chuàng)新發(fā)展大會(huì) 查看回顧
- 1AI狂歡遇上油價(jià)破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 2全球資本,重倉(cāng)中國(guó)機(jī)器人
- 3百度AI最新進(jìn)展,李彥宏打出一張效率牌
- 4豆包推出收費(fèi):純免費(fèi)的大模型越來(lái)越少了
- 5AI接管瀏覽器!實(shí)測(cè)Codex Chrome:簡(jiǎn)單任務(wù)翻車,復(fù)雜任務(wù)反而成了
- 61.8萬(wàn)億的xAI“解散”:馬斯克連夜撤退 | 深度
- 7全球正在重估中國(guó)芯片
- 8DeepSeek融資500億,梁文鋒難逃資本局
- 9百度系昆侖芯A+H雙線并進(jìn),210億估值背后的多重考驗(yàn)
- 10從買 GPU 到搶電力:中國(guó) AI 產(chǎn)業(yè), 完成一次關(guān)鍵轉(zhuǎn)身
-
加密芯片筑牢工業(yè)設(shè)備防抄板防線2025-11-14
-
LKT4202UGM、LKT4305GM國(guó)密芯片2025-10-31
-
金融級(jí)安全加密芯片-LKT43042025-04-10
-
ATSHA204A國(guó)產(chǎn)全兼容芯片LCSHA2042025-02-27
-
耗材保護(hù)芯片-LKT4304解決方案2025-02-13
-
LKT4304新一代算法移植加密芯片2025-01-16

