僅用1張圖1小時,比肩FLUX.1和Qwen,推理狂飆5倍!Glance用“快慢哲學(xué)”顛覆擴散模型!
作者:Zhuobai Dong等 解讀:AI生成未來 亮點直擊 極致高效的訓(xùn)練:僅需?1 個樣本,在?單張 V100 GPU?上不到?1 小時?即可完成訓(xùn)練。這與需要數(shù)千GPU小時(如 DMD2 需要
6799元起!影翎Antigravity A1深度評測:小白交互,專業(yè)影像
帶來了傳統(tǒng)無人機給不了的快樂。 在今年 7 月份時,雷科技收到影石Insta360 的邀請,第一時間體驗了由影石Insta360 和第三方一起孵化的影翎Antigravity 帶來的首款全景無人機——
港科大等提出音頻驅(qū)動多人視頻生成新范式 AnyTalker,解鎖任意數(shù)量角色間的自然互動!
作者:Zhizhou Zhong等 解讀:AI生成未來 亮點直擊 可擴展的多人驅(qū)動結(jié)構(gòu):本文提出了一種可擴展的多流處理結(jié)構(gòu) Audio-Face Cross Attention Layer,能夠以循環(huán)
多模態(tài)理解生成“大一統(tǒng)”!Meta&港大等重磅發(fā)布Tuna:統(tǒng)一視覺表征,性能碾壓Show-o2
作者:Zhiheng Liu等 解讀:AI生成未來 亮點直擊 Tuna,一個采用統(tǒng)一視覺表示的原生統(tǒng)一多模態(tài)模型,在一個單一框架內(nèi)實現(xiàn)了圖像/視頻理解、圖像/視頻生成和圖像編輯。 廣泛的實驗表明,Tu
《黑客帝國》雛形已現(xiàn)?騰訊造出“可對話游戲宇宙”,實時生成、任意交互,世界為你改變!
作者:Junshu Tang等 解讀:AI生成未來 Hunyuan-GameCraft-2將生成式游戲世界模型從靜態(tài)游戲場景視頻合成提升到開放式、遵循指令的交互式模擬。 合成交互視頻Pipeline展
給圖像生成配“閱卷老師”!RubricRL拒絕黑盒瞎蒙,用細(xì)粒度量表馴服大模型,指哪改哪!
作者:Xuelu Feng等 解讀:AI生成未來 亮點直擊 提出通用化基于量規(guī)的獎勵設(shè)計方案,可同時適用于擴散模型與自回歸文生圖模型; 構(gòu)建提示詞自適應(yīng)、可分解的監(jiān)督框架,顯著提升模型訓(xùn)練的可解釋性與
圖像生成開源界又出“王炸”!南洋理工&階躍星辰發(fā)布iMontage:解鎖“多對多”生成新玩法!
作者:Zhoujie Fu等 解讀:AI生成未來 亮點直擊 iMontage統(tǒng)一模型,能夠處理可變數(shù)量的輸入/輸出幀,有效銜接了視頻生成與高動態(tài)圖像生成領(lǐng)域。 構(gòu)建任務(wù)無關(guān)的時序多樣化數(shù)據(jù)pipeli
ICCV`25 | 視頻交互“隨心所欲”!復(fù)旦&通義萬相等開源DreamRelation:讓想象力從此無邊界
作者:Yujie Wei等 解讀:AI生成未來 亮點直擊 首個關(guān)系導(dǎo)向的視頻定制框架:本工作首次嘗試解決“關(guān)系視頻定制”任務(wù),即基于少量樣本視頻,生成具有特定交互關(guān)系(如握手、擁抱)但主體不同的新視頻
再見VAE!英偉達PixelDiT硬剛SD/FLUX:破局像素生成,端到端效果比肩隱空間模型
作者:Yongsheng Yu等 解讀:AI生成未來 亮點直擊 PixelDiT,一種單階段、完全基于Transformer的像素空間擴散模型,無需單獨的自編碼器即可進行端到端訓(xùn)練。 證明了高效的像素
Nano Banana Pro再次封神!我總結(jié)了9種邪修用法
這哪是"出圖更好",簡直是把AI圖像生成推進了下一個紀(jì)元。 一致性王者圖片模型Nano Banana Pro(基于Gemini 3 Pro Image)發(fā)布才20小時,人類創(chuàng)作者的進度可能還停在“剛摸
端到端像素擴散天降外掛!北大&華為等開源DeCo:生圖質(zhì)量超越SD3、OmniGen2等
作者:Zehong Ma等 解讀:AI生成未來 亮點直擊 DeCo解耦框架:DiT專注低頻語義建模(采用下采樣輸入);輕量級像素解碼器重建高頻信號。 創(chuàng)新頻率感知損失函數(shù):通過DCT轉(zhuǎn)換至頻域;基于J
重磅!阿里達摩院發(fā)布首個VLA與世界模型統(tǒng)一架構(gòu)RynnVLA-002:97.4%成功率刷新認(rèn)知
作者:Jun Cen等 解讀:AI生成未來 亮點直擊 統(tǒng)一架構(gòu):RynnVLA-002,這是一個將視覺-語言-動作(VLA)模型與世界模型統(tǒng)一在單一框架中的“動作世界模型”。 雙向增強:實現(xiàn)了 VLA
豆包輸入法1.0實測:干凈是最大優(yōu)勢,功能是最大短板
優(yōu)缺點分明。 豆包已成為小雷日常生活中使用頻率最高的AI應(yīng)用,無論是各類疑難問題解答、群訪文檔總結(jié),還是文字內(nèi)容調(diào)整,都能放心交給它處理。 就在最近,小雷發(fā)現(xiàn)自己的手機應(yīng)用商店上架了一款名為豆包輸入法
硬剛GPT-Image-1?蘋果最新UniGen-1.5強勢發(fā)布:一個模型搞定理解+生成+編輯!
作者:Rui Tian等 解讀:AI生成未來 亮點直擊 推出UniGen-1.5統(tǒng)一多模態(tài)大模型,通過創(chuàng)新的架構(gòu)設(shè)計與訓(xùn)練流程,實現(xiàn)了先進的圖像理解、生成與編輯能力融合。 開創(chuàng)統(tǒng)一強化學(xué)習(xí)訓(xùn)練框架,借
告別文字想象!快手可靈團隊開源VANS:實現(xiàn)從“語言描述”到“動態(tài)演示”跨越,多項SOTA
作者:Junhao Cheng等 解讀:AI生成未來 亮點直擊 開創(chuàng)VNEP新范式:將下一代事件推理從文本描述推進到動態(tài)視頻演示的新階段。 提出VANS框架及核心Joint-GRPO策略:通過強化學(xué)習(xí)
NeurIPS`25 | 感嘆歲月神偷!南開&三星開源Cradle2Cane:完美破解“年齡-身份”兩難困境!
作者:Tao Liu, Dafeng Zhang等 解讀:AI生成未來 亮點直擊 直擊痛點,提出“Age-ID Trade-off”: 深入分析了人臉老化任務(wù)中“年齡準(zhǔn)確性”與“身份保持”之間的內(nèi)在矛
Gemini 3 自述:我不是要替代人類,我是為了終結(jié)平庸
來源:@首席數(shù)智官 在硅谷的計算機歷史博物館里,靜靜躺著早期的真空管和穿孔卡片。它們沉默不語,卻定義了那個時代計算的極限。 而在Google DeepMind的數(shù)據(jù)中心里,無數(shù)個TPU正在以微秒級的
第二彈!MIT何愷明團隊再發(fā)重磅成果VARC:ARC原來是個視覺問題!性能匹敵人類水平
作者:Keya Hu、Kaiming He等 解讀:AI生成未來 圖 1:ARC 基準(zhǔn)(上圖)由許多不同的任務(wù)組成,其中每個任務(wù)都有少量(如 2-4 個)測試樣本。本文提出了視覺 ARC (VARC)
新加坡國立等發(fā)布WEAVE:首個上下文交錯式跨模態(tài)理解與生成全套解決方案
作者:Wei Chow、Jiachun Pan等 解讀:AI生成未來 亮點直擊 數(shù)據(jù)集創(chuàng)新:WEAVE-100k——首個面向多輪上下文感知圖像理解與生成的大規(guī)模數(shù)據(jù)集。包含10萬個樣本、37萬輪對話和
文生圖也會“精神分裂”?北大、字節(jié)聯(lián)手揭秘:越思考越畫錯!并行框架終結(jié)AI“左右互搏”
作者:Ye Tian、Ling Yang等 解讀:AI生成未來 亮點直擊 深入的基準(zhǔn)測試與分析:ParaBench,一個新的基準(zhǔn)測試,旨在系統(tǒng)性地評估“思考感知”型圖像生成與編輯任務(wù)。它不僅關(guān)注最終生
資訊訂閱
-
加密芯片筑牢工業(yè)設(shè)備防抄板防線2025-11-14
-
LKT4202UGM、LKT4305GM國密芯片2025-10-31
-
金融級安全加密芯片-LKT43042025-04-10
-
ATSHA204A國產(chǎn)全兼容芯片LCSHA2042025-02-27
-
耗材保護芯片-LKT4304解決方案2025-02-13
-
LKT4304新一代算法移植加密芯片2025-01-16

