2張顯卡即可20FPS流式生成!SoulX-LiveAct開啟“小時級”實時數字人交互新時代
作者:Dingcheng Zhen等
解讀:AI生成未來
亮點直擊
在數字人技術從“實驗室點播”邁向“直播間實戰”的過程中,行業始終被兩大陰云籠罩:一是長時生成的崩潰,視頻跑著跑著臉就“化”了;二是算力的黑洞,為了維持流暢度往往需要堆砌昂貴的算力集群。
近日,Soul AI團隊發布了最新開源模型 SoulX-LiveAct。該模型通過創新的 Neighbor Forcing 策略和 ConvKV Memory 機制,在僅需2張H100/H200顯卡的情況下,實現了20 FPS的實時流式推理,且支持真正意義上的“無限時長”生成,徹底解決了長視頻生成的顯存爆炸與動作漂移問題。
總結速覽
解決的問題
不一致的學習信號:現有的大多數強制策略在傳播樣本級表示時,擴散狀態不匹配,導致學習信號不一致和收斂不穩定。
推理效率限制:歷史表示無限制增長且缺乏結構,阻礙了緩存狀態的有效重用,嚴重限制了推理效率,無法實現真正無限的視頻生成。
提出的方案
Neighbor Forcing:
提出了一種擴散步驟一致的自回歸(AR)公式,將時間上相鄰的幀作為潛在鄰居在相同的噪聲條件下進行傳播。
該設計提供了一個分布對齊且穩定的學習信號,同時在整個AR鏈中保留了漂移。
通過利用在相同擴散步驟下評估的時間相鄰幀的潛在局部平滑性,使得AR建模更加容易和穩定。
ConvKV Memory:
引入了一種結構化的ConvKV記憶機制,將因果注意力中的鍵(keys)和值(values)壓縮成固定長度的表示。
這使得恒定內存推理和真正的無限視頻生成成為可能,而無需依賴短期運動幀內存。
利用輕量級一維卷積,在不引入額外架構復雜性的情況下,有效總結了長期上下文信息。
應用的技術
自回歸(AR)擴散模型:結合擴散建模與因果AR生成,支持流式推理和避免固定長度限制。
DiT (Diffusion Transformer):SoulX-LiveAct 采用 DiT 模型,并結合 Flow Matching 技術。
音頻交叉注意力:用于注入音頻條件,實現唇部同步和情感表達。
塊級AR擴散策略:將序列劃分為連續的塊進行生成。
FP8精度、序列并行和操作融合:優化實時系統,提高硬件效率。
Emotion and Action Editing Module:輔助模塊,用于控制面部表情和姿勢。
達到的效果
顯著改進:與現有AR擴散方法相比,顯著改善了訓練收斂性、小時級生成質量和推理效率。
實時性能:SoulX-LiveAct 能夠實現小時級實時人物動畫,在兩塊NVIDIA H100或H200 GPU上支持20 FPS的實時流式推理。
SOTA性能:在唇部同步準確性、人物動畫質量和情感表達方面達到了最先進的性能,同時具有最低的推理成本。
計算效率:每幀512x512分辨率的計算成本為27.2 TFLOPs,遠低于之前的AR擴散方法(例如,Live-Avatar的39.1 TFLOPs/幀)。
長視頻一致性:在長視頻生成中保持了穩定的身份表示和細粒度細節,解決了現有方法中常見的身份漂移和細節不一致問題。
挑戰:實時數字人的“長跑”難題
目前的自回歸(AR)擴散模型在視頻生成上展現了巨大潛力,但在邁向“小時級”甚至“無限時”實時交互時,面臨著兩大瓶頸:
訓練不一致性:傳統的Forcing策略在傳播過程中存在擴散狀態不匹配,導致信號不穩定,數字人容易在長時間生成后“崩壞”。
顯存黑洞:隨著生成長度增加,KV Cache(鍵值緩存)呈線性增長,單卡顯存難以支撐長達數小時的連續對話。
核心突破:Neighbor Forcing 與 ConvKV Memory
為了攻克上述難題,SoulX-LiveAct 提出了兩項核心技術創新:
Neighbor Forcing:讓每一幀都有“好鄰居”
研究團隊提出了一種擴散步一致(diffusion-step-consistent)的自回歸公式。通過將時間相鄰幀作為“潛在鄰居”,并在相同的噪聲條件下進行傳播,確保了學習信號的分布對齊。這不僅提升了生成的穩定性,還讓數字人的動作銜接更加平滑。
ConvKV Memory:告別顯存焦慮
受限于長程注意力機制的開銷,SoulX-LiveAct 引入了結構化的 ConvKV 存儲機制。它將因果注意力中的鍵(Keys)和值(Values)壓縮為固定長度的表示,使得推理時的顯存占用保持恒定。無論生成的視頻是1分鐘還是1小時,顯存消耗始終在掌控之中。
性能表現:不僅是快,更是極致的穩
在多項基準測試中,SoulX-LiveAct 展現出了統治級的表現:
實時流式推理:在雙卡(H100/H200)環境下達到 20 FPS,滿足高頻交互需求。
極致一致性:支持小時級別的連續生成,身份特征(Identity)穩定,細節不“掉件”,不會出現常見的面部扭曲或著裝突變。
多模態驅動:支持圖像、音頻及文本指令驅動,能夠生成表情生動、情緒可控且擁有豐富全身動作的數字人。
實驗結果:刷新 SOTA 榜單
量化指標顯示,SoulX-LiveAct 在唇形同步準確度(Lip-sync Accuracy)、人體動畫質量以及情緒表達力上均達到了 SOTA 水平,且推理成本遠低于同類模型。



原理詳解 -- 深度解析SoulX-LiveAct 的底層邏輯:如何重構生成范式?
如果說之前的技術是在“縫補”舊框架,SoulX-LiveAct 則是直接在擴散模型(Diffusion Models)的根基上動了手術。
Neighbor Forcing:從“自顧自”到“步調一致”
在自回歸視頻生成中,每一幀的生成都依賴于前一幀。傳統的 Teacher Forcing 存在一個隱形殺手:擴散步偏移。
技術痛點:通常模型在訓練時,第 t 幀和第 t-1 幀往往處于不同的噪聲水平。推理時,前一幀的微小噪聲預測偏差會迅速放大。
SoulX-LiveAct 的解法:我們提出了鄰域強迫策略。在訓練階段,強行讓相鄰幀處于相同的擴散時間步 s。
數學直覺:通過這種設計,模型學習到的不再是單一幀的去噪,而是相鄰幀之間的條件聯合分布。這相當于給模型建立了一個“局部信任域”,確保了在推理無限長序列時,每一幀都在前一幀的“穩健預測范圍”內,從而徹底杜絕了面部崩壞。

ConvKV Memory:從“無限增長”到“空間折疊”
Transformer 架構最令人頭疼的就是其注意力機制的計算復雜度隨長度增長。對于實時數字人,這無異于自殺。
傳統做法:緩存所有歷史幀的 Key 和 Value,顯存隨時間“爆炸”。
SoulX-LiveAct 的解法:我們引入了基于卷積的鍵值記憶網絡(ConvKV)。它并不是粗暴地丟棄歷史,而是進行空間與維度的重組。
時域壓縮:利用深度可分離卷積(Depthwise Conv)對舊的 KV 緩存進行下采樣,將冗余的背景、靜止像素信息壓縮。
因果對齊:通過因果掩碼(Causal Masking)確保壓縮后的記憶只包含過去的語義,而不泄露未來信息。
工程意義:這種設計將注意力機制從 O()降低到了 O(1) 的常數級顯存開銷。無論對話進行了 10 秒還是 10 小時,模型始終只需處理固定大小的“記憶塊”。

開源與未來
Soul AI 團隊致力于推動數字人技術的普惠化。目前,SoulX-LiveAct 已全面開源,包括技術報告、代碼及預訓練模型。
參考文獻
[1] SoulX-LiveAct: Towards Hour-Scale Real-Time Human Animation with Neighbor Forcing and ConvKV Memory
原文標題 : 2張顯卡即可20FPS流式生成!SoulX-LiveAct開啟“小時級”實時數字人交互新時代
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 特斯拉Optimus Gen3量產在即,哪些環節最具確定性?
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 4 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 5 Tesla AI5芯片最新進展總結
- 6 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 7 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 8 2026,人形機器人只贏了面子
- 9 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 10 AI Infra產業鏈卡在哪里了?


分享













