校花开腿让我爽了一夜小说,国产高清在线看?v片,久久国产精品对白,欧美人与动牲交大全免费

2張顯卡即可20FPS流式生成！SoulX-LiveAct開啟“小時級”實時數字人交互新時代

2026-03-24 15:49

作者：Dingcheng Zhen等

解讀：AI生成未來

亮點直擊

在數字人技術從“實驗室點播”邁向“直播間實戰”的過程中，行業始終被兩大陰云籠罩：一是長時生成的崩潰，視頻跑著跑著臉就“化”了；二是算力的黑洞，為了維持流暢度往往需要堆砌昂貴的算力集群。

近日，Soul AI團隊發布了最新開源模型 SoulX-LiveAct。該模型通過創新的 Neighbor Forcing 策略和 ConvKV Memory 機制，在僅需2張H100/H200顯卡的情況下，實現了20 FPS的實時流式推理，且支持真正意義上的“無限時長”生成，徹底解決了長視頻生成的顯存爆炸與動作漂移問題。

總結速覽

解決的問題

不一致的學習信號：現有的大多數強制策略在傳播樣本級表示時，擴散狀態不匹配，導致學習信號不一致和收斂不穩定。

推理效率限制：歷史表示無限制增長且缺乏結構，阻礙了緩存狀態的有效重用，嚴重限制了推理效率，無法實現真正無限的視頻生成。

提出的方案

Neighbor Forcing：

提出了一種擴散步驟一致的自回歸（AR）公式，將時間上相鄰的幀作為潛在鄰居在相同的噪聲條件下進行傳播。

該設計提供了一個分布對齊且穩定的學習信號，同時在整個AR鏈中保留了漂移。

通過利用在相同擴散步驟下評估的時間相鄰幀的潛在局部平滑性，使得AR建模更加容易和穩定。

ConvKV Memory：

引入了一種結構化的ConvKV記憶機制，將因果注意力中的鍵（keys）和值（values）壓縮成固定長度的表示。

這使得恒定內存推理和真正的無限視頻生成成為可能，而無需依賴短期運動幀內存。

利用輕量級一維卷積，在不引入額外架構復雜性的情況下，有效總結了長期上下文信息。

應用的技術

自回歸（AR）擴散模型：結合擴散建模與因果AR生成，支持流式推理和避免固定長度限制。

DiT (Diffusion Transformer)：SoulX-LiveAct 采用 DiT 模型，并結合 Flow Matching 技術。

音頻交叉注意力：用于注入音頻條件，實現唇部同步和情感表達。

塊級AR擴散策略：將序列劃分為連續的塊進行生成。

FP8精度、序列并行和操作融合：優化實時系統，提高硬件效率。

Emotion and Action Editing Module：輔助模塊，用于控制面部表情和姿勢。

達到的效果

顯著改進：與現有AR擴散方法相比，顯著改善了訓練收斂性、小時級生成質量和推理效率。

實時性能：SoulX-LiveAct 能夠實現小時級實時人物動畫，在兩塊NVIDIA H100或H200 GPU上支持20 FPS的實時流式推理。

SOTA性能：在唇部同步準確性、人物動畫質量和情感表達方面達到了最先進的性能，同時具有最低的推理成本。

計算效率：每幀512x512分辨率的計算成本為27.2 TFLOPs，遠低于之前的AR擴散方法（例如，Live-Avatar的39.1 TFLOPs/幀）。

長視頻一致性：在長視頻生成中保持了穩定的身份表示和細粒度細節，解決了現有方法中常見的身份漂移和細節不一致問題。

挑戰：實時數字人的“長跑”難題

目前的自回歸（AR）擴散模型在視頻生成上展現了巨大潛力，但在邁向“小時級”甚至“無限時”實時交互時，面臨著兩大瓶頸：

訓練不一致性：傳統的Forcing策略在傳播過程中存在擴散狀態不匹配，導致信號不穩定，數字人容易在長時間生成后“崩壞”。

顯存黑洞：隨著生成長度增加，KV Cache（鍵值緩存）呈線性增長，單卡顯存難以支撐長達數小時的連續對話。

核心突破：Neighbor Forcing 與 ConvKV Memory

為了攻克上述難題，SoulX-LiveAct 提出了兩項核心技術創新：

Neighbor Forcing：讓每一幀都有“好鄰居”

研究團隊提出了一種擴散步一致（diffusion-step-consistent）的自回歸公式。通過將時間相鄰幀作為“潛在鄰居”，并在相同的噪聲條件下進行傳播，確保了學習信號的分布對齊。這不僅提升了生成的穩定性，還讓數字人的動作銜接更加平滑。

ConvKV Memory：告別顯存焦慮

受限于長程注意力機制的開銷，SoulX-LiveAct 引入了結構化的 ConvKV 存儲機制。它將因果注意力中的鍵（Keys）和值（Values）壓縮為固定長度的表示，使得推理時的顯存占用保持恒定。無論生成的視頻是1分鐘還是1小時，顯存消耗始終在掌控之中。

性能表現：不僅是快，更是極致的穩

在多項基準測試中，SoulX-LiveAct 展現出了統治級的表現：

實時流式推理：在雙卡（H100/H200）環境下達到 20 FPS，滿足高頻交互需求。

極致一致性：支持小時級別的連續生成，身份特征（Identity）穩定，細節不“掉件”，不會出現常見的面部扭曲或著裝突變。

多模態驅動：支持圖像、音頻及文本指令驅動，能夠生成表情生動、情緒可控且擁有豐富全身動作的數字人。

實驗結果：刷新 SOTA 榜單

量化指標顯示，SoulX-LiveAct 在唇形同步準確度（Lip-sync Accuracy）、人體動畫質量以及情緒表達力上均達到了 SOTA 水平，且推理成本遠低于同類模型。

原理詳解 -- 深度解析SoulX-LiveAct 的底層邏輯：如何重構生成范式？

如果說之前的技術是在“縫補”舊框架，SoulX-LiveAct 則是直接在擴散模型（Diffusion Models）的根基上動了手術。

Neighbor Forcing：從“自顧自”到“步調一致”

在自回歸視頻生成中，每一幀的生成都依賴于前一幀。傳統的 Teacher Forcing 存在一個隱形殺手：擴散步偏移。

技術痛點：通常模型在訓練時，第 t 幀和第 t-1 幀往往處于不同的噪聲水平。推理時，前一幀的微小噪聲預測偏差會迅速放大。

SoulX-LiveAct 的解法：我們提出了鄰域強迫策略。在訓練階段，強行讓相鄰幀處于相同的擴散時間步 s。

數學直覺：通過這種設計，模型學習到的不再是單一幀的去噪，而是相鄰幀之間的條件聯合分布。這相當于給模型建立了一個“局部信任域”，確保了在推理無限長序列時，每一幀都在前一幀的“穩健預測范圍”內，從而徹底杜絕了面部崩壞。

ConvKV Memory：從“無限增長”到“空間折疊”

Transformer 架構最令人頭疼的就是其注意力機制的計算復雜度隨長度增長。對于實時數字人，這無異于自殺。

傳統做法：緩存所有歷史幀的 Key 和 Value，顯存隨時間“爆炸”。

SoulX-LiveAct 的解法：我們引入了基于卷積的鍵值記憶網絡（ConvKV）。它并不是粗暴地丟棄歷史，而是進行空間與維度的重組。

時域壓縮：利用深度可分離卷積（Depthwise Conv）對舊的 KV 緩存進行下采樣，將冗余的背景、靜止像素信息壓縮。

因果對齊：通過因果掩碼（Causal Masking）確保壓縮后的記憶只包含過去的語義，而不泄露未來信息。

工程意義：這種設計將注意力機制從 O()降低到了 O(1) 的常數級顯存開銷。無論對話進行了 10 秒還是 10 小時，模型始終只需處理固定大小的“記憶塊”。

開源與未來

Soul AI 團隊致力于推動數字人技術的普惠化。目前，SoulX-LiveAct 已全面開源，包括技術報告、代碼及預訓練模型。

參考文獻

[1] SoulX-LiveAct: Towards Hour-Scale Real-Time Human Animation with Neighbor Forcing and ConvKV Memory

原文標題 : 2張顯卡即可20FPS流式生成！SoulX-LiveAct開啟“小時級”實時數字人交互新時代

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權或其他問題，請聯系舉報。

發表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

圖片新聞

免费久久国产&夜夜毛片&亚洲最大无码中文字幕&国产成人无码免费视频之奶水&吴家丽查理三级做爰&国产日本亚欧在线观看

發表評論

登錄