近日,英偉達推出研究項目 OmniVinci,專注于探索全模態 LLM,不僅可以看和讀,還可以聽、說和推理。
在模型架構方面,英偉達團隊提出了三項關鍵創新:
OmniAlignNet:用于在共享的全模態潛在空間中增強視覺和音頻嵌入之間的對齊;
時間嵌入分組:用于捕捉視覺和音頻信號之間的相對時間對齊;
約束旋轉時間嵌入:用于在全模態嵌入中編碼絕對時間信息。
研究發現,在感知和推理過程中,不同模態之間相互促進。
OmniVinci 在 DailyOmni(跨模態理解)上的性能優于 Qwen2.5-Omni,并在機器人、醫療人工智能和智能工廠等下游應用中展示了全模態優勢。
三大創新架構
對于給定的輸入視頻,音頻和視覺流具有內在的語義聯系,彼此提供互補信息。這種相關性可以更有效地在統一的潛在空間中學習和對齊視覺和音頻嵌入。
為此,團隊提出了 OmniAlignNet,通過利用視覺和音頻的互補信息來增強視覺和音頻嵌入的學習。
首先根據時間戳將視聽嵌入分組,從而賦予它們時間順序。然后,相對時間順序信息被編碼到輸入序列中視聽嵌入的位置上。
然后,根據時間順序將視覺組和音頻組結合起來,得到全模態嵌入序列。
研究人員還引入了一種約束時間戳嵌入策略,從而實現了更平衡的時間敏感性。該方法包括三個階段:基頻構建、頻率調制和逐元素旋轉嵌入。
為了逐步實現對預訓練 LLM 的全面全模態理解,我們采用兩階段方法:首先進行模態特定訓練,以發展每種模態的個體能力,然后進行全模態聯合訓練,以整合這些能力。
全模態聯合訓練階段采用了兩種類型的數據:
模態特定數據,從先前僅視覺和僅音頻訓練所用的數據集中隨機抽取;
全模態數據,包含視覺和音頻輸入。分為隱式全模態學習數據和顯式全模態學習數據。
多項評估中均取得優秀成績
在全模態對齊的消融試驗中,所提出的時間嵌入分組 (TEG)、約束旋轉時間嵌入 (CRTE) 和 OmniAlignNet 在所有模態上均持續取得更優的平均性能。
在所有基準測試中,OmniAlignNet 均取得了顯著的性能提升。平均得分從 50.25 提高到 52.59(+2.34),并且在 Omnibench(+6.1)、Worldsense(+0.75)和 Dailyomni(+1.17)測試中均取得了顯著的性能提升。
全模態測試中,OmniVinci 的平均得分達到 53.73,創下新的最佳水平,相比排名第二的模型 Qwen2.5-Omni,顯著提升了 4.07 分。
在 Worldsense 基準測試中,模型取得了 48.23 分的最高分,比 Qwen2.5-Omni 高出 2.83 分。
在 Dailyomni 數據集上,OmniVinci 優勢更加顯著,模型得分達到 66.50 分,比 Qwen2.5-Omni 高出 19.05 分,比 Gemini-2.0Flash-Lite 高出 5.18 分。
在 Omnibench 基準測試中,我們的模型也取得了 46.47 分的優異成績,高于 Gemini 1.5 Pro。
在視頻基準測試中,OmniVinci 的性能也要優于 NVILA 基準測試。
研究人員表示,OmniVinci 展現了前沿的全模態性能,降低了訓練和推理成本,并提升了下游智能體應用的性能。
參考資料:
https://arxiv.org/pdf/2510.15870
https://huggingface.co/nvidia/omnivinci