剛剛,阿里通義發布了一款專為自然、低延遲語音交互而構建的大型音頻語言模型 Fun-Audio-Chat。
它引入了雙分辨率語音表示,在保持高語音質量的同時降低計算量;并采用 Core-Cocktail 訓練方法,以保留強大的文本語言模型能力。
該模型在語音問答、音頻理解、語音函數調用、語音指令跟隨和語音共情等基準測試中均取得了頂尖水平的成績。
Fun-Audio-Chat 的主要特點包括:
雙分辨率語音表示:高效的 5Hz 幀速率,在保持高語音質量的同時可減少近 50% 的 GPU 運行時間。
卓越的性能:在各大基準測試里,在同等規模(約 80 億參數)的模型中名列前茅。
全面功能:支持語音問答、音頻理解、語音功能調用、語音指令跟隨、語音共情
趣味音頻聊天架構
Fun-Audio-Chat 框架包含三個主要模塊:
對于音頻輸入,語音編碼器和語音分詞器將原始音頻波形轉換為用戶端和助手端的結構化表示;
多模態大型語言模型 (MLLM) 集成了共享 LLM 主干網絡以及用于生成詞元的專用文本頭和語音精化頭 (SRH) 組件;
語音反分詞器從生成的語音詞元中重構音頻波形。
Fun-Audio-Chat 利用現有的預訓練模型,并采用多階段后訓練流程進行訓練,使用了數百萬小時涵蓋不同領域和任務的多樣化語音數據,包括對話和多語言語音、用于理解任務的音頻,從而確保全面覆蓋各種場景和用例。
訓練過程包括:
預對齊:使用大規模語音-文本配對數據對語音編碼器、適配器和語音精化頭進行對齊;
核心混合訓練:用于監督式全面微調,采用由數十億文本標記合成的高質量語音數據;
多任務 DPO 訓練:采用多樣化的真實語音數據以增強魯棒性,音頻理解和 ASR 數據以增強理解能力,指令跟隨數據(包括情感、風格和韻律控制)以增強語音指令跟隨能力,以及語音共情數據以增強情感理解和共情反應生成能力。
核心評估
研究團隊在廣泛使用的基準數據集上對 Fun-Audio-Chat 的性能進行了語音轉文本、語音到語音、音頻理解、語音識別等全面評估。
在準確率方面,約 80 億規模的模型中,Fun-Audio-Chat-8B 在 OpenAudioBench (76.61%) 和 VoiceBench (83.21%) 上取得了最佳的整體性能。
在語音質量評估中,Fun-Audio-Chat-8B 的 UTMOS 得分為 4.37,表明其整體語音質量優異。
Fun-Audio-Chat 在包括 MMAU、MMAU-Pro 和 MMSU 在內的綜合音頻理解基準測試中表現最佳,優于包括 Kimi-Audio。
Fun-Audio-Chat-30B-A3B 和 Fun-AudioChat-8B 在語音指令跟隨任務中表現出良好的競爭力,涵蓋了聲學屬性、指令跟隨、角色扮演和共情能力等多個維度。
Fun-Audio-Chat-8B 在英語和中文兩種語言中均表現出色,顯著優于包括 Baichuan-Audio 和 Kimi-Audio 在內的開源模型,同時與商業模型保持競爭力。
盡管 Fun-Audio-Chat 在多個基準測試中表現出色,但仍有一些局限性需要在未來的工作中加以解決。首先,在多輪對話中回答復雜問題時,該模型偶爾會出現上下文記憶丟失的情況,即無法始終如一地保留先前輪次的信息。在需要理解長上下文并進行跨多輪復雜推理的場景中,這種局限性尤為明顯。
其次,語音指令執行能力在表達力方面存在一定的不穩定性。雖然該模型在語音指令任務中通常表現良好,但在某些情況下,生成的語音可能無法完全捕捉指令中指定的細微情感、說話風格或韻律變化。這種表達力上的差異會影響語音反應在某些語境下的自然度和恰當性。
第三,語音共情能力在性能上表現出一定的不穩定性。該模型在不同的場景和情感背景下,持續識別并做出恰當情感共情反應的能力可能會有所不同。這種不一致性可能會影響在實際應用中生成共情反應的可靠性,尤其是在情感理解至關重要的場景中。
研究人員表示,這些局限性凸顯了未來研究的重要方向,包括改進多輪對話中的長期語境管理、增強語音指令跟隨的穩定性和表現力,以及在各種情感場景中開發更強大、更一致的語音共情能力。
參考資料:
https://arxiv.org/pdf/2512.20156
https://huggingface.co/FunAudioLLM/Fun-Audio-Chat-8B