免费久久国产&夜夜毛片&亚洲最大无码中文字幕&国产成人无码免费视频之奶水&吴家丽查理三级做爰&国产日本亚欧在线观看

當前位置： OFweek 人工智能網 > 其他 > 正文

阿里通義發布趣味音頻聊天模型 Fun-Audio-Chat：可以讀懂你的情緒

2025-12-25 18:13

來源： OFweek人工智能網

剛剛，阿里通義發布了一款專為自然、低延遲語音交互而構建的大型音頻語言模型 Fun-Audio-Chat。

它引入了雙分辨率語音表示，在保持高語音質量的同時降低計算量；并采用 Core-Cocktail 訓練方法，以保留強大的文本語言模型能力。

該模型在語音問答、音頻理解、語音函數調用、語音指令跟隨和語音共情等基準測試中均取得了頂尖水平的成績。

Fun-Audio-Chat 的主要特點包括：

雙分辨率語音表示：高效的 5Hz 幀速率，在保持高語音質量的同時可減少近 50% 的 GPU 運行時間。
卓越的性能：在各大基準測試里，在同等規模（約 80 億參數）的模型中名列前茅。
全面功能：支持語音問答、音頻理解、語音功能調用、語音指令跟隨、語音共情

趣味音頻聊天架構

Fun-Audio-Chat 框架包含三個主要模塊：

對于音頻輸入，語音編碼器和語音分詞器將原始音頻波形轉換為用戶端和助手端的結構化表示；
多模態大型語言模型 (MLLM) 集成了共享 LLM 主干網絡以及用于生成詞元的專用文本頭和語音精化頭 (SRH) 組件；
語音反分詞器從生成的語音詞元中重構音頻波形。

Fun-Audio-Chat 利用現有的預訓練模型，并采用多階段后訓練流程進行訓練，使用了數百萬小時涵蓋不同領域和任務的多樣化語音數據，包括對話和多語言語音、用于理解任務的音頻，從而確保全面覆蓋各種場景和用例。

訓練過程包括：

預對齊：使用大規模語音-文本配對數據對語音編碼器、適配器和語音精化頭進行對齊；
核心混合訓練：用于監督式全面微調，采用由數十億文本標記合成的高質量語音數據；
多任務 DPO 訓練：采用多樣化的真實語音數據以增強魯棒性，音頻理解和 ASR 數據以增強理解能力，指令跟隨數據（包括情感、風格和韻律控制）以增強語音指令跟隨能力，以及語音共情數據以增強情感理解和共情反應生成能力。

核心評估

研究團隊在廣泛使用的基準數據集上對 Fun-Audio-Chat 的性能進行了語音轉文本、語音到語音、音頻理解、語音識別等全面評估。

在準確率方面，約 80 億規模的模型中，Fun-Audio-Chat-8B 在 OpenAudioBench (76.61%) 和 VoiceBench (83.21%) 上取得了最佳的整體性能。

在語音質量評估中，Fun-Audio-Chat-8B 的 UTMOS 得分為 4.37，表明其整體語音質量優異。

Fun-Audio-Chat 在包括 MMAU、MMAU-Pro 和 MMSU 在內的綜合音頻理解基準測試中表現最佳，優于包括 Kimi-Audio。

Fun-Audio-Chat-30B-A3B 和 Fun-AudioChat-8B 在語音指令跟隨任務中表現出良好的競爭力，涵蓋了聲學屬性、指令跟隨、角色扮演和共情能力等多個維度。

Fun-Audio-Chat-8B 在英語和中文兩種語言中均表現出色，顯著優于包括 Baichuan-Audio 和 Kimi-Audio 在內的開源模型，同時與商業模型保持競爭力。

盡管 Fun-Audio-Chat 在多個基準測試中表現出色，但仍有一些局限性需要在未來的工作中加以解決。首先，在多輪對話中回答復雜問題時，該模型偶爾會出現上下文記憶丟失的情況，即無法始終如一地保留先前輪次的信息。在需要理解長上下文并進行跨多輪復雜推理的場景中，這種局限性尤為明顯。

其次，語音指令執行能力在表達力方面存在一定的不穩定性。雖然該模型在語音指令任務中通常表現良好，但在某些情況下，生成的語音可能無法完全捕捉指令中指定的細微情感、說話風格或韻律變化。這種表達力上的差異會影響語音反應在某些語境下的自然度和恰當性。

第三，語音共情能力在性能上表現出一定的不穩定性。該模型在不同的場景和情感背景下，持續識別并做出恰當情感共情反應的能力可能會有所不同。這種不一致性可能會影響在實際應用中生成共情反應的可靠性，尤其是在情感理解至關重要的場景中。

研究人員表示，這些局限性凸顯了未來研究的重要方向，包括改進多輪對話中的長期語境管理、增強語音指令跟隨的穩定性和表現力，以及在各種情感場景中開發更強大、更一致的語音共情能力。

參考資料：

https://arxiv.org/pdf/2512.20156

https://huggingface.co/FunAudioLLM/Fun-Audio-Chat-8B

本地收藏打印推薦給朋友

聲明： 本網站所刊載信息，不代表OFweek觀點。刊用本站稿件，務經書面授權。未經授權禁止轉載、摘編、復制、翻譯及建立鏡像，違者將依法追究法律責任。

發表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新活動更多

即日-5.20
立即下載>> 【限時免費】物理場仿真助力生物醫學領域技術創新
精彩回顧
立即查看>> 【直播】智測未來·2026海克斯康春季產品創新日
精彩回顧
立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
精彩回顧
立即查看>> OFweek 2026（第十五屆）中國機器人產業大會
精彩回顧
立即查看>> 維科杯· OFweek 2025中國機器人行業年度評選
精彩回顧
立即查看>> 【在線會議】液冷服務器信號完整性及冷卻液關鍵電參數測試

一周熱點月點擊榜

企業服務廣告服務獵頭服務薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發工程師福建省/福州市
銷售總監（光器件）北京市/海淀區
激光器高級銷售經理上海市/虹口區
光器件物理工程師北京市/海淀區
激光研發工程師北京市/昌平區
技術專家廣東省/江門市
封裝工程師北京市/海淀區
結構工程師廣東省/深圳市

掃碼關注公眾號
OFweek人工智能網
獲取更多精彩內容

文章糾錯

x

_*文字標題：

_*糾錯內容：

聯系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網安備 44030502002758號