改寫語音交互行規(guī),豆包大模型更穩(wěn)了

全雙工模式才是王道
撰文/ 陳鄧新
編輯/ 李 季
排版/ Annalee
豆包大模型,又上新了。
2026年4月9日,原生全雙工語音大模型Seeduplex正式發(fā)布,相比上一代半雙工豆包端到端語音模型,新模型基于“邊聽邊說”的全新框架設(shè)計(jì),交互體驗(yàn)的自然感、順暢度大幅提升,目前已在豆包App全量上線。
這意味著,前沿的全雙工語音技術(shù),第一次實(shí)現(xiàn)商業(yè)規(guī)模化落地。
而依托全雙工語音技術(shù),豆包的語音交互不再是機(jī)械式的一問一答,而是收放自如的聊天搭子,活人感躍然紙上。
顯而易見,AI應(yīng)用“一哥”如虎添翼了。
活人感才是語音交互的核心競(jìng)爭(zhēng)力
語音交互,成為互聯(lián)網(wǎng)競(jìng)爭(zhēng)的主戰(zhàn)場(chǎng)。
起初,人類觸達(dá)數(shù)字世界交互方式為命令行;之后,圖形界面接棒,造就了PC的輝煌;等到觸控起勢(shì),移動(dòng)互聯(lián)網(wǎng)的序幕也隨之拉開。
如今,交互方式又有了新范式。
AI時(shí)代,語音交互走到了C位,不再是一個(gè)可有可無的輔助功能,而是提升交互效率、改變交互形態(tài)的核心載體。
皆因,語言才是人類表達(dá)意圖的最短路徑。
如此一來,基于AI技術(shù)的語音交互正在打破現(xiàn)實(shí)世界與數(shù)字世界的交流壁壘,通過顛覆使用習(xí)慣的方式完成交互躍遷。
問題在于,傳統(tǒng)的語音交互是半雙工模式。
半雙工模式之下,同一個(gè)時(shí)間段內(nèi)只有一個(gè)動(dòng)作發(fā)生,用戶說話了則AI只能聽著,反之亦然,這個(gè)過程一板一眼,不容絲毫偏差。
通俗易懂地說,AI在語音交互的過程中缺乏活人感。
此背景下,哪怕語音識(shí)別與自然語言理解兩大技術(shù)成熟,語音識(shí)別準(zhǔn)確率接近人類水平,也沒有讓傳統(tǒng)的語音交互出圈。
一名互聯(lián)網(wǎng)觀察人士告訴鋅刻度:“半雙工模式無法打斷正在進(jìn)行的說話、難以過濾復(fù)雜環(huán)境的雜音、沒法感知用戶的正常停頓等,容易出現(xiàn)搶話、跑題等令人尷尬的問題,嚴(yán)重影響了用戶的交互體驗(yàn),直白地說就是AI彬彬有禮卻無法與用戶共情。”

Seeduplex的全雙工模式,則有效解決了上述問題。
全雙工之下,同一個(gè)時(shí)間段內(nèi)用戶與AI可以雙向交流,即用戶可以隨時(shí)插話與打斷,AI也可以持續(xù)傾聽與及時(shí)響應(yīng)。
在此過程中,Seeduplex進(jìn)行全局聲學(xué)環(huán)境感知,精準(zhǔn)篩選出用戶與模型交互的真正聲音,過濾背景帶來的各種干擾聲,從而將誤回復(fù)率與誤打斷率降低了一半,用戶無需提高音量或?qū)ふ野察o角落,即可進(jìn)行高質(zhì)量的對(duì)話。
精準(zhǔn)抗干擾之外,Seeduplex還具備動(dòng)態(tài)判停能力。
通過聯(lián)合語音和語義特征,綜合判斷用戶意圖,面對(duì)用戶的思考猶豫,模型可以耐心傾聽;在用戶說完后,又可以快速響應(yīng),從而搶話的概率相對(duì)降低了40%。
對(duì)此,一名專業(yè)人士表示:“通過語速、語調(diào)、語義的綜合考慮,動(dòng)態(tài)判停可以共情式傾聽用戶,理解用戶的停頓到底是在思考,還是真正把話說完了,這才是Seeduplex最大的競(jìng)爭(zhēng)優(yōu)勢(shì)。”
一言以蔽之,Seeduplex成為一個(gè)有溫度、有深度、有人格、有靈魂的交互主體,依托活人感走了一條差異化競(jìng)爭(zhēng)的道路。
畢竟,活人感才是語音交互的核心競(jìng)爭(zhēng)力。
率先突破的為何是豆包
全雙工模式堪稱降維打擊,自然成為行業(yè)追逐的焦點(diǎn),可唯獨(dú)豆包大模型成為行業(yè)“吃螃蟹”的第一人,并非偶然。
一方面,語音交互一直是豆包的底色。
自推出以來,語音交互就成為豆包用戶體驗(yàn)的核心支柱,其即時(shí)互動(dòng)感頗受年輕人的青睞,進(jìn)而營(yíng)造了高粘性、正循環(huán)的社交氛圍。
由此一來,豆包成為AI應(yīng)用賽道的“一哥”。
QuestMobile的數(shù)據(jù)顯示,截至2025年9月,AI應(yīng)用市場(chǎng)移動(dòng)端、PC端月活躍用戶數(shù)分別達(dá)到7.29億、2.00億;其中,排名第一的豆包的月活躍用戶規(guī)模為1.72億。
華熙生物董事長(zhǎng)趙燕表示:“豆包這些AI,是生活的一部分,工作的一部分。重復(fù)、需要耗時(shí)耗力的一些事兒,我會(huì)讓豆包來做。AI給我們帶來的是業(yè)務(wù)的重塑,原來可能幾十個(gè)人的團(tuán)隊(duì)要干兩年,現(xiàn)在可能(只需要)五個(gè)小時(shí)。”
正因?yàn)槿绱耍拱恼Z音交互生態(tài)每天都在源源不斷產(chǎn)出海量的真實(shí)數(shù)據(jù),為孵化Seeduplex提供了肥沃的土壤,其訓(xùn)練語料的優(yōu)勢(shì)無法比擬。
另外一方面,豆包大模型的底蘊(yùn)深厚。
豆包大模型2024年5月的日均Token使用量為1200億,到了2026年3月日均Token使用量已突破120萬億,足足增長(zhǎng)了1000倍。
須知,Token使用量是衡量AI發(fā)展速度的核心指標(biāo)。
這意味著,豆包大模型不斷技術(shù)迭代,從可用走向好用,為半雙工豆包端到端語音模型迭代為原生全雙工語音大模型Seeduplex創(chuàng)造了良好的條件。
火山引擎總裁譚待表示:“只有大的調(diào)用量,才能打磨出好模型。只有在真實(shí)場(chǎng)景中落地,用的人越多,調(diào)用量越大,模型才會(huì)越來越好。”

具體來看,為了讓全雙工成功落地,Seeduplex在模型框架設(shè)計(jì)、算法優(yōu)化、工程性能與穩(wěn)定性上下了一番功夫。
譬如,在模型框架設(shè)計(jì)上,放棄了經(jīng)典的“ASR(語音轉(zhuǎn)文本)→LLM(大腦思考生成回復(fù))→TTS(語音合成)”模型架構(gòu),設(shè)計(jì)了更貼合語音實(shí)時(shí)對(duì)話原生特性的模型架構(gòu),使模型能夠直接從數(shù)據(jù)中學(xué)習(xí)語音與語義的一體化表達(dá)和節(jié)奏控制,顯著提升了交互自然度。
再譬如,活人感與對(duì)話智能、超低延遲、對(duì)話節(jié)奏控制、強(qiáng)抗干擾能力與指向性理解等指標(biāo)息息相關(guān),因而需要依托海量語音數(shù)據(jù)進(jìn)行大規(guī)模預(yù)訓(xùn)練,并通過多能力、多任務(wù)的后訓(xùn)練體系,才可以達(dá)到多維能力協(xié)同進(jìn)化的目的。
合力之下,Seeduplex攻克了全雙工語音的數(shù)據(jù)構(gòu)建、超低時(shí)延與模型效果協(xié)同優(yōu)化等核心技術(shù)難題,打開語音交互的新邊界。
測(cè)試數(shù)據(jù)顯示,相比上一代半雙工豆包端到端語音模型,Seeduplex的判停MOS分提高了8%,對(duì)話流暢度MOS分提升了12%。
智能座艙邁入語音交互時(shí)代
隨著語音交互從半雙工走向全雙工,可以進(jìn)一步賦能教育、直播、營(yíng)銷、客服等行業(yè),釋放更大的生產(chǎn)力。
上述行業(yè)有一個(gè)共同的特征,即在語音交互的過程中需要避免機(jī)械感,從而增加用戶的沉浸感與參與感,最終提高用戶的信任度與滿意度。
不難看出,Seeduplex的出現(xiàn)不啻一場(chǎng)及時(shí)雨。
尤為值得一提的是,隨著汽車全面擁抱智能座艙,汽車正在撕下代步的標(biāo)簽,成為真正意義上的“第三空間”,也成為語音交互落地的最佳場(chǎng)景。
事實(shí)上,無需觸控、按鍵、旋轉(zhuǎn),通過口頭指令即可控制打開音樂、降低車窗、調(diào)整溫度、設(shè)置導(dǎo)航等日常操作,因而語音交互逐漸取代了傳統(tǒng)的人機(jī)界面。
不難看出,語音大模型成為智能座艙比拼的關(guān)鍵所在。
佐思汽研的數(shù)據(jù)顯示,車載大模型2025年1月的滲透率為10.8%,到了2025年12月已攀升至38.6%,走高的勢(shì)頭肉眼可見。
其中,豆包大模型拔得頭籌。
公開資料顯示,豆包大模型覆蓋賽力斯、吉利汽車、長(zhǎng)城汽車、捷途汽車、智己汽車等20余家車企,2025 年新上市車型搭載量位居行業(yè)第一。
以別克至境E7為例,其與豆包大模型進(jìn)行了全鏈路共創(chuàng)模式,在高速噪聲、多音區(qū)等復(fù)雜環(huán)境下,將語音識(shí)別準(zhǔn)確率提升至98%,復(fù)雜指令理解超過95%。

火山引擎汽車總經(jīng)理?xiàng)盍ケ硎荆?ldquo;我們的合作,不是‘大模型上車’,而是‘大模型為車定制’。”
眼下,Seeduplex助陣,豆包可以更好地適配智能座艙場(chǎng)景,既能在低延遲條件下實(shí)現(xiàn)對(duì)話,克服聽不準(zhǔn)、聽不清、反應(yīng)遲鈍等傳統(tǒng)痛點(diǎn),也能通過用戶的語調(diào)、語速、語義,判斷用戶的情緒,并給出積極的回應(yīng),成為一個(gè)可以提供情緒價(jià)值的開車搭子。
簡(jiǎn)而言之,豆包從助手化身為助理。
與此同時(shí),在Seeduplex賦能之下,智能座艙可以“像人一樣思考、像人一樣交流、像人一樣成長(zhǎng)”,有了更大的想象空間與商業(yè)價(jià)值。
總而言之,全雙工語音技術(shù)走出了實(shí)驗(yàn)室,全面領(lǐng)先當(dāng)下主流的半雙工語音技術(shù),未來不但會(huì)重新定義AI應(yīng)用的用戶體驗(yàn),還可能孕育全新的語音交互商業(yè)模式。
那么,豆包有了更大的勢(shì)能。
原文標(biāo)題 : 改寫語音交互行規(guī),豆包大模型更穩(wěn)了
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-

落地?zé)o錫!京東首個(gè)物流機(jī)器人超級(jí)工廠來了
-

OpenAI發(fā)布的AI瀏覽器,市場(chǎng)為何反應(yīng)強(qiáng)烈?
-

馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-

機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-

存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬
-

長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-

豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-

字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
最新活動(dòng)更多
-
即日-5.20立即下載>> 【限時(shí)免費(fèi)】物理場(chǎng)仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測(cè)未來·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會(huì)
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國(guó)機(jī)器人產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國(guó)機(jī)器人行業(yè)年度評(píng)選
-
精彩回顧立即查看>> 【在線會(huì)議】液冷服務(wù)器信號(hào)完整性及冷卻液關(guān)鍵電參數(shù)測(cè)試
推薦專題
- 1 特斯拉Optimus Gen3量產(chǎn)在即,哪些環(huán)節(jié)最具確定性?
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實(shí)測(cè):中文穩(wěn)、細(xì)節(jié)炸,設(shè)計(jì)師慌了
- 3 AI狂歡遇上油價(jià)破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 4 6000億美元估值錨定:字節(jié)跳動(dòng)的“去單一化”突圍與估值重構(gòu)
- 5 Tesla AI5芯片最新進(jìn)展總結(jié)
- 6 連夜測(cè)了一波DeepSeek-V4,我發(fā)現(xiàn)它可能只剩“審美”這個(gè)短板了
- 7 熱點(diǎn)丨AI“瑜亮之爭(zhēng)”:既生OpenClaw,何生Hermes?
- 8 2026,人形機(jī)器人只贏了面子
- 9 AI界的殺豬盤:9秒刪庫跑路,全員被封號(hào),還繼續(xù)扣錢!
- 10 AI Infra產(chǎn)業(yè)鏈卡在哪里了?
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享





