OpenAI再發(fā)大招推出Voice Engine!讓失語者發(fā)聲只需要15秒音頻...
作者:小巖
編輯:彩云
許久沒有新動(dòng)作的OpenAI最近顯得頗為低調(diào)。但事實(shí)上,對于這些卷的不能再卷的AI頭部公司而言,沒有人是敢躺平的。大家不是在發(fā)布新品,就是在研發(fā)新品的路上。
3月30日,OpenAI宣布推出全新的人工智能模型——Voice Engine。這并非是一個(gè)全新的模型,事實(shí)上,自2022年開始,OpenAI便默默布局,開展了對于該模型的研發(fā)工作。
工作原理簡單而高效!能夠駕馭合成聲音所帶來的挑戰(zhàn)和機(jī)遇。
對于這款最新發(fā)布的模型,OpenAI官方推特的措辭異常小心而謹(jǐn)慎,它表示,“我們正在分享從 Voice Engine模型的小規(guī)模預(yù)覽中獲得的經(jīng)驗(yàn)體會(huì)”。事實(shí)上,Voice Eengine所呈現(xiàn)出來的工作效率的確是簡單而高效的。

Voive Engine最大的特點(diǎn)在于語音克隆。其中的工作原理很簡單:用戶僅需通過電話或電腦麥克風(fēng)錄制一段15秒的聲音片段,OpenAI的語音引擎便能生成“與其聲音高度相似的自然語音”。在此之后,無論是面對什么樣的文本,它都能以近乎完美的克隆聲音進(jìn)行朗讀。
這項(xiàng)技術(shù)的問世,顯然會(huì)對那些經(jīng)常錄制自己語音的人,諸如播客,配音藝術(shù)家,口語表演者,有聲書和廣告解說員,游戲玩家,流媒體主播,客戶服務(wù)代理,銷售人員等眾多職業(yè)產(chǎn)生重大影響。
除此之外,OpenAI還特別強(qiáng)調(diào)了語音引擎在支持非語言個(gè)體方面的獨(dú)特能力。它能為這些個(gè)體提供個(gè)性化的,非機(jī)械化的聲音,為那些有語言障礙或?qū)W習(xí)需求的人提供治療和教育方面的幫助。

一旦技術(shù)得以成行,Voice Engine不僅能實(shí)現(xiàn)更真實(shí)的人聲復(fù)刻,更重要的是,它還能適用于各種場景的應(yīng)用,諸如為孩童朗讀故事,企業(yè)產(chǎn)品介紹,醫(yī)療咨詢服務(wù),為語言障礙者提供幫助等。它不僅支持多種語言,更能模仿出不同的語調(diào)和情感,應(yīng)用不可謂不廣泛。
Voice Engine由來已久,相關(guān)應(yīng)用早已有之。
正如我們前文所提到的那樣,早在 2022 年底,OpenAI 便開發(fā)了 Voice Engine 并將其用于支持文本到語音 API 中的預(yù)設(shè)語音以及 ChatGPT 語音和朗讀。所以,在展望Voice Engine未來可能產(chǎn)生的廣泛應(yīng)用場景之前,我們不妨看看它曾經(jīng)有過哪些實(shí)用案例。
首先,Voice Engine可以通過自然,富有感情的聲音為非閱讀者和兒童提供閱讀幫助。這些聲音不是呆板的預(yù)設(shè)聲音,它代表了更廣泛的說話者。譬如一家名為Age of Learning 的教育技術(shù)公司就一直在使用 Voice Engine 生成預(yù)設(shè)的畫外音(voice-over)內(nèi)容。他們還利用 Voice Engine 和 GPT-4 創(chuàng)建實(shí)時(shí)且個(gè)性化的回應(yīng),從而與學(xué)生進(jìn)行互動(dòng)。

其次,Voice Engine可以翻譯視頻和播客等方面的內(nèi)容。通過使用Voice Engine,創(chuàng)作者和企業(yè)可以用自己的聲音流利地向世界各地更多的人進(jìn)行傳播。據(jù)悉,HeyGen便是這方面的早期應(yīng)用者之一。HeyGen是一個(gè)人工智能視覺故事平臺(tái),通過使用 Voice Engine 進(jìn)行視頻翻譯,將演講者的聲音翻譯成多種語言,從而覆蓋全球受眾。值得一提的是,即便是翻譯,Voice Engine也會(huì)保留原說話者的母語口音,譬如帶有法語口音的英語等。

此外,Voice Engine可以為不會(huì)說話的人群提供支持:為患有影響語言的疾病的人群提供治療應(yīng)用;為有學(xué)習(xí)需求的人群提供教育增強(qiáng)功能等。譬如它能夠?yàn)椴粫?huì)說話的人群提供多種語言的獨(dú)特非機(jī)器人語音。用戶可以選擇最能代表自己的語音,對于多語種用戶,它也能使每種口語都保持一致的語音。
擔(dān)心合成技術(shù)可能會(huì)被濫用,暫時(shí)沒有完全公開的計(jì)劃。
盡管語音生成式AI被認(rèn)為是OpenAI的又一次巨大突破,但很顯然,官方并不急于向外界完全公開Voice Engine。究其原因,主要是因?yàn)楹铣烧Z音技術(shù)具有巨大的風(fēng)險(xiǎn),很可能會(huì)被濫用。特別是最近一段時(shí)期,由合成語音引發(fā)的電信詐騙,版權(quán)侵害等社會(huì)風(fēng)險(xiǎn)問題層出不窮,這些都是OpenAI做出“暫不公開”選擇的重要原因。OpenAI也表示,在開發(fā)的過程中,一直在與政府,媒體,教育等社會(huì)各界的美國和國際合作伙伴接觸,保證聽取和采納反饋。特別當(dāng)下這處于美國大選時(shí)期,OpenAI又正與政府和外部企業(yè)合作,勢必會(huì)采取必要的安全措施和謹(jǐn)慎的態(tài)度。
無獨(dú)有偶,OpenAI于2月推出了視頻生成AI“Sora”也同樣未對外界公開。面對生成式AI技術(shù)日益普及所引發(fā)的濫用風(fēng)險(xiǎn),OpenAI對商用化明顯采取了較審慎的態(tài)度,以確保安全和負(fù)責(zé)任的使用。

當(dāng)然,我們無法否認(rèn),生成式AI的潛力是無窮的,終究要有落地應(yīng)用的一天。相較于始終保持“審慎開放”,乃至“拒絕開放”的態(tài)度,我們莫不如提前做好評估和防范。譬如要逐步淘汰基于語音的身份驗(yàn)證作為訪問銀行賬戶和其他敏感信息的安全措施;教育公眾了解AI技術(shù)的能力和局限性,包括存在欺騙性AI內(nèi)容的可能性;加快開發(fā)和采用追蹤視聽內(nèi)容來源的技術(shù),以便隨時(shí)明確您是與真人還是與AI互動(dòng)等舉措,都是勢在必行的。無論OpenAI是否會(huì)廣泛部署這項(xiàng)技術(shù),我們大家都要了解它的發(fā)展方向。
最后,我們再來討論一個(gè)問題:在生成式AI領(lǐng)域,OpenAI是否依舊領(lǐng)跑?
從2022年便孵化出了Voice Engine這一點(diǎn)來看,OpenAI是早就開始布局合成語音這一賽道了。從某種程度上說,現(xiàn)在分享的最早期版本很可能只是在小秀肌肉,內(nèi)部應(yīng)該已經(jīng)完成了強(qiáng)力迭代。而且,根據(jù)The Information的獨(dú)家報(bào)道,微軟和OpenAI將合力打造一臺(tái)成本高達(dá)1000億美元,擁有數(shù)百萬個(gè)GPU的超級(jí)計(jì)算機(jī)“Stargate (星門)”。它將為OpenAI的人工智能提供巨大的動(dòng)力和算力會(huì),不夸張的說,照比現(xiàn)在微軟給OpenAI的支持直接提升幾個(gè)量級(jí)。
此外,從OpenAI通篇官宣文來看,OpenAI不會(huì)在短期內(nèi)向公眾推出合成語音領(lǐng)域的更新了,畢竟這個(gè)賽道日趨敏感。這或許是出于重塑企業(yè)形象和公信力的需要。未來我們或許可以期待OpenAI將Sora和Voice Engine以怎樣的模式集成到下一代 GPT。一旦這樣的GPT得以成行,OpenAI在生成式領(lǐng)域的霸主地位將不可動(dòng)搖。
原文標(biāo)題 : 新火種AI|OpenAI再發(fā)大招推出Voice Engine!讓失語者發(fā)聲只需要15秒音頻...
發(fā)表評論
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個(gè)字
圖片新聞
-

落地?zé)o錫!京東首個(gè)物流機(jī)器人超級(jí)工廠來了
-

OpenAI發(fā)布的AI瀏覽器,市場為何反應(yīng)強(qiáng)烈?
-

馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-

機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-

存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬
-

長安汽車母公司突然更名:從“中國長安”到“辰致科技”
-

豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-

字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
最新活動(dòng)更多
-
即日-5.20立即下載>> 【限時(shí)免費(fèi)】物理場仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測未來·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會(huì)
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國機(jī)器人產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國機(jī)器人行業(yè)年度評選
-
精彩回顧立即查看>> 【在線會(huì)議】液冷服務(wù)器信號(hào)完整性及冷卻液關(guān)鍵電參數(shù)測試
推薦專題
- 1 AI狂歡遇上油價(jià)破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實(shí)測:中文穩(wěn)、細(xì)節(jié)炸,設(shè)計(jì)師慌了
- 3 6000億美元估值錨定:字節(jié)跳動(dòng)的“去單一化”突圍與估值重構(gòu)
- 4 Tesla AI5芯片最新進(jìn)展總結(jié)
- 5 連夜測了一波DeepSeek-V4,我發(fā)現(xiàn)它可能只剩“審美”這個(gè)短板了
- 6 熱點(diǎn)丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫跑路,全員被封號(hào),還繼續(xù)扣錢!
- 8 2026,人形機(jī)器人只贏了面子
- 9 DeepSeek降價(jià)90%:價(jià)格屠夫不是身份,是戰(zhàn)略
- 10 AI Infra產(chǎn)業(yè)鏈卡在哪里了?
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享





