中科院計(jì)算所副研究員馮洋:神經(jīng)機(jī)器翻譯的訓(xùn)練改進(jìn)和解碼提速
當(dāng)前機(jī)器翻譯模型通常采用自注意力機(jī)制進(jìn)行編碼,訓(xùn)練時(shí)直接將Ground Truth詞語(yǔ)用作上文,并行生成所有的目標(biāo)詞語(yǔ),極大的提升了訓(xùn)練速度。
但測(cè)試的時(shí)候卻面臨以下難題:首先,模型得不到Ground Truth,從而只能用自己生成的詞作為上文,使得訓(xùn)練和測(cè)試的分布不一致,影響了翻譯質(zhì)量;其次,由于每個(gè)目標(biāo)詞語(yǔ)的生成依賴于其之前生成的詞,所以目標(biāo)詞語(yǔ)只能順序生成,不能并行,從而影響了解碼速度。本次分享將針對(duì)以上問(wèn)題,介紹他們的解決方法。
具體分享內(nèi)容如下:
1. 改進(jìn)訓(xùn)練和測(cè)試的分布不一致問(wèn)題:
采用計(jì)劃采樣的方法 (ACL 2019 best paper)
采用可導(dǎo)的序列級(jí)損失函數(shù)進(jìn)行貪心搜索解碼
2. 解碼速度提升:
基于Cube Pruning解碼算法
融入序列信息的非自回歸翻譯模型
背景

當(dāng)前,自然語(yǔ)言處理方向的生成任務(wù)主要包括:機(jī)器翻譯,人機(jī)對(duì)話,文章寫作,文章摘要等等。目前這些問(wèn)題主要是通過(guò)序列到序列模型來(lái)解決的。序列到序列模型的主要架構(gòu)是一個(gè)帶有注意力機(jī)制的編碼器-解碼器架構(gòu)。這個(gè)架構(gòu)基于一個(gè)重要的假設(shè):即“源端的輸入和目的端的輸出之間是可以找到一個(gè)共同的語(yǔ)義空間。編碼器的任務(wù)就是對(duì)輸入進(jìn)行各種變換,映射到共同語(yǔ)義空間上的一個(gè)點(diǎn)。解碼器的任務(wù)是對(duì)共同語(yǔ)義空間的這個(gè)點(diǎn)進(jìn)行一些反操作,將其映射到目標(biāo)端空間,從而生成相應(yīng)的詞語(yǔ)。考慮到在每一步進(jìn)行翻譯的時(shí)候不需要關(guān)注所有的源端輸入,而是僅僅關(guān)注一部分,注意力機(jī)制主要目的就是將當(dāng)前步需要關(guān)注的部分找出來(lái)。

目前主流的序列到序列模型主要包括兩種: 一個(gè)是RNNSearch,一個(gè)是Transformer。
RNNSearch通過(guò)RNN來(lái)將源端的輸入編碼成一個(gè)表示,通常源端采用的是雙向RNN,這樣對(duì)于每一個(gè)源端Token的編碼表示都能考慮到其上下文信息。在目標(biāo)端同樣是使用一個(gè)RNN,它可以將翻譯的歷史信息給串起來(lái),這樣在當(dāng)前步翻譯的時(shí)候就能考慮到上文的信息。
Google在2017年提出了Transformer結(jié)構(gòu),該結(jié)構(gòu)經(jīng)過(guò)無(wú)數(shù)人的驗(yàn)證,發(fā)現(xiàn)非常好用,所以Transformer就成為了當(dāng)前主流的序列到序列模型。Transformer主要的機(jī)制是:在生成源端表示的時(shí)候并沒(méi)有使用RNN,而是使用自注意力機(jī)制來(lái)生成每一個(gè)Token的表示。這樣做的好處是,在訓(xùn)練的時(shí)候可以并行,因?yàn)槊總(gè)詞都可以并行的和其它詞計(jì)算attention ( RNN則只能串行 )。同樣在解碼端的時(shí)候,也是使用的自注意力機(jī)制。

這種模型在訓(xùn)練的時(shí)候都是采用的TeacherForcing形式。模型在解碼當(dāng)前步的時(shí)候,通常會(huì)有三個(gè)輸入:解碼器當(dāng)前的狀態(tài),attention和上一步解碼的結(jié)果。在訓(xùn)練的過(guò)程中,我們通常使用上一步的真實(shí)輸出而非模型輸出作為當(dāng)前步解碼的結(jié)果,這就是所謂的Teacher Forcing。

在Inference的時(shí)候通常采用Beam-Search +順序生成的方式,在每一步都保存Top-K個(gè)最優(yōu)結(jié)果。

在介紹了訓(xùn)練和推斷之后,我們來(lái)看一下目前面臨的問(wèn)題,因?yàn)樵谟?xùn)練的時(shí)候我們使用Teacher Forcing的方式,但是我們?cè)谕茢嗟臅r(shí)候并不知道上一步的GroundTruth是什么,所以,我們只能將上一步預(yù)測(cè)的結(jié)果來(lái)近似為Ground Truth。這樣,訓(xùn)練和推斷在生成分布的條件上就產(chǎn)生了差異(Ground Truth vs Predicted),這個(gè)問(wèn)題被稱作為 Exposure Bias。

在訓(xùn)練的時(shí)候,我們還存在另一個(gè)問(wèn)題。訓(xùn)練的時(shí)候由于我們使用的交叉熵?fù)p失函數(shù),該損失函數(shù)只對(duì)Ground Truth友好,對(duì)于非Ground Truth的結(jié)果一視同仁。但是對(duì)于翻譯任務(wù)來(lái)說(shuō),并不是只有一種翻譯方式,從slides中可以看到,Output1和Ground Truth表示的是同一個(gè)意思,但是Output2和Ground Truth表示的含義就是不同了,但是在訓(xùn)練的時(shí)候,交叉熵?fù)p失函數(shù)會(huì)將Output1和Output2一視同仁,這樣是不合理的。

在推斷階段解碼的時(shí)候同樣存在兩個(gè)問(wèn)題,在每一個(gè)解碼step我們都要執(zhí)行n各預(yù)測(cè),每個(gè)預(yù)測(cè)都要得到整個(gè)詞表的一個(gè)分布,所以在每一個(gè)step都要生成n*|V|個(gè)詞語(yǔ)。而且每個(gè)時(shí)間步還必須串行,這大大影響了解碼速度。
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-

落地?zé)o錫!京東首個(gè)物流機(jī)器人超級(jí)工廠來(lái)了
-

OpenAI發(fā)布的AI瀏覽器,市場(chǎng)為何反應(yīng)強(qiáng)烈?
-

馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-

機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-

存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-

長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-

豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-

字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
最新活動(dòng)更多
-
即日-5.20立即下載>> 【限時(shí)免費(fèi)】物理場(chǎng)仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測(cè)未來(lái)·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會(huì)
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國(guó)機(jī)器人產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國(guó)機(jī)器人行業(yè)年度評(píng)選
-
精彩回顧立即查看>> 【在線會(huì)議】液冷服務(wù)器信號(hào)完整性及冷卻液關(guān)鍵電參數(shù)測(cè)試
推薦專題
- 1 AI狂歡遇上油價(jià)破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實(shí)測(cè):中文穩(wěn)、細(xì)節(jié)炸,設(shè)計(jì)師慌了
- 3 6000億美元估值錨定:字節(jié)跳動(dòng)的“去單一化”突圍與估值重構(gòu)
- 4 Tesla AI5芯片最新進(jìn)展總結(jié)
- 5 連夜測(cè)了一波DeepSeek-V4,我發(fā)現(xiàn)它可能只剩“審美”這個(gè)短板了
- 6 熱點(diǎn)丨AI“瑜亮之爭(zhēng)”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫(kù)跑路,全員被封號(hào),還繼續(xù)扣錢!
- 8 2026,人形機(jī)器人只贏了面子
- 9 DeepSeek降價(jià)90%:價(jià)格屠夫不是身份,是戰(zhàn)略
- 10 AI Infra產(chǎn)業(yè)鏈卡在哪里了?
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享





