突破瓶頸高效測評:谷歌提出自然語言生成任務(wù)評測新方法BLEURT
利用機器學(xué)習(xí)創(chuàng)造一個度量標準需要解決根本的挑戰(zhàn):這一指標需要在不同域和時間上具備連續(xù)性。然而訓(xùn)練數(shù)據(jù)的數(shù)量總是有限的,同時公開數(shù)據(jù)集也是稀疏的。即使目前最大的人類評測數(shù)據(jù)集WMT度量任務(wù)數(shù)據(jù)集,包含了260k的人類測評,僅僅只覆蓋了新聞領(lǐng)域。這對于訓(xùn)練一個適用范圍廣泛的NLG測評指標遠遠不夠。
為了解決這一問題,遷移學(xué)習(xí)被引入了這項研究。首先充分利用了BERT中上下文詞語表示,BERT是目前用于語言理解最先進的非監(jiān)督表示學(xué)習(xí)方法,并成功應(yīng)用于想YiSi和BERTScore等NLG指標上。
其次研究人人員引入了一種新穎的預(yù)訓(xùn)練機制來提升BLEURT的魯棒性。實驗表明直接在人類測評數(shù)據(jù)集上訓(xùn)練回歸模型十分不穩(wěn)定,因為無法控制測評指標在哪個域或者哪個時間跨度上使用。其精度很容易在出現(xiàn)域漂移的情況時下降,例如測試時文本信息來自于與訓(xùn)練句子對不同的域時。同時在質(zhì)量漂移時其性能也會下架,例如要預(yù)測評級比訓(xùn)練評級高時就可能引起性能下降,不過這也是機器學(xué)習(xí)研究正在取得進展的標志特征。
BLEURT的成功取決于模型利用數(shù)百萬合成句子對兒來進行預(yù)熱,隨后再利用人類評級進行微調(diào)。通過給來自維基百科的句子加入隨機擾動來生成訓(xùn)練數(shù)據(jù),研究人員沒有采用人類評級而是利用了文獻中的模型和指標,使得訓(xùn)練樣本的數(shù)量可以低成本地進行擴充。

BLEURT數(shù)據(jù)生成過程,結(jié)合了隨機擾動和現(xiàn)有的指標和模型。
BLEURT的預(yù)訓(xùn)練分別在語言模型目標和NLG評測目標上訓(xùn)練了兩次。隨后在WMT指標數(shù)據(jù)集上進行了調(diào)優(yōu),下圖展示了BLEURT端到端的訓(xùn)練流程。實驗表明預(yù)訓(xùn)練模型極大地提升了BLEURT的精度,特別在測試分布外數(shù)據(jù)時尤其如此。

結(jié) 論
與多個指標在機器翻譯和數(shù)據(jù)文本生成任務(wù)上的比較結(jié)果表明,BLEURT顯示出了優(yōu)異的性能。例如BLEURT在2019年的WMT Metrics Shared任務(wù)上的精度超過了BLEU48%。

在WMT’19 Metrics Shared 任務(wù)上,不同指標和人類評級結(jié)果的相關(guān)性。
研究人員希望這一指標可以為NLG任務(wù)提供更好的評測方式,提供靈活的語義的評測視角。BLEURT可以為人們提供除了重合度外更好的測評指標,打破現(xiàn)有測評方法對于算法研發(fā)的束縛。
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-5.20立即下載>> 【限時免費】物理場仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測未來·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國機器人產(chǎn)業(yè)大會
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國機器人行業(yè)年度評選
-
精彩回顧立即查看>> 【在線會議】液冷服務(wù)器信號完整性及冷卻液關(guān)鍵電參數(shù)測試
推薦專題
- 1 AI狂歡遇上油價破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩(wěn)、細節(jié)炸,設(shè)計師慌了
- 3 6000億美元估值錨定:字節(jié)跳動的“去單一化”突圍與估值重構(gòu)
- 4 Tesla AI5芯片最新進展總結(jié)
- 5 連夜測了一波DeepSeek-V4,我發(fā)現(xiàn)它可能只剩“審美”這個短板了
- 6 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續(xù)扣錢!
- 8 2026,人形機器人只贏了面子
- 9 DeepSeek降價90%:價格屠夫不是身份,是戰(zhàn)略
- 10 AI Infra產(chǎn)業(yè)鏈卡在哪里了?
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享













