久久综合欧美,成全高清免费观看MV动漫,宝贝再忍点灬舒服灬大点视频,淑芬又痒了把腿张开

免费久久国产&夜夜毛片&亚洲最大无码中文字幕&国产成人无码免费视频之奶水&吴家丽查理三级做爰&国产日本亚欧在线观看

2020 年 10 篇必讀的 NLP 突破論文 LIST

2020-12-30 15:27

7、全新的 NLP 模型測試方法 “CheckList”

開發諸如 GLUE（General Language Understanding Evaluation）和 SuperGLUE 之類的基準，可以用來評估經過微調的 NLP 模型執行自然語言理解任務的能力。通常，將 NLP 模型的性能與驗證準確性的結果進行比較。需要注意，使用驗證準確性存在固有的局限性，例如過擬合，驗證集的數據分布不同等均可能干擾正確的判斷。

而在 ACL 2020 年的 Best Paper 論文 “Beyond Accuracy： Behavioral Testing of NLP Models with CheckList” 中，作者提出了一個框架，一種新的 NLP 模型評測方法：CHECKLIST。CHECKLIST 借鑒了傳統軟件工程的測試準則，通過模板快速生成大量樣例，全面測試模型的各種能力，可以用于幾乎所有 NLP 任務。

CHECKLIST 建議使用三種不同的測試方法：

?最小功能測試（MFT， Minimum Functionality Tests），其中使用預期的金標生成示例；

?不變性測試（INV， INVariance Tests），其中從給定的示例中，創建新示例，其中金標被翻轉；

?方向預期測試（DIR， Directional Expectation Tests）對原始句子進行修改，金標往期望的方向（正向／負向）變化。

作者建議對于 NLP 模型的每一種能力，都盡量采用這三種測試方法測試一遍。

一句話總結現實影響：CheckList 可用于為各種 NLP 任務創建更詳盡的測試，有助于識別更多的錯誤的，帶來更強大的 NLP 系統。

該論文在 ACL 2020 上獲得了最佳論文獎（Best Paper）。

8、重新評估自動機器翻譯評估指標

自動化指標是開發和評估機器翻譯系統的基礎。判斷自動化度量標準是否與人類評估的黃金標準相一致，并非易事。

墨爾本大學計算與信息系統學院的這項研究表明，當前的指標評估方法對用于評估的翻譯系統非常敏感，尤其是存在異常值時，這通常會導致對評價效果產生錯誤的自信判斷。例如，如果使用大量翻譯系統來計算領先指標和人工評估之間的相關性，則該相關性通常很高（即 0．9）。但是，如果僅考慮幾個最佳系統，則相關性會顯著降低，在某些情況下甚至可能為負相關。

因此，他們提出了一種在自動度量標準下以人為判斷為閾值提高性能的方法，可以量化所引起的 I 型錯誤與 II 型錯誤，即可以接受的人類評判質量差異，以及不能接受的人類評判差異。與 BLEU 和 TER 相比，優先考慮 chrF，YiSi－1 和 ESIM 等評估指標。

一句話總結現實影響：這些發現對機器翻譯中的度量評估和系統性能評估的協議進行了改進。

這項研究在 ACL 2020 上入圍榮譽提名論文獎（Honorable Mention Papers）。

<上一頁 1 2 3 4 下一頁> 余下全文