GOGOGO高清在线观看视频中文,国产精品亚洲精品欧美精品日韩,欧美大片影院,国产处破40分钟高清版

AI同傳現場掉鏈子，人工智能的理解能力還需努力

2018-04-19 11:44

隱馬爾可夫模型（HMM）解決統計數據之外的語言問題

然而，在參考騰訊AI同傳的失誤后，我們發現，僅僅增加數據量還是不夠的，在現實生活中，我們也會遇到零概率或者統計量不足的問題。

比如一個漢語的語言模型，就足足達到20萬這個量級。曾有人做過這樣一個假設，如果刨掉互聯網上的垃圾數據，互聯網中將會有100億個有意義的中文網頁，這還是相當高估的一個數據，每個網頁平均1000詞，那么，即使將互聯網上上所有中文內容用作訓練，依然只有1013。

為了解決數據量的問題，我們提出了隱馬爾可夫模型（HMM）。實際應用中，我們可以把HMM看作一個黑箱子，這個黑箱子可以利用比較簡潔的數據，處理后得出：

1．每個時刻對應的狀態序列；

2．混合分布的均值和方差矩陣；

3．混合分布的權重矩陣；

4．狀態間轉移概率矩陣。

看起來可能比較復雜，簡單點說，這個模型可以通過可觀察的數據而發現這個數據域外的狀態，即隱含狀態。也就是說，我們可以憑借一句話，來探索出這句話后的隱含的意思，從而解決一些微妙的語義問題。

如上圖所示，這個模型能夠通過你提供的可以明顯觀察的句子，推斷出一個人隱含的心情狀態（開心OR難過），并得到最后的行為判斷（宅、購物、社交），即通過已知推斷出未知。

而如何優化這個模型，得到最優隱含狀態？人們提出了許多解決問題的算法，包括前向算法、Viterbi算法和Baum－Welch算法。此中奧妙，難以盡述。但不能否認的是，在深度學習的基礎上，數據＋模型就能很好地打造出一款AI同傳翻譯，數據越大，神經網絡更好。即使翻譯結果不盡如人意，但只要建設足夠大的數據庫，建立更好的模型，打磨算法，AI同傳很快就會有更大的提升。

NLP金字塔頂端反哺底端：打造高質量AI同傳

除了增加數據庫和打磨數據模型，AI同傳還可以從哪些方面提升呢？我們不妨借鑒一下其它的技術。下圖中，這四個方面代表了人們在NLP領域的一些進步。用金字塔形來表示這四個技術之間的關系，難度是逐級上升的。

目前，聊天機器人和閱讀理解這一塊兒已經取得了很大的突破。而AI閱讀理解技術的進步不止是NLP的高階進化，還有一層意義是，科學之間是相通的，技術之間可以互相借鑒，金字塔頂端技術可以反哺底端。

在自然語言處理上，人區別于AI的點在于人有先驗知識。即人們在聽到某個字時，會自然地聯想到后一個字，或者會被一個詞觸發了一句話的聯想。比如，我們聽到“中”，既有可能想到“國”，也可能想到“間”。但是AI“聯想”的詞卻依靠數據。它說“北”，如果輸入的數據不變，那后面跟的就是”京“。