AI同傳現場掉鏈子,人工智能的理解能力還需努力
隱馬爾可夫模型(HMM)解決統計數據之外的語言問題
然而,在參考騰訊AI同傳的失誤后,我們發現,僅僅增加數據量還是不夠的,在現實生活中,我們也會遇到零概率或者統計量不足的問題。
比如一個漢語的語言模型,就足足達到20萬這個量級。曾有人做過這樣一個假設,如果刨掉互聯網上的垃圾數據,互聯網中將會有100億個有意義的中文網頁,這還是相當高估的一個數據,每個網頁平均1000詞,那么,即使將互聯網上上所有中文內容用作訓練,依然只有1013。
為了解決數據量的問題,我們提出了隱馬爾可夫模型(HMM)。實際應用中,我們可以把HMM看作一個黑箱子,這個黑箱子可以利用比較簡潔的數據,處理后得出:
1.每個時刻對應的狀態序列;
2.混合分布的均值和方差矩陣;
3.混合分布的權重矩陣;
4.狀態間轉移概率矩陣。
看起來可能比較復雜,簡單點說,這個模型可以通過可觀察的數據而發現這個數據域外的狀態,即隱含狀態。也就是說,我們可以憑借一句話,來探索出這句話后的隱含的意思,從而解決一些微妙的語義問題。
如上圖所示,這個模型能夠通過你提供的可以明顯觀察的句子,推斷出一個人隱含的心情狀態(開心OR難過),并得到最后的行為判斷(宅、購物、社交),即通過已知推斷出未知。
而如何優化這個模型,得到最優隱含狀態?人們提出了許多解決問題的算法,包括前向算法、Viterbi算法和Baum-Welch算法。此中奧妙,難以盡述。但不能否認的是,在深度學習的基礎上,數據+模型就能很好地打造出一款AI同傳翻譯,數據越大,神經網絡更好。即使翻譯結果不盡如人意,但只要建設足夠大的數據庫,建立更好的模型,打磨算法,AI同傳很快就會有更大的提升。
NLP金字塔頂端反哺底端:打造高質量AI同傳
除了增加數據庫和打磨數據模型,AI同傳還可以從哪些方面提升呢?我們不妨借鑒一下其它的技術。下圖中,這四個方面代表了人們在NLP領域的一些進步。用金字塔形來表示這四個技術之間的關系,難度是逐級上升的。
目前,聊天機器人和閱讀理解這一塊兒已經取得了很大的突破。而AI閱讀理解技術的進步不止是NLP的高階進化,還有一層意義是,科學之間是相通的,技術之間可以互相借鑒,金字塔頂端技術可以反哺底端。
在自然語言處理上,人區別于AI的點在于人有先驗知識。即人們在聽到某個字時,會自然地聯想到后一個字,或者會被一個詞觸發了一句話的聯想。比如,我們聽到“中”,既有可能想到“國”,也可能想到“間”。但是AI“聯想”的詞卻依靠數據。它說“北”,如果輸入的數據不變,那后面跟的就是”京“。
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 4 Tesla AI5芯片最新進展總結
- 5 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 6 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 8 2026,人形機器人只贏了面子
- 9 DeepSeek降價90%:價格屠夫不是身份,是戰略
- 10 AI Infra產業鏈卡在哪里了?


分享













