99精品视频一区在线观看,最新高清热播推荐,帅哥打飞机,荡货夹的这么紧欠C调教视频

機器也能看圖說話

2020-06-22 10:48

深蘭科技

關注

機器看到圖像或視頻就能像人類一樣進行精準地表述，這看似不可能，但已在深蘭科學院誕生的“智慧交通協管員”，已把它變為了現實。

這段視頻的場景就是在城市繁忙的十字路口，尤其上下班高峰，行人違章現象非常多，即使有交警在路口執勤也很難做到面面俱到，此時“智慧交通協管員”將大大發揮作用。

利用自主研發的圖像語義識別算法，“智慧交通協管員”可以實時識別行人和非機動車違章行為，可識別的行為包括：

1．行人闖紅燈； 2．非機動車闖紅燈； 3．非機動車在逆行； 4．非機動車在斑馬線騎行； 5．非機動車在人行道騎行；

還可精確描述違章者特征，進行語音播報提醒，識別率可達80％以上。同時，支持個性化語音定制，可以利用現有的視頻攝像頭資源進行人臉識別違章抓拍，方便處罰，還可輔助對接車路協同系統。

其中涉及到的技術比較多，概括起來就是視覺理解、認知推理、自然語言生成和語音合成。接下來，我們會對其中的關鍵技術視覺理解和認知推理進行展開。

視覺理解＋認知推理

一、認知智能概述

人工智能的發展可以粗略劃分為三個階段：計算智能、感知智能和認知智能。

計算智能通俗來說就是計算機能存儲、記憶會運算，這方面，計算機的智能水平早已經遠遠超過人類。

感知智能就是計算機具備類似于人類的視覺和聽覺等方面的能力，比如，聽到了什么，對應語音識別；看到了什么，對應圖像的分類檢測和語義分割。其中人臉識別就是包含感知智能技術的一種人工智能應用，近年來，隨著深度學習技術在視覺感知領域的蓬勃發展，目前機器感知智能的性能已經可與人類媲美，甚至在許多場景下已經超過人類。

認知智能強調知識、推理等技能，要求機器能理解、會思考，目前機器遠不及人類。從計算智能到感知智能，標志著人工智能走向成熟；從感知智能到認知智能，是人工智能質的飛躍。認知智能，與人的語言、知識、邏輯相關，是人工智能的更高階段，涉及到語義理解、知識表示、小樣本學習甚至零樣本學習、聯想推理和自主學習等等。相比于計算智能和感知智能，認知智能是更復雜和更困難的任務，也是未來數十年最重要的任務。

二、視覺理解與推理

Image captioning的發展歷程

1996－2000年符號規則方法

追溯到1996年，Gerber發表了一篇知識表示的論文，限定于交通場景，在圖像序列中用知識表示來進行自然語言描述的問題。2010年時，朱松純（S．－C．Zhu）教授團隊首次提出與或圖（And－Or Graph）的模型。進一步與 D． Mumford 合作進行了框架的完善，融入隨機上下文相關語法（Stochastic Context Sensitive Grammar），能對復雜物體的多層次構造特性（Hierarchical Compositionality）建模，完全表示圖像語法（Image Grammar）。

與或圖表示突破了傳統單一模板（Template）的表示方法，對每類物體用多個圖結構表示，該結構可以通過語法（Grammar）、產生規則（Production Rule）進行動態調制，從而可以用相對小的視覺字典（Visual Vocabulary），表達大量類間結構變化很大的物體的圖像表現形式（Configuration）。

這些方法實際上都基于邏輯體系和規則的系統，對圖像的內容設計很多規則，繼而產生自然語言描述。由于強依賴于手工定制，人工特征工程的工作量就非常大，這也是當時亟待改善的問題。

2011－2013年無明顯進展

2014年至今深度學習方法等

2014年，谷歌的Oriol Vinyals 等人公開論文《Show and Tell： A Neural Image Caption Generator》，并發表于2015年CVPR，開了深度學習在Image captioning中使用的先河。該方法來源于以前的機器翻譯。

輸入圖形后，深度卷積神經網絡對圖形特征進行提取，通過固定長度矢量形成輸入（Input）進入循環神經網絡（RNN），經過一系列訓練后，輸出一段描述性的自然語言文字。按照時間序列的順序，逐個詞進行輸出，條件依附于之前的詞。