機器也能看圖說話
機器看到圖像或視頻就能像人類一樣進行精準地表述,這看似不可能,但已在深蘭科學院誕生的“智慧交通協管員”,已把它變為了現實。
這段視頻的場景就是在城市繁忙的十字路口,尤其上下班高峰,行人違章現象非常多,即使有交警在路口執勤也很難做到面面俱到,此時“智慧交通協管員”將大大發揮作用。

利用自主研發的圖像語義識別算法,“智慧交通協管員”可以實時識別行人和非機動車違章行為,可識別的行為包括:
1. 行人闖紅燈; 2. 非機動車闖紅燈; 3. 非機動車在逆行; 4. 非機動車在斑馬線騎行; 5. 非機動車在人行道騎行;
還可精確描述違章者特征,進行語音播報提醒,識別率可達80%以上。同時,支持個性化語音定制,可以利用現有的視頻攝像頭資源進行人臉識別違章抓拍,方便處罰,還可輔助對接車路協同系統。
其中涉及到的技術比較多,概括起來就是視覺理解、認知推理、自然語言生成和語音合成。接下來,我們會對其中的關鍵技術視覺理解和認知推理進行展開。
視覺理解+認知推理
一、認知智能概述
人工智能的發展可以粗略劃分為三個階段:計算智能、感知智能和認知智能。
計算智能通俗來說就是計算機能存儲、記憶會運算,這方面,計算機的智能水平早已經遠遠超過人類。
感知智能就是計算機具備類似于人類的視覺和聽覺等方面的能力,比如,聽到了什么,對應語音識別;看到了什么,對應圖像的分類檢測和語義分割。其中人臉識別就是包含感知智能技術的一種人工智能應用,近年來,隨著深度學習技術在視覺感知領域的蓬勃發展,目前機器感知智能的性能已經可與人類媲美,甚至在許多場景下已經超過人類。
認知智能強調知識、推理等技能,要求機器能理解、會思考,目前機器遠不及人類。從計算智能到感知智能,標志著人工智能走向成熟;從感知智能到認知智能,是人工智能質的飛躍。認知智能,與人的語言、知識、邏輯相關,是人工智能的更高階段,涉及到語義理解、知識表示、小樣本學習甚至零樣本學習、聯想推理和自主學習等等。相比于計算智能和感知智能,認知智能是更復雜和更困難的任務,也是未來數十年最重要的任務。
二、視覺理解與推理
Image captioning的發展歷程
1996-2000年 符號規則方法
追溯到1996年,Gerber發表了一篇知識表示的論文,限定于交通場景,在圖像序列中用知識表示來進行自然語言描述的問題。2010年時,朱松純(S.-C.Zhu)教授團隊首次提出與或圖(And-Or Graph)的模型。進一步與 D. Mumford 合作進行了框架的完善,融入隨機上下文相關語法(Stochastic Context Sensitive Grammar),能對復雜物體的多層次構造特性(Hierarchical Compositionality)建模,完全表示圖像語法(Image Grammar)。
與或圖表示突破了傳統單一模板(Template)的表示方法,對每類物體用多個圖結構表示,該結構可以通過語法(Grammar)、產生規則(Production Rule)進行動態調制,從而可以用相對小的視覺字典(Visual Vocabulary),表達大量類間結構變化很大的物體的圖像表現形式(Configuration)。
這些方法實際上都基于邏輯體系和規則的系統,對圖像的內容設計很多規則,繼而產生自然語言描述。由于強依賴于手工定制,人工特征工程的工作量就非常大,這也是當時亟待改善的問題。
2011-2013年 無明顯進展
2014年至今 深度學習方法等
2014年,谷歌的Oriol Vinyals 等人公開論文《Show and Tell: A Neural Image Caption Generator》,并發表于2015年CVPR,開了深度學習在Image captioning中使用的先河。該方法來源于以前的機器翻譯。
輸入圖形后,深度卷積神經網絡對圖形特征進行提取,通過固定長度矢量形成輸入(Input)進入循環神經網絡(RNN),經過一系列訓練后,輸出一段描述性的自然語言文字。按照時間序列的順序,逐個詞進行輸出,條件依附于之前的詞。

使用如下公式最大化給定圖像的正確描述概率:

Encoding-Decoding 靈感來源于翻譯模型。

基于更復雜的視覺特征提取模型的Image Captioning。其中利用人的常識構建了一個知識庫(ConceptNet),然后把它加入Encoding-Decoding模型里,賦予模型一定程度的常識能力。我們一直希望機器能有所謂的認知智能,實際上就是希望機器能夠像人一樣具有常識。
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 4 Tesla AI5芯片最新進展總結
- 5 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 6 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 8 2026,人形機器人只贏了面子
- 9 DeepSeek降價90%:價格屠夫不是身份,是戰略
- 10 AI Infra產業鏈卡在哪里了?


分享













