曠視科技CTO唐文斌:我們是一家人工智能產品公司
我們也非常重視系統的建設,我們有自己研發的MegBrain深度學習引擎和Brain++平臺。如果說研究的價值在于去探索邊界之外的東西,那邊界之內的,比如網絡結構的搜索,都應該用機器來完成。我們的產品中常常會有的定制算法的需求,很多時候大框架都差不多,數據工程師把數據整理和準備好以后,就直接用系統把各種類型的模型都嘗試一遍,最后挑選出一個不錯的。
新智元:你提到了數據工程師,現在曠視在數據方面投入多少?有多少人標注數據?
唐文斌:全職標注的大約有300人,不算在600多人的團隊里面。我們還有很多工作是外包完成。我們內部有標注的數據庫是PB級別。
新智元:你曾在清華擔任科協主席,也帶過中國奧林匹克信息學競賽團隊,可以說你是曠視最開始的首席人才官。你認為目前人工智能人才應該有什么樣的特點?曠視在選擇的時候看重什么特質?
唐文斌:我覺得人才的類型是很多樣的,每一種類型的人才都是人才,光會寫paper的人才也是人才,雖然價值沒有那么大。在現在的人工智能發展態勢下,我們最需要的是復合型人才。做產品的時候會有產品經理,但人工智能場景下的產品經理需要更加復合。
我們團隊最早的一位同學,員工工號No. 5的“卿爺”,我們現在提供給小米、VIVO人臉解鎖的產品線都是他帶著團隊來做的,他需要有什么樣的能力?第一,懂算法,不一定要懂算法具體是怎么做的,但一定要懂算法的邊界在哪里——堅信這件事情一定能做到,但同時也要了解現在的算法有些東西是真的做不到。第二,有很好的工程判斷力,用算法的方式是從本質去解決問題,而有些東西你會通過工程的方法去“不本質的解決”,倒推出一個一個設計。第三,也是更為重要的,需要不斷從用戶的需求、用戶的場景、用戶的價值角度出發思考問題。這樣一個產品經理,他需要比以往的產品經理有更多工程上sense,更多算法上的sense。
從工程師的角度來講,我們有一個詞,叫“全棧AI工程師”,我們希望這位同學不僅數學好,懂算法,編程很強,還非常懂系統;算法編程都很懂才能做引擎,懂體系結構你的引擎才能在不同的平臺上都跑得很好很快。這樣的人非常難找,但也是最強的。比如說我們做Brain++平臺的那幫人,他們提供的是訓練平臺,給到研究人員使用,他們知道Research是怎么使用這些東西,他們自己也隨時都能轉變為Researcher。同時,他們考慮Researcher做的哪些事情是沒有價值的,要把它工程化、系統化,最終的目標是消滅Researcher——所有在邊界范圍內的Research都由系統來完成,而Research真正要做的事情是突破邊界,探索邊界之外的東西。
曠視在選擇人才的時候也是按照這個標準。如果有這樣的人,我們特別特別希望你能夠加入我們,我們團隊里有很多這樣的人,你跟他們在一起一定會非常愉快。其次,我們也很看重學習能力,現在領域發展很快,你需要非常快速地跟上節奏去嘗試你的新想法,所以學習能力和動手速度非常重要。我們也有實習生項目,總之歡迎你來,孫劍老師帶你飛對吧(笑)。
算法與硬件結合,從源頭抓起控制成像質量
新智元:曠視的算法、軟件如何與硬件相結合?
唐文斌:我們有自己的深度學習引擎MegBrain,這個引擎在不同的品牌上做了非常多的底層優化,能夠跑得非常快。我們最近做的一款智能相機產品,這個相機是業界第一款全幀率、全畫幅(1080P)智能人像抓拍機。

曠視的全幀率、全畫幅(1080P)智能人像抓拍機
全幀率的意思就是說,每秒30幀,每幀都去抓取,在業界這個指標是最高的。有的嫌疑人員有很強的反偵察意識,一看到攝像頭會馬上低頭,如果相機不能以非常快的速度做出截取,可能只有100毫秒,一兩幀之后這人就消失了。同時,每一幀都檢測,也能確保總是能抓到質量最好的一幀,為后續應用服務。以往的相機在畫面中抓拍做檢測,基本上最多只能抓拍畫面中10到20個人,再多就抓不到了,因為計算量不行。我們可以做到128張人臉,很大的人流也能跟蹤得很好。
我們用的是自己設計的FPGA芯片,在算法層面也做了很大升級。硬件也好,算法也好,引擎也好,這幾個東西是要聯合優化的。這也是自己做引擎的廠家好的地方,我的引擎可以根據算法的需求去調整。
新智元:未來1年曠視會怎樣?未來3~5年呢?
唐文斌:我們分幾個組,研究院大概10%~15%的力量可能在解決2~5年的問題,更多的人在解決一年以內的問題,因為創業公司要務實聚焦。在介紹產品時候也講過,比如說我們為什么做相機,并不是因為覺得相機賺錢,而是我們想當視頻大數據平臺,發現源頭數據不好,后面再怎么分析也沒用,所以我們要在源頭上通過自己的方式把質量控制好,讓后面的分析能力能夠更強,形成端到端的解決方案和業務價值。
我們希望未來一年左右,在金融和安防這兩個場景下能夠站深、站穩,希望在這兩個行業形成全系列的產品,端到端的解決方案,給用戶一套完整的價值鏈條。我們內部有個說法是“4+2+X”,在微型場景下,把臉人車文字這4個要素識別做好,再后希望能夠形成機器人的手和腿,做一些限定場景的機器人應用。“X”是指通過Brain++這個平臺快速做技術的定制,讓這個場景真正的能夠形成一個完整的產品鏈。但真真實實地講,領域發展這么快,未來3~5年,我真的不知道!
新智元 AI World 2017即將啟幕
11月8日,在新智元 AI World 2017 世界人工智能大會上,曠視科技首席科學家、曠視研究院院長孫劍博士將發表演講,聚焦人臉識別等視覺前沿技術和問題,為我們帶來計算機視覺最新技術和應用的精彩分享。

孫劍博士目前在曠視科技(Face++)擔任首席科學家、曠視研究院院長。2003年畢業于西安交通大學人工智能與機器人研究所,畢業后加入微軟亞洲研究院 ( Microsoft Research Asia),任職首席研究員。自2002年以來在 CVPR, ICCV, ECCV, SIGGRAPH, PAMI 五個頂級學術會議和期刊上發表學術論文 100+ 篇,Google Scholar 引用 25,000+次,H-index 60,兩次獲得 CVPR Best Paper Award (2009, 2016)。孫劍博士于2010被美國權威技術期刊 MIT Technology Review 評選為“全球35歲以下杰出青年創新者”。
孫劍博士帶領的團隊于2015年獲得圖像識別國際大賽五項冠軍 ( ImageNet分類,檢測和定位,MS COCO 檢測和分割),其團隊開發出來的“深度殘差網絡”和“基于區域的快速物體檢測”技術已經被廣泛應用在學術和工業界。同時孫劍帶領的團隊的研究成果也廣泛被應用在微軟 Windows, Office, Bing, Azure, Surface, Xbox 等多條產品線上。目前孫劍博士正在帶領曠視科技的研究團隊推進計算機視覺技術的進步和探索其在工業和商業上的實踐。
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 4 Tesla AI5芯片最新進展總結
- 5 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 6 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 8 2026,人形機器人只贏了面子
- 9 DeepSeek降價90%:價格屠夫不是身份,是戰略
- 10 AI Infra產業鏈卡在哪里了?


分享













