曠視技術開放日,拋出了三個論斷
“在曠視科技的技術開放日(MegTech)上,這家人工智能企業就業界最關注的大模型、算法量產落地和算法定義硬件的最新進展進行了展示與回應。”
技術開放日,是每一家科技公司展現技術價值、回應業界前沿探知的重要時刻。
7月15日,曠視科技的技術開放日(MegTech)如期而至。一群相信技術能改變世界的人聚到一起,將其在AIoT領域的思考和實踐和盤托出。
去年曠視科技十周年舉辦的首屆技術開放日,得到的熱情反饋,讓曠視決定將其固定下來。“我們希望每年都能舉辦一屆MegTech,而且越辦越好,讓它能夠真正成為每位曠視人和曠視朋友的技術節日。”曠視科技聯合創始人、CEO印奇說。

曠視聯合創始人、CEO印奇
今年技術開放日上展示了20個人工智能的DEMO,其中包括了VR的裸手交互、自然語言直接生成3D人物、瞬時相機等熱點科技。不僅如此,對當下人工智能大模型、落地中的一些關鍵問題,曠視科技的人士也給出了他們的思考和實踐。
如今,曠視的技術核心能力都在圍繞AI和IoT構建,AI層面包含了兩個核心要素:基礎算法科研和規模算法量產,IoT的核心要素則是算法定義硬件,而不僅僅是讓硬件設備灌入AI算法能力。
‘2+1’的AIoT核心技術科研體系是支撐曠視未來不斷走向新的AIoT商業成功的最重要的基石。”印奇說。
01
大模型的“悖論”
過去這些年,熱鬧的AI領域一直面臨著這樣一個窘境:聽起來很美好,但實際落地很難。
影響落地的一個關鍵是算法模型的訓練。以前是家家戶戶都在針對不同的業務場景訓練AI模型,但因為場景的多樣性、復雜性,導致很多人工智能模型要么不經濟,要么太單一、泛化性差。
預訓練大模型應運而生。它相當于先自動學習大量語言文字和圖像數據,形成先驗知識。后續的開發者都可以站在巨人的肩膀上,不需要針對每一個場景都建立一套模型。
“大模型的泛化能力強、模型效果更優等特征,助力其成為AI開發新范式,也是現階段AI市場發展的必然趨勢。”IDC中國助理研究總監盧言霞說。

曠視2022年技術開放日DEMO:VR裸手交互
預訓練大模型也降低了AI的使用門檻。它可以在不使用大量標記的訓練數據,僅僅只給出任務描述,并給出幾個從輸入到輸出示例,便能自動執行任務。
“大模型是提高AI系統性能的最重要的捷徑之一。”曠視研究院基礎科研負責人張祥雨說,面對復雜的應用場景和多種任務,提高模型性能的最直接途徑,就是提高模型本身的表達能力。
而谷歌點燃了大模型的第一把火,隨后人工智能研究組織OpenAI將大模型的參數規模推到了1750億的高度。而到了2021年,大模型的“軍備競賽”演繹得最為激烈。
當年1 月,谷歌推出的Switch Transformer模型參數量已經高達1.6 萬億,打破了Open AI保持的紀錄。
國內的巨頭也投入到大模型的競賽中。2021年4月,華為云的超大規模預訓練語言模型的參數規模達1000億;10月,浪潮發布約2500億的超大規模預訓練模型“源1.0”。12月,百度推出的ERNIE 3.0 Titan模型,參數規模達2600億。而阿里達摩院的M6模型參數達到10萬億,成為全球最大的 AI 預訓練模型。
從百億到千億,甚至到十萬億規模。這很容易給人一種錯覺:參數越大,大模型的效果就越好。
但事實并非如此。“我們發現隨著模型的參數量和數據量的增多,我們的收益在逐漸地變少。”張祥雨說。
片面地追求大參數量,不一定能夠達到更強大的模型,反而會帶來更大的計算開銷。像OpenAI的GPT-3大模型,耗資超過1200萬美元,非一般企業所能承受。
在技術開放日上,曠視對外表示,他們認為的“大”有三個方面:大模型、大算法和大應用。不僅模型要大,更關鍵的是如何與算法整合,如何在應用中提高性能。
比如曠視在做大模型上找到一種新方法,傳統增大模型的方法主要靠增加深度、寬度,或者增加輸入分辨率。曠視提出了一種基于可逆、多column神經網絡范式,通過增加可逆column的數量,來擴大化神經網絡的參數和計算量。它帶來的額外顯存消耗非常小,有利于模型的訓練和優化。

曠視2022年技術開放日DEMO:自然語言生成3D人物
“‘大’和’統一’是當今視覺AI基礎研究的新趨勢。”張祥雨判斷。除了大,曠視還提到一個基礎研究的關鍵詞“統一”。
“這兩年我們發現這些算法在底層正在走向統一。”張祥雨說,包括基礎模型架構的統一,算法的統一和認知的統一。比如在自動駕駛感知領域,曠視構造了一個新的網絡PETR。它的特點就是幾乎沒有人工設計的成分,而是完全基于相同的架構處理多視角、多時刻、多任務,以及多模態的輸入。
底層統一的好處在于,如果各種數據和任務能用統一的算法和模型,就可以構建簡單、強大且通用的視覺AI系統。比如,一旦模型統一,AI加速器的設計就會非常簡單,一個模型可以適用于各種設備和各種任務。
如今,在“大”和“統一”的指引下,曠視在通用圖像大模型、視頻理解大模型、計算攝影大模型和自動駕駛感知大模型四個方向上,已經有了不小進展。
02
算法量產的難言之隱
對于AI而言,算法模型還是萬里長征的第一步,如何結合具體場景實現量產落地才是最終目標。
早期的算法比較簡單,單點突破。但實際的應用場景卻非常復雜,單點的算法無法解決實際需求,往往需要把幾個算法串在一起,才能完成一個具體需求的落地。
比如在工業園區里的安全生產監測,除了防范火災,還有人員安全、著裝規范、員工操作規范等一系列長尾且碎片化的需求,光讓算法識別出是否有火焰,顯然是不夠的。需要有一個強大的算法生產能力和體系。
這就導致了現在的算法量產越來越復雜。而通常,一個完整的算法生產過程,包含了需求分析、數據處理、模型訓練、上線部署,到最后的應用落地。這是一個相當復雜且繁瑣的事情。
這個過程存在了三個難點:
一是數據生產的復雜性。
算法是數據喂出來的,數據的質量決定了算法的效果。現實場景的復雜性是一個非常大的挑戰。比如檢測火焰,火焰的特征非常鮮明,聽起來并不難。但現實中很容易把一些高光的物體標注為火焰,例如車尾燈的投影、遠處的太陽。而且小火苗和山火也是完全不同的形態,也容易引起歧義。另外,還要剔除大量重復的數據以及破損的圖片。這些都是要克服的干擾因素。
二是算法模型的不確定性。
關于算法的模型和文獻浩如煙海,選哪個最合適,對于從業者而言是一個非常大的挑戰。到底選擇何種模型,如何與硬件平臺高效匹配,而且在算法落地時,也大概率會遇到漏檢、誤檢的情況。這種技術科研和工程落地之間的巨大鴻溝,是算法領域需要彌合的地方。
三是硬件多樣性帶來的高成本。
算法需要依賴硬件的算力來實現,AI火熱這幾年,各種AI板卡非常多,但不同芯片平臺往往都有不同的體系結構,導致同樣一個功能,還需要先去深入了解芯片平臺的結構,才能寫出高效的代碼,增加了AI生產人員的部署成本。
看起來,每一個問題都很棘手。
但曠視在技術開放日上對外表達了他們解決算法生產難題的根本:標準化。AI算法只有標準化才能實現自動化,才能普惠易用。這里包括數據生產的標準化、算法模型的標準化和整個推理框架的標準化。
標準化聽起來非常簡單,但每一步都要考慮到位,一個細小的差別,最終都可能給最終結果帶來偏差。就像開車一樣,有些國家靠左,有些國家靠右,有些國家限速,有些國家不限速,紅綠燈的設置和表達又有不同。如果規則都統一,底層架構也統一,這些困擾就能迎刃而解。
為此,曠視搭建了統一的算法生產平臺AIS(AI Service)。它基于曠視的Brain++體系,提供了從數據清洗、智能標注、數據管理、數據質檢、算法自動生產、模型多維能力評測、pipeline部署等全流程能力。

曠視2022年技術開放日DEMO:AIS算法生產平臺
“標準化是我們在算法生產流程中的核心優勢,這也是算法生產平臺AIS為大家提供的能力。”曠視研究院算法量產負責人周而進說。目前,AIS平臺已經能夠支持100多種業務模型訓練,最快2小時即可完成,而且模型產出精度指標遠高于業界平均水平。經驗證,算法研發人員使用Brain++和AIS平臺,可以實現智能標注平均加速30倍,自動學習訓練加速4至20倍。
其實,曠視在2020年發布Brain++時,就將其中最核心組件深度學習框架天元(MegEngine)開源,讓更多企業與開發者實現更簡單的開發。
“我們希望去降低算法生產的門檻,從而鼓勵更多的行業技術人員參與到算法生產的過程中,打通各行各業的Know-how,一起去建設一個開放的算法生產生態。”周而進說。
03
算法如何定義硬件
硬件在AI落地上扮演著非常重要的角色。
“在每個AI真正能夠規模化落地的場景里面,我們需要找到一個特別的硬件載體,一個非常好的IoT設備。在這樣的載體當中,才可以真正讓AI發揮巨大作用。”印奇說。
也正是基于此判斷,曠視在硬件道路上的探索比較堅持。作為AI算法起家的公司,曠視沒有硬件工程的天然基因。其實,不僅是曠視科技,像百度這些主打AI的公司,都在強調軟硬一體的戰略,加強對硬件的重視。行業普遍意識到,AI算法不是空中樓閣,需要生長在硬件設備上。
所以,我們也看到,像海康威視、大華這些傳統的硬件廠商已提出AIoT的戰略。對于這些企業而言,他們有著足夠大的硬件出貨量,給AI提供了天然的應用場景。
但是,以前都是先有硬件,然后將AI算法的能力導入。這一點有點類似于早年的電動車,基本是燃油車改裝,把油箱和發動機換成了電池和電機,無論是駕駛體驗還是整體性能,與現在的電動車相差甚遠。
現在,AI算法反過來在影響硬件的形態和生態。
“算法對傳感器到底需要提供什么樣的信息和輸入,提出了要求,甚至本質性地改造了傳感器的形態和樣式。”曠視研究院計算攝影負責人范浩強說,曠視在今年提出了“算法定義硬件”的理念,AI傳感器是這個理念的核心單元。
比如,以前要拍出一張高清照片,不僅需要專業設備,還得選個好天氣。現在智能手機的發展讓夜間拍照也變得非常清晰自然。而背后其實就有AI算法的功勞,也就是說每一次按下快門,其實都是經過了大量的運算。

曠視2022年技術開放日DEMO:探囊取物
但要實現AI的能力,需要根據算法對鏡頭的防抖、對焦以及光線傳感等組件進行定制,才能實現影像能力的提升。這就是AI對硬件的反向輸出。
再比如,大家每天使用的手機指紋識別,以前用的是電容屏,其原理是讓指紋形成不同的電容值。而這幾年為了追求更高的屏占比,開始用屏下光學指紋,相當于給指紋拍個照,難度明顯更大。
但AI算法在快速推動屏幕指紋技術的演進。以前的屏幕指紋,需要一個非常完整的圖像,而最新的AI指紋識別技術,甚至只需要兩根脊線就可以完成對身份的確認。“這就是當我們打通了傳感器、算法以及整個成像技術之后,能夠給大家帶來的奇跡。”范浩強說。
而從應用到算法到傳感器的全鏈路整合能力,被認為是曠視算法定義硬件的核心。
曠視是業界極少數能將傳感器的光學、模組、電子學的設計能力,傳感器的物理建模和算法能力,以及傳感器的應用能力融為一體的公司。“曠視非常有幸能夠成為其中一員,這也是我們進一步參與AI定義傳感器這件事情的最大信心和底氣。”范浩強說。
而通過技術開放日,我們看到了一個AI公司相對完整的演進路徑:既要有基礎科研保證技術和算法模型的先進性,也要能讓算法量產變成產品,反向定義硬件,最終讓人工智能發揮出它的商業和社會價值。
原文標題 : 曠視技術開放日,拋出了三個論斷
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 4 Tesla AI5芯片最新進展總結
- 5 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 6 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 8 2026,人形機器人只贏了面子
- 9 DeepSeek降價90%:價格屠夫不是身份,是戰略
- 10 AI Infra產業鏈卡在哪里了?


分享













