昨晚,AI 教母、斯坦福大學教授李飛飛發表了一篇長篇博客——“From Words to Worlds: Spatial Intelligence is AI’s Next Frontier”。
李飛飛在社交平臺上寫道,人工智能的下一個前沿領域是空間智能,這項技術將把視覺轉化為推理,感知轉化為行動,想象轉化為創造。
但它究竟是什么?它為何如此重要?我們如何構建它?以及我們該如何利用它?
在這篇新文章中,李飛飛闡述了真正具有空間智能的世界模型必須實現的三項基本能力:
能像講故事的人一樣進行創作
像急救人員一樣流暢地進行導航
以科學的精確性進行空間推理
李飛飛表示,
“
空間智能將徹底改變我們創造和與現實世界及虛擬世界互動的方式——革新故事講述、創造力、機器人技術、科學發現以及更多領域。
空間智能:人類認知的基礎
諸如 LLM 之類的生成式人工智能模型已經從研究實驗室走向日常生活,成為數十億人創造力、生產力和溝通的工具。然而,它們能言善辯卻缺乏經驗,知識淵博卻缺乏實際經驗。
自主機器人仍停留在推測階段,距離未來學家們長期以來所承諾的日常生活必需品還相去甚遠。
李飛飛表示,要讓人工智能擁有這些能力,需要研究空間智能是如何演變的,以及它如何塑造我們對世界的理解。
空間智能在定義人類與物理世界的互動方式中扮演著至關重要的角色。我們每天都依賴它來完成最普通的行為,所有這一切都是憑直覺、自動完成的——這是機器至今仍無法企及的流暢性。
空間智能也是想象力和創造力的基石。在許多行業應用中,物體、場景和動態交互環境的模擬為無數關鍵業務用例提供了支持,涵蓋工業設計、數字孿生和機器人訓練等領域。
空間智能是人類認知能力的基石。它驅動著我們的推理和規劃,通過感官感知復雜的世界,然后運用直覺理解其在物理和空間層面的運作方式。
遺憾的是,人工智能目前并不具備空間智能的思維方式。
雖然在過去幾年,多模態邏輯模型(MLLM)使用海量的多媒體數據進行訓練,從而引入了一些空間感知的基本概念。但是人工智能的空間能力遠未達到人類水平。
最先進的多層線性模型在估計距離、方向和大小方面,或者通過從新角度重新生成物體來“心理”旋轉物體方面,很少能比隨機猜測表現得更好。它們無法在迷宮中導航,無法識別捷徑,也無法預測基本的物理現象。人工智能生成的視頻通常在幾秒鐘后就會失去連貫性。
構建真正具有空間智能的機器
構建空間智能人工智能需要比邏輯邏輯模型(LLM)更宏大的方案:世界模型。世界模型是一種新型生成模型,其理解、推理、生成和交互語義、物理、幾何和動態上復雜的世界的能力,遠遠超出了當今邏輯邏輯模型的范疇。
李飛飛通過三種基本能力來定義世界模型:
生成式:世界模型可以生成在感知、幾何和物理上都保持一致的世界。能夠解鎖空間理解和推理的世界模型,也必須能夠生成自身的模擬世界。
多模態:世界模型從設計上就是多模態的。世界模型應該能夠處理各種形式的輸入,無論是圖像、視頻、深度圖、文本指令、手勢還是動作—,世界模型都應該盡可能完整地預測或生成世界狀態 。
交互式:世界模型可以根據輸入動作輸出下一個狀態。當僅輸入行動(無論是否包含目標狀態)時,世界模型應生成與世界先前狀態、預期目標狀態(如有)及其語義含義、物理定律和動態行為相一致的輸出。
要構建出能夠提供人類所擁有的普適能力的宇宙模型,需要克服諸多巨大的技術障礙。目前李飛飛的實驗室 World Labs 正在朝著這個目標前進,以下是 World Labs 的一些研究課題示例:
一種新的通用訓練任務函數:這個目標函數及其相應的表示必須反映幾何和物理定律,尊重世界模型作為想象和現實的具象化表征的本質。
大規模訓練數據:訓練世界模型所需的數據遠比文本整理復雜得多。互聯網規模的圖像和視頻集合提供了豐富且易于獲取的訓練素材。但未來的發展取決于更先進的傳感器系統、更穩健的信號提取算法以及更強大的神經模擬方法。
新的模型架構和表征學習:世界模型研究必將推動模型架構和學習算法的進步,尤其是在當前多層線性模型學習(MLLM)和視頻擴散范式之外。
李飛飛指出,Marble 只是 World Labs 構建真正具有空間智能的世界模型的第一步。下一代世界模型將使機器的空間智能提升到一個全新的水平。
參考資料:
https://a16z.substack.com/p/from-words-to-worlds-spatial-intelligence?utm_source=substack&utm_medium=email&utm_content=share