近日,谷歌宣布推出兩款全新的機器人模型 —— Gemini Robotics 1.5 和 Gemini Robotics-ER 1.5,在機器人智能化和通用性上實現了重要突破。
兩款模型將通過先進的思維來解鎖智能體驗:
Gemini Robotics 1.5 – 視覺-語言-動作 (VLA) 模型能夠將視覺信息和指令轉化為機器人執行任務的運動指令。該模型在采取行動之前會進行思考,并展示其執行過程,幫助機器人更清晰地評估和完成復雜任務。它還能遷移學習,加速技能學習。
Gemini Robotics-ER 1.5 – 視覺語言模型 (VLM) 能夠推理物理世界,原生調用數字工具,并創建詳細的多步驟計劃來完成任務。該模型目前在空間理解基準測試中達到了最佳性能。
為物理任務解鎖 Agent 新體驗
如今,大多數日常任務都需要上下文信息和多個步驟才能完成,這對于當今的機器人來說極具挑戰性。
今年早些時候,谷歌已將 Gemini 的多模態理解能力應用到機器人領域,推動機器人能感知、思考、計劃和執行復雜任務。此次發布的新模型進一步提升了這一能力。
Gemini Robotics-ER 1.5 能夠像高級大腦一樣協調機器人的活動。該模型擅長在物理環境中進行規劃和做出邏輯決策。它擁有先進的空間理解能力,能夠以自然語言進行交互,預估機器人的成功率和進度,并且能夠原生調用 Google 搜索等工具來查找信息或使用任何第三方用戶定義的函數。
除此之外,Gemini Robotics-ER 1.5 會為每個步驟提供自然語言指令,然后由 Gemini Robotics 1.5 利用其視覺和語言理解能力直接執行具體操作。它還能幫助機器人思考其動作,從而更好地解決語義復雜的任務,甚至可以用自然語言解釋其思考過程,使其決策更加透明。
Gemini Robotics 1.5 和 Gemini Robotics-ER 1.5 均基于核心 Gemini 模型系列構建,并已使用不同的數據集進行微調,以專注于各自的任務。結合使用時,它們可以提升機器人泛化能力,使其能夠處理更長的任務和更多樣化的環境。
學術測試中達到最佳性能
團隊對 Gemini Robotics-ER 1.5 在包括具身推理問答 (ERQA) 和 Point-Bench 在內的 15 個學術基準進行了評估,衡量該模型在指點、圖像問答和視頻問答方面的表現。
評估結果顯示,Gemini Robotics-ER 1.5在 15 個學術體現推理基準測試中取得了最高的綜合性能,超過 ChatGPT-5、ChatGPT-5-mini。
Gemini Robotics-ER 1.5 展示了包括物體檢測和狀態估計、分割掩碼、指向、軌跡預測和任務進度估計和成功檢測。
學習能力優越
Gemini Robotics 1.5 不僅可以簡單地翻譯指令或計劃,現在還可以在采取行動之前進行思考。這意味著它可以生成自然語言的內部推理和分析序列,以執行需要多個步驟或更深入的語義理解的任務。
在這個多層次的思考過程中,視覺-語言-動作模型可以決定將較長的任務轉換為機器人能夠成功執行的更簡單的短片段。它還能幫助模型泛化以解決新任務,并使其對環境變化更具魯棒性。
Gemini Robotics 1.5 還展現出卓越的遷移學習能力。它能夠將從一個機器人學到的動作遷移到另一個機器人,而無需針對每個新實例專門定制模型。這一突破加速了新行為的學習,幫助機器人變得更加智能、更加實用。
通過引入代理功能,Gemini Robotics 1.5 超越了僅響應命令的模型,創建了真正能夠推理、規劃、主動使用工具并進行泛化的系統。
谷歌將通過 Google AI Studio 中的 Gemini API 向開發者提供 Gemini Robotics-ER 1.5。更多有關使用下一代物理代理進行構建的信息,請訪問開發者博客:
https://developers.googleblog.com/en/building-the-next-generation-of-physical-agents-with-gemini-robotics-er-15/
參考資料:https://deepmind.google/discover/blog/gemini-robotics-15-brings-ai-agents-into-the-physical-world/