今天,谷歌開發者關系負責人、Google AI Studio 負責人在社交媒體上發布了一條僅含“Gemini”一詞的推文,引爆話題。
就在昨日,馬斯克剛剛宣布 Grok 4.1 的發布。Gemini 3 的發布,多少有點正面叫板的意味。
Sam Altman 還在社交平臺上祝賀 Gemini 3 的發布。網友評論道,“為什么沒有祝賀馬斯克的 Grok 4.1?我聞到了一股怨氣。”
先拋開爭端不談,這次 Gemini 3 來勢洶洶,官方宣稱“可以將任何想法變為現實”。新模型旨在捕捉深層含義和細微差別,無論是洞察創意中的微妙線索,還是層層剖析難題。
Gemini 3 也更擅長理解請求背后的語境和意圖,無需過多提示就能獲得所需信息。
深度推理
在所有主要 AI 基準測試中,Gemini 3 的推理和多模態能力都優于 2.5 Pro。
文本推理方面,它以 1501 Elo 分數登上 LMArena 排行榜榜首。在“人類最后的考試”中不使用任何工具的情況下獲得了 37.5% 的成績。在 GPQA Diamond 測試中也取得了 91.9% 的成績。此外,它還在 MathArena Apex 測試中取得了 23.4% 的全新最高分,展現了博士級別的推理能力。
除文本推理,Gemini 3 Pro 在 MMMU-Pro 測試中取得了 81% 的正確率,在 Video-MMMU 測試中取得了 87.6% 的正確率,重新定義了多模態推理能力。
它在 SimpleQA Verified 測試中也獲得了 72.1% 的領先成績,展現了在事實準確性方面的顯著進步。這意味著 Gemini 3 Pro 能夠以高度的可靠性解決涵蓋科學和數學等眾多領域的復雜問題。
Gemini 3 Pro 每一次回復都呈現出智能、簡潔、直接的互動,摒棄了陳詞濫調和奉承,提供了一些真正深刻的見解。
它還可以編寫代碼來可視化托卡馬克中的等離子體流動,并創作一首詩來捕捉聚變的物理原理。
在 Humanity's Last Exam 中,Gemini 3 深度思考模型在不使用工具的情況下得分 41.0%。 在GPQA Diamond 中得分 **93.8%**,表現均優于 Gemini 3 Pro。此外,它在 ARC-AGI-2 上也取得了前所未有的 45.1% 的得分。
學習、構建和規劃的助手
學習知識
Gemini 3 結合了推理、視覺和空間理解能力、領先的多語言性能以及百萬級上下文窗口,進一步拓展了多模態推理的邊界。
如果想學習如何烹飪,Gemini 3 可以解讀并翻譯不同語言的手寫食譜并生成食譜。它還可以為學術論文、長篇視頻講座或教程生成交互式記憶卡片、可視化或其他格式的代碼。甚至可以分析匹克球比賽視頻,找出改進的地方,并制定訓練計劃,幫助用戶全面提升球技。
建構和編碼
官方表示,Gemini 3 是迄今為止構建最佳的 Vibe 編碼和代理編碼模型。它在 WebDev Arena 排行榜上名列榜首,獲得了 1487 Elo 分數。此外,它在 Terminal-Bench 2.0 測試中也取得了 54.2% 的成績,該測試旨在評估模型通過終端操作計算機的工具使用能力。同時,它在編碼能力測試 SWE-bench Verified 中也大幅超越了 2.5 Pro 版本。
規劃
與其他前沿模型相比,Gemini 3 Pro 展現出更好的長期規劃能力,能夠產生更高的回報。
通過將更深入的推理與更完善、更一致的工具使用相結合,Gemini 3 可以從頭到尾處理更復雜的多步驟工作流程——例如預訂本地服務或整理收件箱。
結語
Gemini 3 是迄今為止所有 Google AI 模型中安全評估最為全面的模型。該模型表現出更低的討好傾向、更強的抵御提示注入的能力以及更強大的抵御網絡攻擊濫用的能力。
目前,Gemini 3 已登陸 Gemini 應用 、 AI Studio 和 Vertex AI 的開發者平臺,以及 Google 的全新智能體開發平臺 Google Antigravity。
參考資料:
https://blog.google/products/gemini/gemini-3/#gemini-3