12 月 9 日,智譜 AI 開源其核心 AI Agent 模型 AutoGLM,能夠“看懂”手機屏幕、模擬真人進行點擊、滑動和輸入操作。
此時距離字節跳動“豆包手機”引爆市場僅過去一周,那款能跨應用自動執行任務的工程樣機曾遭遇到微信、淘寶等應用的登錄限制。
如今隨著AutoGLM的全面開源,硬件廠商、手機廠商和普通開發者都可以基于該模型打造自己的AI手機助手。
從“對話響應”到“自主操作”,智譜AutoGLM展示了一個AI真正理解并使用手機的未來。
技術突破
這個被視為全球首個具備Phone Use能力的 AI Agent,能夠穩定完成外賣點單、機票預訂等長達數十步的復雜操作流程。它已經支持微信、淘寶、抖音、美團等超過 50 個高頻中文應用的核心場景。
技術實現上,AutoGLM走了一條與眾不同的路徑。不同于傳統腳本依賴易被封禁的無障礙服務,它底層調用了ADB指令,結合視覺大模型AutoGLM-Phone-9B。
其運行邏輯是看屏幕截圖 → 大模型分析 → 模擬手指點擊,這種基于視覺的“類人操作”讓 App 廠商通過簡單的代碼檢測進行防御變得極其困難。
據其他媒體報道,在下達點單指令后,AutoGLM 可自主完成打開App、搜索店鋪、篩選商品、關閉廣告彈窗等操作,全程耗時約一分半鐘。
智譜自 2023 年 4 月開始投入 Phone Use 方向,到 2025 年 8 月發布的 AutoGLM2.0 已經可以完成類似豆包手機展示的功能。該項目負責人劉瀟表示,團隊建立了一整套 Phone Use 能力框架,將點擊、滑動、輸入、界面理解抽象化
生態重塑
智譜在此時選擇開源,正值豆包與互聯網大廠之間的對峙白熱化。
就在一周前,字節跳動的“豆包手機”工程樣機憑借其系統級權限和跨應用自動化能力,讓市場首次直觀感受到 AI Agent 手機的顛覆性潛力。
然而這種能力迅速觸碰了互聯網行業的逆鱗。微信、淘寶及多家銀行App隨即啟動防御機制,用戶反饋當豆包助手嘗試接管這些應用時,會出現異常退出、風險提示甚至封號的情況。
業內分析認為,這種能繞過App直接完成任務、讓服務直達用戶的AI助手,會直接沖擊互聯網大廠基于用戶停留和廣告變現的商業模式。
智譜的開源策略,則為這場僵局提供了另一種可能性。“這件事只在一家公司做,是不夠的。” 智譜在官方通稿中明確表示,AutoGLM開源的初衷是把這一層能力變成整個行業可以共同擁有、共同打磨的公共底座。技術架構方面,豆包手機依賴 Android 系統權限,AutoGLM 則采用視覺大模型+ADB 指令的開源框架。并且,AutoGLM 為開放生態,賦能全行業開發者。
根據北京計算機學會AI專委會秘書長張有魚判斷,未來的AI手機市場不會只有一個豆包。手機巨頭們將擁有自研助手,二三線品牌和新興設備商采用 AutoGLM 等開源方案快速跟進,形成多層次、多形態的競爭局面。
這次開源帶來的最大變化,是技術門檻的大幅降低。硬件廠商、手機廠商和開發者均可基于 AutoGLM,在自己的設備或系統中復現一個能“看懂”屏幕、并模擬真人進行點擊、輸入、滑動的 AI 助手。
尤其值得注意的是,AutoGLM 支持本地與云端雙重部署模式,確保數據與隱私控制權掌握在使用者手中。
開源框架 Open-AutoGLM 還可提前預判,嵌入敏感操作分級確認機制。常規操作 AI 可自主執行,支付、轉賬等敏感操作需用戶確認方可進行。
除了手機領域,AutoGLM 還可能推動其他硬件設備的進化。以前的穿戴式設備受制于交互方式的限制,幾乎難以替代手機的任何功能,而現在通過 AutoGLM,絕大多數簡單的任務都能輕松完成
參考資料:
https://www.cls.cn/detail/2225027
https://stcn.com/article/detail/3531053.html
https://awtmt.com/articles/3760976
https://app.dahecube.com/nweb/wap/article.html?artid=255755?chname=%e6%8e%a8%e8%8d%90?qtype=0