深度丨Anthropic和OpenAI把Harness帶出圈,AI管AI成為現實
前言:
從Prompt Engineering到Harness Engineering,AI行業正在完成一次關鍵的成年禮。
通過Harness,AI從一個需要人類時刻看管的工具,變成了一個可以自主完成復雜任務、自我管控、自我優化的數字主體。
一個詞撬動一條賽道
2026年3月,AI行業里最熱的詞不是任何一個模型的名字,而是一個聽起來跟AI毫無關系的英文單詞:Harness。
它的本義是[馬具],韁繩、籠頭、鞍具,那一整套套在馬身上的東西。
這個詞正在成為AI Agent時代最核心的產業概念,圍繞它正在生長出一個萬億美金規模的基礎設施層。
很多人將Harness理解為新的大模型或算法框架,但事實恰恰相反,Harness不觸碰大模型本身的參數與訓練邏輯。
它是一套環繞在大模型周圍的完整控制與編排系統,是為AI智能體搭建的工程化[腳手架]與[安全帶]。
用更直白的話來說,Harness就是Agent的運行容器+安全邊界+調度控制器。
是包裹在Agent之外,讓它從一匹橫沖直撞的野馬,變成一匹能穩定輸出的賽馬的全套馬具。
大模型就像是一個天賦極高但缺乏規則意識的天才實習生,他擁有極強的執行能力,但很容易在復雜任務中偏離方向、擅自決策,甚至出現自己都無法察覺的錯誤。
而Harness就為這個實習生搭建的完整管理體系:明確的崗位職責、標準化的工作流程、獨立的驗收機制、持續的優化閉環。
讓天才的能力被完整釋放,同時始終在可控的邊界內運行。
它是一整套圍繞Agent運行的工程系統,包含三層結構。
①Agent Harness(執行層):模型+工具調用+任務拆解,負責[做事]。
②Evaluation Harness(評估層):自動測試、評分、結果比對,核心是[判斷做得對不對]。
③Control Harness(控制層):權限控制、環境隔離、行為約束,決定[能不能做、做到什么程度]。
Anthropic官方給出了行業內最具代表性的定義:Harness是支撐復雜AI智能體運行的外部框架、控制結構與編排系統。
用于解決AI在完成復雜、長周期任務時的[失控]問題,通過外部控制機制彌補模型內在的能力缺陷。
Anthropic的Harness實踐核心是經典的三智能體分離架構,將完整的復雜任務拆解給三個承擔不同職責的獨立AI智能體。
①規劃者(Planner)負責將用戶的簡單需求,擴展為完整的產品規格與執行計劃,聚焦高層設計與任務邊界。
②生成者(Generator)負責按照拆分后的沖刺節點,逐個實現功能模塊,完成具體的執行工作。
③評估者(Evaluator)則承擔獨立的驗收職責,像真實用戶一樣操作生成的內容,對照提前約定的標準進行逐項測試與打分,不達標的內容直接退回返工。
這套架構最核心的創新,打破了[單一AI既當運動員又當裁判員]的死局。
將生成與評估的職責拆分給兩個獨立智能體之后,任務驗收的準確率直接提升到了94%,最終交付的成果質量出現了量級式的跨越。
OpenAI的Harness實踐,則走了另一條以[可理解性]為核心的工程化路線。
其內部團隊在5個月內,通過Harness架構實現了[零人工手動代碼]的突破。
讓AI智能體自主完成了一個超過百萬行代碼的內部產品開發,平均每天完成3.5個生產級PR,全程僅由人類工程師進行方向把控。
Anthropic的三智能體對抗架構和OpenAI的全流程工程化體系,它們的核心邏輯都高度一致。
不糾結于大模型本身的能力提升,而是通過外部的工程化框架,讓AI形成[規劃-執行-評估-反饋-優化]的完整閉環,用AI來管控、約束、優化AI。
讓兩大死對頭形成默契的原因
AI對齊與安全是OpenAI與Anthropic從成立之初的核心命題,也是兩家公司所有技術路線的底層出發點。
但隨著模型能力的持續迭代,它們各自堅持的傳統解決方案,都已經走到了瓶頸期。
OpenAI的核心對齊方案是行業通用的RLHF(人類反饋強化學習),通過人類標注員對AI的輸出進行打分排序,訓練獎勵模型,讓AI學會生成符合人類價值觀的內容。
但這套方案在模型能力持續提升的過程中,已經出現了無法解決的根本性缺陷。
最核心的問題在于人類標注員的能力上限,已經跟不上AI模型的能力進化速度。
就像一個小學生,根本沒有能力去評判一個博士生的畢業論文質量。
這種[能力倒掛],讓RLHF的效果出現了明顯的邊際遞減,甚至可能讓AI學到錯誤的對齊邏輯。
為了保證無害性,徹底犧牲了實用價值,這對于主打企業級服務的OpenAI來說,是無法接受的商業短板。
而Anthropic核心的憲法式AI(Constitutional AI)技術,用[AI反饋強化學習]替代了部分人類反饋,給AI一套明確的[憲法]原則,讓AI自己依據這套原則,進行自我批評、自我修正。
這套方案讓Anthropic在模型安全與對齊上,形成了自己的核心優勢,但同樣沒能突破根本的瓶頸。
憲法式AI的核心局限在于它依然是[單一模型的自我監督],無法擺脫自我評價的天然偏差。
就像一個人很難客觀地看到自己的缺點,AI也同樣很難發現自己輸出內容中的隱藏風險與邏輯漏洞。
同時,隨著模型承擔的任務越來越復雜,單一模型的自我管控很容易在多輪執行中出現偏差累積,最終徹底偏離任務目標,也就是行業內常說的[脫軌]。
OpenAI與Anthropic的企業客戶調研數據,都指向了同一個痛點:超過70%的企業客戶,在部署AI智能體時,最擔心的問題不是AI不夠聰明,而是AI會在執行過程中做出無法預判的操作。
比如刪除重要文件、執行惡意代碼、泄露敏感數據,或是在無人干預的情況下,擅自做出超出權限的決策。
而Harness架構恰恰給這些所有的痛點,提供了一套完整的解決方案。
它跳出了[人類管AI]的傳統思路,轉向了[AI管AI]的全新范式。
在Harness的架構中,人類不再需要事無巨細地監督AI的每一步操作。
只需要設定好規則、邊界與目標,剩下的監督、校驗、修正、優化工作,都由不同職責的AI智能體相互配合完成。
AI的治理能力,終于可以和模型的執行能力同步進化,不再受限于人類的能力上限。
同時,Harness通過嚴格的架構約束、權限管控、沙箱運行機制,給AI的所有操作都加上了[安全帶],解決了企業客戶最擔心的不可預測性問題。
AI的所有操作都在Harness設定的邊界內運行,所有行為都有跡可循、可審計、可回溯,一旦出現違規操作,會立刻被評估智能體攔截并修正。
兩家在模型能力的競賽中打得不可開交,但在AI管控與治理這個核心命題上,遇到了同樣的瓶頸,也找到了同樣的解決方案。
兩家頭部企業的集體站臺,讓行業終于看清了Harness的核心價值。
集體擁抱Harness背后的產業邏輯
過去三年,從參數規模的比拼,到推理能力的迭代,從多模態能力的升級,到上下文窗口的拉長,所有人都在追求[更聰明的大模型]。
但到了2026年,行業的共識已經發生了根本性的變化:主流大模型的復雜推理能力差距正在逐步縮小,國內開源模型和海外閉源模型的能力鴻溝,也在快速填平。
騰訊集團高級執行副總裁湯道生,在今年騰訊云峰會上明確提出了這個判斷:[AI落地不只是一道算法題,更是一道工程題。在同樣的模型能力下,不同的Harness設計,都將影響AI落地的實際效果。]
這句話道破了當下AI行業的核心命題,當模型能力不再是稀缺資源,工程化能力,就成了企業AI落地的核心競爭力。
而Harness正是這套工程化能力的核心載體,其價值已經得到了實打實的工程驗證。
LangChain的Deep Agents團隊,在固定使用GPT-5.2-Codex模型的前提下,通過優化Harness設計,就把coding agent在Terminal Bench 2.0上的得分,從52.8%提升到了66.5%,排名從行業Top30附近,直接躍升至Top5。
這意味著,Harness Engineering把過去[調試模型]的工作,轉化成了[調整系統]的工作。
不需要改動模型的架構和參數,就能持續放大模型已有的能力,這對于絕大多數企業來說,無疑是一條性價比更高、落地性更強的AI落地路徑。
這也是為什么,國內的頭部廠商,都已經把Harness Engineering,當成了自己AI戰略的核心抓手。
火山引擎總裁譚待則表示,字節推出的[字節版龍蝦]Arkclaw,已經全面應用了Harness架構,核心思路就是把最好的框架進行服務化和產品化,讓框架和模型協同進化。
結尾:
很多人把Harness窄化為一種AI工程落地的技巧,但它真正代表的,是AI世界正在建立一套全新的秩序。
AI從單點能力進化為完整的工程系統,真正實現了全生命周期的可管理、可治理。
它不是單模型無限迭代的、更強的算力時代,而是多智能體協同可控的、更穩定的系統時代。
部分資料參考:APPSO:《Token 剛定了中文名,AI 圈又多了個翻譯不了的詞》,字母榜:《一曲新詞酒一杯,喝到Harness我就醉》,機器之心:《Context還不夠,Harness才是Agent工程優化的正解?》,騰訊研究院:《騰訊湯道生:AI落地不只是算法題,Harness工程能力是關鍵變量》
原文標題 : 深度丨Anthropic和OpenAI把Harness帶出圈,AI管AI成為現實
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 特斯拉Optimus Gen3量產在即,哪些環節最具確定性?
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 4 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 5 Tesla AI5芯片最新進展總結
- 6 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 7 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 8 2026,人形機器人只贏了面子
- 9 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 10 AI Infra產業鏈卡在哪里了?


分享













