在復雜推理任務中,大型語言模型(LLM)往往陷入低效的“重復勞動”。比如,它在分數加法里會一遍遍解釋通分過程,在解二次方程時重復判別條件,在單位換算里不斷拼寫轉換公式。
這樣的冗余步驟不僅拖慢速度、消耗大量算力,還推高了使用成本。
Meta 近日的一篇論文就指出,LLM 通常會在問題中重新推導相同的中間步驟,從而增加 toekns 使用量,導致推理過程效率低。
針對這一問題,研究團隊提出了一種“行為壓縮”的新方法,將常見的推理套路打包成可調用的“命名行為”。模型在需要時只需調用這些經過驗證的行為,而不必從頭展開推導。這樣一來,既能顯著減少輸出標記、節省計算資源,也能提高結果穩定性和準確性。
研究人員表示,這一機制未來可能讓大模型在多種實際場景中變得更高效。企業能以更低成本部署智能客服或搜索引擎,科研人員能在數學推理或代碼生成中獲得更快的響應,而教育應用中的 AI 教師也能減少啰嗦解釋,提供更精準的答案。
隨著“行為條件微調”技術的引入,這些壓縮后的行為甚至可以被模型內化,在沒有外部檢索的情況下,依舊能夠穩定調用,進一步提升模型的推理能力和可靠性。
“三步”推理框架
推理型 LLM 會發出一條長長的思路鏈(CoT)——推理軌跡。
研究團隊將大型語言模型劃分為三個互補的角色:一是“策略師”(LLM A),負責從自身推理軌跡中提煉可復用的行為;二是“教師”(LLM B),用于生成監督微調(SFT)所需的訓練數據;三是“學生”(LLM C),其推理過程則在“行為條件推理”或“行為條件 SFT”的支持下得到優化。
在具體流程上,策略師扮演著核心角色針對給定問題生成包含完整推理鏈與最終答案的解決方案;隨后,研究者將問題與解決方案再次輸入策略師,以觸發“反思”環節。這一反思過程不僅檢驗推理邏輯與答案正確性,還嘗試歸納是否能夠提煉出新的、可重復使用的行為模式。最后,策略師會將問題、解決方案與反思轉化為一組具有“名稱”和“指令”的行為條目,并不斷擴展至行為手冊中。
行為引導推理
條件推理
給定一個問題 Q,該方法首先從行為手冊中檢索相關行為 B。然后將這些行為、其對應的指令以及問題輸入 LLM,從而生成解決方案。
自我完善
模型會根據特定問題的推理軌跡,將行為反饋到情境中,作為解決相同問題或新問題的教訓或提示。
監督微調
通過基于腦機接口生成的數據對給定模型進行微調,將行為內化,這個過程稱之為行為條件監督微調 (BC-SFT)。具體流程如下:
策略師提取每個問題的行為,然后由教師使用 BCI 為每個問題生成行為條件響應。
學生模型根據結果(問題、行為條件反應)對進行微調。
推理結果
與原始模型相比,在推理過程中,BCI 方法在使用更少的 token 的情況下實現了相似甚至更高的準確率。除此之外,性能仍然會隨著 token 預算的增加而增長,因此所提出的方法不會以不必要的方式影響模型的現有功能。
生成長度的減少有可能大幅降低推理成本,兩個關鍵因素減輕了開銷。首先,行為的輸入表示可以預先計算并在不同的查詢中重復使用,從而將成本攤銷到多個推理上。其次,輸入端不需要自回歸生成,這使得處理 token 的速度更快。
實驗結果還表明,與原始模型相比,BC-SFT 模型不僅 token 效率更高,而且在將非推理模型(如 Qwen2.514B-Base 和 Qwen2.5-32B-Instruct)轉換為推理模型方面更有效。
局限和擴展方向
Meta 的這項工作引入了一種機制,讓大語言模型可以利用其元認知能力,將自身循環的推理模式提煉為簡潔的行為。
模型無需重新推導相同的中間結果,而是只需調用相關行為并將其用于新的推理。
然而,這項工作仍然存在一些局限性。在腦機接口 (BCI)領域,行為是根據問題本身檢索的,列表固定后無法將新的行為添加到上下文中。
該框架是否可以擴展到以下方面還有待觀察:
建立一個涵蓋多種行為的庫;
重寫大量語料庫,以更大規模執行 SFT,以改進較小的模型,并自我改進用于策劃行為和重寫響應的模型。
總而言之,將緩慢的思維鏈轉化為快速、可重復使用的行為,使得 LLM 能夠進行高效且可擴展的推理,這意味著 LLM 不僅能夠學會解決問題,還能記住如何解決問題。
參考資料:https://arxiv.org/pdf/2509.13237