欧美三级在线观看视频不卡,青柠电影网,国产言情视频日韩AV成年电影网,国产顶级美女黄色一级aa视频播放

推理過程效率太低？Meta 給出解決方案！

2025-11-17 15:38

在復雜推理任務中，大型語言模型（LLM）往往陷入低效的“重復勞動”。比如，它在分數加法里會一遍遍解釋通分過程，在解二次方程時重復判別條件，在單位換算里不斷拼寫轉換公式。

這樣的冗余步驟不僅拖慢速度、消耗大量算力，還推高了使用成本。

Meta 近日的一篇論文就指出，LLM 通常會在問題中重新推導相同的中間步驟，從而增加 toekns 使用量，導致推理過程效率低。

針對這一問題，研究團隊提出了一種“行為壓縮”的新方法，將常見的推理套路打包成可調用的“命名行為”。模型在需要時只需調用這些經過驗證的行為，而不必從頭展開推導。這樣一來，既能顯著減少輸出標記、節省計算資源，也能提高結果穩定性和準確性。

研究人員表示，這一機制未來可能讓大模型在多種實際場景中變得更高效。企業能以更低成本部署智能客服或搜索引擎，科研人員能在數學推理或代碼生成中獲得更快的響應，而教育應用中的 AI 教師也能減少啰嗦解釋，提供更精準的答案。

隨著“行為條件微調”技術的引入，這些壓縮后的行為甚至可以被模型內化，在沒有外部檢索的情況下，依舊能夠穩定調用，進一步提升模型的推理能力和可靠性。

“三步”推理框架

推理型 LLM 會發出一條長長的思路鏈（CoT）——推理軌跡。

研究團隊將大型語言模型劃分為三個互補的角色：一是“策略師”（LLM A），負責從自身推理軌跡中提煉可復用的行為；二是“教師”（LLM B），用于生成監督微調（SFT）所需的訓練數據；三是“學生”（LLM C），其推理過程則在“行為條件推理”或“行為條件 SFT”的支持下得到優化。

在具體流程上，策略師扮演著核心角色針對給定問題生成包含完整推理鏈與最終答案的解決方案；隨后，研究者將問題與解決方案再次輸入策略師，以觸發“反思”環節。這一反思過程不僅檢驗推理邏輯與答案正確性，還嘗試歸納是否能夠提煉出新的、可重復使用的行為模式。最后，策略師會將問題、解決方案與反思轉化為一組具有“名稱”和“指令”的行為條目，并不斷擴展至行為手冊中。