大型語言模型 (LLM) 對所有詞元應用統一的計算,這種詞元統一的計算方式會將計算資源浪費在局部可預測的跨度上,而對語義關鍵轉換的計算資源分配不足。
字節跳動 Seed 團隊提出了動態大型概念模型 (DLCM),這是一個分層語言建模框架,它從潛在表示中學習語義邊界,并將計算從詞元轉移到更高效的推理壓縮概念空間。
DLCM 可以端到端地發現可變長度的概念,而無需依賴預定義的語言單元。分層壓縮從根本上改變了模型的擴展行為。
團隊引入了第一個壓縮感知擴展定律,該定律解耦了 token 級容量、概念級推理容量和壓縮比,從而在固定的 FLOPs 下實現合理的計算資源分配。
為了穩定地訓練這種異構架構,Seed 進一步開發了一種解耦的 μP 參數化方法,該方法支持跨寬度和壓縮機制的零樣本超參數遷移,能將大約三分之一的推理計算重新分配到容量更高的推理主干中。
在匹配的推理 FLOPs 下,在 12 個零樣本基準測試中實現了平均 +2.69% 的改進。
DCLM 架構
DLCM 通過四個階段處理詞元序列:
編碼提取細粒度的詞元表示;
動態分割識別語義邊界并將詞元歸納為概念;
概念級推理對壓縮序列進行深度計算;
token 級解碼通過關注推理后的概念來重構預測結果。
研究人員有意將離散分割決策與語言建模損失解耦,以避免優化過程中的干擾。這種設計犧牲了完全端到端的離散性,換取了訓練穩定性和可控的壓縮,這在大規模應用中至關重要。
解碼器通過關注推理出的概念來重構 token 級別的預測。這包含兩個組成部分:概念平滑和因果交叉注意力。
團隊實施獨立的內核分析方法 Flash Attention Varlen,其中有三個主要發現:
Flash Attention Varlen 持續的性能優勢:速度提升幅度在 1.26 倍到 1.73 倍之間,驗證了“內存與計算”權衡的有效性。
對隱藏層大小不敏感:性能瓶頸主要在于注意力機制的內存訪問模式,而非隱藏層維度的計算復雜度。Flash Varlen 優化的規則內存訪問模式在各種模型寬度下均保持穩定。
序列長度的卓越可擴展性:Flash Varlen 的性能優勢會隨著序列長度的增加而提升。在 2K 序列長度下,平均加速比約為 1.44 倍。當序列長度增加 8 倍至 16K 時,平均加速比攀升至約 1.70 倍,在隱藏層大小為 2048 時達到峰值 1.73 倍。
7 個實驗
結果顯示,DLCM 的平均準確率達到了 43.92%,比基準分數 41.23% 提高了 2.69%。然而,這些提升在不同任務中并不均衡,這表明以推理為主導的基準測試與那些依賴細粒度詞級對齊的基準測試之間存在明顯的差距。
在強調多步驟推理、假設選擇和隱式常識推理的基準測試中,性能持續且往往顯著提升。
DLCM 通過壓縮局部可預測跨度,并將大部分模型容量分配給高維概念骨干,從而將計算集中在結構顯著的區域。
編碼器-壓縮-解碼范式不可避免地降低了概念內部的詞元級粒度,這可能會掩蓋此類任務所需的微觀層面區別。重要的是,這種性能下降是局部的而非均勻的:雖然邊界詞元的建模更加精確,但概念中間位置的詞元可能會犧牲一些細粒度精度來換取更高的全局連貫性。
在知識庫和多語言基準測試中,DLCM 的結構優化目標是在非均勻信息密度下進行推理,而不是在均勻的、以記憶為主的檢索中。
實驗結果還驗證了研究團隊的核心設計原則:將計算從冗余的詞元級處理轉移到密集的概念級推理,可以在不增加相應推理成本的情況下,顯著提高有效容量。
在消融實驗中,團隊比較了兩種用于序列壓縮的邊界預測機制:一種是學習到的神經預測器,具有壓縮率正則化,另一種是使用余弦相似性的基于規則的預測器。
學習型預測器表現出嚴重的不穩定性。初始壓縮至約 2000 個標記后,壓縮長度穩步增加,最終穩定在約 4300 個標記,模型隨著時間的推移逐漸學會減少壓縮量。相比之下,基于規則的預測器(紫色)表現出卓越的穩定性,迅速收斂至約 2000 個標記,并在整個訓練過程中始終保持這一水平。
除此之外,不同內容類型的壓縮密度存在顯著差異。在 8 倍壓縮目標下,技術英語每個概念保留的 token 數 (10.58) 明顯高于技術中文 (6.09) 或代碼 (6.14)。
圖源:https://arxiv.org/pdf/2512.24617
它證實了全局正則化機制成功地將壓縮目標與嚴格的序列級約束解耦。該模型并非強制使用統一的片段長度,而是根據固有特性調整粒度。
參考資料:
https://arxiv.org/pdf/2512.24617