女生把跳蛋塞到屁眼里视频,亚洲欧美国产日韩一区,日韩人妻被中出,老色鬼在线精品视频在线观看

字節 Seed 大概念模型：自適應語義空間中的潛在推理

2026-01-06 17:18

大型語言模型 (LLM) 對所有詞元應用統一的計算，這種詞元統一的計算方式會將計算資源浪費在局部可預測的跨度上，而對語義關鍵轉換的計算資源分配不足。

字節跳動 Seed 團隊提出了動態大型概念模型 (DLCM)，這是一個分層語言建模框架，它從潛在表示中學習語義邊界，并將計算從詞元轉移到更高效的推理壓縮概念空間。

DLCM 可以端到端地發現可變長度的概念，而無需依賴預定義的語言單元。分層壓縮從根本上改變了模型的擴展行為。

團隊引入了第一個壓縮感知擴展定律，該定律解耦了 token 級容量、概念級推理容量和壓縮比，從而在固定的 FLOPs 下實現合理的計算資源分配。

為了穩定地訓練這種異構架構，Seed 進一步開發了一種解耦的 μP 參數化方法，該方法支持跨寬度和壓縮機制的零樣本超參數遷移，能將大約三分之一的推理計算重新分配到容量更高的推理主干中。

在匹配的推理 FLOPs 下，在 12 個零樣本基準測試中實現了平均 +2.69% 的改進。

DCLM 架構

DLCM 通過四個階段處理詞元序列：

研究人員有意將離散分割決策與語言建模損失解耦，以避免優化過程中的干擾。這種設計犧牲了完全端到端的離散性，換取了訓練穩定性和可控的壓縮，這在大規模應用中至關重要。

解碼器通過關注推理出的概念來重構 token 級別的預測。這包含兩個組成部分：概念平滑和因果交叉注意力。

團隊實施獨立的內核分析方法 Flash Attention Varlen，其中有三個主要發現：

Flash Attention Varlen 持續的性能優勢：速度提升幅度在 1.26 倍到 1.73 倍之間，驗證了“內存與計算”權衡的有效性。
對隱藏層大小不敏感：性能瓶頸主要在于注意力機制的內存訪問模式，而非隱藏層維度的計算復雜度。Flash Varlen 優化的規則內存訪問模式在各種模型寬度下均保持穩定。
序列長度的卓越可擴展性：Flash Varlen 的性能優勢會隨著序列長度的增加而提升。在 2K 序列長度下，平均加速比約為 1.44 倍。當序列長度增加 8 倍至 16K 時，平均加速比攀升至約 1.70 倍，在隱藏層大小為 2048 時達到峰值 1.73 倍。