小型語言模型(SLM)的設計工作主要集中于減少參數數量以實現參數最優的 SLM,但參數效率并不一定能轉化為實際設備上的相應加速。
英偉達近日發表的論文解決了這一難題。該論文旨在識別 SLM 實際設備延遲的關鍵決定因素,并為以實際設備延遲為主要考慮因素的 SLM 設計和訓練提供可推廣的原則和方法。
研究團隊推出 Nemotron-Flash。 這是一種新型混合小型語言模型,其設計理念是降低實際應用延遲,而非追求參數數量。它具有延遲最優的深度-寬度比、通過進化搜索發現的混合算子以及訓練時權重歸一化等特點。
值得一提的是,該論文已被 NeurIPS 2025 接收。
小模型有什么問題?
為了彌補小模型的不足,團隊確定了兩個核心架構因素:深度-寬度比和算子選擇。前者對小批量延遲至關重要,而后者則同時影響延遲和大批量吞吐量。
發現表明,改變深度和寬度時,準確率與參數/延遲之間的權衡關系。雖然更深的模型通常能獲得更好的準確率-參數權衡,但它們在準確率-延遲權衡方面可能表現不佳,并且存在一個針對特定延遲預算的最佳深度-寬度比。
研究團隊還探索了新興的高效注意力機制,以評估它們作為候選構建算子的潛力。利用已識別出的有效算子,構建了一個進化搜索框架,用于在混合空間學習模型(SLM)中自動發現這些算子的延遲最優組合,從而提升準確率和延遲性能。
除了架構改進之外,團隊還采用權重歸一化技術進一步增強了 SLM 的訓練,該技術能夠更有效地更新權重并提高最終收斂速度。這項技術可以作為未來 SLM 的通用組件。
面向延遲最優的 SLM
對于 SLM 設計,實際設備的延遲主要取決于兩個關鍵因素:模型的深度和寬度,以及算子的選擇。
團隊觀察到三個現象:
更深的模型通常在較寬的深度范圍內都能實現更好的精度參數權衡,盡管這種優勢會逐漸飽和;
對于精度-延遲權衡,深度-細化模型的優勢可能并不明顯,對于給定的延遲預算,存在一個最佳深度設置。例如,當延遲預算為 3 秒時,深度為 12 的模型在所評估的設置中實現了最佳精度;
最佳深度-寬度比通常會隨著延遲預算的增加而增加。這些觀察結果強調了根據部署約束仔細選擇深度/寬度的必要性,而不是默認使用深度-細化模型。
因此,團隊探索了在模型系列中識別最佳深度-寬度比的原理性方法,通過模型深度和寬度參數化模型損失來擴展現有的縮放定律。
除了模型深度和寬度之外,每一層所使用的算子也是一個關鍵維度。首先,團隊在完全受控的環境下訓練現有的 LM 架構,以識別在準確率-延遲平衡方面最有前景的算子。然后開發了一種進化搜索流程,以自動高效地發現這些算子的混合組合,從而構建混合 SLM。
各種高效注意力機制的出現及其在混合模型中復雜的協同作用,促使團隊構建一個自動化框架,以識別混合模型中高效且互補的注意力機制組合——一個進化搜索引擎,以高效地導航復雜的組合設計空間。
在訓練過程中,研究人員在每次訓練迭代后將模型權重投影到單位范數球面上,以此約束權重的大小。這一歸一化步驟消除了徑向分量,并強調了角度更新,從而在相似的梯度幅度下產生更大的相對權重變化
Nemotron-Flash:新型混合式 SLM
Nemotron-Flash 系列產品在同等尺寸的型號中實現了最低的解碼延遲和最高的準確率。
Nemotron-Flash-1B 的準確率比 Qwen3-0.6B 高 5.5%,延遲降低 1.9 倍,吞吐量提升 46 倍。
同樣,NemotronFlash-3B 的平均準確率比 Qwen2.5-3B 和 Qwen3-1.7B 分別高出 2.0% 和 5.5%,延遲分別降低 1.7 倍和 1.3 倍,吞吐量分別提升 6.4 倍和 18.7 倍。
通過進一步優化注意力機制配置,Nemotron-Flash-3B-TP 的吞吐量分別比 Qwen2.5-3B 和 Qwen3-1.7B 高出 10.1 倍和 29.7 倍。
除了實現最具競爭力的延遲和吞吐量外,Nemotron-Flash-3B 在參數超過 15 億的模型中,在常識推理、數學、編碼和召回任務中也獲得了最高的準確率。
NemotronFlash-3B-Instruct 展現了強大的推理和指令執行能力,實現了最佳的平均準確率和效率。與 Qwen2.5-1.5B 和 Qwen3-1.7B 相比,平均準確率分別提高了 4.7% 以上,吞吐量分別提高了 4.3 倍和 18.7 倍。
參考資料:
https://arxiv.org/pdf/2511.18890