9月12日,阿里通義千問發布了下一代基礎模型架構 Qwen3-Next,并開源了基于該架構的 Qwen3-Next-80B-A3B 系列模型。
X上的網友紛紛給出好評,表示設計出色、推理準確該結構相比Qwen3的MoE模型結構,進行了以下核心改進:混合注意力機制、高稀疏度 MoE結構、一系列訓練穩定友好的優化,以及提升推理效率的多 token 預測機制。
阿里基于Qwen3-Next的模型結構訓練了Qwen3-Next-80B-A3B-Base模型,該模型擁有800億參數僅激活30億參數。該Base模型實現了與Qwen3-32B dense模型相近甚至略好的性能,而它的訓練成本僅為Qwen3-32B的十分之一不到,在32k以上的上下文下的推理吞吐則是Qwen3-32B的十倍以上,實現了極致的訓練和推理性價比。
除此之外,阿里還基于 Qwen3-Next-80B-A3B-Base模型同步開發并發布了Qwen3-Next-80B-A3B-Instruct與Qwen3-Next-80B-A3B-Thinking。
阿里解決了混合注意力機制+高稀疏度 MoE 架構在強化學習訓練中長期存在的穩定性與效率難題,實現了RL訓練效率與最終效果的雙重提升。Qwen3-Next-80B-A3B-Thinkink在多項基準測試中超越閉源模型Gemini-2.5-Flash-Thinking。
模型結構:混合架構+極致稀疏MoE
Qwen3-Next采用了GatedDeltaNet和GatedAttention的混合架構,在保留的標準注意力中引入多項增強設計:
沿用先前工作中的輸出門控機制,緩解注意力中的低秩問題。
將單個注意力頭維度從128擴展至256。
僅對注意力頭前25%的位置維度添加旋轉位置編碼,提高長度外推效果。
Qwen3-Next還采用了高稀疏度的Mixture-of-Experts(MoE) 架構,總參數量達80B,每次推理僅激活約3B參數。相比Qwen3-MoE的128個總專家和8個路由專家,Qwen3-Next擴展到了512總專家,10路由專家與1共享專家的組合,在不犧牲效果的前提下達到資源利用率最大化。
為了緩解部分層的 norm weight值出現異常高的現象,Qwen3-Next采用了Zero-Centered RMSNorm,并在此基礎上, 對norm weight 施加weight decay,,以避免權重無界增長。Qwen3-Next還在初始化時歸一化了 MoE router的參數,確保每個expert在訓練早期都能被無偏地選中,減小初始化對實驗結果的擾動。
除此之外,Qwen3-Next 還引入原生 Multi-Token Prediction 機制,既得到了 Speculative Decoding 接受率較高的 MTP 模塊,又提升了主干本身的綜合性能。 MTP 多步推理性能也得到優化,進一步提高了實用場景下的 Speculative Decoding 接受率。
預訓練:吞吐量提升十倍
Qwen3-Next 采用了 Qwen3 36T 預訓練語料的一個均勻采樣子集,僅包含 15T tokens。其訓練所消耗的 GPU Hours不到 Qwen3-30A-3B 的 80%,與 Qwen3-32B 相比僅需 9.3% 的 GPU 計算資源,展現出極高的訓練效率與性價比。
得益于創新的混合模型架構,Qwen3-Next 在推理效率方面表現出顯著優勢。Qwen3-Next-80B-A3B 在 4k tokens 的上下文長度下,吞吐量接近前者的七倍。當上下文長度超過 32k 時,吞吐提升更是達到十倍以上。
在解碼(decode)階段,該模型在 4k 上下文下實現近四倍的吞吐提升,而在超過 32k 的長上下文場景中,仍能保持十倍以上的吞吐優勢。
Qwen3-Next-80B-A3B-Base 僅使用十分之一的 Non-Embedding 激活參數,在大多數基準測試中便已超越 Qwen3-32B-Base,且顯著優于 Qwen3-30B-A3B,展現出卓越的模型效率與性能優勢。
后訓練:Thinking模型超越Gemini
Qwen3-Next-80B-A3B-Instruct 顯著優于 Qwen3-30B-A3B-Instruct-2507 和 Qwen3-32B-Non-thinking,并取得了幾乎與 Qwen3-235B-A22B-Instruct-2507 相近的結果。
在RULER上該模型所有長度的表現明顯優于層數相同、注意力層數更多的 Qwen3-30B-A3B-Instruct-2507,展示了 Gated DeltaNet 與 Gated Attention 混合模型在長文本情景下的優越性。
Qwen3-Next-80B-A3B-Thinking 優于預訓練成本更高的 Qwen3-30B-A3B-Thinking-2507 和 Qwen3-32B-thinking,超過了閉源的模型 Gemini-2.5-Flash-Thinking,并在部分指標上接近阿里最新的旗艦模型 Qwen3-235B-A22B-Thinking-2507。
結語
Qwen3-Next 在模型架構上引入了注意力機制方面的多項創新,包括線性注意力和注意力門控機制,并在其 MoE 設計中進一步提升了稀疏性。
在“思考模式”和“非思考模式”兩種狀態下,Qwen3-Next-80B-A3B的性能均與規模更大的 Qwen3-235B-A22B-2507 相當,在推理速度上也有顯著提升,尤其在長上下文場景中表現更為突出。
阿里表示將持續優化這一架構,開發 Qwen3.5,致力于實現更高的智能水平與生產力。
目前,Qwen3-Next已在魔搭社區和HuggingFace開源。