国产精品天天看天天限,午夜精品国产自在现线拍,骚穴被操坏了视频,爱爱试看

阿里發布新基礎模型架構Qwen3-Next：推理效率提升10倍

2025-11-17 16:03

9月12日，阿里通義千問發布了下一代基礎模型架構 Qwen3-Next，并開源了基于該架構的 Qwen3-Next-80B-A3B 系列模型。

X上的網友紛紛給出好評，表示設計出色、推理準確該結構相比Qwen3的MoE模型結構,進行了以下核心改進：混合注意力機制、高稀疏度 MoE結構、一系列訓練穩定友好的優化，以及提升推理效率的多 token 預測機制。

阿里基于Qwen3-Next的模型結構訓練了Qwen3-Next-80B-A3B-Base模型，該模型擁有800億參數僅激活30億參數。該Base模型實現了與Qwen3-32B dense模型相近甚至略好的性能，而它的訓練成本僅為Qwen3-32B的十分之一不到，在32k以上的上下文下的推理吞吐則是Qwen3-32B的十倍以上，實現了極致的訓練和推理性價比。

除此之外，阿里還基于 Qwen3-Next-80B-A3B-Base模型同步開發并發布了Qwen3-Next-80B-A3B-Instruct與Qwen3-Next-80B-A3B-Thinking。

阿里解決了混合注意力機制+高稀疏度 MoE 架構在強化學習訓練中長期存在的穩定性與效率難題，實現了RL訓練效率與最終效果的雙重提升。Qwen3-Next-80B-A3B-Thinkink在多項基準測試中超越閉源模型Gemini-2.5-Flash-Thinking。

模型結構：混合架構+極致稀疏MoE

Qwen3-Next采用了GatedDeltaNet和GatedAttention的混合架構，在保留的標準注意力中引入多項增強設計：

沿用先前工作中的輸出門控機制，緩解注意力中的低秩問題。
將單個注意力頭維度從128擴展至256。
僅對注意力頭前25%的位置維度添加旋轉位置編碼，提高長度外推效果。

Qwen3-Next還采用了高稀疏度的Mixture-of-Experts(MoE) 架構，總參數量達80B，每次推理僅激活約3B參數。相比Qwen3-MoE的128個總專家和8個路由專家，Qwen3-Next擴展到了512總專家，10路由專家與1共享專家的組合，在不犧牲效果的前提下達到資源利用率最大化。

為了緩解部分層的 norm weight值出現異常高的現象，Qwen3-Next采用了Zero-Centered RMSNorm，并在此基礎上, 對norm weight 施加weight decay,，以避免權重無界增長。Qwen3-Next還在初始化時歸一化了 MoE router的參數，確保每個expert在訓練早期都能被無偏地選中，減小初始化對實驗結果的擾動。

除此之外，Qwen3-Next 還引入原生 Multi-Token Prediction 機制，既得到了 Speculative Decoding 接受率較高的 MTP 模塊，又提升了主干本身的綜合性能。 MTP 多步推理性能也得到優化，進一步提高了實用場景下的 Speculative Decoding 接受率。

預訓練：吞吐量提升十倍

Qwen3-Next 采用了 Qwen3 36T 預訓練語料的一個均勻采樣子集，僅包含 15T tokens。其訓練所消耗的 GPU Hours不到 Qwen3-30A-3B 的 80%，與 Qwen3-32B 相比僅需 9.3% 的 GPU 計算資源，展現出極高的訓練效率與性價比。

得益于創新的混合模型架構，Qwen3-Next 在推理效率方面表現出顯著優勢。Qwen3-Next-80B-A3B 在 4k tokens 的上下文長度下，吞吐量接近前者的七倍。當上下文長度超過 32k 時，吞吐提升更是達到十倍以上。

在解碼（decode）階段，該模型在 4k 上下文下實現近四倍的吞吐提升，而在超過 32k 的長上下文場景中，仍能保持十倍以上的吞吐優勢。

Qwen3-Next-80B-A3B-Base 僅使用十分之一的 Non-Embedding 激活參數，在大多數基準測試中便已超越 Qwen3-32B-Base，且顯著優于 Qwen3-30B-A3B，展現出卓越的模型效率與性能優勢。

后訓練：Thinking模型超越Gemini

Qwen3-Next-80B-A3B-Instruct 顯著優于 Qwen3-30B-A3B-Instruct-2507 和 Qwen3-32B-Non-thinking，并取得了幾乎與 Qwen3-235B-A22B-Instruct-2507 相近的結果。

在RULER上該模型所有長度的表現明顯優于層數相同、注意力層數更多的 Qwen3-30B-A3B-Instruct-2507，展示了 Gated DeltaNet 與 Gated Attention 混合模型在長文本情景下的優越性。

Qwen3-Next-80B-A3B-Thinking 優于預訓練成本更高的 Qwen3-30B-A3B-Thinking-2507 和 Qwen3-32B-thinking，超過了閉源的模型 Gemini-2.5-Flash-Thinking，并在部分指標上接近阿里最新的旗艦模型 Qwen3-235B-A22B-Thinking-2507。