Alibaba lancia un modello di intelligenza artificiale Qwen3-next più efficiente
Fonte: Htx
Ora: 2025-09-12 06:33:34
Secondo Huobi HTX, Tongyi Qianwen di Alibaba ha rilasciato l'architettura di base di base Qwen3-Next e ha aperto i modelli di serie Qwen3-Next-80B-A3B basati su questa architettura. Rispetto alla struttura del modello MOE di Qwen3, questa struttura ha apportato i seguenti miglioramenti al nucleo: meccanismo di attenzione ibrida, struttura MOE ad alta scarsa esperienza, una serie di ottimizzazioni di allenamento stabili e amichevoli e un meccanismo di previsione multi-detto che migliora l'efficienza dell'inferenza. Sulla base della struttura del modello di Qwen3-Next, Alibaba ha addestrato il modello QWEN3-NEXT-80B-A3B-Base, che ha 80 miliardi di parametri e vengono attivati solo 3 miliardi di parametri. Questo modello di base ottiene prestazioni simili o addirittura leggermente migliori al modello di densità QWEN3-32B e il suo costo di allenamento (ore GPU) è solo inferiore a un decimo di quello di QWEN3-32B. La produttività dell'inferenza in un contesto superiore a 32K è più di dieci volte quella di Qwen3-32b, raggiungendo la formazione finale e il rapporto costo-efficacia dell'inferenza.