Alibaba lanza un modelo de inteligencia artificial QWEN3-Next más eficiente
Fuente: Htx
Hora: 2025-09-12 06:33:34
Según Huobi HTX, Tongyi Qianwen de Alibaba ha lanzado la arquitectura del modelo básico de próxima generación QWEN3-Next, y ha abierto los modelos QWEN3-NEXT-80B-A3B basados en esta arquitectura. En comparación con la estructura del modelo MOE de Qwen3, esta estructura ha realizado las siguientes mejoras básicas: mecanismo de atención híbrida, estructura MOE de alta seguridad, una serie de optimizaciones de entrenamiento estables y amigables y un mecanismo de predicción múltiple que mejora la eficiencia de inferencia. Basado en la estructura del modelo de QWEN3-Next, Alibaba entrenó el modelo QWEN3-NEXT-80B-A3B-BASE, que tiene 80 mil millones de parámetros y solo se activan 3 mil millones de parámetros. Este modelo base logra un rendimiento similar o incluso ligeramente mejor al modelo de densidad QWEN3-32B, y su costo de entrenamiento (horas de GPU) es solo menos de una décima parte del de QWEN3-32B. El rendimiento de inferencia en un contexto superior a 32k es más de diez veces mayor que el de QWEN3-32B, logrando la mayor efectividad de entrenamiento e inferencia.