Accueil
Détails de l'Actualité

Alibaba lance un modèle d'intelligence artificielle de QWEN3-NEXT plus efficace

Source: Htx
Selon Huobi HTX, Tongyi Qianwen d'Alibaba a publié l'architecture de base de la nouvelle génération QWEN3-NEXT, et a ouvert les modèles de série QWEN3-NEXT-80B-A3B basés sur cette architecture. Par rapport à la structure du modèle MOE de QWEN3, cette structure a apporté les améliorations de base suivantes: mécanisme d'attention hybride, structure MOE de haute saisie, une série d'optimisations de formation stables et amicales et un mécanisme de prédiction multi-token qui améliore l'efficacité d'inférence. Sur la base de la structure du modèle de Qwen3-Next, Alibaba a formé le modèle de base QWEN3-NEXT-80B-A3B, qui a 80 milliards de paramètres et seulement 3 milliards de paramètres sont activés. Ce modèle de base réalise des performances similaires, voire légèrement meilleures, au modèle de densité QWEN3-32B, et son coût de formation (heures de GPU) n'est que moins d'un dixième de celui de QWEN3-32B. Le débit d'inférence dans un contexte supérieur à 32k est plus de dix fois celui de QWEN3-32B, atteignant la formation ultime et la rentabilité de l'inférence.
Lien copié dans le presse-papiers