Alibaba запускает более эффективную модель искусственного интеллекта QWEN3-NEXT
Источник: Htx
Время: 2025-09-12 06:33:34
По словам Huobi HTX, Tongyi Qianwen от Alibaba выпустила основную модельную архитектуру базовой модели следующего поколения QWEN3-NEXT и открыл модели серии QWEN3-NEXT-80B-A3B на основе этой архитектуры. По сравнению со структурой моделей MoE от QWEN3 эта структура сделала следующие улучшения основного: механизм гибридного внимания, структура MOE с высоким содержанием, серия стабильных и дружественных тренировочных оптимизаций, а также механизм предсказания, который повышает эффективность вывода. Основываясь на структуре модели QWEN3-NEXT, Alibaba обучил модель QWEN3-NEXT-80B-A3B-базы, которая имеет 80 миллиардов параметров, и активируется только 3 миллиарда параметров. Эта базовая модель достигает аналогичной или даже немного лучшей производительности для модели плотности QWEN3-32B, а ее стоимость обучения (часы GPU) составляет лишь менее одной десятой от QWEN3-32B. Пропускная способность вывода в контексте выше 32K более чем в десять раз больше, чем у QWEN3-32B, достигая окончательной экономической эффективности обучения и вывода.