Alibaba lança um modelo de inteligência artificial QWEN3-NEXT mais eficiente
Fonte: Htx
Hora: 2025-09-12 06:33:34
De acordo com o Huobi HTX, Tongyi Qianwen, do Alibaba, lançou a arquitetura básica da próxima geração QWEN3-NEXT e abriu os modelos QWEN3-NEXT-80B-A3B da série baseados nessa arquitetura. Comparado com a estrutura do modelo MOE da QWEN3, essa estrutura fez as seguintes melhorias no núcleo: mecanismo de atenção híbrido, estrutura MOE de alta separação, uma série de otimizações de treinamento estável e amigável e um mecanismo de previsão com vários toques que melhora a eficiência da inferência. Com base na estrutura do modelo do QWEN3-NEXT, o Alibaba treinou o modelo QWEN3-NEXT-80B-A3B-BASE, que possui 80 bilhões de parâmetros e apenas 3 bilhões de parâmetros são ativados. Esse modelo básico alcança um desempenho semelhante ou até um pouco melhor ao modelo de densidade QWEN3-32B, e seu custo de treinamento (horas da GPU) é apenas menos de um décimo do QWEN3-32B. A taxa de transferência de inferência em um contexto acima de 32k é mais de dez vezes a de QWEN3-32B, alcançando o melhor treinamento e custo-efetividade de inferência.