뉴스 상세

Alibaba는보다 효율적인 QWEN3-NEXT 인공 지능 모델을 출시합니다

출처: Htx
Huobi HTX에 따르면 Alibaba의 Tongyi Qianwen은 차세대 기본 모델 아키텍처 QWEN3-NEXT를 발표 했으며이 아키텍처를 기반으로 QWEN3-NEXT-80B-A3B 시리즈 모델을 열었습니다. QWEN3의 MOE 모델 구조와 비교할 때,이 구조는 하이브리드주의 메커니즘, 고소도 MOE 구조, 일련의 안정적이고 친근한 훈련 최적화 및 추론 효율성을 향상시키는 다중 점화 예측 메커니즘과 같은 핵심 개선을 만들었습니다. QWEN3-NEXT의 모델 구조에 기초하여, Alibaba는 QWEN3-NEXT-80B-A3B-BASE 모델을 훈련 시켰으며, 이는 800 억 파라미터가 있고 30 억 파라미터 만 활성화됩니다. 이 기본 모델은 QWEN3-32B 밀도 모델과 유사하거나 약간 더 나은 성능을 달성하며 교육 비용 (GPU 시간)은 QWEN3-32B의 10 분의 1 미만입니다. 32K 이상의 컨텍스트에서 추론 처리량은 QWEN3-32B의 10 배 이상이며 궁극적 인 교육 및 추론 비용 효율성을 달성합니다.
링크가 클립보드에 복사되었습니다