Startseite
Nachrichtendetails

Alibaba startet ein effizienteres QWEN3-NEXT-Künstliche Intelligenzmodell

Quelle: Htx
Laut Huobi HTX hat Alibabas Tongyi Qianwen das QWEN3-NEXT der nächsten Generation veröffentlicht und die Modelle QWEN3-Next-80B-A3B-Serien eröffnet, die auf dieser Architektur basierend. Im Vergleich zur MOE-Modellstruktur von QWEN3 hat diese Struktur die folgenden Kernverbesserungen vorgenommen: Hybrid-Aufmerksamkeitsmechanismus, MOE-Struktur mit hoher Sparsamkeit, eine Reihe stabiler und freundlicher Trainingsoptimierungen und ein Multi-gepflegtes Vorhersagemechanismus, der die Effizienz der Inferenz verbessert. Basierend auf der Modellstruktur von QWEN3-Next trainierte Alibaba das QWEN3-Next-80B-A3B-Base-Modell, das 80 Milliarden Parameter enthält und nur 3 Milliarden Parameter aktiviert sind. Dieses Basismodell erzielt eine ähnliche oder sogar etwas bessere Leistung wie das QWEN3-32B-Dichtemodell, und seine Trainingskosten (GPU-Stunden) beträgt nur weniger als ein Zehntel des von QWEN3-32B. Der Inferenzdurchsatz in einem Kontext über 32K beträgt mehr als zehnmal so hoch wie QWEN3-32B, wodurch das ultimative Training und die Kostenwirksamkeit des Inferenz erreicht werden.
Link in die Zwischenablage kopiert