L’équipe Qwen présente Qwen3, la nouvelle génération de leurs grands modèles de langage. Le modèle phare, Qwen3-235B-A22B, obtient des résultats très compétitifs sur des tests de codage, mathématiques et capacités générales, lorsqu’on le compare à d’autres modèles haut de gamme.
Même les modèles plus petits de la famille Qwen3 se distinguent. Par exemple, le modèle Qwen3-30B-A3B bat des modèles concurrents en utilisant beaucoup moins de paramètres actifs, et le modèle Qwen3-4B rivalise avec des modèles plus volumineux de la génération précédente.
Cette gamme comprend des modèles de tailles variées, accessibles sous une licence Apache 2.0.
Principales caractéristiques
-
Modes hybrides de pensée
Qwen3 propose deux façons de fonctionner : un mode « thinking » où le modèle réfléchit étape par étape avant de répondre (utile pour les tâches complexes) et un mode « non-thinking » pour des réponses rapides aux questions simples. Cela permet d’ajuster la quantité de réflexion selon la tâche.
-
Support multilingue étendu
Le modèle prend en charge un grand nombre de langues et dialectes, couvrant de nombreuses langues européennes, asiatiques et africaines.
-
Meilleures capacités agentiques
Qwen3 est optimisé pour le codage, la résolution de problèmes, la logique et l’interaction avec l’environnement, par exemple via des agents ou des outils.
Phase de pré-entraînement
Le volume de données utilisé pour l’entraînement a été fortement augmenté par rapport à la génération précédente. On y trouve davantage de contenus multilingues, des documents extraits, et des données synthétiques pour renforcer les compétences en mathématiques et en codage.
La formation s’est déroulée en trois grandes étapes : une phase générale sur un grand nombre de tokens avec un contexte court, une phase axée sur des données nécessitant connaissance et logique, puis une phase finale utilisant des textes de haute qualité à contexte long pour améliorer la gestion des entrées longues.
Grâce à ce processus, les modèles denses de Qwen3 atteignent des performances comparables à des modèles plus grands de la génération précédente, tandis que les modèles MoE montrent une grande efficacité en n’activant qu’une fraction des paramètres.
Post-entraînement
Pour construire le mode hybride (capable de « penser » ou de répondre rapidement), Qwen3 a subi un entraînement en quatre étapes :
- Longues chaînes de pensée pour développer la capacité de raisonnement.
- Renforcement basé sur des récompenses définies par des règles pour améliorer l’exploration.
- Fusion des modes think / non-think en entraînant sur des données combinant raisonnement long et instructions classiques.
- Renforcement sur plusieurs tâches générales pour améliorer le respect des consignes, le format des réponses et les capacités agentiques.
Utilisation de Qwen3
Quelques exemples pratiques pour déployer ou utiliser Qwen3 :
- Charger le modèle et le tokenizer dans des environnements compatibles.
- Activer ou désactiver le mode « thinking » via un paramètre dédié.
- Utiliser des outils locaux permettant d’exécuter le modèle.
- Insérer des balises dans les dialogues pour forcer le mode de réflexion souhaité.