Comment garantir la stabilité de l’entraînement des grands modèles de langage, alors que les conditions de mise à jour s’éloignent sans cesse des schémas idéaux ? La question taraude chercheurs et ingénieurs, confrontés à la réalité de l’apprentissage par renforcement (RL) appliqué aux LLM. La réponse pourrait bien s’appeler VESPO, une approche qui s’attaque de front à l’instabilité générée par les mises à jour hors-policy.
Dans le domaine de l’intelligence artificielle, l’entraînement des modèles de langage à grande échelle repose souvent sur des techniques d’apprentissage par renforcement. Mais, à mesure que les architectures se complexifient, les mises à jour hors-policy deviennent inévitables — qu’il s’agisse d’asynchronisme lors de l’entraînement ou de décalages entre moteur d’apprentissage et moteur d’inférence. Or, l’utilisation naïve du rééchantillonnage par importance, bien que mathématiquement correcte, se heurte à un problème de taille : une variance très élevée, exacerbée par la génération autoregressive et la croissance incontrôlée des rapports de probabilités.
VESPO : une optimisation séquence inédite
Pour pallier ces limites, les auteurs de l’étude proposent VESPO (Variational sEquence-level Soft Policy Optimization), une méthode qui intègre explicitement la réduction de variance au cœur de sa formulation variationnelle. Contrairement aux solutions existantes, souvent limitées à des ajustements ponctuels ou des compromis entre biais et variance (comme le clipping au niveau des tokens ou la normalisation sur la longueur des séquences), VESPO opère directement sur les pondérations d’importance au niveau des séquences complètes.
Grâce à un noyau de réajustement dérivé de façon analytique, la méthode évite les approximations heuristiques et fournit une borne explicite de la variance. Cette propriété mathématique permet de mieux contrôler l’instabilité des poids lors de l’apprentissage, sans sacrifier la fidélité des corrections nécessaires aux mises à jour hors-policy.
Des résultats probants en raisonnement mathématique et en code
L’évaluation de VESPO ne se limite pas à un simple test de faisabilité. Les auteurs l’ont confrontée à des tâches exigeantes : raisonnement mathématique et génération de code, deux terrains où la stabilité de l’apprentissage conditionne directement la qualité des réponses générées. Même dans des situations extrêmes — jusqu’à 64 fois plus de « staleness » (décalage d’actualisation des données) que la normale — VESPO parvient à maintenir la stabilité de l’entraînement.
Les gains sont observés aussi bien sur des modèles denses que sur des architectures Mixture-of-Experts (MoE), un format de plus en plus utilisé pour répartir la charge computationnelle. VESPO dépasse systématiquement les méthodes de reshaping concurrentes dans des conditions expérimentales équivalentes, démontrant sa robustesse face à la diversité des architectures et des tâches.
Pour la communauté, la disponibilité du code en open source (sur https://github.com/FloyedShen/VESPO) ouvre la porte à de nouveaux travaux sur la stabilité des LLM. Si la gestion de la variance dans l’apprentissage hors-policy restait un problème épineux, VESPO propose une solution théorique élégante et validée empiriquement, susceptible de s’imposer dans les pipelines de formation des prochains modèles de langage à grande échelle.
À l’heure où les LLM s’invitent dans des applications toujours plus critiques, l’arrivée de VESPO pourrait bien marquer un tournant dans la maîtrise de leur apprentissage, en conjuguant stabilité, efficacité et généricité.
Source originale : VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training via arxiv.org (11/05/2026)
Credit photo: Kindel Media (Licence Pexels) – source image