En divisant par plus de sept le taux d’images synthétiques invalides, Gen-n-Val bouleverse la génération de données pour la vision artificielle. Présenté dans une publication du 13 avril 2026, ce système vise à résoudre des problèmes persistants dans l’entraînement des modèles d’intelligence artificielle : rareté des données, déséquilibre des catégories et bruit dans l’étiquetage. Sur des jeux de données comme LVIS, où la majorité des catégories n’apparaissent que dans quelques images, la qualité du jeu d’entraînement reste un défi de taille.

La plupart des méthodes actuelles de génération synthétique peinent à fournir des images précises : masques segmentant plusieurs objets à la fois, étiquettes erronées, ou contours flous. C’est ici que Gen-n-Val se distingue, en associant plusieurs briques technologiques pour produire des images et des masques de segmentation d’une qualité jusqu’à présent inégalée.

Des agents pour une génération et validation plus fiables (Gen-n-Val)

Le cœur du système repose sur deux agents distincts. D’abord, un agent de génération basé sur un grand modèle de langage (LLM) optimise les instructions envoyées à Layer Diffusion (LD), une technologie de diffusion d’images, afin de générer des images de foreground comportant un seul objet et des masques de segmentation précis. Ensuite, un second agent, cette fois un grand modèle de langage visuel (VLLM), se charge d’éliminer les images synthétiques jugées de trop faible qualité. Les instructions pour les deux agents sont optimisées par TextGrad, un outil conçu pour affiner les prompts textuels.

Résultat : la proportion de données invalides chute de 50 % à 7 % par rapport aux références du secteur, notamment la méthode MosaicFusion. Cette amélioration n’est pas qu’un exploit technique ; elle se traduit par des performances nettement supérieures pour les tâches de détection d’objets et de segmentation d’instances, en particulier sur les catégories rares.

Des avancées concrètes sur les benchmarks de référence

Testé sur le jeu de données LVIS avec l’architecture Mask R-CNN, Gen-n-Val fait progresser la détection des classes rares de 7,6 %. Sur COCO, il propulse la précision moyenne (mAP) des catégories rares de YOLOv9c et YOLO11m de 3,6 %. Les progrès ne s’arrêtent pas là : sur les benchmarks d’open-vocabulary en détection d’objets, Gen-n-Val surpasse YOLO-Worldv2-M de 7,1 % avec YOLO11m. Ces gains témoignent de la capacité du système à générer des données synthétiques utiles pour des modèles de pointe et dans des contextes où la diversité et la précision des images sont essentielles.

La solution se distingue également par sa capacité à s’adapter à des modèles et des ensembles de données de plus en plus volumineux, une caractéristique indispensable alors que les besoins de l’IA en matière de quantité et de variété de données ne cessent de croître.

En rendant son code disponible publiquement, l’équipe de l’AI IU Lab ouvre la voie à de nouveaux usages pour la recherche en vision par ordinateur. Gen-n-Val s’annonce ainsi comme un levier prometteur pour accélérer la mise au point de modèles plus justes et plus performants, tout en réduisant la dépendance aux jeux de données annotés manuellement.


Source originale : Gen-n-Val: Agentic Image Data Generation and Validation via arxiv.org (13/04/2026)

Credit photo: Matheus Bertelli (Licence Pexels) – source image