FMSD-TTS : une avancée pour la synthèse vocale tibétaine

Comment faire parler une intelligence artificielle dans les trois grands dialectes tibétains, alors que les ressources audio manquent cruellement ? C’est le défi que relève FMSD-TTS, un système de synthèse vocale capable de générer du discours en U-Tsang, Amdo et Kham à partir de très peu d’exemples. Une avancée qui pourrait transformer la préservation et l’accessibilité du tibétain à l’ère du numérique.

Le tibétain, langue millénaire aux multiples facettes, souffre d’un manque chronique de bases de données audio de qualité. Cette pénurie freine le développement d’outils de synthèse vocale performants, indispensables pour l’éducation, la documentation et l’inclusion numérique. Les chercheurs à l’origine de FMSD-TTS proposent une réponse ambitieuse : une architecture d’apprentissage automatique capable de s’adapter à plusieurs dialectes et à différents locuteurs, même en situation de données rares.

Une architecture pensée pour la diversité (FMSD-TTS)

Au cœur de FMSD-TTS se trouve un module inédit de fusion voix-dialecte, associé à un réseau dynamique spécialisé par dialecte (DSDR-Net). Cette combinaison permet au système de capter les subtilités acoustiques et linguistiques propres à chaque région, tout en préservant l’identité de chaque locuteur. Concrètement, il suffit de fournir quelques échantillons vocaux et une étiquette de dialecte pour que le modèle génère des phrases naturelles et nuancées, fidèles à la fois au timbre de la voix d’origine et à l’accent régional choisi.

Les performances de FMSD-TTS ont été évaluées à la fois par des mesures objectives et par des tests d’écoute impliquant des auditeurs humains. Résultat : le système surpasse nettement les solutions existantes, que ce soit pour la fidélité au dialecte ou pour la ressemblance de la voix synthétisée avec celle du locuteur de référence.

Un corpus inédit et des outils ouverts

L’ambition de FMSD-TTS ne s’arrête pas à la publication scientifique. Ses créateurs mettent à disposition une vaste base de données de parole tibétaine synthétique, générée selon leur méthode. Cette ressource, jusqu’ici inexistante à cette échelle pour le tibétain, pourrait accélérer la recherche et la création d’outils linguistiques adaptés à cette langue à faible ressources.

Autre apport : un kit d’évaluation open source permettant de mesurer la similarité des voix, la cohérence dialectale et la qualité audio des synthèses produites. Grâce à cet ensemble d’outils, la communauté scientifique dispose désormais de repères pour comparer et améliorer les modèles futurs.

Le potentiel de FMSD-TTS s’illustre dans des tâches complexes, comme la conversion automatique du discours d’un dialecte à l’autre. Les résultats obtenus prouvent que la synthèse vocale tibétaine franchit un nouveau cap, ouvrant la voie à une meilleure représentation numérique de cette langue et de ses variantes.

En rendant ces ressources publiques, le projet FMSD-TTS pose ainsi les bases d’une revitalisation numérique du tibétain, à la croisée de l’intelligence artificielle et de la diversité linguistique.

Source originale : FMSD-TTS: Few-shot Multi-Speaker Multi-Dialect Text-to-Speech Synthesis for "U-Tsang, Amdo and Kham Speech Dataset Generation via arxiv.org (27/04/2026)

Credit photo: Kindel Media (Licence Pexels) – source image