doublageIAIntelligence artificiellelinguiste

Générer, re-générer des voix de synthèse,
c’est toujours travailler !

By 24 février 2025No Comments

L’arrivée de ChatGPT, il y a presque deux ans, avait déjà marqué un étonnement général. C’est quoi ce truc ? On essaie. “Oui, c’est très bien pour son courrier administratif”.

Et depuis, tout va très vite ; et chacun y va de son retour d’expérience perso à la machine à café pour dire qu’il a été surpris par le résultat généré dans le cadre de son activité professionnelle parce que c’est mieux que ce qu’il croyait. L’IA s’est invitée dans le quotidien des métiers, et plus encore dans celui de la traduction, du sous-titrage et du doublage. Les métiers des services linguistiques sont en première ligne – et ça tombe bien, c’est précisément notre domaine. Il faut donc apprendre à composer avec ces outils. Nous sommes aux avant-postes de ce changement – et nous tenons les barricades !

L’avantage de ces nouveaux outils, c’est qu’ils nous réservent des surprises ; des bonnes comme des mauvaises, et pour éviter de sourciller à chaque fois, on doit les pratiquer pour savoir jusqu’où ils peuvent nous amener. Travailler avec l’IA, c’est un peu comme apprendre à jouer d’un instrument de musique : seule une pratique assidue permet d’en maîtriser les subtilités, d’explorer son potentiel et d’en tirer les bons usages. Alors, bien sûr, c’est chronophage : on détricote ce qu’on sait faire pour retricoter à la sauce IA. Une maille à l’envers, une maille à l’endroit.
Pour le doublage en voix de synthèse, on teste ce qui va et ce qui ne va pas. Il n’y a pas de magie, rien que de la pratique. Et comme le diable se cache dans les détails, c’est sur les finitions que la charge de travail se corse. On génère, on re-génère et on re-re-génère… jusqu’au moment où on estime que le travail est fait. Souvent, on peut aussi penser qu’avec les talents d’un·e comédien·ne bien dirigé·e, on aurait pu faire mieux en moins de temps.
Sans compter qu’une voix de synthèse, ça se reconnaît un chouïa. Malgré les kilomètres de bibliothèques de voix qui s’offrent à nous, le constat est souvent le même : tout ça est un peu trop lisse et monotone. L’absence de variations naturelles et de rythme crée une impression artificielle, où l’émotion peut se perdre, même lorsque le propos est cohérent. Dans une conversation normale, il y a des hésitations et des variations de débit, là où les voix de synthèse peuvent paraître trop fluides ou trop rigides. C’est pour cela qu’en tendant un peu l’oreille, on arrive fréquemment à identifier quand la voix est artificielle ou quand elle ne l’est pas.
Si vous avez des doutes, ou si vous avez des velléités de profiler, j’ai découvert récemment que Hiya permettait d’analyser les caractéristiques vocales et de détecter si une voix est générée par IA. IA toujours une IA pour contrôler une autre IA… Ha ha ha !
Tout ça est neuf, bien sûr, et on peut encore s’en amuser ! Dans l’immédiat, l’usage des voix de synthèse dépanne et peut devenir pertinent pour certains types de contenus. Le e-learning et les jeux vidéo (notamment pour les dialogues des PNJ) offrent un excellent terrain de jeu pour ces nouveaux outils. Ils permettent d’obtenir un résultat satisfaisant à moindre coût.
Si l’intelligence artificielle ouvre de nouvelles perspectives, elle ne remplace aujourd’hui ni l’expertise ni la sensibilité humaine. Alors, continuerons-nous chez Pop translation à tricoter avec l’IA ? Certainement, en la pratiquant et en se tenant à jour de ses améliorations. Générer, régénérer avec l’IA, c’est toujours travailler !

Leave a Reply