Synthèse vocale (Text-to-Speech)
En bref
La synthèse vocale (TTS, text-to-speech) transforme un texte écrit en parole. C'est ainsi qu'un assistant téléphonique IA obtient une voix naturelle pour prononcer à voix haute la réponse générée.
Du texte à la voix
Un système TTS analyse le texte, définit l'intonation, les pauses et la hauteur, puis en produit un signal audio. Les modèles neuronaux modernes sonnent fluides et naturels, loin de la voix robotique des premiers systèmes.
Pourquoi elle compte au téléphone
La voix détermine la perception d'un appel. Une voix TTS chaleureuse et claire, avec une intonation naturelle, donne à l'appelant le sentiment d'être pris au sérieux et l'envie de poursuivre.
Questions fréquentes
Non, c'est l'inverse. La TTS transforme le texte en parole (text-to-speech) ; la reconnaissance vocale transforme la parole en texte (speech-to-text).
La synthèse vocale neuronale moderne sonne naturelle, avec intonation et pauses. Beaucoup d'appelants ne remarquent pas que la voix est synthétique.
Termes liés
Approfondissez avec ces sujets connexes autour de la téléphonie IA.

