Reconnaissance vocale (ASR / Speech-to-Text)
En bref
La reconnaissance vocale (ASR, speech-to-text) transforme automatiquement la parole en texte écrit. C'est la première étape qui permet à un assistant téléphonique IA de comprendre ce que dit un appelant.
Du son au texte
Un système ASR décompose le signal audio, identifie les sons et les mots et les assemble en texte. Les modèles modernes utilisent des réseaux de neurones et s'appuient sur le contexte pour distinguer correctement des mots qui se ressemblent.
Pourquoi la qualité est décisive
Si l'ASR comprend mal l'appelant, même le meilleur assistant répond à côté. Une bonne reconnaissance vocale gère le bruit de fond, les accents et la qualité de la ligne téléphonique - ce qui compte particulièrement au téléphone.
Questions fréquentes
Non, c'est l'inverse. L'ASR transforme la parole en texte (speech-to-text) ; la synthèse vocale transforme le texte en parole (text-to-speech).
Les systèmes modernes résistent bien au bruit, mais un bruit très fort ou plusieurs personnes qui parlent en même temps peuvent réduire la précision.
Termes liés
Approfondissez avec ces sujets connexes autour de la téléphonie IA.

