Riconoscimento vocale (ASR / Speech-to-Text)
In breve
Il riconoscimento vocale (ASR, speech-to-text) trasforma automaticamente il parlato in testo scritto. È il primo passo che permette a un assistente telefonico IA di capire ciò che dice chi chiama.
Dal suono al testo
Un sistema ASR scompone il segnale audio, riconosce suoni e parole e li ricompone in testo. I modelli moderni usano reti neurali e sfruttano il contesto per distinguere correttamente parole dal suono simile.
Perché la qualità è decisiva
Se l'ASR fraintende chi chiama, anche il miglior assistente risponde male. Un buon riconoscimento vocale gestisce rumore di fondo, accenti e qualità della linea telefonica - aspetto particolarmente importante al telefono.
Domande frequenti
No, è l'opposto. L'ASR trasforma il parlato in testo (speech-to-text); la sintesi vocale trasforma il testo in parlato (text-to-speech).
I sistemi moderni sono robusti al rumore, ma un rumore molto forte o più persone che parlano insieme possono ridurre la precisione.
Termini correlati
Approfondisci con questi argomenti correlati sulla telefonia IA.

