Usuario:Manuel Vazq/Sandbox

La síntesis de voz es la producción artificial del habla. Un sistema computarizado que es usado con este propósito es llamado computadora de habla o sintetizador de voz y puede ser implementado en productos software o hardware. Un sistema text-to-speech (TTS) convierte el lenguaje texto normal en habla; otros sistemas recrean la representación simbólica lingüística como transcripciones fonéticas en habla.^[1]

El habla sintetizada puede ser creada a través de la concatenación de fragmentos de habla grabados que son almacenados en una base de datos. Los sistemas difieren en el tamaño de las unidades de habla almacenadas; un sistema que almacena fonos y difonos permite un mayor rango sonidos pero carece de claridad. Para usos específicos, el tamaño del almacenamiento de palabras completas u oraciones permite un mayor calidad de audio. De manera alternativa, un sintetizador puede incorporar un modelo de tracto vocal u otras características de la voz humana para recrear completamente una voz "sintética".^[2]

La calidad del sintetizador de voz es evaluado por la similaridad que tenga con la voz humana y su habilidad para ser entendido de manera clara. Un programa inteligible convierte el texto al habla permite que las personas con discapacidades visuales o dificultades para leer pueden escuchar textos en una computadora. Varios sistemas operativos de computadora tienen sintetizadores de voz integrados desde principios de los noventas.

Un sistema o "motor" de texto a habla (TTS) esta compuesto de dos partes:^[3] un front-end y back-end. El front-end tiene dos tareas principales. Primero, convertir el texto con caracteres, números, símbolos y abreviaciones en su equivalente en palabras escritas. Este proceso es llamado como "normalización del texto", "pre-procesamiento" o tokenización, Posteriormente el front-end asigna una transcripción fonética a cada palabra, marca y divide el texto en unidades prosódicas, como frases, cláusulas y oraciones. El proceso de asignar transcripciones fonéticas a las palabras es llamado conversion "texto a fonema" o "grafema a fonema". La información de transcripciones fonéticas o prosódicas preparan la información de la representación simbólica lingüística que es el resultado del front-end. El back-end, comúnmente referido como el "sintetizador", convierte la representación simbólica lingüística en sonido. En algunos sistemas, esta parte incluye el computo de "intención prosódica" (tono del perfil, duración de los fonemas),^[4] el cual es implementado en la voz de salida.

[1]

[2]

[3]

[4]