Usuária:MCarrera (NeuroMat)/Testes/Síntese de fala
De Wikipedia, a enciclopédia encyclopedia
Síntese de voz é o processo de produção artificial de voz humana. Um sistema informático utilizado para este propósito é denominado sintetizador de voz, e pode ser implementado em software ou hardware. Um sistema texto-voz (TTS, na sigla em inglês) converte texto em linguagem normal para voz. Outros sistemas interpretam representação lingüística simbólica (como transcrição fonética) em voz.[1]
Esta é uma página de testes da utilizadora MCarrera (NeuroMat), uma subpágina da principal. Serve como um local de testes e espaço de desenvolvimento, desta feita não é um artigo enciclopédico. Para uma página de testes sua, crie uma aqui. Como editar: Tutorial • Guia de edição • Livro de estilo • Referência rápida Como criar uma página: Guia passo a passo • Como criar • Verificabilidade • Critérios de notoriedade |
Voz sintetizada pode ser criada concatenando-se pedaços de fala gravada, armazenada num banco de dados. Os sistemas diferem no tamanho das unidades de fala armazenada. Um sistema que armazene fones ou alofones fornecem a maior faixa de saída, mas podem carecer de clareza. Para usos específicos, o armazenamento de palavras ou frases inteiras possibilita uma saída de alta qualidade. Alternativamente, um sintetizador pode incorporar um modelo do trato vocal (caminho percorrido pela voz) e outras características da voz humana, para criar como saída uma voz completamente "sintética".[2]
A qualidade de um sintetizador de voz é determinada por sua similaridade com a voz humana e por sua capacidade de ser entendida. Um programa TTS inteligível permite que pessoas com deficiência visual ou com dificuldades de leitura possam ouvir obras escritas em um computador pessoal. Muitos sistemas operacionais têm incluído capacidade de síntese de voz desde o início da década de 1990. Na década de 1990, surgiram sistemas que fazem a operação inversa de converter voz para texto.
Um sistema texto-voz é composto de duas partes:[3] um front-end e um back-end. O front-end tem duas tarefas principais. Primeiro, converter texto bruto contendo símbolos como números e abreviações no equivalente de palavras escritas. Este processo é muitas vezes chamado de normalização de texto, pré-processamento ou tokenização. Depois, atribuir transcrições fonéticas a cada palavra e dividir e marcar o texto em unidades como sentenças, frases e cláusulas. Este processo é chamado de conversão de texto para fonema ou grafema para fonema. As transcrições fonéticas e as informações da prosódia compõem a representação lingüística simbólica que é produzida pelo front-end.
Então, o back-end (muitas vezes referido como o sintetizador) converte a representação lingüística simbólica em som. Em certos sistemas, esta parte inclui a computação da prosódia (contorno de tom, durações de fonemas),[4] que é então imposta na fala de saída.