Regresar

Diseño e implementación de un sistema de síntesis de voz

Abstract:

El proceso de Síntesis de Voz consiste en convertir un texto cualquiera, ingresado o producido en un computador o dispositivo afín, en habla, es decir, en sonidos que puedan ser captados y entendidos por un ser humano, como si los dijera otra persona, con el objetivo primordial de hacer más amigable la comunicación entre los dispositivos electrónicos y el ser humano. Esta técnica ha sido explotada en varios campos de la tecnología, especialmente en aquellos que buscan facilitar la vida de las personas con discapacidades visuales o del habla. Para el efecto, alrededor del mundo se han desarrollado varias técnicas que permiten producir voz artificial; en diferentes Centros de investigación y Universidades a nivel de pre y post-grado, se perfeccionan los métodos y nuevas propuestas en esta línea de investigación, todas y cada una con características y funcionamiento propios, pero con un objetivo común que busca lograr la naturalidad total en la voz producida. Pero imitar la voz humana no es un trabajo sencillo, a la naturaleza le ha tomado cientos e incluso miles de años de evolución modelar los órganos componentes del aparato fonatorio humano, y otros cientos de años le tomó al hombre articular sonidos con significado, que puedan combinarse entre sí para formas las palabras, después las oraciones, y al final del camino, complejos lenguajes de comunicación que se aprenden desde una muy pronta edad. En la actualidad, la velocidad de los computadores y en general de los sistemas microprocesados contemporáneos, así como su capacidad de almacenamiento crecen exponencialmente no así como sus costos que contrariamente se reducen cada día; las técnicas de procesamiento digital de señales evolucionan a niveles más altos, la tecnología simplifica las tareas más comunes y pueden implementarse muy complejos algoritmos computacionales en sistemas convencionales. Este conjunto de hechos constituye una de las razones fundamentales de que hoy en día se pueda manipular y generar señales de naturaleza no estacionaria (como es el caso de la voz humana). El presente texto documenta el proyecto de tesis "Diseño e Implementación de un Sistema de Síntesis de Voz", en el que se ha desarrollado un sistema informático de generación de voz artificial, como un proyecto de fin de carrera de Ingeniería Electrónica. Se ha planteado una propuesta que utiliza la técnica de concatenación de unidades del habla para generar voz artificial, un algoritmo de libre implementación sobre cualquier plataforma programable, sea un computador personal (sobre el cual se ha implementado como parte de este proyecto), un microcontrolador o un procesador digital de señales DSP. Si bien se han creado sistemas en otros países, las voces en ellos naturalmente son nativas del lugar en el que se desarrolla específicamente una investigación, lo que adicionalmente incorpora idiomas y acentos particulares que muchas veces desentonan con ciertas personas y culturas, es así pues que, el crear una voz sintética ecuatoriana, ha sido otro de los grades aspectos motivadores para impulsar este proyecto. Este texto se divide en seis capítulos que recopilan el proceso de la investigación y la implementación final del sistema: El Capítulo 1 contiene la información preliminar que se requiere conocer sobre la producción fisiológica del lenguaje en el cuerpo humano y sus componentes fundamentales para el caso del idioma español. Se discuten los conceptos de fonología y fonética, la comunicación como tal y los elementos necesarios para articular el lenguaje. En el Capitulo 2 se estudia concretamente la Síntesis de Voz, sus aplicaciones, las diferentes técnicas que se utilizan para producirla con una atención particular a la Síntesis de Voz por concatenación de Unidades; con detalle se revisa arquitectura general de estos sistemas y se compara cada una de las posibles formas de efectuar la sintetización, exponiendo cada una de sus ventajas y desventajas con el fin de justificar el uso de la técnica escogida en el presente proyecto. La técnica de concatenación de unidades se basa en recortar pequeños segmentos de voz de frases pregrabadas en base a un algoritmo de selección. Estas unidades pueden variar en tipo y en tamaño, sin embargo se extraen de entre una gran cantidad de grabaciones. Ese conjunto de grabaciones constituye una base de datos de segmentos de voz que comúnmente se denomina Corpus de voz. El Capítulo 3 se centra en el estudio de los Corpus de Voz y del que particularmente se ha creado para este sistema, así como la determinación del contenido textual de las grabaciones y una breve explicación de como un espectrograma puede ser de mucha utilidad para diferenciar los elementos fonéticos que componen una palabra. En el Capítulo 4 se detalla la implementación del sistema, el formato de las grabaciones del corpus de voz y el tratamiento que se les da para generar toda la información necesaria para la concatenación de unidades. Se estudia con detalle cada una de las etapas que intervienen en el sistema y las funciones que cumplen. En este capítulo describe el corazón del sistema, un algoritmo de búsqueda y evaluación para obtener las mejores unidades fonéticas que componen las palabras y oraciones que se desea sintetizar. El Capítulo 5 expone los criterios que deben tomarse en cuenta para evaluar los sistemas de sintetización de la voz, las directivas que asumen cada una de las apreciaciones de evaluación y los resultados obtenidos tras someter a un conjunto de pruebas subjetivas al sistema, y objetivas para cada uno de los módulos que lo componen. Finalmente los resultados generales obtenidos para el algoritmo de concatenación de unidades propuesto se expresan en el Capítulo 6, conjuntamente con un grupo de recomendaciones para el mejoramiento del sistema y una serie de propuestas planteadas para líneas futuras de investigación en el campo de las tecnologías del habla. Con la convicción de haber efectuado un trabajo de investigación con un considerable potencial, presentamos esta obra que esperamos sinceramente siente un precedente sólido y sirva como base en el desarrollo de muchos otros proyectos en el campo de las tecnologías del habla y en el apoyo de las personas discapacitadas.