Reportaje:

El ordenador que habla en castellano

Un grupo de científicos españoles trabaja sobre la síntesis y reconocimiento de voz

Madrid - 22 jun 1984 - 00:00CEST

Poco a poco los ordenadores están empezando a hablar y a escuchar, lo que va a ser toda una revolución que acercará la informática a los usuarios y convertirá un simple teléfono en un terminal de uso informático. Ya existen aparatos comercializados que sintetizan la voz, y otros -aunque éstos con más limitaciones-, que la reconocen. Los ordenadores hablan hasta ahora sólo el mismo lenguaje que sus padres, el inglés, pero la nueva variable del idioma hará que los equipos de las multinaciones no sean tan automáticamente exportables como ahora. Un equipo de científicos se prepara en Madrid para este futuro cercano y ha puesto a punto un prototipo de terminal que habla en castellano, en lo que constituye uno de los proyectos más avanzados en este idioma y sector en el mundo.

Más información

Muchas aplicaciones

El equipo que dirige, en su vertiente electrónica, Elías Mufloz Merino, catedrático de la Escuela Técnica Superior de Ingenieros de Telecomunicación (ETSIT) de Madrid y jefe del departamento de electrónica, lleva trabajando en el tema de síntesis de voz desde mediados de la década de los setenta. En el aspecto lingüístico la dirección ha correspondido al profesor Antonio Quilis, del laboratorio de fonética del Instituto Miguel de Cervantes del Consejo Superior de Investigaciones Científicas (CSIC)."El idioma castellano está bastante estructurado, tiene reglas fijas y, por tanto, se puede decir que es más fácil de sintetizar que el inglés", señala Muñoz Merino. Sin embargo, puesto que todos los trabajos se han hecho hasta la fecha sobre el inglés, el proceso de síntesis del castellano ha tenido dificultades. "Las vocales son más fáciles que en inglés, pero hay sonidos, como los correspondientes a las letras che y la erre doble castellanas, que han resultado muy difíciles".

En el prototipo que ya se ha logrado, que constituye una adaptación de un sintetizador avanzado de la empresa Digital Equipment Corporation, el terminal habla en correcto castellano, aunque con un acento que oscila entre lo electrónico y lo gangoso. La entrada hasta ahora es únicamente por teclado, lo que no quiere decir que en el futuro no se puedan acoplar otros sistemas, como los reconocedores de voz o los lectores de documentos escritos. "Todavía tenemos que perfeccionar algunas cosas, pero el trabajo básico ya está hecho".

Cuando esté terminado, el prototipo dispondrá de un cierto número de voces distintas ("hasta ahora sólo habla con voz masculina, lo hemos hecho machista", bromea Muñoz Merino), y de la posibilidad de cambiar el tono, el timbre, la inflexión y otras características, de forma que se pueda elegir la voz que se quiera escuchar (viejo, joven, niño, etcétera) y la forma de hablar (podrá cantar, tararear o simplemente sonar como un instrumento musical). Aunque todavía no se ha hecho nada sobre este aspecto, producir una voz que hable con acento andaluz, catalán o argentino es considerado también viable técnicamente. Cuando este aparato se comercialice en Estados Unidos con vistas al mercado español y latinoamericano quizá pocos sepan que el trabajo se ha hecho en España.

Éste es sólo, sin embargo, uno de los desarrollos hechos por el equipo de científicos, unas 10 personas, que trabaja sobre síntesis y reconocimiento de voz. "Nosotros no podemos decir que nos falte dinero para esta investigación", señala Muñoz Merino. "Hemos dispuesto de ayudas del Ministerio de Sanidad a través del Instituto de Servicios Sociales (INSERSO), de la Comisión Asesora de Investigación Científica y Técnica (CAICYT) y de contratos con la industria privada, como este último que estamos desarrollando. En estos contratos, los frutos de la investigación son públicos, no exclusivos para la empresa para la que se desarrollan".

En otros países, como la República Federal de Alemania, la síntesis y el reconocimiento de voz es un tema de investigación que desarrolla la compañía telefónica, debido a que está llamado a tener una gran incidencia en el sector de las comunicaciones. Sin embargo, en España, la Compañía Telefónica Nacional de España (CTNE), pese a haber mostrado interés por el asunto, no lo ha materializado. Existen otros equipos universitarios investigando en el tema, como los de la facultad de Ciencias de Granada, la de Informática de Valencia, dos grupos de la Universidad Politécnica de Cataluña y otro en la Universidad de Santiago.

Síntesis y reconocimiento

El equipo de la ETSIT de Madrid empezó a trabajar en la síntesis de voz como ayuda a minusválidos, un campo donde la electrónica ha incidido poco hasta la fecha por una cuestión puramente comercial, de falta de un mercado suficientemente grande. Primero desarrolló una calculadora parlante, que permitía a los ciegos trabajar con ella, ya que expresaba los resultados de las operaciones mediante la palabra hablada. Se trataba también de adaptar los lectores ópticos ya existentes en el mercado internacional para el español, lo que implicaba desarrollar un sistema de síntesis del castellano.Aunque de la calculadora se hicieron varias decenas de unidades, la rápida aparición de modelos japoneses de más bajo precio hizo que resultara más fácil enseñar inglés a los ciegos para que utilizaran calculadoras japonesas que hablan en este idioma.

Posteriormente, el equipo se dedicó a la ayuda para sordos, lo que implicaba entrar en el campo del reconocimiento de voz, un campo donde la investigación todavía no ha logrado grandes éxitos. Los sistemas hasta ahora comercializados en el mundo no pasan de reconocer varias decenas de palabras, siempre que las diga un solo locutor, y muy pocos sonidos si se trata de un sistema independiente del usuario. El reconocimiento de frases completas, con independencia del que las diga, no ha podido ser resuelto satisfactoriamente, aunque la mayor parte de las multinacionales de la informática trabajan sobre el tema.

Antes estas dificultades, los investigadores españoles se centraron en el reconocimiento de vocales, como ayuda a que los niños sordos aprendan a vocalizar correctamente. Este sistema cuenta con una pantalla donde se refleja la posición de elementos claves del aparato fonológico, como la lengua, los labios y la glotis. Sobre el esquema de una determinada vocal se superpone el correspondiente al sonido que realiza el niño, al tiempo que un muñeco frunce el ceño o sonríe, según el grado de aproximación que logre el niño en sus esfuerzos por aprender a vocalizar. "En estos sistemas de ayuda a minusválidos no se puede ser triunfalista", matiza Muñoz Merino. "Mucho depende de si son aceptados por los educadores. Ahora estamos poniendo a punto un sistema autónomo, con un microprocesador avanzado, que creo que es único en el mundo y que permitirá que el equipo esté en las escuelas o incluso en el domicilio del niño". Los experimentos se hacen, en colaboración con el Instituto Nacional de Pedagogía de Sordos.

En este mismo campo se está trabajando sobre el reconocimiento de los dígitos, del cero al nueve, y de las palabras sí y no, en un sistema diseñado para ser independiente del usuario.

En síntesis, lo que han hecho los técnicos españoles es proporcionar la ingeniería del castellano, la tecnología para medir y caracterizar el idioma y poderlo traducir al lenguaje electrónico, que es el que utiliza el ordenador. El sintetizador recibe así mensajes que corresponden a letras, pausas, etcétera, y las convierte en habla. En resumen, consta de dos microprocesadores avanzados, de los existentes en el mercado, a los que se añade la memoria necesaria. Existen unos programas de control del flujo de caracteres, que son comunes para cualquier idioma, y luego unos programas lingüísticos, específicos para cada lengua.