Comprender cómo funciona con precisión la voz humana. Ése es el punto de partida de una investigación ambiciosa que comenzó en 2013 y que cuenta con la subvención de la Unión Europea. Se llama Eunison y para cuando ofrezca los primeros resultados, previstos para el año que viene, la tecnología estará más cerca de hacer que las voces de las máquinas sean como si realmente un humano estuviera hablando.
Eunison, en cuyo desarrollo participan entre otros el Centro Internacional de Métodos Numéricos en Ingeniería (CIMNE) y el grupo de investigación en Tecnologías Media (GTM) de La Salle R&D, tiene como objetivo sustituir el método más usado actualmente para generar voz artificial - solo se genera la señal acústica - por una simulación real donde se tengan en cuenta los principios físicos por los que el cuerpo humano genera la voz.
Idiomas, artistas, medicina y los robots/máquinas del futuro
Las posibilidades y campos donde aprovechar un mejor conocimiento de cómo funciona y se genera la voz son muy amplias. Van desde la medicina, con un avance en cómo se originan problemas de la voz para mejorar el diagnóstico y tratamiento, hasta ayudas para estudiantes de idiomas y artes vocales, sin olvidar a esos humanoides e interfaces que, salvo Scarlett Johansson en Her, suenan a máquina ante todo y no facilitan la comunicación humano-máquina.
Con ayuda de supercomputadores, la labor del equipo del CIMNE se centra en la simulación numérica del flujo de aire que resulta en la generación de sonido y de la voz en el interior del cuerpo humano. Cuando se una al resto de etapas de otros grupos de trabajo, se tendrá una simulación completa computacional de la producción de la voz humana.
En el futuro se tiene la esperanza de poder tener un modelo computacional detallado de la voz humana que permita ser controlado con señales de entrada a diferentes niveles.
Más información | AgenciaSinc. Más información | Eunison.
Ver 12 comentarios
12 comentarios
Reimous
Yo personalmente hice uso de las voces de IVONA 2 para un programa de un cajero de parking y suenan increíbles. Pude utilizar varios idiomas con una pronunciación muy buena.
carcayu
Yo le veo una aplicación que puede ser todavía más masiva: la comunicación por voip con tarifa de datos de baja velocidad.
Es decir, en lugar de envíar un archivo de audio contínuo, enviarías texto (el programa haría un reconocimiento en tiempo real de lo que hablas) acompañado de la especificación de ciertos gestos (suspiros, exclamaciones, etc.), todo ello en formato texto, como si se tratara de un servicio de mensajería. el oyente que lo recibe, en lugar de leer un texto, tendría un sintetizador de voz que tendría los datos de la persona emisora guardada (previamente descargados con una conexión mas potente), y te lo traduciría como si fuera voz, y no sabrías a simple vista apreciar la diferencia.
Es decir, lograrías el mismo tipo de comunicación de audio que se produce mediante programas como line o skype, pero el intercambio de datos que se produciría es puro texto en lugar de audio (mucho menos pesado), y se utilizaría de intermediario un reconocedor de texto y un sintetizador.
A quien le parezca buena idea le doy carta libre para que lo patente :P
eltryan
Creo que de la misma forma que al ver una pelicula con efectos especiales sublimes o un videojuego gráficamente increíble habrá un algo que nos diga que eso no es real.
Siempre que hay algún efecto especial, por muy bien hecho que esté, se nota que no es real. Y por muchos gráficos que tenga un juego hay algo que lo diferencia de la realidad.
En este aspecto seguro que habrá un gran valle inquietante.
royendershade
A mi me parece que es innecesario simular el aparato humano dado el nivel de calidad de audio que tenemos hoy dia. Solo hay que dotar a esos sistemas de una calidad de sonido muy buena (software y hardware) y cuidar bien las atenuaciones, cortes y concatenaciones entre fonemas. Es un trabajo costoso en tiempo y dinero, pero creo que menos que lo que pretenden. Despues todo pasara por añadir en los parones sonidos de tomar aire (por leves o suaves que sean frente al subsconciente ayudan a engañar al oyente) y dubitativos: "Pues, eeh..., en realidad... estoo.."
riwer
Vocaloid quiere updates en esta dirección.
EIRI
prueben ivona en android, es genial