Las emociones humanas expresadas por una máquina

La industria del entretenimiento da otro paso de gigante hacia la innovación y la consecución de nuevas ideas, buscando fórmulas que nos abran la puerta a posibilidades y sensaciones nuevas en los productos interactivos audiovisuales. La última curiosidad llega de la mano de Sonantic, y busca dotar a las inteligencias artificiales de más expresividad y emotividad, concretamente a través del sonido, a través de la voz.

Sonantic es una start-up con sede en el Reino Unido, un estudio y laboratorio especializado en la producción y el desarrollo de material sonoro para productos digitales, y su trabajo actual persigue el ambicioso objetivo de dotar de emociones a una inteligencia artificial, concretamente pretenden otorgarle la capacidad de llorar y expresar tristeza a una IA, y parece que lo han conseguido. El pasado día 13 de este mismo mes lanzaban un vídeo promocional de su trabajo, titulado Faith: First AI That Can Cry. Dicha pieza muestra una cinemática de demostración, destinada a exponer las características del producto, y en la que podemos escuchar el diálogo entre una chica y su madre. Se trata de un diálogo especialmente emocional y sentimental, con voces cargadas de matices propios de la tristeza o la pena, voces que transmiten incluso la sensación del llanto contenido. Lo que hace importante a este vídeo es que dichas emociones y sensaciones están conseguidas con voces producidas por completo de manera digital y artificial, es decir, Sonantic ha conseguido que un ordenador transmita emociones humanas. Se trata, sin duda, de un hito para la industria del entretenimiento digital e interactivo.

Además de la demostración del producto, el video muestra un esbozo del método de trabajo de Sonantic, a través de los testimonios de sus principales responsables, Zeena Qureshi y John Flynn. El estudio utiliza la tecnología “Text-to-speech”, que, como su nombre indica, se basa en un software capaz de convertir en voz cualquier dato de texto. Y no solo eso, sino que puede modularse y tratarse para expresar emotividad. El equipo ha contado con las opiniones de docentes y educadores, como la propia Zeena, así como expertos en técnicas de aprendizaje en niños. Determinando que la tristeza es una de las primeras emociones que interiorizamos y expresamos, y que conlleva una gran carga expresiva, han querido centrar sus esfuerzos en reproducir dicha emoción. Es curioso e irónico que se consiga emular algo tan incierto e irracional como las emociones a través de programas matemáticos y algoritmos, pero es lo que Sonantic parece haber conseguido.

Desde Sonantic aseguran que su nueva tecnología puede ser beneficiosa para los estudios de videojuegos, al acelerar y abaratar la producción de voces, además de permitir tiempos de producción más breves. Por otro lado, según explican, serán capaces de implementar este nuevo método con las grabaciones de voces tradicionales y el trabajo de los actores. Aseguran poder combinar ambas fuentes de voz, ya sea recreando sesiones grabadas por los actores o añadiendo nuevo material en base a lo que se ha grabado previamente. Alrededor de este tema surge la pregunta más polémica que puede generar el proyecto de Sonantic: “¿Devaluará esta tecnología el trabajo de los actores de doblaje?”. Desde mi punto de vista es muy pronto para estimar los efectos de esta herramienta en la industria, hay que esperar a la respuesta de los estudios, probar su funcionamiento y rendimiento cuando se trabaje con ella a gran escala y, por último, comprobar si realmente se puede complementar con el trabajo de los actores o, por el contrario, un modo de hacer las cosas sustituirá al otro. Sea como sea nos encontramos ante un hito en la producción de contenido multimedia e interactivo.