Header Ads Widget

Ticker

6/recent/ticker-posts

Inside Speech Graphics: Creando Las Caras Virtuales Del Futuro

 Encontré por primera vez Speech Graphics con sede en Edimburgo lejos de las calles de Escocia, en Austin, Texas, en SXSW Interactive 2014. Sin embargo, los fanáticos de la música rap pueden conocer mejor a la compañía por su trabajo en el video de Kanye West de 2014, "Black Skinhead" .

Esto resultó ser un excelente escaparate para la tecnología de la compañía , que crea animaciones faciales realistas basadas en análisis de audio. El proyecto, un video de tres minutos con animación 3D y metraje de la película de Kanye West mientras acecha el piso, contenía algunas imágenes controvertidas, pero para Speech Graphics fue principalmente un proyecto fascinante en el que trabajar.

Michael Berger, cofundador y director de tecnología de Speech Graphics, explica: "Nos contactaron un viernes, necesitaban la animación el martes para un video de tres minutos de música rap continua, y querían que toda esta animación estuviera sincronizada con el rap. Así que fue un cambio rápido y una presión muy alta, pero lo logramos ".

A través del análisis acústico de la pista de voz de Kanye, la tecnología de Speech Graphics fue capaz de identificar automáticamente las activaciones de los músculos faciales utilizadas para producir el sonido y adoptar esta información para animar un modelo 3D de la cara del rapero; el resultado final le pareció al espectador como una entrega emocional particularmente cruda.

Inicios estudiosos

El viaje de Speech Graphics comenzó en la Universidad de Edimburgo, donde los cofundadores Berger y el Dr. Gregor Hofer eran estudiantes de doctorado. La pareja compartía un interés en la animación basada en audio, pero enfrentaron el desafío desde diferentes ángulos: la carrera académica de Berger había comenzado con un título en lingüística, mientras que la formación de Hofer había sido en psicología e informática.

Juntos tuvieron una idea que ahorraría tiempo y dinero a los estudios de animación y juegos, al hacer posible tomar el audio hablado por un actor y crear una animación correspondiente automáticamente, en lugar de tener que animar minuciosamente el discurso a mano. Hofer cree que la clave de su éxito es que, mientras desarrollaban su tecnología, se mantuvieron enfocados en las necesidades de su industria objetivo.

“Si desarrolla algo por su cuenta y no recibe ningún comentario, es posible que no presione los botones correctos”, dice Hofer. "Lo principal es hablar con la industria lo más rápido posible, incluso si no le compran de inmediato".

Hablar estaba bien en 2009, mientras Berger y Hofer todavía eran estudiantes, pero necesitaban un descanso para convertir la tecnología en un negocio viable. Eso ocurrió a principios de 2010: "Un día, un gran estudio de desarrollo de juegos se puso en contacto con nosotros", explica Hofer. "Ese fue el momento clave en el que comenzamos a decir, está bien, esto es algo que podemos perseguir".

"Lo principal es hablar con la industria lo más rápido posible"

A finales de año, habían incorporado la empresa, estableciendo su sede desde su actual base de Edimburgo. “Tenemos una buena red aquí, por lo que tenemos contactos valiosos para contratar personas”, dice Hofer. La universidad jugó un papel con los cursos y los puso en contacto con personas que podrían ayudar, incluido el acceso a abogados.

“El clima es terrible”, admite Berger. "Pero es una ciudad hermosa y mucha gente quiere trabajar y vivir aquí, lo que ayuda cuando se trata de reclutamiento".

Ganar dinero

Speech Graphics ahora emplea a diez personas en Edimburgo, con una red de contratistas en todo el país; Se cargan muchos datos en la nube para el control de calidad por parte de especialistas de todo el mundo.

Como ocurre con la mayoría de las empresas jóvenes, el camino hacia el éxito ha tenido sus obstáculos. Speech Graphics comenzó a obtener contratos en 2011 y 2012, pero el primer gran proyecto de la compañía no terminó como esperaban. “Desafortunadamente, el primer juego en el que trabajamos fue cancelado”, dice Hofer. “Habíamos trabajado mucho en él, pero esa fue nuestra bienvenida a la industria de los juegos; antes de esto, no nos dimos cuenta de la cantidad de cosas que se cancelan. Se cancelan más juegos de los que se lanzan ". No todas fueron malas noticias. El equipo recibió el pago completo por su trabajo y la tecnología fue nominada para un premio de la industria de los juegos a fines de 2012.

Luego, en 2013, la compañía obtuvo un contrato "muy grande" para proporcionar la animación facial en Middle-Earth: Shadows of Mordor (publicado por Warner Bros Games). Speech Graphics proporcionó dos horas de animación para el juego, lanzado en septiembre de 2014, así que si estás impresionado por las caras realistas de Uruk, entonces sabes quién debería ganar el crédito.

Dichos contratos son clave para el negocio, pero mejorar la tecnología central sigue siendo crucial. “Estamos haciendo el trabajo de dos empresas”, dice Berger. “Somos una empresa de animación, produciendo animaciones basadas en nuestra tecnología, y esa es nuestra principal fuente de ingresos; pero al mismo tiempo, todavía estamos desarrollando la tecnología que usamos en ese proceso ".

En los últimos meses, mientras que el lado de producción de la compañía se ha centrado en el juego, el lado de desarrollo de Speech Graphics ha estado trabajando para mejorar su sintetizador de movimiento, el componente que traduce los datos de audio en movimientos faciales.

"Somos una empresa de animación ... pero al mismo tiempo todavía estamos desarrollando la tecnología que estamos usando en ese proceso".

“Hemos hecho que el movimiento que producimos sea más orgánico y más realista”, explica Berger. “Animamos toda la cara ahora. Cuando analizas el audio, obtienes una representación fonética del discurso, pero también predice el comportamiento no verbal en la parte superior de la cara, incluidas las cejas, el parpadeo y los dardos oculares ".

¿Cómo, le pregunté, deduce uno del otro? “Ese es uno de nuestros secretos”, responde con timidez Berger, “pero extraemos características de la señal de audio que tienden a correlacionarse con ciertas expresiones faciales. Por ejemplo, si dices algo con un tono alto, cuando llegas al final de una oración y tu voz sube, por ejemplo, tus cejas tenderán a subir con ese tono ". También hay otras señales: cuanto mayor es la intensidad de nuestro habla, mayor es la velocidad de parpadeo. Berger confía en que las cosas seguirán mejorando. “Creo que estamos a cinco años de la animación facial fotorrealista, donde no se puede distinguir la diferencia entre la cara real y la animada; estoy hablando de animación automatizada; animación no tocada a mano ".

En china

Quizás sorprendentemente, la tecnología de Speech Graphics no es específica del idioma: dado que el análisis se basa en la estructura ósea y muscular, funciona tan bien para el chino mandarín como para el inglés de Home Counties. Da la casualidad de que otro gran proyecto que asumió la empresa utilizó la tecnología para ayudar a los chinos a mejorar su pronunciación del inglés.

“El proyecto Saundz en 2012 y 2013 fue para una empresa que estaba desarrollando un sitio web y una aplicación para enseñar al mercado chino cómo pronunciar inglés sin acento”, dice Berger. “Nos pidieron que produjáramos un gran conjunto de animaciones: una vista de una mujer diciendo palabras tanto desde el frente como desde el interior de la boca y el tracto vocal. Creamos un modelo interior del tracto vocal, con mucha adaptación del artista, y manejamos ese modelo con el mismo algoritmo que usamos para impulsar los músculos faciales externos ".

Puede ver los resultados en saundz.com o descargando la aplicación de la empresa. "Es la animación más detallada hasta la fecha del proceso del habla humana", afirma Berger, quien señala que la tecnología que impulsa la animación es propiedad de su empresa.

En el horizonte

Entonces, ¿qué sigue para Speech Graphics? Berger hace una pausa. "Hay otro proyecto de juego que se avecina en otoño", dice con cautela. Nombres "Eso se revelará en el futuro", dijo Hofer, con una risa de disculpa. "Nos asociamos con grandes empresas y estamos sujetos a acuerdos de confidencialidad [acuerdos de confidencialidad] para muchas cosas".

La pareja es más comunicativa cuando se trata de su propia tecnología. Un proyecto que la compañía está desarrollando, junto con un departamento del gobierno japonés, es un avatar interactivo, que responde cuando le habla.

"Ya está implementado en Japón con anime", dice Hofer, "pero quieren llevarlo a Europa". Speech Graphics tiene la capacidad de darle vida a través de una animación facial realista, y ha conseguido un trato para proporcionar los personajes y el modelo de síntesis de voz para impulsar los movimientos faciales.

La primera demostración de la tecnología se realizará a finales de este año en la Universidad de Edimburgo, donde los visitantes podrán hablar directamente con un avatar. Hofer ve aplicaciones como asistentes de tiendas virtuales: "Puede que estés en una tienda y puedas preguntar: '¿Dónde puedo encontrar este perfume en particular?', O un juguete, y el avatar podría dirigirte o mostrarte en un mapa. . "

“También hemos estado trabajando en una tecnología similar para dispositivos móviles”, dice Berger. "Pero todavía estamos desarrollando la aplicación, ¡todavía no quiero decir nada!"

Publicar un comentario

0 Comentarios