DeepMind, la compañía de Google más implicada en innovar en las inteligencias artificiales, ha mostrado sus avances en la creación de audio para vídeos que también sean creados por inteligencia artificial. Esta tecnología de vídeo a audio (V2A) explora las imágenes de los vídeos y la solicitud que se realice para crear audio para ellos.
La compañía ha publicado una buena cantidad de ejemplos poniendo la solicitud aunque indica que todavía está en desarrollo porque son conscientes de escenarios en los que puede fallar. La solicitud es opcional, por lo que puede basarse simplemente en los fotogramas del vídeo. Debido a ello, es capaz de generar audio que acompase a los cambios de cámara o al entorno, como montaña o pasillos oscuros, para generar uno u otro tipo de audio o música de fondo.
Los problemas actuales tienen que ver con la sincronización de voces con los labios de los vídeos, o que posibles distorsiones en el vídeo original pueden probar distorsiones en el audio.
Vía: EnGadget.