Cómo funciona native dubbing, la tecnología de doblaje por inteligencia artificial que prueba la BBC

El CEO de la compañía expone las diferencias con la tecnología de deepfake y futuro de una técnica que pretende vencer las barreras idiomáticas.

 

Matthew Amroliwala es presentador de noticias en la BBC. Solo habla inglés pero, días atrás, la cadena de noticias inglesa mostró cómo el periodista podía hablar en español, chino mandarín e hindi. Se trató de un experimento de inteligencia artificial (IA) a través de una tecnología denominada native dubbing (doblaje nativo).

La prueba fue realizada en el marco del proyecto “Beyond Fake News” (Más allá de las noticias falsas). Es una serie de documentales e informes para luchar contra la desinformación y las noticias falsas.

 

En un posteo en Medium, Ahmed Razek, tecnólogo y productor en la cadena, explica que esta prueba se inspiró en el video viral “Fake Obama”. Allí, redes neuronales lograban hacer decir al ex presidente de los Estados Unidos “palabras programadas”.

 

En este caso, el experimento estuvo a cargo de la Universidad de Washington. Los investigadores utilizaron la IA para modelar con precisión cómo Obama debía mover la boca al hablar, para parecer natural.

Según explica Razek, en el caso de la BBC, el presentador Amroliwala grabó un guión de 20 segundos. Luego, pidieron a 3 presentadores diferentes de los servicios en español, mandarín e hindú, grabar lo mismo en sus idiomas nativos.

 

La prueba fue realizada con tecnología de Synthesia. Es una startup de Londres, basada en investigaciones académicas de 5 años de la Universidad de Londres (UCL) y Universidad de Stanford, e integrada por profesores e investigadores. El siguiente video es una demo de cómo funciona su tecnología.

 

“El proceso de native dubbing es bastante simple. Capturamos una pequeña cantidad de datos de entrenamiento que nos permiten producir un modelo de cara de un actor en particular”, señala a Infobae Victor Riparbelli, CEO y cofundador de Synthesia.

 

Continúa: “Luego grabamos un actor de doblaje y sincronizamos sus movimientos de labios con el actor original. Antes de iniciar cualquier proceso, garantizamos el consentimiento del actor involucrado”.

 

El software de inteligencia artificial de Synthesia en la BBC

 

Entonces, el software necesita datos de entrenamiento para que los algoritmos de aprendizaje profundo y visión computacional (deep learning y computational vision) trabajen en una red generativa o redes GAN (redes generativas antagónicas, por sus siglas en inglés). El fin es lograr nuevas imágenes de esa persona. Así, redes neuronales toman imágenes de una persona y aprenden cómo recrearlas a partir de imágenes originales.

 

En el caso de la BBC, esta red fue entrenada para desarrollar imágenes fotorrealistas de la cara del presentador. Puppeteering (proviene de la palabra en español titiritero) es el proceso de transferencia de estos datos que permite crear la nueva cara digital.

Victor Riparbelli, CEO de Synthesia

 

Riparbelli señala que todo lo que hace su software ha sido posible, durante los últimos 10 años, a través de efectos visuales. Por ejemplo, en películas de Hollywood que utilizan las mismas tecnologías para crear humanos digitales.

 

“Por ejemplo, en Star Wars: Rogue One, Bladerunner 2049 y gran cantidad de otras películas… La diferencia es que podemos hacerlo automáticamente, lo que significa que no se necesitan millones de dólares para crear resultados creíbles”, destaca.

 

¿Podría, entonces, el método native dubbing crecer en el cine? “¡Sí, absolutamente! El objetivo es crear películas y TV en otros idiomas. Imagina si pudieras tomar una película argentina y crear una versión en inglés o en mandarín. Más gente disfrutaría esa película y los productores podrían llegar a un público más amplio”, responde el inglés.

 

Respecto del futuro de esta tecnología, Riparbelli expresa: “En 5 años, será tan normal ver películas dobladas como leer libros traducidos hoy. El doblaje nativo también permitirá a los países más pequeños competir mejor con Hollywood porque no están limitados por la audiencia en sus países de origen”.

 

Asimismo, no descarta la posibilidad de incorporar la tecnología a las transmisiones en vivo. “No ahora, pero en algún momento podría ser posible”, expresa.

 

Deepfake, el mal uso

Medios sintéticos se llaman a los contenidos creados algorítmicamente. Esta técnica es conocida como deepfake, es decir, aprendizaje profundo y falso.

 

Bajo este nombre, implica un uso malintencionado de la tecnología, que abarca desde noticias falsas hasta pornografía (con videos protagonizados por famosas, por ejemplo).

 

“Deepfake son todos los videos alterados, generados por redes (inteligencia artificial) con contenido audio visual falso. Esto significa superponer una cara y audio en un cuerpo que pareciera el real para hacer o decir cosas que no sucedieron”, explica a Red Hat, Victoria Martínez Suárez, quien trabaja como gerente de desarrollo de negocios en Red Hat, cubriendo soluciones de big data, analítica avanzada, IA y machine learning.

 

Continúa: “Sabemos que contar con la evidencia de un video es la prueba o backup para verificar una acción o idea, el riesgo de deepfake es que puede tener el mismo mal impacto que las fake news. Generar contenido audiovisual falso para hacer creer cosas que no sucedieron”.

 

Según explica, la diferencia entre esta tecnología y native dubbing es que este último concepto está pensado para vencer barreras idiomáticas.

 

“Por ejemplo, se puede simular un audio en base a varias horas de grabación, con los tonos de voz de una persona, y estos modelos neuronales pueden aprender estos tonos y luego, con esa frecuencia de voz simulada, decir cualquier texto”, explica.

 

Representa un desafío para la BBC y todas las compañías que quieran usar la tecnología de native dubbing, encontrar herramientas que puedan verificar la autenticidad de un video, para poder demostrarlo a la audiencia.

 

Sin barreras idiomáticas y el buen uso de deepfake

Por su parte, el ingeniero Fredi David Vivas, especialista en big data, IA y data science, señala: “Según Synthesia, su propósito es crear un mundo ´sin barreras idiomáticas´, en el que cualquier persona pueda disfrutar de cualquier contenido de video con independencia de su idioma”.

 

Continúa: “Si esto puede desarrollarse, no solo las barreras idiomáticas serían derribadas, especialmente considerando que hay que dominar el inglés para poder entender el 52,3% del contenido de internet. Sin embargo, solo un cuarto de los usuarios de la red hablan este idioma (26,2%), según datos de Statista”.

 

Vivas también destaca el ejemplo de uso de la tecnología en la película Starwars: Rogue one. “Vemos actuar nuevamente al actor Peter Cushing, fallecido en 1994, y ésto se logra utilizando tecnologías como deep fake, que nos brindan la posibilidad de disfrutar discursos nuevos de viejos personajes”, finaliza.

 

 

 

 

Fuente: Infobae

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.