Inteligencia artificial

Los modelos de DeepMind AI pueden aprender a crear videos mirando videos de YouTube

Es posible que haya oído hablar de FaceApp, una aplicación de edición de fotos móvil que ha llamado la atención en todo el mundo al aplicar inteligencia artificial (IA) a la edición de selfies. Alta autenticidad. O Man Doesn’t Exist, otra aplicación de edición de fotos que crea retratos interesantes basados ​​en personajes gráficos ficticios generados por computadora. Estas son solo dos de las muchas excelentes aplicaciones de IA para la edición de fotos y tareas creativas. Entonces, ¿qué pasa con la edición de video?

Recientemente, DeepMind, una subsidiaria de Alphabet que se especializa en el desarrollo de inteligencia artificial, lanzó un nuevo invento llamado «Generación de video efectiva en conjuntos de datos complejos». video. Este es básicamente un algoritmo de IA que te enseña cómo crear videos simples a partir de videos disponibles durante el entrenamiento.

  1. Este sitio puede convertir tus selfies adolescentes en retratos clásicos de fantasmas


DVD-GAN ahora puede crear videos de muestra con composición física completa

Los investigadores de DeepMind dicen que su modelo actual de mejores prácticas, el Discriminador de video dual GAN ​​(DVD-GAN), es capaz de crear videos con una resolución de 256 x 256 píxeles, combinando el grado encomiable de Honestly de hasta 48 cuadros.

«La creación de videos de alta definición, por supuesto, parece ser el mayor desafío que enfrentan los modelos de IA en la actualidad. En particular, el mayor obstáculo es la complejidad de recopilar conjuntos de datos y requisitos computacionales. El trabajo de creación de videos en el pasado a menudo gira en torno a la implementación conjuntos de datos relativamente simples o tareas de disponibilidad de información en tiempo real, y ahora nos estamos enfocando en agregación de video y tareas de pronóstico, mientras nos enfocamos en las innovadoras «imágenes de IA para aspectos complejos del video. Más» de hoy, dijo un portavoz del equipo.

El equipo construyó su sistema en torno a una arquitectura de inteligencia artificial avanzada e introdujo una serie de configuraciones específicas de video que permitieron que el proceso de aprendizaje se basara en Kinetic-600, un conjunto de datos que incluye videos «naturales» en una escala mucho mayor de lo habitual. Específicamente, los investigadores utilizaron una red de competencia generativa (GAN).

  1. Nvidia construyó una de las supercomputadoras de IA más poderosas del mundo en solo 3 semanas

Modelo de IA de DeepMind Figura 2 Puede aprender a crear videos viendo videos en YouTube

Se entrena un conjunto de videos compuestos de 4 segundos en 12,128 × 128 cuadros de Kinetic-600.

En caso de que no lo sepas, GAN es un sistema de IA que consta de 2 partes separadas: la primera es la Red Generativa (red de nacimiento), que ayuda a crear muestras de entrenamiento (datos falsos), el objetivo es cómo crear datos de entrenamiento, para crear la más realista La segunda es la red discriminatoria: es la tarea de tratar de distinguir entre datos reales y falsos. Los sistemas GAN se utilizan para muchas tareas profesionales, como la conversión de subtítulos en historias en función de cada contexto y, en particular, la creación de imágenes artificiales con un realismo excepcional.

El DVD-GAN contiene una red de dos discriminaciones: el algoritmo discriminatorio puede proporcionar una señal de entrenamiento para la creación del deporte. Un módulo llamado Transformador le permite distribuir los datos y la información aprendidos en todo el modelo de IA.

  1. Google está lanzando un repositorio masivo de entrenamiento de IA que contiene más de 5 millones de fotos de 200,000 ubicaciones en todo el mundo.

Para la base de datos de capacitación Kinetic-600, se trata de un enorme conjunto de datos sintetizados a partir de más de 500 000 videos de YouTube de alta resolución en no más de 10 segundos. Inicialmente, los videos se usaban para identificar el comportamiento humano, y los investigadores describieron el almacén de datos como «diverso» y «sin restricciones» y particularmente adecuado para la capacitación. El modelo abierto es similar al DVD-GAN de DeepMind. (En el campo del aprendizaje automático, existe un término llamado ‘actualización’ para denotar un modelo a gran escala que está demasiado cerca de un conjunto específico de datos, lo que lleva a observaciones impredecibles. Futuro de manera confiable).

Según un informe del equipo de investigación, después de 12 a 96 horas de capacitación continua en el procesador de tensor de tercera generación de Google, DVD-GAN ahora puede producir videos por sí solo. El modelo tiene una composición física completa, movimiento e incluso estructuras complejas como reflejos en las superficies de los ríos, pistas de hielo. DVD-GAN necesita «trabajar duro» para crear objetos complejos con resoluciones más altas, donde el movimiento involucra más píxeles. Sin embargo, los investigadores señalan que las muestras de video creadas por DVD-GAN han logrado resultados después de fueron calificados en UCF-101, un conjunto más pequeño de 13,320 videos de acción humana. El resultado inicial fue 32,97, nada mal.

  1. El modelo MIT AI puede capturar relaciones entre objetos con datos de entrenamiento mínimos

Modelo de IA de DeepMind Figura 3 Puede aprender a crear videos viendo videos en YouTube

Las muestras de video creadas por DVD-GAN obtuvieron una puntuación inicial de 32.97

«En el futuro, nos gustaría enfatizar aún más los beneficios de entrenar modelos comunes en grandes conjuntos de datos de video complejos, como el Kinetic-600. Aunque todavía queda mucho trabajo por hacer para crear videos reales de manera consistente en una variedad infinita de configuraciones, creemos que DVD-GAN es el paso de demostración perfecto. Hacer realidad este sueño «, dijo un representante del equipo de investigación.

¿Qué opinas del modelo AI DVD-GAN de DeepMind? Por favor, deja un comentario a continuación.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

Botón volver arriba
error: Content is protected !!