El modelo de inteligencia artificial de Disney crea series animadas de guiones
El hecho de que la IA pueda crear videos en bruto a partir de uno o más pasajes no es un mensaje sísmico en el mundo de la tecnología. El año pasado, los investigadores describieron en detalle cómo un sistema de excavación de redes neuronales, una clase de funciones matemáticas modeladas en forma de redes biológicas de neuronas (neuronas), crea canales. El video tiene 32 cuadros de largo y mide 64 x 64 píxeles y proviene de una serie de datos descriptivos impresionantes, como "juego en la hierba". Sin embargo, según un nuevo artículo publicado en Arxiv.org, los científicos de Disney Research y la Universidad de Rutgers lograron elevar la idea a nuevas alturas de principio a fin, creando líneas argumentales aproximadas, así como el texto de la película que describe el video. texto. En particular, el modelo de científico a animación facilita la creación de animaciones sin anotar datos, un paso preliminar que se utiliza para generar entradas descriptivas para actividades específicas.
- OpenAI AI derrota al actual campeón mundial Dota 2
"Automatizar la creación de animaciones de texto en lenguaje natural es una tecnología muy útil que se puede aplicar en muchas áreas, como guiones de películas o tutoriales en video. En particular, estos sistemas de IA mejoran su capacidad para replicar, crear prototipos y probar el concepto con mayor rapidez. a través de una implementación más rápida. Será especialmente valioso cuando se aplique a guiones. En este estudio, desarrollamos con éxito un sistema de entrega de texto animado que puede procesar palabras complejas. eso puede permitir efectivamente que los asistentes de IA apoyen y ayuden a los escritores a trabajar de manera más divertida ”, dijo el equipo.
Como explican los investigadores, traducir texto a animación no es una tarea fácil. De hecho, ni las oraciones (datos de entrada) ni las animaciones (datos de salida) tienen una estructura fija. Es por eso que la mayoría de las herramientas de video a video no pueden manejar patrones de oraciones complejos. Para hacer frente a las limitaciones de los sistemas existentes, el equipo creó una red neuronal modular que incluye múltiples componentes, como nuevos guiones para ayudar a los guiones a aislar dinámicamente el texto relevante de las descripciones de escenas en los guiones; un módulo de procesamiento de lenguaje natural, que simplifica patrones de oraciones complejas usando un conjunto de reglas lingüísticas y recuperando información en oraciones simplificadas en representaciones de acción predefinidas, y un módulo de creación de animación que convierte las representaciones anteriores en múltiples secuencias de animación.
- UE: los sistemas de inteligencia artificial deben desarrollarse e implementarse de manera transparente y responsable
Según los investigadores, este enfoque simplificado facilita la recuperación de información clave del script, y su sistema podrá determinar automáticamente cuándo una pieza de código usa una estructura sintáctica particular, luego analizarla y ensamblarla en oraciones más simples, y luego continuar recursivamente. hasta que ya no sea posible una mayor simplificación. El próximo "paso de coordinación" se aplicará a oraciones que tengan la misma conexión sintáctica y realicen el mismo rol funcional al mismo tiempo. Finalmente, un simulador de diccionario que ajusta acciones descriptivas en oraciones se simplificará con 52 animaciones diferentes en una biblioteca predefinida (expandiéndose a 92 animaciones usando el diccionario de palabras). definición.
Más tarde, un sistema llamado Cardinal usaría estas animaciones como entrada para la acción y crearía vistas previas (un proceso de conversión de escenas y guiones en imágenes 3D) en Unreal, una popular herramienta de videojuegos desarrollada por Epic Games. Basado en bibliotecas de animación, objetos y modelos predefinidos, se puede usar para crear personajes precargados para crear videos animados en 3D que describen de cerca el guión que se está procesando.
- Chatbot AI admite la búsqueda de información sobre estafas y fraudes
Para entrenar este notable sistema, los investigadores tuvieron que compilar una base de datos de descripción de escenas de 996 guiones, con más de 1000 guiones extraídos de fuentes gratuitas. Incluye IMSDb, SimplyScripts y ScriptORama5. En total, el almacén de datos incluyó 525 708 descripciones, que contenían 1 402 864 oraciones, y 920 817 (más del 40 %) incluyeron al menos un verbo que describía una acción.
En una prueba cualitativa, los investigadores pidieron a 22 participantes que calificaran 20 animaciones generadas por el sistema en una escala de 5 puntos (por ejemplo, si el video muestra una animación de texto lógico o cuánta información textual se describe en el video y cómo se incluyó el video). ? Mucha de la información ya se menciona en el texto), el 68% de los participantes dijo que el sistema creado por las animaciones de la escena de entrada tiene valor justo - no muy alto, pero muy encomiable.
Esto demuestra que este no es un sistema realmente perfecto. De hecho, su lista de acciones y objetos está incompleta y, a veces, el proceso de simplificación del vocabulario no logra mapear verbos complejos en tales animaciones o puede crear solo unos pocos verbos simples que contienen muchos sujetos en la oración original. Sin embargo, este es todavía un estudio emergente y estas limitaciones son completamente comprensibles. Los investigadores tienen la intención de abordar estas deficiencias en un futuro próximo.
- El modelo MIT AI puede capturar relaciones entre objetos con datos de entrenamiento mínimos
"Tanto las evaluaciones internas como las externas muestran una presentación razonable del sistema y esperamos utilizar la información del discurso, examinando la secuencia de acciones descritas en el pasaje. Esto también ayudará a resolver ambigüedades en el texto de la acción. Además, nuestro sistema se puede usar completamente para crear las fuentes de datos necesarias para entrenar tales sistemas neuronales de grupos de investigación de punta a punta. Guardar compartir.
Deja una respuesta