MÁS

Una inteligencia artificial que genera imágenes a partir de descripciones en texto

OpenAI, una organización sin fines de lucro dedicada a la investigación de la inteligencia artificial, presentó recientemente una red neuronal llamada DALL-E, entrenada para crear imágenes a partir de leyendas de texto.

Esta tecnología, que recibe su nombre a partir de un juego de palabras entre el apellido de Salvador Dalí y Wall-E, el personaje de Disney, soporta una amplia gama de conceptos y expresiones en lenguaje natural, que utiliza como base para la generación de resultados realimentos impresentes.

La base de esta red neuronal se basa en GPT-3, acrónimo de Generative Pre-trained Transformer 3, que es un modelo de lenguaje autorregresivo que emplea técnicas de aprendizaje profundo en la producción de textos que simulan la edición humana.

En el caso de DALL-E, estamos ante una versión de 12 mil millones de parámetros de GPT-3, entrenados para generar imágenes a partir de descripciones de texto, utilizando un conjunto de datos de pares de texto e imagen.

Al investigar las ventajas de esta tecnología, el equipo de OpenAI descubrió en ella una serie de amplias y variadas capacidades, como la aplicación de transformaciones a imágenes existentes, la creación de animales y objetos en versiones antropomórficas y la increíble combinación de conceptos relacionados.

Ejemplos sorprendentes de imágenes generadas por computadora

Haciendo gala de la potencia de esta herramienta, en la presentación que OpenAI realizó en su blog sobre DALL-E, se adjuntan algunas de las imágenes obtenidas a través de este canal.

En la imagen adjunta se puede ver en primera fila diferentes muestras de sillones con forma de aguacate, como respuestas generadas por la IA ante la entrada de texto”un sillón en forma de aguacate«. En la segunda fila, se generó una serie de letreros comerciales con la inscripción “OpenAI” antes de la frase “el frente de una tienda que tiene escrita la palabra ‘openai’«. En la tercera fila, aparece una serie de gatos bosquejados en base a la fotografía que les precede, generados en base a la orden «exactamente el mismo gato en la parte superior que un boceto en la parte inferior«.

Un mismo orden puede ser generado en diferentes variantes gráficas, como en estilos de pintura genéricos; en estética Pop Art, cubista o surrealista; emulando los estilos de Van Gogh o Monet; dibujos a lápiz, carbón, crayones, tiza o lápiz; ilustraciones tipo pixel art o caricature y como fotografía en varias tonalidades, entre otros ejemplos más.

Una IA capaz de trabajar con una gran cantidad de variables

La inteligencia artificial detrás de DALL-E concibe el texto y la imagen como una única secuencia de datos, que puede alcanzar hasta 1280 tokens. Se entrenó con la máxima probabilidad de generar todos los tokens, uno detrás de otro y así, contar con una conceptualización lo más acabada posible de aquello que se busca materializar gráficamente.

Este IA puede dominar varios atributos al mismo tiempo al construir una imagen y tiene la capacidad de agregar más de un objeto al mismo plano. También, puede controlar variables como la perspectiva y tridimensionalidad de una escena, así como también puede comprender la estructura de algunos objetos y realizar inferencias en torno a su contexto, como aspectos culturales, temporales o geográficos. Con esta herramienta, además de diseñar o alterar imágenes de objetos, también puedes trabajar con entornos y combinar conceptos no relacionados.

En la presentación de este interesante avance, desde OpenAI señalaron como proyección que «Planeamos analizar cómo los modelos como DALL-E se relacionan con cuestiones sociales como el impacto económico en ciertos procesos de trabajo y profesiones, el potencial de sesgo en los resultados del modelo y los desafíos éticos a largo plazo que implica esta tecnología.”. Claramente, esto es el principio de algo que no se detendrá único en la entrega de sorpresas como esta.

Puede revisar en detalle la presentación de DALL-E y conocer más ejemplos de su trabajo en el blog de Open AI.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba
error: Content is protected !!