El principio de la física que inspiró el arte moderno con inteligencia artificial

Sohl-Dickstein utilizó los principios de difusión para desarrollar un algoritmo de modelado generativo. La idea es simple: el algoritmo primero convierte las imágenes complejas en el conjunto de datos de entrenamiento en ruido simple, similar a pasar de una mancha de tinta a agua azul clara difusa, y luego le enseña al sistema cómo revertir el proceso, convirtiendo el ruido en imágenes. .

Así es como funciona: primero, el algoritmo toma una imagen del conjunto de entrenamiento. Como antes, digamos que cada uno de los millones de píxeles tiene algún valor, y podemos trazar la imagen como un punto en un espacio de un millón de dimensiones. El algoritmo agrega algo de ruido para cada píxel en cada paso de tiempo, equivalente a la difusión de la tinta después de un pequeño paso de tiempo. A medida que continúa este proceso, los valores de los píxeles tienen menos relación con sus valores en la imagen original y los píxeles se parecen más a una simple distribución de ruido. (El algoritmo también empuja cada valor de píxel un poco hacia el origen, el valor cero de todos estos ejes, en cada paso de tiempo. Este empujón evita que los valores de píxel crezcan demasiado para que las computadoras los manejen fácilmente).

Haga esto para todas las imágenes en el conjunto de datos, y la distribución compleja original de puntos en un espacio de un millón de números (que no se puede describir ni restar fácilmente) se convierte en una distribución simple y normal de puntos alrededor del origen.

"La serie de transformaciones convierte muy lentamente su distribución de datos en una gran bola de ruido”, dijo Soll-Dickstein. Este "proceso directo" lo deja con una distribución de la que puede tomar muestras con facilidad.

Yang Song ayudó a crear una nueva técnica de generación de imágenes entrenando una red para decodificar eficientemente imágenes ruidosas.

Cortesía de Yang Song

Luego viene la parte del aprendizaje automático: dar a una red neuronal las imágenes ruidosas obtenidas de un pase hacia adelante y entrenarla para predecir las imágenes menos ruidosas que llegaron un paso antes. Al principio, cometerá errores, por lo que cambia los parámetros de la red para que funcione mejor. Eventualmente, la red neuronal puede convertir de manera confiable una imagen ruidosa que es representativa de una muestra de la distribución simple en una imagen que es representativa para el muestreo. de la distribución compleja.

La red entrenada es un modelo generativo completo. Ahora ni siquiera necesita una imagen original para hacer un pase hacia adelante: tiene una descripción matemática completa de la distribución simple, por lo que puede muestrearla directamente. La red puede convertir esta muestra, esencialmente estática, en una imagen final que se asemeja a una imagen en el conjunto de datos de entrenamiento.

Saul-Dickstein recuerda los primeros resultados de su modelo de difusión. "Vas a entrecerrar los ojos y decir: 'Creo que esa mancha de color parece un camión'", dijo. "Pasé tantos meses de mi vida mirando diferentes patrones de píxeles y tratando de ver la estructura que pensé: 'Esto está mucho más estructurado que nunca'. Estaba muy emocionado".

presentando el futuro

Sohl-Dickstein publicó su Algoritmo del modelo de difusión en 2015, pero todavía estaba lejos de lo que podían hacer las GAN. Si bien los modelos de difusión podían muestrear toda la distribución y nunca terminar arrojando solo un subconjunto de imágenes, las imágenes se veían peor y el proceso era demasiado lento. "No creo que se considerara emocionante en ese momento", dijo Soll-Dickstein.

Se necesitarían dos estudiantes, ninguno de los cuales conocía a Sohl-Dickstein ni entre ellos, para conectar los puntos de este trabajo inicial con modelos de difusión modernos como DALL·E 2. El primero fue Song, un estudiante de doctorado en Stanford en ese momento. 2019 d. él y su asesor publicó un nuevo método para construir modelos generativos que no estiman la distribución de probabilidad de los datos (la superficie de alta dimensión), sino que estiman el gradiente de la distribución (piense en ello como la pendiente de la superficie de alta dimensión).

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Subir
error: Content is protected !!