Inicio Noticias Ampliación de fotos con modelos de difusión

Ampliación de fotos con modelos de difusión

Los investigadores del Brain Team de Google compartieron noticias sobre los avances que lograron en una resolución de súper imagen. Hay resultados impresionantes al usar SR3, un modelo de difusión de súper resolución. Luego, el equipo utilizó un enfoque en cascada para generar imágenes naturales de alta resolución.

En una publicación titulada Generación de imágenes de alta fidelidad utilizando modelos de difusión, Jonathan Ho y Chitwan Saharia explican que los modelos de difusión, propuestos originalmente en 2015, ofrecen compensaciones potencialmente favorables sobre otros tipos de modelos generativos profundos. Escriben:

Los modelos de difusión funcionan corrompiendo los datos de entrenamiento agregando progresivamente ruido gaussiano, borrando lentamente los detalles de los datos hasta que se convierten en ruido puro, luego entrenando una red neuronal para revertir este proceso de corrupción. Inverse sintetiza los datos a partir del ruido puro nombrándolos gradualmente hasta obtener una muestra limpia. Este procedimiento de síntesis se puede interpretar como un algoritmo de optimización que sigue el gradiente de densidad de los datos para producir muestras probables «.

La publicación de su blog presenta los dos enfoques que utilizó Brain Team para ampliar los límites de la calidad de síntesis de imágenes para los modelos de difusión. La primera es la superresolución de imágenes a través del refinamiento iterativo (SR3), la publicación del blog lo resume:

SR3 es un modelo de difusión de súper resolución que toma una imagen de baja resolución como entrada y crea una imagen de alta resolución correspondiente a partir del ruido puro. El modelo se entrena en un proceso de corrupción de imagen en el que el ruido se agrega progresivamente a una imagen de alta resolución hasta que solo queda ruido puro. Luego, aprenda cómo revertir este proceso, comenzando con ruido puro y eliminando progresivamente el ruido para alcanzar una distribución objetivo a través de la guía de imagen de baja resolución de entrada.

El artículo técnico incluye ejemplos de resultados de superresolución de entradas de baja resolución:

Al notar que la cascada mejora la calidad y la velocidad del entrenamiento para datos de alta resolución, los investigadores fueron más allá al usar sus modelos SR3 para la generación de imágenes condicional de clase (CDM).

CDM es un modelo de difusión condicional en el aula entrenado en datos de ImageNet para generar imágenes naturales de alta resolución. Dado que ImageNet es un conjunto de datos difícil y de alta entropía, creamos CDM como una cascada de múltiples modelos de difusión. Este enfoque en cascada implica el encadenamiento de múltiples modelos generativos en diferentes resoluciones espaciales: un modelo de difusión que genera datos de baja resolución, seguido de una secuencia de modelos de difusión de superresolución SR3 que aumentan gradualmente la resolución de la imagen generada al máximo. .


Los investigadores del Brain Team son positivos sobre el potencial de estas técnicas de escritura:

“Con SR3 y CDM, impulsamos el rendimiento de los modelos de difusión de última generación en los puntos de referencia de generación ImageNet de superresolución y condicional de clase. Estamos entusiasmados de seguir probando las limitaciones de los modelos de difusión para una amplia variedad de problemas de modelado generativo «.

sr3egs

Resultados de súper resolución: (arriba) 64 × 64 → 512 × 512 resolución de súper rostro, (abajo) 64 × 64 -> 256 × 256 resolución de imagen natural.

Marc Gomez
Vine a por tabaco y ya me quedé aquí. Cuando no estoy en el sótano de Tecnopasion suelo pasear por las calles de Barcelona.
RELATED ARTICLES