top of page

Google Muse: ¿Es este el futuro de la generación de imágenes?



¿Podría ser este el próximo gran descubrimiento en IA generativa?


Google AI ha publicado un artículo de investigación que detalla Muse, un nuevo modelo de generación de texto a imagen que utiliza transformadores generativos enmascarados para producir imágenes de alta calidad a un ritmo más rápido que los modelos rivales como DALL-E 2 e Imagen.


La tecnología innovadora detrás de Muse: Transformadores generativos enmascarados


Un transformador generativo es un tipo de modelo de aprendizaje profundo que puede generar nuevos datos, como texto, imágenes o audio, en función de una entrada o descripción determinada. La característica clave de estos modelos es su capacidad para manejar dependencias a largo plazo y generar resultados realistas y coherentes. Sin embargo, cuando se trata de la generación de imágenes, estos modelos tienen una limitación, tienden a generar las mismas imágenes cuando se alimentan con una entrada similar, lo que puede dificultar que el modelo aprenda a generar imágenes diversas.


El Transformador generativo enmascarado es una versión avanzada del transformador generativo que aborda esta limitación mediante el uso de una técnica llamada "enmascaramiento". En esta técnica, el modelo se entrena para predecir tokens de imagen enmascarados aleatoriamente, lo que significa que algunas partes de la imagen están ocultas para el modelo mientras genera la salida. Esto obliga al modelo a ser más creativo y generar diversas imágenes, en lugar de limitarse a reproducir las mismas imágenes que ha visto antes.


Además, este enfoque permite que el modelo aprenda a generar imágenes basadas en la incrustación de texto de un modelo de lenguaje grande que ya ha sido entrenado, esto brinda la ventaja adicional de permitir que el modelo comprenda la entrada de texto y genere imágenes que coincidan con la descripción. .


Este nuevo desarrollo tiene el potencial de revolucionar el campo de la generación de imágenes y ya ha sido implementado por empresas como Google AI, que afirman que su nuevo modelo, Muse, puede generar imágenes de alta calidad a un ritmo más rápido que los modelos rivales como DALL- E 2 e Imagen.


Sorprendentemente, Muse está capacitado para predecir tokens de imágenes enmascaradas aleatoriamente utilizando la incrustación de texto de un modelo de lenguaje grande y utiliza un modelo de 900 millones de parámetros para crear imágenes.


Google afirma que con un chip TPUv4, las imágenes se pueden generar en tan solo 0,5 segundos, frente a los 9,1 segundos con Imagen. La investigación también establece que entrenar modelos Muse con diferentes tamaños y acondicionarlos en un modelo de lenguaje grande previamente entrenado es crucial para generar imágenes fotorrealistas de alta calidad.


El reciente lanzamiento del trabajo de investigación de Google AI sobre Muse, un nuevo modelo de generación de texto a imagen que utiliza transformadores generativos enmascarados, es una clara indicación de los rápidos avances en el campo de la inteligencia artificial. La capacidad de Muse para generar imágenes de alta calidad a un ritmo más rápido que los modelos rivales, al tiempo que incorpora una comprensión profunda del lenguaje, es un testimonio del potencial de la IA no solo para comprender y procesar el lenguaje humano, sino también para crear nuevas formas de medios. .


A medida que Muse se desarrolle más, podemos esperar presenciar el emocionante potencial de la IA en la creación de nuevas formas de medios.

Comments


Noticias Principales

Suscríbete a nuestro boletín

Suscribirse a nuestro boletín de IA semanal para mantenerse actualizado con las noticias y tendencias del campo.

Gracias por suscribirse. Revise su bandeja de entrada para saber como acceder a su libro electronico.

bottom of page