Google Muse: ¿Es este el futuro de la generación de imágenes?

adulchinos
15 ene 2023
2 Min. de lectura

Actualizado: 15 ene 2023

¿Podría ser este el próximo gran descubrimiento en IA generativa?

Google AI ha publicado un artículo de investigación que detalla Muse, un nuevo modelo de generación de texto a imagen que utiliza transformadores generativos enmascarados para producir imágenes de alta calidad a un ritmo más rápido que los modelos rivales como DALL-E 2 e Imagen.

La tecnología innovadora detrás de Muse: Transformadores generativos enmascarados

Un transformador generativo es un tipo de modelo de aprendizaje profundo que puede generar nuevos datos, como texto, imágenes o audio, en función de una entrada o descripción determinada. La característica clave de estos modelos es su capacidad para manejar dependencias a largo plazo y generar resultados realistas y coherentes. Sin embargo, cuando se trata de la generación de imágenes, estos modelos tienen una limitación, tienden a generar las mismas imágenes cuando se alimentan con una entrada similar, lo que puede dificultar que el modelo aprenda a generar imágenes diversas.

El Transformador generativo enmascarado es una versión avanzada del transformador generativo que aborda esta limitación mediante el uso de una técnica llamada "enmascaramiento". En esta técnica, el modelo se entrena para predecir tokens de imagen enmascarados aleatoriamente, lo que significa que algunas partes de la imagen están ocultas para el modelo mientras genera la salida. Esto obliga al modelo a ser más creativo y generar diversas imágenes, en lugar de limitarse a reproducir las mismas imágenes que ha visto antes.

Además, este enfoque permite que el modelo aprenda a generar imágenes basadas en la incrustación de texto de un modelo de lenguaje grande que ya ha sido entrenado, esto brinda la ventaja adicional de permitir que el modelo comprenda la entrada de texto y genere imágenes que coincidan con la descripción. .

Este nuevo desarrollo tiene el potencial de revolucionar el campo de la generación de imágenes y ya ha sido implementado por empresas como Google AI, que afirman que su nuevo modelo, Muse, puede generar imágenes de alta calidad a un ritmo más rápido que los modelos rivales como DALL- E 2 e Imagen.

Sorprendentemente, Muse está capacitado para predecir tokens de imágenes enmascaradas aleatoriamente utilizando la incrustación de texto de un modelo de lenguaje grande y utiliza un modelo de 900 millones de parámetros para crear imágenes.

Google afirma que con un chip TPUv4, las imágenes se pueden generar en tan solo 0,5 segundos, frente a los 9,1 segundos con Imagen. La investigación también establece que entrenar modelos Muse con diferentes tamaños y acondicionarlos en un modelo de lenguaje grande previamente entrenado es crucial para generar imágenes fotorrealistas de alta calidad.

El reciente lanzamiento del trabajo de investigación de Google AI sobre Muse, un nuevo modelo de generación de texto a imagen que utiliza transformadores generativos enmascarados, es una clara indicación de los rápidos avances en el campo de la inteligencia artificial. La capacidad de Muse para generar imágenes de alta calidad a un ritmo más rápido que los modelos rivales, al tiempo que incorpora una comprensión profunda del lenguaje, es un testimonio del potencial de la IA no solo para comprender y procesar el lenguaje humano, sino también para crear nuevas formas de medios. .

A medida que Muse se desarrolle más, podemos esperar presenciar el emocionante potencial de la IA en la creación de nuevas formas de medios.

Entradas recientes

Ver todo

"Bard" de Google se enfrenta a "ChatGPT" de OpenAI: ¿Qué sigue?

MusicLM: una mirada en profundidad al generador de música alimentado por redes neuronales de Google

La tecnología MIT VISTA promete un futuro seguro en la conducción autónoma

ASTRANIA.XYZ

Google Muse: ¿Es este el futuro de la generación de imágenes?

Entradas recientes

Comentarios

Últimas noticias del evento de Microsoft y OpenAI de hoy

"Bard" de Google se enfrenta a "ChatGPT" de OpenAI: ¿Qué sigue?

Avance de Meta AI: Agentes Artificiales Ciegos Mapean los Alrededores con Memoria

La IA transforma la ingeniería de proteínas con la generación de enzimas artificiales

El auge de los detectores ChatGPT que desafían el plagio

MusicLM: una mirada en profundidad al generador de música alimentado por redes neuronales de Google

Arte generado por IA: ¿expresión original o infracción de derechos de autor?

ACT-1 de Adept AI: automatización de tareas tediosas con tecnología

50 Ideas de Proyectos de Inteligencia Artificial (Con Ejemplos)

La guía definitiva para conseguir un trabajo de IA en América Latina

Microsoft presenta VALL-E: un modelo innovador de IA de texto a voz

El modelo DreamerV3 de DeepMind: Un cambio de juego para Minecraft y más allá

Google Muse: ¿Es este el futuro de la generación de imágenes?

OpenAI se prepara para monetizar ChatGPT: ¿qué implicaciones tiene esto para la comunidad de IA?

Cerebral Valley: el paraíso emergente para las nuevas empresas de IA en San Francisco

La tecnología MIT VISTA promete un futuro seguro en la conducción autónoma

Blockchain avanzado: cómo la inteligencia artificial está mejorando la seguridad y la eficiencia

¿El próximo Google? Introducción a ChatGPT, el modelo de lenguaje más nuevo de AI

Suscríbete a nuestro boletín