Imagen 3 y Veo, lo nuevo de Google para generar imágenes y vídeos de alta calidad

En la conferencia de desarrolladores I/O 2024, Google presentó Veo, un modelo de generación de vídeo, e Imagen 3, un modelo de texto a generación de imágenes.
Una imagen creada por la herramienta Imagen 3 de Google.
Una imagen creada por la herramienta Imagen 3 de Google.
Google
Una imagen creada por la herramienta Imagen 3 de Google.

Google celebró el pasado 14 de mayo su conferencia de desarrolladores I/O 2024 para dar a conocer todas sus novedades en lo que se refiere a inteligencia artificial (IA), dispositivos y sistema operativo. Este año, la IA fue la principal protagonista del evento, ya que se presentó el modelo Gemini 1.5 Pro, el agente Project Astra que promete ser el futuro de los asistentes virtuales, nuevas herramientas de creación de contenido, funciones con IA para buscar información en el buscador y varias novedades de Gemini en Google Workspace.

Sin duda, las apuestas más expectantes de la compañía de Mountain View fueron Veo, un modelo de generación de vídeo "más eficaz", e Imagen 3, un modelo de texto a generación de imágenes de "mayor calidad hasta el momento". Pero, ¿qué hace cada herramienta? En 20Bits profundizamos en cada uno de ellos.

Imagen 3: qué es y disponibilidad

Image 3 es el modelo "de mayor calidad hasta el momento" para generar imágenes a partir de texto, ya que genera un nivel de detalle "increíble" con el fin de producir fotografías fotorrealistas "con muchos menos artefactos visuales". Además, entiende mejor el lenguaje natural, tiene en cuenta los pequeños detalles en las peticiones largas y renderiza texto para abrir las posibilidades de generar mensajes personalizados.

Por otro lado, Imagen 3 ya está disponible para creadores seleccionados como una vista previa privada dentro ImageFX, no obstante, pronto llegará a Vertex AI.

Una imagen creada por la herramienta Imagen 3 de Google.
Una imagen creada por la herramienta Imagen 3 de Google.
Google

Veo: qué es y disponibilidad

Veo es un modelo de generación de vídeo que puede crear dicho contenido multimedia de alta calidad con una resolución de 1080p. Esta novedad posee un análisis avanzado del lenguaje natural y la semántica visual, convierte peticiones en vídeos, renderiza con exactitud detalles en peticiones largas, responde con precisión a peticiones de términos cinematográficos, proporciona un nivel sin precedentes de control creativo y crea imágenes coherentes para que las personas, animales u objetos se muevan de forma realista.

Todas estas capacidades son posibles porque, según Google, "Veo se cimenta en años de trabajo con vídeo generativo, incluidos Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet y Lumiere, que combinan arquitectura, normas de escalado y otras técnicas novedosas para mejorar la latencia y la resolución del vídeo generado".

Respecto a su disponibilidad, Veo ya está disponible en una versión preliminar a través de VideoFX, no obstante, en un futuro, también se podrán algunas de sus capacidades a disposición de los usuarios en YouTube Shorts y otros productos.

Apúntate a nuestra newsletter y recibe en tu correo las últimas noticias sobre tecnología.

Mostrar comentarios

Códigos Descuento