MAI-Image-1 vs DALL·E 3 vs Midjourney: ¿Qué IA genera mejores imágenes?

Microsoft ha entrado de pleno en el mercado de las imágenes generadas por IA, y para ello, ha desarrollado en exclusiva MAI-Image-1. Una opción que confronta directamente en potencia y calidad con los más conocidos: DALL·E 3 y Midjourney. Mientras DALL-E 3 se enfoca en la precisión del contexto y en su gran cantidad de detalles, Midjourney está más enfocado en la libertad artística y variedad de estilos.

Ahora, MAI-Image-1 busca el equilibrio más óptimo entre la rapidez y el realismo. Pero cada una de estas 3 herramientas destaca en distintos contextos: diseño editorial, arte conceptual, fotografía digital…

En este análisis comparativo, vamos a desglosar qué sabe hacer mejor cada modelo, sus usos idóneos, los precios y la disponibilidad de cada uno. Así, podrás elegir el que mejor se adapte a tu rutina de diseño o el estilo artístico que busques en particular.

MAI-Image-1

Microsoft ha invertido grandes recursos para desarrollar MAI-Image-1 (a partir de ahora, M-1) con el fin de responder a las propuestas de DALL·E y Midjourney. Como característica principal, el modelo destaca por hacer un gran trabajo con la iluminación fotorrealista. Es capaz de generar reflejos, sombras y una profundidad visual con tanta precisión que incluso rivaliza con la fotografía profesional.

Además, su velocidad está muy optimizada. Es capaz de generar imágenes en cuestión de segundos. En este apartado, está al nivel de Midjourney, pero con la diferencia de que tenemos un mayor control sobre los detalles realistas. Para ello, se ha servido de la retroalimentación de artistas digitales, fotógrafos y diseñadores profesionales. Desde la web oficial de su presentación hemos podido extraer muestras de lo que es capaz de hacer:

Creación de MAI-Image-1
Creación de MAI-Image-1. Foto: Microsoft.

Principalmente, destaca en el campo de la fotografía digital, la cinematografía conceptual y el diseño comercial que requiera de una gran exigencia fotorrealista. Incluso rinde a buen nivel en activos visuales para videojuegos.

Basándonos en las evaluaciones de LMArena, se encuentra entre los 10 mejores generadores de imágenes en este momento. Pronto -sin fecha oficial aún-, se encontrará disponible plenamente en Copilot y Bing Image Creator, por lo que reemplazará de forma gradual a DALL·E 3 en dichas plataformas. Por el momento, solo se puede acceder de manera limitada por su condición de despliegue escalonado, pero se espera que se pueda utilizar de manera plena y gratuita siempre que contemos con las herramientas de Microsoft. En el momento de la creación del artículo, desde Softzone todavía no hemos podido acceder a sus funciones.

DALL·E 3

La opción creada por OpenAI sigue siendo el referente de la industria en cuanto a comprensión textual precisa y generación de detalles narrativos profundos. A la hora de escribir una escena detallada o con contexto histórico, D-3 lo interpreta de manera literal. Cada elemento creado tiene un lugar y propósito en la imagen. Por lo que es una opción extraordinaria en cuestiones como trabajos editoriales, diseño gráfico exigente o ilustraciones con amplio contexto.

Calle japonesa realista solicitada por Prompt.
Creación de D-3 con el prompt: Calle japonesa realista con tiendas de anime a los lados. Simulación de fotografía real.
Foto: DALL-E 3

Al enfrentarlo a un prompt más elaborado, sin embargo, resulta sorprendente el nivel de detalle de sus paisajes:

DALL-E 3, creación compleja.
Creación de D-3 bajo prompt complejo: «Tokio en el año 2150, una metrópolis inmensa bañada por la lluvia y las luces de neón. Calles estrechas repletas de carteles holográficos con kanjis brillantes, faroles rojos tradicionales reflejándose en los charcos del asfalto. En primer plano, un joven samurái cibernético con un kimono modificado con fibras luminosas y una katana de energía azul; su rostro muestra implantes biomecánicos sutiles y una expresión serena bajo la lluvia. A su alrededor, puestos callejeros que mezclan tecnología y tradición: robots sirviendo ramen, anuncios animados flotando en el aire, templos antiguos integrados en rascacielos de cristal. Paleta de colores dominada por azules eléctricos, magentas y dorados; iluminación cinematográfica nocturna, estilo Blade Runner con influencias de arte japonés clásico, enfoque fotorrealista, ultra detallado, atmósfera melancólica y poética.»

En cuanto al entrenamiento, se ha enfocado en minimizar las alucinaciones (los detalles inventados que no solicitamos en nuestros prompts). Por lo que es sólida y consistente. A la hora de contar con sus servicios, tiene un coste de 20 dólares al mes mediante suscripción inteligente, o bien se incluye en ChatGPT Plus, que también tiene un precio de 20 dólares. En cuanto a velocidad, es más lenta que M-1 o Midjourney, con una media de 30-60 segundos por creación. Pero su calidad lo compensa para proyectos que requieren de una gran exigencia.

Con respecto a sus debilidades, todavía en sus creaciones tiende a crear imágenes demasiado «pulidas» o «suaves» a la vista (tal y como puedes comprobar en nuestro prompt de prueba). Por lo que a veces es difícil lograr ciertos estilos artísticos alejados de la suavidad.

Midjourney

Midjourney es el que más destaca tanto por su versatilidad como por su naturalidad visual. Su principal fortaleza la encontramos en su capacidad para equilibrar el realismo con la interpretación creativa del artista basándose en los prompts. Como resultado, las composiciones que creamos parecen sacadas de un verdadero artista. Cuenta con un ágil manejo de estilos como el fotorrealismo, pintura digital, diseño fashion, arte abstracto…

Al insertar el mismo prompt que dedicamos a DALL-E 3, nos encontramos con resultados realistas más convincentes que los de DALL-E 3 con el mismo prompt básico:

Calle japonesa creada con Midjourney
Creación de Midjourney basada en el prompt: Calle japonesa realista con tiendas de anime a los lados. Simulación de fotografía real. Foto: Midjourney

Pero a la hora de enfrentarlo a un prompt complejo, muestra un resultado ligeramente inferior en cuanto a detalles que el de DALL-E 3:

Creación de Journey compleja
Resultados de creación de Journey al prompt: «Tokio en el año 2150, una metrópolis inmensa bañada por la lluvia y las luces de neón. Calles estrechas repletas de carteles holográficos con kanjis brillantes, faroles rojos tradicionales reflejándose en los charcos del asfalto. En primer plano, un joven samurái cibernético con un kimono modificado con fibras luminosas y una katana de energía azul; su rostro muestra implantes biomecánicos sutiles y una expresión serena bajo la lluvia. A su alrededor, puestos callejeros que mezclan tecnología y tradición: robots sirviendo ramen, anuncios animados flotando en el aire, templos antiguos integrados en rascacielos de cristal. Paleta de colores dominada por azules eléctricos, magentas y dorados; iluminación cinematográfica nocturna, estilo Blade Runner con influencias de arte japonés clásico, enfoque fotorrealista, ultra detallado, atmósfera melancólica y poética.»

Desde mediados de 2023, cuenta con su propia plataforma web oficial, a la que podemos entrar desde cualquier navegador. Pero también funciona mediante la app e Discord por un precio anual de:

  • 8 Dólares para el plan básico.
  • 24 Dólares el plan «Standard»
  • 46 Dólares el plan «Pro».
  • 96 Dólares el plan «Mega».

Cuenta con herramientas como variaciones, remixes, ampliación de imagen y control mediante comandos visuales. Esta opción suele ser la mejor valorada entre las agencias creativas profesionales y los estudios de arte. En el ranking de «Text-to-Image» de LMArena, ocupa la novena posición en cuanto a la mejor IA para crear imágenes desde texto.

Comparativa final

En definitiva, podemos decir que, entre los que están plenamente disponibles, puedes usar DALL-E 3 si tu proyecto requiere de una mayor precisión narrativa y del control sobre detalles. En cambio, si priorizas la libertad artística y versatilidad de estilos, Midjourney puede ser tu referente.

A la espera de que MAI-Image-1 se despliegue por completo al público, arroja resultados de velocidad y fotorrealismo realmente profesionales. Pero mientras tanto, tocará esperar hasta su despliegue final.

Criterio MAI-Image-1 DALL·E 3 Midjourney
Velocidad Muy rápida (segundos) Lenta (30-60s) Rápida (10-30s)
Fotorrealismo Excelente (especialidad) Bueno (artificial) Muy bueno (natural)
Precisión textual Buena Excelente Variable
Libertad artística Media Baja Muy alta
Precio Gratuito (próximamente) $20/mes $8-96/mes
Disponibilidad Limitada (expansión en curso) ChatGPT, OpenAI Discord
Mejor para Fotografía digital, cine Edición, diseño gráfico Ilustración, arte