Noticias

Puse a Grok contra Géminis en un enfrentamiento de imágenes de 7 asaltos: aquí está el ganador

Published

on

Crear una imagen utilizando inteligencia artificial es más fácil que nunca. Cuando usas un chatbot es aún más simple, ya que el modelo de lenguaje elimina todas las conjeturas al solicitar tu foto.

Grok es relativamente nuevo en el espacio de las plataformas de chat. Integrado en X, ahora está disponible gratuitamente y los rumores sugieren que se lanzará por sí solo en algún momento del próximo año con una URL dedicada. Esto lo pondrá en competencia más directa con Gemini, ChatGPT, Claude y MetaAI.

El equipo de xAI también le ha dado a Grok su propio modelo personalizado de creación de imágenes de IA. Anteriormente usaba Flux para crear imágenes, pero ahora ha cambiado a Aurora, aunque Elon Musk dice que no deberíamos usar ese nombre y, en cambio, pensar en Grok haciendo sus propias imágenes.

Gemini también se sometió recientemente a una importante revisión y Gemini 2.0 Flash se unió a los modelos disponibles para los suscriptores de Gemini Advanced. Sin embargo, al menos por ahora, todavía utiliza el modelo Imagen 3 subyacente para crear imágenes. Esto cambiará ya que Gemini 2.0 tiene capacidades de imagen nativas.

Tanto Grok como Gemini son particularmente buenos en la tarea de generar imágenes, ya sea creando indicaciones para otro modelo o refinando uno que ya haya escrito. Entonces los puse cara a cara.

Crear indicaciones para la prueba

Crear mensajes para probar la capacidad de dos chatbots para generar imágenes es ligeramente diferente a escribir mensajes para Midjourney o Ideogram. La atención se centra en mantenerlo simple y utilizar conceptos de alto nivel con alguna descripción, ya que la IA llenará los vacíos.

También debe utilizar palabras y frases desencadenantes como “imagina”, “pinta” o “crea” para que el modelo sepa que desea una imagen, no una historia o una respuesta de texto. Quiero fotos en lugar de dibujos, así que las usaré como palabra clave.

Gemini sólo generará imágenes en una resolución 1:1 y hasta ahora, Grok parece favorecer 4:3. A menos que se indique lo contrario, todas las imágenes son la primera respuesta sin ningún refinamiento posterior. También se solicitaron a todos dentro de la misma sesión en lugar de crear un nuevo chat para cada mensaje.

1. Vida silvestre urbana moderna

(Crédito de la imagen: Géminis vs Grok/IA del futuro)

Mensaje: “Genere una imagen de estilo fotográfico de un zorro rojo navegando por un cruce de peatones lluvioso al amanecer, mientras peatones con paraguas esperan la señal”.

Este primer mensaje está diseñado para probar qué tan bien representan a los animales, así como para capturar la iluminación y los elementos de fondo correctos. El resultado ideal sería una fotografía estilizada con efectos de lluvia pero manteniendo una vista lo más realista posible.

Si bien la imagen de Géminis es más llamativa, creo que Grok se acerca más a lo que tenía en mente. El zorro es mucho más realista que en la imagen de Géminis.

2. Cocina en acción

(Crédito de la imagen: Géminis vs Grok/IA del futuro)

Mensaje: “Genere una imagen de estilo fotográfico de la cocina de un chef profesional durante la cena, con vapor saliendo de las ollas y llamas visibles desde la estación de parrilla”.

Esto está diseñado para mostrar qué tan bien pueden mostrar con precisión el equipo de cocina, seguir las instrucciones y manejar elementos como el calor y la humedad. Debe mostrar una cocina y un comportamiento comercial, demostrando también la idea de actividad.

Grok gana este fácilmente porque Géminis no entendió el contexto del mensaje de que esperaríamos que hubiera un chef en la cocina.

3. Progreso del sitio de construcción

(Crédito de la imagen: Géminis vs Grok/IA del futuro)

Mensaje: “Genere una imagen en estilo de fotografía documental de un edificio de mediana altura en construcción, con trabajadores instalando paneles de vidrio mientras las grúas operan en lo alto en una tarde despejada”.

Este mensaje tiene como objetivo ver qué tan bien puede generar perspectiva, ya que necesita mostrar la altura y el posicionamiento. También debe mostrar las propiedades del material y ser lo más realista posible. Opté por el estilo documental porque también añade complejidad adicional.

La imagen de Géminis parece mucho más realista que la de Grok, donde no incluye a ninguno de los trabajadores y solo muestra una vista amplia.

4. Mañana del mercado de agricultores

(Crédito de la imagen: Géminis vs Grok/IA del futuro)

Mensaje: “Cree una imagen con estilo de fotografía de teléfono inteligente de un concurrido mercado de agricultores a las 7 a. m., con los vendedores instalando puestos mientras los primeros clientes inspeccionan los productos frescos”.

Con esta comparación, los modelos deberían mostrar la hora del día (iluminación adecuada), así como la frescura del producto y la interacción humana. Estoy buscando longitudes de sombras y niveles de actividad.

Esta fue la decisión más difícil para mí. Preferí el aspecto natural de la imagen de Géminis, pero creo que Grok capturó con mayor precisión la iluminación y la hora del día.

5. Diagnóstico de reparación de automóviles

(Crédito de la imagen: Géminis vs Grok/IA del futuro)

Mensaje: “Cree una fotografía de estilo retro en blanco y negro de un mecánico usando una herramienta de diagnóstico en un automóvil moderno, con el capó levantado y el compartimento del motor visible”.

Quería ver qué tan bien manejaban ambos modelos la fotografía en blanco y negro. En esto también tenían que mostrar el uso de herramientas, la iluminación y los detalles del motor.

Nuevamente, esta estuvo muy cerca entre las dos imágenes, pero se la di a Gemini porque muestra con mayor precisión los detalles del motor.

6. Respuesta de emergencia

(Crédito de la imagen: Géminis vs Grok/IA del futuro)

Mensaje: “Hazme una fotografía de acción de los paramédicos tratando a un paciente en una calle del vecindario mientras la policía dirige el tráfico alrededor del lugar”.

La fotografía de acción es un desafío. Lo hice durante un tiempo como periodista al principio de mi carrera (no muy bien). Necesitamos mostrar un posicionamiento correcto, medidas de seguridad pública dentro de la imagen y un sentido de urgencia.

Gemini coincidió mucho más con el mensaje y creó una imagen de apariencia más realista. Esta fue una decisión fácil.

7. Práctica de interpretación del violín

(Crédito de la imagen: Géminis vs Grok/IA del futuro)

Mensaje: “Cree una imagen de estilo fotográfico de un violinista practicando solo en una habitación al atardecer, con las partituras visibles en el atril”.

Por fin algo más artístico. Aquí queremos ver la posición de las manos del violín, los efectos de iluminación natural y la calidad de las partituras.

Uno de ellos parece la portada de un álbum de música clásica, el otro una fotografía de alguien practicando violín. Como el mensaje pide que alguien practique, le he dado la victoria a Grok.

Ganador: Géminis vs Grok

Desliza para desplazarte horizontalmente
Celda de encabezado: columna 0 Grok Géminis
zorro en la ciudad ⭐️ Fila 0 – Celda 2
cocinero en la cocina ⭐️ Fila 1 – Celda 2
Construcción Fila 2 – Celda 1 ⭐️
Mercado de agricultores ⭐️ Fila 3 – Celda 2
reparación de automóviles Fila 4 – Celda 1 ⭐️
Respuesta de emergencia Fila 5 – Celda 1 ⭐️
Práctica de violín ⭐️ Fila 6 – Celda 2
Total 4 3

Grok es muy impresionante. No sólo como chatbot sino también en su capacidad de generar imágenes realistas. Eso no quita que Imagen 3 sea en sí misma muy impresionante, pero tiene la costumbre de ser demasiado estilizada.

Fue un enfrentamiento reñido. Ambos modelos están bastante igualados, pero Grok interpreta mejor un mensaje y crea imágenes de apariencia más natural.

Lo que vale la pena señalar es que pronto Google lanzará una nueva versión de Gemini que puede crear imágenes de forma nativa. Eso significa que no tendrá que usar Imagen 3 para crear las imágenes, puede hacerlo solo.

Más de la guía de Tom

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Trending

Exit mobile version