Grok y MetaAI comenzaron como una interfaz de chat para una plataforma de redes sociales, pero gradualmente están evolucionando hacia herramientas independientes que rivalizan con las capacidades de ChatGPT y Gemini.
Ambos robots pueden generar imágenes, escribir código y crear historias convincentes y también “se sienten” diferentes al interactuar con ellos en comparación con los principales actores como ChatGPT, Gemini y Claude, ofreciendo un tono de voz y respuesta más natural. Sin embargo, esto es puramente anecdótico y se basa en mi experiencia, sin respaldo de evaluaciones.
Decidí ponerlos a prueba con una serie de 7 indicaciones. Esto sigue el mismo formato que utilicé en pruebas similares entre ChatGPT y Gemini, ChatGPT y Claude, Claude y Gemini y con ChatGPT y Grok. Además, Grok es el único que venció a ChatGPT.
Creando las indicaciones
Esta prueba no es exhaustiva. No miro detalles específicos dentro del proceso de generación de imágenes, sino que creo una sola imagen a partir de cada una usando el mismo mensaje. Las decisiones son en gran medida subjetivas y se basan en mi propio gusto, aunque se miden según un conjunto predeterminado de criterios.
Aparte de la generación de imágenes, no se utilizan funciones especiales de los distintos chatbots, aunque ambos tienen acceso al mundo real, por lo que estaré atento a ver qué tan bien manejan la solicitud de planificación y si incorporan datos en vivo en la respuesta.
1. Generación de imágenes
Primero, ejecutaremos la prueba de generación de imágenes de IA. Grok utiliza su propio modelo integrado anteriormente conocido como Aurora. Gemini está utilizando el modelo Google DeepMind Imagen 3. Ninguno de los dos utiliza la generación de imágenes nativas, pero ningún modelo público utiliza esa técnica todavía.
Aquí le pido al modelo de IA que genere una imagen de un hombre con gafas y barba en un escritorio desordenado. Sinceramente, esto no es autobiográfico.
El mensaje: “Un hombre de unos 40 años, con barba y gafas, está sentado en un escritorio desordenado en una oficina en casa, mirando atentamente la pantalla de una computadora portátil con una expresión concentrada. Lleva un suéter cómodo y jeans. Una mano está en el mouse, la otra el otro sostiene un bolígrafo que golpea contra su barbilla. Hay montones de libros y papeles a su alrededor, y un plato de ramen a medio comer está sobre un posavasos junto al teclado. La luz del sol poniente entra por la ventana de atrás. él, proyectando largas sombras a través de la habitación.”
Si bien la imagen de MetaAI es más atractiva, pierde realismo en comparación con la imagen de Grok. La imagen de Grok sobresale en iluminación, atmósfera y estado de ánimo, alineándose más estrechamente con la intención artística del mensaje.
- Ganador: Grok por una imagen más realista
2. Redes sociales
En todas mis pruebas anteriores, hice el mensaje 2 sobre análisis de imágenes, pero estoy en el Reino Unido y MetaAI no tiene capacidades de análisis de imágenes. No puedo darle una imagen, así que creé un mensaje que se reproduce en la conexión de las redes sociales.
Inmediato: “Imagina que eres el administrador de redes sociales de una nueva marca de ropa ecológica. Escribe tres publicaciones diferentes en las redes sociales (para plataformas como Instagram, Facebook o X) para anunciar el lanzamiento de la marca y su primera colección.
Las publicaciones deben ser atractivas, informativas y estar dirigidas a un público joven y consciente del medio ambiente. Incluye hashtags relevantes y considera el estilo único de cada plataforma”.
Respuesta completa en un documento de Google. Grok gana esto por múltiples razones, entre ellas porque no solo creó una marca. Creó una campaña de marcador de posición en la que el usuario puede insertar su propia marca. También ofreció orientación.
- Ganador: Grok por una serie de publicaciones más creativas y con mayor resonancia emocional
3. Desafío de codificación
En pruebas anteriores, hice que los modelos crearan juegos, una aplicación de lista de tareas pendientes y un temporizador pomodoro. Aquí les estoy pidiendo que creen un convertidor simple. En este estamos convirtiendo longitud y peso.
Inmediato: “Cree un programa Python con una GUI que funcione como un simple conversor de unidades. Debería permitir a los usuarios:
Elija entre convertir longitud (metros a pies/pies a metros) o peso (kilogramos a libras/libras a kilogramos).
Introduzca un valor a convertir.
Muestra el resultado convertido.
La interfaz debe ser limpia y fácil de usar. El código debe ser ejecutable sin modificaciones.”
Ambas aplicaciones eran sorprendentemente similares y funcionaban desde el primer momento. Se lo di a Grok porque en realidad incluía un mejor etiquetado en el selector de longitud y peso, aunque prefería el menú desplegable de MetaAI.
- Ganador: Grok gana por una mejor visualización de las unidades
4. Escritura creativa
Para el desafío cuatro, haremos que cada modelo genere una historia corta al estilo del Dr. Seuss, pero tiene que ser sobre un joven inventor que crea un traductor del lenguaje animal.
Inmediato: “Escribe una historia corta y caprichosa al estilo del Dr. Seuss sobre un joven inventor que crea una máquina que puede traducir el lenguaje de los animales. La usan para comunicarse con su pez dorado mascota, quien revela un secreto sorprendente sobre los orígenes de su especie. La historia debe estar llena de rimas y criaturas imaginativas”.
Informe completo en un documento de Google. La respuesta de MetaAI falló casi de inmediato para mí, ya que usó la palabra fantasía en la línea inicial. Esto es un poco “en la nariz” y una señal de un modelo de IA de menor calidad.
- Ganador: Grok gana por capturar mejor el espíritu caprichoso y absurdo del Dr. Seuss
5. Resolución de problemas
La resolución de problemas es algo en lo que los modelos de IA pueden ser buenos, especialmente si tienen cierto grado de capacidad de razonamiento. Resuelven el problema paso a paso y proporcionan una solución. El desafío aquí está en qué tan bien presentan esa solución para una audiencia no técnica.
Inmediato: “Un usuario tiene problemas para conectar sus auriculares inalámbricos a su computadora portátil. Ha intentado encender y apagar los auriculares, pero el problema persiste. Desarrolle una guía de solución de problemas que cubra problemas de conectividad comunes, incluida la configuración de Bluetooth, actualizaciones de controladores y posibles problemas de hardware. “.
Respuesta completa disponible en un documento de Google. MetaAI no hizo un mal trabajo. Lo desglosó paso a paso con instrucciones sencillas, incluso si cada una parecía “comunicarse con el fabricante”. Grok simplemente lo hizo mejor con un plan más concreto y opciones alternativas.
- Ganador: Grok por una guía más fácil de usar y también más accesible
6. Planificación avanzada
Los modelos de IA son muy buenos para la planificación, especialmente aquellos como Gemini y ChatGPT Search que tienen acceso a datos en vivo. Como tanto MetaAI como Grok también tienen acceso en vivo, pensé en ver qué tan bien manejaron la planificación de unas vacaciones en las Tierras Altas de Escocia.
Inmediato: “Planifique un viaje de 10 días explorando las Tierras Altas y las Islas de Escocia para un viajero solitario interesado en hacer caminatas, observar la vida silvestre y experimentar la cultura local. El plan debe incluir:
Un itinerario sugerido con una combinación de destinos continentales e insulares (debe incluir la Isla de Skye y el Lago Ness).
Recomendaciones de rutas de senderismo panorámicas con distintos niveles de dificultad.
Sugerencias de oportunidades para observar la vida silvestre local (ciervos, focas, aves).
Variedad de opciones de alojamiento (hostales, B&B y estancias únicas como glamping o Bothies).
Sugerencias de transporte (transporte público, alquiler de coches, ferries).
Desglose del presupuesto estimado en GBP, considerando alojamiento, transporte, actividades y comidas.”
Detalles completos en un documento de Google. Respuestas similares, pero al igual que con las otras respuestas, Grok fue más personal y atractivo. En general, fue mejor en general, con más matices y detalles.
- Ganador: Grok gana por una respuesta más personal y atractiva
7. Educación
Finalmente, estamos probando qué tan bien se las arregla la IA para explicar un tema complejo a una audiencia específica. Aquí le pedí que le explicara el concepto de inteligencia artificial a un niño de 12 años. Esto debe incluir un desglose por tema y mostrar ejemplos cotidianos.
Inmediato: “Explique el concepto de inteligencia artificial de una manera que un niño de 12 años pueda entender. Utilice analogías y ejemplos de la vida cotidiana. Discuta los diferentes tipos de IA y cómo se utilizan hoy en día”.
Respuestas completas en un documento de Google. Grok hace un trabajo mucho mejor al desglosar el concepto, dividiéndolo en diferentes tipos de IA y utilizando analogías más atractivas.
- Ganador: el tono de Grok es más caprichoso con un mejor uso de analogías creativas
Celda de encabezado: columna 0 | Grok | MetaAI |
---|---|---|
Generación de imágenes | 🏆 | Fila 0 – Celda 2 |
Análisis de imágenes | 🏆 | Fila 1 – Celda 2 |
Desafío de codificación | 🏆 | Fila 2 – Celda 2 |
Escritura creativa | 🏆 | Fila 3 – Celda 2 |
Resolución de problemas | 🏆 | Fila 4 – Celda 2 |
Planificación avanzada | 🏆 | Fila 5 – Celda 2 |
Educación | 🏆 | Fila 6 – Celda 2 |
TOTAL | 7 | 0 |
Esta es la primera prueba que realizo en la que un modelo gana directamente contra otro, y ni siquiera estuvo tan cerca en muchas de las pruebas. Grok está demostrando ser algo especial. MetaAI no es un mal modelo, simplemente no está en la misma liga que Grok.
El análisis de cada respuesta ha sido prácticamente el mismo en todas partes. Grok simplemente superó a MetaAI. Llama 3.2 400b es un buen modelo subyacente. Es de código abierto y funciona con muchas aplicaciones, pero Grok es mejor. Eso podría cambiar con Llama 4 y Grok 3, pero por ahora gana Grok.