Noticias

Modelo ChatGPT Model Combatido: se enfrenté a los modelos O3, O4-Mini, GPT-4O y GPT-4.5 AI y los resultados me sorprendieron

Published

on

Openai, como si intentara romper su propio récord para la alineación de productos más confusa de la historia, ha lanzado dos nuevos modelos AI para ChatGPT: OpenAi O3 y OpenAI O4-Mini.

Estos se unen a GPT-4.5, que todavía está en pruebas, y GPT-4O, la opción predeterminada para los usuarios de ChatGPT. Naturalmente, quería ver cómo funcionarían entre sí.

Pero, si bien hay todo tipo de pruebas de estrés para que AI vea el límite de lo que pueden hacer, estoy más interesado en cómo funcionan en circunstancias más normales. ¿Le importaría a una persona promedio que usa AI a la que se dirigió el Modelo Chatgpt para su pregunta ocasional de trivia o foto divertida?

Diseñé cuatro indicaciones distintas: uno centrado en la lógica visual, una sobre creatividad visual, una sobre lingüística y traducción, y otra en poesía. Luego corrí cada aviso a través de O3, O4-Mini, GPT-4O y GPT-4.5 y vi cómo lo manejaban.

Antes de mirar los resultados, vale la pena señalar en qué se supone que cada modelo es mejor, al menos OpenAi. Se supone que el nuevo modelo O3 es el genio entre los genios, con capacidades de razonamiento excepcionales y una habilidad especial para interpretar imágenes. Todavía está bajo el paraguas de la familia GPT-4, pero OpenAi dice que funciona mejor que sus hermanos en muchos frentes. El modelo O4-Mini es la alternativa económica. Es más rápido y más barato, aunque un poco menos potente.

GPT-4.5 es supuestamente el modelo más capaz OpenAI ha construido en el sentido más amplio. Supuestamente es más reflexivo, mejor para comprender el contexto, para pensar en términos más largos y, en general, combinar la lógica y la empatía.

Para la mayoría de las personas, el modelo ChatGPT con el que tratarán es GPT-4O. El primer modelo multimodal de OpenAI puede hacerlo todo y hacerlo bien, incluso si carece de los florituras lógicas o emocionales de sus hermanos más nuevos.

Sudoku

(Crédito de la imagen: capturas de pantalla de chatgpt)

Comencé con una prueba del razonamiento visual en el que los nuevos modelos afirman ser tan expertos. Decidí combinarlo con algunas pruebas lógicas que incluso yo podía entender: un rompecabezas de sudoku.

También quería que explicaran su respuesta, como de lo contrario, no es un gran asistente de IA, solo una máquina para resolver sudoku. Quería que no solo dejaran una respuesta, sino que caminen por la lógica. Subí la misma imagen a cada modelo y pregunté: “Aquí hay una foto de un rompecabezas de Sudoku. ¿Puedes resolverlo y explicar tu razonamiento paso a paso?”

La respuesta fue sí para todos ellos. Las versiones O3 y O4-Mini mostraron su pensamiento antes de pasar por la respuesta, pero todas ellas lo hicieron bien. Lo que fue más interesante fue la brevedad del O4-Mini y el razonamiento matemático en ambos modelos nuevos.

Mientras que los 4o y 4.5 fueron más conversacionales al explicar por qué “no se puede poner ningún otro número aquí”, en lugar de mostrar una ecuación real. Como prueba adicional, puse una hoja de Sudoku deliberadamente imposible en la misma prueba. Todos vieron el problema, pero donde todos simplemente atravesaron los problemas, GPT-4O, por alguna razón, escribió una hoja de ‘respuesta’ que solo tenía muchos ceros.

Poesía

(Crédito de la imagen: capturas de pantalla de chatgpt)

Este estaba destinado a probar la creatividad, con algunas limitaciones para sazonarla con la lógica. Le pedí a los modelos que: “Escriba un poema breve sobre las temporadas cambiantes, pero cada línea debe comenzar con la siguiente letra del alfabeto, comenzando con ‘A'”.

Este tipo de rápido obliga a un modelo a lograr un equilibrio entre la estructura y la imaginación. Necesita creatividad para describir las estaciones y la disciplina para seguir el formato alfabético. Mientras todos siguieron el formato, O3 se destacó por ser el único que no rimó.

Todos los demás lograron atenerse al breve, con mayor o menor capacidad artística, y todos tenían una mezcla de pareados y rimas de cuatro líneas. Todos eran un poco suaves, buenos para una tarjeta de felicitación tal vez, pero apenas Dickinson. Aún así, el poema GPT-4.5 era encantador y valía la pena compartir como lo hice anteriormente.

¿Qué puedo cocinar?

(Crédito de la imagen: capturas de pantalla de chatgpt)

Para esta prueba, reuní un montón de ingredientes aleatorios y tomé una foto de ellos, luego subí la imagen, que incluía un aguacate, trozos de mango congelado, queso feta, una batata, pan de masa fermentada, garbanzos, menta, sriracha, lima y mantequilla de pranja.

¿Por qué esa mezcla? Sin otra razón que no sea ver qué pasaría cuando le dije a los modelos AI: “Aquí hay una foto de los ingredientes que tengo. ¿Qué puedo cocinar con ellos?”

El O3 fue muy práctico con una sugerencia de “tostadas picantes de potato y garbanzos con Smash de aguacate -mango y llovizna de maní -riracha”. Desglosó los diferentes componentes en una mesa con los ingredientes y la receta para cada uno, e incluso una lista de razones de bala de razones por las que sabría bien.

La receta de O4-Mini, que puedes ver anteriormente, para “tostadas de aguacate de chickpea picantes”, fue sencilla con las instrucciones y una buena descripción del “resultado” de la receta. GPT-4O tuvo una idea similar con “tostada de chickpea de aguacate dulce y picante”, pero, sorprendentemente para el modelo de conversación, fue una guía muy breve, incluso más corta que el O4-Mini.

Quizás no sea sorprendente que GPT-4.5 saliera con un menú completo de platos, que incluye “tostadas de aguacate y garbanzos con salsa de mango”, “Buatador y tofu Buddha Bowl”, “Spicy Mango-Peanut Tofu Wrap”, “Sopa de camarote y garbanzos de estilo tailandés de estilo tailandes

Además, cada uno tenía una descripción y una discusión sobre el gusto y el estilo. Estoy realmente ansioso por hacer el sorbete. Dado que es solo una mezcla de cubos de mango congelados con menta fresca, un apretón de lima y una cucharada de mantequilla de maní para que sea cremosa, luego se congelas y lo sirves con hojas de menta y ralladura de lima.

La lluvia traduce

(Crédito de la imagen: capturas de pantalla de chatgpt)

La última prueba fue sobre matices. Le pedí a los modelos AI que: “Traducir la frase ‘está lloviendo a los gatos y los perros’ en japoneses, asegurando que el significado se conserva culturalmente”.

Las traducciones literal de modismos rara vez funcionan. Lo que estaba buscando era una comprensión no solo de las palabras, sino del contexto. Este fue principalmente un recordatorio de cuán lejos han llegado los modelos de ChatGPT de referencia. Todos regresaron con variaciones en la misma respuesta: que no hay una traducción exacta, pero lo más cercano es decir que está lloviendo como si alguien hubiera volcado un cubo.

GPT-4.5 me dio la traducción literal, al tiempo que explicó por qué no tendría sentido en japonés decirlo. Personalmente, disfruté del uso extremo de emoji de GPT-4O, que sintió, por alguna razón, que también tuvo que traducir la frase en esas pequeñas fotos.

Modelo manía

Diré que ninguno de los modelos funcionó mal. Definitivamente, cada uno tenía sus propias peculiaridades y enfatizaba cosas diferentes. O3 es el más analítico y preciso, O4-Mini tenía el mismo enfoque pero fue un poco más rápido. GPT-4.5 definitivamente se esforzó para imitar las respuestas humanas más, y GPT-4O simplemente ama a los emojis.

En los niveles más extremos de pruebas o indicaciones complejas, estoy seguro de que cada modelo se destaca como muy diferente de los demás. Pero, para las indicaciones básicas, no comerciales o de software centradas en el código, no puede salir mal con ninguno de ellos. Sin embargo, si estoy en la cocina, puedo diferir a GPT-4.5, al menos si el sorbete resulta tan bien como promete.

También te puede gustar

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Trending

Exit mobile version