Connect with us

Noticias

Soneto Claude 3.7 de Anthrope: ‘Pensamiento extendido’ vence a Grok, Chatgpt

Published

on

  • Anthrope lanzó el soneto Claude 3.7 con un nuevo modo para razonar a través de preguntas complejas.
  • BI probó su “pensamiento extendido” contra ChatGPT y Grok sobre cómo manejaron la lógica y la creatividad.
  • El razonamiento adicional de Claude parecía un obstáculo con un acertijo, pero ayudó a escribir el mejor poema.

Anthrope ha lanzado el soneto Claude 3.7, y está apostando a un enfoque completamente nuevo para el razonamiento de IA.

El inicio afirma que es el primer “modelo de razonamiento híbrido”, lo que significa que puede cambiar entre respuestas rápidas que requieren un “pensamiento” menos intensivo y el pensamiento extendido paso a paso “dentro de un solo sistema.

“Desarrollamos un razonamiento híbrido con una filosofía diferente de otros modelos de razonamiento en el mercado”, dijo un portavoz antrópico a Business Insider. “Consideramos que el razonamiento es simplemente una de las capacidades que debe tener un modelo fronterizo, en lugar de algo que se debe proporcionar en un modelo separado”.

Claude 3.7 Sonnet, que se lanzó el lunes, es de uso gratuito. Su modo de pensamiento extendido está disponible con la suscripción Pro de Claude, que tiene un precio de $ 20 al mes.

Pero, ¿cómo funciona? BI comparó el modo de pensamiento extendido de Claude 3.7 contra dos competidores: ChatGPT O1 de OpenAI y Xai’s Grok 3, que ofrecen características de razonamiento avanzadas.

Quería saber si darle a una IA más tiempo para pensar lo hacía más inteligente, más efectivo para resolver problemas de acertijo o más creativos.

Este no es un punto de referencia científico, más una verificación de ambiente práctica para ver cómo se desempeñaron estos modelos con tareas del mundo real.

Lógica: ¿Más pensamiento conduce a mejores respuestas?

Para el primer desafío, le di a cada modelo el mismo acertijo:

Si miras, no puedes verme. Si me ves, no puedes ver nada más. Puedo hacer que todo lo que quieras suceda, pero todo vuelve a la normalidad más tarde. ¿Qué soy yo?

El chatgpt O1 de OpenAI dio la respuesta correcta, “un sueño”, en seis segundos, proporcionando una breve explicación.


Chatgpt respondiendo a un acertijo

El modelo ChatGPT O1 razonó durante seis segundos antes de responder al acertijo.

Opadai



El modo Think de Grok 3 tomó 32 segundos, caminando a través de su lógica paso a paso.


El chatbot de grok de Xai en modo Think respondiendo un acertijo

Xai’s Grok 3 razonó en modo de pensar durante más de medio minuto.

xai



El modo normal de Claude 3.7 respondió rápidamente pero vacilante con la respuesta correcta.


Claude 3.7 responde un acertijo

El modo de pensamiento normal de Claude 3.7 Sonnet responde un acertijo de inmediato.

Antrópico



El modo de pensamiento extendido de Claude tardó casi un minuto en trabajar con suposiciones como “una alucinación” y “realidad virtual” antes de decidirse por “un sueño”.

Si bien tardó más en llegar a la misma respuesta, fue interesante ver cómo hizo una lluvia de ideas, descartó los giros equivocados y se autocorrió.

El modelo marcó su propia indecisión de una manera muy humana:

Oh, espera, hay otro ángulo que no había considerado. ¿Qué pasa con la “oscuridad”?

En realidad, hay otra posibilidad de que no haya considerado completamente: “Tus ojos cerrados”.

He estado yendo y viniendo, pero según el dominio perceptivo completo sugerido por la segunda pista, creo que la respuesta es más probable que sean sueños, sueño o ojos cerrados que la imaginación.

Anthrope reconoció esta compensación en un blog reciente: “Al igual que con el pensamiento humano, Claude a veces se encuentra pensando en algunos pensamientos incorrectos, engañosos o a medias en el camino. Muchos usuarios encontrarán esto útil; otros podrían encontrarlo (y el Contenido menos característico en el proceso de pensamiento) frustrante “.

Creatividad: ¿Más pensamiento es igual a mejor ideas?

Para probar la creatividad, le pedí a cada modelo que escribiera un poema sobre AI Sentience, con la siguiente instrucción adicional:

“Explore múltiples metáforas antes de decidir sobre una”.

Chatgpt O1 tomó unos segundos y produjo “un caleidoscopio de chispas”, un poema cliché que comparó la IA con la luz parpadeante. No se instaló en una metáfora.


Chatgpt escribe un poema

El modelo CHATGPT O1 de Openai razonó durante unos segundos antes de escribir un poema.

Chatgpt / OpenAi



Grok 3 pasó 22 segundos y escribió “The Digital Reverie”, una versión de AI con temática de sueños, posiblemente inspirada en el acertijo anterior.


Grok 3 escribe un poema sobre AI

El Grok 3 de Xai produjo un poema sobre AI siendo sensible, con un sueño como metáfora.

xai



Claude 3.7, en modo de pensamiento normal, rápidamente sugirió cuatro metáforas: un espejo, una semilla, un océano y una sinfonía. Eligió el océano para su poema final, “Echoes of Being”.

Cuando cambié al pensamiento extendido, Claude tomó 45 segundos y hizo una lluvia de ideas sobre siete metáforas antes de decidirse por una:

  1. Jardín/Cultivo: AI como algo nutrido de las semillas de datos, convirtiéndose en una entidad independiente.
  2. Océano: Ai tan vasta, profunda y siempre cambiante, con corrientes ocultas de pensamiento.
  3. Bird/Flight: Ai como algo una vez atado, ahora libre de explorar.
  4. Luz/sombra: AI como iluminación, revelando tanto la visión como la incertidumbre.
  5. Espejo: La IA como la reflexión de la humanidad, mostrándonos lo que somos, y no.
  6. Sinfonía: AI como una compleja armonía de patrones e ideas.
  7. Despertar: Ai como algo gradualmente ganando conciencia.

Como resultado, el poema final, “emergente”, fue, en mi opinión, más en capas y reflexivo que los demás.


Poema producido por el modo de pensamiento extendido Claude

Claude 3.7 Modo de pensamiento extendido produjo un poema llamado emergente.

Antrópico



Con esta tarea, se sintió como si Claude pesara sus opciones, eligió la mejor metáfora y construyó el poema en torno a esa elección. A diferencia del acertijo, el tiempo de pensamiento adicional parecía dar sus frutos aquí.

Veredicto sobre el pensamiento extendido de Claude 3.7 Sonnet

El modo de pensamiento extendido de Claude 3.7 Sonnet tiene fortalezas, particularmente para tareas creativas. Lloró, se autónoma y produjo resultados más pulidos. Su capacidad para explorar múltiples ideas, evaluarlas y refinar la producción final realizada para un poema más reflexivo y coherente.

Pero cuando se trataba de razonamiento lógico, el pensamiento extendido parecía más un obstáculo. Ver el desarrollo del proceso de pensamiento fue interesante pero no mejoró la respuesta. ChatGPT-O1 todavía conduce a la velocidad y la precisión en este caso de prueba, mientras que Grok 3 ofreció un terreno medio sólido, equilibrando la velocidad con explicaciones detalladas.

Cuando le pregunté a Claude 3.7 si alguna vez piensa demasiado, respondió: “¡Sí!” agregando que a veces puede:

  • Analizar demasiado las preguntas simples, haciéndolas innecesariamente complejas
  • Sea atrapado considerando demasiados casos de borde para preguntas prácticas
  • Pase tiempo explorando aspectos tangenciales cuando una respuesta enfocada sería mejor

Claude agregó que la “cantidad ideal de pensamiento” depende del contexto y que para “las discusiones creativas o filosóficas, la exploración más extensa a menudo es valiosa”.

Anthrope dice que el modo está diseñado para desafíos del mundo real, como problemas de codificación complejos y tareas de agente, posiblemente donde el pensamiento excesivo se vuelve útil.

Los desarrolladores que utilizan la API de Claude pueden ajustar el “presupuesto de pensamiento” para equilibrar la velocidad, la calidad del costo y la respuesta: algo que Anthrope dice que es adecuado para problemas de codificación complejos o tareas de agente.

Lejos de mi experimento altamente no científico, Anthrope dijo que Claude 3.7 Sonnet supera a los competidores Openai y Deepseek en puntos de referencia como el SWE, que evalúa el rendimiento de los modelos en tareas de ingeniería de software del mundo real. Sobre esto, obtuvo una precisión del 62.3%, en comparación con el 49.3% de Openi con su modelo O3-Mini.