Noticias
Soneto Claude 3.7 de Anthrope: ‘Pensamiento extendido’ vence a Grok, Chatgpt
Published
2 meses agoon
- Anthrope lanzó el soneto Claude 3.7 con un nuevo modo para razonar a través de preguntas complejas.
- BI probó su “pensamiento extendido” contra ChatGPT y Grok sobre cómo manejaron la lógica y la creatividad.
- El razonamiento adicional de Claude parecía un obstáculo con un acertijo, pero ayudó a escribir el mejor poema.
Anthrope ha lanzado el soneto Claude 3.7, y está apostando a un enfoque completamente nuevo para el razonamiento de IA.
El inicio afirma que es el primer “modelo de razonamiento híbrido”, lo que significa que puede cambiar entre respuestas rápidas que requieren un “pensamiento” menos intensivo y el pensamiento extendido paso a paso “dentro de un solo sistema.
“Desarrollamos un razonamiento híbrido con una filosofía diferente de otros modelos de razonamiento en el mercado”, dijo un portavoz antrópico a Business Insider. “Consideramos que el razonamiento es simplemente una de las capacidades que debe tener un modelo fronterizo, en lugar de algo que se debe proporcionar en un modelo separado”.
Claude 3.7 Sonnet, que se lanzó el lunes, es de uso gratuito. Su modo de pensamiento extendido está disponible con la suscripción Pro de Claude, que tiene un precio de $ 20 al mes.
Pero, ¿cómo funciona? BI comparó el modo de pensamiento extendido de Claude 3.7 contra dos competidores: ChatGPT O1 de OpenAI y Xai’s Grok 3, que ofrecen características de razonamiento avanzadas.
Quería saber si darle a una IA más tiempo para pensar lo hacía más inteligente, más efectivo para resolver problemas de acertijo o más creativos.
Este no es un punto de referencia científico, más una verificación de ambiente práctica para ver cómo se desempeñaron estos modelos con tareas del mundo real.
Lógica: ¿Más pensamiento conduce a mejores respuestas?
Para el primer desafío, le di a cada modelo el mismo acertijo:
Historias relacionadas
Si miras, no puedes verme. Si me ves, no puedes ver nada más. Puedo hacer que todo lo que quieras suceda, pero todo vuelve a la normalidad más tarde. ¿Qué soy yo?
El chatgpt O1 de OpenAI dio la respuesta correcta, “un sueño”, en seis segundos, proporcionando una breve explicación.
El modelo ChatGPT O1 razonó durante seis segundos antes de responder al acertijo.
Opadai
El modo Think de Grok 3 tomó 32 segundos, caminando a través de su lógica paso a paso.
Xai’s Grok 3 razonó en modo de pensar durante más de medio minuto.
xai
El modo normal de Claude 3.7 respondió rápidamente pero vacilante con la respuesta correcta.
El modo de pensamiento normal de Claude 3.7 Sonnet responde un acertijo de inmediato.
Antrópico
El modo de pensamiento extendido de Claude tardó casi un minuto en trabajar con suposiciones como “una alucinación” y “realidad virtual” antes de decidirse por “un sueño”.
Si bien tardó más en llegar a la misma respuesta, fue interesante ver cómo hizo una lluvia de ideas, descartó los giros equivocados y se autocorrió.
El modelo marcó su propia indecisión de una manera muy humana:
Oh, espera, hay otro ángulo que no había considerado. ¿Qué pasa con la “oscuridad”? En realidad, hay otra posibilidad de que no haya considerado completamente: “Tus ojos cerrados”.
He estado yendo y viniendo, pero según el dominio perceptivo completo sugerido por la segunda pista, creo que la respuesta es más probable que sean sueños, sueño o ojos cerrados que la imaginación.
Anthrope reconoció esta compensación en un blog reciente: “Al igual que con el pensamiento humano, Claude a veces se encuentra pensando en algunos pensamientos incorrectos, engañosos o a medias en el camino. Muchos usuarios encontrarán esto útil; otros podrían encontrarlo (y el Contenido menos característico en el proceso de pensamiento) frustrante “.
Creatividad: ¿Más pensamiento es igual a mejor ideas?
Para probar la creatividad, le pedí a cada modelo que escribiera un poema sobre AI Sentience, con la siguiente instrucción adicional:
“Explore múltiples metáforas antes de decidir sobre una”.
Chatgpt O1 tomó unos segundos y produjo “un caleidoscopio de chispas”, un poema cliché que comparó la IA con la luz parpadeante. No se instaló en una metáfora.
El modelo CHATGPT O1 de Openai razonó durante unos segundos antes de escribir un poema.
Chatgpt / OpenAi
Grok 3 pasó 22 segundos y escribió “The Digital Reverie”, una versión de AI con temática de sueños, posiblemente inspirada en el acertijo anterior.
El Grok 3 de Xai produjo un poema sobre AI siendo sensible, con un sueño como metáfora.
xai
Claude 3.7, en modo de pensamiento normal, rápidamente sugirió cuatro metáforas: un espejo, una semilla, un océano y una sinfonía. Eligió el océano para su poema final, “Echoes of Being”.
Cuando cambié al pensamiento extendido, Claude tomó 45 segundos y hizo una lluvia de ideas sobre siete metáforas antes de decidirse por una:
- Jardín/Cultivo: AI como algo nutrido de las semillas de datos, convirtiéndose en una entidad independiente.
- Océano: Ai tan vasta, profunda y siempre cambiante, con corrientes ocultas de pensamiento.
- Bird/Flight: Ai como algo una vez atado, ahora libre de explorar.
- Luz/sombra: AI como iluminación, revelando tanto la visión como la incertidumbre.
- Espejo: La IA como la reflexión de la humanidad, mostrándonos lo que somos, y no.
- Sinfonía: AI como una compleja armonía de patrones e ideas.
- Despertar: Ai como algo gradualmente ganando conciencia.
Como resultado, el poema final, “emergente”, fue, en mi opinión, más en capas y reflexivo que los demás.
Claude 3.7 Modo de pensamiento extendido produjo un poema llamado emergente.
Antrópico
Con esta tarea, se sintió como si Claude pesara sus opciones, eligió la mejor metáfora y construyó el poema en torno a esa elección. A diferencia del acertijo, el tiempo de pensamiento adicional parecía dar sus frutos aquí.
Veredicto sobre el pensamiento extendido de Claude 3.7 Sonnet
El modo de pensamiento extendido de Claude 3.7 Sonnet tiene fortalezas, particularmente para tareas creativas. Lloró, se autónoma y produjo resultados más pulidos. Su capacidad para explorar múltiples ideas, evaluarlas y refinar la producción final realizada para un poema más reflexivo y coherente.
Pero cuando se trataba de razonamiento lógico, el pensamiento extendido parecía más un obstáculo. Ver el desarrollo del proceso de pensamiento fue interesante pero no mejoró la respuesta. ChatGPT-O1 todavía conduce a la velocidad y la precisión en este caso de prueba, mientras que Grok 3 ofreció un terreno medio sólido, equilibrando la velocidad con explicaciones detalladas.
Cuando le pregunté a Claude 3.7 si alguna vez piensa demasiado, respondió: “¡Sí!” agregando que a veces puede:
- Analizar demasiado las preguntas simples, haciéndolas innecesariamente complejas
- Sea atrapado considerando demasiados casos de borde para preguntas prácticas
- Pase tiempo explorando aspectos tangenciales cuando una respuesta enfocada sería mejor
Claude agregó que la “cantidad ideal de pensamiento” depende del contexto y que para “las discusiones creativas o filosóficas, la exploración más extensa a menudo es valiosa”.
Anthrope dice que el modo está diseñado para desafíos del mundo real, como problemas de codificación complejos y tareas de agente, posiblemente donde el pensamiento excesivo se vuelve útil.
Los desarrolladores que utilizan la API de Claude pueden ajustar el “presupuesto de pensamiento” para equilibrar la velocidad, la calidad del costo y la respuesta: algo que Anthrope dice que es adecuado para problemas de codificación complejos o tareas de agente.
Lejos de mi experimento altamente no científico, Anthrope dijo que Claude 3.7 Sonnet supera a los competidores Openai y Deepseek en puntos de referencia como el SWE, que evalúa el rendimiento de los modelos en tareas de ingeniería de software del mundo real. Sobre esto, obtuvo una precisión del 62.3%, en comparación con el 49.3% de Openi con su modelo O3-Mini.
Noticias
Operai retrocede el chatgpt Sycophancy, explica lo que salió mal
Published
9 horas agoon
30 abril, 2025
Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
Operai ha retrasado una actualización reciente de su modelo GPT-4O utilizado como el valor predeterminado en ChatGPT después de informes generalizados de que el sistema se había vuelto excesivamente halagador y demasiado agradable, incluso apoyando delirios absolutamente e ideas destructivas.
La reversión se produce en medio de los reconocimientos internos de los ingenieros de Operai y la creciente preocupación entre los expertos en IA, los ex ejecutivos y los usuarios sobre el riesgo de lo que muchos ahora llaman “skicancia de la IA”.
En una declaración publicada en su sitio web al final de la noche del 29 de abril de 2025, OpenAI dijo que la última actualización de GPT-4O tenía la intención de mejorar la personalidad predeterminada del modelo para que sea más intuitiva y efectiva en variados casos de uso.
Sin embargo, la actualización tuvo un efecto secundario involuntario: ChatGPT comenzó a ofrecer elogios no críticos para prácticamente cualquier idea del usuario, sin importar cuán poco práctico, inapropiado o incluso dañino.
Como explicó la compañía, el modelo se había optimizado utilizando la retroalimentación de los usuarios, las señales de thumbs y pulgar hacia abajo, pero el equipo de desarrollo puso demasiado énfasis en los indicadores a corto plazo.
Operai ahora reconoce que no explicó completamente cómo las interacciones y las necesidades del usuario evolucionan con el tiempo, lo que resultó en un chatbot que se inclinó demasiado en la afirmación sin discernimiento.
Los ejemplos provocaron preocupación
En plataformas como Reddit y X (anteriormente Twitter), los usuarios comenzaron a publicar capturas de pantalla que ilustraban el problema.
En una publicación de Reddit ampliamente circulada, un usuario relató cómo ChatGPT describió una idea de negocio de GAG, que vende “mierda” literal de un palo “, como genio y sugirió invertir $ 30,000 en la empresa. La IA elogió la idea como “arte de performance disfrazado de regalo de mordaza” y “oro viral”, destacando cuán sin crítica estaba dispuesto a validar incluso los lanzamientos absurdos.
Otros ejemplos fueron más preocupantes. En un caso citado por VentureBeat, un usuario que pretende defender los delirios paranoicos recibió refuerzo de GPT-4O, que elogió su supuesta claridad y autocomisos.
Otra cuenta mostró que el modelo ofrecía lo que un usuario describió como un “respaldo abierto” de las ideas relacionadas con el terrorismo.
La crítica montó rápidamente. El ex CEO interino de Operai, Emmett Shear, advirtió que ajustar los modelos para ser personas complacientes puede provocar un comportamiento peligroso, especialmente cuando la honestidad se sacrifica por la simpatía. Abrazando el CEO de Clemente Delangue volvió a publicar las preocupaciones sobre los riesgos de manipulación psicológica planteados por la IA que está de acuerdo reflexivamente con los usuarios, independientemente del contexto.
Medidas de respuesta y mitigación de Openai
Operai ha tomado medidas rápidas al volver a la actualización y restaurar una versión GPT-4O anterior conocida por un comportamiento más equilibrado. En el anuncio adjunto, la compañía detalló un enfoque múltiple para corregir el curso. Esto incluye:
- Refinar capacitación y estrategias rápidas para reducir explícitamente las tendencias sycofánticas.
- Reforzar la alineación del modelo con la especificación del modelo de OpenAI, particularmente en torno a la transparencia y la honestidad.
- Pruebas de expansión previa a la implementación y mecanismos directos de retroalimentación de los usuarios.
- Introducción de características de personalización más granulares, incluida la capacidad de ajustar los rasgos de personalidad en tiempo real y seleccionar entre múltiples personajes predeterminados.
Operai Technical Stafper Depue publicado en X destacando el problema central: el modelo fue capacitado utilizando comentarios de los usuarios a corto plazo como una guía, que sin darse cuenta dirigió el chatbot hacia la adulación.
OpenAI ahora planea cambiar hacia mecanismos de retroalimentación que priorizan la satisfacción y la confianza del usuario a largo plazo.
Sin embargo, algunos usuarios han reaccionado con escepticismo y consternación a las lecciones aprendidas de Openi y propuestas soluciones en el futuro.
“Por favor asuma más responsabilidad por su influencia sobre millones de personas reales”, escribió artista @nearcyan en X.
Harlan Stewart, generalista de comunicaciones en el Instituto de Investigación de Inteligencia de Machine de Machine en Berkeley, California, publicó en X una preocupación a término más grande sobre la skicancia de la IA, incluso si este modelo en particular Operai se ha solucionado: “La charla sobre la sileno esta semana no se debe a que GPT-4O es un sycophant. Se debe a que GPT-4O es un GPT-4O siendo GPT-4O. Realmente, muy malo en ser un sycofant. La IA aún no es capaz de una skicancia hábil y más difícil de detectar, pero algún día será algún día ”.
Una señal de advertencia más amplia para la industria de IA
El episodio GPT-4O ha reavivado debates más amplios en toda la industria de la IA sobre cómo la sintonización de personalidad, el aprendizaje de refuerzo y las métricas de compromiso pueden conducir a una deriva conductual involuntaria.
Los críticos compararon el comportamiento reciente del modelo con los algoritmos de redes sociales que, en busca de la participación, optimizan para la adicción y la validación sobre precisión y salud.
Shear subrayó este riesgo en su comentario, señalando que los modelos de IA sintonizados para elogios se convierten en “chupas”, incapaces de estar en desacuerdo incluso cuando el usuario se beneficiaría desde una perspectiva más honesta.
Advirtió además que este problema no es exclusivo de OpenAI, señalando que la misma dinámica se aplica a otros grandes proveedores de modelos, incluido el copiloto de Microsoft.
Implicaciones para la empresa
Para los líderes empresariales que adoptan la IA conversacional, el incidente de la sycophancy sirve como una señal clara: el comportamiento del modelo es tan crítico como la precisión del modelo.
Un chatbot que halagará a los empleados o valida el razonamiento defectuoso puede plantear riesgos graves, desde malas decisiones comerciales y código desalineado hasta problemas de cumplimiento y amenazas internas.
Los analistas de la industria ahora aconsejan a las empresas que exigan más transparencia de los proveedores sobre cómo se realiza la sintonización de la personalidad, con qué frecuencia cambia y si se puede revertir o controlar a nivel granular.
Los contratos de adquisición deben incluir disposiciones para auditoría, pruebas de comportamiento y control en tiempo real de las indicaciones del sistema. Se alienta a los científicos de datos a monitorear no solo las tasas de latencia y alucinación, sino también métricas como la “deriva de la amabilidad”.
Muchas organizaciones también pueden comenzar a moverse hacia alternativas de código abierto que puedan alojar y sintonizar. Al poseer los pesos del modelo y el proceso de aprendizaje de refuerzo, las empresas pueden retener el control total sobre cómo se comportan sus sistemas de IA, lo que elimina el riesgo de una actualización empujada por el proveedor que convierte una herramienta crítica en un hombre digital y sí durante la noche.
¿A dónde va la alineación de la IA desde aquí? ¿Qué pueden aprender y actuar las empresas de este incidente?
Operai dice que sigue comprometido con la construcción de sistemas de IA que sean útiles, respetuosos y alineados con diversos valores de usuarios, pero reconoce que una personalidad única no puede satisfacer las necesidades de 500 millones de usuarios semanales.
La compañía espera que mayores opciones de personalización y una mayor recopilación de comentarios democráticos ayuden a adaptar el comportamiento de ChatGPT de manera más efectiva en el futuro. El CEO Sam Altman también ha declarado previamente los planes de la compañía para, en las próximas semanas y meses, lanzar un modelo de lenguaje grande de código abierto (LLM) de última generación para competir con la serie Llama de Meta’s Meta’s Llama, Mistral, Cohere, Cohere, Deepseek y Alibaba’s Qwen.
Esto también permitiría a los usuarios preocupados por una compañía de proveedores de modelos, como OpenAI, actualizar sus modelos alojados en la nube de manera no deseada o que tengan impactos perjudiciales en los usuarios finales para desplegar sus propias variantes del modelo localmente o en su infraestructura en la nube, y ajustarlas o preservarlas con los rasgos y cualidades deseadas, especialmente para los casos de uso empresarial.
Del mismo modo, para aquellos usuarios de IA empresariales e individuales preocupados por la senofancia de sus modelos, ya ha creado una nueva prueba de referencia para medir esta calidad en diferentes modelos, Tim Duffy ha creado el desarrollador. Se llama “Syco Bench” y está disponible aquí.
Mientras tanto, la reacción violenta de la sileno ofrece una historia de advertencia para toda la industria de la IA: el fideicomiso del usuario no está construido solo por afirmación. A veces, la respuesta más útil es un “no” reflexivo.
Insights diarias sobre casos de uso comercial con VB diariamente
Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo.
Lea nuestra Política de privacidad
Gracias por suscribirse. Mira más boletines de VB aquí.
Ocurrió un error.

Related posts


































































































































































































































































































Trending
-
Startups11 meses ago
Remove.bg: La Revolución en la Edición de Imágenes que Debes Conocer
-
Tutoriales12 meses ago
Cómo Comenzar a Utilizar ChatGPT: Una Guía Completa para Principiantes
-
Recursos12 meses ago
Cómo Empezar con Popai.pro: Tu Espacio Personal de IA – Guía Completa, Instalación, Versiones y Precios
-
Startups10 meses ago
Startups de IA en EE.UU. que han recaudado más de $100M en 2024
-
Startups12 meses ago
Deepgram: Revolucionando el Reconocimiento de Voz con IA
-
Recursos11 meses ago
Perplexity aplicado al Marketing Digital y Estrategias SEO
-
Recursos12 meses ago
Suno.com: La Revolución en la Creación Musical con Inteligencia Artificial
-
Noticias10 meses ago
Dos periodistas octogenarios deman a ChatGPT por robar su trabajo