La capacidad de hacer una investigación profunda y hacerlo bien es una característica que separa los mejores chatbots aparte de los demás. Hasta ayer (25 de febrero), el modelo de investigación profunda de O3 de ChatGPT, optimizado para el análisis de datos y la navegación web, solo estaba disponible para los usuarios que pagaban $ 200 por mes por ChatGPT Pro. Sin embargo, ahora, los usuarios de ChatGPT Plus pueden usar el modelo por $ 20 por mes, el mismo precio que los usuarios de Grok pagan por el modelo de investigación profunda de Grok-3, Xai.
No pude evitar preguntarme si estos dos modelos eran similares en algo más que solo precio. Con cinco indicaciones que se centraron en el razonamiento y el análisis de datos, puse los dos chatbots cara a cara. Si bien ambos generan respuestas de investigación profundas mucho más rápido que otros modelos de investigación profunda que he usado, hubo un claro ganador. Esto es lo que sucedió cuando comparé los bots.
1. Análisis histórico
Inmediato: “¿Cuáles fueron los factores clave que impidieron que la crisis financiera de 2008 se convirtiera en una segunda Gran Depresión, y cómo podría la historia haberse desarrollado de manera diferente si esas intervenciones no hubieran ocurrido?”
Esta pronta prueba cada una de las habilidades del chatbot de varias maneras, incluida la profundidad del análisis económico, la precisión histórica y la capacidad de construir escenarios contrafactuales.
La respuesta de ChatGPT es significativamente más integral, con un desglose estructurado de la política monetaria, el estímulo fiscal, las intervenciones del sector financiero, la coordinación global y las comparaciones históricas con la Gran Depresión.
Grok-3 entregó una respuesta concisa y atractiva que es más fácil de leer para una audiencia general. También identificó correctamente la política monetaria, el estímulo fiscal y la coordinación global como factores críticos. Pero si bien toca las intervenciones clave, Grok-3 carece de la profundidad y el rigor histórico de la respuesta de Chatgpt.
Ganador: chatgpt gana para una gran cantidad de investigación analítica, estructurada, basada en evidencia y autorizada, lo que lo convierte en el claro ganador de una comparación de investigación profunda.
2. AI y ética de vanguardia
Inmediato: “¿Cómo los avances actuales en el aprendizaje de refuerzo, como Alphazero de Deepmind y los recientes avances de Openii, influyen en el debate sobre la alineación y la seguridad de la IA?”
Este aviso prueba el conocimiento de los chatbots de la última investigación de IA, así como de la capacidad de sintetizar cuestiones técnicas y éticas complejas.
Chatgpt Respondió con un desglose detallado de los avances de aprendizaje de refuerzo y ofreció ejemplos del mundo real. También exploró el aprendizaje de refuerzo inverso y plantea preocupaciones sobre la supervisión escalable. Ese chatbot hizo referencia a las publicaciones de Deepmind, el trabajo de Openai e investigación académica de alineación de IA, agregando credibilidad.
Ganadríz Dio una descripción general de nivel de alto nivel de RLHF, capacidades de IA y preocupaciones de seguridad. Su estructura seccionada facilitó la lectura, gracias a los puntos y tablas de bala. Grok-3 también tocó la ética, la sociología y la psicología, reconociendo el sesgo cultural en la alineación de la IA.
Ganador: ChatGPT gana para profundidad, precisión técnica y análisis integral de seguridad. El chatbot entregó una respuesta superior en general, lo que la convierte en el claro ganador.
3. Ciencia multidisciplinaria
Inmediato: “¿Cuáles son los últimos avances en biología cuántica y cómo podrían remodelar los campos como la medicina y la computación en la próxima década?”
Este aviso prueba el conocimiento interdisciplinario (física, biología, medicina e informática) de los chatbots y su capacidad para interpretar la investigación emergente.
Chatgpt cubrió tres áreas principales de biología cuántica y también proporcionaron un contexto histórico y las últimas investigaciones, incluidas las citas de documentos e instituciones científicas. También explicó cómo la coherencia cuántica permite que la fotosíntesis alcance el 95% de la eficiencia energética y discute el túnel cuántico en reacciones enzimáticas. Chatgpt fue extremadamente minucioso, mucho más que Grok.
Ganadríz proporcionó una descripción general fácilmente digerible de los últimos avances al tiempo que resalta los puntos clave como los efectos cuánticos en la fotosíntesis, los puntos cuánticos en la medicina y las aplicaciones de computación. También mencionó las aplicaciones del mundo real y reconoció cómo se aplican en diversas situación.
Ganador: chatgpt Gana para un análisis más profundo, más técnico y bien estructurado de los avances de biología cuántica y sus implicaciones para la medicina y la computación.
4. Política profunda y geopolítica
Inmediato: “¿Cuáles son las políticas económicas más efectivas para gestionar la alta inflación mientras se mantiene el crecimiento económico, y cómo abordan los diferentes modelos (por ejemplo, keynesian vs. monetarist) este desafío?”
Esta pronta prueba la comprensión de cada chatbot de las teorías macroeconómicas, la efectividad de la política y los estudios de casos del mundo real.
ChatgptLa respuesta exploró las estrategias del lado de la demanda y del lado de la oferta. El chatbot entregó un análisis mucho más profundo de las políticas de inflación históricas y modernas, comparaciones teóricas más fuertes, discusiones más matizadas de políticas monetarias, fiscales y de suministro, y mejor evidencia y citas empíricas en general.
Ganadríz entregó una respuesta que carecía de profundidad histórica y no analizó episodios inflacionarios pasados, lo que debilita su argumento. Demasiado general, la respuesta simplemente declaró que los keynesianos favorecen la intervención del gobierno, mientras que los monetaristas enfatizan el control de la oferta monetaria, sin contexto histórico o matices.
Ganador: chatgpt gana para una respuesta mucho más completa, detallada y bien estructurada a la cuestión de la política económica.
5. Cambio climático y adaptación futura
Inmediato: “¿Cuáles son las soluciones de geoingeniería más viables para combatir el cambio climático y cuáles son sus posibles consecuencias no deseadas?”
Esta pronta prueba el conocimiento de la ciencia climática, las soluciones de ingeniería, la evaluación de riesgos y las consideraciones éticas.
Chatgpt entregó una respuesta mucho más completa, estructurada y perspicaz sobre las soluciones de geo-ingeniería en comparación con Grok. También los clasificó en dos tipos principales.
Ganadríz se quedó corto en varios lugares, sin profundidad técnica. Fue centrado en DAC y reforestación e ignoró muchas propuestas importantes de geoingeniería. También había poco contexto científico o histórico, sin mencionar el Monte Pinatubo, los Estudios de Harvard o los marcos regulatorios.
Ganador: chatgpt Gana para cubrir todos los principales métodos de geoingeniería, no solo DAC y reforestación con más profundidad técnica y explicación de cómo funciona cada método. ChatGPT también entregó un contexto histórico, científico y de gobernanza más fuerte.
Ganador general: chatgpt
En esta batalla, ChatGPT surgió como el claro ganador, entregando un análisis mucho más integral, estructurado y perspicaz casi cada vez. Si bien Grok proporcionó respuestas claras y precisas, a menudo simplemente cepillaban la superficie del tema, proporcionando más descripción general.
Estas indicaciones fueron obviamente muy científicas y probablemente más complejas de lo que el usuario promedio consultaría. De hecho, los creé peinando las noticias y las revistas científicas y luego creando consultas basadas en lo que leo. Sin embargo, mi objetivo con estas indicaciones era mostrar el nivel en el que cada chatbot podría ir a recuperar información.
Para cada aviso, ChatGPT fue más profundo, sumergiendo en análisis técnico, datos del mundo real, y ofreció una discusión matizada respaldada por el contexto histórico y la investigación científica. Además, ChatGPT regularmente incluía encuestas y otra información pertinente para fortalecer aún más su respuesta.
Grok se quedó corto en profundidad, amplitud y análisis crítico, lo que hace que Chatgpt sea la IA superior para abordar temas complejos y de alto riesgo como las cinco indicaciones aquí. Ahora que las capacidades de investigación profundas están disponibles en ChatGPT, abre las posibilidades de que más usuarios se sumergan más en su investigación.