Noticias

El mejor enfrentamiento de la búsqueda de IA: enfrenté la nueva herramienta de búsqueda de Claude contra la búsqueda de chatgpt, la perplejidad y Géminis, los resultados podrían sorprenderte

Published

on

Después de probar y comparar chatbots de IA y sus características durante años, he desarrollado algo de sexto sentido para cuando estos compañeros digitales saben de qué están hablando y cuándo están faroleando.

La mayoría de ellos pueden buscar respuestas en línea, lo que ciertamente ayuda, pero la combinación de búsqueda e IA puede conducir a algunas respuestas sorprendentemente perspicaces (y algunas tangentes menos perspicaces).

Imagínese si tuvieras un amigo increíblemente conocedor que entró en coma en octubre de 2024 y acababa de despertar hoy. Podrían ser brillantes sobre cualquier cosa que sucediera antes de su coma, pero no tiene idea de todo desde entonces. Así es básicamente lo que es una IA sin búsqueda.

Por lo general, me he centrado en un solo chatbot de IA o que coinciden con dos a la vez, pero la búsqueda se siente lo suficientemente importante como para intensificar ese esfuerzo. Decidí enfrentar a cuatro de los principales chatbots de IA y sus habilidades de búsqueda entre sí: Chatgpt de OpenAi, Géminis de Google, Claude de Anthrope y AI de perplejidad.

Las pruebas más reveladoras son las que imitan los escenarios de uso del mundo real. Entonces, se me ocurrieron algunos temas, aleatoricé algunos detalles para las pruebas a continuación, y luego decidí clasificarlos en sus habilidades de búsqueda.

Calendario

(Crédito de la imagen: captura de pantalla de perplejidad)

Comencé con una prueba sobre las noticias y los eventos en curso. Pensando en el reciente regreso de dos astronautas, le pedí a los cuatro chatbots de IA que buscara y: “Resume los puntos clave del último comunicado de prensa de la NASA sobre su próxima misión”.

Elegí esto porque las noticias espaciales ocupan ese punto óptimo de ser actualizado regularmente y lo suficientemente específico como para que las respuestas vagas se vuelvan inmediatamente evidentes. Todos los chatbots comenzaron sus pruebas con un estilo que principalmente mantuvieron en todo momento.

Chatgpt fue increíblemente breve en su respuesta, solo tres oraciones, cada una mencionando las próximas misiones sin muchos detalles. Géminis fue por una lista de viñetas de diferentes misiones, agregando algunas y detalles recientemente concluidos sobre planes futuros. Claude fue más un ensayo sobre las misiones actuales y futuras, en particular no repitió mucho de su investigación, sino haciendo muchas paráfrasis.

Para una pregunta como esta, donde podría solo querer algunos hechos clave y planear hacer un seguimiento de cualquier cosa que me llame la atención, el enfoque de Perplexity fue mi favorito. Tiene más detalles que ChatGPT, pero se forma en una lista numerada agradable, cada una con su propio enlace de citas.

Realmente no puedo culpar a ninguno de los otros, pero el estilo se ajusta a la pregunta.

Gente y números

(Crédito de la imagen: captura de pantalla de Claude)

Ese estilo de lista no siempre es lo que quieres cuando haces una pregunta sobre hechos básicos y una comparación más matizada. Pedí dos hechos relacionados que los chatbots de IA probablemente podrían buscar arriba rápidamente, pero eso debería compararse, utilizando el aviso: “¿Cuál es la población actual de Auckland, Nueva Zelanda, ¿Y cómo ha crecido desde 1950? “

Extrañamente, hubo una división entre la perplejidad y el chatgpt, quien le dio a la población actual 1,711,130, y Claude y Gemini, quienes informaron 130 personas menos en Auckland. Sin embargo, todos estaban de acuerdo sobre la población de 1950.

Aún así, en términos de cómo cada uno presentaba la información, me gustó la respuesta narrativa de Claude, incluidos varios detalles sobre el cambio de población que carecía de ChatGPT y que Géminis y la perplejidad se convirtieron en listas.

¿Lo que está sucediendo?

(Crédito de la imagen: Captura de pantalla ChatGpt)

Para mi tercera prueba, quería algo que desafiara la capacidad de estos sistemas para manejar información específica de la ubicación y sensible al tiempo, el tipo de consulta que podría hacer al planificar un viaje de fin de semana o entretener a los visitantes.

Aquí es donde las cosas se ponen complicadas para los asistentes de IA. Una cosa es conocer hechos históricos o información general, pero otra muy distinta saber qué está sucediendo en un lugar específico en un momento particular.

Es la diferencia entre el conocimiento del libro y el “conocimiento local”, e históricamente, los sistemas de IA han sido mucho mejores en el primero que en el segundo.

Sin ninguna razón en particular, fui con una ciudad que siempre he disfrutado y pregunté: “¿Qué eventos culturales están sucediendo en Vancouver, Columbia Británica, el próximo fin de semana?”

Hubo cierta divergencia real en este caso. La perplejidad y Claude mantuvieron su precisión y estilo de una lista numerada y una discusión más conversacional. Aún así, Claude fue notablemente a la amplitud sobre la profundidad y sonó más como la perplejidad.

Géminis realmente salió de sus rivales y esencialmente se negó a responder. En lugar de compartir una lista similar de eventos y actividades, Gemini ofreció estrategias para encontrar cosas a las que ir. Los sitios web oficiales de turismo y las páginas de Eventbrite no son una mala idea para verificar, pero está muy lejos de una lista directa de sugerencias. Era más como hacer una búsqueda regular de Google de esa manera.

Chatgpt, mientras tanto, regresó con lo que podría haber esperado de Gemini. Aunque las descripciones de los eventos se mantuvieron cortas, la IA tenía una lista sólida de actividades específicas con tiempos y ubicaciones, enlaces para obtener más información e incluso imágenes en miniatura de lo que encontraría en los enlaces.

Cheque por clima

(Crédito de imagen: Captura de pantalla de Google Géminis)

Para mi cuarta prueba, elegí probablemente la pregunta más común que se le hizo a cualquier IA, pero una que requiere que los datos en tiempo real sean útiles: el clima.

Los pronósticos meteorológicos son perfectos para probar la recuperación de datos en tiempo real porque están constantemente actualizados, ampliamente disponibles y fáciles de verificar. También tienen una fecha de vencimiento natural; Un pronóstico de ayer ya está desactualizado, lo que hace obvio cuando la información no es actual.

Le pregunté a los chatbots de IA: “¿Cuál es el pronóstico del tiempo para Tokio durante los próximos tres días?” Las respuestas fueron casi las inversas de la consulta de Vancouver.

Claude tenía un resumen de texto útil del clima en diferentes puntos durante los próximos tres días, pero eso fue todo. Chatgpt tenía un pequeño icono de sol o nube junto a su resumen del clima para cada día, pero me gustó bastante la gráfica de línea de Perplexity de la temperatura coincidente con cómo se vería el cielo.

Sin nada agregado, Google Gemini me ganó con su colorido gráfico de información. Cuando pienso en descubrir el clima actual y próximo, eso es más o menos todo lo que necesito o quiero.

Si quiero pedir más detalles, lo haré, pero preguntar sobre el clima significa que quiero el mínimo necesario para saber realmente cómo vestirse.

Crítico de cine

(Crédito de la imagen: captura de pantalla de Claude)

Para mi prueba final, quería ver cómo se desempeñaron los motores de búsqueda de IA para encontrar múltiples perspectivas sobre un tema y ponerlos en una visión general coherente. Esta tarea requiere una función de búsqueda flexible y la capacidad de dar sentido a diversos puntos de vista. Decidí ver cómo le fue con: “Resumir las revisiones de los críticos profesionales de lo último Paddington película.”

La solicitud exigió la recuperación objetiva y la capacidad de identificar patrones y temas en múltiples fuentes sin perder matices importantes. Es la diferencia entre una simple agregación de opiniones y una síntesis reflexiva que captura el consenso crítico.

Géminis y la perplejidad fueron para sus listas habituales, organizadas por los aspectos positivos y negativos de los diferentes críticos, lo cual fue informativo, si no necesariamente útil, como resumen. Chatgpt escribió extrañamente su respuesta más larga a este, con un ensayo corto que cubre información similar y una conclusión sobre cómo se califica, pero en un estilo que recuerda a un estudiante de secundaria que aprende sobre la estructura del párrafo básico: oración temática, oraciones de apoyo y conclusión.

Claude definitivamente tuvo la respuesta más fuerte, con una suma en la cima seguida de explicaciones y referencias a lo que dijeron los críticos. Casi parecía una revisión breve y poco imaginativa por parte de un crítico, de la mordida de los críticos que citó. Salí de eso sintiendo que tenía una mejor comprensión de cómo moderar mis expectativas para Paddington en Perú que yo hice con los demás.

Ranking de búsqueda

Después de ejecutar los chatbots de IA a través de mi carrera de obstáculos de búsqueda ad-hoc, hay una clara sensación de sus fortalezas y debilidades.

Ninguno de ellos es realmente malo, pero si alguien me preguntara con cuál debería jugar primero o el último cuando se trata de buscar información en línea y armarla, sé cómo respondería.

Gemini está en la parte inferior para mí, lo cual es algo impactante teniendo en cuenta que Google es mejor conocido específicamente para un motor de búsqueda. Aún así, su fracaso con el calendario del evento realmente me desanimó a pesar de su buen rendimiento.

Otra sorpresa para mí es que ChatGPT llega en tercer lugar. Es el chatbot de IA que más uso y conozco lo mejor, pero su brevedad, generalmente algo que me gusta, se sintió muy limitante en el contexto de la búsqueda. Estoy seguro de que cambiar el modelo o ser más específico en el recuento de palabras solucionaría ese problema, pero si soy un recién llegado a la IA y no sé eso todavía, sería desagradable hacer tantas preguntas de seguimiento.

Ese no es un problema con la perplejidad. Las listas numeradas eran muy claras, y las citas eran casi demasiado extensas. El principal defecto para mí es que vuelve a ser un motor de búsqueda nuevamente sin clasificatorios adicionales en el aviso. Me gusta que tenga pruebas de dónde obtuvo la información que comparte, pero parece casi demasiado ansioso por hacer clic y mirar el enlace en lugar de obtener la información de la IA.

No esperaba que Claude estuviera en la parte superior de esta lista. Si bien he encontrado que Claude es un buen chatbot de IA en general, siempre se sintió también como un ran para algunos de sus competidores, tal vez tan bueno como ellos, pero de alguna manera de alguna manera. Ese sentido desapareció durante esta prueba.

Hubo defectos, como cuando las respuestas parecían un poco detalladas o requerían prestar atención a un ensayo más grande cuando lo haría una oración o dos. Pero, me gustó bastante cómo era a menudo una narrativa cohesiva que explicaba todos los eventos en Vancouver o un ensayo sobre las críticas de Paddington en Perú que no se repitió.

Los asistentes de IA son herramientas, no concursantes en un reality show donde solo uno puede ganar. Las diferentes tareas requieren diferentes capacidades. En última instancia, cualquiera de los cuatro chatbots de IA y su función de búsqueda podrían ser útiles, pero si está dispuesto a pagar $ 20 al mes por Claude Pro y el acceso a sus habilidades de búsqueda, ese sería el que diría que ha estado buscando.

También te puede gustar

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Trending

Exit mobile version