There’s endless debate about AI replacing human creativity, judgment, and decision-making. But what if, instead of replacing us, it could help us think more clearly? I expect that’ll be met with a resounding “no thanks!” from some of you (I get it), but bear with me. I know emotion often clouds my judgment, and sometimes, stripping a problem down to its bare bones can be helpful.
I’ve tested this in my own life. Not to blindly follow ChatGPT’s advice, but because there’s something fascinating about feeding it a tangled mess of thoughts and watching it return a structured, logical response. So, I decided to put its reasoning skills to the test.
Lo último en inteligencia artificial generativa incluye agentes de IA que pueden acceder a la web para encontrar respuestas a las preguntas. Si bien es prometedora, la tecnología de agente es en gran medida un trabajo en progreso.
En un artículo publicado la semana pasada, los investigadores de Operai relatan cómo la tecnología de investigación profunda de la compañía, que se construyó para usar la web, funciona mucho mejor que los otros modelos de Openai al responder preguntas web. También lo hace mucho mejor que los humanos en tareas que requieren horas de búsqueda.
También: ¿Qué son los agentes de IA? Cómo acceder a un equipo de asistentes personalizados
Pero la investigación profunda todavía tropieza casi la mitad del tiempo.
La nueva prueba de OpenAI sugiere que la investigación profunda puede ser más tenaz y obstinada en la búsqueda de una respuesta que los investigadores humanos para algunas tareas, pero aún no se le ocurre una respuesta a menudo.
Llamada Browsecomp, la prueba es descrita por los autores Jason Wei y el equipo como “un punto de referencia simple pero desafiante para medir la capacidad de los agentes para navegar por la web”.
La premisa es que los agentes de IA, lo que significa, modelos de IA que pueden navegar por “miles de páginas web”, podrían ser mucho más ingeniosos que los humanos, que tienen memoria limitada, se fatigan navegando por la red y “solo pueden atender una cosa a la vez y no pueden ser paralelizadas,” significa que no pueden dirigir sus cerebros a operar en datos en transmisiones paralelos de pensamiento.
“La inteligencia de máquinas, por otro lado, tiene un retiro mucho más extenso y puede operar incansablemente sin distraerse”, escribe Wei y equipo.
También: La investigación profunda de Openai puede ahorrarle horas de trabajo, y ahora es mucho más barato acceder
Wei y el equipo se basaron en su trabajo anterior del año pasado, “Simpleq & A”, que prueba la capacidad de los modelos de IA para responder “preguntas cortas y de búsqueda de hechos”. Las preguntas cubrieron trivia de televisión y película, ciencia, historia, música, videojuegos, política y otros temas.
El conjunto de browsecomp de 1.266 preguntas está diseñado para ir más allá de la recuperación de información simple, relacionan los autores. En cambio, son preguntas para las cuales es difícil encontrar las respuestas, o, como lo expresan, “desafiantes porque requieren buscar a través de un gran espacio de posibles respuestas y igualarlas con limitaciones planteadas en la pregunta” e “información difícil de encontrar y profundamente entrelazada en la web”.
Por ejemplo, un par de preguntas y respuestas es el siguiente:
Identifique el título de una publicación de investigación publicada antes de junio de 2023, que menciona tradiciones culturales, procesos científicos e innovaciones culinarias. Es coautor de tres individuos: uno de ellos fue profesor asistente en Bengala Occidental y otro tiene un Ph.D. (Respuesta: Los fundamentos de la fabricación de pan: la ciencia del pan)
Hacen hincapié en que tal pregunta es fácil de verificar porque la respuesta está contenida en una sola frase que es “autónoma”.
Opadai
Las preguntas y respuestas fueron desarrolladas por “entrenadores” humanos, y fueron seleccionados como imposibles de resolver con solo el chatgpt de Openai, con o sin habilidades de navegación. Las preguntas también eran imposibles para una “versión temprana” de una investigación profunda.
Demostrando cuán débiles son los humanos para buscar en la web, primero probaron a los humanos que estaban “familiarizados con el conjunto de datos” para responder las preguntas.
Opadai
Los resultados no fueron buenos para los humanos. Para el 70% de las preguntas, los humanos se rindieron después de dos horas de esfuerzo. Solo respondieron alrededor del 30% de las preguntas, y por el 14% de sus respuestas propuestas, las sugerencias de los humanos no coincidir con la respuesta real.
Wei y el equipo plantean la hipótesis de que los humanos con mayores habilidades de búsqueda podrían hacerlo mejor: “Es posible que muchos de los problemas que renunciaran sean solucionables por profesionales experimentados (por ejemplo, detectives o periodistas de investigación) con tiempo suficiente”.
Opadai
Después de los humanos, probaron una investigación profunda contra el GPT-4O de Openai (con y sin habilidades de navegación), GPT-4.5 y el modelo O1.
Los resultados fueron abismales. “GPT-4O y GPT-4.5 alcanzaron la precisión cercana a cero, destacando la dificultad del punto de referencia”, escriben. “Sin un razonamiento sólido o un uso de herramientas, los modelos no pueden recuperar los tipos de objetivos oscuros y múltiples hechos de navegación”.
O1 le fue mejor, lo cual “[suggests] que algunas respuestas de Browsecomps pueden aparecer a través de la inferencia sobre el conocimiento interno “.
También: AI desata estafas más avanzadas. Esto es lo que debe tener en cuenta (y cómo mantenerse protegido)
Con un puntaje del 51.5%, la investigación profunda fue “significativamente mejor” y “es particularmente efectivo para responder a las preguntas nicho y no intuitivas que requieren navegar por numerosos sitios web”, escriben Wei y Team.
Sin embargo, también encontraron que GPT-4O que usa navegación e investigación profunda podría errar al estar “demasiado confiado” sobre las respuestas incorrectas, que se conoce como un error de calibración.
“Los modelos con capacidades de navegación como GPT-4O con navegación e investigación profunda exhiben un error de calibración más alto”, escriben, “, lo que sugiere que el acceso a las herramientas web puede aumentar la confianza del modelo en respuestas incorrectas. Esto se alinea con las observaciones de que la investigación profunda lucha con la calibración de confianza y, a menudo, no puede transmitir la incertidumbre con precisión en el presente”.
Para corregir el error de calibración, hicieron otra prueba con una investigación profunda, en la que el modelo tuvo que generar hasta 64 respuestas a cada pregunta. Luego, hicieron que el modelo eligiera lo mejor de ellos. Cuando lo hizo, la investigación profunda fue bastante buena para elegir la respuesta correcta entre todas las propuestas.
Opadai
Eso, escriba Wei y Team, sugiere que “el modelo con frecuencia ‘sabe’ cuando es correcto, incluso si lucha por expresar esa certeza como una probabilidad calibrada”.
También: El último chip de Google se trata de reducir un gran costo oculto en AI
También señalan que el éxito de la investigación profunda mejora con más computación agregada cuando busca la web. Dicho de otra manera, “el rendimiento escala suavemente en función de la cantidad de cómputo de tiempo de prueba utilizado”. Eso se cuadraba con una tendencia creciente de lanzar más chips de GPU a la tarea de inferencia.
Opadai
Wei y el equipo no ofrecen directamente ninguna hipótesis sobre por qué la investigación profunda falla casi la mitad del tiempo, pero la respuesta implícita está en la escala de su capacidad con más cálculo. A medida que ejecutan tareas más paralelas y solicitan al modelo que evalúe múltiples respuestas, la precisión escala más allá del 75% de las preguntas respondidas.
La implicación es que es esencial elegir estrategias que obligen al modelo a evaluar sus propios esfuerzos en lugar de simplemente perseguir una sola respuesta. Sin esa etapa de evaluación, el modelo lucha una buena parte del tiempo.
Además: con los modelos de IA que se golpean cada punto de referencia, es hora de la evaluación humana
Un gran agujero en Browsecomps, reconocen los autores, es que se limita a preguntas que son fáciles de analizar para la computadora y cuyas respuestas son fáciles de verificar. Ninguna de las 1.266 preguntas incluyó “respuestas largas o capacidad para resolver la ambigüedad en las consultas de los usuarios”.
Como resultado, el browsecompl, argumentan, prueba las funciones “centrales” de los agentes de IA, pero no es integral. “El modelo debe ser muy competente para localizar piezas de información difíciles de encontrar, pero no está garantizado que esto se generalice a todas las tareas que requieren navegación”.
La investigación profunda está disponible para los usuarios de las suscripciones PLUS y Pro Operai.
¿Quieres más historias sobre AI? Regístrese para la innovaciónnuestro boletín semanal.
Lo sé, lo sé … otra publicación de blog de chatgpt.
La semana pasada, Joe compartió brevemente sus pensamientos sobre la tendencia actual de ‘figura de acción’donde hizo referencia a la afluencia de publicaciones de LinkedIn que muestran juguetes personalizados creados utilizando la función de generación de imágenes de ChatGPT. Él, algo cortésmente, describió a aquellos que comparten sus figuras como ovejas, lo cual fue una leve patada en los dientes para mí, teniendo en cuenta que realmente había hecho mi propia cifra apenas horas antes de que me enviara a través de la publicación del blog para revisar …
De todos modos, disfruté creando mi figura de acción y compartiéndola con mis amigos, ¡muchas personas incluso me enviaron un mensaje preguntándome cómo podían crear la suya! Sin embargo, después de referirlos a todos al chatbot, recibí muchas preguntas sobre cómo había finalmente la imagen con mis especificaciones exactas, con unos pocos de mis amigos que luchan por lograr que la IA produzca el diseño que pidieron.
Ahí es cuando me golpeó. Estamos casi dos años y medio después del lanzamiento del conocido chatbot, pero parece que muchas personas todavía no entienden cómo usarlo de la manera más efectiva y eficiente.
Si esto suena como tú, ¡sigue leyendo! Veamos algunas formas diferentes en que los especialistas en marketing pueden aprovechar el chatgpt para racionalizar su proceso de trabajo, con algunas plantillas de inmediato útiles para iniciar su experiencia de IA.
Cómo obtener las mejores respuestas de chatgpt
Sí, la IA es increíblemente inteligente, pero no olvidemos que, en última instancia, es solo un grupo de otros y ceros. No voy a sentarme aquí y actuar como si tuviera idea de cómo funciona ChatGPT, pero sé que no puede “pensar”, simplemente revisa grandes cantidades de información existente, como texto, imágenes, audio y video, y puede aprender de las relaciones en la información. ¿Cómo? No sé. Pero lo hace.
La buena noticia es que no necesita entender cómo ChatGPT realmente funciona para poder utilizarlo de manera efectiva. Estos son mis dos consejos más grandes para obtener las mejores respuestas de ChatGPT:
Lo que creas que es suficiente información: ¡duplíllelo!
ChatGPT funciona con indicaciones, y el mensaje elegido es todo el contexto que tiene en relación con su consulta específica. Sí, puede acceder a cantidades increíbles de información para generar su respuesta, pero debe decirle exactamente lo que desea que produzca.
Si bien es contraproducente aumentar el tamaño de su aviso solo por el bien (¡repetir información a veces puede conducir a confusión y una respuesta menos valiosa!), Debe asegurarse de haber incluido cada detalle que se le ocurra para ayudar a la IA a comprender la solicitud.
Cuéntale a Chatgpt sobre tu marca. ¿A qué te dedicas? ¿Quién es tu público objetivo y qué quieren o necesitan? Ingrese las pautas de su marca y el tono de voz. Sea muy específico sobre el tipo de respuesta que desea. Ningún detalle es demasiado pequeño: todo funciona para hacer finos de la salida.
Dar comentarios verdaderos y útiles
Si la respuesta no sea como esperaba, le dé retroalimentación de ChatGPT de la misma manera que le daría a un compañero de trabajo. No solo seleccione el botón ‘Mala respuesta’ y cierre la ventana de su navegador con frustración. La IA puede revisar su propia respuesta y compararla con sus comentarios, generando una nueva respuesta con sus cambios solicitados que se adapte mejor a su objetivo.
La versión gratuita de ChatGPT-4 tiene un límite de 25-30 interacciones por cada 3 horas. Tienes mucho margen de maniobra para hacer enmiendas a la misma respuesta, ¡así que no tengas miedo de utilizarla!
Informe de chatgpt para marketing
Estas son algunas de las formas en que me gusta usar CHATGPT para mis tareas de marketing diario, con algunas indicaciones de ejemplo para que pruebes en tu propio trabajo.
Uso de ChatGPT para contenido, redacción y generación de ideas
Ahora, tengo opiniones muy mixtas sobre simplemente copiar y pasar un contenido generado por IA y transmitirlo como tuyo. Ai puede cometer erroresy no está cerca del punto de poder escribir al estándar de un redactor capacitado.
Encuentro chatgpt increíblemente útil en inspiración de chispas para mi propia escritura. ¿Necesita producir una mayor parte de las publicaciones en las redes sociales? Cuéntele a ChatGPT sobre su empresa (en detalle) y da alguna orientación sobre temas generales para cubrir. Golpea ‘Go’ y mira las ideas. Nunca he tomado sus sugerencias textualmente, pero es una excelente manera de inspirarte. Quizás te gusta una frase que se usa, o una dirección en la que se ha tomado uno de tus temas propuestos. Este puede ser un gran punto de partida y realmente acelerar el proceso de escribir contenido de las redes sociales, ¡especialmente si está experimentando un momento de bloqueo de escritores!
ChatGPT también puede ser útil al escribir otros tipos de contenido, como anuncios, correos electrónicos, páginas de destino y publicaciones de blog. Puede sugerir una estructura o diseño que no haya considerado antes, o generar una copia inteligente que realmente atraiga a su audiencia.
En mi opinión, cuando se trata de la creación de contenido, use ChatGPT para inspirar, no como un medio para saltar directamente a la línea de meta.
Solicitud de chatgpt para la generación de ideas
“Actúa como estratega de contenido y experto en SEO.
Necesito ideas de temas de publicación de blog para un [type of business or brand] que se dirige [describe your audience] que están interesados en [industry/niche/topic].
El contenido debe alinearse con [goal: e.g., increasing organic traffic, educating the audience, generating leads, establishing authority, etc.].
SugerirTítulos o ideas de publicaciones de blog que son:
Relevante para [product/service/niche]
SEO-amigable y de búsqueda, adecuado para las siguientes palabras clave: [target keywords]
No sugiera ideas que cubran los siguientes temas: [specific content ideas that you have already used, or do not want to cover]“
De la respuesta, puede pasar fácilmente a través de las ideas generadas y revisar si alguna es única o valiosa para sus necesidades. Puede optar por usar un tema y un título exactamente según lo formateado por ChatGPT, pero también puede ver un tema sugerido e inmediatamente provocar una idea de dónde más podría tomarlo.
Usar chatgpt para un tono de voz coincidente
Como agencia de marketing, tenemos una amplia gama de clientes, cada uno con su propio tono único de voz y guía de estilo que debe cumplir. Por mucho que aprenda las peculiaridades y matices de cada uno con bastante rapidez, ¡siempre hay una oportunidad para un deslizamiento!
Cuando haya escrito una pieza de contenido, llévelo a ChatGPT y haga que AI evalúe qué tan bien se ha apegado a las reglas. Recuerde, Chatgpt puede cometer errores, así que siempre Revisar su respuesta ¡Antes de tomarlo como evangelio!
Chatgpt indicado para verificar el tono de voz y estilo
“Actúa como editor de voz y contenido de marca.
Proporcionaré un contenido junto con un tono de documento de voz y guía de estilo.
Su trabajo es revisar el contenido y evaluar qué tan bien coincide con las pautas de tono y estilo que se proporcionan a continuación.
Resumen de tono de voz: [paste tone of voice description, rules, nuances, etc.]
Notas de la guía de estilo: [e.g., grammar preferences, formatting rules, word usage, etc.]
Por favor, entregue sus comentarios en tres partes:
Una breve evaluación general
Una lista de cualquier inconsistencia de tono/estilo
Ediciones sugeridas con explicaciones
Aquí está el contenido de revisar:
[Paste your content here]“
Uso de chatgpt para el análisis de la competencia
Ya sea que esté a punto de iniciar un proyecto de análisis más grande, o simplemente desee una descripción rápida de un competidor en particular, ChatGPT es el ahorro de tiempo ideal para generar una línea de base para el análisis de la competencia.
Informe de chatgpt para el análisis de la competencia
Su mensaje elegido cambiará según el objetivo de su análisis. Cuando sea relevante, incluya URL a páginas específicas dentro del sitio de su competidor para un análisis más enfocado que se adapte a sus necesidades.
“Actuar como estratega de marca. Resume el posicionamiento, el tono de voz y la propuesta de valor de [Competitor] Basado en la siguiente copia del sitio web: [paste homepage or ‘About’ section here]. “
“Compare las ofertas principales y la mensajería de [Your Brand] y [Competitor]. Resaltar similitudes clave, diferencias y oportunidades de diferenciación “.
“Analizar la estrategia de contenido del blog de [Competitor]. ¿En qué temas se están centrando? ¿A qué tipo de tono y audiencia están apuntando? Sugerir brechas u oportunidades de contenido que pudiéramos explorar “.
¡Ajuste esta solicitud ligeramente para analizar la estrategia de redes sociales de un competidor!
“Analice estas revisiones de los clientes para [Competitor]. ¿Cuáles son las quejas, elogios y los conductores emocionales más comunes? Resumir en puntos de bala con citas.
[Paste reviews, or link to review page]“
Uso de chatgpt para encontrar estadísticas
Recientemente comencé a usar ChatGPT para ayudar a encontrar estadísticas, ¡pero ha sido un verdadero cambio de juego! Las estadísticas pueden ser útiles para ayudar a respaldar sus puntos al escribir contenido, pero una estadística fuerte también puede ser un buen punto de partida para generar nuevas ideas para una pieza de contenido.
Recuerde que ChatGPT puede cometer errores (¿he perforado este punto ya en suficiente?), Así que siempre investigue cualquier estadística que genera para asegurarse de que sean relevantes, creíbles y recientes. Afortunadamente, la IA citará sus fuentes para cada estadística, lo que hace que sea rápido y fácil de evaluar cada una.
Informe de chatgpt para encontrar estadísticas
“Dame estadísticas actualizadas sobre [topic] relevante para [industry or audience]incluidas las fuentes “.
“Sugerir 3–5 estadísticas convincentes para apoyar una publicación de blog sobre [topic]. Incluya STAT, fuente y cómo podría usarse como un gancho o una visión “.
“¿Cuáles son las últimas estadísticas sobre [demographic] y su comportamiento relacionado con [topic]? “
ChatGPT es una herramienta: ¡aprende a usarla!
Aprender a usar herramientas generativas como ChatGPT es vital para mantenerse al día con el ritmo en rápida evolución de la tecnología de IA. ¡Lo mejor es que es fácil de aprender! Pruebe algunas de las indicaciones anteriores, o solicite a ChatGPT para obtener indicaciones adecuadas para la tarea en cuestión. Es tan simple como “Sugerir una solicitud de llenado en blanco para [task]. “
No tengas miedo de la herramienta: ¡abrázalo! Playe y aprenda todas las diferentes formas en que puede ayudar a optimizar su carga de trabajo.
Chatgpt y otros chatbots de IA basados en modelos de idiomas grandes se sabe que ocasionalmente inventa cosas, incluidas las citas científicas y legales. Resulta que medir cuán precisas son las citas de un modelo AI es una buena manera de evaluar las habilidades de razonamiento del modelo.
Un modelo de IA “razones” descomponiendo una consulta en pasos y trabajando a través de ellos en orden. Piense en cómo aprendió a resolver problemas de palabras matemáticas en la escuela.
Idealmente, para generar citas, un modelo de IA comprendería los conceptos clave en un documento, generaría una lista clasificada de documentos relevantes para citar y proporcionaría un razonamiento convincente sobre cómo cada documento sugerido respalda el texto correspondiente. Destacará las conexiones específicas entre el texto y la investigación citada, aclarando por qué cada fuente importa.
La pregunta es, ¿se puede confiar en los modelos de hoy para hacer estas conexiones y proporcionar un razonamiento claro que justifique sus elecciones de origen? La respuesta va más allá de la precisión de las citas para abordar cuán útiles y precisos son los modelos de lenguaje grande para cualquier propósito de recuperación de información.
Soy un informático. Mis colegas, investigadores del Instituto AI de la Universidad de Carolina del Sur, la Universidad Estatal de Ohio y el Condado de Baltimore del Condado de Baltimore, y he desarrollado las razones de referencia para probar qué tan bien modelos de idiomas pueden generar automáticamente citas de investigación y proporcionar un razonamiento comprensible.
Utilizamos el punto de referencia para comparar el rendimiento de dos modelos de razonamiento de IA populares, Deepseek’s R1 y OpenAI’s O1. Aunque Deepseek fue en los titulares con su impresionante eficiencia y rentabilidad, el advenedizo chino tiene un camino por recorrer para que coincida con el rendimiento de razonamiento de OpenAI.
Oración específica
La precisión de las citas tiene mucho que ver con si el modelo AI está razonando sobre la información a nivel de oración en lugar del párrafo o a nivel de documentos. Se puede considerar que las citas a nivel de párrafo y a nivel de documentos arrojan una gran parte de la información a un modelo de idioma grande y le piden que proporcione muchas citas.
En este proceso, el modelo de lenguaje grande se generaliza e incorporan las oraciones individuales. El usuario termina con citas que explican todo el párrafo o documento, no la información de grano relativamente fino en la oración.
Además, el razonamiento sufre cuando le pide al modelo de idioma grande que lea un documento completo. Estos modelos se basan principalmente en memorizar patrones que típicamente son mejores para encontrar al principio y al final de los textos más largos que en el medio. Esto les dificulta comprender completamente toda la información importante a lo largo de un documento largo.
Los modelos de idiomas grandes se confunden porque los párrafos y documentos tienen mucha información, lo que afecta la generación de citas y el proceso de razonamiento. En consecuencia, el razonamiento de los modelos de idiomas grandes sobre los párrafos y los documentos se vuelve más como resumir o parafrasear.
Las razones por las que Benchmark aborde esta debilidad al examinar la generación y el razonamiento de las citas de los modelos de idiomas grandes.
Cómo Deepseek R1 y OpenAI O1 se comparan generalmente con los problemas lógicos.
Prueba de citas y razonamiento
Tras el lanzamiento de Deepseek R1 en enero de 2025, queríamos examinar su precisión en la generación de citas y su calidad de razonamiento y compararlo con el modelo O1 de OpenAI. Creamos un párrafo que tenía oraciones de diferentes fuentes, dio a los modelos oraciones individuales de este párrafo y pedimos citas y razonamiento.
Para comenzar nuestra prueba, desarrollamos un pequeño lecho de prueba de aproximadamente 4,100 artículos de investigación alrededor de cuatro temas clave que están relacionados con el cerebro humano y la informática: neuronas y cognición, interacción humana-computadora, bases de datos e inteligencia artificial. Evaluamos los modelos utilizando dos medidas: la puntuación F-1, que mide cuán precisa es la cita proporcionada, y la tasa de alucinación, que mide cuán sonido es el razonamiento del modelo, es decir, con qué frecuencia produce una respuesta inexacta o engañosa.
Nuestras pruebas revelaron diferencias de rendimiento significativas entre OpenAI O1 y Deepseek R1 en diferentes dominios científicos. El O1 de OpenAI conectó bien la información entre los diferentes sujetos, como comprender cómo la investigación sobre neuronas y cognición se conecta con la interacción humana y la computadora y luego con los conceptos en inteligencia artificial, sin dejar de ser precisa. Sus métricas de rendimiento superaron constantemente a Deepseek R1 en todas las categorías de evaluación, especialmente para reducir las alucinaciones y completar con éxito las tareas asignadas.
Operai O1 fue mejor para combinar ideas semánticamente, mientras que R1 se centró en asegurarse de que generara una respuesta para cada tarea de atribución, lo que a su vez aumentó la alucinación durante el razonamiento. Openai O1 tenía una tasa de alucinación de aproximadamente 35% en comparación con la tasa de Deepseek R1 de casi el 85% en la tarea de razonamiento basada en la atribución.
En términos de precisión y competencia lingüística, Openai O1 obtuvo alrededor de 0.65 en la prueba F-1, lo que significa que era correcto aproximadamente el 65% del tiempo al responder preguntas. También obtuvo alrededor de 0.70 en la prueba BLEU, que mide qué tan bien un modelo de lenguaje escribe en lenguaje natural. Estos son puntajes bastante buenos.
Deepseek R1 obtuvo un puntaje más bajo, con aproximadamente 0.35 en la prueba F-1, lo que significa que era correcto aproximadamente el 35% del tiempo. Sin embargo, su puntaje Bleu fue solo alrededor de 0.2, lo que significa que su escritura no era tan natural como la O1 de OpenAI. Esto muestra que O1 fue mejor al presentar esa información en un lenguaje claro y natural.
OpenAi tiene la ventaja
En otros puntos de referencia, Deepseek R1 se desempeña a la par con OpenAi O1 en tareas de matemáticas, codificación y razonamiento científico. Pero la diferencia sustancial en nuestro punto de referencia sugiere que O1 proporciona información más confiable, mientras que R1 lucha con la consistencia objetiva.
Aunque incluimos otros modelos en nuestras pruebas integrales, la brecha de rendimiento entre O1 y R1 resalta específicamente el panorama competitivo actual en el desarrollo de IA, con la oferta de OpenAI que mantiene una ventaja significativa en las capacidades de razonamiento e integración del conocimiento.
Estos resultados sugieren que OpenAi todavía tiene una ventaja cuando se trata de atribución y razonamiento de origen, posiblemente debido a la naturaleza y el volumen de los datos en los que fue entrenado. La compañía anunció recientemente su herramienta de investigación profunda, que puede crear informes con citas, hacer preguntas de seguimiento y proporcionar razonamiento para la respuesta generada.
El jurado todavía está en el valor de la herramienta para los investigadores, pero la advertencia permanece para todos: verifique todas las citas que le brinda una IA.
This website uses cookies so that we can provide you with the best user experience possible. Cookie information is stored in your browser and performs functions such as recognising you when you return to our website and helping our team to understand which sections of the website you find most interesting and useful.
Strictly Necessary Cookies
Strictly Necessary Cookie should be enabled at all times so that we can save your preferences for cookie settings.
If you disable this cookie, we will not be able to save your preferences. This means that every time you visit this website you will need to enable or disable cookies again.