El 12 de septiembre de 2024, el creador de chatgpt OpenAi introdujo su primer modelo de razonamiento conocido como O1, el primero en la serie O de los modelos. Mientras que GPT-4 se destaca en tareas de lenguaje general, la serie O se centra específicamente en las capacidades de razonamiento.
Originalmente desarrollado bajo el nombre de código Strawberry, O1 es un enfoque diferente, más reflexivo y razonado para modelos de idiomas grandes (LLM) que el GPT-4O de OpenAI. El modelo O1 generalmente estuvo disponible el 5 de diciembre de 2024.
El 20 de diciembre de 2024, durante su evento “12 días de OpenAi”, el CEO de Operai, Sam Altman, anunció una vista previa para la próxima generación de O1, conocida como O3. La noticia siguió el anuncio de la disponibilidad general del modelo de video SORA de Operai.
El momento del anuncio del modelo O3 fue solo un día después de que Google anunció su vista previa del modelo Gemini 2.0, que también integró algunas capacidades de razonamiento. El objetivo con O3 es extender aún más el modelo de razonamiento con un mejor rendimiento, capacidades y seguridad.
¿Qué es OpenAi O3?
Operai considera que los modelos O1 y O3 están en la vanguardia del desarrollo de LLM, en una clase a veces conocida como modelos fronterizos. La familia modelo incluye dos variantes:
O3. El modelo base.
O3-Mini. El modelo más pequeño optimizado para el rendimiento y la eficiencia de rentabilidad.
Como modelo de razonamiento, O3 tiene como objetivo manejar tareas más complejas que los tipos de modelos existentes, como GPT-4O. A diferencia de los modelos de IA tradicionales, O3 está diseñado específicamente para sobresalir en tareas que requieren un pensamiento analítico profundo, resolución de problemas y razonamiento complejo.
Similar a otros modelos de IA generativos, el O3 de OpenAI es un modelo basado en transformadores que utiliza técnicas de aprendizaje profundo para procesar y generar salida. Sin embargo, lo que distingue a O3 es su capacidad mejorada para comprender el contexto y la razón a través de problemas complejos.
El modelo O3 utiliza un proceso llamado razonamiento simuladoque permite que el modelo haga una pausa y reflexione sobre sus procesos de pensamiento internos antes de responder. El razonamiento simulado va más allá de la cadena de pensamiento (COT) que solicita proporcionar un enfoque integrado y autónomo más avanzado para el autoanálisis y la reflexión sobre la salida del modelo. El razonamiento simulado es un enfoque que imita el razonamiento humano identificando patrones y sacando conclusiones basadas en esos patrones.
¿Qué es O3-Mini?
Similar a la familia del modelo O1, hay múltiples variantes de O3.
El modelo base O1 es el modelo a gran escala que ofrece capacidades máximas pero que requiere recursos computacionales significativos.
En contraste, O3-Mini es una versión escalada optimizada para el rendimiento y la costumbre. El modelo O3-Mini sacrifica algunas capacidades para los requisitos computacionales reducidos, al tiempo que mantiene las innovaciones centrales en el razonamiento.
¿Cuáles son las nuevas técnicas de seguridad en O3?
El modelo O3 utiliza una nueva técnica de seguridad conocida como alineación deliberativaque utiliza las capacidades de razonamiento del modelo O3 para comprender y evaluar las implicaciones de seguridad de las solicitudes de los usuarios.
Con un enfoque tradicional de capacitación en seguridad para un LLM, el modelo revisa ejemplos de indicaciones seguras e inseguras para establecer un límite de decisión. En contraste, el enfoque de alineación deliberativa utiliza las capacidades de razonamiento del modelo para analizar y evaluar las indicaciones.
Con la alineación deliberativa, el modelo razona sobre un aviso utilizando una especificación de seguridad y puede identificar intenciones ocultas o intentos de engañar al sistema. Según OpenAi, la alineación deliberativa representa una mejora en el rechazo con precisión del contenido inseguro y evitar los rechazos innecesarios de contenido seguro.
Cómo funciona la alineación deliberativa
La alineación deliberativa presenta una serie de innovaciones a los modelos O3 que no están presentes en modelos OpenAI anteriores.
La alineación deliberativa funciona a través de un proceso de múltiples etapas.
Etapa de entrenamiento inicial
Un modelo base está capacitado para una ayuda general sin datos específicos de seguridad.
El modelo tiene acceso directo al texto real de especificaciones y políticas de seguridad.
Proceso de generación de datos
Las indicaciones categorizadas de seguridad se combinan con especificaciones de seguridad relevantes.
Las indicaciones se alimentan a un modelo base, que genera razonamiento de COT sobre la solicitud.
Implementación de capacitación
La primera fase incluye ajuste fino (SFT) supervisado para optimizar el razonamiento utilizando datos etiquetados para una tarea específica.
Después de SFT, la siguiente fase es el aprendizaje de refuerzo, que refina aún más el uso del razonamiento del modelo.
Proceso de inferencia
Al recibir un aviso, el modelo genera automáticamente el razonamiento de COT, analiza el mensaje contra las especificaciones de seguridad y produce una respuesta compatible con la política.
¿Qué pasó con OpenAi O2?
Por lo general, sería sentido común esperar una progresión numérica lógica para una nueva versión. Sin embargo, no existe un modelo OpenAI O2 como OpenAI avanzó a O3.
El nombre O2 es el nombre de marca registrada de un servicio de telefonía móvil en el Reino Unido, operado por Telefonica UK. Operai decidió nombrar el nuevo modelo O3, por respeto a la telefónica.
¿Qué puede hacer OpenAI O3?
Como modelo basado en transformadores, puede manejar actividades comunes de LLM, incluidas respuestas basadas en el conocimiento, resumen y generación de texto.
Similar a su predecesor O1, el modelo O3 tiene capacidades avanzadas en múltiples dominios, incluidos los siguientes:
Razonamiento avanzado. El modelo es capaz de razonamiento lógico paso a paso y puede manejar tareas cada vez más complejas que requieren un análisis detallado.
Programación y codificación. El modelo O3 es altamente competente para codificar, logrando una precisión del 71.7% en el bancos SWE verificado, un punto de referencia que consiste en tareas de software del mundo real, marcando una mejora del 20% sobre el modelo O1.
Matemáticas. Los usuarios pueden ejecutar operaciones matemáticas complejas con el modelo con una capacidad que supera a O1. Operai informó que O3 obtuvo una precisión del 96.7% en el Examen de Matemáticas Invitacionales Americanas (AIME), en comparación con el 83.3% de O1.
Ciencia. El modelo O3 también será útil para la investigación científica. Según OpenAI, el modelo alcanzó una precisión del 87.7% en GPQA Diamond, un punto de referencia que prueba las preguntas de ciencias de Ph.D.-Level.
Verificación de facto. El O3 puede verificar a sí mismo, mejorando la precisión de sus respuestas.
Adaptabilidad hacia inteligencia general artificial. Entre los grandes avances reclamados por OpenAI para O3 se encuentra el rendimiento en el punto de referencia ARC-AGI. El punto de referencia ARC-AGI prueba la capacidad de un modelo de IA para reconocer patrones en situaciones únicas y adaptar el conocimiento a desafíos desconocidos. El modelo O3 logró una precisión del 87.5%, superando el rendimiento a nivel humano (85%) y mejoró significativamente sobre O1, que solo obtuvo el 32%.
¿Cómo usar OpenAI O3?
La liberación inicial de O3 es extremadamente restringida y limitada en disponibilidad.
En lugar de un lanzamiento público inmediato, tanto O3 como O3-Mini están inicialmente disponibles para pruebas de seguridad pública.
En el enfoque de pruebas de seguridad pública, los posibles usuarios deben solicitar acceso.
Los objetivos de proporcionar el modelo inicialmente solo para pruebas de seguridad son permitir a los investigadores hacer lo siguiente:
Desarrollar evaluaciones extensas para implicaciones de seguridad.
Crear demostraciones de potenciales capacidades de alto riesgo.
Explore nuevos modelos de amenazas y análisis de seguridad.
Más allá de las primeras pruebas de seguridad, Openai planea hacer que O3-Mini esté disponible a fines de enero con la versión completa de O3 a seguir.
Operai O1 vs. OpenAI O3
Tanto O1 como O3 son modelos de razonamiento con la misma funcionalidad central. Los dos modelos muestran diferencias significativas en el rendimiento en varias tareas.
Por ejemplo, los puntajes de codificación ampliamente utilizados, como la calificación ELO de CodeForces, miden el nivel relativo de habilidad de programación. Una calificación ELO es una escala de calificación que originalmente se usa para calificar el rendimiento del jugador de ajedrez.
El siguiente cuadro describe las diferencias clave y puntajes de rendimiento de referencia de O1 vs. O3.
Característica
OpenAi O1
OPERAI O3
Fecha de lanzamiento
5 de diciembre de 2024
Esperado enero de 2025
Variantes de modelo
Tres: O1, O1-Mini y O1 Pro
Dos: O3 y O3-Mini
Puntuación de referencia Arc-Agi
32%
87.5%
AIME 2024 SCORE (Matemáticas)
83.3%
96.7%
Codesforces ELO Calificación (codificación)
1891 (experto)
2727 (Gran Maestro Internacional)
Puntuación verificada de SWE-Bench (codificación)
48.9%
71.7%
Capacidades de razonamiento
Básico
Avanzado (razonamiento simulado)
Características de seguridad
Básico
Mejorado (alineación deliberativa)
Sean Michael Kerner es un consultor de TI, entusiasta de la tecnología y tinkerer. Ha sacado el anillo de tokens, configurado NetWare y se sabe que compiló su propio kernel Linux. Consulta con organizaciones de la industria y los medios de comunicación sobre temas de tecnología.
La mayoría de la gente sabe que la famosa prueba de Turing, un experimento de mentalidad concebido por el pionero informático Alan Turing, es una medida popular de progreso en la inteligencia artificial.
Muchos suponen erróneamente, sin embargo, que es una prueba de que las máquinas realmente están pensando.
La última investigación sobre la prueba de Turing de los académicos de la Universidad de California en San Diego muestra que el último modelo de lenguaje grande de OpenAi, GPT-4.5, puede engañar a los humanos para que piensen que el modelo de IA es una persona en chats de texto, incluso más que un humano puede convencer a otra persona de que es humano.
También: Cómo usar ChatGPT: una guía para principiantes para el chatbot de IA más popular
Ese es un avance en la capacidad de Gen AI para producir un resultado convincente en respuesta a un aviso.
Universidad de California en San Diego
Prueba de agi?
Pero incluso los investigadores reconocen que superar la prueba de Turing no significa necesariamente que se haya logrado la “inteligencia general artificial” o AGI, un nivel de procesamiento de computadora equivalente al pensamiento humano.
La académica de IA Melanie Mitchell, profesora del Instituto de Santa Fe en Santa Fe, Nuevo México, ha escrito en la revista académica Science que la prueba de Turing es menos una prueba de inteligencia per se y más una prueba de supuestos humanos. A pesar de los altos puntajes en la prueba, “la capacidad de sonar fluida en el lenguaje natural, como tocar el ajedrez, no es una prueba concluyente de inteligencia general”, escribió Mitchell.
Cameron Jones y Benjamin Bergen de UC San Diego describen el último rendimiento convincente en un artículo publicado en el servidor de pre-impresión ARXIV esta semana, titulado “Los modelos de idiomas grandes pasan la prueba de Turing”.
También: Operai expande el despliegue GPT-4.5. Aquí le mostramos cómo acceder (y qué puede hacer por usted)
El documento es la última entrega en un experimento que Jones y Bergen han estado ejecutando durante años con la participación de los estudiantes universitarios de UC San Diego del departamento.
Como señalan los autores, ha habido décadas de trabajo sobre el problema. Hasta la fecha, ha habido “más de 800 reclamos y contraargumentos separados que se han hecho” sobre las computadoras que pasan la prueba.
Cómo funciona la prueba de Turing
La prueba de Turing fue concebida clásicamente por Turing como una ronda de mensajes de texto que pasan entre un “juez” humano y dos “testigos”, uno un humano y otro una computadora.
La computadora y los testigos humanos fueron acusados de convencer al juez humano de que eran humanos por los mensajes que cada uno envió. El juez sabe que solo uno de los dos es humano, pero no cuál es lo que y tiene que adivinar.
Esa forma de tres vías es esencial. Significa que si el juez considera erróneamente una computadora humana, entonces el juez también perdió las pistas que deberían haber obtenido de lo humano sobre la humanidad.
También: Con los modelos de IA que golpean cada punto de referencia, es hora de la evaluación humana
En otras palabras, es una prueba tanto sobre cómo los humanos perciben y creen que el funcionamiento de la computadora.
El diseño actualizado de Jones y Bergen se publica en línea, y puedes jugar el juego tú mismo, como juez o testigo.
Como en versiones anteriores, se pidió a los estudiantes humanos de UC San Diego que participaran en una aplicación de chat de texto. Algunos de los estudiantes interpretaron al juez y otros al testigo humano en intercambios de chat de cinco minutos aleatorios, mientras que GPT-4.5 interpretó al testigo de la computadora. Cada juez tuvo conversaciones simultáneas con un testigo humano y informático para adaptarse a la forma de tres vías de la formulación de Turing.
Para interpretar a la computadora testigo, se utilizaron múltiples modelos de lenguaje grande, ingresados con los desafíos del juez en un aviso. GPT-4.5 se probó con dos indicaciones diferentes. Un mensaje recibió información mínima. Pero un segundo, llamado Persona, recibió muchos detalles adicionales en el mensaje, incluidas “instrucciones adicionales sobre qué tipo de persona adoptar para responder al interrogador: específicamente una persona joven introvertida, conocedora de la cultura de Internet y usa la jerga”, escriben los autores.
Universidad de California en San Diego
Los resultados
Se probaron otros tres programas de IA: el modelo anterior de OpenAI, GPT-4O; Meta Platforms’s Llama 3.1 405b; y un programa de bot de chat muy antiguo de la década de 1960, llamado Eliza. Eliza se incluyó porque, como un programa más primitivo, podría actuar como una verificación de si los modelos de idiomas grandes engañaban a un humano simplemente por azar a aleatorias o porque en realidad eran mejores programas.
GPT-4.5, informa Jones y Bergen, tenían una “tasa de victorias” del 73%, lo que significa que engañó al juez humano para que lo declarara humano el 73% del tiempo. Por el contrario, la versión de GPT-4.5 con el aviso minimalista y los otros tres programas de IA no se acercaron tan bien, con puntajes que van del 21% al 56%, incluso cuando los otros modelos de idiomas recibieron un aviso de persona igualmente rica.
También: ¿Chatgpt Plus o Pro vale la pena? Así es como se comparan con la versión gratuita
Además, GPT-4.5 estuvo muy por encima de una prueba de GPT-4 el año pasado por Jones y Bergen. Tenía una tasa de victorias de solo 54%, justo por encima de la oportunidad aleatoria.
Jones y Bergen concluyen que “los interrogadores no solo no pudieron identificar al verdadero testimonio humano, sino que, de hecho, tenían más probabilidades de creer que este modelo era humano que el que otros participantes humanos”.
¿La prueba es realmente una medida de inteligencia?
Por lo tanto, puede preguntar qué significa que los humanos hacen un mal trabajo al contarle a una computadora y a una persona en función de los mensajes de chat.
La “pregunta más controvertida” sobre el problema de Turing a lo largo de las décadas es si realmente está medir la inteligencia, Jones y Bergen reconocen.
Una forma de verlo es que las máquinas se han vuelto tan buenas que pueden “adaptar su comportamiento a diferentes escenarios que los hacen tan flexibles: y aparentemente tan capaces de pasar como humanos”, observan. El indicador de la persona, creado por los humanos, es algo a lo que GPT-4.5 “se adaptó” para ganar.
Nuevamente, es un avance técnico genuino en las capacidades del modelo AI.
También: Chatgpt Plus es gratis para los estudiantes ahora, cómo obtener este trato antes de las finales
Sin embargo, una gran queja ante la prueba es que los humanos podrían ser simplemente malos para reconocer la inteligencia. Los autores concluyen que su experimento es evidencia de eso, al menos parcialmente.
Señalan que el 23% del tiempo, el programa Eliza más antiguo engañó a los jueces humanos. Según se relacionan, eso no fue porque de alguna manera era obviamente más inteligente. “Muchos participantes seleccionaron a Eliza porque no cumplió con sus expectativas de un sistema de IA (por ejemplo, ‘fueron sarcásticos’ o ‘No creo que la IA sea tan grosera’)”, escriben.
Esas suposiciones, escriben, “sugieren que las decisiones de los interrogadores incorporan suposiciones complejas sobre cómo los humanos y los sistemas de IA podrían comportarse en estos contextos, más allá de simplemente seleccionar el agente más inteligente”.
De hecho, los jueces humanos no preguntaron mucho sobre el conocimiento en sus desafíos, a pesar de que Turing pensó que ese sería el criterio principal. “[O]NE de las razones más predictivas de veredictos precisos “por el juez humano, escriben,” era que un testigo era humano porque carecían de conocimiento “.
Sociabilidad, no inteligencia
Todo esto significa que los humanos estaban recogiendo cosas como la sociabilidad en lugar de la inteligencia, lo que llevó a Jones y Bergen a concluir que “fundamentalmente, la prueba de Turing no es una prueba directa de inteligencia, sino una prueba de luz humana”.
Para Turing, la inteligencia puede haber parecido ser la mayor barrera para aparecer como humano y, por lo tanto, para pasar la prueba de Turing. Pero a medida que las máquinas se vuelven más similares a nosotros, otros contrastes han caído en un alivio más agudo, hasta el punto de que la inteligencia por sí sola no es suficiente para parecer convincentemente humano.
Los autores no han dicho que los humanos se han acostumbrado a escribir en una computadora, para una persona o para una máquina, que la prueba ya no es una nueva prueba de interacción humano-computadora. Es una prueba de hábitos humanos en línea.
Una implicación es que la prueba debe ampliarse. Los autores escriben que “la inteligencia es compleja y multifacética”, y “ninguna prueba única de inteligencia podría ser decisiva”.
También: Gemini Pro 2.5 es un asistente de codificación increíblemente capaz, y una gran amenaza para chatgpt
De hecho, sugieren que la prueba podría salir muy diferente con diferentes diseños. Los expertos en IA, señalan, podrían ser probados como una cohorte de juez. Podrían juzgar de manera diferente a los laicos porque tienen diferentes expectativas de una máquina.
Si se agregara un incentivo financiero para elevar las apuestas, los jueces humanos podrían analizar de manera más estrecha y cuidadosa. Esos son indicios de que la actitud y las expectativas juegan un papel.
“En la medida en que la prueba de Turing hace inteligencia índice, debe considerarse entre otros tipos de evidencia”, concluyen.
Esa sugerencia parece cuadrar con una tendencia creciente en el campo de investigación de IA para involucrar a los humanos “en el bucle”, evaluando y evaluando lo que hacen las máquinas.
¿Es suficiente el juicio humano?
Se queda abierto la cuestión de si el juicio humano será en última instancia suficiente. En la película Blade Runner, los robots “replicantes” en medio de ellos se han vuelto tan buenos que los humanos confían en una máquina, “Voight-Kampff”, para detectar quién es humano y quién es robot.
A medida que la búsqueda continúa llegando a AGI, y los humanos se dan cuenta de lo difícil que es decir qué es AGI o cómo la reconocerían si se toparan con ella, tal vez los humanos tendrán que confiar en las máquinas para evaluar la inteligencia de la máquina.
También: 10 razones clave por las que la IA fue la corriente principal durante la noche, y lo que sucede después
O, al menos, pueden tener que preguntar a las máquinas qué máquinas “piensan” sobre los humanos que escriben las indicaciones para tratar de hacer que una máquina engañe a otros humanos.
Obtenga las principales historias de la mañana en su bandeja de entrada cada día con nuestro Boletín de Tech Today.
He estado a bordo del tren de IA generativo desde los primeros días de Openai, antes del lanzamiento de Chatgpt y, finalmente, Microsoft invirtiendo miles de millones de dólares en OpenAi.
En el papel, Microsoft se supone que se encuentra entre las principales compañías tecnológicas en el espacio de IA, debido a su inversión multimillonaria y los estrechos lazos con OpenAI como su mayor inversor y proveedor exclusivo de la nube (bueno, al menos hasta que SoftBank bombardeó el mejor “Bromance” tecnológico en la historia con su ambiente proyecto de $ 500 mil millones).
Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
Los investigadores de la Fundación Sentient han publicado Open Deep Search (ODS), un marco de código abierto que puede igualar la calidad de las soluciones de búsqueda de IA patentadas, como la perplejidad y la búsqueda de CHATGPT. ODS equipa modelos de idiomas grandes (LLM) con agentes de razonamiento avanzado que pueden usar la búsqueda web y otras herramientas para responder preguntas.
Para las empresas que buscan herramientas de búsqueda de IA personalizables, ODS ofrece una alternativa convincente y de alto rendimiento a las soluciones comerciales cerradas.
El paisaje de búsqueda de IA
Las herramientas de búsqueda de IA modernas como Perplexity y ChatGPT Search pueden proporcionar respuestas actualizadas combinando las capacidades de conocimiento y razonamiento de LLMS con la búsqueda web. Sin embargo, estas soluciones son típicamente patentadas y de código cerrado, lo que dificulta la personalización de ellas y adoptarlas para aplicaciones especiales.
“La mayoría de la innovación en la búsqueda de IA ha sucedido a puerta cerrada. Los esfuerzos de código abierto se han retrasado históricamente en usabilidad y rendimiento”, dijo a VentureBeat de Himanshu Tyagi, cofundador de Sentient. “ODS tiene como objetivo cerrar esa brecha, mostrando que los sistemas abiertos pueden competir, e incluso superar, las contrapartes cerradas sobre la calidad, la velocidad y la flexibilidad”.
Arquitectura de búsqueda profunda (ODS) abierta
Open Deep Search (ODS) está diseñado como un sistema plug-and-play que puede integrarse con modelos de código abierto como Deepseek-R1 y modelos cerrados como GPT-4O y Claude.
ODS comprende dos componentes centrales, ambos aprovechando la base elegida LLM:
Herramienta de búsqueda abierta: Este componente toma una consulta y recupera información de la web que se puede dar al LLM como contexto. La herramienta de búsqueda Open realiza algunas acciones clave para mejorar los resultados de búsqueda y asegurarse de que proporcione un contexto relevante para el modelo. Primero, reformula la consulta original de diferentes maneras para ampliar la cobertura de búsqueda y capturar diversas perspectivas. Luego, la herramienta obtiene resultados de un motor de búsqueda, extrae el contexto de los resultados superiores (fragmentos y páginas vinculadas), y aplica técnicas de fragmentación y reanimación para filtrar el contenido más relevante. También tiene un manejo costumbre para fuentes específicas como Wikipedia, ARXIV y PubMed, y puede solicitarse a priorizar fuentes confiables al encontrar información contradictoria.
Agente de razonamiento abierto: Este agente recibe la consulta del usuario y utiliza la base LLM y varias herramientas (incluida la herramienta de búsqueda abierta) para formular una respuesta final. Sentient proporciona dos arquitecturas de agentes distintos dentro de ODS:
ODS-V1: Esta versión emplea un marco de agente React combinado con el razonamiento de la cadena de pensamiento (COT). Los agentes reaccionados intercalan pasos de razonamiento (“pensamientos”) con acciones (como usar la herramienta de búsqueda) y las observaciones (los resultados de las herramientas). ODS-V1 usa reaccionar iterativamente para llegar a una respuesta. Si el agente React lucha (según lo determinado por un modelo de juez separado), es predeterminado a una autoconsistencia de COT, que muestra varias respuestas de cuna del modelo y usa la respuesta que aparece con más frecuencia.
ODS-V2: Esta versión aprovecha la cadena de código (COC) y un agente CodeAct, implementado utilizando la biblioteca de Sumolagents Face. COC utiliza la capacidad de LLM para generar y ejecutar fragmentos de código para resolver problemas, mientras que CodeAct usa la generación de código para las acciones de planificación. ODS-V2 puede orquestar múltiples herramientas y agentes, lo que le permite abordar tareas más complejas que pueden requerir una planificación sofisticada y iteraciones de búsqueda potencialmente múltiples.
Crédito de arquitectura ODS: ARXIV
“Si bien herramientas como ChatGPT o Grok ofrecen ‘investigación profunda’ a través de agentes de conversación, ODS opera en una capa diferente, más similar a la infraestructura detrás de la perplejidad de IA, que proporciona la arquitectura subyacente que impulsa la recuperación inteligente, no solo los resúmenes”, dijo Tyagi.
Rendimiento y resultados prácticos
Sentient evaluó ODS emparejándolo con el modelo de código abierto Deepseek-R1 y probándolo contra competidores populares de código cerrado como Perplexity AI y la vista previa de búsqueda GPT-4O de OpenAI, así como LLMS independientes como GPT-4O y LLAMA-3.1-70B. Usaron los marcos y los puntos de referencia de SimpleQA Pregunta-Respuesta, adaptándolos para evaluar la precisión de los sistemas de IA habilitados para la búsqueda.
Los resultados demuestran la competitividad de ODS. Tanto ODS-V1 como ODS-V2, cuando se combinan con Deepseek-R1, superaron a los productos insignia de Perplexity. En particular, ODS-V2 combinado con Deepseek-R1 superó la vista previa de búsqueda GPT-4O en el complejo punto de referencia de marcos y casi lo coincidió en SimpleQA.
Una observación interesante fue la eficiencia del marco. Los agentes de razonamiento en ambas versiones de ODS aprendieron a usar la herramienta de búsqueda juiciosamente, a menudo decidieron si era necesaria una búsqueda adicional en función de la calidad de los resultados iniciales. Por ejemplo, ODS-V2 utilizó menos búsquedas web en las tareas SimpleQA más simples en comparación con las consultas más complejas y múltiples en marcos, optimizando el consumo de recursos.
Implicaciones para la empresa
Para las empresas que buscan potentes capacidades de razonamiento de IA basadas en información en tiempo real, ODS presenta una solución prometedora que ofrece una alternativa transparente, personalizable y de alto rendimiento a los sistemas de búsqueda de IA patentados. La capacidad de enchufar LLM y herramientas de código abierto preferidos brinda a las organizaciones un mayor control sobre su pila de IA y evita el bloqueo del proveedor.
“ODS fue construido con modularidad en mente”, dijo Tyagi. “Selecciona qué herramientas usar dinámicamente, en función de las descripciones proporcionadas en la solicitud. Esto significa que puede interactuar con herramientas desconocidas con fluidez, siempre y cuando estén bien descritadas, sin requerir exposición previa”.
Sin embargo, reconoció que el rendimiento de ODS puede degradarse cuando el conjunto de herramientas se hincha, “un diseño tan cuidadoso importa”.
Sensient ha lanzado el código para ODS en GitHub.
“Inicialmente, la fuerza de la perplejidad y el chatgpt era su tecnología avanzada, pero con ODS, hemos nivelado este campo de juego tecnológico”, dijo Tyagi. “Ahora nuestro objetivo es superar sus capacidades a través de nuestra estrategia de ‘Entradas abiertas y salidas abiertas’, lo que permite a los usuarios integrar sin problemas a los agentes personalizados en un chat sensible”.
Insights diarias sobre casos de uso comercial con VB diariamente
Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo.
Lea nuestra Política de privacidad
Gracias por suscribirse. Mira más boletines de VB aquí.
This website uses cookies so that we can provide you with the best user experience possible. Cookie information is stored in your browser and performs functions such as recognising you when you return to our website and helping our team to understand which sections of the website you find most interesting and useful.
Strictly Necessary Cookies
Strictly Necessary Cookie should be enabled at all times so that we can save your preferences for cookie settings.
If you disable this cookie, we will not be able to save your preferences. This means that every time you visit this website you will need to enable or disable cookies again.