Connect with us

Noticias

VERSES AI’s Genius System Crushes OpenAI in Code-Breaking Challenge, Shows 140x Faster Performance

Published

on





VERSES AI (OTCQB:VRSSF) has announced that its Genius™ AI system has outperformed OpenAI’s o1 Preview model in the code-breaking game Mastermind. In a 100-game test, Genius achieved a 100% success rate compared to o1’s 71%, completing tasks 140 times faster and 5,260 times more cost-effectively.

Key performance metrics show Genius completed all games in just over 5 minutes at an estimated cost of $0.05 USD, while OpenAI’s model took 12.5 hours and cost $263 USD. Genius operated on a standard laptop, while o1 required GPU-based cloud computing. The company positions these results as evidence of Genius’s superior logical reasoning capabilities and potential applications in cybersecurity, fraud detection, and financial forecasting.

VERSES AI (OTCQB:VRSSF) ha annunciato che il suo sistema AI Genius™ ha superato il modello o1 Preview di OpenAI nel gioco di codice Mastermind. In un test di 100 partite, Genius ha raggiunto un tasso di successo del 100% rispetto al 71% di o1, completando i compiti 140 volte più velocemente e 5.260 volte più economicamente.

I principali indicatori di prestazione mostrano che Genius ha completato tutte le partite in poco più di 5 minuti a un costo stimato di $0,05 USD, mentre il modello di OpenAI ha impiegato 12,5 ore e costato $263 USD. Genius ha funzionato su un laptop standard, mentre o1 richiedeva l’uso del cloud computing basato su GPU. L’azienda presenta questi risultati come prova delle superiori capacità di ragionamento logico di Genius e delle sue potenziali applicazioni nella cybersecurity, nella rilevazione delle frodi e nella previsione finanziaria.

VERSES AI (OTCQB:VRSSF) ha anunciado que su sistema de IA Genius™ ha superado al modelo o1 Preview de OpenAI en el juego de resolver códigos Mastermind. En una prueba de 100 juegos, Genius logró una tasa de éxito del 100% en comparación con el 71% de o1, completando tareas 140 veces más rápido y 5,260 veces más económico.

Los principales métricos de rendimiento muestran que Genius completó todos los juegos en poco más de 5 minutos a un costo estimado de $0.05 USD, mientras que el modelo de OpenAI tomó 12.5 horas y costó $263 USD. Genius funcionó en una laptop estándar, mientras que o1 requería computación en la nube basada en GPU. La compañía presenta estos resultados como evidencia de las superiores capacidades de razonamiento lógico de Genius y sus aplicaciones potenciales en ciberseguridad, detección de fraudes y previsión financiera.

VERSES AI (OTCQB:VRSSF)는 자사의 AI 시스템 Genius™가 코드 브레이킹 게임 마스터마인드에서 OpenAI의 o1 Preview 모델을 능가했다고 발표했습니다. 100게임 테스트에서 Genius는 100% 성공률을 기록했으며, o1의 71%에 비해 140배 더 빠르게 작업을 완료하고 5,260배 더 경제적이었습니다.

주요 성과 지표에 따르면 Genius는 모든 게임을 5분 이상 걸리지 않고 완료했으며, 예상 비용은 $0.05 USD였습니다. 반면 OpenAI의 모델은 12.5시간이 소요되었고 비용은 $263 USD였습니다. Genius는 표준 노트북에서 작동했지만, o1은 GPU 기반의 클라우드 컴퓨팅을 필요로 했습니다. 회사는 이러한 결과를 Genius의 우수한 논리적 추론 능력과 사이버 보안, 사기 탐지, 재무 예측 등에서의 잠재적 응용의 증거로 사용하고 있습니다.

VERSES AI (OTCQB:VRSSF) a annoncé que son système IA Genius™ a surpassé le modèle o1 Preview d’OpenAI dans le jeu de déchiffrage de codes Mastermind. Lors d’un test de 100 parties, Genius a atteint un taux de succès de 100%, contre 71% pour o1, en accomplissant les tâches 140 fois plus rapidement et 5.260 fois plus économiquement.

Les principaux indicateurs de performance montrent que Genius a complété tous les jeux en un peu plus de 5 minutes avec un coût estimé à 0,05 USD, tandis que le modèle d’OpenAI a nécessité 12,5 heures et a coûté 263 USD. Genius a fonctionné sur un ordinateur portable standard, tandis que o1 nécessitait un calcul cloud basé sur GPU. L’entreprise présente ces résultats comme une preuve des capacités supérieures de raisonnement logique de Genius et de ses applications potentielles en cybersécurité, détection de fraudes, et prévisions financières.

VERSES AI (OTCQB:VRSSF) hat bekannt gegeben, dass sein AI-System Genius™ das o1 Preview-Modell von OpenAI im Code-Breaking-Spiel Mastermind übertroffen hat. In einem Test von 100 Spielen erzielte Genius eine Erfolgsquote von 100%, im Vergleich zu 71% von o1, und erledigte Aufgaben 140-mal schneller und 5.260-mal kostengünstiger.

Die wichtigsten Leistungskennzahlen zeigen, dass Genius alle Spiele in etwas mehr als 5 Minuten abschloss, bei geschätzten Kosten von $0,05 USD, während das Modell von OpenAI 12,5 Stunden benötigte und $263 USD kostete. Genius lief auf einem Standard-Laptop, während o1 GPU-basierte Cloud-Computing erforderte. Das Unternehmen sieht in diesen Ergebnissen den Beweis für die überlegenen logischen Denkfähigkeiten von Genius und dessen potenzielle Anwendungen in der Cybersicherheit, der Betrugserkennung und der finanziellen Vorhersage.

Positive


  • 100% success rate in code-breaking challenge vs. competitor’s 71%

  • 140x faster performance than OpenAI’s o1 Preview model

  • Significant cost efficiency: $0.05 vs. $263 for 100 games

  • Operates on standard laptop hardware vs. GPU-cloud requirements

  • Consistent performance with solve times between 1.1-4.5 seconds











High-Performance Agent Surpasses Leading AI Model in Accuracy, Speed, and Cost Efficiency

VANCOUVER, British Columbia, Dec. 17, 2024 (GLOBE NEWSWIRE) — VERSES AI Inc. (CBOE:VERS) (OTCQB:VRSSF) (“VERSES” or the “Company”), a cognitive computing company, today revealed performance highlights of its flagship product Genius winning the code-breaking game Mastermind in a side by side comparison with a leading generative AI model, OpenAI’s o1 Preview, which is positioned as an industry-leading reasoning model. Over one hundred test runs, Genius consistently outperformed OpenAI’s o1-preview model one hundred and forty (140) times faster and more than five thousand times (5,000) cheaper.

“Today we’re showcasing Genius’ advanced reasoning performance against state-of-the-art deep learning-based methods that LLMs are based on,” said Hari Thiruvengada, VERSES Chief Technology Officer. “Mastermind was the perfect choice for this test because it requires reasoning through each step logically, predicting the cause-and-effect outcomes of its decisions, and dynamically adapting to crack the code. This exercise demonstrates how Genius outperforms tasks requiring logical and cause-effect reasoning, while exposing the inherent limitations of correlational language-based approaches in today’s leading reasoning models.

“This is just a preview of what’s to come. We’re excited to show how additional reasoning capabilities, available in Genius today and demonstrated with Mastermind, will be further showcased in our upcoming Atari 10k benchmark results,” Thiruvengada continued.

The comparison involved 100 games of Mastermind, a reasoning task requiring the models to deduce a hidden code through logical guesses informed by feedback hints. Key metrics included success rate, computation time, number of guesses, and total cost.

In the exercise, VERSES compared OpenAI advanced reasoning model o1-preview to Genius. Each model attempted to crack the Mastermind code on 100 games with up to ten guesses to crack the code. Each model is given a hint for each guess and must reason about the missing part of the correct answer, requiring all six code colors to be correct to crack the code. For perspective, you can play the game at mastermindgame.org.

A highlight of the results is below. You can find a more detailed description and results of the tests on our blog at verses.ai.

The exercise: VERSES’ team conducted 100 games for each AI model, using the same secret code parameters: 4 positions and 6 possible colors. Results were measured by success rate, computation time, number of guesses, and total cost. The comparison is summarized below:

Metric Genius™ o1-preview
Success Rate 100% 71% (29% fail rate)
Total Compute Time 5 minutes, 18 seconds
(Avg 3.1s per game)
12.5 hours
(Avg 345s per game)
Total Cost for 100 Games $0.05 USD (est.) $263 USD
Hardware Requirements Standard laptop (M1) GPU-based Cloud


Performance Highlights:

  • Accuracy and Reliability. Genius solved the code every time in a consistent number of steps.
  • Speed. Genius consistently solved games in 1.1–4.5 seconds, while ChatGPT’s solve times ranged from 7.9 to 889 seconds (approximately 15 mins)
  • Efficiency. Genius’ total compute time for 100 games was just over 5 minutes, compared to ChatGPT’s 12.5 hours.
  • Cost. Genius’ compute cost was estimated at $0.05 USD for all 100 games, compared to ChatGPT’s o1 model at $263 USD.

In summary, Genius solved Mastermind 100% of the time, was 140 times faster and 5260 times cheaper than o1-preview.

“These impressive results highlight a critical gap in today’s AI landscape: the limitations of language-based models like OpenAI’s o1 to handle logical reasoning tasks precisely and reliably,” said Gabriel René, founder and CEO of VERSES. “Mastermind code-breaking is an indicative test that showcases the class of logical reasoning and understanding of cause and effect needed for real-world applications like cybersecurity, fraud detection, and financial forecasting—domains where causality, accuracy, and efficiency are non-negotiable. Genius not only excels at these tasks but does so faster, cheaper, and with unparalleled consistency, making it ideal for addressing complex business challenges. Genius not only excels at these tasks but does so faster, cheaper, and with unparalleled consistency, making it ideal for addressing complex business challenges.”

Mastermind™ is a registered trademark of Pressman Inc.

About VERSES

VERSES is a cognitive computing company building next-generation intelligent software systems modeled after the wisdom and genius of Nature. Designed around first principles found in science, physics and biology, our flagship product, Genius, is a suite of tools for machine learning practitioners to model complex dynamic systems and generate autonomous intelligent agents that continuously reason, plan, and learn. Imagine a Smarter World that elevates human potential through technology inspired by Nature. Learn more at verses.aiLinkedIn, and X.

On behalf of the Company 
Gabriel René, Founder & CEO, VERSES AI Inc.
Press Inquiries: press@verses.ai 

Investor Relations Inquiries 
U.S., Matthew Selinger, Partner, Integrous Communications, mselinger@integcom.us 415-572-8152
Canada, Leo Karabelas, President, Focus Communications, info@fcir.ca 416-543-3120

Cautionary Note Regarding Forward-Looking Statements

When used in this press release, the words “estimate”, “project”, “belief”, “anticipate”, “intend”, “expect”, “plan”, “predict”, “may” or “should” and the negative of these words or such variations thereon or comparable terminology are intended to identify forward-looking statements and information. Although VERSES believes, in light of the experience of their respective officers and directors, current conditions and expected future developments and other factors that have been considered appropriate, that the expectations reflected in the forward-looking statements and information in this press release are reasonable, undue reliance should not be placed on them because the parties can give no assurance that such statements will prove to be correct. The forward-looking statements and information in this press release include, among other things, statements regarding the Company’s goals and plans for future testing of Genius, including the Atari 10K benchmark.

There are risks and uncertainties that may cause actual results to differ materially from those contemplated in those forward-looking statements and information. In making the forward-looking statements in this news release, the Company has applied various material assumptions. By their nature, forward-looking statements involve known and unknown risks, uncertainties and other factors which may cause our actual results, performance or achievements, or other future events, to be materially different from any future results, performance or achievements expressed or implied by such forward-looking statements. There are a number of important factors that could cause VERSUS’ actual results to differ materially from those indicated or implied by forward-looking statements and information. Such factors may include, among other things, the ability of the Company to complete further testing of Genius as anticipated, or at all, and that such further testing will achieve the intended results. The Company undertakes no obligation to comment on analyses, expectations or statements made by third parties in respect of its securities or its financial or operating results (as applicable).

Additionally, forward-looking statements involve a variety of known and unknown risks, uncertainties and other factors which may cause the actual plans, intentions, activities, results, performance or achievements of the Company to be materially different from any future plans, intentions, activities, results, performance or achievements expressed or implied by such forward-looking statements. Such risks include, without limitation: the risk that the Company will be unable to complete further testing of Genius as anticipated, or at all; and risks that the Company will not achieve the intended results in such further testing. VERSES cautions that the foregoing list of material factors is not exhaustive. When relying on VERSES’ forward-looking statements and information to make decisions, investors and others should carefully consider the foregoing factors and other uncertainties and potential events. VERSES has assumed that the material factors referred to in the previous paragraph will not cause such forward-looking statements and information to differ materially from actual results or events. However, the list of these factors is not exhaustive and is subject to change and there can be no assurance that such assumptions will reflect the actual outcome of such items or factors. The forward-looking information contained in this press release represents the expectations of VERSES as of the date of this press release and, accordingly, are subject to change after such date. VERSES does not undertake to update this information at any particular time except as required in accordance with applicable laws.









FAQ



How much faster is VERSES AI’s Genius (VRSSF) compared to OpenAI’s o1 Preview?


VERSES AI’s Genius is 140 times faster than OpenAI’s o1 Preview, completing 100 Mastermind games in 5 minutes compared to OpenAI’s 12.5 hours.


What is the cost difference between VRSSF Genius and OpenAI for 100 Mastermind games?


VERSES AI’s Genius costs approximately $0.05 USD for 100 games, while OpenAI’s o1 Preview costs $263 USD, making Genius 5,260 times more cost-effective.


What was the success rate of VERSES AI’s Genius (VRSSF) in the Mastermind challenge?


VERSES AI’s Genius achieved a 100% success rate in the Mastermind challenge, compared to OpenAI’s o1 Preview’s 71% success rate.


What hardware requirements does VERSES AI’s Genius (VRSSF) need compared to OpenAI?


VERSES AI’s Genius can operate on a standard laptop (M1), while OpenAI’s o1 Preview requires GPU-based cloud computing.


What are the potential real-world applications for VERSES AI’s Genius (VRSSF)?


VERSES AI’s Genius is positioned for applications in cybersecurity, fraud detection, and financial forecasting, where causality, accuracy, and efficiency are crucial.





Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

La investigación profunda de Openai tiene más resistencia de investigación que tú, pero todavía está mal la mitad del tiempo

Published

on

Opadai

Lo último en inteligencia artificial generativa incluye agentes de IA que pueden acceder a la web para encontrar respuestas a las preguntas. Si bien es prometedora, la tecnología de agente es en gran medida un trabajo en progreso.

En un artículo publicado la semana pasada, los investigadores de Operai relatan cómo la tecnología de investigación profunda de la compañía, que se construyó para usar la web, funciona mucho mejor que los otros modelos de Openai al responder preguntas web. También lo hace mucho mejor que los humanos en tareas que requieren horas de búsqueda.

También: ¿Qué son los agentes de IA? Cómo acceder a un equipo de asistentes personalizados

Pero la investigación profunda todavía tropieza casi la mitad del tiempo.

La nueva prueba de OpenAI sugiere que la investigación profunda puede ser más tenaz y obstinada en la búsqueda de una respuesta que los investigadores humanos para algunas tareas, pero aún no se le ocurre una respuesta a menudo.

Llamada Browsecomp, la prueba es descrita por los autores Jason Wei y el equipo como “un punto de referencia simple pero desafiante para medir la capacidad de los agentes para navegar por la web”.

La premisa es que los agentes de IA, lo que significa, modelos de IA que pueden navegar por “miles de páginas web”, podrían ser mucho más ingeniosos que los humanos, que tienen memoria limitada, se fatigan navegando por la red y “solo pueden atender una cosa a la vez y no pueden ser paralelizadas,” significa que no pueden dirigir sus cerebros a operar en datos en transmisiones paralelos de pensamiento.

“La inteligencia de máquinas, por otro lado, tiene un retiro mucho más extenso y puede operar incansablemente sin distraerse”, escribe Wei y equipo.

También: La investigación profunda de Openai puede ahorrarle horas de trabajo, y ahora es mucho más barato acceder

Wei y el equipo se basaron en su trabajo anterior del año pasado, “Simpleq & A”, que prueba la capacidad de los modelos de IA para responder “preguntas cortas y de búsqueda de hechos”. Las preguntas cubrieron trivia de televisión y película, ciencia, historia, música, videojuegos, política y otros temas.

El conjunto de browsecomp de 1.266 preguntas está diseñado para ir más allá de la recuperación de información simple, relacionan los autores. En cambio, son preguntas para las cuales es difícil encontrar las respuestas, o, como lo expresan, “desafiantes porque requieren buscar a través de un gran espacio de posibles respuestas y igualarlas con limitaciones planteadas en la pregunta” e “información difícil de encontrar y profundamente entrelazada en la web”.

Por ejemplo, un par de preguntas y respuestas es el siguiente:

Identifique el título de una publicación de investigación publicada antes de junio de 2023, que menciona tradiciones culturales, procesos científicos e innovaciones culinarias. Es coautor de tres individuos: uno de ellos fue profesor asistente en Bengala Occidental y otro tiene un Ph.D.
(Respuesta: Los fundamentos de la fabricación de pan: la ciencia del pan)

Hacen hincapié en que tal pregunta es fácil de verificar porque la respuesta está contenida en una sola frase que es “autónoma”.

OpenAI-2025-Browsecomp-Sample-Question-Response pares

Opadai

Las preguntas y respuestas fueron desarrolladas por “entrenadores” humanos, y fueron seleccionados como imposibles de resolver con solo el chatgpt de Openai, con o sin habilidades de navegación. Las preguntas también eran imposibles para una “versión temprana” de una investigación profunda.

Demostrando cuán débiles son los humanos para buscar en la web, primero probaron a los humanos que estaban “familiarizados con el conjunto de datos” para responder las preguntas.

OpenAI-2025-Humans-Give-Up más de las preguntas

Opadai

Los resultados no fueron buenos para los humanos. Para el 70% de las preguntas, los humanos se rindieron después de dos horas de esfuerzo. Solo respondieron alrededor del 30% de las preguntas, y por el 14% de sus respuestas propuestas, las sugerencias de los humanos no coincidir con la respuesta real.

Wei y el equipo plantean la hipótesis de que los humanos con mayores habilidades de búsqueda podrían hacerlo mejor: “Es posible que muchos de los problemas que renunciaran sean solucionables por profesionales experimentados (por ejemplo, detectives o periodistas de investigación) con tiempo suficiente”.

OPERAI-2025-BROWSECOMP-ACCRACIÓN Y CALIBRACIÓN

Opadai

Después de los humanos, probaron una investigación profunda contra el GPT-4O de Openai (con y sin habilidades de navegación), GPT-4.5 y el modelo O1.

Los resultados fueron abismales. “GPT-4O y GPT-4.5 alcanzaron la precisión cercana a cero, destacando la dificultad del punto de referencia”, escriben. “Sin un razonamiento sólido o un uso de herramientas, los modelos no pueden recuperar los tipos de objetivos oscuros y múltiples hechos de navegación”.

O1 le fue mejor, lo cual “[suggests] que algunas respuestas de Browsecomps pueden aparecer a través de la inferencia sobre el conocimiento interno “.

También: AI desata estafas más avanzadas. Esto es lo que debe tener en cuenta (y cómo mantenerse protegido)

Con un puntaje del 51.5%, la investigación profunda fue “significativamente mejor” y “es particularmente efectivo para responder a las preguntas nicho y no intuitivas que requieren navegar por numerosos sitios web”, escriben Wei y Team.

Sin embargo, también encontraron que GPT-4O que usa navegación e investigación profunda podría errar al estar “demasiado confiado” sobre las respuestas incorrectas, que se conoce como un error de calibración.

“Los modelos con capacidades de navegación como GPT-4O con navegación e investigación profunda exhiben un error de calibración más alto”, escriben, “, lo que sugiere que el acceso a las herramientas web puede aumentar la confianza del modelo en respuestas incorrectas. Esto se alinea con las observaciones de que la investigación profunda lucha con la calibración de confianza y, a menudo, no puede transmitir la incertidumbre con precisión en el presente”.

Para corregir el error de calibración, hicieron otra prueba con una investigación profunda, en la que el modelo tuvo que generar hasta 64 respuestas a cada pregunta. Luego, hicieron que el modelo eligiera lo mejor de ellos. Cuando lo hizo, la investigación profunda fue bastante buena para elegir la respuesta correcta entre todas las propuestas.

OpenAI-2025-mejor de-n-scaling-accions

Opadai

Eso, escriba Wei y Team, sugiere que “el modelo con frecuencia ‘sabe’ cuando es correcto, incluso si lucha por expresar esa certeza como una probabilidad calibrada”.

También: El último chip de Google se trata de reducir un gran costo oculto en AI

También señalan que el éxito de la investigación profunda mejora con más computación agregada cuando busca la web. Dicho de otra manera, “el rendimiento escala suavemente en función de la cantidad de cómputo de tiempo de prueba utilizado”. Eso se cuadraba con una tendencia creciente de lanzar más chips de GPU a la tarea de inferencia.

escala de accesorios de accesorios operai-2025-Browsecomp

Opadai

Wei y el equipo no ofrecen directamente ninguna hipótesis sobre por qué la investigación profunda falla casi la mitad del tiempo, pero la respuesta implícita está en la escala de su capacidad con más cálculo. A medida que ejecutan tareas más paralelas y solicitan al modelo que evalúe múltiples respuestas, la precisión escala más allá del 75% de las preguntas respondidas.

La implicación es que es esencial elegir estrategias que obligen al modelo a evaluar sus propios esfuerzos en lugar de simplemente perseguir una sola respuesta. Sin esa etapa de evaluación, el modelo lucha una buena parte del tiempo.

Además: con los modelos de IA que se golpean cada punto de referencia, es hora de la evaluación humana

Un gran agujero en Browsecomps, reconocen los autores, es que se limita a preguntas que son fáciles de analizar para la computadora y cuyas respuestas son fáciles de verificar. Ninguna de las 1.266 preguntas incluyó “respuestas largas o capacidad para resolver la ambigüedad en las consultas de los usuarios”.

Como resultado, el browsecompl, argumentan, prueba las funciones “centrales” de los agentes de IA, pero no es integral. “El modelo debe ser muy competente para localizar piezas de información difíciles de encontrar, pero no está garantizado que esto se generalice a todas las tareas que requieren navegación”.

La investigación profunda está disponible para los usuarios de las suscripciones PLUS y Pro Operai.

¿Quieres más historias sobre AI? Regístrese para la innovaciónnuestro boletín semanal.

Continue Reading

Noticias

Informe de chatgpt para marketing

Published

on

Continue Reading

Noticias

Operai supera a Deepseek en el razonamiento a nivel de oración

Published

on

Chatgpt y otros chatbots de IA basados ​​en modelos de idiomas grandes se sabe que ocasionalmente inventa cosas, incluidas las citas científicas y legales. Resulta que medir cuán precisas son las citas de un modelo AI es una buena manera de evaluar las habilidades de razonamiento del modelo.

Un modelo de IA “razones” descomponiendo una consulta en pasos y trabajando a través de ellos en orden. Piense en cómo aprendió a resolver problemas de palabras matemáticas en la escuela.

Idealmente, para generar citas, un modelo de IA comprendería los conceptos clave en un documento, generaría una lista clasificada de documentos relevantes para citar y proporcionaría un razonamiento convincente sobre cómo cada documento sugerido respalda el texto correspondiente. Destacará las conexiones específicas entre el texto y la investigación citada, aclarando por qué cada fuente importa.

La pregunta es, ¿se puede confiar en los modelos de hoy para hacer estas conexiones y proporcionar un razonamiento claro que justifique sus elecciones de origen? La respuesta va más allá de la precisión de las citas para abordar cuán útiles y precisos son los modelos de lenguaje grande para cualquier propósito de recuperación de información.

Soy un informático. Mis colegas, investigadores del Instituto AI de la Universidad de Carolina del Sur, la Universidad Estatal de Ohio y el Condado de Baltimore del Condado de Baltimore, y he desarrollado las razones de referencia para probar qué tan bien modelos de idiomas pueden generar automáticamente citas de investigación y proporcionar un razonamiento comprensible.

Utilizamos el punto de referencia para comparar el rendimiento de dos modelos de razonamiento de IA populares, Deepseek’s R1 y OpenAI’s O1. Aunque Deepseek fue en los titulares con su impresionante eficiencia y rentabilidad, el advenedizo chino tiene un camino por recorrer para que coincida con el rendimiento de razonamiento de OpenAI.

Oración específica

La precisión de las citas tiene mucho que ver con si el modelo AI está razonando sobre la información a nivel de oración en lugar del párrafo o a nivel de documentos. Se puede considerar que las citas a nivel de párrafo y a nivel de documentos arrojan una gran parte de la información a un modelo de idioma grande y le piden que proporcione muchas citas.

En este proceso, el modelo de lenguaje grande se generaliza e incorporan las oraciones individuales. El usuario termina con citas que explican todo el párrafo o documento, no la información de grano relativamente fino en la oración.

Además, el razonamiento sufre cuando le pide al modelo de idioma grande que lea un documento completo. Estos modelos se basan principalmente en memorizar patrones que típicamente son mejores para encontrar al principio y al final de los textos más largos que en el medio. Esto les dificulta comprender completamente toda la información importante a lo largo de un documento largo.

Los modelos de idiomas grandes se confunden porque los párrafos y documentos tienen mucha información, lo que afecta la generación de citas y el proceso de razonamiento. En consecuencia, el razonamiento de los modelos de idiomas grandes sobre los párrafos y los documentos se vuelve más como resumir o parafrasear.

Las razones por las que Benchmark aborde esta debilidad al examinar la generación y el razonamiento de las citas de los modelos de idiomas grandes.

https://www.youtube.com/watch?v=kqzzymhre0u

Cómo Deepseek R1 y OpenAI O1 se comparan generalmente con los problemas lógicos.

Prueba de citas y razonamiento

Tras el lanzamiento de Deepseek R1 en enero de 2025, queríamos examinar su precisión en la generación de citas y su calidad de razonamiento y compararlo con el modelo O1 de OpenAI. Creamos un párrafo que tenía oraciones de diferentes fuentes, dio a los modelos oraciones individuales de este párrafo y pedimos citas y razonamiento.

Para comenzar nuestra prueba, desarrollamos un pequeño lecho de prueba de aproximadamente 4,100 artículos de investigación alrededor de cuatro temas clave que están relacionados con el cerebro humano y la informática: neuronas y cognición, interacción humana-computadora, bases de datos e inteligencia artificial. Evaluamos los modelos utilizando dos medidas: la puntuación F-1, que mide cuán precisa es la cita proporcionada, y la tasa de alucinación, que mide cuán sonido es el razonamiento del modelo, es decir, con qué frecuencia produce una respuesta inexacta o engañosa.

Nuestras pruebas revelaron diferencias de rendimiento significativas entre OpenAI O1 y Deepseek R1 en diferentes dominios científicos. El O1 de OpenAI conectó bien la información entre los diferentes sujetos, como comprender cómo la investigación sobre neuronas y cognición se conecta con la interacción humana y la computadora y luego con los conceptos en inteligencia artificial, sin dejar de ser precisa. Sus métricas de rendimiento superaron constantemente a Deepseek R1 en todas las categorías de evaluación, especialmente para reducir las alucinaciones y completar con éxito las tareas asignadas.

Operai O1 fue mejor para combinar ideas semánticamente, mientras que R1 se centró en asegurarse de que generara una respuesta para cada tarea de atribución, lo que a su vez aumentó la alucinación durante el razonamiento. Openai O1 tenía una tasa de alucinación de aproximadamente 35% en comparación con la tasa de Deepseek R1 de casi el 85% en la tarea de razonamiento basada en la atribución.

En términos de precisión y competencia lingüística, Openai O1 obtuvo alrededor de 0.65 en la prueba F-1, lo que significa que era correcto aproximadamente el 65% del tiempo al responder preguntas. También obtuvo alrededor de 0.70 en la prueba BLEU, que mide qué tan bien un modelo de lenguaje escribe en lenguaje natural. Estos son puntajes bastante buenos.

Deepseek R1 obtuvo un puntaje más bajo, con aproximadamente 0.35 en la prueba F-1, lo que significa que era correcto aproximadamente el 35% del tiempo. Sin embargo, su puntaje Bleu fue solo alrededor de 0.2, lo que significa que su escritura no era tan natural como la O1 de OpenAI. Esto muestra que O1 fue mejor al presentar esa información en un lenguaje claro y natural.

OpenAi tiene la ventaja

En otros puntos de referencia, Deepseek R1 se desempeña a la par con OpenAi O1 en tareas de matemáticas, codificación y razonamiento científico. Pero la diferencia sustancial en nuestro punto de referencia sugiere que O1 proporciona información más confiable, mientras que R1 lucha con la consistencia objetiva.

Aunque incluimos otros modelos en nuestras pruebas integrales, la brecha de rendimiento entre O1 y R1 resalta específicamente el panorama competitivo actual en el desarrollo de IA, con la oferta de OpenAI que mantiene una ventaja significativa en las capacidades de razonamiento e integración del conocimiento.

Estos resultados sugieren que OpenAi todavía tiene una ventaja cuando se trata de atribución y razonamiento de origen, posiblemente debido a la naturaleza y el volumen de los datos en los que fue entrenado. La compañía anunció recientemente su herramienta de investigación profunda, que puede crear informes con citas, hacer preguntas de seguimiento y proporcionar razonamiento para la respuesta generada.

El jurado todavía está en el valor de la herramienta para los investigadores, pero la advertencia permanece para todos: verifique todas las citas que le brinda una IA.

Continue Reading

Trending