Connect with us

Noticias

El Proyecto Stargate de OpenAI provoca reacciones de los directores ejecutivos de Microsoft y Meta

Published

on

“Todo lo que sé es que estoy bien para mis 80 mil millones de dólares.”

Pocas veces una frase capta tan perfectamente el estado del momento. Aquí tienes al CEO de Microsoft. Nadella Satya diciendo que “no está en los detalles” sobre Stargate, el proyecto de infraestructura de IA supuestamente multimillonario impulsado por su importante inversión, OpenAI.

El hecho de que Nadella no haya leído los detalles nebulosos de Stargate dice mucho sobre cuánto se han distanciado Microsoft y OpenAI. Microsoft se menciona en el comunicado de prensa de Stargate ya que los modelos de OpenAI siguen siendo exclusivos de Azure. Pero el aspecto más sorprendente de Stargate no es que aún no haya dinero para ello; es que el mayor patrocinador de OpenAI ha decidido no participar en lo que Sam Altman lo llama “el proyecto más importante de esta era”. Como dejó claro Nadella en CNBC esta semana, está ejecutando su propia construcción de infraestructura de IA por valor de 80 mil millones de dólares y, en el futuro, OpenAI puede obtener computación adicional, con su bendición, en otros lugares.

Si bien recibió menos titulares esta semana, encontré la respuesta de Nadella a Elon Musk en X aún más esclarecedor. En su respuesta a las palabras de Musk: “por otro lado, Satya definitivamente tiene el dinero”, Nadella respondió: “😂 ¡Y todo este dinero no se trata de promocionar la IA, sino de construir cosas útiles para el mundo real!”.

Esa publicación sólo puede interpretarse como una indirecta a Altman. Nadella podría haber financiado Stargate para OpenAI. No lo hizo. ¿Qué sabe él que el resto de nosotros no sabemos?

La llamativa presentación de Stargate en la Casa Blanca ciertamente logró su objetivo, que claramente era lograr que todos hablaran de grandes números. Los titulares que generó provocaron Mark Zuckerberg para asegurarnos de que todos terminaran la semana sabiendo su el centro de datos será parejo más grande que Stargate.

En una publicación del viernes en su página de Facebook, Zuckerberg dijo que el centro de datos de 2 GW planeado por Meta en Luisiana “es tan grande que cubriría una parte importante de Manhattan”, con una vista de mapa de los metros cuadrados superpuestos a la ciudad para enviar el punto a casa. .

De su publicación (mi énfasis es nuestro): “Poneremos en línea ~1GW de computación en el 25 y terminaremos el año con más de 1,3 millones de GPU. Estamos planeando invertir entre 60.000 y 65.000 millones de dólares en gastos de capital este año y, al mismo tiempo, aumentar significativamente nuestros equipos de IA. tenemos la capital seguir invirtiendo en los años venideros”.

No tengo ninguna duda de que Altman, Masayoshi hijoy Larry Ellison podrán recaudar los miles de millones que necesitan para disminuir la dependencia de OpenAI de Microsoft para la computación. (El gobierno de EE. UU. no está dando dinero a Stargate, lo que hace que la apariencia de anunciarlo junto con Trump sea aún más extraña). En última instancia, todo esto apunta al tema que rápidamente definirá 2025: las grandes empresas tecnológicas ven la IA como la tecnología más tecnología existencial de la era venidera y seguirá gastando muchísimo para asegurarse de que OpenAI no se salga con la suya por completo.

Steve Huffman,
Ilustración de William Joel / The Verge | Foto de Greg Doherty/Variety vía Getty Images

AMA con spez

Pocas empresas tuvieron un 2024 tan bueno como Reddit. Desde que salió a bolsa en marzo pasado, las acciones de la compañía se han disparado un 300 por ciento, dando a la red social una valoración de 32 mil millones de dólares.

Es un cambio radical con respecto a Reddit antes de salir a bolsa, cuando sus moderadores estaban furiosos contra sus apresurados cambios de plataforma y hubo una reacción violenta por la venta de datos de la compañía a Google y OpenAI.

Con esas controversias ahora aparentemente en el espejo retrovisor, Reddit se centra en hacer crecer su base de usuarios, mantenerse rentable y utilizar la inteligencia artificial para ayudar a las personas a buscar en su sitio más fácilmente. Me reuní con el director ejecutivo Steve Huffman en CES hace unas semanas para escuchar sus prioridades para 2025, cómo lidera Reddit, su opinión sobre el debate sobre la escala de la IA, la moderación de contenido y más…

La siguiente entrevista ha sido editada para mayor extensión y claridad:

A su IPO le fue muy bien. ¿Cómo han sido para usted personalmente los últimos nueve meses?

En Reddit tenemos un dicho que dice que buenos números hacen buenas reuniones. Así que hemos tenido algunas buenas reuniones.

La preparación para salir a bolsa fue intensa. Es contar la historia una y otra vez, lo cual disfruto hacer, pero requiere mucho trabajo. Creo que, más que la mayoría de las empresas nuevas, ya estamos en el ritmo de las empresas públicas: cerrar el trimestre, hacer las auditorías, realizar la reunión de la junta directiva, las ganancias y todo eso. Entonces no ha sido un cambio importante para nosotros desde el punto de vista operativo.

Es un momento realmente emocionante para los nuevos inversores y empleados. No nos pillarás quejándonos. Lo que sigo diciéndole a la empresa es que todos deberían estar muy orgullosos del trabajo que han realizado y no dar por sentado estos momentos. Sólo les digo, miren, disfruten la vista. Si miras nuestra historia, hay muchos altibajos. Sin duda hay desafíos en nuestro futuro.

Con su capitalización de mercado donde se encuentra ahora, ¿está pensando en hacer cambios que no pensó que podría hacer hace un año?

Hay dos clases de cosas que haríamos. Una es ejecutar la estrategia central. Tenemos que contratar. Tenemos que construir. Creo que somos muy razonables en términos del tamaño de nuestra inversión. La estrategia de una frase para nosotros es hacer crecer el producto y seguir siendo rentable.

¿Qué se puede hacer con un precio de acción alto? Tal vez pueda considerar fusiones y adquisiciones que de otro modo no haría. Yo diría que esa no es realmente nuestra orientación en este momento porque las adquisiciones que hemos realizado en los últimos dos años han sido acuerdos de entre 25 y 50 millones de dólares. Es un punto ideal para nosotros conseguir tecnología y equipos. Yo diría que siempre estamos observando el mercado, pero no estamos persiguiendo nada grande o loco en este momento porque me gusta la estrategia central. Creo que podemos hacer lo que queremos dentro de nuestras capacidades actuales.

¿Cuál es el principal producto centrado en Reddit este año?

El primero es el núcleo de Reddit, que son las conversaciones comunitarias. Todo el mundo tiene un hogar en Reddit, pero ¿ves ese hogar en tu primera sesión? Hay otra dimensión completamente diferente en nuestro trabajo, que es Reddit como fuente de información. Reddit tiene toda esta increíble información. Para los usuarios que tienen una pregunta que necesita una respuesta, ¿podemos darles esa respuesta? Acabamos de empezar a probar Reddit Answers. Esto me resulta muy útil para búsquedas sobre eventos actuales. Dentro de un año, será un producto de monetización. Es uno de los pocos productos que elimina cada picazón, por lo que será un gran foco de atención.

¿Qué opinas de este debate sobre si la industria de la IA se ha quedado sin datos?

Creo que tendríamos una respuesta diferente a esa pregunta literalmente cada mes. Queremos tener buenas relaciones con otras personas en este espacio. Estamos abiertos al público.

Al mismo tiempo, queremos maximizar el valor que obtenemos de nuestros propios datos. No hemos experimentado ningún conflicto entre los dos en este momento. me encanta el [data licensing] relaciones que tenemos, las principales son Google y OpenAI. En este punto, no necesitamos hacer ninguna asociación en particular. Yo diría que es bueno tenerlos todos, pero nada es existencial para nosotros.

Uno de los desafíos es que las empresas de inteligencia artificial no saben qué producto están creando. No es nada malo. Se están iterando a sí mismos. El propio ChatGPT, el producto central de esta conversación, fue una demostración. Luego, un año después, es la pieza de tecnología empresarial más importante del mundo con una economía cuestionable. Eso lo hace muy emocionante. No creo que ninguna de estas empresas se ofenda al escucharme decir eso.

Fuiste uno de los primeros directores ejecutivos de redes sociales que vi muy crítico con TikTok. ¿Cómo afecta a Reddit una prohibición estadounidense?

Si observa el gráfico de tráfico de Reddit durante los últimos 19 años, no verá el ascenso ni la caída de ninguna plataforma en particular. Creo que todos los tipos de contenido deberían funcionar en Reddit. El vídeo en Reddit es en gran medida una cámara de salida (lo que estoy viendo) en lugar de una cámara de entrada, o ¿quién soy yo? Eso son las redes sociales. Creo que la prohibición es lo correcto por las razones que he mencionado y que, sinceramente, no tienen nada que ver con la competencia.

Con los cambios de moderación de Meta, la conversación más amplia en torno a las redes sociales parece estar cambiando en este momento.

Durante los últimos 10 años, la gente ha estado hablando sobre si el habla es el problema, lo cual es una idea descabellada. No se puede tener libertad sin expresión. Creo que ese desvío a través del cuestionamiento y relitigio de los valores fundamentales de Estados Unidos, ojalá esa era esté llegando a su fin.

¿La gente está jugando a la política? Por supuesto, la gente siempre lo es. En cuanto al tema de la moderación, siempre intentamos hacer las cosas de la manera correcta, que, no por casualidad, esté alineada con los valores estadounidenses. Es una plataforma demócrata. Creemos mucho en el poder de las personas y en la sabiduría de las multitudes y los procesos de votación. Eso es Reddit. Así que me alegra ver un regreso a donde hemos estado la mayor parte de mi vida, que es un aprecio por la libertad de expresión.

En otra parte

  • Los competidores se lanzan a TikTok: Dado que TikTok ya no está disponible en las tiendas de aplicaciones de EE. UU. y su funcionalidad dentro de la aplicación está técnicamente limitada, todos están haciendo todo lo posible para aprovechar la situación. Meta anunció previamente a su competidor Capcut y está tratando de atraer a los creadores con dinero en efectivo. Substack, Bluesky y X están tomando medidas para fomentar un mayor consumo de vídeos. Mientras tanto, el presidente Trump dice que está de acuerdo con Elon Musk o Larry Ellison comprándolo. ByteDance dice que quiere llegar a un acuerdo, pero parece cada vez más arrinconado. Ellison puede tener la garantía de que Oracle no será multado por violar la ley en este momento, pero Apple y Google han demostrado que van a seguir la ley al pie de la letra. Dado que TikTok aún no está disponible para descargar en los EE. UU., su amenaza competitiva para Meta, YouTube y otros disminuye cada día.
  • Trump se pone a trabajar para las grandes tecnológicas: ¿Por qué Zuckerberg y otros directores ejecutivos se arrodillan? No hay que mirar más allá de los comentarios que hizo el presidente en el Foro Económico Mundial esta semana, donde criticó las Leyes de Servicios y Mercados Digitales de la UE como una forma de “impuestos”. Este tipo de retroceso es exactamente por lo que Meta y otras empresas estadounidenses han estado orando. Veremos si les funciona.
  • Más titulares: OpenAI lanzó su agente de IA llamado “Operador” para suscriptores de nivel profesional… Musk dijo a los empleados de X que “el crecimiento de usuarios está estancado, los ingresos no son impresionantes y apenas estamos alcanzando el punto de equilibrio”…. Apple se reorganizó nuevamente mientras busca ponerse al día en IAGoogle está invirtiendo otros mil millones de dólares en Google Cloud a través de Anthropic y adquirió parte del equipo Vive de HTC para reforzar sus esfuerzos con Android XR (sí, prepárense para el regreso de Glass)… Epic Games dio una actualización sobre su impulso para competir con Roblox… Meta hizo una inversión excepcional en Databricks.

Más enlaces

  • ¿Qué llevó a que DOGE se peleara entre Vivek Ramaswamy y Elon Musk.
  • Un perfil de DeepSeek, la empresa china que tiene a varios directores ejecutivos preocupados por cuánto gastan en modelos.
  • Dan Shipper’s Experiencia práctica en el uso del agente operador de OpenAI.
  • El conjunto de datos de IA del “Último examen de la humanidad”.
  • Brian Armstrong conclusiones de Davos.
  • Un denunciante afirma que el acuerdo de 400 millones de dólares de Amazon por la mayor parte de Covariant AI fue una “adquisición inversa” diseñada para evitar el escrutinio antimonopolio.
  • Nvidia es la principal empresa de tecnología en la última lista de Glassdoor de los mejores lugares para trabajar.
  • El auge del podcast MAGA-bro.

Si aún no lo has hecho, no olvides suscribirte a El bordeque incluye acceso ilimitado a Línea de comandotodos nuestros informes y una experiencia publicitaria mejorada en la web.

Como siempre, quiero saber de usted, especialmente si su centro de datos está incluso grander. Responda aquí y me comunicaré con usted o envíeme un ping de forma segura en Signal.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

La investigación profunda de Openai tiene más resistencia de investigación que tú, pero todavía está mal la mitad del tiempo

Published

on

Opadai

Lo último en inteligencia artificial generativa incluye agentes de IA que pueden acceder a la web para encontrar respuestas a las preguntas. Si bien es prometedora, la tecnología de agente es en gran medida un trabajo en progreso.

En un artículo publicado la semana pasada, los investigadores de Operai relatan cómo la tecnología de investigación profunda de la compañía, que se construyó para usar la web, funciona mucho mejor que los otros modelos de Openai al responder preguntas web. También lo hace mucho mejor que los humanos en tareas que requieren horas de búsqueda.

También: ¿Qué son los agentes de IA? Cómo acceder a un equipo de asistentes personalizados

Pero la investigación profunda todavía tropieza casi la mitad del tiempo.

La nueva prueba de OpenAI sugiere que la investigación profunda puede ser más tenaz y obstinada en la búsqueda de una respuesta que los investigadores humanos para algunas tareas, pero aún no se le ocurre una respuesta a menudo.

Llamada Browsecomp, la prueba es descrita por los autores Jason Wei y el equipo como “un punto de referencia simple pero desafiante para medir la capacidad de los agentes para navegar por la web”.

La premisa es que los agentes de IA, lo que significa, modelos de IA que pueden navegar por “miles de páginas web”, podrían ser mucho más ingeniosos que los humanos, que tienen memoria limitada, se fatigan navegando por la red y “solo pueden atender una cosa a la vez y no pueden ser paralelizadas,” significa que no pueden dirigir sus cerebros a operar en datos en transmisiones paralelos de pensamiento.

“La inteligencia de máquinas, por otro lado, tiene un retiro mucho más extenso y puede operar incansablemente sin distraerse”, escribe Wei y equipo.

También: La investigación profunda de Openai puede ahorrarle horas de trabajo, y ahora es mucho más barato acceder

Wei y el equipo se basaron en su trabajo anterior del año pasado, “Simpleq & A”, que prueba la capacidad de los modelos de IA para responder “preguntas cortas y de búsqueda de hechos”. Las preguntas cubrieron trivia de televisión y película, ciencia, historia, música, videojuegos, política y otros temas.

El conjunto de browsecomp de 1.266 preguntas está diseñado para ir más allá de la recuperación de información simple, relacionan los autores. En cambio, son preguntas para las cuales es difícil encontrar las respuestas, o, como lo expresan, “desafiantes porque requieren buscar a través de un gran espacio de posibles respuestas y igualarlas con limitaciones planteadas en la pregunta” e “información difícil de encontrar y profundamente entrelazada en la web”.

Por ejemplo, un par de preguntas y respuestas es el siguiente:

Identifique el título de una publicación de investigación publicada antes de junio de 2023, que menciona tradiciones culturales, procesos científicos e innovaciones culinarias. Es coautor de tres individuos: uno de ellos fue profesor asistente en Bengala Occidental y otro tiene un Ph.D.
(Respuesta: Los fundamentos de la fabricación de pan: la ciencia del pan)

Hacen hincapié en que tal pregunta es fácil de verificar porque la respuesta está contenida en una sola frase que es “autónoma”.

OpenAI-2025-Browsecomp-Sample-Question-Response pares

Opadai

Las preguntas y respuestas fueron desarrolladas por “entrenadores” humanos, y fueron seleccionados como imposibles de resolver con solo el chatgpt de Openai, con o sin habilidades de navegación. Las preguntas también eran imposibles para una “versión temprana” de una investigación profunda.

Demostrando cuán débiles son los humanos para buscar en la web, primero probaron a los humanos que estaban “familiarizados con el conjunto de datos” para responder las preguntas.

OpenAI-2025-Humans-Give-Up más de las preguntas

Opadai

Los resultados no fueron buenos para los humanos. Para el 70% de las preguntas, los humanos se rindieron después de dos horas de esfuerzo. Solo respondieron alrededor del 30% de las preguntas, y por el 14% de sus respuestas propuestas, las sugerencias de los humanos no coincidir con la respuesta real.

Wei y el equipo plantean la hipótesis de que los humanos con mayores habilidades de búsqueda podrían hacerlo mejor: “Es posible que muchos de los problemas que renunciaran sean solucionables por profesionales experimentados (por ejemplo, detectives o periodistas de investigación) con tiempo suficiente”.

OPERAI-2025-BROWSECOMP-ACCRACIÓN Y CALIBRACIÓN

Opadai

Después de los humanos, probaron una investigación profunda contra el GPT-4O de Openai (con y sin habilidades de navegación), GPT-4.5 y el modelo O1.

Los resultados fueron abismales. “GPT-4O y GPT-4.5 alcanzaron la precisión cercana a cero, destacando la dificultad del punto de referencia”, escriben. “Sin un razonamiento sólido o un uso de herramientas, los modelos no pueden recuperar los tipos de objetivos oscuros y múltiples hechos de navegación”.

O1 le fue mejor, lo cual “[suggests] que algunas respuestas de Browsecomps pueden aparecer a través de la inferencia sobre el conocimiento interno “.

También: AI desata estafas más avanzadas. Esto es lo que debe tener en cuenta (y cómo mantenerse protegido)

Con un puntaje del 51.5%, la investigación profunda fue “significativamente mejor” y “es particularmente efectivo para responder a las preguntas nicho y no intuitivas que requieren navegar por numerosos sitios web”, escriben Wei y Team.

Sin embargo, también encontraron que GPT-4O que usa navegación e investigación profunda podría errar al estar “demasiado confiado” sobre las respuestas incorrectas, que se conoce como un error de calibración.

“Los modelos con capacidades de navegación como GPT-4O con navegación e investigación profunda exhiben un error de calibración más alto”, escriben, “, lo que sugiere que el acceso a las herramientas web puede aumentar la confianza del modelo en respuestas incorrectas. Esto se alinea con las observaciones de que la investigación profunda lucha con la calibración de confianza y, a menudo, no puede transmitir la incertidumbre con precisión en el presente”.

Para corregir el error de calibración, hicieron otra prueba con una investigación profunda, en la que el modelo tuvo que generar hasta 64 respuestas a cada pregunta. Luego, hicieron que el modelo eligiera lo mejor de ellos. Cuando lo hizo, la investigación profunda fue bastante buena para elegir la respuesta correcta entre todas las propuestas.

OpenAI-2025-mejor de-n-scaling-accions

Opadai

Eso, escriba Wei y Team, sugiere que “el modelo con frecuencia ‘sabe’ cuando es correcto, incluso si lucha por expresar esa certeza como una probabilidad calibrada”.

También: El último chip de Google se trata de reducir un gran costo oculto en AI

También señalan que el éxito de la investigación profunda mejora con más computación agregada cuando busca la web. Dicho de otra manera, “el rendimiento escala suavemente en función de la cantidad de cómputo de tiempo de prueba utilizado”. Eso se cuadraba con una tendencia creciente de lanzar más chips de GPU a la tarea de inferencia.

escala de accesorios de accesorios operai-2025-Browsecomp

Opadai

Wei y el equipo no ofrecen directamente ninguna hipótesis sobre por qué la investigación profunda falla casi la mitad del tiempo, pero la respuesta implícita está en la escala de su capacidad con más cálculo. A medida que ejecutan tareas más paralelas y solicitan al modelo que evalúe múltiples respuestas, la precisión escala más allá del 75% de las preguntas respondidas.

La implicación es que es esencial elegir estrategias que obligen al modelo a evaluar sus propios esfuerzos en lugar de simplemente perseguir una sola respuesta. Sin esa etapa de evaluación, el modelo lucha una buena parte del tiempo.

Además: con los modelos de IA que se golpean cada punto de referencia, es hora de la evaluación humana

Un gran agujero en Browsecomps, reconocen los autores, es que se limita a preguntas que son fáciles de analizar para la computadora y cuyas respuestas son fáciles de verificar. Ninguna de las 1.266 preguntas incluyó “respuestas largas o capacidad para resolver la ambigüedad en las consultas de los usuarios”.

Como resultado, el browsecompl, argumentan, prueba las funciones “centrales” de los agentes de IA, pero no es integral. “El modelo debe ser muy competente para localizar piezas de información difíciles de encontrar, pero no está garantizado que esto se generalice a todas las tareas que requieren navegación”.

La investigación profunda está disponible para los usuarios de las suscripciones PLUS y Pro Operai.

¿Quieres más historias sobre AI? Regístrese para la innovaciónnuestro boletín semanal.

Continue Reading

Noticias

Informe de chatgpt para marketing

Published

on

Continue Reading

Noticias

Operai supera a Deepseek en el razonamiento a nivel de oración

Published

on

Chatgpt y otros chatbots de IA basados ​​en modelos de idiomas grandes se sabe que ocasionalmente inventa cosas, incluidas las citas científicas y legales. Resulta que medir cuán precisas son las citas de un modelo AI es una buena manera de evaluar las habilidades de razonamiento del modelo.

Un modelo de IA “razones” descomponiendo una consulta en pasos y trabajando a través de ellos en orden. Piense en cómo aprendió a resolver problemas de palabras matemáticas en la escuela.

Idealmente, para generar citas, un modelo de IA comprendería los conceptos clave en un documento, generaría una lista clasificada de documentos relevantes para citar y proporcionaría un razonamiento convincente sobre cómo cada documento sugerido respalda el texto correspondiente. Destacará las conexiones específicas entre el texto y la investigación citada, aclarando por qué cada fuente importa.

La pregunta es, ¿se puede confiar en los modelos de hoy para hacer estas conexiones y proporcionar un razonamiento claro que justifique sus elecciones de origen? La respuesta va más allá de la precisión de las citas para abordar cuán útiles y precisos son los modelos de lenguaje grande para cualquier propósito de recuperación de información.

Soy un informático. Mis colegas, investigadores del Instituto AI de la Universidad de Carolina del Sur, la Universidad Estatal de Ohio y el Condado de Baltimore del Condado de Baltimore, y he desarrollado las razones de referencia para probar qué tan bien modelos de idiomas pueden generar automáticamente citas de investigación y proporcionar un razonamiento comprensible.

Utilizamos el punto de referencia para comparar el rendimiento de dos modelos de razonamiento de IA populares, Deepseek’s R1 y OpenAI’s O1. Aunque Deepseek fue en los titulares con su impresionante eficiencia y rentabilidad, el advenedizo chino tiene un camino por recorrer para que coincida con el rendimiento de razonamiento de OpenAI.

Oración específica

La precisión de las citas tiene mucho que ver con si el modelo AI está razonando sobre la información a nivel de oración en lugar del párrafo o a nivel de documentos. Se puede considerar que las citas a nivel de párrafo y a nivel de documentos arrojan una gran parte de la información a un modelo de idioma grande y le piden que proporcione muchas citas.

En este proceso, el modelo de lenguaje grande se generaliza e incorporan las oraciones individuales. El usuario termina con citas que explican todo el párrafo o documento, no la información de grano relativamente fino en la oración.

Además, el razonamiento sufre cuando le pide al modelo de idioma grande que lea un documento completo. Estos modelos se basan principalmente en memorizar patrones que típicamente son mejores para encontrar al principio y al final de los textos más largos que en el medio. Esto les dificulta comprender completamente toda la información importante a lo largo de un documento largo.

Los modelos de idiomas grandes se confunden porque los párrafos y documentos tienen mucha información, lo que afecta la generación de citas y el proceso de razonamiento. En consecuencia, el razonamiento de los modelos de idiomas grandes sobre los párrafos y los documentos se vuelve más como resumir o parafrasear.

Las razones por las que Benchmark aborde esta debilidad al examinar la generación y el razonamiento de las citas de los modelos de idiomas grandes.

https://www.youtube.com/watch?v=kqzzymhre0u

Cómo Deepseek R1 y OpenAI O1 se comparan generalmente con los problemas lógicos.

Prueba de citas y razonamiento

Tras el lanzamiento de Deepseek R1 en enero de 2025, queríamos examinar su precisión en la generación de citas y su calidad de razonamiento y compararlo con el modelo O1 de OpenAI. Creamos un párrafo que tenía oraciones de diferentes fuentes, dio a los modelos oraciones individuales de este párrafo y pedimos citas y razonamiento.

Para comenzar nuestra prueba, desarrollamos un pequeño lecho de prueba de aproximadamente 4,100 artículos de investigación alrededor de cuatro temas clave que están relacionados con el cerebro humano y la informática: neuronas y cognición, interacción humana-computadora, bases de datos e inteligencia artificial. Evaluamos los modelos utilizando dos medidas: la puntuación F-1, que mide cuán precisa es la cita proporcionada, y la tasa de alucinación, que mide cuán sonido es el razonamiento del modelo, es decir, con qué frecuencia produce una respuesta inexacta o engañosa.

Nuestras pruebas revelaron diferencias de rendimiento significativas entre OpenAI O1 y Deepseek R1 en diferentes dominios científicos. El O1 de OpenAI conectó bien la información entre los diferentes sujetos, como comprender cómo la investigación sobre neuronas y cognición se conecta con la interacción humana y la computadora y luego con los conceptos en inteligencia artificial, sin dejar de ser precisa. Sus métricas de rendimiento superaron constantemente a Deepseek R1 en todas las categorías de evaluación, especialmente para reducir las alucinaciones y completar con éxito las tareas asignadas.

Operai O1 fue mejor para combinar ideas semánticamente, mientras que R1 se centró en asegurarse de que generara una respuesta para cada tarea de atribución, lo que a su vez aumentó la alucinación durante el razonamiento. Openai O1 tenía una tasa de alucinación de aproximadamente 35% en comparación con la tasa de Deepseek R1 de casi el 85% en la tarea de razonamiento basada en la atribución.

En términos de precisión y competencia lingüística, Openai O1 obtuvo alrededor de 0.65 en la prueba F-1, lo que significa que era correcto aproximadamente el 65% del tiempo al responder preguntas. También obtuvo alrededor de 0.70 en la prueba BLEU, que mide qué tan bien un modelo de lenguaje escribe en lenguaje natural. Estos son puntajes bastante buenos.

Deepseek R1 obtuvo un puntaje más bajo, con aproximadamente 0.35 en la prueba F-1, lo que significa que era correcto aproximadamente el 35% del tiempo. Sin embargo, su puntaje Bleu fue solo alrededor de 0.2, lo que significa que su escritura no era tan natural como la O1 de OpenAI. Esto muestra que O1 fue mejor al presentar esa información en un lenguaje claro y natural.

OpenAi tiene la ventaja

En otros puntos de referencia, Deepseek R1 se desempeña a la par con OpenAi O1 en tareas de matemáticas, codificación y razonamiento científico. Pero la diferencia sustancial en nuestro punto de referencia sugiere que O1 proporciona información más confiable, mientras que R1 lucha con la consistencia objetiva.

Aunque incluimos otros modelos en nuestras pruebas integrales, la brecha de rendimiento entre O1 y R1 resalta específicamente el panorama competitivo actual en el desarrollo de IA, con la oferta de OpenAI que mantiene una ventaja significativa en las capacidades de razonamiento e integración del conocimiento.

Estos resultados sugieren que OpenAi todavía tiene una ventaja cuando se trata de atribución y razonamiento de origen, posiblemente debido a la naturaleza y el volumen de los datos en los que fue entrenado. La compañía anunció recientemente su herramienta de investigación profunda, que puede crear informes con citas, hacer preguntas de seguimiento y proporcionar razonamiento para la respuesta generada.

El jurado todavía está en el valor de la herramienta para los investigadores, pero la advertencia permanece para todos: verifique todas las citas que le brinda una IA.

Continue Reading

Trending