Connect with us

Noticias

A medida que entramos en 2025, estas son las principales funciones de Google Gemini lanzadas en 2024

Published

on

2024 fue un gran año para el mundo de la tecnología, especialmente para Google. Comenzó a comercializar la mayor parte de su catálogo de IA bajo la marca Gemini, que representa el chatbot conversacional y sus modelos de IA subyacentes.

El gigante de las búsquedas lanzó muchos productos, funciones y cambios nuevos en el espacio de la IA generativa. Recapitulemos las principales funciones y cambios de Google Gemini introducidos a lo largo del año. En su tiempo libre, consulte varios productos y servicios que Google descontinuará en 2024 y la lista de deseos de funciones de Instagram.

Nota: La lista no es exhaustiva y es posible que no incluya todas las funciones de Gemini lanzadas en 2024.

Cambiar el nombre del chatbot Bard a Gemini

Uno de los cambios más importantes que vimos a principios de este año fue que Google cambió el nombre de Bard a Gemini, sincronizando el esquema de nombres con sus modelos Gemini preexistentes. La compañía también etiquetó el modelo Gemini 1.0 Pro recién horneado y presentó Gemini en más de 40 idiomas y 230 países en todo el mundo.

Un ingeniero de Google reveló más tarde “Por qué Gemini se llama Gemini” y dijo que el modelo de IA tiene un doble significado detrás de su nombre. Su capacidad para manejar diferentes tipos de datos se alinea con la personalidad dual del signo zodiacal Géminis. El nombre también se inspira en el primer programa de disparos a la luna de la NASA llamado Proyecto Gemini.

Aplicaciones móviles, versión paga de Gemini, soporte para Chromebook Plus

Google también presentó la aplicación Gemini para Android en febrero, reemplazando finalmente al Asistente de Google como asistente de voz predeterminado para Android. En ese momento, los usuarios de iOS podían acceder al chatbot Gemini a través de la aplicación de Google.

En el mismo mes, el gigante de las búsquedas lanzó una suscripción paga para su chatbot de IA llamado Gemini Advanced, que brinda a los usuarios acceso a los modelos Gemini más capaces, como Gemini Ultra 1.0, 1.5 Pro y material experimental como Gemini-Exp-1206. .

google chromebook plus

Además, trajo varias funciones de Gemini, como “Ayúdame a escribir”, a las computadoras portátiles Chromebook Plus, a las que se puede acceder a través de un botón Gemini dedicado en el estante de aplicaciones de la pantalla de inicio.

Soporte para Google Maps

Las capacidades del chatbot Gemini AI se pueden mejorar con la ayuda de las extensiones Gemini. En marzo, Google actualizó Gemini con soporte para Google Maps, lo que permite a los usuarios emitir comandos para activar la navegación desde el chatbot.

Mapas de inicio automático de Google Gemini

Por ejemplo, puede emitir comandos como “Llevarme a [X],” Gemini mostrará datos como la distancia, el tiempo estimado y un enlace a Google Maps. La navegación se iniciará automáticamente después de unos segundos.

Vídeos

Como sugiere el nombre, Vids es una nueva herramienta de creación de videos impulsada por Gemini que Google lanzó en abril de este año para crear fácilmente videos de capacitación, presentaciones, actualizaciones o contenido de marketing. Ofrece una interfaz de usuario con estilo de línea de tiempo para ensamblar recursos de video de Google Drive o de otro lugar, grabar voces en off o filmarse directamente desde la aplicación.

Vídeos de Google

Puedes colaborar con otras personas y controlar quién puede editar, comentar o ver tus videos. Tenga en cuenta que Google Vids es parte de la suite Workspace y es una oferta paga.

Extensión de música de YouTube

Extensión de música de YouTube de Google Gemini

Otro complemento para el chatbot fue una nueva extensión de YouTube Music en mayo. Permite a los usuarios de Gemini conectar YouTube Music con el chatbot para buscar sus canciones favoritas, reproducir radio, descubrir nuevos artistas y listas de reproducción, y más.

Actualizaciones de la versión Gemini y nuevos modelos.

El año 2024 también vio varias actualizaciones de los modelos Gemini. Gemini 1.5 Flash se presentó en mayo como un LLM liviano, que se destacó “en resúmenes, aplicaciones de chat, subtítulos de imágenes y videos, extracción de datos de documentos y tablas extensos, y más”.

A esto le siguió una variante más pequeña de 1.5 Flash (conocida como Gemini 1.5 Flash-8B); un nuevo modelo Gemini 1.5 Pro con codificación mejorada y rendimiento de avisos complejos; y un nuevo modelo Gemini 1.5 Flash con importantes mejoras.

El mes pasado marcó el debut de Gemini 2.0. Google anunció el modelo experimental Gemini 2.0 Flash con soporte para imágenes generadas de forma nativa mezcladas con texto y audio multilingüe de texto a voz (TTS) orientable.

Preguntar al asistente de fotos

pedir fotos

El protagonismo de Google I/O 2024 podría haber eclipsado al asistente Ask Photos para Google Photos anunciado en la conferencia. El asistente digital impulsado por los modelos Gemini AI se puede utilizar para extraer fotos/videos de su galería, generar subtítulos personalizados, explicar lo que sucede en ellos o crear momentos destacados del viaje después de unas vacaciones.

Expandiendo Gemini al sector educativo

En mayo, Google también amplió Gemini for Workspace al sector educativo al introducir dos nuevos complementos: Gemini Education y Gemini Education Premium. Este último permitió el acceso a funciones como la toma de notas y resúmenes basados ​​en IA en Meet y la prevención de pérdida de datos mejorada por IA.

Paneles laterales Gemini para aplicaciones Workspace

La búsqueda de Google de colocar su chatbot de IA en todos los lugares posibles allanó el camino para los paneles laterales de Gemini para las aplicaciones Workspace. En junio, el gigante de las búsquedas lanzó paneles laterales Gemini para sus aplicaciones web, incluidas Google Docs, Slides, Drive y Gmail.

Los paneles laterales se personalizan según la aplicación. Por ejemplo, Gemini en Gmail puede resumir correos electrónicos, sugerir respuestas y resumir hilos de correo electrónico. Mientras tanto, puede generar nuevas diapositivas de presentación en Google Slides y crear imágenes personalizadas.

Panel lateral de Géminis en el chat de Google

En noviembre, también se agregó el panel lateral Gemini a Google Chat. Al igual que otras aplicaciones, puede resumir conversaciones y evitar a los usuarios la molestia de leerlo todo.

Géminis en vivo

En agosto, se lanzó Gemini Live en el evento de hardware Pixel para brindar a los usuarios de teléfonos inteligentes una experiencia de conversación natural con el chatbot de IA. Puedes hablar con Gemini como en una conversación normal de ida y vuelta, abandonar la conversación en cualquier momento y continuarla más tarde.

También puedes continuar la conversación con Gemini mientras la aplicación está en segundo plano o tu teléfono está bloqueado. Gemini Live se incluyó inicialmente con Gemini Advanced, pero ahora está disponible a través de la aplicación Gemini en Android e iOS. Posteriormente, la función se amplió para agregar soporte para más de 40 idiomas.

Gemas personalizadas para Géminis

Custom Gems le permite crear versiones del chatbot Gemini adaptadas a casos de uso específicos. Por ejemplo, puede generar ideas para un próximo evento, recordar instrucciones detalladas o crear un asesor de aprendizaje.

Gemas personalizadas de Google Géminis

La función premium se implementó para usuarios de Gemini Advanced, Business y Enterprise en más de 150 países. Puedes ir al administrador de gemas para acceder a gemas prefabricadas o crear otras nuevas haciendo clic en el botón “+ Agregar gema” y escribiendo su propósito y objetivo.

Imagen 3 y generador de imágenes Whisk

El modelo de conversión de texto a imagen de mayor calidad de Google, Imagen 3, se lanzó en octubre tras su anuncio a principios de este año. El último modelo de generación de imágenes funciona con aplicaciones Gemini para usuarios en todos los idiomas admitidos.

Imagen 3 comprende mejor el lenguaje natural y la intención detrás del mensaje. Los usuarios pueden escribir indicaciones para generar paisajes fotorrealistas, pinturas al óleo texturizadas o escenas caprichosas de animación con plastilina, y emitir comandos posteriores para perfeccionarlo aún más.

Herramienta de generación de imágenes Google Whisk

A principios de este mes, Google utilizó Imagen 3 para impulsar una nueva herramienta de inteligencia artificial generativa llamada Whisk, que toma imágenes como entrada para generar nuevas imágenes.

Gemini en el navegador Opera, integración de Snapchat

Opera se unió a Google Cloud para aprovechar las capacidades de Gemini para su IA en el navegador conocida como Aria, que ya utiliza el poder de múltiples modelos de lenguaje grandes (LLM). La asociación trajo las capacidades de generación de imágenes y texto a voz de Google al navegador Opera.

Mientras tanto, Snapchat fue otra plataforma de terceros que obtuvo acceso a las funciones de Gemini en 2024. El gigante de las redes sociales se asoció con Google para hacer que el chatbot My AI sea más inteligente que antes y ofrecer una experiencia multimodal. El gigante de las búsquedas afirmó que la integración de Gemini con My AI mejoró la participación de los usuarios en los EE. UU. en 2,5 veces.

Investigación profunda

Si utiliza el chatbot de inteligencia artificial generativa de Google para sesiones de investigación extensas, un nuevo asistente con tecnología de inteligencia artificial llamado Deep Research puede ayudarlo con su exploración. Está diseñado para reducir las horas de investigación realizando análisis y resúmenes de documentos en profundidad y extrayendo conocimientos clave de grandes cantidades de información.

Tenga en cuenta que Deep Research es parte de Gemini Advanced (una oferta paga) y está disponible en más de 45 idiomas en más de 150 países en todo el mundo.

Búsqueda en lenguaje natural en Google Maps

En una nueva actualización de su aplicación de navegación, Google agregó una función de búsqueda impulsada por Gemini a Google Maps. En otras palabras, puedes escribir consultas en lenguaje natural en la barra de búsqueda de Google Maps. Por ejemplo, puedes encontrar nuevos lugares escribiendo “cosas que hacer con amigos por la noche”. El chatbot crea reseñas resumidas sobre los lugares que lees para tener una idea sobre ellos.

Reproducir canciones de Spotify

No solo YouTube Music, Gemini también agregó soporte para la aplicación rival de transmisión de música Spotify. El chatbot de IA puede reproducir música de Spotify en su dispositivo Android sin necesidad de cambiar de aplicación.

Puede utilizar la interfaz de chat de Gemini para solicitar canciones, listas de reproducción del navegador y buscar música a través de letras, entre varias funciones. Sin embargo, necesita una cuenta Spotify Premium para que la integración funcione.

Controversias de Géminis

No se trata solo de nuevas características, el chatbot generativo de IA de Google también ha generado varias controversias. En febrero, la función de generación de imágenes de Gemini estuvo en problemas después de mostrar sesgos en la generación de imágenes de personas. Como resultado, el generador de imágenes se detuvo temporalmente y Google tuvo que explicar el comportamiento inesperado.

Un usuario de X afirmó que Gemini resumió un archivo PDF automáticamente y sin que se le pidiera explícitamente que lo hiciera, y señaló que la configuración requerida ya estaba deshabilitada.

Otro informe afirmó que Google contrata contratistas para calificar las respuestas de Gemini en función de cualidades como precisión, claridad y seguridad y comparar las respuestas con las del LLM Claude de Anthropic. Los contratistas notaron similitudes entre las respuestas de las dos plataformas. Si bien comparar modelos no es infrecuente, el informe no recibió una respuesta satisfactoria de Google.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

La investigación profunda de Openai tiene más resistencia de investigación que tú, pero todavía está mal la mitad del tiempo

Published

on

Opadai

Lo último en inteligencia artificial generativa incluye agentes de IA que pueden acceder a la web para encontrar respuestas a las preguntas. Si bien es prometedora, la tecnología de agente es en gran medida un trabajo en progreso.

En un artículo publicado la semana pasada, los investigadores de Operai relatan cómo la tecnología de investigación profunda de la compañía, que se construyó para usar la web, funciona mucho mejor que los otros modelos de Openai al responder preguntas web. También lo hace mucho mejor que los humanos en tareas que requieren horas de búsqueda.

También: ¿Qué son los agentes de IA? Cómo acceder a un equipo de asistentes personalizados

Pero la investigación profunda todavía tropieza casi la mitad del tiempo.

La nueva prueba de OpenAI sugiere que la investigación profunda puede ser más tenaz y obstinada en la búsqueda de una respuesta que los investigadores humanos para algunas tareas, pero aún no se le ocurre una respuesta a menudo.

Llamada Browsecomp, la prueba es descrita por los autores Jason Wei y el equipo como “un punto de referencia simple pero desafiante para medir la capacidad de los agentes para navegar por la web”.

La premisa es que los agentes de IA, lo que significa, modelos de IA que pueden navegar por “miles de páginas web”, podrían ser mucho más ingeniosos que los humanos, que tienen memoria limitada, se fatigan navegando por la red y “solo pueden atender una cosa a la vez y no pueden ser paralelizadas,” significa que no pueden dirigir sus cerebros a operar en datos en transmisiones paralelos de pensamiento.

“La inteligencia de máquinas, por otro lado, tiene un retiro mucho más extenso y puede operar incansablemente sin distraerse”, escribe Wei y equipo.

También: La investigación profunda de Openai puede ahorrarle horas de trabajo, y ahora es mucho más barato acceder

Wei y el equipo se basaron en su trabajo anterior del año pasado, “Simpleq & A”, que prueba la capacidad de los modelos de IA para responder “preguntas cortas y de búsqueda de hechos”. Las preguntas cubrieron trivia de televisión y película, ciencia, historia, música, videojuegos, política y otros temas.

El conjunto de browsecomp de 1.266 preguntas está diseñado para ir más allá de la recuperación de información simple, relacionan los autores. En cambio, son preguntas para las cuales es difícil encontrar las respuestas, o, como lo expresan, “desafiantes porque requieren buscar a través de un gran espacio de posibles respuestas y igualarlas con limitaciones planteadas en la pregunta” e “información difícil de encontrar y profundamente entrelazada en la web”.

Por ejemplo, un par de preguntas y respuestas es el siguiente:

Identifique el título de una publicación de investigación publicada antes de junio de 2023, que menciona tradiciones culturales, procesos científicos e innovaciones culinarias. Es coautor de tres individuos: uno de ellos fue profesor asistente en Bengala Occidental y otro tiene un Ph.D.
(Respuesta: Los fundamentos de la fabricación de pan: la ciencia del pan)

Hacen hincapié en que tal pregunta es fácil de verificar porque la respuesta está contenida en una sola frase que es “autónoma”.

OpenAI-2025-Browsecomp-Sample-Question-Response pares

Opadai

Las preguntas y respuestas fueron desarrolladas por “entrenadores” humanos, y fueron seleccionados como imposibles de resolver con solo el chatgpt de Openai, con o sin habilidades de navegación. Las preguntas también eran imposibles para una “versión temprana” de una investigación profunda.

Demostrando cuán débiles son los humanos para buscar en la web, primero probaron a los humanos que estaban “familiarizados con el conjunto de datos” para responder las preguntas.

OpenAI-2025-Humans-Give-Up más de las preguntas

Opadai

Los resultados no fueron buenos para los humanos. Para el 70% de las preguntas, los humanos se rindieron después de dos horas de esfuerzo. Solo respondieron alrededor del 30% de las preguntas, y por el 14% de sus respuestas propuestas, las sugerencias de los humanos no coincidir con la respuesta real.

Wei y el equipo plantean la hipótesis de que los humanos con mayores habilidades de búsqueda podrían hacerlo mejor: “Es posible que muchos de los problemas que renunciaran sean solucionables por profesionales experimentados (por ejemplo, detectives o periodistas de investigación) con tiempo suficiente”.

OPERAI-2025-BROWSECOMP-ACCRACIÓN Y CALIBRACIÓN

Opadai

Después de los humanos, probaron una investigación profunda contra el GPT-4O de Openai (con y sin habilidades de navegación), GPT-4.5 y el modelo O1.

Los resultados fueron abismales. “GPT-4O y GPT-4.5 alcanzaron la precisión cercana a cero, destacando la dificultad del punto de referencia”, escriben. “Sin un razonamiento sólido o un uso de herramientas, los modelos no pueden recuperar los tipos de objetivos oscuros y múltiples hechos de navegación”.

O1 le fue mejor, lo cual “[suggests] que algunas respuestas de Browsecomps pueden aparecer a través de la inferencia sobre el conocimiento interno “.

También: AI desata estafas más avanzadas. Esto es lo que debe tener en cuenta (y cómo mantenerse protegido)

Con un puntaje del 51.5%, la investigación profunda fue “significativamente mejor” y “es particularmente efectivo para responder a las preguntas nicho y no intuitivas que requieren navegar por numerosos sitios web”, escriben Wei y Team.

Sin embargo, también encontraron que GPT-4O que usa navegación e investigación profunda podría errar al estar “demasiado confiado” sobre las respuestas incorrectas, que se conoce como un error de calibración.

“Los modelos con capacidades de navegación como GPT-4O con navegación e investigación profunda exhiben un error de calibración más alto”, escriben, “, lo que sugiere que el acceso a las herramientas web puede aumentar la confianza del modelo en respuestas incorrectas. Esto se alinea con las observaciones de que la investigación profunda lucha con la calibración de confianza y, a menudo, no puede transmitir la incertidumbre con precisión en el presente”.

Para corregir el error de calibración, hicieron otra prueba con una investigación profunda, en la que el modelo tuvo que generar hasta 64 respuestas a cada pregunta. Luego, hicieron que el modelo eligiera lo mejor de ellos. Cuando lo hizo, la investigación profunda fue bastante buena para elegir la respuesta correcta entre todas las propuestas.

OpenAI-2025-mejor de-n-scaling-accions

Opadai

Eso, escriba Wei y Team, sugiere que “el modelo con frecuencia ‘sabe’ cuando es correcto, incluso si lucha por expresar esa certeza como una probabilidad calibrada”.

También: El último chip de Google se trata de reducir un gran costo oculto en AI

También señalan que el éxito de la investigación profunda mejora con más computación agregada cuando busca la web. Dicho de otra manera, “el rendimiento escala suavemente en función de la cantidad de cómputo de tiempo de prueba utilizado”. Eso se cuadraba con una tendencia creciente de lanzar más chips de GPU a la tarea de inferencia.

escala de accesorios de accesorios operai-2025-Browsecomp

Opadai

Wei y el equipo no ofrecen directamente ninguna hipótesis sobre por qué la investigación profunda falla casi la mitad del tiempo, pero la respuesta implícita está en la escala de su capacidad con más cálculo. A medida que ejecutan tareas más paralelas y solicitan al modelo que evalúe múltiples respuestas, la precisión escala más allá del 75% de las preguntas respondidas.

La implicación es que es esencial elegir estrategias que obligen al modelo a evaluar sus propios esfuerzos en lugar de simplemente perseguir una sola respuesta. Sin esa etapa de evaluación, el modelo lucha una buena parte del tiempo.

Además: con los modelos de IA que se golpean cada punto de referencia, es hora de la evaluación humana

Un gran agujero en Browsecomps, reconocen los autores, es que se limita a preguntas que son fáciles de analizar para la computadora y cuyas respuestas son fáciles de verificar. Ninguna de las 1.266 preguntas incluyó “respuestas largas o capacidad para resolver la ambigüedad en las consultas de los usuarios”.

Como resultado, el browsecompl, argumentan, prueba las funciones “centrales” de los agentes de IA, pero no es integral. “El modelo debe ser muy competente para localizar piezas de información difíciles de encontrar, pero no está garantizado que esto se generalice a todas las tareas que requieren navegación”.

La investigación profunda está disponible para los usuarios de las suscripciones PLUS y Pro Operai.

¿Quieres más historias sobre AI? Regístrese para la innovaciónnuestro boletín semanal.

Continue Reading

Noticias

Informe de chatgpt para marketing

Published

on

Continue Reading

Noticias

Operai supera a Deepseek en el razonamiento a nivel de oración

Published

on

Chatgpt y otros chatbots de IA basados ​​en modelos de idiomas grandes se sabe que ocasionalmente inventa cosas, incluidas las citas científicas y legales. Resulta que medir cuán precisas son las citas de un modelo AI es una buena manera de evaluar las habilidades de razonamiento del modelo.

Un modelo de IA “razones” descomponiendo una consulta en pasos y trabajando a través de ellos en orden. Piense en cómo aprendió a resolver problemas de palabras matemáticas en la escuela.

Idealmente, para generar citas, un modelo de IA comprendería los conceptos clave en un documento, generaría una lista clasificada de documentos relevantes para citar y proporcionaría un razonamiento convincente sobre cómo cada documento sugerido respalda el texto correspondiente. Destacará las conexiones específicas entre el texto y la investigación citada, aclarando por qué cada fuente importa.

La pregunta es, ¿se puede confiar en los modelos de hoy para hacer estas conexiones y proporcionar un razonamiento claro que justifique sus elecciones de origen? La respuesta va más allá de la precisión de las citas para abordar cuán útiles y precisos son los modelos de lenguaje grande para cualquier propósito de recuperación de información.

Soy un informático. Mis colegas, investigadores del Instituto AI de la Universidad de Carolina del Sur, la Universidad Estatal de Ohio y el Condado de Baltimore del Condado de Baltimore, y he desarrollado las razones de referencia para probar qué tan bien modelos de idiomas pueden generar automáticamente citas de investigación y proporcionar un razonamiento comprensible.

Utilizamos el punto de referencia para comparar el rendimiento de dos modelos de razonamiento de IA populares, Deepseek’s R1 y OpenAI’s O1. Aunque Deepseek fue en los titulares con su impresionante eficiencia y rentabilidad, el advenedizo chino tiene un camino por recorrer para que coincida con el rendimiento de razonamiento de OpenAI.

Oración específica

La precisión de las citas tiene mucho que ver con si el modelo AI está razonando sobre la información a nivel de oración en lugar del párrafo o a nivel de documentos. Se puede considerar que las citas a nivel de párrafo y a nivel de documentos arrojan una gran parte de la información a un modelo de idioma grande y le piden que proporcione muchas citas.

En este proceso, el modelo de lenguaje grande se generaliza e incorporan las oraciones individuales. El usuario termina con citas que explican todo el párrafo o documento, no la información de grano relativamente fino en la oración.

Además, el razonamiento sufre cuando le pide al modelo de idioma grande que lea un documento completo. Estos modelos se basan principalmente en memorizar patrones que típicamente son mejores para encontrar al principio y al final de los textos más largos que en el medio. Esto les dificulta comprender completamente toda la información importante a lo largo de un documento largo.

Los modelos de idiomas grandes se confunden porque los párrafos y documentos tienen mucha información, lo que afecta la generación de citas y el proceso de razonamiento. En consecuencia, el razonamiento de los modelos de idiomas grandes sobre los párrafos y los documentos se vuelve más como resumir o parafrasear.

Las razones por las que Benchmark aborde esta debilidad al examinar la generación y el razonamiento de las citas de los modelos de idiomas grandes.

https://www.youtube.com/watch?v=kqzzymhre0u

Cómo Deepseek R1 y OpenAI O1 se comparan generalmente con los problemas lógicos.

Prueba de citas y razonamiento

Tras el lanzamiento de Deepseek R1 en enero de 2025, queríamos examinar su precisión en la generación de citas y su calidad de razonamiento y compararlo con el modelo O1 de OpenAI. Creamos un párrafo que tenía oraciones de diferentes fuentes, dio a los modelos oraciones individuales de este párrafo y pedimos citas y razonamiento.

Para comenzar nuestra prueba, desarrollamos un pequeño lecho de prueba de aproximadamente 4,100 artículos de investigación alrededor de cuatro temas clave que están relacionados con el cerebro humano y la informática: neuronas y cognición, interacción humana-computadora, bases de datos e inteligencia artificial. Evaluamos los modelos utilizando dos medidas: la puntuación F-1, que mide cuán precisa es la cita proporcionada, y la tasa de alucinación, que mide cuán sonido es el razonamiento del modelo, es decir, con qué frecuencia produce una respuesta inexacta o engañosa.

Nuestras pruebas revelaron diferencias de rendimiento significativas entre OpenAI O1 y Deepseek R1 en diferentes dominios científicos. El O1 de OpenAI conectó bien la información entre los diferentes sujetos, como comprender cómo la investigación sobre neuronas y cognición se conecta con la interacción humana y la computadora y luego con los conceptos en inteligencia artificial, sin dejar de ser precisa. Sus métricas de rendimiento superaron constantemente a Deepseek R1 en todas las categorías de evaluación, especialmente para reducir las alucinaciones y completar con éxito las tareas asignadas.

Operai O1 fue mejor para combinar ideas semánticamente, mientras que R1 se centró en asegurarse de que generara una respuesta para cada tarea de atribución, lo que a su vez aumentó la alucinación durante el razonamiento. Openai O1 tenía una tasa de alucinación de aproximadamente 35% en comparación con la tasa de Deepseek R1 de casi el 85% en la tarea de razonamiento basada en la atribución.

En términos de precisión y competencia lingüística, Openai O1 obtuvo alrededor de 0.65 en la prueba F-1, lo que significa que era correcto aproximadamente el 65% del tiempo al responder preguntas. También obtuvo alrededor de 0.70 en la prueba BLEU, que mide qué tan bien un modelo de lenguaje escribe en lenguaje natural. Estos son puntajes bastante buenos.

Deepseek R1 obtuvo un puntaje más bajo, con aproximadamente 0.35 en la prueba F-1, lo que significa que era correcto aproximadamente el 35% del tiempo. Sin embargo, su puntaje Bleu fue solo alrededor de 0.2, lo que significa que su escritura no era tan natural como la O1 de OpenAI. Esto muestra que O1 fue mejor al presentar esa información en un lenguaje claro y natural.

OpenAi tiene la ventaja

En otros puntos de referencia, Deepseek R1 se desempeña a la par con OpenAi O1 en tareas de matemáticas, codificación y razonamiento científico. Pero la diferencia sustancial en nuestro punto de referencia sugiere que O1 proporciona información más confiable, mientras que R1 lucha con la consistencia objetiva.

Aunque incluimos otros modelos en nuestras pruebas integrales, la brecha de rendimiento entre O1 y R1 resalta específicamente el panorama competitivo actual en el desarrollo de IA, con la oferta de OpenAI que mantiene una ventaja significativa en las capacidades de razonamiento e integración del conocimiento.

Estos resultados sugieren que OpenAi todavía tiene una ventaja cuando se trata de atribución y razonamiento de origen, posiblemente debido a la naturaleza y el volumen de los datos en los que fue entrenado. La compañía anunció recientemente su herramienta de investigación profunda, que puede crear informes con citas, hacer preguntas de seguimiento y proporcionar razonamiento para la respuesta generada.

El jurado todavía está en el valor de la herramienta para los investigadores, pero la advertencia permanece para todos: verifique todas las citas que le brinda una IA.

Continue Reading

Trending