Connect with us

Noticias

Popular AIS cara a cabeza: OpenAi vence a Deepseek en el razonamiento a nivel de oración

Published

on

Escrito por Manas Gaur, profesor asistente en Informática e Ingeniería Eléctrica, UMBC

Chatgpt y otros chatbots de IA basados ​​en modelos de idiomas grandes se sabe que ocasionalmente inventa cosas, incluidas las citas científicas y legales. Resulta que medir cuán precisas son las citas de un modelo AI es una buena manera de evaluar las habilidades de razonamiento del modelo.

Un modelo de IA “razones” descomponiendo una consulta en pasos y trabajando a través de ellos en orden. Piense en cómo aprendió a resolver problemas de palabras matemáticas en la escuela.

Idealmente, para generar citas, un modelo de IA comprendería los conceptos clave en un documento, generaría una lista clasificada de documentos relevantes para citar y proporcionaría un razonamiento convincente sobre cómo cada documento sugerido respalda el texto correspondiente. Destacará las conexiones específicas entre el texto y la investigación citada, aclarando por qué cada fuente importa.

La pregunta es, ¿se puede confiar en los modelos de hoy para hacer estas conexiones y proporcionar un razonamiento claro que justifique sus elecciones de origen? La respuesta va más allá de la precisión de las citas para abordar cuán útiles y precisos son los modelos de lenguaje grande para cualquier propósito de recuperación de información.

Soy un informático. Mis colegas, investigadores del Instituto AI de la Universidad de Carolina del Sur, la Universidad Estatal de Ohio y el Condado de Baltimore del Condado de Baltimore, y he desarrollado las razones de referencia para probar qué tan bien modelos de idiomas pueden generar automáticamente citas de investigación y proporcionar un razonamiento comprensible.

Utilizamos el punto de referencia para comparar el rendimiento de dos modelos de razonamiento de IA populares, Deepseek’s R1 y OpenAI’s O1. Aunque Deepseek fue en los titulares con su impresionante eficiencia y rentabilidad, el advenedizo chino tiene un camino por recorrer para que coincida con el rendimiento de razonamiento de OpenAI.

Oración específica

La precisión de las citas tiene mucho que ver con si el modelo AI está razonando sobre la información a nivel de oración en lugar del párrafo o a nivel de documentos. Se puede considerar que las citas a nivel de párrafo y a nivel de documentos arrojan una gran parte de la información a un modelo de idioma grande y le piden que proporcione muchas citas.

En este proceso, el modelo de lenguaje grande se generaliza e incorporan las oraciones individuales. El usuario termina con citas que explican todo el párrafo o documento, no la información de grano relativamente fino en la oración.

Además, el razonamiento sufre cuando le pide al modelo de idioma grande que lea un documento completo. Estos modelos se basan principalmente en memorizar patrones que típicamente son mejores para encontrar al principio y al final de los textos más largos que en el medio. Esto les dificulta comprender completamente toda la información importante a lo largo de un documento largo.

Los modelos de idiomas grandes se confunden porque los párrafos y documentos tienen mucha información, lo que afecta la generación de citas y el proceso de razonamiento. En consecuencia, el razonamiento de los modelos de idiomas grandes sobre los párrafos y los documentos se vuelve más como resumir o parafrasear.

Las razones por las que Benchmark aborde esta debilidad al examinar la generación y el razonamiento de las citas de los modelos de idiomas grandes.

Cómo Deepseek R1 y OpenAI O1 se comparan generalmente con los problemas lógicos.

Prueba de citas y razonamiento

Tras el lanzamiento de Deepseek R1 en enero de 2025, queríamos examinar su precisión en la generación de citas y su calidad de razonamiento y compararlo con el modelo O1 de OpenAI. Creamos un párrafo que tenía oraciones de diferentes fuentes, dio a los modelos oraciones individuales de este párrafo y pedimos citas y razonamiento.

Para comenzar nuestra prueba, desarrollamos un pequeño lecho de prueba de aproximadamente 4,100 artículos de investigación alrededor de cuatro temas clave que están relacionados con el cerebro humano y la informática: neuronas y cognición, interacción humana-computadora, bases de datos e inteligencia artificial. Evaluamos los modelos utilizando dos medidas: la puntuación F-1, que mide cuán precisa es la cita proporcionada, y la tasa de alucinación, que mide cuán sonido es el razonamiento del modelo, es decir, con qué frecuencia produce una respuesta inexacta o engañosa.

Nuestras pruebas revelaron diferencias de rendimiento significativas entre OpenAI O1 y Deepseek R1 en diferentes dominios científicos. El O1 de OpenAI conectó bien la información entre los diferentes sujetos, como comprender cómo la investigación sobre neuronas y cognición se conecta con la interacción humana y la computadora y luego con los conceptos en inteligencia artificial, sin dejar de ser precisa. Sus métricas de rendimiento superaron constantemente a Deepseek R1 en todas las categorías de evaluación, especialmente para reducir las alucinaciones y completar con éxito las tareas asignadas.

Operai O1 fue mejor para combinar ideas semánticamente, mientras que R1 se centró en asegurarse de que generara una respuesta para cada tarea de atribución, lo que a su vez aumentó la alucinación durante el razonamiento. Openai O1 tenía una tasa de alucinación de aproximadamente 35% en comparación con la tasa de Deepseek R1 de casi el 85% en la tarea de razonamiento basada en la atribución.

En términos de precisión y competencia lingüística, Openai O1 obtuvo alrededor de 0.65 en la prueba F-1, lo que significa que era correcto aproximadamente el 65% del tiempo al responder preguntas. También obtuvo alrededor de 0.70 en la prueba BLEU, que mide qué tan bien un modelo de lenguaje escribe en lenguaje natural. Estos son puntajes bastante buenos.

Deepseek R1 obtuvo un puntaje más bajo, con aproximadamente 0.35 en la prueba F-1, lo que significa que era correcto aproximadamente el 35% del tiempo. Sin embargo, su puntaje Bleu fue solo alrededor de 0.2, lo que significa que su escritura no era tan natural como la O1 de OpenAI. Esto muestra que O1 fue mejor al presentar esa información en un lenguaje claro y natural.

OpenAi tiene la ventaja

En otros puntos de referencia, Deepseek R1 se desempeña a la par con OpenAi O1 en tareas de matemáticas, codificación y razonamiento científico. Pero la diferencia sustancial en nuestro punto de referencia sugiere que O1 proporciona información más confiable, mientras que R1 lucha con la consistencia objetiva.

Aunque incluimos otros modelos en nuestras pruebas integrales, la brecha de rendimiento entre O1 y R1 resalta específicamente el panorama competitivo actual en el desarrollo de IA, con la oferta de OpenAI que mantiene una ventaja significativa en las capacidades de razonamiento e integración del conocimiento.

Estos resultados sugieren que OpenAi todavía tiene una ventaja cuando se trata de atribución y razonamiento de origen, posiblemente debido a la naturaleza y el volumen de los datos en los que fue entrenado. La compañía anunció recientemente su herramienta de investigación profunda, que puede crear informes con citas, hacer preguntas de seguimiento y proporcionar razonamiento para la respuesta generada.

El jurado todavía está en el valor de la herramienta para los investigadores, pero la advertencia permanece para todos: verifique todas las citas que le brinda una IA.


Este artículo se vuelve a publicar de la conversación bajo una licencia Creative Commons. Lea el artículo original y vea más de 250 artículos UMBC disponibles en la conversación.

Etiquetas: coeit, investigación, la conversación

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

Las campanas de alarma suenan en nosotros sobre el mundo del proyecto criptoi de OpenAi

Published

on

World Network, el proyecto de identidad digital y cripto de OpenAI de Sam Altman, ha alarmado a los activistas de la privacidad antes de su lanzamiento de los Estados Unidos, con observadores preocupados por sus prácticas de recopilación y protección de datos.

El mundo “es lo contrario de la privacidad. Es una trampa”, dijo Nick Almond, CEO de Factorydao, en X., Si bien el proyecto afirma proteger la privacidad del usuario en la edad de proliferación de IA, se enfrenta a una serie de preocupaciones regulatorias en todo el mundo.

Anteriormente conocido como “WorldCoin”, la tecnología de escane de Iris y su esquema de pago de tokens criptográficos están siendo investigados por las autoridades en India, Corea del Sur, Italia, Colombia, Argentina, Portugal, Kenia e Indonesia. En España, Hong Kong y Brasil, está directamente prohibido.

La última incursión del mundo en los EE. UU. Podría ser el mayor desafío del CEO Sam Altman hasta el momento, donde las preocupaciones de privacidad aumentan por un mosaico de aplicación que difiere del estado por estado.

Las diferentes leyes de privacidad podrían dejar a los usuarios mundiales abiertos a la discriminación

El 30 de abril, Altman anunció que World se establecería en “Hubs de innovación clave” en cinco estados de los Estados Unidos: Atlanta, Austin, Los Ángeles, Miami, Nashville y San Francisco. Los aspirantes a humanos verificados pueden escanear sus iris en estos centros, dando a los marcadores biomédicos únicos del mundo.

Estos marcadores, por mundo, se pueden usar para demostrar la humanidad de uno al interactuar con otros en plataformas digitales.

Pero a medida que World se expande en los Estados Unidos, un paisaje regulatorio incierto podría desanimar a las personas y dificultar que la plataforma genere confianza de los usuarios.

Andrew Rossow, un abogado cibernético y de asuntos públicos de Rossow Law, dijo a CointeleGraph: “No existe una ley federal integral que regule específicamente los datos biométricos (como los escaneos de iris) en los Estados Unidos”.

De hecho, las leyes difieren estado por estado. Dos estados en los que operará el mundo, Texas y California, tienen alguna forma de protecciones legales en los libros para datos biométricos. Los usuarios de los tres estados restantes, Georgia, Tennessee y Florida, deben confiar en la ley federal, lo que requiere que “las empresas sean transparentes y justas, pero no hay reglas estatales especiales para los escaneos de iris”.

Pero incluso la existencia de la ley estatal no es garantía de protección. En Texas, no existe un derecho de acción privado para los datos biométricos, solo el Fiscal General del Estado (AG) puede hacer cumplir la captura o el uso de la ley de identificadores biométricos del estado.

https://www.youtube.com/watch?v=1x8tachbyjg

Altman anunció la incursión del mundo en el mercado estadounidense en un evento de la compañía hace dos semanas. Fuente: Mundo

“La efectividad de las protecciones de datos del usuario, en lo que respecta al mundo, depende casi por completo de las prioridades, los recursos y la voluntad de Texas AG para actuar”, dijo Rossow.

Una AG más agresiva podría significar protecciones más sólidas, mientras que “una administración menos agresiva podría depilar la aplicación, lo que deja a los consumidores abiertos y vulnerables a la explotación”.

El potencial de explotación es uno de los factores clave que impulsan los esfuerzos activistas contra sistemas como el mundo.

Privacy International, un grupo de protección de la privacidad que apoyó acciones legales en Kenia contra el mundo, afirma que en “la ausencia de marcos legales fuertes y salvaguardas estrictas, las tecnologías biométricas representan amenazas graves para la privacidad y la seguridad personal, a medida que su aplicación puede ampliarse para facilitar la discriminación, el perfil y la vigilancia masiva”.

Relacionado: Más de 70 empresas criptográficas unen fuerzas para abordar el monopolio de IA de Big Tech

Ya en 2021, Amnistía Internacional había planteado preocupaciones sobre la discriminación y las aplicaciones de los sistemas biométricos de metodologías dudosas. Dichos, dijeron, pueden “hacer inferencias y predicciones sobre cosas como el género de las personas, las emociones u otros atributos personales, sufren fallas serias y fundamentales en sus fundamentos científicos”.

“Esto significa que las inferencias que hacen sobre nosotros a menudo son inválidas, en algunos casos incluso operacionalizando las teorías eugenicistas de la frenología y la fisonomía”.

No todos están convencidos de las preocupaciones de los guardianes de privacidad. Tomasz Stańczak, director ejecutivo de la Fundación Ethereum, dijo que ha pasado “más de 100 horas” analizando World, que se está basando en la red Ethereum. Agregó que “parecía muy prometedor y mucho más robusto y centrado en la privacidad que mi intuición inicial”.

Paul Dylan-Ennis, un investigador y académico de Ethereum, dijo que cree que la tecnología del mundo “probablemente es fuerte en términos de privacidad”, pero admitió que la estética podría estar desanimando a las personas: “solo un espejo negro intangible para todo”.

WorldCoin Faces Monting Bans en todo el mundo

Operai puede estar duplicando una estrategia estadounidense, pero otras jurisdicciones en todo el mundo están investigando cada vez más, limitando o prohibiendo directamente las actividades de la empresa.

En 2023, los reguladores en India, Corea del Sur, Kenia, Alemania y Brasil comenzaron a investigar las prácticas de recopilación de datos de la empresa. España se convirtió en el primer país en prohibir la recopilación mundial de datos en marzo de 2024.

Relacionado: El espía norcoreano se desliza, revela lazos en la entrevista de trabajo falsa

La Agencia de Protección de Datos española dijo anteriormente a CointeleGraph que su curso de acción se basó en informes de ciudadanos españoles. Afirmó que los operadores de ORB proporcionaron “información insuficiente, datos recopilados de menores e incluso no permitieron el retiro del consentimiento”.

Después de la prohibición, World publicó una publicación de blog que indica que opera “legalmente en todos los lugares en los que está disponible”.

https://www.youtube.com/watch?v=RPU0SOARTV0

World ha hecho recientemente que sus orbes de escaneo de iris sean más compactos y transportables. Fuente: Mundo

Los reguladores globales no estuvieron de acuerdo. Hong Kong siguió a España en mayo de 2024 y ordenó a World que dejara de operar, ya que supuestamente violaba la ordenanza de privacidad de datos personales de la ciudad-estado.

Siguieron otras acusaciones de prácticas de recopilación de datos inadecuadas, y varios países como Alemania y, más recientemente, Kenia, han ordenado al mundo que elimine los datos de miles de usuarios, mientras que Colombia y Argentina han emitido fuertes multas.

En enero de 2025, la Autoridad Nacional de Protección de Datos de Brasil prohibió el mundo directamente, citando preocupación por la naturaleza irreversible de la recopilación de datos y el potencial para que el mundo influya en personas con desventajas económicas con la promesa de criptografía para sus datos.

Oportunidades en Japón y Estados Unidos

A pesar de las protestas en varios países, el sistema de identificación está haciendo incursiones. En Japón, el mundo ahora forma parte de las citas en línea.

Spencer Rascoff, CEO de Match Group, que incluye la aplicación de citas Tinder en su cartera, anunció el 1 de mayo que Tinder probaría el sistema de identificación mundial en Tinder en Japón, “dar a los usuarios una forma de privacidad de demostrar que son verdaderos humanos”.

Los usuarios de Tinder en Japón pueden deslizar bien con los usuarios verificados de ID. Fuente: Mundo

La integración en Japón aún no ha despegado, pero como Tinder es la aplicación de citas más popular en Japón, proporciona un caso de uso importante para la plataforma de identidad mundial. Solo en 2024, tenía unos 1.38 millones de descargas.

Si World pudiera obtener una asociación de Tinder en los Estados Unidos, adquiriría 7.8 millones de miembros activos mensuales durante la noche. Si se expandió a servicios similares como Bumble o Bishing, las próximas dos aplicaciones de citas más populares en el país, el mundo habrá capturado el 67% del mercado de citas en línea de los Estados Unidos, que comprenden las identidades personales y únicas de decenas de millones de usuarios.

Pero los derechos de privacidad en los Estados Unidos están lejos de establecerse. En Texas, uno de los estados donde el mundo planea operar, Google recientemente se estableció por una suma de $ 1.4 mil millones. La Compañía pagó la suma llamativa al estado de Texas después de establecer dos demandas alegando la empresa de seguimiento de datos de búsqueda y ubicación de los usuarios, así como recopilar información de reconocimiento facial.

En otros lugares, en Illinois y Nueva York, las empresas de biometría enfrentan procedimientos judiciales, mientras que los legisladores toman medidas para reducir la recopilación de datos biométricos.

Revista: Chatgpt un ‘misil de búsqueda de esquizofrenia’, AI Científicos Preparación para el 50% de muertes: AI Eye