Connect with us

Noticias

Cómo convertir el chatgpt en su herramienta de alimentación de codificación de IA y duplicar su salida

Published

on

Dem10/Getty Images

He estado experimentando con el uso de chatgpt para ayudar a turbocarga mi salida de programación durante más de dos años. Cuando ChatGPT me ayudó a encontrar un error preocupante, me di cuenta de que había algo que valía la pena en la inteligencia artificial (IA).

Muchas personas con las que hablo piensan que la IA es un genio mágico que puede manifestar un programa o aplicación completo de un solo deseo apenas formado. Aquí hay una analogía mucho mejor: la IA es una herramienta eléctrica.

También: la mejor IA para codificar en 2025 (y qué no usar, incluido Deepseek R1)

Claro, puede usar una sierra anticuada para cortar madera, pero una sierra de mesa va mucho más rápido. Ninguna herramienta fabrica muebles. Ellos simplemente ayudarte a hacer muebles. Tenga en cuenta que la IA no va a escribir su código por usted. Le ayudará a escribir su código.

Aunque no hay una forma objetiva para decirle exactamente cuánto ChatGPT me ha ayudado, estoy bastante convencido de que ha duplicado mi salida de programación. En otras palabras, he hecho el doble usando chatgpt como parte de mi kit de herramientas.

También: cómo pruebo la capacidad de codificación de un chatbot de ai, y tú también puedes

Principalmente he estado usando CHATGPT más en lugar de la versión gratuita de ChatGPT. Inicialmente, fue porque el modelo GPT-4 en Plus fue mejor en la codificación que el modelo GPT-3.5 en la versión gratuita. Sin embargo, ahora que ambas versiones admiten alguna variante del modelo GPT-4O, sus capacidades de codificación son idénticas. Recuerde que solo obtiene tantas consultas con la versión gratuita antes de que se le pida que espere un tiempo, y encuentro que interrumpe mi flujo de programación. Entonces, uso la versión de $ 20/mes más.

Debo tener en cuenta que he probado muchos modelos de idiomas grandes (LLM) contra mi codificación del mundo real y descubrí que solo unos pocos (y todos basados ​​en los LLM de ChatGPT) podrían manejar todo lo que he arrojado. Entonces, aunque hay muchas herramientas geniales de IA para programadores que están disponibles (algunos incluso de forma gratuita), no serán tan útiles a menos que el código que la IA produce realmente funcione. La buena noticia es que inevitablemente mejorará la codificación con el tiempo, por lo que esto debería dejar de ser un gran problema.

También: los cinco errores más grandes que cometen las personas al solicitar una IA

Pensando en todos mis proyectos, me di cuenta de que hay algunos consejos tangibles que puedo compartir sobre cómo aprovechar al máximo un socio de programación de IA. Cavemos.

1. Dale a la IA muchos trabajos pequeños

La IA no maneja bien los conjuntos complejos de instrucciones, especialmente si espera que haga el diseño de productos. Sin embargo, la IA es extremadamente buena para analizar y procesar instrucciones pequeñas y bien definidas.

2. Piense en el bot como alguien al final de una conversación floja

En lugar del ritmo que podría provenir de un correo electrónico de ida y vuelta con un colega, que podría tener cada interacción separada por horas, imagine que está en una charla floja donde cada interacción es mucho más pequeña, pero separada por segundos.

3. Para rutinas más complejas, indique iterativamente

Comience con una tarea simple y, cuando se haya escrito correctamente, agregue más, elemento por elemento. Corto y pego el aviso anterior, agregando y eliminando bits de la solicitud, ya que obtengo trozos de código que funcionan para lo que estoy buscando.

4. Pruebe cada pequeña porción de código que la IA devuelve

Nunca asuma que el código funcionará. Parche el código en su proyecto y vea cómo funciona.

5. Use el depurador

Para una prueba más profunda, no dude en caer en el depurador y caminar por el código generado por la IA paso a paso. Mire las variables y exactamente lo que hace la IA. Recuerde, está bien dejar que escriba fragmentos de código para usted siempre que verifique cada declaración y línea para el funcionamiento adecuado.

6. No necesita una asistencia de codificación Al incorporada directamente en su IDE

Muchos proveedores de herramientas de codificación están lanzando la idea de AIS integrados en sus herramientas. Entre otras cosas, este enfoque les permite mejorar las características de la IA. Sin embargo, prefiero usar ChatGPT para codificar como una herramienta separada de mi entorno de desarrollo. No quiero que una IA pueda llegar a mi entorno de codificación primario y cambiar lo que hay allí.

7. Siéntase libre de canibalizar líneas de código de las rutinas generadas

No siempre tienes que usar todo lo que la IA produce para ti. De la misma manera que puede ir a Stack Overflow para buscar muestras de código, y luego elegir las líneas que desea copiar, puede hacer lo mismo con el código generado por AI.

8. Evite pedirle a la IA que realice codificación propietaria o use el conocimiento institucional que no tiene

AI LLMS se ejecutan en datos de capacitación o lo que pueden encontrar en la web. Eso significa que generalmente no saben nada sobre su aplicación única o lógica comercial. Entonces, evite tratar de hacer que la IA escriba cualquier cosa que requiera este nivel de conocimiento. Ese es tu trabajo.

9. Dé los ejemplos de IA para trabajar para que comprenda el contexto de su código

Le di a Chatgpt un fragmento de una página HTML y le pedí que agregara una función para expandir un bloque de texto. La IA me devolvió HTML, JS y CSS. Más tarde le pedí un selector CSS adicional y luego le pedí que justifique su trabajo, por lo que me explicó por qué hizo lo que hizo. Todo ese proceso funcionó porque los ejemplos que le di la IA lo ayudaron a comprender el contexto.

10. Use la IA para la codificación de conocimiento común

El mayor beneficio de la IA es escribir bloques de código que usan conocimiento común, bibliotecas populares y prácticas regulares. La IA no podrá escribir su lógica comercial única. Pero si le pide a la IA que escriba el código para las capacidades de las bibliotecas y las API, le ahorrará mucho tiempo.

11. No dude en pedir fragmentos de una o dos líneas

Incluso si necesita algo que solo pueda generar una o dos líneas de una respuesta, use la IA, ya que usará cualquier herramienta de investigación si puede ahorrarle tiempo.

12. Dígale a la IA cuando el código que escribió no funciona

Encuentro que AI a menudo escupe un código incompleto o no funcional. Dígale lo que no funciona y quizás sugiera aclarar. Luego pídale a la IA que escriba algo nuevo. Por lo general, lo hace y el código revisado a veces es mejor que el original.

13. Use una AL para verificar el trabajo de otro AL

Es interesante ver cómo dos modelos de lenguaje interpretan el mismo código. Como hemos visto, no todos los modelos de idiomas funcionan tan bien, pero sus resultados pueden ser instructivos. Incluso puede hacer que una sesión de chatgpt verifique los resultados de otra sesión de chatgpt.

14. Use la IA para escribir selectores CSS

Los selectores CSS son los codificadores de expresiones que usan para definir un elemento en una página web para el estilo u otras acciones. Se vuelven complejos y arcanos rápidamente. A menudo copio un bloque de HTML y pido un selector para una pieza determinada de ese HTML. Este enfoque puede ahorrar mucho tiempo. Sin embargo, recuerde que generalmente tendrá que iterar, diciéndole a la IA que los primeros selectores no funcionan hasta que genera uno que lo haga.

15. Use la IA para escribir expresiones regulares para usted

Las expresiones regulares son secuencias de matemáticas simbólicas que se usan con mayor frecuencia para el texto de análisis. No me gusta escribirlos casi tanto como no me gusta escribir selectores CSS. La IA es excelente para escribir expresiones regulares, aunque necesitará probarlas.

16. Use la IA para probar expresiones regulares

Utilizo los patrones de aplicaciones para probar expresiones regulares generadas en mi Mac Studio. Pero la IA también puede ayudar. A menudo alimento una instancia separada de la IA, una expresión regular generada por ChatGPT. Entonces le pido esa instancia separada: “¿Qué hace esto?” Si recupero una descripción en línea con lo que quería que hiciera la función, siento más seguro de que la IA hizo lo que quería.

17. Deje que la IA haga matemáticas complejas de bucle

Al igual que con los selectores CSS y las expresiones regulares, las matemáticas de bucle complejas pueden ser tediosas y propensas a errores. Esta es una aplicación ideal para una IA. Al especificar su aviso, no le digas a la IA qué está en el bucle. Deje que escriba los elementos de envoltorio de bucle apropiados, luego escriba la lógica de negocios después de que funcione ese proceso.

18. Use ‘¿Qué pasa con este código?’ como un aviso

A menudo alimentaré bloques de código, especialmente expresiones regulares generadas por la IA, a la IA. Puede ser muy instructivo ver lo que la IA cree que está mal con el código, a menudo destacando las condiciones de error que el código no prueba. Luego, por supuesto, pídale a la IA que regenere el código que corre los errores que encontró.

19. Use ‘¿Qué hace esto?’ como un aviso

Del mismo modo, me gusta alimentar bloques de código a la IA y preguntarle: “¿Qué hace esto?” A menudo es instructivo, incluso para mi propio código. Pero el mayor beneficio se produce cuando se trabaja en el código escrito por otra persona. Alimentar una función o un bloque a la IA puede ahorrar tiempo en la ingeniería inversa del código original.

20. Sepa cuándo renunciar a la IA

A veces, la IA no puede hacer el trabajo. Descubrí que si intentas que la IA reescribe su código más de dos o tres veces, ya pasas el punto de no retorno. Si desea un código generado por IA, comience con un nuevo y nuevo mensaje y vea lo que obtiene desde allí. Y a veces, tendrás que ir solo.

21. Sea específico en su función y nombres de variables

La IA recoge la intención de los nombres variables y de funciones y escribe mejor código. Por ejemplo, especificar un nombre de variable como $ Order_Date ayuda a decirle a la IA que está tratando con un pedido y un valor de fecha. Es mucho mejor que algo como $ OD. Aún mejor, el código generado a partir de nombres de variables bien nombradas también es a menudo más legible, porque la IA sabe usar nombres más descriptivos para las otras variables que crea.

22. Lea las notas de pre y posts.

La IA generalmente genera notas sobre cada mensaje antes y después del código que escribe. Puede haber gemas que pueden ayudarlo a comprender lo que hizo la IA o cómo abordó el problema. A veces, la IA también lo señalará a otras bibliotecas o funciones que podrían ser útiles.

23. Está bien volver y pedir más ayuda en un fragmento de código

Tome las diversas piezas de código de su proyecto para ilustrar lo que necesita, dígale a ChatGPT que las lea y luego pregunte qué quiere. Necesitaba construir una exclusión para los campos de entrada en un área ampliada y pregunté a la IA. Menos de un minuto después, tenía un código que me habría llevado entre 10 minutos y una hora para escribirme.

24. Use el AL para ayudarlo a reescribir bloques de código obsoletos

Tenía un módulo PHP escrito en una versión anterior de PHP que usaba una función de idioma que ahora está en desuso. Para actualizar el código, pegé el segmento de código desaprobado en ChatGPT y le pedí que me dijera cómo reescribirlo para que sea compatible con la mayoría de la versión actual de PHP. Lo hizo, y funcionó.

25. Use AI para ayudarlo a escribir para idiomas menos familiares

Me siento muy cómodo recogiendo nuevos lenguajes de programación, pero he descubierto que la IA puede ser útil si necesito codificar en un lenguaje en el que no soy un experto. Le pregunto a la IA cómo escribir lo que quiero y especificar el idioma. Digamos que quiero saber cómo hacer una declaración de caso en Python y los he estado haciendo para siempre en PHP. Solo pregunte: “Compare escribir una declaración de caso en PHP y Python”, o “Cómo concatenar una cadena en Python vs PHP”. Obtendrá una excelente comparación y el proceso hace que escribir un código desconocido sea mucho más fácil.

Además: era un escéptico de IA hasta que estas 5 herramientas cambiaron de opinión

Aquí hay un consejo de bonificación. Consulte con su empresa sobre los problemas legales del código generado. Si no está seguro de por dónde comenzar, lea mi artículo sobre IA y propiedad del código. Si usa los consejos que compartí con usted, nunca usará AI para escribir una lógica comercial única o el núcleo de lo que hace que su código sea único. Como tal, es probable que pueda retener los derechos de autor de ese código, lo que debería compensar el elemento clave de su valor único.

Escribo código para uso interno por parte de una empresa o código de código abierto, por lo que no me preocupa los problemas de propiedad de los fragmentos generados por IA.

¿Ha utilizado una IA para ayudar a escribir código? ¿Tiene algún consejo para agregar a mi lista anterior? Háganos saber en los comentarios a continuación.


Puede seguir mis actualizaciones de proyecto diarias en las redes sociales. Asegúrese de suscribirse a mi boletín de actualizaciones semanales y sígueme en Twitter/X en @Davidgewirtzen Facebook en Facebook.com/davidgewirtz, en Instagram en Instagram.com/davidgewirtz, y en YouTube en youtube.com/davidgewirtztv.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

La investigación profunda de Openai tiene más resistencia de investigación que tú, pero todavía está mal la mitad del tiempo

Published

on

Opadai

Lo último en inteligencia artificial generativa incluye agentes de IA que pueden acceder a la web para encontrar respuestas a las preguntas. Si bien es prometedora, la tecnología de agente es en gran medida un trabajo en progreso.

En un artículo publicado la semana pasada, los investigadores de Operai relatan cómo la tecnología de investigación profunda de la compañía, que se construyó para usar la web, funciona mucho mejor que los otros modelos de Openai al responder preguntas web. También lo hace mucho mejor que los humanos en tareas que requieren horas de búsqueda.

También: ¿Qué son los agentes de IA? Cómo acceder a un equipo de asistentes personalizados

Pero la investigación profunda todavía tropieza casi la mitad del tiempo.

La nueva prueba de OpenAI sugiere que la investigación profunda puede ser más tenaz y obstinada en la búsqueda de una respuesta que los investigadores humanos para algunas tareas, pero aún no se le ocurre una respuesta a menudo.

Llamada Browsecomp, la prueba es descrita por los autores Jason Wei y el equipo como “un punto de referencia simple pero desafiante para medir la capacidad de los agentes para navegar por la web”.

La premisa es que los agentes de IA, lo que significa, modelos de IA que pueden navegar por “miles de páginas web”, podrían ser mucho más ingeniosos que los humanos, que tienen memoria limitada, se fatigan navegando por la red y “solo pueden atender una cosa a la vez y no pueden ser paralelizadas,” significa que no pueden dirigir sus cerebros a operar en datos en transmisiones paralelos de pensamiento.

“La inteligencia de máquinas, por otro lado, tiene un retiro mucho más extenso y puede operar incansablemente sin distraerse”, escribe Wei y equipo.

También: La investigación profunda de Openai puede ahorrarle horas de trabajo, y ahora es mucho más barato acceder

Wei y el equipo se basaron en su trabajo anterior del año pasado, “Simpleq & A”, que prueba la capacidad de los modelos de IA para responder “preguntas cortas y de búsqueda de hechos”. Las preguntas cubrieron trivia de televisión y película, ciencia, historia, música, videojuegos, política y otros temas.

El conjunto de browsecomp de 1.266 preguntas está diseñado para ir más allá de la recuperación de información simple, relacionan los autores. En cambio, son preguntas para las cuales es difícil encontrar las respuestas, o, como lo expresan, “desafiantes porque requieren buscar a través de un gran espacio de posibles respuestas y igualarlas con limitaciones planteadas en la pregunta” e “información difícil de encontrar y profundamente entrelazada en la web”.

Por ejemplo, un par de preguntas y respuestas es el siguiente:

Identifique el título de una publicación de investigación publicada antes de junio de 2023, que menciona tradiciones culturales, procesos científicos e innovaciones culinarias. Es coautor de tres individuos: uno de ellos fue profesor asistente en Bengala Occidental y otro tiene un Ph.D.
(Respuesta: Los fundamentos de la fabricación de pan: la ciencia del pan)

Hacen hincapié en que tal pregunta es fácil de verificar porque la respuesta está contenida en una sola frase que es “autónoma”.

OpenAI-2025-Browsecomp-Sample-Question-Response pares

Opadai

Las preguntas y respuestas fueron desarrolladas por “entrenadores” humanos, y fueron seleccionados como imposibles de resolver con solo el chatgpt de Openai, con o sin habilidades de navegación. Las preguntas también eran imposibles para una “versión temprana” de una investigación profunda.

Demostrando cuán débiles son los humanos para buscar en la web, primero probaron a los humanos que estaban “familiarizados con el conjunto de datos” para responder las preguntas.

OpenAI-2025-Humans-Give-Up más de las preguntas

Opadai

Los resultados no fueron buenos para los humanos. Para el 70% de las preguntas, los humanos se rindieron después de dos horas de esfuerzo. Solo respondieron alrededor del 30% de las preguntas, y por el 14% de sus respuestas propuestas, las sugerencias de los humanos no coincidir con la respuesta real.

Wei y el equipo plantean la hipótesis de que los humanos con mayores habilidades de búsqueda podrían hacerlo mejor: “Es posible que muchos de los problemas que renunciaran sean solucionables por profesionales experimentados (por ejemplo, detectives o periodistas de investigación) con tiempo suficiente”.

OPERAI-2025-BROWSECOMP-ACCRACIÓN Y CALIBRACIÓN

Opadai

Después de los humanos, probaron una investigación profunda contra el GPT-4O de Openai (con y sin habilidades de navegación), GPT-4.5 y el modelo O1.

Los resultados fueron abismales. “GPT-4O y GPT-4.5 alcanzaron la precisión cercana a cero, destacando la dificultad del punto de referencia”, escriben. “Sin un razonamiento sólido o un uso de herramientas, los modelos no pueden recuperar los tipos de objetivos oscuros y múltiples hechos de navegación”.

O1 le fue mejor, lo cual “[suggests] que algunas respuestas de Browsecomps pueden aparecer a través de la inferencia sobre el conocimiento interno “.

También: AI desata estafas más avanzadas. Esto es lo que debe tener en cuenta (y cómo mantenerse protegido)

Con un puntaje del 51.5%, la investigación profunda fue “significativamente mejor” y “es particularmente efectivo para responder a las preguntas nicho y no intuitivas que requieren navegar por numerosos sitios web”, escriben Wei y Team.

Sin embargo, también encontraron que GPT-4O que usa navegación e investigación profunda podría errar al estar “demasiado confiado” sobre las respuestas incorrectas, que se conoce como un error de calibración.

“Los modelos con capacidades de navegación como GPT-4O con navegación e investigación profunda exhiben un error de calibración más alto”, escriben, “, lo que sugiere que el acceso a las herramientas web puede aumentar la confianza del modelo en respuestas incorrectas. Esto se alinea con las observaciones de que la investigación profunda lucha con la calibración de confianza y, a menudo, no puede transmitir la incertidumbre con precisión en el presente”.

Para corregir el error de calibración, hicieron otra prueba con una investigación profunda, en la que el modelo tuvo que generar hasta 64 respuestas a cada pregunta. Luego, hicieron que el modelo eligiera lo mejor de ellos. Cuando lo hizo, la investigación profunda fue bastante buena para elegir la respuesta correcta entre todas las propuestas.

OpenAI-2025-mejor de-n-scaling-accions

Opadai

Eso, escriba Wei y Team, sugiere que “el modelo con frecuencia ‘sabe’ cuando es correcto, incluso si lucha por expresar esa certeza como una probabilidad calibrada”.

También: El último chip de Google se trata de reducir un gran costo oculto en AI

También señalan que el éxito de la investigación profunda mejora con más computación agregada cuando busca la web. Dicho de otra manera, “el rendimiento escala suavemente en función de la cantidad de cómputo de tiempo de prueba utilizado”. Eso se cuadraba con una tendencia creciente de lanzar más chips de GPU a la tarea de inferencia.

escala de accesorios de accesorios operai-2025-Browsecomp

Opadai

Wei y el equipo no ofrecen directamente ninguna hipótesis sobre por qué la investigación profunda falla casi la mitad del tiempo, pero la respuesta implícita está en la escala de su capacidad con más cálculo. A medida que ejecutan tareas más paralelas y solicitan al modelo que evalúe múltiples respuestas, la precisión escala más allá del 75% de las preguntas respondidas.

La implicación es que es esencial elegir estrategias que obligen al modelo a evaluar sus propios esfuerzos en lugar de simplemente perseguir una sola respuesta. Sin esa etapa de evaluación, el modelo lucha una buena parte del tiempo.

Además: con los modelos de IA que se golpean cada punto de referencia, es hora de la evaluación humana

Un gran agujero en Browsecomps, reconocen los autores, es que se limita a preguntas que son fáciles de analizar para la computadora y cuyas respuestas son fáciles de verificar. Ninguna de las 1.266 preguntas incluyó “respuestas largas o capacidad para resolver la ambigüedad en las consultas de los usuarios”.

Como resultado, el browsecompl, argumentan, prueba las funciones “centrales” de los agentes de IA, pero no es integral. “El modelo debe ser muy competente para localizar piezas de información difíciles de encontrar, pero no está garantizado que esto se generalice a todas las tareas que requieren navegación”.

La investigación profunda está disponible para los usuarios de las suscripciones PLUS y Pro Operai.

¿Quieres más historias sobre AI? Regístrese para la innovaciónnuestro boletín semanal.

Continue Reading

Noticias

Informe de chatgpt para marketing

Published

on

Continue Reading

Noticias

Operai supera a Deepseek en el razonamiento a nivel de oración

Published

on

Chatgpt y otros chatbots de IA basados ​​en modelos de idiomas grandes se sabe que ocasionalmente inventa cosas, incluidas las citas científicas y legales. Resulta que medir cuán precisas son las citas de un modelo AI es una buena manera de evaluar las habilidades de razonamiento del modelo.

Un modelo de IA “razones” descomponiendo una consulta en pasos y trabajando a través de ellos en orden. Piense en cómo aprendió a resolver problemas de palabras matemáticas en la escuela.

Idealmente, para generar citas, un modelo de IA comprendería los conceptos clave en un documento, generaría una lista clasificada de documentos relevantes para citar y proporcionaría un razonamiento convincente sobre cómo cada documento sugerido respalda el texto correspondiente. Destacará las conexiones específicas entre el texto y la investigación citada, aclarando por qué cada fuente importa.

La pregunta es, ¿se puede confiar en los modelos de hoy para hacer estas conexiones y proporcionar un razonamiento claro que justifique sus elecciones de origen? La respuesta va más allá de la precisión de las citas para abordar cuán útiles y precisos son los modelos de lenguaje grande para cualquier propósito de recuperación de información.

Soy un informático. Mis colegas, investigadores del Instituto AI de la Universidad de Carolina del Sur, la Universidad Estatal de Ohio y el Condado de Baltimore del Condado de Baltimore, y he desarrollado las razones de referencia para probar qué tan bien modelos de idiomas pueden generar automáticamente citas de investigación y proporcionar un razonamiento comprensible.

Utilizamos el punto de referencia para comparar el rendimiento de dos modelos de razonamiento de IA populares, Deepseek’s R1 y OpenAI’s O1. Aunque Deepseek fue en los titulares con su impresionante eficiencia y rentabilidad, el advenedizo chino tiene un camino por recorrer para que coincida con el rendimiento de razonamiento de OpenAI.

Oración específica

La precisión de las citas tiene mucho que ver con si el modelo AI está razonando sobre la información a nivel de oración en lugar del párrafo o a nivel de documentos. Se puede considerar que las citas a nivel de párrafo y a nivel de documentos arrojan una gran parte de la información a un modelo de idioma grande y le piden que proporcione muchas citas.

En este proceso, el modelo de lenguaje grande se generaliza e incorporan las oraciones individuales. El usuario termina con citas que explican todo el párrafo o documento, no la información de grano relativamente fino en la oración.

Además, el razonamiento sufre cuando le pide al modelo de idioma grande que lea un documento completo. Estos modelos se basan principalmente en memorizar patrones que típicamente son mejores para encontrar al principio y al final de los textos más largos que en el medio. Esto les dificulta comprender completamente toda la información importante a lo largo de un documento largo.

Los modelos de idiomas grandes se confunden porque los párrafos y documentos tienen mucha información, lo que afecta la generación de citas y el proceso de razonamiento. En consecuencia, el razonamiento de los modelos de idiomas grandes sobre los párrafos y los documentos se vuelve más como resumir o parafrasear.

Las razones por las que Benchmark aborde esta debilidad al examinar la generación y el razonamiento de las citas de los modelos de idiomas grandes.

https://www.youtube.com/watch?v=kqzzymhre0u

Cómo Deepseek R1 y OpenAI O1 se comparan generalmente con los problemas lógicos.

Prueba de citas y razonamiento

Tras el lanzamiento de Deepseek R1 en enero de 2025, queríamos examinar su precisión en la generación de citas y su calidad de razonamiento y compararlo con el modelo O1 de OpenAI. Creamos un párrafo que tenía oraciones de diferentes fuentes, dio a los modelos oraciones individuales de este párrafo y pedimos citas y razonamiento.

Para comenzar nuestra prueba, desarrollamos un pequeño lecho de prueba de aproximadamente 4,100 artículos de investigación alrededor de cuatro temas clave que están relacionados con el cerebro humano y la informática: neuronas y cognición, interacción humana-computadora, bases de datos e inteligencia artificial. Evaluamos los modelos utilizando dos medidas: la puntuación F-1, que mide cuán precisa es la cita proporcionada, y la tasa de alucinación, que mide cuán sonido es el razonamiento del modelo, es decir, con qué frecuencia produce una respuesta inexacta o engañosa.

Nuestras pruebas revelaron diferencias de rendimiento significativas entre OpenAI O1 y Deepseek R1 en diferentes dominios científicos. El O1 de OpenAI conectó bien la información entre los diferentes sujetos, como comprender cómo la investigación sobre neuronas y cognición se conecta con la interacción humana y la computadora y luego con los conceptos en inteligencia artificial, sin dejar de ser precisa. Sus métricas de rendimiento superaron constantemente a Deepseek R1 en todas las categorías de evaluación, especialmente para reducir las alucinaciones y completar con éxito las tareas asignadas.

Operai O1 fue mejor para combinar ideas semánticamente, mientras que R1 se centró en asegurarse de que generara una respuesta para cada tarea de atribución, lo que a su vez aumentó la alucinación durante el razonamiento. Openai O1 tenía una tasa de alucinación de aproximadamente 35% en comparación con la tasa de Deepseek R1 de casi el 85% en la tarea de razonamiento basada en la atribución.

En términos de precisión y competencia lingüística, Openai O1 obtuvo alrededor de 0.65 en la prueba F-1, lo que significa que era correcto aproximadamente el 65% del tiempo al responder preguntas. También obtuvo alrededor de 0.70 en la prueba BLEU, que mide qué tan bien un modelo de lenguaje escribe en lenguaje natural. Estos son puntajes bastante buenos.

Deepseek R1 obtuvo un puntaje más bajo, con aproximadamente 0.35 en la prueba F-1, lo que significa que era correcto aproximadamente el 35% del tiempo. Sin embargo, su puntaje Bleu fue solo alrededor de 0.2, lo que significa que su escritura no era tan natural como la O1 de OpenAI. Esto muestra que O1 fue mejor al presentar esa información en un lenguaje claro y natural.

OpenAi tiene la ventaja

En otros puntos de referencia, Deepseek R1 se desempeña a la par con OpenAi O1 en tareas de matemáticas, codificación y razonamiento científico. Pero la diferencia sustancial en nuestro punto de referencia sugiere que O1 proporciona información más confiable, mientras que R1 lucha con la consistencia objetiva.

Aunque incluimos otros modelos en nuestras pruebas integrales, la brecha de rendimiento entre O1 y R1 resalta específicamente el panorama competitivo actual en el desarrollo de IA, con la oferta de OpenAI que mantiene una ventaja significativa en las capacidades de razonamiento e integración del conocimiento.

Estos resultados sugieren que OpenAi todavía tiene una ventaja cuando se trata de atribución y razonamiento de origen, posiblemente debido a la naturaleza y el volumen de los datos en los que fue entrenado. La compañía anunció recientemente su herramienta de investigación profunda, que puede crear informes con citas, hacer preguntas de seguimiento y proporcionar razonamiento para la respuesta generada.

El jurado todavía está en el valor de la herramienta para los investigadores, pero la advertencia permanece para todos: verifique todas las citas que le brinda una IA.

Continue Reading

Trending