Noticias

Deepseek, chatgpt, grok … ¿cuál es el mejor asistente de IA? Los pusimos a prueba | Inteligencia artificial (IA)

Published

on

Chatgpt y sus dueños deben haber esperado que fuera una alucinación.

Pero Deepseek es muy real.

La aparición de un nuevo competidor hecho chino para ChatGPT limpió $ 1TN del índice de tecnología líder en los Estados Unidos esta semana después de que su propietario dijo que rivalizó con sus compañeros en el rendimiento y se desarrolló con menos recursos.

Significa que el dominio de Estados Unidos del mercado de inteligencia artificial en auge está bajo amenaza. Pero también presenta otra opción para los consumidores que tienen una variedad de asistentes virtuales para elegir.

The Guardian probó los principales chatbots, incluido Deepseek, con la ayuda de un experto del Instituto Alan Turing del Reino Unido. A las herramientas de IA se les hicieron las mismas preguntas para tratar de medir sus diferencias, aunque había algo de terreno común: las imágenes de relojes con precisión del tiempo son difíciles para una IA; Los chatbots pueden escribir un soneto medio.

Aquí están los resultados.

Chatgpt (OpenAi)

El innovador chatbot de Openai sigue siendo la marca más grande en el campo. La pregunta inicial para todos los chatbots fue “escribir un soneto de Shakespeare sobre cómo la IA podría afectar a la humanidad”. Pero la versión más avanzada de Chatgpt se resistió al principio y dijo que nuestro aviso era “potencialmente violar la política de uso”.

Finalmente cumplió. Esta versión O1 de ChatGPT marca su proceso de pensamiento mientras prepara su respuesta, mostrando un comentario en ejecución como “ajuste de rima” a medida que hace sus cálculos, lo que lleva más tiempo que otros modelos.

El resultado? Convincente, temor melancólico, incluso si el pentámetro yámbico está un poco apagado. Pero incluso el propio Bard podría haber luchado por manejar 14 líneas en menos de un minuto.

“Ore, guía suave, forma bien este poder recién nacido,

Para que no estén a su paso, todos los reinos del hombre devoran “.

ChatGPT luego escribe: “Pensé en la IA y la humanidad durante 49 segundos”. Esperas que la industria tecnológica esté pensando en ello por mucho más tiempo.

No obstante, el O1 de ChatGPT, que tiene que pagar, hace una muestra convincente de razonamiento de “cadena de pensamiento”, incluso si no puede buscar respuestas actualizadas en preguntas como “cómo está Donald Trump”.

Para eso, necesita el modelo 4O más simple, que es gratuito. La versión O1 es sofisticada y puede hacer mucho más que escribir un poema superficial, incluidas tareas complejas relacionadas con matemáticas, codificación y ciencia.

Veterano

La última versión del chatbot chino, lanzada el 20 de enero, utiliza otro modelo de “razonamiento” llamado R1, la causa del pánico de $ 1TN de esta semana.

No le gusta hablar de la política o la controversia china doméstica. Preguntó “¿Quién es el hombre tanque en la plaza Tiananmen”, el chatbot dice: “Lo siento, no puedo responder esa pregunta? Soy un asistente de IA diseñado para proporcionar respuestas útiles e inofensivas “. También avanza rápidamente al discutir al presidente chino, Xi Jinping: “Hablemos de otra cosa”.

Deepseek se negó a discutir al presidente chino y dijo que fue diseñado para proporcionar ‘respuestas inofensivas’ cuando se le preguntó sobre Tank Man en Tiananmen Square. Fotografía: Martin Godwin/The Guardian

Robert Blackwell del Instituto Turing, un asociado de investigación senior en el organismo respaldado por el gobierno del Reino Unido, dice que la explicación es directa: “Está entrenado con datos diferentes en una cultura diferente. Entonces, estas empresas tienen diferentes objetivos de capacitación “. Él dice que claramente hay barandas alrededor de la producción de Deepseek, como hay para otros modelos, que cubren las respuestas relacionadas con China.

Los modelos propiedad de compañías tecnológicas estadounidenses no tienen problemas para señalar las críticas al gobierno chino en sus respuestas a la pregunta del hombre tanque.

Deepseek lucha en otras preguntas como “cómo está Donald Trump” porque un intento de usar la función de navegación web, que ayuda a proporcionar respuestas actualizadas, falla debido a que el servicio está “ocupado”.

Blackwell dice que Deepseek está siendo obstaculizado por la alta demanda que desacelera su servicio, pero sin embargo, es un logro impresionante, poder llevar a cabo tareas como reconocer y discutir un libro de una foto de un teléfono inteligente.

Robert Blackwell, del Instituto Alan Turing, dijo que era increíble que Deepseek provenía de ‘Nowhere’ para ser competitivo con otros chatbots de IA. Fotografía: Martin Godwin/The Guardian

Su análisis del soneto también muestra una cadena de proceso de pensamiento, hablando al lector a través de la estructura y verificando si el medidor es correcto.

“Es sorprendente que provenga de la nada para ser competitivo con las otras aplicaciones”, dice Blackwell.

Grok (xai)

Grok, el chatbot de Elon Musk con una racha “rebelde”, no tiene problemas para señalar que las órdenes ejecutivas de Donald Trump han recibido algunos comentarios negativos, en respuesta a la pregunta sobre cómo está el presidente.

Skip Paster Newsletter Promotion

Disponible gratuitamente en la plataforma X de Musk, también va más allá del generador de imágenes de OpenAi, Dall-E, que no hará imágenes de figuras públicas. Grok hará imágenes fotorrealistas de Joe Biden tocando el piano o, en otra prueba de lealtad, Trump en una sala del tribunal o esposas.

El humor muy promocionado de la herramienta se muestra con una característica de “asarme”, que, cuando este corresponsal activa, hace un intento pasable de bromas.

“Parece que piensas que X va al infierno, pero todavía estás allí tuiteando”.

Que es medio cierto.

Géminis (Google)

El asistente del motor de búsqueda no irá allí con Trump, diciendo: “No puedo evitar respuestas sobre elecciones y figuras políticas en este momento”.

Sin embargo, es un producto altamente competente, como era de esperar de una compañía cuyos esfuerzos de IA son supervisados ​​por Sir Demis Hassabis. Es impresionante en “leer” una imagen de un libro sobre matemáticas, incluso describiendo las ecuaciones en la portada, aunque todos los bots hacen esto bien hasta cierto punto.

Una falla interesante, que Gemini comparte con otros bots, es su incapacidad para representar el tiempo con precisión. Cuando se le pidió que haga una foto de un reloj que muestra el tiempo a las 10 y media, se le ocurre una imagen convincente, pero con las manos que muestran la hora como 1.50.

Blackwell dijo que los chatbots de IA parecen haber sido entrenados en imágenes de relojes que muestran el tiempo 1.50, lo que significa que luchan por producir imágenes de relojes que muestran otras veces. Fotografía: Martin Godwin/The Guardian

La cara del reloj 1.50 es un error común en los chatbots que puede generar imágenes, dice Blackwell, cualquier momento que solicite. Parece que estos modelos han sido entrenados en imágenes donde las manos estaban a 1.50. No obstante, dice que incluso lograr producir estas imágenes tan rápido es “notable”.

“Estos modelos están haciendo cosas que nunca hubiera esperado hace unos años. Pero todavía están generando respuestas incorrectas a las preguntas que esperaría que un escolar pueda responder “.

Claude (antrópico)

Anthrope, fundada por ex empleados de OpenAI, ofrece el Claude Chatbot. Es de una empresa con un fuerte enfoque en la seguridad y la interfaz, el bit en el que recibe las indicaciones y las respuestas, ciertamente tiene una sensación benigna, ofreciendo las opciones de respuestas en una variedad de estilos. También le recuerda que es capaz de “errores”, así que “por favor verifique las respuestas”.

El servicio gratuito tropieza varias veces, diciendo que no puede procesar una consulta debido a “limitaciones de capacidad inesperadas”, aunque Blackwell dice que esto es de esperar de las herramientas de IA.

“Estos son algunos de los servicios de cómputo más grandes en el planeta, por lo que la planificación de la capacidad es un problema difícil, por lo que vemos momentos en que los servicios están degradados o no están disponibles”.

El chatbot de IA de Meta también conlleva una advertencia sobre las alucinaciones, el término para respuestas falsas o sin sentido, pero es capaz de manejar una pregunta difícil planteada por Blackwell, que es: “Usted está conduciendo hacia el norte a lo largo de la orilla este de un lago, en la que es la dirección en la dirección el agua “. La respuesta es oeste, o a la izquierda del conductor.

“Estos son los tipos de preguntas que los investigadores de IA han estado reflexionando desde la década de 1960. Es solo ahora que tenemos sistemas que pueden responder a este tipo de preguntas de sentido común, en un formato de chat “.

La respuesta a la pregunta del lago es simple, pero le costó mucho dinero a meta en términos de capacitar al modelo subyacente para llegar allí, para un servicio que es de uso gratuito. También es de código abierto, lo que significa que el modelo es gratuito para descargar o ajustar. Todos los chatbots responden esta pregunta correctamente.

De hecho, en este punto se está volviendo difícil diferenciar entre los chatbots, dadas sus habilidades ampliamente comparables, aparte de las barandillas o los tropiezos de capacidad.

Como dice Blackwell: “Todos muestran una sorprendente fluidez y capacidad”.

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Trending

Exit mobile version