Noticias

China de código abierto AI Deepseek R1 coincide con el O1 de Openai con un costo 98% más bajo

Published

on

Los investigadores chinos de IA han logrado lo que muchos pensaban que estaban a años de distancia: un modelo de IA de código abierto gratuito que puede igualar o superar el rendimiento de los sistemas de razonamiento más avanzados de OpenAI. Lo que hace que esto sea aún más notable fue cómo lo hicieron: al dejar que la IA se enseñe a través de prueba y error, similar a cómo aprenden los humanos.

“Deepseek-r1-cero, un modelo entrenado a través de un aprendizaje de refuerzo a gran escala (RL) sin ajustar (SFT) supervisado como un paso preliminar, demuestra notables capacidades de razonamiento”. El trabajo de investigación dice.

El “aprendizaje de refuerzo” es un método en el que un modelo es recompensado por tomar buenas decisiones y castigado por tomar malas, sin saber cuál es cuál. Después de una serie de decisiones, aprende a seguir un camino que fue reforzado por esos resultados.

Inicialmente, durante la fase supervisada de ajuste fino, un grupo de humanos le dice al modelo el resultado deseado que desean, dándole un contexto para saber qué es bueno y qué no. Esto lleva a la siguiente fase, el aprendizaje de refuerzo, en el que un modelo proporciona diferentes resultados y los humanos clasifican los mejores. El proceso se repite una y otra vez hasta que el modelo sepa cómo proporcionar resultados satisfactorios constantemente.

Imagen: Deepseek

Deepseek R1 es una dirección en el desarrollo de IA porque los humanos tienen una parte mínima en la capacitación. A diferencia de otros modelos que están capacitados en grandes cantidades de datos supervisados, Deepseek R1 aprende principalmente a través del aprendizaje de refuerzo mecánico, lo que esencialmente resuelve las cosas experimentando y recibiendo comentarios sobre lo que funciona.

“A través de RL, Deepseek-R1-Zero emerge naturalmente con numerosos comportamientos de razonamiento poderosos e interesantes”, dijeron los investigadores en su artículo. El modelo incluso desarrolló capacidades sofisticadas como la autoverificación y la reflexión sin ser programado explícitamente para hacerlo.

A medida que el modelo pasó por su proceso de entrenamiento, naturalmente aprendió a asignar más “tiempo de pensamiento” a problemas complejos y desarrolló la capacidad de captar sus propios errores. Los investigadores destacaron un “A-ha momento” Cuando el modelo aprendió a reevaluar sus enfoques iniciales de los problemas, algo que no estaba explícitamente programado para hacer.

Los números de rendimiento son impresionantes. En el punto de referencia de Matemáticas AIME 2024, Deepseek R1 alcanzó una tasa de éxito del 79.8%, superando el modelo de razonamiento O1 de OpenAI. En las pruebas de codificación estandarizadas, demostró el rendimiento del “nivel de expertos”, logrando una calificación ELO de 2.029 en CodeForces y superó al 96.3% de los competidores humanos.

Imagen: Deepseek

Pero lo que realmente distingue a Deepseek R1 es su costo, o la falta de él. El modelo ejecuta consultas a solo $ 0.14 por millón de tokens en comparación con los $ 7.50 de OpenAi, lo que lo hace 98% más barato. Y a diferencia de los modelos propietarios, el código y los métodos de entrenamiento de Deepseek R1 son de código abierto por completo bajo la licencia MIT, lo que significa que cualquiera puede tomar el modelo, usarlo y modificarlo sin restricciones.

Imagen: Deepseek

Los líderes de IA reaccionan

El lanzamiento de Deepseek R1 ha desencadenado una avalancha de respuestas de los líderes de la industria de la IA, y muchos destacan la importancia de un modelo de código abierto que coinciden con líderes propietarios en capacidades de razonamiento.

El principal investigador de Nvidia, el Dr. Jim Fan, entregó quizás el comentario más puntiagudo, atrayendo un paralelo directo a la misión original de OpenAI. “Estamos viviendo en una línea de tiempo en la que una empresa no estadounidense mantiene viva la misión original de Operai, una investigación fronteriza realmente abierta que empodera a todos”, señaló Fan, alabando la transparencia sin precedentes de Deepseek.

Fan gritó la importancia del enfoque de aprendizaje de refuerzo de Deepseek: “Ellos son quizás los primeros [open source software] proyecto que muestra un gran crecimiento sostenido de [a reinforcement learning] volante. También elogió el intercambio directo de Deepseek de “algoritmos crudos y curvas de aprendizaje de matplotlib” en comparación con los anuncios impulsados ​​por exageración más comunes en la industria.

El investigador de Apple, Awni Hannun, mencionó que las personas pueden ejecutar una versión cuantificada del modelo localmente en sus Mac.

Tradicionalmente, los dispositivos Apple han sido débiles en la IA debido a su falta de compatibilidad con el software CUDA de Nvidia, pero eso parece estar cambiando. Por ejemplo, el investigador de IA Alex Cheema fue capaz de ejecutar el modelo completo después de aprovechar la potencia de 8 mini unidades de Apple Mac que se ejecutan juntas, que todavía es más barata que los servidores necesarios para ejecutar los modelos de IA más potentes actualmente disponibles.

Dicho esto, los usuarios pueden ejecutar versiones más ligeras de Deepseek R1 en sus Mac con buenos niveles de precisión y eficiencia.

Sin embargo, las reacciones más interesantes se produjeron después de reflexionar sobre qué tan cerca está la industria de código abierto a los modelos patentados, y el impacto potencial que este desarrollo puede tener para OpenAi como líder en el campo de los modelos de IA de razonamiento.

El fundador de Stability Ai, Emad Mostaque, tomó una postura provocativa, lo que sugiere que el lanzamiento ejerce presión sobre los competidores mejor financiados: “¿Te imaginas ser un laboratorio fronterizo que se recauda como mil millones de dólares y ahora no puedes lanzar tu último modelo porque no puede hacerlo? ¿Beat Deepseek? “

Siguiendo el mismo razonamiento pero con una argumentación más seria, el empresario tecnológico Arnaud Bertrand explicó que la aparición de un modelo competitivo de código abierto puede ser potencialmente perjudicial para OpenAi, ya que eso hace que sus modelos sean menos atractivos para los usuarios eléctricos que de otro modo podrían estar dispuestos a gastar un mucho dinero por tarea.

“Es esencialmente como si alguien hubiera lanzado un móvil a la par con el iPhone, pero lo vendía por $ 30 en lugar de $ 1000. Es tan dramático “.

El CEO de Perplexity AI, Arvind Srinivas, enmarcó el lanzamiento en términos de su impacto en el mercado: “Deepseek ha replicado en gran medida O1 Mini y lo ha obtenido abierto”. En una observación de seguimiento, señaló el rápido ritmo de progreso: “Es un poco salvaje ver que el razonamiento se comercializa tan rápido”.

Srinivas dijo que su equipo trabajará para llevar las capacidades de razonamiento de Deepseek R1 a la perplejidad profesional en el futuro.

Práctico

Hicimos algunas pruebas rápidas para comparar el modelo con OpenAI O1, comenzando con una pregunta bien conocida para este tipo de puntos de referencia: “¿Cuántas RS hay en la palabra Strawberry?”

Por lo general, los modelos luchan por proporcionar la respuesta correcta porque no funcionan con palabras: trabajan con tokens, representaciones digitales de conceptos.

GPT-4O falló, OpenAi O1 tuvo éxito, y también lo hizo Deepseek R1.

Sin embargo, O1 fue muy conciso en el proceso de razonamiento, mientras que Deepseek aplicó una gran producción de razonamiento. Curiosamente, la respuesta de Deepseek se sintió más humana. Durante el proceso de razonamiento, el modelo parecía hablar consigo mismo, usando argot y palabras poco comunes en máquinas pero más ampliamente utilizadas por los humanos.

Por ejemplo, mientras reflexiona sobre el número de Rs, el modelo se dijo a sí mismo: “Está bien, déjame resolver (esto)”. También usó “Hmmm”, mientras debatía, e incluso dijo cosas como “Espera, no. Espera, descoméalo “.

El modelo finalmente alcanzó los resultados correctos, pero pasó mucho tiempo razonando y escupiendo fichas. En condiciones de precios típicas, esto sería una desventaja; Pero dado el estado actual de las cosas, puede generar más fichas que OpenAI O1 y aún así ser competitivo.

Otra prueba para ver qué tan bien eran los modelos en el razonamiento de los “espías” e identificar a los perpetradores en una historia corta. Elegimos una muestra del conjunto de datos Big-Bench en GitHub. (La historia completa está disponible aquí e involucra un viaje escolar a una ubicación remota y nevada, donde los estudiantes y los maestros enfrentan una serie de desapariciones extrañas y el modelo debe descubrir quién era el acosador).

Ambos modelos lo pensaron por más de un minuto. Sin embargo, Chatgpt se estrelló antes de resolver el misterio:

Pero Deepseek dio la respuesta correcta después de “pensar” en ello durante 106 segundos. El proceso de pensamiento era correcto, e incluso el modelo era capaz de corregirse después de llegar a conclusiones incorrectas (pero aún lo suficientemente lógicas).

La accesibilidad de versiones más pequeñas impresionó particularmente a los investigadores. Para el contexto, un modelo de 1.5B es tan pequeño que teóricamente podría ejecutarlo localmente en un poderoso teléfono inteligente. E incluso una versión cuantificada de Deepseek R1 que Small pudo pararse cara a cara contra GPT-4O y Claude 3.5 Sonnet, según el científico de datos de Hugging Face, Vaibhav Srivastav.

Hace solo una semana, Skynove de UC Berkeley lanzó Sky T1, un modelo de razonamiento también capaz de competir contra Operai O1 Preview.

Aquellos interesados ​​en ejecutar el modelo localmente pueden descargarlo desde GitHub o Huggingf Face. Los usuarios pueden descargarlo, ejecutarlo, eliminar la censura o adaptarlo a diferentes áreas de experiencia al ajustarlo.

O si desea probar el modelo en línea, vaya a abrazar el chat o el portal web de Deepseek, que es una buena alternativa a ChatGPT, especialmente ya que es gratuita, de código abierto y la única interfaz de chatbot AI con un modelo creado para razonamiento además de chatgpt.

Editado por Andrew Hayward

Generalmente inteligente Hoja informativa

Un viaje semanal de IA narrado por Gen, un modelo de IA generativo.

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Trending

Exit mobile version