Noticias

Deepseek-r1 vs. OpenAI’s O1: un nuevo paso en código abierto y modelos propietarios

Published

on

AI ha entrado en una era del surgimiento de modelos de idiomas grandes y innovadores y modelos multimodales. El desarrollo tiene dos lados, uno con código abierto y el otro es modelos de propiedad. Deepseek-r1un modelo de IA de código abierto desarrollado por Deepseek-AI, una compañía de investigación china, ejemplifica esta tendencia. Su surgimiento ha desafiado el dominio de modelos patentados como el O1 de OpenAi, provocando discusiones sobre la eficiencia de rentabilidad, la innovación de código abierto y el liderazgo tecnológico global en la IA. Vamos a profundizar en el desarrollo, las capacidades y las implicaciones de Deepseek-R1 al compararlo con el sistema O1 de OpenAI, considerando las contribuciones de ambos espacios.

Deepseek-R1 es el gran resultado de los esfuerzos innovadores de Deepseek-AI en LLM de código abierto para mejorar las capacidades de razonamiento a través del aprendizaje de refuerzo (RL). El desarrollo del modelo se aparta significativamente de los métodos tradicionales de capacitación de IA que dependen en gran medida del ajuste fino supervisado (SFT). En su lugar, Deepseek-R1 emplea una tubería de varias etapas que combina datos en frío, RL y datos supervisados ​​para crear un modelo capaz de razonamiento avanzado.

El proceso de desarrollo

Deepseek-R1 aprovecha un proceso único de capacitación en varias etapas para lograr capacidades de razonamiento avanzado. Se basa en su predecesor, Deepseek-R1-Zero, que empleó a Pure RL sin depender de SFT. Si bien Deepseek-R1-Zero demostró capacidades notables en los puntos de referencia de razonamiento, enfrentó desafíos como la mala legibilidad e inconsistencias del lenguaje. Deepseek-r1 adoptó un enfoque más estructurado para abordar estas limitaciones, integrando Datos de arranque en frío, RL orientado al razonamiento y SFT.

El desarrollo comenzó con la recolección de miles de ejemplos de alta calidad de largas cadenas de pensamiento (COT), una base para ajustar el modelo de base profunda-V3. Esta fase de arranque en frío enfatizó la legibilidad y la coherencia, asegurando que las salidas fueran fáciles de usar. El modelo se sometió a un proceso RL orientado al razonamiento utilizando la optimización de políticas relativas del grupo (GRPO). Este algoritmo innovador mejora la eficiencia del aprendizaje al estimar las recompensas en función de los puntajes grupales en lugar de usar un modelo crítico tradicional. Esta etapa mejoró significativamente las capacidades de razonamiento del modelo, particularmente en las tareas matemáticas, codificación y lógica intensiva. Después de la convergencia de RL, Deepseek-R1 se sometió a SFT utilizando un conjunto de datos de aproximadamente 800,000 muestras, incluidas las tareas de razonamiento y no conductores. Este proceso amplió las capacidades de uso general del modelo y mejoró su rendimiento en los puntos de referencia. Además, las capacidades de razonamiento se destilaron en modelos más pequeños, como Qwen y Llama, lo que permite el despliegue de IA de alto rendimiento en formas computacionalmente eficientes.

Excelencia técnica y rendimiento de referencia

Deepseek-R1 se ha establecido como un modelo de IA formidable, sobresaliendo en puntos de referencia en múltiples dominios. Algunos de sus puntos destacados de rendimiento clave incluyen:

  1. Matemáticas: el modelo logró un puntaje PASS@1 de 97.3% en el punto de referencia Math-500, comparable al O1-1217 de OpenAI. Este resultado subraya su capacidad para manejar tareas complejas de resolución de problemas.
  2. Codificación: en la plataforma CodeForces, Deepseek-R1 logró una calificación ELO de 2029, colocándola en el percentil superior de los participantes. También superó a otros modelos en puntos de referencia como SWE Verified y LivecodeBench, solidificando su posición como una herramienta confiable para el desarrollo de software.
  3. Los puntos de referencia de razonamiento: Deepseek-R1 logró un pase@1, anotando 71.5% en GPQA Diamond y 79.8% en AIME 2024, lo que demuestra sus capacidades de razonamiento avanzado. Su uso novedoso del razonamiento de COT y RL lograron estos resultados.
  4. Tareas creativas: Deepseek-R1 se destacó en tareas creativas y de preguntas generales más allá de los dominios técnicos, logrando una tasa de victorias del 87.6% en Alpacaeval 2.0 y 92.3% en Arenahard.

Las características clave de Deepseek-R1 incluyen:

  • Arquitectura: Deepseek-R1 utiliza una mezcla de diseño de expertos (MOE) con 671 mil millones de parámetros, activando solo 37 mil millones de parámetros por pase hacia adelante. Esta estructura permite un cálculo y escalabilidad eficientes, lo que lo hace adecuado para la ejecución local en hardware de grado consumidor.
  • Metodología de capacitación: a diferencia de los modelos tradicionales que dependen del ajuste fino supervisado, Deepseek-R1 emplea un enfoque de capacitación basado en RL. Esto permite que el modelo desarrolle de forma autónoma las capacidades de razonamiento avanzado, incluido el razonamiento y la autoverificación de COT.
  • Métricas de rendimiento: los puntos de referencia iniciales indican que Deepseek-R1 sobresale en varias áreas:
    • Math-500 (pase@1): 97.3%, superando el O1 de OpenAI que alcanzó el 96.4%.
    • Calificación de CodeForces: Cerrar competencia con las mejores calificaciones de OpenAI (2029 vs. 2061).
    • C-EVAL (puntos de referencia chinos): Lograr una precisión récord del 91.8%.
  • Se informa que Deepseek-R1 ofrece un rendimiento comparable al O1 de OpenAI a un costo aproximadamente 95% más bajo, lo que podría alterar significativamente el panorama económico del desarrollo y el despliegue de IA.

Los modelos O1 de OpenAI son conocidos por sus habilidades de razonamiento de vanguardia y resolución de problemas. Se desarrollaron enfocándose en SFT y RL a gran escala para refinar sus capacidades de razonamiento. La serie O1 se destaca en el razonamiento COT, que implica desglosar tareas complejas y detalladas en pasos manejables. Este enfoque ha llevado a un rendimiento excepcional de matemáticas, codificación y razonamiento científico.

Una fortaleza principal de la serie O1 es su enfoque en la seguridad y el cumplimiento. OpenAI ha implementado rigurosos protocolos de seguridad, incluidos ejercicios externos de equipo rojo y evaluaciones éticas, para minimizar los riesgos asociados con los resultados nocivos. Estas medidas aseguran que los modelos se alineen con las pautas éticas, lo que los hace adecuados para aplicaciones de alto riesgo. Además, la serie O1 es altamente adaptable, sobresaliendo en diversas aplicaciones que van desde la escritura creativa y la IA conversacional hasta la resolución de problemas de múltiples pasos.

Características clave del O1 de OpenAI:

  • Variantes del modelo: la familia O1 incluye tres versiones:
    1. O1: La versión completa con capacidades avanzadas.
    2. O1-Mini: un modelo más pequeño y más eficiente optimizado para la velocidad mientras mantiene un rendimiento fuerte.
    3. Modo O1 Pro: la variante más potente, que utiliza recursos informáticos adicionales para un rendimiento mejorado.
  • Capacidades de razonamiento: los modelos O1 están optimizados para tareas de razonamiento complejas y demuestran mejoras significativas sobre los modelos anteriores. Son particularmente fuertes en aplicaciones STEM, donde pueden desempeñarse en niveles comparables a los estudiantes de doctorado en tareas de referencia desafiantes.
  • Puntos de referencia de rendimiento:
    1. En el American Invitational Mathematics (AIME), el modo O1 Pro obtuvo un 86%, superando significativamente el O1 estándar, que obtuvo un 78%, mostrando sus capacidades matemáticas.
    2. En los puntos de referencia de codificación como CodeForces, los modelos O1 lograron una alta clasificación, lo que indica un fuerte rendimiento de codificación.
  • Capacidades multimodales: los modelos O1 pueden manejar entradas de texto e imágenes, lo que permite un análisis e interpretación exhaustivos de datos complejos. Esta funcionalidad multimodal mejora su aplicación en varios dominios.
  • Comprobación de facto: la verificación auto-facto mejora la precisión y la confiabilidad, particularmente en dominios técnicos como la ciencia y las matemáticas.
  • Razonamiento de la cadena de pensamiento: los modelos O1 utilizan el aprendizaje de refuerzo a gran escala para participar en procesos de razonamiento complejos antes de generar respuestas. Este enfoque les ayuda a refinar sus resultados y reconocer errores de manera efectiva.
  • Características de seguridad: Mitigación de sesgo mejorada y una mejor adhesión de la política de contenido asegurar que las respuestas generadas por los modelos O1 sean seguras y apropiadas. Por ejemplo, logran una puntuación no uniforme de 0.92 en la desafiante evaluación de rechazo.

Un análisis comparativo: Deepseek-R1 vs. OpenAI O1

Fortalezas de Deepseek-R1

  1. Accesibilidad de código abierto: el marco de código abierto de Deepseek-R1 democratiza el acceso a capacidades avanzadas de IA, fomentando la innovación dentro de la comunidad de investigación.
  2. Eficiencia de rentabilidad: el desarrollo de Deepseek-R1 aprovechó técnicas rentables, permitiendo su despliegue sin las barreras financieras a menudo asociadas con modelos patentados.
  3. Excelencia técnica: GRPO y RL orientado al razonamiento han equipado Deepseek-R1 con habilidades de razonamiento de vanguardia, particularmente en matemáticas y codificación.
  4. Destilación para modelos más pequeños: al destilar sus capacidades de razonamiento en modelos más pequeños, Deepseek-R1 expande su usabilidad. Ofrece un alto rendimiento sin demandas computacionales excesivas.

Fortalezas de OpenAi O1

  1. Medidas de seguridad integrales: los modelos O1 de OpenAI priorizan la seguridad y el cumplimiento, haciéndolos confiables para aplicaciones de alto riesgo.
  2. Capacidades generales: si bien Deepseek-R1 se centra en las tareas de razonamiento, los modelos O1 de OpenAI se destacan en diversas aplicaciones, incluida la escritura creativa, la recuperación de conocimiento e IA conversacional.

El debate de código abierto versus patentado

La aparición de Deepseek-R1 ha reavivado el debate sobre los méritos del desarrollo de IA de código abierto versus IA patentado. Los defensores de los modelos de código abierto argumentan que aceleran la innovación al agrupar la experiencia y los recursos colectivos. Además, promueven la transparencia, que es vital para la implementación ética de IA. Por otro lado, los modelos propietarios a menudo reclaman un rendimiento superior debido a su acceso a datos y recursos patentados. La competencia entre estos dos paradigmas representa un microcosmos de los desafíos más amplios en el panorama de la IA: equilibrar la innovación, la gestión de costos, la accesibilidad y las consideraciones éticas. Después del lanzamiento de Deepseek-R1, Marc Andreessen tuiteó en X, “Deepseek R1 es uno de los avances más sorprendentes e impresionantes que he visto, y como código abierto, un regalo profundo para el mundo”.

Conclusión

La aparición de Deepseek-R1 marca un momento transformador para la industria de IA de código abierto. Su naturaleza de código abierto, su rentabilidad y capacidades de razonamiento avanzado desafían el dominio de los sistemas propietarios y redefinen las posibilidades de innovación de IA. En paralelo, los modelos O1 de OpenAI establecen puntos de referencia de seguridad y capacidad general. Juntos, estos modelos reflejan la naturaleza dinámica y competitiva del panorama de IA.

Fuentes


Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 70k+ ml de subreddit.

🚨 [Recommended Read] Nebius AI Studio se expande con modelos de visión, nuevos modelos de idiomas, incrustaciones y Lora (Promocionado)


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.

📄 Conoce ‘altura’: la única herramienta de gestión de proyectos autónomos (patrocinada)

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Trending

Exit mobile version