Noticias

Cómo los orígenes de Deepseek explican que su modelo de IA nos adelanta a los rivales como chatgpt | Noticias tecnológicas

Published

on

Un laboratorio de investigación de IA poco conocido respaldado por un fondo de cobertura en China ha llamado la atención mundial y envió ondas de choque a través de Silicon Valley.

En lo que algunos llaman un “momento Sputnik”, Deepseek aparentemente ha saltado a personas como Operai, Google y Meta en la carrera armamentista AI de alto riesgo. Se dice que el modelo de razonamiento de código abierto recién presentado del laboratorio, Deepseek R1, supera a los modelos de IA principales de la industria tecnológica, como el O1 de OpenAI, en matemáticas clave y puntos de referencia de razonamiento.

El lunes 27 de enero, el asistente de IA del laboratorio chino impulsado por su modelo Deepseek-V3 superó a Rival Chatgpt para convertirse en la aplicación gratuita mejor calificada disponible en la App Store de Apple en los Estados Unidos.

Los modelos de IA de Deepseek no solo han dado a los gigantes de IA occidentales una carrera por su dinero, sino que también provocó temores de que Estados Unidos pueda luchar para mantener su primacía de IA frente a una creciente guerra fría tecnológica con China.

Su éxito ha tambaleado la creencia ampliamente de que verter miles de millones de dólares en inversiones en chips garantiza el dominio, lo que hace que las acciones tecnológicas se deslicen el lunes, según un informe de Reuters.

Entonces, ¿cuál es la historia detrás de Deepseek? ¿Explica por qué Deepseek ha surgido como una fuerza disruptiva en el paisaje de IA?

¿Qué es Deepseek y cómo empezó?

En 2013, Lian Wenfeng fundó un fondo de cobertura cuantitativo chino llamado High-Flyer. Los fondos de cobertura cuantitativos o ‘cuantiados’ se basan en algoritmos de negociación y modelos estadísticos para encontrar patrones en el mercado y comprar o vender acciones automáticamente, según un informe de Wall Street Journal.

Para analizar los datos financieros y apoyar estas operaciones complejas, High-Flyer estableció una rama de investigación de aprendizaje profundo llamado Fire-Flyer y almacenado en unidades de procesamiento de gráficos (GPU) para construir supercomputadoras.

Luego, en 2023, Liang decidió redirigir los recursos del fondo a una nueva compañía llamada Deepseek con el objetivo de desarrollar modelos de IA fundamentales y finalmente romper la inteligencia general artificial (AGI).

En lugar de contratar ingenieros experimentados que supieran cómo construir productos de IA orientados al consumidor, Liang aprovechó a los estudiantes de doctorado de las principales universidades de China para formar parte del equipo de investigación de Deepseek a pesar de que carecían de experiencia en la industria, según un informe del sitio de noticias tecnológicos chinos Qitai.

“Nuestros puestos técnicos principales están ocupados principalmente por personas que se graduaron este año o en los últimos uno o dos años”, dijo Liang a 36krotro medio de comunicación chino.

Se cree que el enfoque de Liang para construir un equipo que se centró en la investigación de alta inversión y de baja finos de fines de lucro contribuyó al éxito de Deepseek.

“Todo el equipo comparte una cultura colaborativa y una dedicación a la investigación hardcore”, dijo Zihan Wang, un ex empleado de Deepseek, dijo Revisión de la tecnología MIT.

¿En qué se diferencia Deepseek de otros jugadores de IA?

A pesar de lograr hitos significativos en un corto período de tiempo, Deepseek se centra en la investigación de IA y no tiene planes inmediatos para comercializar sus modelos de IA.

“No podría encontrar una razón comercial [for founding DeepSeek] Incluso si me lo pides ”, dijo Liang diciendo por 36kr. “La investigación en ciencias básicas tiene una relación de retorno de inversión muy baja. Cuando los primeros inversores de Operai le dieron dinero, seguro que no estaban pensando en cuánto retorno obtendrían. Más bien, fue que realmente querían hacer esto ”, dijo.

Deepseek no confía en los fondos de gigantes tecnológicos como Baidu, Alibaba y Bytedance. Solo está respaldado por High-Flyer. Tiene una asociación con el fabricante de chips AMD, que alimentan modelos como Deepseek-V3 utilizando GPU de instinto AMD y software ROCM, según un informe de Forbes.

Deepseek también es una de las principales empresas de IA en China en adoptar principios de código abierto.

Aunque su definición ha sido debatida, los modelos de IA de código abierto están disponibles para que cualquiera descargue, modifique y reutilice. Además de obtener la buena voluntad de la comunidad de investigación, la liberación de modelos de IA y los conjuntos de datos de capacitación bajo licencias de código abierto puede atraer a más usuarios y desarrolladores, ayudando a los modelos a crecer más avanzados.

Sin embargo, los modelos de IA de código abierto también vienen con ciertos riesgos de seguridad, ya que pueden usarse mal para crear imágenes sexuales sexuales no consensuadas y abuso sexual infantil (CSAM) simplemente eliminando las salvaguardas incorporadas.

¿Qué modelos de IA ha lanzado Deepseek hasta ahora?

Según los informes, los modelos de IA de Deepseek se han optimizado incorporando una arquitectura de mezcla de expertos (MOE) y atención latente múltiple, así como empleando técnicas avanzadas de aprendizaje automático, como el aprendizaje de refuerzo y la destilación. Aquí hay algunos modelos de IA de código abierto desarrollados por Deepseek:

-Coder Deepseek: un modelo de IA de código abierto diseñado para tareas relacionadas con la codificación.
– Deepseek LLM: un modelo de IA con un recuento de parámetros de 67 mil millones para rivalizar con otros modelos de idiomas grandes (LLM).
-Deepseek-V2: un modelo de IA de bajo costo que cuenta con un fuerte rendimiento.
-Deepseek-coder-v2: un modelo de IA con 236 mil millones de parámetros diseñados para desafíos de codificación complejos.
-Deepseek-V3: un modelo de IA de parámetros de 671 mil millones que puede manejar una variedad de tareas como codificar, traducir y escribir ensayos y correos electrónicos.
-Deepseek-R1: un modelo AI diseñado para tareas de razonamiento, con capacidades que desafían el modelo O1 O1 de OpenAI.
-Deepseek-R1-Distill: un modelo de IA que ha sido ajustado en función de los datos sintéticos generados por Deepseek R1.

¿Qué le espera a Deepseek?

La innovación detrás de los modelos AI de Deepseek está impulsada por la escasez. Desde 2022, el gobierno de EE. UU. Ha anunciado controles de exportación que han restringido a las compañías de IA china acceder a GPU como la H100 de NVIDIA. Si bien Deepseek tenía una reserva de 10,000 GPU H100, necesitaba más chips para escalar sus modelos de IA.

Pero los recursos limitados de Deepseek significaban que tenía que usarlos de manera más eficiente. El laboratorio de investigación de IA reelaboró ​​su proceso de capacitación para reducir la tensión en sus GPU, dijo el ex empleado de Deepseek Wang. Revisión de la tecnología MIT.

Aunque Deepseek ha podido desarrollar e implementar potentes modelos de IA sin acceso a los últimos hardware, es posible que necesite cerrar la brecha de cómputo en algún momento para escalar sus modelos de IA y competir de manera más efectiva contra empresas estadounidenses con acceso a abundantes recursos informáticos .

Varios usuarios también han señalado que los modelos de IA de Deepseek están censurados para evitar que los resultados críticos con el Partido Comunista Chino y otros problemas políticos.

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Trending

Exit mobile version