Noticias
¿Qué se encuentra debajo del capó del nuevo chatbot Ai?
Los valores del mercado de valores y las afirmaciones salvajes han acompañado la liberación de un nuevo chatbot de IA por parte de una pequeña empresa china. ¿Qué lo hace tan diferente?
¿La razón detrás de este tumulto? El “modelo de lenguaje grande” (LLM) que impulsa la aplicación tiene capacidades de razonamiento que son comparables a los modelos estadounidenses como el O1 de OpenAI, pero, según los informes, requiere una fracción del costo de entrenar y ejecutar.
Análisis
Dr. Andrew Duncan es el director de IA fundamental de ciencias e innovación en el Instituto Alan Turing en Londres, Reino Unido.
Deepseek afirma haber logrado esto desplegando varias estrategias técnicas que redujeron tanto la cantidad de tiempo de cálculo requerido para capacitar a su modelo (llamado R1) como la cantidad de memoria necesaria para almacenarlo. La reducción de estos gastos generales resultó en un recorte dramático de costo, dice Deepseek. Modelo base de R1 V3 según se informa requerido 2.788 millones de horas para entrenar (Correr a través de muchas unidades de procesamiento gráficas (GPU, al mismo tiempo), a un costo estimado de menos de $ 6 millones (£ 4.8 millones), en comparación con los más $ 100M (£ 80 millones) que el jefe de OpenAi, Sam Altman, dice que se requirió para entrenar a GPT-4.
A pesar del éxito llevado al valor de mercado de Nvidia, los modelos profundos fueron entrenados alrededor 2,000 NVIDIA H800 GPUsegún un trabajo de investigación publicado por la compañía. Estos chips son una versión modificada del chip H100 ampliamente utilizado, construido para cumplir con las reglas de exportación a China. Estos probablemente se almacenaron antes de que las restricciones fueran Atrolado aún más por la administración Biden En octubre de 2023, que prohibió efectivamente a Nvidia exportar los H800 a China. Es probable que, trabajando dentro de estas limitaciones, Deepseek se haya visto obligado a encontrar formas innovadoras de hacer el uso más efectivo de los recursos que tiene a su disposición.
Reducir el costo computacional de la capacitación y la ejecución de los modelos también puede abordar las preocupaciones sobre los impactos ambientales de la IA. Los centros de datos en los que se ejecutan tienen enormes demandas de electricidad y agua, en gran parte para evitar que los servidores se sobrecalienten. Si bien la mayoría de las compañías de tecnología no revelan la huella de carbono involucrada en la operación de sus modelos, una estimación reciente coloca las emisiones mensuales de dióxido de carbono de ChatGPT Más de 260 toneladas por mes – Ese es el equivalente de 260 vuelos desde Londres a Nueva York. Por lo tanto, aumentar la eficiencia de los modelos de IA sería una dirección positiva para la industria desde un punto de vista ambiental.
Por supuesto, si los modelos de Deepseek ofrecen ahorros del mundo real en la energía quedan por verse, y tampoco está claro si la IA más barata y más eficiente podría conducir a que más personas usen el modelo, por lo que un aumento en el consumo general de energía.
Por lo menos, podría ayudar a impulsar la IA sostenible por la agenda en la próxima Cumbre de acción de París Ai De modo que las herramientas de IA que usamos en el futuro también son más amables para el planeta.
Lo que ha sorprendido a muchas personas es cuán rápido apareció Deepseek en la escena con un modelo de lenguaje grande tan competitivo: la compañía solo fue fundada por Liang Wenfeng en 2023, que ahora está siendo aclamado en China como una especie de “héroe de IA”.
El último modelo Deepseek también se destaca porque sus “pesos”, los parámetros numéricos del modelo obtenidos del proceso de entrenamiento, se han liberado abiertamente, junto con un papel técnico describiendo el proceso de desarrollo del modelo. Esto permite a otros grupos ejecutar el modelo en su propio equipo y adaptarlo a otras tareas.
Esta apertura relativa también significa que los investigadores de todo el mundo ahora pueden Mirada debajo del capó del modelo Para averiguar qué lo hace funcionar, a diferencia de Openi’s O1 y O3, que son efectivamente casillas negras. Pero todavía faltan algunos detalles, como los conjuntos de datos y el código utilizados para capacitar a los modelos, por lo que grupos de investigadores ahora están tratando de reconstruirlos.
Tampoco todas las técnicas de reducción de costos de Deepseek son nuevas, algunas se han utilizado en otros LLM. En 2023, Mistral AI lanzó abiertamente su modelo mixtral 8x7b que estaba a la par con los modelos avanzados de la época. Los modelos MixTral y Deepseek aprovechan la técnica de “mezcla de expertos”, donde el modelo está construido a partir de un grupo de modelos mucho más pequeños, cada uno con experiencia en dominios específicos. Dada una tarea, el modelo de mezcla lo asigna al “experto” más calificado.
Deepseek incluso ha revelado sus intentos fallidos de mejorar el razonamiento de LLM a través de otros enfoques técnicos, como la búsqueda de árboles de Monte Carlo, un enfoque promocionado durante mucho tiempo como una estrategia potencial para guiar el proceso de razonamiento de una LLM. Los investigadores utilizarán esta información para investigar cómo las capacidades de resolución de problemas ya impresionantes del modelo pueden mejorarse aún más, mejoras que probablemente terminen en la próxima generación de modelos de IA.
Entonces, ¿qué significa todo esto para el futuro de la industria de la IA?
Deepseek está potencialmente demostrando que no necesita vastas recursos para construir modelos AI sofisticados. Supongo que comenzaremos a ver modelos de IA altamente capaces que se desarrollan con cada vez menos recursos, ya que las empresas descubren formas de hacer que la capacitación y operación de modelos sean más eficientes.
Hasta ahora, el panorama de la IA ha estado dominado por compañías de “gran tecnología” en los Estados Unidos: Donald Trump ha llamado el ascenso de Deepseek “una llamada de atención“Para la industria tecnológica de los EE. UU. .
Parece probable que las empresas más pequeñas como Deepseek tengan un papel creciente que desempeñar en la creación de herramientas de IA que tengan el potencial de facilitarnos la vida. Sería un error subestimar eso.
Para obtener más historias de ciencia, tecnología, medio ambiente y salud de la BBC, síganos en Facebook, incógnita y Instagram.