Noticias
Las acciones de Nvidia pueden caer ya que el modelo de IA ‘increíble’ de Deepseek interrumpe a OpenAi
La política de Estados Unidos de restringir el acceso chino a los chips de IA más avanzados de Nvidia ha ayudado involuntariamente a un desarrollador de IA chino a saltar a los rivales estadounidenses que tienen acceso completo a los últimos chips de la compañía.
Esto demuestra una razón básica por la cual las nuevas empresas a menudo tienen más éxito que las grandes empresas: la escasez genera innovación.
Un ejemplo de ello es el modelo chino de IA Deepseek R1, un modelo complejo de resolución de problemas que compite con el O1 de OpenAi, que “se acercó a los 10 mejores de rendimiento globales”, pero se construyó mucho más rápido, con menos chips de inteligencia artificial, menos potentes, a un costo mucho menor, según el Wall Street Journal.
El éxito de R1 debería beneficiar a las empresas. Esto se debe a que las empresas no ven ninguna razón para pagar más por un modelo de IA efectivo cuando hay disponible uno más barato, y es probable que mejore más rápidamente.
“El modelo de OpenAi es el mejor en el rendimiento, pero tampoco queremos pagar por las capacidades que no necesitamos”, dijo Anthony Poo, cofundador de una startup con sede en Silicon Valley que usa una IA generativa para predecir los rendimientos financieros, al Diario.
En septiembre pasado, la compañía de Poo cambió de Claude de Anthrope a Deepseek después de que las pruebas mostraron a Deepseek “realizado de manera similar durante alrededor de un cuarto del costo”, señaló el Diario.
Cuando mi libro Apresuración del cerebrose publicó el verano pasado, me preocupaba que el futuro de la IA generativa en los Estados Unidos dependiera demasiado de las compañías de tecnología más grandes. Contrastaré esto con la creatividad de las nuevas empresas estadounidenses durante el auge de las puntos-com, que generó 2.888 ofertas públicas iniciales (en comparación con cero OPI para las startups generativas de IA generativas).
El éxito de Deepseek podría generar nuevos rivales a los desarrolladores de modelos de idiomas grandes con sede en EE. UU. Si estas startups construyen potentes modelos de IA con menos chips y obtienen mejoras en el mercado más rápido, los ingresos por NVIDIA podrían crecer más lentamente a medida que los desarrolladores de LLM replican la estrategia de Deepseek de usar menos chips de IA menos avanzados.
Deepseek’s R1: excelente rendimiento, menor costo, tiempo de desarrollo más corto
Deepseek ha impresionado a un principal capitalista de riesgo de EE. UU. “Deepseek R1 es uno de los avances más sorprendentes e impresionantes que he visto”, escribió el capitalista de riesgo de Silicon Valley, Marc Andreessen, en una publicación del 24 de enero x.
Para ser justos, la tecnología de Deepseek retrasa la de los rivales estadounidenses como Openai y Google. Sin embargo, el modelo R1 de la compañía, que se lanzó el 20 de enero, “es un rival cercano a pesar de usar menos chips menos avanzados, y en algunos casos omitiendo pasos que los desarrolladores estadounidenses consideraron esenciales”, señaló el Diario.
Debido al alto costo de desplegar una IA generativa, las empresas se preguntan cada vez más si es posible obtener un retorno positivo de la inversión. Como escribí en abril pasado, más de $ 1 billón podrían invertirse en la tecnología y una aplicación asesina aún no ha surgido.
Por lo tanto, las empresas están entusiasmadas con las perspectivas de reducir la inversión requerida. Dado que el modelo de código abierto de R1 funciona muy bien y es mucho menos costoso que los de OpenAi y Google, las empresas están muy interesadas.
¿Cómo es eso? R1 es el modelo de mayor tendencia que se descarga en Huggingface-109,000, según VentureBeat, y Coincide con “Openi’s O1 con solo 3% -5% del costo”. R1 también proporciona una característica de búsqueda que los usuarios juegan para ser superior a OpenAi y la perplejidad “y solo es rivalizado por la investigación de Gemini Profunde de Google”, señaló “, señaló VentureBeat.
Deepseek desarrolló R1 más rápido y a un costo mucho más bajo. Deepseek dijo que capacitar a uno de sus últimos modelos por $ 5.6 millones, mucho menos que los $ 100 millones a $ 1 mil millones, el CEO antrópico de Antrópico, Dario Amodei, citó en 2024 como el costo de capacitar a sus modelos, los modelos, el Diario reportado.
Para entrenar su modelo V3, Deepseek utilizó un grupo de más de 2,000 chips nvidia “en comparación con decenas de miles de chips para modelos de entrenamiento de tamaño similar”, señaló el Diario.
Analistas independientes de Chatbot Arena, una plataforma organizada por investigadores de UC Berkeley, modelos V3 y R1 calificados en los 10 mejores para el rendimiento de Chatbot el 25 de enero, el Diario escribió.
El CEO detrás de Deepseek es Liang Wenfeng, quien administra un fondo de cobertura de $ 8 mil millones. Su fondo de cobertura, llamado High-Flyer, usó chips AI para construir algoritmos para identificar “patrones que podrían afectar los precios de las acciones”, señaló el Financial Times.
El estatus de extraño de Liang lo ayudó a tener éxito. En 2023, lanzó Deepseek para desarrollar IA de nivel humano. “Liang construyó un equipo de infraestructura excepcional que realmente entiende cómo funcionaban los chips”, dijo un fundador de una compañía rival de LLM a la Financial Times. “Llevó a sus mejores personas con él del fondo de cobertura a Deepseek”.
Deepseek se benefició cuando Washington prohibió a Nvidia exportar H100, las fichas más poderosas de Nvidia, a China. Eso obligó a las compañías locales de IA a diseñar en torno a la escasez de la potencia informática limitada de los chips locales menos potentes: Nvidia H800s, según CNBC. El equipo de Liang “ya sabía cómo resolver este problema”, señaló el Financial Times.
Microsoft está muy impresionado con los logros de Deepseek. “Para ver el nuevo modelo de Deepseek, es muy impresionante en términos de cómo han hecho realmente efectivamente un modelo de código abierto que hace este computo de inferencia y es muy eficiente”, dijo la CEO Satya Nadella el 22 de enero en el Foro Económico Mundial. “Deberíamos sacar los desarrollos de China muy, muy en serio”.
¿El avance de Deepseek disminuirá el crecimiento de la demanda de chips Nvidia?
El éxito de Deepseek debería estimular los cambios en la política de IA de EE. UU. Al hacer que los inversores de Nvidia sean más cautelosos.
Las limitaciones de exportación de EE. UU. A NVIDIA ejercen presión sobre las nuevas empresas como Deepseek para priorizar la eficiencia, la comprobación de recursos y la colaboración. Para crear R1, Deepseek Reeingineerió su proceso de capacitación para usar la velocidad de procesamiento más baja de NVIDIA H800S, la mitad de la H100, el ex empleado de Deepseek y el actual estudiante de doctorado en ciencias de la computación en la Universidad Northwestern Zihan Wang a dijo Revisión de la tecnología del MIT.
Un investigador de Nvidia estaba entusiasmado con los logros de Deepseek. El artículo de Deepseek que informa que los resultados trajeron recuerdos de los programas de IA pioneros que dominaron los juegos de mesa como el ajedrez que fueron construidos “desde cero, sin imitar primero a los abuelos humanos”, dijo el científico senior de la investigación de Nvidia Jim Fan en X como aparece en el aparecido por el aparecido por el aparecido por Diario.
¿El éxito de Deepseek acelerará la tasa de crecimiento de Nvidia? No lo sé. Sin embargo, según mi investigación, las empresas claramente quieren potentes modelos de IA generativos que dan sus frutos. A medida que las empresas buscan aplicaciones de IA generativas de alto pago, podrán hacer más experimentos si el costo y el tiempo para construir esas aplicaciones son más bajos.
Es por eso que el costo más bajo de R1 y el tiempo más corto para funcionar bien deberían seguir atrayendo más interés comercial. Una clave para la capacidad de Deepseek para entregar lo que las empresas quieren es su habilidad para optimizar las GPU menos potentes, que cuestan menos que los chips de última generación.
Si más startups pueden replicar lo que Deepseek ha logrado, podría haber menos demanda de los chips más caros de Nvidia.
No sé cómo responderá Nvidia si esto sucede. Sin embargo, a corto plazo, eso podría significar un menor crecimiento de los ingresos como nuevas empresas que siguen la estrategia de Deepseek construir modelos con menos chips de menor precio.