Noticias

Deepseek llega a las existencias como meta se adhiere al presupuesto de IA

Published

on

Deepseek fue la charla de Silicon Valley y Wall Street esta semana después de que solo limpió casi $ 600 mil millones de valor de mercado de Nvidia. Su costo de $ 5.6 millones para capacitar a sus modelos de cimientos con solo unos 2,000 de chips H800 Nvidia más lentos trajo preocupaciones de una menor demanda futura de chips.

Pero comenzaron a surgir preguntas sobre su costo de pre-entrenamiento. Los analistas de Bank of America creen que otros costos fueron excluidos del total, mientras que Operai cree que Deepseek utilizó un método llamado destilación para usar resultados generados de los propios modelos de OpenAI, una violación de sus términos de servicio.

Lo que es indiscutible es que Deepseek introdujo varias innovaciones de ingeniería que Silicon Valley podría adoptar para reducir sus propios costos de pre-entrenamiento. Esto es un buen augurio para las empresas, ya que podría reducir los costos de inferencia de inteligencia artificial (IA) y hacer que las empresas estén más dispuestas a implementar IA de manera amplia.

Los CEO de Meta y Microsoft responden a Deepseek

El CEO de Meta, Mark Zuckerberg, dijo que su compañía analizaría las innovaciones de Deepseek y tal vez las aplicaría a su propia capacitación de IA, durante su llamada de ganancias del tercer trimestre fiscal con analistas esta semana.

Pero Zuckerberg se puso de pie en sus planes de gastar $ 60 mil millones a $ 65 mil millones en infraestructura de IA. Si bien Deepseek ofrece un camino de menor costo hacia el entrenamiento de IA, dijo que dos factores lo convencieron de no retirarse al gasto.

Una es la tendencia de inferencia como llevar la mayor parte de los costos de IA, dijo Zuckerberg. Como los modelos de IA agregan habilidades de razonamiento, los costos de inferencia serán más consecuentes. La inferencia es cuando un modelo de base previamente capacitado recibe nuevos datos para comprender y analizar, como cuando un usuario ingresa un mensaje y recibe una respuesta.

En segundo lugar, Zuckerberg dijo que mientras Meta incorpora a su asistente de IA, Meta AI, más completamente en sus sitios de redes sociales y aplicaciones de chat, tendrán más cargas de trabajo de IA para procesar de sus miles de millones de usuarios. Esto requiere construir más centros de datos, servidores y otras infraestructuras para el procesamiento.

La CEO de Microsoft, Satya Nadella, también dijo que su compañía planea mantener el gasto en centros de datos, especialmente porque su negocio de IA está en auge. En el recién concluido segundo trimestre fiscal de Microsoft, la tasa de ejecución anual de ingresos del segmento fue de $ 13 mil millones, un 175% más año tras año.

Nadella reconoció que Deepseek tenía algunas innovaciones que valía la pena considerar, pero señaló que la industria de la inteligencia artificial ha estado agregando eficiencias y reduciendo los costos para los clientes.

Nadella dijo que esto continuará debido a la ley de escala de IA y la ley de Moore. La ley de escala dicta que cuanto más datos y potencia informática se otorgan a un modelo de IA, mejor se desempeña. La ley de Moore, aunque desacelerada, predice que el número de transistores en un microchip duplicará aproximadamente cada dos años con un aumento de costos mínimos.

Estos dos combinados conducirán a una IA más barata y más poderosa, dijo.

CEO Anthrope: la amenaza de Deepseek para nosotros liderar ‘muy exagerados’

El CEO de Anthrope, Dario Amodei, dijo que hablar sobre Deepseek, plantear una amenaza para el liderazgo de EE. UU. En AI, está “muy exagerado”, según un ensayo personal.

El entrenamiento económico de Deepseek de sus modelos de IA sigue la curva típica de los costos que disminuyen a medida que los modelos de IA se vuelven más eficientes. Históricamente, los costos de capacitación caen 4x (cuatro veces) por año debido a una mejor tecnología y mejoras de eficiencia, dijo. Esto significa que si un modelo cuesta $ 100 millones para entrenar el año pasado, un modelo similar hoy costaría alrededor de $ 25 millones.

Los modelos de Deepseek están a la par con los mejores modelos de IA de EE. UU., Pero esto se basó en el rendimiento de los modelos de EE. UU. Hace siete a 10 meses, no cómo están funcionando ahora, dijo. Para dar cuenta de este retraso, duplicó la caída de costos de cuatro veces a 8x (ocho veces) para Deepseek. Eso significa que no sería inusual que nadie construya un modelo de IA mucho más barato hoy.

Deepseek “no” hace por $ 6 millones (para capacitar un modelo) lo que nos costó a las compañías de IA miles de millones “. AmoDei dijo, y agregó que cuesta “decenas de millones” entrenar el soneto Claude 3.5 de Anthrope.

Amodei también aclaró una cosa que Wall Street mezcló: el modelo de la Fundación de Deepseek, V3, fue el modelo puramente pretruado con los ahorros de costos; Fue lanzado en diciembre. R1, el modelo de razonamiento de Deepseek que se estremeció en el stock de Nvidia, fue la segunda etapa de entrenamiento del V3, agregando una técnica llamada aprendizaje de refuerzo que lo hizo funcionar a la par con la O1 de OpenAi y otros modelos de razonamiento superiores. R1 fue lanzado el 20 de enero.

Deepseek V3 inventó “innovaciones genuinas e impresionantes, principalmente centradas en la eficiencia de ingeniería”, dijo. Sin embargo, muchos investigadores e ingenieros también han mejorado constantemente los modelos de IA, agregó.

“Lo que es diferente esta vez es que la compañía que fue la primera en demostrar las reducciones de costos esperadas fue chino”, dijo Amodei. “Esto nunca ha sucedido antes y es geopolíticamente significativo. Sin embargo, las compañías estadounidenses pronto harán lo mismo, y no harán esto copiando Deepseek, pero porque ellos también están logrando la tendencia habitual en la reducción de costos “.

Dijo que lo que tiene sentido para él es restringir las exportaciones de chips de IA avanzados a China debido a su régimen “autoritario”. Incluso si las exportaciones simplemente retrasan el acceso de China a estos chips, “debido a que los sistemas de IA eventualmente pueden ayudar a hacer sistemas de IA aún más inteligentes, un plomo temporal podría convertirse en una ventaja duradera”, dijo Amodei.

SoftBank invierte en OpenAi

Según los informes, el inversor de tecnología japonés SoftBank planea invertir entre $ 15 mil millones y $ 25 mil millones en OpenAI, según Financial Times, lo que lo convertiría en el mayor inversor en la startup después de Microsoft.

El monto sería suma de los planes de SoftBank de $ 15 mil millones para contribuir a Stargate, un proyecto de $ 100 mil millones a $ 500 mil millones para construir centros de datos de IA y otra infraestructura. Operai planea invertir $ 15 mil millones. MGX, un fondo de inversión soberana de los EAU, es parte del proyecto.

Según el informe del Financial Times, Operai ha recaudado alrededor de $ 20 mil millones hasta ahora en varias rondas de financiación, incluidos los $ 14 mil millones de Microsoft. Softbank invirtió $ 2 mil millones en OpenAi el año pasado.

El CEO de SoftBank, Masayoshi Son, ha estado cortejando Openai durante años. Obtener una participación más grande en OpenAI es la piedra angular del objetivo declarado de Son de desarrollar superinteligencia de IA.

La inversión de Softbank en OpenAI probablemente será la más grande de la compañía japonesa, con una inversión fallida de $ 16 mil millones en WeWork en segundo lugar.

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Trending

Exit mobile version