Análisis El CEO de Microsoft AI, Mustafa Suleyman, ha ensalzado las virtudes de jugar el segundo violín en la carrera Generation-AI.
En una entrevista de noticias de televisión la semana pasada, Suleyman argumentó que es más rentable para los constructores de modelos de frontera, incluido OpenAi que ha tomado miles de millones de Windows Giant, de tres a seis meses y construir sobre sus éxitos que competir directamente con ellos.
Nuestra estrategia es jugar un segundo muy apretado, dada la intensidad de capital de estos modelos
“Nuestra estrategia es jugar un segundo muy apretado, dada la intensidad de capital de estos modelos”, dijo a CNBC el viernes.
Además de ser más barato, Suleyman dijo que el tiempo extra permite a Microsoft optimizar para casos de uso específicos de los clientes.
Si bien la estrategia puede parecer inusual para una corporación en el corazón latido del movimiento Genai, refleja la posición en la que Microsoft, y ahora Suleyman, se encuentra a sí mismo.
Como recordarán, Suleyman se hizo un nombre como cofundador de Deepmind, que fue adquirido por Google en 2014. Suleyman se unió a Microsoft el año pasado después de un breve período como CEO de Inflexión de IA.
Mientras que su antiguo empleador en la fábrica de chocolate compite directamente con los gustos de Anthrope y Openai para construir modelos cada vez más capaces y ricos en funciones, Microsoft aún no ha lanzado un modelo fronterizo propio.
En cambio, la estrategia de Redmond está estrechamente vinculada a OpenAi, a la que proporciona una cantidad no desconsiderable de Azure Cloud Compute a cambio del derecho de usar la familia de modelos GPT de la startup en su creciente conjunto de servicios de IA con la marca de copilot.
Esta relación bien puede explicar el enfoque de Suleyman. No tiene mucho sentido invertir las cantidades masivas de capital necesarias para construir modelos fronterizos que puedan o no tener éxito en el mercado cuando su amigo Sam Altman en OpenAi lo hará por usted.
Dicho esto, Microsoft no está poniendo todos sus huevos en una cesta. Si bien la serie GPT está en el corazón de muchos servicios familiares de Copilot de Windows y Microsoft Cloud, no es la única colección de modelos que existe. El gigante de Excel desarrolla notablemente una línea de modelos de idiomas pequeños con licencia permisivamente bajo el nombre de codeName PHI.
En comparación con algo como GPT-4.5, estos modelos abiertos son minúsculos, que generalmente pesan en el rango de parámetros individuales a dos dígitos de mil millones de parámetros, lo que los hace apropiados para el uso de dispositivos en el borde, incluidas las computadoras portátiles, en lugar de los grupos de GPU multimillonarios. Los modelos también generalmente se han quedado atrás de las ofertas de primer nivel de OpenAI en términos de características, como las arquitecturas multimodalidad o la mezcla de expertos (MOE).
En la experiencia personal de este buitre, la familia de modelos PHI de Microsoft es generalmente bastante competente dado su tamaño, incluso si no tienden a ser tan emocionantes en cuanto a características, relativamente hablando.
Y su pequeño tamaño trae consigo ciertas ventajas. Con parámetros de 14 mil millones, PHI-4, por ejemplo, puede operar en una sola GPU de alta gama mientras mantiene tasas de generación aceptables. Esto hace que estas redes neuronales sean relativamente baratas para ejecutar junto a los modelos varias veces más grandes, lo que a menudo requiere múltiples GPU, si no los servidores de GPU, para lograr un rendimiento aceptable.
Un precursor de la autosuficiencia
Si bien Suleyman podría no estar interesado en competir directamente con Openai o Anthrope en el corto plazo, la dependencia de Microsoft en OpenAI puede no durar para siempre.
Es absolutamente la misión crítica que a largo plazo podamos hacer AI autosuficientemente en Microsoft
“Es absolutamente crítico que a largo plazo podamos hacer AI a sí mismo en Microsoft”, dijo a CNBC.
Pero si bien PHI puede ser un precursor para lograr este objetivo, parece que el vínculo de Redmond con OpenAi durará al menos otros cinco años. “Hasta 2030, al menos, estamos profundamente asociados con Operai, que tienen [had an] Una relación enormemente exitosa para nosotros “, agregó.
Suleyman minimizó las preocupaciones sobre la relación de Microsoft con Operai sigue la colaboración Stargate del Super Lab con Oracle y SoftBank, que se anunció el año pasado. Como parte de ese acuerdo, Microsoft ya no era el socio en la nube exclusivo de OpenAI.
Sin embargo, debe tenerse en cuenta que Microsoft no es el único que juega este juego. Varios otros proveedores de la nube han encontrado éxito en esta estrategia de seguimiento del líder.
Amazon Web Services posiblemente cae directamente en este campamento. AWS está fuertemente invertido en el rival de Operai Anthrope, al que contribuye con una cantidad astronómica de cómputo, como su clúster Project Rainier anunciado en diciembre.
Al mismo tiempo, AWS ha estado construyendo silenciosamente una familia de modelos de idiomas propios, con nombre en código Nova. Sin embargo, a diferencia de Microsoft, AWS parece estar manteniendo una correa más estrecha en su proyecto. Nova es propietaria, mientras que los modelos PHI de Microsoft tienen licencia de MIT y están disponibles libremente en los centros de modelos, incluida la cara de abrazo.
También se puede argumentar que el comercio electrónico chino y el gigante de la nube Alibaba han empleado una estrategia similar con su equipo de Qwen.
La familia Qwen de modelos atrajo una atención considerable por muchas de las mismas razones que Microsoft’s PHI. Los modelos, aunque no necesariamente innovadoras tecnológicamente, a menudo golpean muy por encima de su clase de peso, logrando un rendimiento comparable con LLM varias veces su tamaño.
La vista previa QWQ 32B de Qwen hizo su debut a fines de noviembre, poco más de dos meses después de la vista previa de Openi, la vista previa de O1 popularizó el concepto de “pensar”, también conocido como modelos de razonamiento. Tomó otros tres meses de pulido antes de que Alibaba lanzara el modelo final, tres meses después de que se finalizara el O1.
Se puede hacer un argumento similar para Deepseek. Con el concepto de modelos de lenguaje de razonamiento confirmado, la startup de IA china podría centrarse en iterar y optimizar el concepto para reducir enormemente los requisitos de calcular para crear y ejecutar dicho modelo.
Un enfoque de sistemas
Además de ser más barata, la estrategia de Suleyman también significa que Microsoft puede enfocar más energía en la creación de aplicaciones y otros sistemas en torno a modelos de idiomas grandes en lugar de encontrar nuevas formas de discutir redes neuronales.
Si bien se ha prestado mucha atención a los modelos en sí, como hemos discutido anteriormente, integrándolos en sistemas empresariales de una manera realmente valiosa puede ser una propuesta bastante complicada.
Junto con sus modelos PHI, Microsoft ha bombeado constantemente los marcos de investigación y software diseñados para que la integración de estos modelos sea más fácil y más eficiente.
Por ejemplo, el Titán de TI desarrolló Autogen, un marco para orquestar múltiples agentes de IA. Mientras tanto, el mes pasado, Redmond detalló su trabajo en KBLAM, cuyo objetivo es reducir el cálculo y la complejidad asociados con la extensión del conocimiento de un modelo de lenguaje utilizando datos estructurados.
Y la semana pasada, Microsoft presentó a Vidtok, un tokenizador de video de código abierto para convertir el video en tokens para facilitar que los modelos de aprendizaje automático comprendan contenido de video. ®