Noticias
La visión abierta del hardware de IA de Meta

- En la Cumbre Global 2024 de Open Compute Project (OCP), presentaremos nuestros últimos diseños de hardware de IA abierta con la comunidad de OCP.
- Estas innovaciones incluyen una nueva plataforma de inteligencia artificial, diseños de bastidores abiertos de vanguardia y estructuras y componentes de red avanzados.
- Al compartir nuestros diseños, esperamos inspirar la colaboración y fomentar la innovación. Si le apasiona construir el futuro de la IA, lo invitamos a colaborar con nosotros y con OCP para ayudar a dar forma a la próxima generación de hardware abierto para la IA.
La IA ha estado en el centro de las experiencias que Meta ha estado brindando a personas y empresas durante años, incluidas innovaciones en el modelado de IA para optimizar y mejorar características como Alimentar y nuestro sistema de anuncios. A medida que desarrollamos y lanzamos modelos de IA nuevos y avanzados, también nos sentimos impulsados a mejorar nuestra infraestructura para respaldar nuestras cargas de trabajo de IA nuevas y emergentes.
Por ejemplo, Llama 3.1 405Bel modelo más grande de Meta, es un transformador denso con parámetros 405B y una ventana de contexto de hasta 128k tokens. Para entrenar un modelo de lenguaje grande (LLM) de esta magnitud, con más de 15 billones de tokens, tuvimos que realizar optimizaciones sustanciales en toda nuestra pila de entrenamiento. Este esfuerzo impulsó nuestra infraestructura a operar en más de 16 000 GPU NVIDIA H100, lo que convirtió a Llama 3.1 405B en el primer modelo de la serie Llama entrenado a una escala tan masiva.
Antes de Llama, nuestros trabajos de IA más importantes se ejecutaban en 128 GPU NVIDIA A100. Pero las cosas se han acelerado rápidamente. En el transcurso de 2023, ampliamos rápidamente nuestros grupos de capacitación de GPU de 1K, 2K, 4K y, finalmente, de 16K para respaldar nuestras cargas de trabajo de IA. Hoy, estamos entrenando nuestros modelos en dos Clústeres de GPU de 24K.
No esperamos que esta trayectoria ascendente de los grupos de IA se desacelere en el corto plazo. De hecho, esperamos que la cantidad de computación necesaria para el entrenamiento de IA crezca significativamente desde donde nos encontramos hoy.
La creación de clústeres de IA requiere algo más que GPU. Las redes y el ancho de banda juegan un papel importante para garantizar el rendimiento de los clústeres. Nuestros sistemas constan de un sistema informático HPC estrechamente integrado y una red informática aislada de gran ancho de banda que conecta todas nuestras GPU y aceleradores específicos de dominio. Este diseño es necesario para satisfacer nuestras necesidades de inyección y abordar los desafíos planteados por nuestra necesidad de ancho de banda de bisección.
En los próximos años, anticipamos un mayor ancho de banda de inyección del orden de un terabyte por segundo, por acelerador, con el mismo ancho de banda de bisección normalizado. ¡Esto representa un crecimiento de más de un orden de magnitud en comparación con las redes actuales!
Para respaldar este crecimiento, necesitamos una estructura de red sin bloqueo, de múltiples niveles y de alto rendimiento que pueda utilizar un control de congestión moderno para comportarse de manera predecible bajo cargas pesadas. Esto nos permitirá aprovechar al máximo el poder de nuestros grupos de IA y garantizar que sigan funcionando de manera óptima a medida que ampliamos los límites de lo que es posible con la IA.
Escalar la IA a esta velocidad requiere soluciones de hardware abiertas. El desarrollo de nuevas arquitecturas, estructuras de red y diseños de sistemas es más eficiente e impactante cuando podemos construirlo sobre principios de apertura. Al invertir en hardware abierto, liberamos todo el potencial de la IA e impulsamos la innovación continua en este campo.
Presentamos Catalina: arquitectura abierta para infraestructura de IA
Hoy anunciamos a la comunidad OCP el próximo lanzamiento de Catalina, nuestro nuevo bastidor de alta potencia diseñado para cargas de trabajo de IA. Catalina se basa en la solución de escala de rack completa de la plataforma NVIDIA Blackwell, con un enfoque en la modularidad y la flexibilidad. Está diseñado para admitir el último superchip NVIDIA GB200 Grace Blackwell, lo que garantiza que satisfaga las crecientes demandas de la infraestructura de inteligencia artificial moderna.
Las crecientes demandas de energía de las GPU significan que las soluciones de rack abierto deben admitir una mayor capacidad de energía. Con Catalina presentamos el Orv3, un bastidor de alta potencia (HPR) capaz de soportar hasta 140 kW.
La solución completa está refrigerada por líquido y consta de un estante eléctrico que admite una bandeja de computación, una bandeja de conmutación, el Orv3 HPR, el Cuña 400 conmutador de estructura, un conmutador de gestión, una unidad de respaldo de batería y un controlador de gestión de bastidor.
Nuestro objetivo es que el diseño modular de Catalina permita a otros personalizar el rack para satisfacer sus cargas de trabajo de IA específicas y, al mismo tiempo, aprovechar los estándares industriales existentes y emergentes.
La plataforma Grand Teton ahora admite aceleradores AMD
En 2022, anunciamos Gran Tetónnuestra plataforma de IA de próxima generación (la continuación de nuestra plataforma Zion-EX). Grand Teton está diseñado con capacidad informática para soportar las demandas de cargas de trabajo con ancho de banda de memoria, como los modelos de recomendación de aprendizaje profundo de Meta (DLRM), así como cargas de trabajo vinculadas a la computación, como la comprensión de contenidos.
Ahora, hemos ampliado la plataforma Grand Teton para admitir AMD Instinct MI300X y contribuiremos con esta nueva versión a OCP. Al igual que sus predecesores, esta nueva versión de Grand Teton presenta un diseño de sistema monolítico único con interfaces de estructura, computación, control y energía totalmente integradas. Este alto nivel de integración simplifica la implementación del sistema, lo que permite un escalamiento rápido con mayor confiabilidad para cargas de trabajo de inferencia de IA a gran escala.
Además de admitir una variedad de diseños de aceleradores, que ahora incluyen el AMD Instinct MI300x, Grand Teton ofrece una capacidad de procesamiento significativamente mayor, lo que permite una convergencia más rápida en un conjunto más grande de pesos. Esto se complementa con una memoria ampliada para almacenar y ejecutar modelos más grandes localmente, junto con un mayor ancho de banda de red para ampliar los tamaños de los clústeres de entrenamiento de manera eficiente.
Tejido programado abierto y desagregado
El desarrollo de un backend de red abierto e independiente del proveedor desempeñará un papel importante en el futuro a medida que sigamos impulsando el rendimiento de nuestros grupos de capacitación en IA. La desagregación de nuestra red nos permite trabajar con proveedores de toda la industria para diseñar sistemas que sean innovadores, además de escalables, flexibles y eficientes.
Nuestro nuevo tejido programado desagregado (DSF) para nuestros clústeres de IA de próxima generación ofrece varias ventajas sobre nuestros conmutadores existentes. Al abrir nuestra estructura de red podemos superar las limitaciones de escala, opciones de suministro de componentes y densidad de energía. DSF funciona con energía abierta OCP-EFS estándar y FOBOSEl propio sistema operativo de red de Meta para controlar conmutadores de red. También admite una interfaz RoCE abierta y estándar basada en Ethernet para puntos finales y aceleradores en varias GPUS y NICS de varios proveedores diferentes, incluidos nuestros socios de NVIDIA, Broadcom y AMD.
Además de DSF, también hemos desarrollado y construido nuevos conmutadores de estructura 51T basados en Broadcom y Cisco ASIC. Finalmente, compartimos nuestro nuevo FBNIC, un nuevo módulo NIC que contiene nuestro primer ASIC de red Meta-design. Para satisfacer las crecientes necesidades de nuestra IA
Meta y Microsoft: impulsando juntos la innovación abierta
Meta y Microsoft tienen una asociación de larga data dentro de OCP, comenzando con el desarrollo de Cambiar interfaz de abstracción (SAI) para centros de datos en 2018. A lo largo de los años juntos, hemos contribuido a iniciativas clave como la Módulo acelerador abierto (OAM) estándar y estandarización de SSD, lo que muestra nuestro compromiso compartido con el avance de la innovación abierta.
Nuestro actual La colaboración se centra en el Monte Diablo.un nuevo power rack desagregado. Es una solución de vanguardia que presenta una unidad escalable de 400 VCC que mejora la eficiencia y la escalabilidad. Este diseño innovador permite más aceleradores de IA por rack de TI, lo que mejora significativamente la infraestructura de IA. Estamos entusiasmados de continuar nuestra colaboración a través de esta contribución.
El futuro abierto de la infraestructura de IA
Meta apuesta por la IA de código abierto. Creemos que el código abierto pondrá los beneficios y oportunidades de la IA en manos de personas de todo el mundo.
La IA no alcanzará todo su potencial sin colaboración. Necesitamos marcos de software abiertos para impulsar la innovación de modelos, garantizar la portabilidad y promover la transparencia en el desarrollo de la IA. También debemos priorizar modelos abiertos y estandarizados para poder aprovechar la experiencia colectiva, hacer que la IA sea más accesible y trabajar para minimizar los sesgos en nuestros sistemas.
Igual de importante es que también necesitamos sistemas de hardware de IA abiertos. Estos sistemas son necesarios para ofrecer el tipo de infraestructura adaptable, rentable y de alto rendimiento necesaria para el avance de la IA.
Alentamos a cualquiera que quiera ayudar a avanzar en el futuro de los sistemas de hardware de IA a interactuar con la comunidad OCP. Al abordar juntos las necesidades de infraestructura de la IA, podemos desbloquear la verdadera promesa de una IA abierta para todos.