AMD está dispuesta a sacar el máximo provecho a las nuevas tecnologías de encapsulado de chips y lo demuestra con la familia de aceleradoras Radeon MI200. Está compuesta por dos modelos, la Radeon MI250 y MI250X, que se diferencia solo ligeramente en potencia. Ambas incluyen 128 GB de HBM2e y tienen un consumo de 560 W, por lo que su lugar ideal es el centro de datos. Pero cada una de ellas no incluye una unidad gráfica de procesamiento (GPU), sino dos.

Ambas GPU están encapsulados en un mismo sustrato pero son vistas por el sistema operativo por separado, por lo que no se trata de un diseño de módulo multichip (MCM) en el cual se espera que AMD se introduzca más adelante en el sector de las tarjetas gráficas. Es una versión refinada de las tarjetas que siempre ha presentado la compañía con dos GPU, pero en este caso uniendo ambas GPU a través de una interconexión Infinity. Por eso AMD habla simplemente de «primera GPU multichip», que es lo suficientemente parecido a que sea un MCM sin serlo, los cuales funcionan como un solo procesador. Para la publicidad les quedará genial.

iyjnuawb2kqhqsamgn2oqf-1024-80.jpg.webp

Los chips están fabricados a 6 nm por TSMC e incluyen 29 100 millones de transistores. La arquitectura de las GPU es la CDNA 2, la derivada de GCN para computación, y son chips con una potencia envidiable. Cada uno tiene 104 o 110 unidades de cómputo dependiendo de si va al MI250 o MI250X, con 416 o 440 núcleos matriciales para cargas de inteligencia artificial. La memoria funciona a 3.2 GHz y tiene un bus de 8192 bits, por lo que arroja la cifra de un ancho de banda de memoria de 3.2 Tb/s. Una RTX 3090 no llega a 1 Tb/s.

El principal problema de este diseño que no es MCM es que las GPU están diferenciadas y por tanto para conseguir la coherencia de su memoria tienen que replicar la información en la memoria integrada en cada GPU. Eso significa que en la práctica estas aceleradoras funcionan como si tuviera 64 GB, que es lo indicado para la MI250X, aunque la MI250 no dispone de coherencia CPU/GPU. Es importante en ciertos tipos de operaciones porque ahorra ancho de banda al no tener que mover tanta información entre CPU y GPU, por lo que al final todo depende de los casos de uso.

A cambio la MI250 tiene su ancho de banda de memoria intacto para comunicarse entre ambos chips de la GPU, ya que adquirir coherencia de memoria implica mover más cantidad de memoria que se le resta al movimiento de operaciones entre la memoria de ambos chips y respecto a la memoria principal del sistema. Los enlaces entre ambos chips de la GPU funcionan a 400 GB/s dúplex.

También se expande la capacidad de procesar instrucciones de 64 bits (FP64) por ciclo de reloj, al doble en el caso de las operaciones vectoriales y al cuádruple las matriciales, lo que hace que en la práctica se más que cuadruplique la potencia de cómputo de la Instinct MI100 la cual tenía solo una GPU. La MI250X alcanza los 47.9 TFLOPS vectoriales y los 95.7 TFLOPS matriciales. La MI100 tenía 11.5 TFLOPS en ambos casos. También duplica las operaciones en coma flotante de inteligencia artificial (BF16) respecto a la arquitectura CDNA.

oam_side_profile_575px.jpg

Estos chips se incluyen en un diseño de placa OAM (módulo acelerador del Proyecto de Computación Abierta [OCP]), que es un factor de factor usado por AMD e Intel pero no por NVIDIA; al menos por ahora. Son tarjetas diseñadas para que tengan un alto ancho de banda de comunicación con el equipo en el que se incluyan.

Gracias al uso de esta tarjeta OAM se pueden disponer hasta ocho tarjetas en un mismo equipo, pero no todas las aceleradoras están conectadas con todas, por lo que habrá una ligera pérdida de rendimiento si se tienen que comunicar con las MI250 más alejadas.

Estas tarjetas gráficas Instinct se pondrán a la venta en el primer trimestre de 2022 aunque primeramente se pondrán en mano del Departamento de Energía de los EUA para la supercomputadora Frontier. Próximamente se pondrá a la venta una tarjeta Instinct M210 en formato PCIe tradicional.

mi200-and-epyc-server.jpg