Nvidia presenta la arquitectura Ampère a 7 nm y la tarjeta A100

Nvidia ha anunciado finalmente su nueva arquitectura gráfica, tras pasar dos años desde que presentara la Turing con trazado de rayos y núcleos tensoriales. Esta arquitectura se llama Ampère, y Nvidia ha confirmado que será la misma para las tarjetas gráficas generalistas GeForce, si bien inicialmente la ha presentado para el chip gráfico de la nueva tarjeta de cómputo A100.

El proceso litográfico de fabricación elegido para el chip A100 que utiliza es el de 7 nm de TSMC, y eso significa que en comparación con el GV100 de la Tesla V100 predecesora permite casi triplicar el número de transistores en un tamaño ligeramente superior. Eso son 826 mm² frente a 815 mm² y 54 000 millones de transistores frente a 21 100 M.

Esta nueva A100 cuenta con 6912 núcleos CUDA frente a los 5120 de la Tesla V100, funcionando a un turbo de unos 1.41 GHz, y aumenta significativamente la potencia de la tarjeta, aunque no tanto en procesamiento general sino en el cálculo de tensores. Un tensor es una estructura algebraica usada en inteligencia artificial, y por tanto una tarjeta gráfica para cómputo tiene que destacar en este terreno.

Comparativa de aceleradoras de cómputo de Nvidia
	A100	Tesla V100	Tesla P100
Núcleos CUDA FP32	6912	5120	3584
Frec. turbo	≈1410 MHz	1530 MHz	1480 MHz
Reloj memoria	HBM2 2.4 Gb/s	HBM2 1.75 Gb/s	HBM2 1.4 Gb/s
Bus memoria	5120 bits	4096 bits	4096 bits
Ancho de banda memoria	1.6 TB/s	900 GB/s	720 GB/s
VRAM	40 GB	16/32 GB	16 GB
Precisión simple	19.5 TFLOPs	15.7 TFLOPs	10.6 TFLOPs
Doble precisión	9.7 TFLOPs	7.8 TFLOPs	5.3 TFLOPs
Tensor INT8	624 TOPs	N/A	N/A
Tensor FP16	312 TFLOPs	125 TFLOPs	N/A
Tensor TF32	156 TFLOPs	N/A	N/A
Interconexión	NVLink 3 12 enlaces a 600 GB/s	NVLink 2 6 enlace a 300 GB/s	NVLink 1 4 enlaces a 160 GB/s
GPU	A100 (826 mm²)	GV100 (815 mm²)	GP100 (610 mm²)
Transistores	54 200 M	21 100 M	15 300 M
Consumo	400 W	300/350 W	300 W
Litografía	TSMC 7 nm	TSMC 12 nm FFN	TSMC 16 nm FinFET
Interfaz	SXM4	SXM2/SXM3	SXM
Arquitectura	Ampère	Volta	Pascal

Por ello, la mejora de la arquitectura y de los núcleos tensoriales de la arquitectura Ampère hace que el cálculo de tensores en FP16 pase de 125 TFLOPS a los 312 TFLOPS, y se permite el cálculo de tensores en TF32 e INT8. Ambos son cálculos normales en inteligencia artificial pero que no todas las arquitecturas los implementan por hardware. En INT8 la potencia de cómputo pasa a los 624 TOPS, y en TF32 se obtiene 156 TOPS.

También destaca que a pesar de casi triplicar el número de transistores —bueno, las multiplica por 2.6 para ser más correcto, si bien este chip no está totalmente desbloqueado por lo que parte de esos transistores no se usan; lo explico más abajo— el consumo apenas sube 50 W, lo que hace que esta tarjeta pase de un consumo de 350 W hasta los 400 W, teniendo en cuenta que el chip GV100 estaba producido con el proceso de 12 nm de TSMC. En todos los parámetros básicos esta tarjeta gráfica es muy superior a su predecesora.

El tema está en que las distintas optimizaciones de la arquitectura, la potencia en entrenamiento de redes neuronales se multiplica por seis respecto a la Tesla V100, y en inferencias se multiplica por siete. En potencia de cómputo más generalista se queda más bien en el doble de rendimiento, por esas optimizaciones para programas, aunque en potencia de cómputo en bruto apenas arroje un 33 % más. Pero no es una tarjeta gráfica para tareas de cómputo generalistas, sino para inteligencia artificial.

Destaca en ello el uso de memoria HBM2 a 2.43 GHz, con un total de 40 GB de VRAM, con un bus de 5192 bits —cinco chips HBM2 a 1024 bits cada uno— lo que arroja un impresionante ancho de banda de 1.6 TB/s. La compañía ha indicado que incluye 432 núcleos tensoriales de tercera generación, a razón de cuatro por multiprocesador de flujos de datos (SM).

La tarjeta usa una interfaz PCIe 4.0, y usa un conector especial de comunicación NVLink 3 de doce enlaces lo que aporta una comunicación intertarjetas de 600 GB/s, que es muy superior a los 31.5 GB/s de la comunicación PCIe 4.0 estándar, y es necesaria para las máquinas en las que se pueden poner en paralelo hasta ocho tarjetas A100 como las de la imagen de cabecera.

Hay un dato de interés sobre este chip y es que parte de él está desactivado. El chip GA100 completo, según indica Nvidia, incluye 8192 núcleos CUDA con seis controladores de memoria HBM2 (bus máximos de 6144 bits para unos 1.92 TB/s), lo que abre la puerta a que Nvidia anuncie en un futuro, a medida que el rendimiento de producción lo permita, modelos de las Tesla y otras tarjetas mucho más potentes.

Como curiosidad, a continuación tenéis cuál sería una aproximación a su rendimiento en juegos si usara unos controladores GeForce —que no los usa—, sin tener en cuenta cambios respecto a Turing —que las GeForce de tipo Ampère las tendrá—. Imaginaos cómo quedaría una tarjeta con un chip A100 totalmente desbloqueado de 8192 núcleos CUDA.

Vía: AnandTech.