Nvidia ha presentado finalmente su nueva arquitectura Volta, de la que lleva hablando al menos tres años, y no ha dejado a nadie indiferente. El chip más potente de la serie, llamado GV100, ha crecido sustancialmente con respecto al GP100 de arquitectura Pascal. Tanto que añade un 33 % más de superficie, y eso teniendo en cuenta que el proceso de fabricación es a 12 nm FNN en vez de a 16 nm FinFET.
FFN utiliza los habituales transistores FinFET —en tres dimensiones—, pero la N es de Nvidia, ya que se trata de un proceso de fabricación personalizado de la propia Nvidia. Este punto es algo que es más común en auténticos gigantes como Apple y Samsung, pero no tanto en otras más pequeñas comparativamente hablando como Nvidia —Apple y Samsung ingresan más de 200 000 millones de dólares al año, y Nvidia apenas movía, hasta ahora, en torno a los 4000 M$ anuales—.
Comparativa de chips gráficos de Nvidia | |||||
GV100 | GP100 | GK110 | |||
Núc. CUDA | 5376 | 3840 | 2880 | ||
Núc. tensoriales | 672 | N/A | N/A | ||
SM | 84 | 60 | 15 | ||
Núc. CUDA por SM | 64 | 64 | 192 | ||
Núc. tensoriales por SM | 8 | N/A | N/A | ||
Unidades de textura | 336 | 240 | 240 | ||
Tipo de memoria | HBM2 | HBM2 | GDDR5 | ||
Bus de memoria | 4096 bits | 4096 bits | 384 bits | ||
Memoria compartida | 128 KB, configurable | 24 KB L1, 64 KB compartida | 48 KB | ||
Caché de L2 | 6 MB | 4 MB | 1.5 MB | ||
Media precisión | 2:1 (Vec2) | 2:1 (Vec2) | 1:1 | ||
Doble precisión | 1:2 | 1:2 | 1:3 | ||
Tamaño de pastilla | 815 mm2 | 610 mm2 | 552 mm2 | ||
Transistores | 21 100 M | 15 300 M | 7 100 M | ||
TDP | 300 W | 300 W | 235 W | ||
Proc. de fabricación | TSMC 12 nm FFN | TSMC 16 nm FinFET | TSMC 28 nm | ||
Arquitectura | Volta | Pascal | Kepler |
Un GV100 totalmente desbloqueado dispone de 5376 núcleos CUDA, además de 672 núcleos tensoriales destinados a hacer cálculos complejos de tensores, una estructura algebraica utiliza en la inteligencia artificial.
En cuanto a la Tesla V100, aunque está basado en el GV100, hay algunos detalles en el aire que no ha dado Nvidia. Son 5120 núcleos CUDA —es normal que inicialmente no se alcance el máximo potencial de un chip por problemas de fabricación que hay que ir resolviendo—, y cuenta con una frecuencia de 1455 MHz, con 16 GB de memoria HBM2 a 1.75 Gbps con bus de 4096 bits, lo que da 900 GB/s de ancho de banda.
El resultado es que la Tesla V100 es en torno a un 50 % más potente que la Tesla P100 en cálculos en doble precisión, precisión simple y media precisión —30 TFLOPS, 15 TFLOPS y 7.5 TFLOPS respectivamente—, con mismo consumo de 300 W. Es un chip realmente impresionanete, al que hay que añadirle los núcleos tensoriales, de los que incluye 640 por las razones anteriormente indicadas para los núcleos CUDA.
Para los que queráis saber más sobre el funcionamiento del cálculo de tensores y por qué es tan importante en el GV100, podéis consultar el artículo en perfecto inglés sobre la nueva arquitectura que ha colgado Nvidia.
Tesla Product | Tesla K40 | Tesla M40 | Tesla P100 | Tesla V100 |
---|---|---|---|---|
GPU | GK110 (Kepler) | GM200 (Maxwell) | GP100 (Pascal) | GV100 (Volta) |
SM | 15 | 24 | 56 | 80 |
TPC | 15 | 24 | 28 | 40 |
Núc. FP32 / SM | 192 | 128 | 64 | 64 |
Núc. FP32 / GPU | 2880 | 3072 | 3584 | 5120 |
Núc. FP64 / SM | 64 | 4 | 32 | 32 |
Núc. FP64 / GPU | 960 | 96 | 1792 | 2560 |
Núc. tensoriales / SM | NA | NA | NA | 8 |
Núc. tensoriales / GPU | NA | NA | NA | 640 |
Frec. turbo | 810/875 MHz | 1114 MHz | 1480 MHz | 1455 MHz |
FP32 TFLOP/s | 5.04 | 6.8 | 10.6 | 15 |
FP64 TFLOP/s | 1.68 | 2.1 | 5.3 | 7.5 |
TFLOP tensoriales por segundo | NA | NA | NA | 120 |
Uds. textura | 240 | 192 | 224 | 320 |
Interfaz de memoria | 384 bits GDDR5 | 384 bits GDDR5 | 4096 bits HBM2 | 4096 bits HBM2 |
Cantidad de memoria | Hasta 12 GB | Hasta 24 GB | 16 GB | 16 GB |
Caché L2 | 1536 KB | 3072 KB | 4096 KB | 6144 KB |
Memoria compartida / SM | 16 KB/32 KB/48 KB | 96 KB | 64 KB | Configurable hasta 96 KB |
Tamaño de archivo de registro / SM | 256 KB | 256 KB | 256 KB | 256KB |
Tamaño archivo de registro / GPU | 3840 KB | 6144 KB | 14336 KB | 20480 KB |
TDP | 235 vatios | 250 vatios | 300 vatios | 300 vatios |
Transistores | 7100 M | 8000 M | 15 300 M | 21 100 M |
Tamaño pastilla | 551 mm² | 601 mm² | 610 mm² | 815 mm² |
Proceso fabricación | 28 nm | 28 nm | 16 nm FinFET+ | 12 nm FFN |
Vía: AnandTech.