Después de hablar de las primeras RTX 40 y de DLSS 3 es el turno de la arquitectura Ada que potencia las GPU de estas nueva generación de tarjetas gráficas de NVIDIA. Es interesante en todos los terrenos porque no deja muchas cosas sin tocar, aunque se puede intuir rápidamente que no hay grandes cambios en lo que es la arquitectura de los sombreadores.
NVIDIA fía la mayor parte del aumento de rendimiento al proceso litográfico de 4 nm de TSMC lo cual permite aumentar el número de transistores por chip sin aumentar casi su tamaño. El chip (previsiblemente) AD102 que incluye la RTX 4090 es el doble de potente que el que incluye la RTX 3090. Eso quiere decir que los 16 384 CUDA a 2.52 GHz de la 4090 tienen el doble de rendimiento que los 10 496 a 1.69 GHz de la 3090. Un 56 % más de núcleos CUDA con un aumento del 50 % de la frecuencia Turbo.
Es fácil intuir que las instrucciones por ciclo procesadas por estas GPU de arquitectura Ada se sitúan al mismo nivel que las procesadas por Ampère si ambas funcionaran a misma frecuencia. Como me imaginaba, cualquier cambio mayor de la arquitectura la dejará para la próxima generación, aunque hasta hace poco los esperaba para la arquitectura Ada. Toda la mejora de rendimiento en renderizado puro de las RTX 40 procede de la litografía.
La madre del cordero de esta generación está en todo lo demás que no son los sombreadores (los CUDA). NVIDIA ha tocado desde los codificaciones de vídeo hasta Reflex pasando por los inevitables cambios en los núcleos tensoriales y de trazado de rayos los cuales sí han evolucionado en esta generación. Sobre Reflex ha indicado que la latencia de sistema llega a ser tan baja como los 10 ms, lo cual es bastante impresionante. El sistema se salta todo el proceso de búfer habitual a la hora de enviar los fotogramas al monitor y reduce el procesamiento en pos de minizar esa latencia tan importante en juegos de acción rápida, principalmente los de tiros, impactando sobre todo en los profesionales de deportes electrónicos.
El chip AD102 incluye 76 000 millones de transistores frente a los 28 000 millones del chip GA102 fabricado a 8 nm por Samsung. La potencia máxima de este chip es de 90 TFLOPS, teniendo el modelo cribado para la RTX 4090 en torno a los 83 TFLOPS, por lo que es un chip capado. Y aquí es donde las cosas se ponen curiosas.
Pasando de un proceso litográfico de 8 nm de Samsung —uno bastante malo— a uno de 4 nm de TSMC —uno bastante bueno—, la compañía solo consigue duplicar el rendimiento de los CUDA con un consumo de 450 W frente a los 350 W de la RTX 3090. El doble de rendimiento con un aumento del 28 % del consumo. Una RTX 3090 con esta arquitectura consumiría unos 245 W —no todo el consumo es la GPU—, lo cual supone un 42 % más de rendimiento por vatio. La mejora de eficiencia es muy baja para pasar de 8 nm a 4 nm.
AMD ofrecerá un 50 % más de rendimiento por vatio pasando simplemente de una litografía de 7 nm a una de 5 nm. Bastante más impresionante.
Si NVIDIA dice que le importa la huella de carbono de sus productos, lo fía todo a los juegos con trazado de rayos y DLSS 3, que en realidad van a ser una minoría. En el resto de juegos la huella de carbono va a aumentar innecesariamente. Probablemente esto de contaminar menos sea lo que menos le importa, y eso que en la presentación Jensen Huang ha hablado de ecologismo. Ha sido una oportunidad desperdiciada para reducir el consumo de sus productos y que los jugones reduzcan su huella energética.
NVIDIA ha triplicado el número de transistores en el chip AD102, y es probable que hasta un tercio —seguramente bastante menos— vaya a los cambios de los sombreadores, aumento de su caché, etc., así como una característica nueva llamada reordenamiento de la ejecución en sombreadores aplicada al trazado de rayos.
Es igual a lo que tiene Intel en las GPU de las Arc serie A, una unidad de ordenación de hilos de trazado de rayos agrupados en función de la tarea que tiene que haceer después de recorrer el BVH (jerarquía de delimitadores de volúmenes), como por ejemplo detectar un nuevo rebote de rayo, descartarlos, modificar el color de los píxeles, etc. Agrupar los tipos de acciones a ejecutar siempre permite un uso más eficiente de los sombreadores que son al final los que tienen que seguir haciendo cálculos.
El resto tiene que ver con la nueva generación de núcleos tensoriales y de trazado de rayos, que incluyen cambios que no son menores haciendo que ocupen bastante más espacio en el chip. De entrada, cada núcleo de trazado de rayos de Ada duplica la potencia del núcleo de Ampère, que junto al aumento de frecuencia hace que tengan un 180 % más de rendimiento global al comparar la 3090 con la 4090.
Estas unidades incluyen dos motores nuevos: de micromapas de opacidad y de micromallas. Para hacerlos funcionar se introducen primitivas —es como se llama a las instrucciones que se pide a las GPU que se ejecuten— nuevas relacionadas con la información de opacidad de la geometría que se genera en los sombreadores. Almacenan información sobre opacidad y desplazamiento, útil para acelerar el trazado de rayos.
Las micromallas desplazadas son microtriángulos de las texturas que se pueden directamente rasterizar o generar mediante trazado de rayos sin necesidad de convertirlas o expandirlas lo cual permite superficies mucho más detalladas para cuando la cámara está muy cerca del objeto. Permiten generar hasta diez veces más rápido el BVH, y mejora la eficiencia de la compresión de memoria. Todo lo que se almacene en la GPU reduce el uso del ancho de banda de la memoria de vídeo.
Los micromapas de opacidad se basan en las micromallas y permiten definir zonas mucho más limitadas donde se tienen que procesar posibles efectos en la opacidad de los objetos, lo cual es útil para la vegetación y el follaje, de acuerdo con el ejemplo de NVIDIA.
Sobre el acelerador de flujo óptico, una unidad utilizada para DLSS 3, ya he hablado en un artículo aparte de ella. Es lo que permite a DLSS 3 duplicar el rendimiento de DLSS 2, y por tanto la mayor mejora de DLSS 3 se va a experimentar en las RTX 40 con las nuevas unidades tensoriales que son donde va integrado este acelerador. Los núcleos tensoriales también son capaces de procesar en esta ocasión instrucciones en coma flotante de 8 bits (FP8), que para inteligencia artificial siempre viene bien. Muchos cálculos en IA se hacen a bulto y no necesitan una gran precisión que es por lo que se usan unidades de operaciones de pocos bits (INT4, INT8, etc.), en lugar de las FP32 y FP64 que se pueden necesitar para computación de alto rendimiento o para cierta generación de gráficos.
Por último, y por no extenderme mucho más ya que falta bastante información sobre los particulares de la estructura de los chips Ada, los codificadores de vídeo también han sido mejorados. Hay un doble codificador para el códec AV1, que es la apuesta de futuro de todo el sector del vídeo. Permite reducir notablemente el tamaño de los archivos aunque es un códec con pérdidas, pero no se notan. Es el códec para retransmisiones y que por ahora solo estaba en las Arc. Puede aumentar hasta un 40 % la tasa de bits en directos, pero también reducirán a la mitad el tiempo de exportación de vídeos desde editores.