Finalmente han llegado al mercado las GeForce RTX 4090 de los socios de NVIDIA, y la primera que tengo la oportunidad de analizar es el modelo XLR8 Gaming Verto Epic-X de la estadounidense PNY. La tónica general de los modelos personalizados es la de ser de tener un grosor de entre tres y cuatro ranuras PCIe además de largas ya que la RTX 4090 de NVIDIA es un modelo que consume los 450 W. En este caso no es distinto, y este modelo de la serie XLR8 se puede usar perfectamente para saber de lo que es capaz el modelo de referencia de NVIDIA.
Videoanálisis
Desembalado y características
La RTX 4090 XLR8 Verto Epic-X RGB de PNY llega en un caja no especialmente grande debidamente protegida por una bolsa de plástico y embutida en una bandeja de poliestireno. Junto a ella hay un par de extras como es un soporte y un adaptador al 12VHPWR (conector PCIe 5.0 de 12+4 pines) que integra esta tarjeta gráfica. El adaptador es de buena calidad y precisa de cuatro conectores PCIe de ocho pines para funcionar. En cuanto al soporte, se puede atornillar a la caja para mantener la horizontalidad de la tarjeta gráfica
Su PVPR es de 1959 euros en España, aunque puede ser un poco más o menos dependiendo del país de la eurozona en que se compre. En EE. UU. cuesta 1629 dólares. Es prácticamente el precio del modelo de referencia de NVIDIA, por lo que da una idea de que no será la que más sobrefrecuencia permita del mercado. Eso sí, llega ligeramente subida de fábrica, con un turbo de 2565 MHz en lugar de los 2520 MHz del modelo de referencia.
Tiene un tamaño de 331.72 mm × 136.9 mm × 71.1 mm, por lo que son en torno a 3.6 ranuras PCIe de grosor. No va a dejar mucho margen a dejar nada más debajo de ella. Pesa en torno a los 2.1 kg, por lo que es un modelo igualmente pesado como la mayoría de los modelos de RTX 4090 que van a llegar al mercado.
Ese grosor y peso está orientado a tener un grueso disipador y tres ventiladores, que como comentaré más adelante hacen un buen trabajo para mantener esta tarjeta gráfica de 450 W a unas temperaturas adecuadas y sin demasiado ruido. El frontal de la tarjeta dispone de franjas de iluminación ARGB, así como el logo de la parte superior.
En la parte trasera hay tres tomas de DisplayPort 1.4a y una HDMI 2.1. Hay una toma de dieciséis pines que se podrá usar sin problemas con el adaptador incluido. Es una toma que debería de extenderse su uso porque su tamaño es bastante reducido y puede entregar hasta 600 W a través de él, en lugar de solo los 150 W que permite un PCIe de ocho pines.
Para el control de la tarjeta gráfica hay un programa llamado VelocityX, disponible para descargar desde la web de la compañía. Permite controlar los ventiladores, aumentar las frecuencias y control la iluminación ARGB de este modelo.
Ada: una evolución sin revolución
Las GPU de las RTX 40 llegan con una nueva arquitectura gráfica llamada Ada, que prácticamente no cambia respecto a la Ampère. Los chips están fabricados a 4 nm por TSMC, que es lo que permite una mayor potencia respecto a los chips de las RTX 30. NVIDIA se ha centrado en aumentar las frecuencias y en incluir más sombreadores por GPU, pero no hay cambios a su funcionamiento interno.
El proceso litográfico usado para estos chips es uno de 4 nm de TSMC optimizado para las necesidades de NVIDIA al cual simplemente llama «4N», en contraposición al N4 generalista de TSMC. Un cambio de posición de letra que no evita que sea un proceso de 4 nm. Para el caso, al proceso de 8 nm de Samsung optimizado para ella lo llamaba 8N.
La GPU usada en esta RTX 4090 está basada en la AD102. Este chip totalmente desbloqueado tiene 12 clústeres de procesamiento gráfico (GPC), 72 clústeres de procesamiento de texturas (TPC), 144 multiprocesadores de flujos de datos (SM), doce controladores de memoria de 32 bits (384 bits),18 432 CUDA, 144 núcleos de trazado de rayos, 576 núcleos tensoriales y 576 unidades de texturas.
Sin embargo, el chip AD102-300 usado tiene 16 384 núcleos CUDA, 11 GPC, 64 TPC, 128 SM, 512 núcleos tensoriales, 512 unidades de texturas, 176 unidades de rasterización y una frecuencia turbo de 2520 MHz. Por ello NVIDIA tiene margen para sacar una RTX 4090 Ti con al menos un 12 % más de potencia más lo que pueda aumentar la frecuencia turbo.
El GPC es el principal bloque de construcción del chip. CAda uno de ellos dispone de un motor de rasterizado, seis TPC, doce SM y 16 ROP divididos en dos particiones de ocho. A su vez, cada TPC incluye un motor de polimorfía y dos SM. En este apartado no hay cambios, por lo que sigue teniendo la estructura de la arquitectura Ampère.
Cada SM cuenta de 128 sombreadores a los cuales NVIDIA llama núcleos CUDA, un núcleo de trazado de rayos de tercera generación, cuatro núcleos tensoriales de cuarta generación, cuatro unidades de texturas, un registro de archivos de 256 kB, y 128 kB de memoria compartida de nivel 1 (N1) plenamente configurable en tamaño según las necesidades de la carga de trabajo gráfica.
La estructura del multiprocesador de flujos de datos mantiene la diferenciación de 64 sombreadores para FP32 y otros 64 que pueden ejecutar instrucciones FP32 e INT32. Estas últimas son muy habituales por lo que esta optimización permite un mayor rendimiento máximo sin penalizar la ejecución en FP32 al dedicar en ciertos momentos esos CUDA a calcular instrucciones mucho menos intensivas.
Cada SM está dividida en cuatro particiones, cada una incluyendo un registro de archivos de 64 kB, caché de instrucciones de nivel 0, un planificador de urdimbres o conjunto de hilos, una unidad de ejecución y un núcleo tensorial de cuarta generación, junto con cuatro unidades de carga/almacenamiento y una unidad de funciones especiales donde se ejecutan instrucciones de interpolación gráfica entre otras tareas.
Por último habría que destacar que este chip AD102 completo tiene 98 304 kB de caché de nivel 2 en total, lo cual es dieciséis veces más que los 6144 kB del chip GA102. Es importante porque el ancho de banda de memoria se mantiene en 1 TB, por lo que viene a hacer también la labor de una caché de nivel 3 que permita reducir el acceso a la VRAM de la tarjeta gráfica. No siempre se va a conseguir, pero la inclusión de memoria GDDR6X a 21 Gb/s al menos no sabe tan a poco, pero serán un problema en las mayores resoluciones porque será incapaz de mantener alimentados a todos los núcleos CUDA. Se notará a 4K y sobre todo a 8K, que es posible jugar a esa resolución con esta tarjeta y DLSS, pero no tan bien como debería si tuviera más ancho de banda de memoria.
Mirando ahora al núcleo de trazado de rayos, hay dos cambios importantes en él que mejoran notablemente su rendimiento en este apartado. NVIDIA habla de que tiene el doble de ancho de banda efectivo respecto a la anterior generación, el doble de velocidad de recorrido del canal alfa de las texturas para encontrar las formas de los objetos y transparencias, es diez veces más rápido creando la jerarquía de delimitadores de volúmenes (BVH) y ocupan veinte veces menos. Además de las habituales capacidades proporcionadas por su motor de intersecciones de objetos y el de triángulos, ahora se le añade un motor de micromapas de opacidad y uno de desplazamiento de micromallas.
Para hacerlos funcionar se introducen primitivas —es como se llama a las instrucciones que se pide a las GPU que se ejecuten— nuevas relacionadas con la información de opacidad de la geometría que se genera en los sombreadores. Almacenan información sobre opacidad y desplazamiento, útil para acelerar el trazado de rayos.
Las micromallas desplazadas son microtriángulos de las texturas que se pueden directamente rasterizar o generar mediante trazado de rayos sin necesidad de convertirlas o expandirlas lo cual permite superficies mucho más detalladas para cuando la cámara está muy cerca del objeto. Permiten generar hasta diez veces más rápido el BVH, y mejora la eficiencia de la compresión de memoria. Todo lo que se almacene en la GPU reduce el uso del ancho de banda de la memoria de vídeo.
Los micromapas de opacidad se basan en las micromallas y permiten definir zonas mucho más limitadas donde se tienen que procesar posibles efectos en la opacidad de los objetos, lo cual es útil para la vegetación y el follaje, de acuerdo con el ejemplo de NVIDIA.
También dispone de una característica nueva llamada reordenamiento de la ejecución en sombreadores aplicada al trazado de rayos. Es igual a lo que tiene Intel en las GPU de las Arc serie A, una unidad de ordenación de hilos de trazado de rayos agrupados en función de la tarea que tiene que hacer después de recorrer el BVH (jerarquía de delimitadores de volúmenes), como por ejemplo detectar un nuevo rebote de rayo, descartarlos, modificar el color de los píxeles, etc. Agrupar los tipos de acciones a ejecutar siempre permite un uso más eficiente de los sombreadores que son al final los que tienen que seguir haciendo cálculos.
Sobre el acelerador de flujo óptico, una unidad utilizada para DLSS 3, ya hablé de ello en un artículo aparte. Es lo que permite a DLSS 3 duplicar el rendimiento de DLSS 2, y por tanto la mayor mejora de DLSS 3 se va a experimentar en las RTX 40 con las nuevas unidades tensoriales que son donde va integrado este acelerador.
Los núcleos tensoriales también son capaces de procesar en esta ocasión instrucciones en coma flotante de 8 bits (FP8), que para inteligencia artificial siempre viene bien. Muchos cálculos en IA se hacen a bulto y no necesitan una gran precisión que es por lo que se usan unidades de operaciones de pocos bits (INT4, INT8, etc.), en lugar de las FP32 y FP64 que se pueden necesitar para computación de alto rendimiento o para cierta generación de gráficos.
Por último, en el apartado del vídeo y emisiones, ahora permite realizar codificaciones en AV1 a nivel de hardware gracias a los dos NVENC de octava generación que incluye, y uno solo uno. Este códec es un 40 % más eficiente que H.264 e ideal para cualquier resolución, teniendo pocas pérdidas a FHD, y de hecho según NVIDIA «las emisiones parecerán similares a QHD» debido a la mejora de la calidad que aporte. Lo cual es cierto, porque AV1 es el nuevo estándar de la industria de vídeo, por calidad y por la reducción de tamaño de los archivos o bits a emitir en directos. Se puede codificar en otros formatos a hasta 8K y 60 fotogramas por segundo. También incluye un NVDEC o decodificador de quinta generación para MPEG-2, VC-1, H.264, H.265, VP8, VP9 y AV1.
Toda la mejora de rendimiento de la RTX 4090 proviene del aumento de frecuencias y del número de sombreadores, al cincuenta por ciento cada una, pero no hay mejoras reales en la arquitectura en lo que a rasterizado se refiere. Puede que tenga más caché de nivel 2, pero es para intentar mitigar el poco ancho de banda de la memoria de la tarjeta gráfica. Hay cambios en los núcleos tensoriales y de trazado de rayos, pero no afecta directamente al rasterizado.
Por eso NVIDIA tiene mucho margen de mejora en el terreno de la arquitectura para su próxima generación, porque realmente es un aspecto que tocó algo en Turing, tocó poco en Ampère y que no ha tocado en Ada. Ha ido centrándose en la mejora de la litografía para mejorar el rendimiento de sus chips, y de momento le está funcionando bien. Pero el paso de los 4 nm de TSMC a los 3 nm para su próxima generación no representará tanta diferencia respecto al enorme salto de los 8 nm de Samsung. Salvo, claro está, que se quede en los 4 nm y mejore realmente la arquitectura en la que tiene mucho margen de maniobra.
Sobre el precio, los 1630 dólares de esta RTX 4090 XLR8 Verto de PNY no se distancian de los 1600 dólares del modelo de referencia. La RTX 3090 costaba 1500 dólares, y por tanto el salto de rendimiento-dólar es enorme… a UHD, como se verá en los siguientes apartados.
Equipos de prueba
Para la realización de las pruebas de este artículo, y sobre todo las de en juegos, he usado los siguientes equipos, usando una fuente de alimentación de 1200 W de Be Quiet!
Ryzen 5 7600X, X670E-PLUS TUF de ASUS, 32 GB (2 de 16 GB) DDR5-6200 CL 32
Ryzen 7 5800X, X570-E ROG Strix de ASUS, 32 GB (4 de 8 GB) DDR4-3600 CL 16
Core i5-12400F, B660-Plus de ASUS, 32 GB (4 de 8 GB) DDR4-3600 CL 16
Metodología de análisis de rendimiento en juegos
Las pruebas de rendimiento las realizo seleccionando los preajustes ultra siempre que es posible y si dan la opción. En cuanto al suavizado, no lo pongo más allá de FXAA siempre que se indique claramente el nombre del suavizado usado en los ajustes para así poder compararlo bien con la resolución QHD y 4K, en la que esta última en un monitor estándar de 27 pulgadas sirve de poco la activación de suavizado de bordes avanzados como TAA.
Al poner un suavizado mejor o peor la mejora en calidad visual dependerá del tamaño del monitor y la distancia de uso, y puede haber diferencias a la hora de aplicar uno u otro en función de la arquitectura de la tarjeta gráfica. Tampoco se aplica por igual los distintos suavizados en distintas arquitecturas gráficas, por lo que prefiero quitarlo de la ecuación siempre que pueda. Hay un problema colateral y es que por ejemplo al probar el DLSS en las tarjetas gráficas de NVIDIA habrá menos diferencia al compararlo con FXAA, un suavizado liviano, que si se comparara respecto a TAA, un suavizado más intensivo.
También desactivo las características gráficas específicas de cada marca, como la oclusión ambiental HBAO+ de Nvidia o el PureHair de AMD, por el posible impacto negativo que puedan tener en las tarjetas de la marca contraria. Las pruebas se han realizado con los controladores GeForce 522.25 instalados y con los Radeon Software 22.10.1.
Los valores se recogen o bien de los archivos de tiempo de fotograma que generan los propios juegos, como es el caso de Division 2, o bien mediante la herramienta PresentMon desarrollada por un destacado empleado de Intel. Esta herramienta se engancha directamente a la biblioteca gráfica que se esté usando —DX11, DX12 o Vulkan, entre otras—, dando medidas muy precisas de los tiempos de fotograma. Analizando los datos del archivo generado mediante un script se puede obtener la tasa de fotogramas, y también estudiar sus resultados en distintas gráficas pasándolos a una hoja de cálculo si así se quisiera.
Los valores se toman al menos dos veces por juego, y se cierran todas las aplicaciones y procesos prescindibles mientras se ejecutan para asegurar que no hay nada consumiendo tiempo de CPU en segundo plano. También se desactivan las interfaces de Steam, Connect u otros para evitar conflictos. Además de mostrar la tasa media de fotogramas, incluyo el percentil 99, que es el mínimo de FPS por encima del cual se pasa el 99 % del tiempo el juego. Generalmente, si baja de 30 FPS el percentil 99 se puede considerar como que la experiencia de juego no será totalmente fluida.
En cuanto a las mediciones de trazado de rayos, se realiza en la calidad media para que sea factible la comparación con los modelos más económicos. RBAR está activado en el BIOS y en funcionamiento.
El rendimiento en juegos de la RTX 4090 XLR8 Verto es excelente, aunque donde marca la diferencia es a una resolución QHD y sobre todo UHD, resolución en la que prácticamente dobla el rendimiento de la RTX 3090. Además, un Ryzen 5 7600X aprovecha normalmente mejor a FHD y QHD la RTX 4090 que el Core i7-12700K del equipo de pruebas, por lo que la opción de AMD, a falta de probar su sustituto Core i7-13700K, aprovecha de manera excelente esta tarjeta gráfica.
Este modelo de PNY se ajusta a las características del modelo de referencia. Con un diseño de triple ventilador, tres ranuras y media de grosor lo que permite un grueso disipador, es un modelo excelente combinado con iluminación ARGB. Tiene una pega para los más exigentes que es que no tiene margen para subir el consumo por lo que está ajustado a los 450 W máximos del modelo de referencia.
Eso hace que realmente no tenga margen para subirle la frecuencia y que tenga un efecto realmente positivo. Por ejemplo, se le puede subir 200 MHz el turbo y se puede pasar de 254 a 257 f/s en The Division 2 a FHD y calidad ultra según los resultados anteriores, pero eso es apenas un 1.2 % más de rendimiento.
Consumo
El consumo en reposo de la tarjeta gráfica es de unos 20 vatios, que es algo elevado si se compara con otras tarjetas gráficas. Las de AMD suelen rondar los 4-5 W. Siendo un modelo de 450 W de consumo máximo, el equipo completo en carga completa consume sobre los 600 W, aunque en algunos casos durante las pruebas en los juegos de más arriba puede alcanzar los 628 W como máximo. Por comparación, la RTX 3090 Eagle OC suele consumir sobre los 500 W, y solo en algún caso puede superarlos, incluso llegando a los 540 W, pero es algo más bien raro.
No he notado grandes picos de consumo, que pueden irse en torno a 50 W más, siempre por debajo de los 700 W. Si se carga completamente la CPU y la GPU el equipo puede consumir hasta unos 750 W. Por tanto, una fuente de 850 W puede ser adecuada para jugar y para trabajar, porque no suele ser común que ambos componentes estén en algún momento dado al cien por cien de uso. Los que quieran tener un poco más de margen, sobre todo si no tienen una fuente con un PCIe 5 de 12+4 pines (12VHPWR), sería más recomendable una fuente de 1000 W.
Pero antes estaba hablando de consumo máximo y no es lo habitual que esta tarjeta gráfica consuma tanto. Al menos con el Core i7-12700K, que puede dar en muchos juegos menos rendimiento que el Ryzen 5 7600X. Si se activa la sincronización vertical o algún refresco adaptable, el consumo va a bajar bastante en muchos juegos si se tiene un monitor de 144 Hz.
Por ejemplo, Horizon Zero Dawn en un monitor UHD y 120 Hz (HDMI del 27GP950) pasa de consumir uno 370 vatios a unos 320 W, y si se activa DLSS en 'equilibrado' baja aún más, a unos 260 W. En esta situación el equipo completo consume apenas 400 W. En el caso de Assassin's Creed: Valhalla, activando FSR en 'equilibrado' y la sicronización vertical pasa de consumir sobre los 320 W a unos 200 W y se juega perfectamente a UHD y 120 Hz.
El tema del consumo de esta tarjeta gráfica es un máximo que no se suele si se juega a QHD o UHD, quizás por las limitaciones en el ancho de banda de la memoria que impide que genere más fotogramas. Con una resolución UHD da igual si se usa un procesador u otro porque la tarjeta gráfica no se verá limitada por la CPU. Se podría bajar aún más el consumo a UHD con DLSS y refresco adaptable ajustando la frecuencia máxima con el programa de configuración de la tarjeta u otros programas más específicos para ello.
Temperaturas y ruido
En cuanto a las temperaturas, en carga completa jugando suele situarse sobre unos 70 ºC con una muy baja sonoridad. Los ventiladores se activan pero funciona a apenas 1100 r. p. m., notándose más el ruido de la refrigeración del procesador o de la fuente de alimentación que el de la tarjeta gráfica. El ruido jugando se sitúa sobre unos 36 dBA, que no es gran cosa, cortesía del enorme disipador y los tres ventiladores incluidos. Es un apartado bien cubierto en este modelo GeForce RTX 4090 XLR8 de PNY.
Gran potencia para disfrutar al máximo
La RTX 4090 XLR8 Verto de PNY es un ejemplo perfecto de lo que es capaz la nueva hornada de tarjetas gráficas de la serie RTX 40 de NVIDIA. Este modelo no tiene absolutamente ninguna pega, contando con una buena refrigeración, terreno en el cual hace una labor perfecta y sin hacer ruido. Pero no es un modelo para los que busquen exprimir al máximo la RTX 4090 ya que no se puede aumentar su consumo y por tanto limita bastante la ganancia en overclocking que se puede conseguir. Pero es un modelo bonito y sin grandes alardes de ARGB, lo cual también abarata su coste.
Entrando ya a valorar la potencia de la RTX 4090, es un modelo perfecto para los que jueguen en monitores QHD de 240 Hz o UHD de 144 Hz. No hay juego que se le resista, y eso sin activar los escalados de imagen como DLSS o FSR. Pero debido a estos, incluso una RTX 3090 puede aprovechar bien ese tipo de monitores en los juegos más exigentes, por lo que se podría decir que la RTX 4090 está más preparada que nunca para el futuro. Sobre todo porque las RTX 40 tienen además acceso a DLSS 3, que interpola fotogramas para escupirlos como si no hubiera un mañana. Lo cual, con los monitores y conexiones de vídeo actuales sirve de poco. Salvo que se mire al trazado de rayos.
En este apartado es en el que NVIDIA ha hecho más hincapié para justificar su potencia. Activa DLSS 3 en una RTX 4090, y hay pocos juegos con trazado de rayos que no se puedan jugar a máxima calidad a UHD y 144 Hz. Salvo, claro está, el exigente Cyberpunk 2077. Hay cierta limitación en la generación de fotogramas mediante trazado de rayos a la que DLSS 3 pone remedio porque son fotogramas íntegramente generados a través de los núcleos tensoriales, más rápido que el procedimiento normal, y otras unidades de la GPU. No interviene la CPU, lo cual la libera de trabajo. La única pega de DLSS 3 es que aumenta la latencia de entrada, que es por lo que este escalado es inseparable de Reflex.
El único juego de los mostrados en que se queda corto a UHD es Cyberpunk 2077, en torno a los 80 f/s, pero con DLSS soluciona un poco el problema. Los escalados temporales son muy efectivos a UHD, perdiendo poca o nada calidad gráfica a cambio de un importante aumento de potencia. Pero DLSS me gusta utilizarlo para limitar el consumo de las tarjetas gráficas mientras se juega. No es que sea mucho 550-600 W de consumo del equipo de pruebas con el 12700K, pero si se activa DLSS en Shadow of the Tomb Raider y se activa el refresco adaptable en el monitor 27GP950 que uso el consumo del equipo se desploma en torno de los 450 W manteniendo los 144 f/s. Por eso el tema del consumo al analizar una tarjeta gráfica, mirando máximos, no es nada realista. Depende del juego y de la situación.
Debido a su enorme potencia no es tanto una tarjeta gráfica para jugones sino para prosumidores o profesionales, gente que le dé un uso más profesional, porque es realmente donde despunta. Para ello cuenta con los controladores Studio, que están también disponibles, y con su precio de 1600 dólares es una tarjeta gráfica excesiva para la inmensa mayoría de jugones. Eso sí, debería resistir bien el paso de los años con los juegos que van saliendo y que cada vez son más exigentes, sobre todo a medida que incluyan DLSS 3, aunque no pasarán muchos años hasta que se haga el cambio del rasterizado de los gráficos a la generación íntegramente por trazado de rayos. NVIDIA previó que eso ocurriría en 2023, pero lo que no previó fue la coyuntura sanitaria y económica que estamos atravesando, por lo que ese escenario tardará un poco más en darse.
En cuanto a su rendimiento por procesador, se puede ver que con la potencia que tiene a UHD, el procesador sigue siendo algo menos importante. Con uno potente de seis núcleos como el Ryzen 5 7600 se consigue aprovechar perfectamente esta tarjeta gráfica a UHD, igual 12700K en los juegos elegidos para el análisis, o incluso el Ryzen 7 5800X. Como debería ser una tarjeta gráfica principalmente para UHD, o QHD si el juego es muy exigente con trazado de rayos activo, cualquier procesador actual de seis u ocho núcleos servirá bien para aprovechar a la perfección esta tarjeta gráfica.
Por lo demás, el precio de 1629 dólares o 1959 euros en España es un importe elevado, pero teniendo en cuenta que duplica el rendimiento de la RTX 3090 a UHD, y esta costaba 1500 dólares hace dos años cuando salió, el salto en rendimiento por dólar es enorme. No se puede decir que NVIDIA no haya mejorado en esta ocasión en este apartado, aunque la coyuntura económica haya ayudado a contener el precio, aunque en la zona euro nos haya perjudicado.