China sigue avanzando en el desarrollo de unidades de procesamiento gráfico propias para usar en acleradoras de inteligencia artificial, y una de las empresas más avanzadas que tiene es Moore Threads, aunque sea muy reciente. Lo importante de ella es la arquitectura, porque las litografías que está usando no son nada punteras. Eso incluye los núcleos MUSA (arquitectura unificada de sistema de Moore Threads), de los cuales ha presentado su tercera generación, y ha anunciado la serie MTT S4000 de aceleradoras.
Como es habitual en tiempos recientes, no ha indicado la litografía usada, aunque las características de los distintos modelos que tendrá esta serie mejoran sustancialmente. Se centra en las operaciones en INT8, que pasan de 57.6 TOPS hasta los 200 TOPS en esta serie, lo que supone casi cuadruplicar el rendimiento previo. Este tipo de cálculos se usan principalmente en inteligencia artificial porque no se necesita precisión en ellos. La potencia en FP32 pasa de 15.2 a 25 TFLOPS, que es igualmente una mejora sustancial pero menos importante para la aceleradora. En FP16/BF16 es de 100 TFLOPS.
Pasa a tener 48 GB de GDDR6 con un bus de 384 bits lo cual arroja un ancho de banda de 768 GB/s. No se indican otros parámetros, como consumo, frecuencias o número de sombreadores que incluye, por lo que ha sido una presentación ligera, más para marcar un hito que para promocionar modelos concretos basados en esta arquitectura. Lo que sí incluye su GPU, y es importante de cara a los centros de datos, es conexión entre GPU con un enlace de 240 GB/s y compatibilidad con RDMA (acceso remoto directo a memoria).
Estas tarjetas gráficas se van a usar en un nuevo centro de datos de Moore Threads denominado KUAE. Cada servidor MCCX D800 se compondrá de ocho tarjetas S4000, y cada clúster 125 equipos MCCX D800. Está pensado para entrenamiento de redes neuronales, de los que dice que en 33 días se puede entrenar un modelo con 70 000 millones de parámetros, o 56 días con 130 000 M.
Vía: Tom's Hardware.