Las inteligencias artificiales generativas se basan en grandes modelos de lenguaje (LLM) que intentan comportarse como un lenguaje natural usando estadísticas y probabilidades para entender el lenguaje y poder expresarse. Son redes preentrenadas que almacenan miles de millones de parámetros, y al ser computacionalmente exigentes lo normal es ejecutarlas en la nube porque un PC casero sería incapaz de ello, más por falta de memoria que de procesamiento. Apple ha publicado un documento en el que valora mover los LLM a una memoria flash, los parámetros que entiende el LLM, para luego llevar a la DRAM solo aquellos que sean necesarios.
Con ello se consigue ejecutar LLM que necesitarían habitualmente el doble de memoria de lo normal, beneficiando su ejecución en los Mac o iPhone. Si se eliminan parámetros, el LLM es más impreciso pero necesita menos memoria, por lo que es una técnica para intentar aumentar la precisión del LLM sin tocar la RAM, y sin tener que cargar el LLM entero en memoria. Esto último permitiría manejar modelos comedidos para tareas específicas, como reconocimiento de voz, consumiendo la mitad de memoria.
El documento describe la forma de cargar los parámetros en memoria, lo cual incluye cierto nivel de predicción que aparentemente no afecta significativamente a la precisión de la inferencia que se vaya a realizar.
Vía: Ars Technica.