ReRAM et PCM : les mémoires révolutionnaires pour l'IA

La montée de l'intelligence artificielle a redéfini les exigences du matériel informatique plus rapidement que toute autre vague technologique précédente. Autrefois, la performance dépendait principalement de la vitesse du processeur, mais aujourd'hui, c'est la mémoire - avec ses latences, sa bande passante et sa consommation énergétique - qui s'impose comme le facteur clé. Pour les réseaux neuronaux et les puces d'IA, ce sont désormais les limitations de la mémoire qui freinent la scalabilité et l'efficacité, rendant ainsi les nouveaux types de mémoire ReRAM et PCM particulièrement attractifs.

Pourquoi la mémoire classique est un goulet d'étranglement pour l'IA

Les systèmes d'intelligence artificielle modernes sont de moins en moins limités par la puissance de calcul, et de plus en plus par la mémoire. Les GPU et accélérateurs spécialisés peuvent effectuer un nombre colossal d'opérations en parallèle, mais leur efficacité dépend directement de la rapidité à laquelle les données leur parviennent. C'est ici que l'architecture classique montre ses limites.

Le problème provient de la séparation physique entre la mémoire et les unités de calcul. La DRAM est située hors des matrices de calcul, tandis que la NAND est encore plus distante, servant principalement au stockage. Pour les réseaux neuronaux, cela signifie des transferts incessants de poids et d'activations sur les bus de données. Malgré une bande passante élevée, les latences et la consommation énergétique liées à ces transferts rivalisent, voire dépassent, le coût des calculs eux-mêmes.

Ce phénomène est particulièrement marqué dans les applications d'IA. L'entraînement et l'inférence des réseaux neuronaux consistent en des opérations massives sur des matrices : des milliers de multiplications et additions nécessitent un accès mémoire continu. Résultat, les unités de calcul attendent les données, et la consommation énergétique s'accroît à cause du déplacement des bits, bien plus que par le calcul lui-même.

Face à ce " memory wall ", l'industrie doit revoir la place de la mémoire dans l'architecture matérielle de l'IA, car augmenter la fréquence de la DRAM ou le nombre de canaux mémoire n'apporte que peu de bénéfices, tout en complexifiant et en renchérissant les puces.

Calculs en mémoire : définition et intérêt pour les réseaux neuronaux

Le calcul en mémoire consiste à exécuter des opérations directement là où les données sont stockées, sans transfert constant vers des blocs de calcul distincts. Pour l'IA, cela signifie abandonner le schéma classique " mémoire → processeur → mémoire ", principal responsable des latences et de la surconsommation d'énergie.

Cette approche est particulièrement judicieuse pour les réseaux neuronaux, dont la majorité des opérations se résume à des multiplications de matrices de poids par des entrées. Si les poids résident déjà dans la mémoire, la lecture physique elle-même peut servir au calcul, par exemple par sommation de courants ou modification de résistances. Ainsi, les données restent en place et le résultat est obtenu directement dans la matrice mémoire.

Le principal avantage du calcul en mémoire est la réduction drastique de la consommation énergétique : les transferts mémoire-composant coûtent beaucoup plus cher que les opérations arithmétiques. Cela devient un enjeu crucial pour les centres de données et les dispositifs edge, où la limitation ne vient plus de la performance brute mais de la dissipation thermique et du budget énergétique.

En outre, ce modèle se prête bien à la mise à l'échelle : il suffit d'agrandir les matrices mémoire, chaque cellule participant au calcul, ouvrant la voie à des architectures neuromorphiques et matricielles proches du fonctionnement des réseaux neuronaux biologiques.

Mais ce paradigme est quasi impossible avec la DRAM ou la NAND classique, non prévues pour l'analogique ou le parallélisme massif. C'est pourquoi l'attention s'est portée sur des alternatives comme la ReRAM et la PCM, mieux adaptées aux besoins de l'IA.

ReRAM : la mémoire résistive et ses atouts concrets

La ReRAM, ou mémoire résistive, stocke l'information dans la résistance d'un matériau, et non dans la charge (comme la DRAM) ou la grille flottante (comme la NAND). Chaque cellule ReRAM bascule entre un état de résistance élevée ou faible par de brèves impulsions électriques. Cette simplicité physique la rend particulièrement intéressante pour l'IA.

Son avantage principal ? Une compatibilité naturelle avec le calcul en mémoire. En modifiant la résistance des cellules, on encode directement les poids du réseau dans la matrice. Lorsqu'une tension est appliquée, les courants se somment selon les lois physiques, réalisant l'opération de multiplication matrice-vecteur de façon analogique et parallèle sur des milliers de cellules.

La ReRAM surpasse ainsi la DRAM en efficacité énergétique, car l'énergie n'est pas dépensée à déplacer les données, mais à leur interaction locale. Pour les accélérateurs d'IA, cela permet une inférence avec un minimum de dégagement de chaleur, idéal pour les capteurs autonomes ou les appareils mobiles.

Autre atout : une grande densité de stockage, car les cellules ReRAM sont miniaturisables et compatibles avec l'intégration 3D. Cela la rend prometteuse pour remplacer une partie de la DRAM et même de la NAND dans les puces IA spécialisées, axées sur l'efficacité plutôt que la polyvalence.

La ReRAM n'est plus un simple prototype : on la trouve déjà dans des accélérateurs neuromorphiques expérimentaux, notamment pour manipuler les poids des réseaux neuronaux. Ses limites ? L'instabilité des résistances, la variabilité des paramètres et la difficulté à contrôler précisément les états analogiques, ce qui restreint son usage à des applications spécialisées.

PCM : la mémoire à changement de phase, entre DRAM et NAND

La PCM (phase-change memory) exploite le changement d'état d'un matériau à base de chalcogénure : amorphe (haute résistance) ou cristallin (basse résistance), la transition étant obtenue par des impulsions thermiques précises. Cette technologie diffère fondamentalement de la DRAM ou de la ReRAM.

La PCM se situe entre la mémoire vive et la mémoire de stockage : plus rapide que la NAND, non volatile, et avec une densité supérieure à la DRAM. Elle a ainsi été envisagée comme " mémoire universelle ", comblant le fossé entre vitesse et capacité.

Pour l'IA, la PCM attire par la stabilité de ses états : contrairement à la ReRAM, où les résistances peuvent dériver, les états de phase sont plus prévisibles et contrôlables, ce qui est critique pour la fiabilité des poids neuronaux.

La PCM est aussi adaptée au calcul partiellement analogique : en modulant le degré de cristallisation, il est possible d'encoder des valeurs intermédiaires, stockant ainsi des poids à faible précision, compromis intéressant entre efficacité et précision pour l'inférence IA.

Ses faiblesses ? Les transitions de phase exigent un chauffage, donc une consommation accrue et une vitesse d'écriture moindre, avec une endurance plus faible que la DRAM. Les effets thermiques freinent aussi la mise à l'échelle des matrices.

En pratique, la PCM se retrouve dans des accélérateurs spécialisés et des systèmes de stockage axés IA, où la non-volatilité et la prévisibilité priment sur la vitesse d'écriture maximale.

ReRAM et PCM face à la DRAM et à la NAND : la réalité pratique

Comparer de front la ReRAM/PCM à la DRAM/NAND est impropre. Les nouveaux types de mémoire ne cherchent pas à remplacer la hiérarchie mémoire complète, mais à répondre à des besoins spécifiques, principalement liés à l'IA.

La DRAM reste imbattable pour l'accès aléatoire rapide, mais elle est volatile, difficile à densifier et requiert des transferts constants avec les calculateurs, générant latences et pertes énergétiques. La NAND est trop lente et conçue pour le stockage, inutile pour les calculs actifs des modèles.

La force de la ReRAM et de la PCM n'est pas la vitesse brute, mais l'architecture : elles réduisent ou éliminent le coût du déplacement des données, principal frein des systèmes IA. Pour l'inférence, cela se traduit par moins d'énergie, moins de chaleur et une densité de calcul supérieure par surface.

La ReRAM excelle dans le calcul analogique et le parallélisme massif. Inadaptée aux tâches généralistes, elle fait merveille comme accélérateur matriciel, où des milliers de cellules calculent simultanément, remplaçant en partie les unités de calcul classiques.

La PCM, quant à elle, joue le rôle de mémoire non-volatile pour stocker les poids ou comme alternative dense et stable à la DRAM dans les accélérateurs IA, là où la prévisibilité prime, même au détriment de la vitesse d'écriture.

Ainsi, la DRAM et la NAND ne sont pas remplacées, mais complétées : la DRAM pour la logique de contrôle, la NAND pour le stockage, tandis que ReRAM et PCM gèrent les poids et les calculs dans les blocs IA. C'est dans ce modèle hybride que leur utilité se révèle pleinement.

Où ces technologies sont-elles déjà utilisées dans le hardware IA ?

Malgré une recherche active, la ReRAM et la PCM restent rares dans les appareils grand public. Leur domaine d'application est le matériel IA spécialisé, conçu autour de modèles et charges de travail spécifiques.

La ReRAM se retrouve principalement dans des accélérateurs IA expérimentaux ou préindustriels, optimisés pour le calcul en mémoire, par exemple l'inférence de réseaux à poids figés en vision artificielle, reconnaissance de signaux ou dispositifs edge. Ici, efficacité énergétique et faibles latences priment, la précision absolue étant moins critique. Le caractère analogique de la ReRAM convient parfaitement à ce type de tâches.

Son utilisation est particulièrement marquée dans les architectures neuromorphiques, où les matrices mémoire simulent directement les synapses, et où les calculs s'effectuent par les propriétés physiques du matériau. On obtient ainsi des modules IA compacts, peu chauffants, adaptés à l'autonomie sans refroidissement actif - un atout pour les systèmes embarqués ou périphériques.

La PCM, de son côté, a déjà fait l'objet d'implantations industrielles, notamment comme mémoire non-volatile plus rapide que la NAND. En IA, elle sert à stocker les poids et données intermédiaires, offrant une reprise rapide sans rechargement depuis un stockage lent.

Dans les serveurs et plateformes de recherche, la PCM est testée comme mémoire tampon entre DRAM et NAND, permettant de garder les grands modèles proches des calculateurs et d'accélérer l'inférence sur des réseaux de plusieurs dizaines ou centaines de gigaoctets.

Il faut souligner que dans les produits réels, ReRAM et PCM fonctionnent presque toujours en complément de la mémoire classique, assumant les tâches les plus critiques pour l'IA, à savoir la gestion des poids et des calculs répétitifs. Cette approche hybride est aujourd'hui la plus viable industriellement.

Limites, défis de l'industrialisation et coût

Malgré leurs qualités, ReRAM et PCM sont loin d'être des solutions universelles. Leurs limites tiennent à la physique des matériaux et à la complexité de la fabrication, facteurs qui ralentissent leur adoption à grande échelle dans le matériel IA.

La ReRAM souffre d'une grande variabilité entre cellules, même au sein d'une même matrice, avec des dérives sous l'effet de la température ou des cycles d'écriture répétés. Les calculs analogiques accumulent ainsi les erreurs, nécessitant des calibrations complexes, surtout sur les grandes matrices.

La PCM présente d'autres défis : la commutation de phase exige du chauffage, alourdissant la consommation et la gestion thermique. Son endurance est inférieure à celle de la DRAM, la rendant moins adaptée aux charges d'apprentissage intensives. La densification bute aussi sur les effets thermiques croisés entre cellules.

Le coût reste un obstacle majeur : la fabrication de la ReRAM et de la PCM requiert de nouveaux matériaux, des étapes technologiques supplémentaires et un contrôle de précision, d'où un prix supérieur à la mémoire classique tant que les volumes restent faibles. Leur usage n'est donc rentable que dans des accélérateurs IA de niche.

À cela s'ajoute la dimension logicielle : le calcul en mémoire réclame de nouveaux modèles de programmation, compilateurs et algorithmes adaptés à la nature imprécise et analogique des calculs. Sans cet écosystème, même la mémoire la plus efficace reste un prototype expérimental.

En conséquence, ReRAM et PCM occupent aujourd'hui une zone de compromis technologique, ayant prouvé leur utilité pour l'IA mais limitées par la physique, le coût et la complexité d'intégration. L'industrie opte donc pour leur intégration sélective dans des architectures hybrides plutôt qu'un remplacement total de la mémoire traditionnelle.

Conclusion

Les nouvelles mémoires ReRAM et PCM ne sont pas une simple évolution de la DRAM ou de la NAND, mais une réponse aux limitations fondamentales du hardware IA. Dans les réseaux neuronaux, le goulot d'étranglement n'est plus le calcul, mais le déplacement des données, ce qui impose de repenser l'architecture classique.

La ReRAM s'est illustrée comme outil efficace pour le calcul en mémoire et les architectures neuromorphiques, capable de réduire la consommation et d'intégrer le stockage des poids au plus près des calculs - mais au prix d'une calibration complexe et d'une spécialisation forte. La PCM a trouvé sa place comme mémoire non-volatile stable entre DRAM et NAND, utile pour stocker les poids et accélérer l'inférence dans les systèmes IA spécialisés.

En pratique, aucune de ces technologies ne remplace totalement la mémoire classique. L'avenir est aux architectures hybrides, où DRAM, NAND, ReRAM et PCM cohabitent, chacune remplissant un rôle précis. Ce modèle maximise l'efficacité sans chercher à rendre une technologie universelle.

Pour le hardware IA, cela marque un changement de paradigme : la mémoire cesse d'être passive et devient un acteur du calcul. C'est sous cette forme que les nouvelles mémoires trouvent leur place - non dans les promesses marketing, mais dans des solutions architecturales concrètes et déjà opérationnelles.

ReRAM et PCM : Révolution de la mémoire pour le matériel IA