Aussi appelé :
Key-Value cache (cache attention) · cache KV · KV-caching · attention caching
Terme IAAvancé
Mis à jour le
Le KV cache est une optimisation technique stockant les vecteurs Key et Value des tokens précédents pour accélérer l'inférence des modèles de langage en évitant des recalculs redondants.
📖 Définition
Le KV cache est l'optimisation technique fondamentale qui rend les LLM exploitables en production. Dans le mécanisme d'attention d'un Transformer, chaque token génère trois vecteurs : Query, Key, Value. Sans KV cache, générer le 1000e token oblige à recalculer les K et V des 999 précédents — coût quadratique. Avec KV cache, ces vecteurs sont conservés en mémoire GPU et réutilisés. Résultat : génération linéaire au lieu de quadratique. Pour une PME québécoise qui héberge son propre LLM, dimensionner le KV cache détermine directement le coût d'inférence et la longueur de contexte gérable.
💬 En termes simples
C'est garder ouverts les chapitres déjà lus d'un livre au lieu de les rouvrir à chaque fois qu'on tourne une page.
🎯 Exemple concret
Une équipe IT de Boucherville héberge un Llama 3 70B local — en activant le PagedAttention pour optimiser le KV cache, elle passe de 8 utilisateurs simultanés à 32 sur le même serveur, économisant 12 000 $/mois.
💡 Le saviez-vous ?
En 2026, plus de 60 % de la mémoire GPU d'un déploiement LLM en production est typiquement consacrée au KV cache — l'optimiser est devenu un domaine de recherche actif (vLLM, FlashAttention, MLA).
❓ Questions fréquentes
Quelle est la différence entre le KV cache et la mémoire vive standard ?
Alors que la mémoire vive stocke des données générales, le KV cache conserve spécifiquement les activations intermédiaires du mécanisme d'attention. Sans lui, votre modèle recalculerait chaque vecteur pour chaque nouveau token généré, rendant l'utilisation en production extrêmement lente et coûteuse en ressources de calcul.
Quand devriez-vous optimiser la gestion de votre KV cache ?
Vous devez prioriser cette optimisation dès que vous traitez des contextes longs ou des volumes de requêtes élevés. Des techniques comme le PagedAttention permettent de réduire la fragmentation mémoire, augmentant ainsi le nombre de requêtes traitées simultanément par votre infrastructure sans sacrifier la précision.
Quelles sont les limites actuelles du KV cache ?
La limite principale réside dans l'occupation mémoire GPU qui croît linéairement avec la longueur du contexte. Pour limiter cette empreinte, vous pouvez utiliser la quantification ou le Grouped-Query Attention (GQA), des approches qui réduisent la taille des données stockées tout en maintenant les performances du modèle.
Reçois chaque semaine le meilleur de l'actualité IA, directement dans ta boîte.
Pas de pourriel, désinscription en 1 clic.
✉️
Restez informé
Recevez nos sélections d'outils et articles directement dans votre boîte courriel.
🔐 Connexion rapide
Entrez votre courriel pour recevoir un code à 6 chiffres.
Pas besoin de mot de passe ni d'inscription. Entrez votre courriel, recevez un code par courriel, et c'est tout !
✓
Paramètres de confidentialité
Nous utilisons des témoins (cookies) pour assurer le bon fonctionnement du site, analyser le trafic et personnaliser le contenu. Vous pouvez gérer vos préférences ci-dessous.
Politique de confidentialité