KV cache

Aussi appelé : Key-Value cache (cache attention) · cache KV · KV-caching · attention caching

Terme IA Avancé

Mis à jour le 28 mai 2026

Le KV cache est une optimisation technique stockant les vecteurs Key et Value des tokens précédents pour accélérer l'inférence des modèles de langage en évitant des recalculs redondants.

📖 Définition

Le KV cache est l'optimisation technique fondamentale qui rend les LLM exploitables en production. Dans le mécanisme d'attention d'un Transformer, chaque token génère trois vecteurs : Query, Key, Value. Sans KV cache, générer le 1000e token oblige à recalculer les K et V des 999 précédents — coût quadratique. Avec KV cache, ces vecteurs sont conservés en mémoire GPU et réutilisés. Résultat : génération linéaire au lieu de quadratique. Pour une PME québécoise qui héberge son propre LLM, dimensionner le KV cache détermine directement le coût d'inférence et la longueur de contexte gérable.

💬 En termes simples

C'est garder ouverts les chapitres déjà lus d'un livre au lieu de les rouvrir à chaque fois qu'on tourne une page.

🎯 Exemple concret

Une équipe IT de Boucherville héberge un Llama 3 70B local — en activant le PagedAttention pour optimiser le KV cache, elle passe de 8 utilisateurs simultanés à 32 sur le même serveur, économisant 12 000 $/mois.

💡 Le saviez-vous ?

En 2026, plus de 60 % de la mémoire GPU d'un déploiement LLM en production est typiquement consacrée au KV cache — l'optimiser est devenu un domaine de recherche actif (vLLM, FlashAttention, MLA).

❓ Questions fréquentes

Quelle est la différence entre le KV cache et la mémoire vive standard ?

Alors que la mémoire vive stocke des données générales, le KV cache conserve spécifiquement les activations intermédiaires du mécanisme d'attention. Sans lui, votre modèle recalculerait chaque vecteur pour chaque nouveau token généré, rendant l'utilisation en production extrêmement lente et coûteuse en ressources de calcul.

Quand devriez-vous optimiser la gestion de votre KV cache ?

Vous devez prioriser cette optimisation dès que vous traitez des contextes longs ou des volumes de requêtes élevés. Des techniques comme le PagedAttention permettent de réduire la fragmentation mémoire, augmentant ainsi le nombre de requêtes traitées simultanément par votre infrastructure sans sacrifier la précision.

Quelles sont les limites actuelles du KV cache ?

La limite principale réside dans l'occupation mémoire GPU qui croît linéairement avec la longueur du contexte. Pour limiter cette empreinte, vous pouvez utiliser la quantification ou le Grouped-Query Attention (GQA), des approches qui réduisent la taille des données stockées tout en maintenant les performances du modèle.

📚 Sources

Efficient Memory Management for LLM Serving with PagedAttention (Kwon et al., 2023)
NVIDIA Documentation - KV Cache Optimization (NVIDIA, 2024)

Accueil

Outils

Annuaire

Apprendre

KV cache

KV cache

📖 Définition

💬 En termes simples

🎯 Exemple concret

💡 Le saviez-vous ?

❓ Questions fréquentes

📚 Sources

Ressources

À propos

Communauté

Reste à jour en veille IA

Confirmer

Accueil

Outils

Annuaire

Apprendre

KV cache

KV cache

📖 Définition

💬 En termes simples

🎯 Exemple concret

💡 Le saviez-vous ?

❓ Questions fréquentes

📚 Sources

Termes associés