DeepSeek V4 compresse un contexte d’1M de tokens dans 10 % de la mémoire de V3.2 et intensifie la course d’efficacité IA Chine vs OpenAI

Par Quentin Le 24 Avr 2026 à 22 h 13

DeepSeek présente V4, une itération pensée pour réduire les besoins de calcul et la pression mémoire à l’inférence. D’après les notes de version, le modèle abaisse nettement les FLOPs par token et l’empreinte de cache KV, ce qui élargit les fenêtres de contexte exploitables. De quoi optimiser les charges long-contexte sans changer de matériel.

DeepSeek V4 en bref

Le laboratoire chinois d’IA DeepSeek annonce, dans ses notes de version, une forte baisse des ressources de calcul et de mémoire avec son modèle V4. Par rapport à son prédécesseur DeepSeek V3.2, V4 n’exigerait que 27% des FLOPs pour l’inférence mono-token et 10% du cache key-value (KV). Cette contraction du cache réduit la pression mémoire et ouvre davantage de contexte aux concepteurs de modèles.

Comment DeepSeek V4 réduit les coûts de calcul et de mémoire

Dans ses notes de version, DeepSeek précise que, sur une fenêtre de contexte d’un million de tokens, le nouveau modèle n’utilise que 27% des FLOPs d’inférence par token et 10% du cache KV par rapport à V3.2. Une fenêtre de contexte correspond au volume de texte qu’un grand modèle peut traiter avant de devoir libérer de la mémoire.

Cette meilleure efficacité mémoire est déterminante pendant la phase Decode du pipeline d’inférence, qui comprend généralement deux étapes, Prefill puis Decode. Le modèle produit la sortie pendant Decode et doit conserver le contexte issu de Prefill; la demande mémoire y est donc supérieure, surtout pour le cache KV.

Le compromis : compression agressive et écueils « aiguille dans une botte de foin »

Quand le nombre de tokens du contexte grimpe, les besoins du cache KV suivent. À un million de tokens, un modèle qui consomme moins de cache peut traiter plus de requêtes ou tourner avec moins de mémoire.

L’autre promesse, à savoir 27% de FLOPs par token à l’inférence, ne se traduit par des gains que si la mémoire disponible pour le GPU est suffisante. Réduire fortement l’usage du cache impose aussi des compromis: le modèle peut passer à côté de détails pertinents, un écueil connu sous le nom de « needle in a haystack », qui peut dégrader la précision des réponses.

Impact matériel : desserrer l’étau sur la DRAM lié à l’IA

Réduire agressivement l’empreinte du cache KV n’est pas qu’un progrès logiciel abstrait: les retombées touchent la chaîne d’approvisionnement mémoire. L’industrie traverse un super-cycle DRAM porté par une demande soutenue de HBM, ce qui crée une tension d’offre qui se répercute jusqu’aux DIMM et SSD grand public. Des techniques de compression côté logiciel comme celles de DeepSeek V4, associées à des approches voisines comme TurboQuant de Google, peuvent commencer à alléger cette pression sur le PC grand public. Plus les concepteurs obtiennent de résultats par gigaoctet de HBM, plus la facture évitée retombe du bon côté pour l’utilisateur final.

Sous le capot : le mécanisme Multi‑Head Latent Attention (MLA)

Les gains proviennent de l’architecture Multi‑Head Latent Attention (MLA), déjà introduite par DeepSeek sur des versions antérieures. Conçue avec la contrainte mémoire en tête, elle ne stocke pas intégralement les tenseurs clés et valeurs pour chaque token: ils sont projetés dans une représentation latente partagée de rang réduit, puis reconstruits à l’exécution. Cette approche compresser‑puis‑décompresser réduit fortement l’empreinte du cache KV et permet d’exécuter le modèle efficacement sans payer le plein coût mémoire des mécanismes d’attention classiques.