DeepSeek : Une avancée marquante de l’IA avec la puissance des GPU H800

Par Guillaume Meyer Mis à jour le 25 Fév 2025 à 11 h 08

La Chine semble déterminée à ne pas compter sur des technologies étrangères pour renforcer ses capacités matérielles. DeepSeek, une entreprise innovante, a récemment présenté son tout nouveau projet qui multiplie par huit la puissance de calcul des accélérateurs AI H800 d’NVIDIA.

Un pas en avant pour l’IA grâce à DeepSeek

DeepSeek démontre une maîtrise impressionnante du logiciel pour optimiser ses équipements. Grâce à une meilleure gestion de la mémoire et une allocation intelligente des ressources, la société revendique une performance inédite avec ses GPU Hopper H800. Les avancées qu’ils présentent pourraient transformer le paysage technologique actuel.

🚀 Day 1 of #OpenSourceWeek: FlashMLA

Honored to share FlashMLA – our efficient MLA decoding kernel for Hopper GPUs, optimized for variable-length sequences and now in production.

✅ BF16 support
✅ Paged KV cache (block size 64)
⚡ 3000 GB/s memory-bound & 580 TFLOPS…

— DeepSeek (@deepseek_ai) Février 24, 2025

Pour marquer le lancement de nouvelles technologies accessibles au public via des dépôts GitHub, DeepSeek a organisé une semaine spéciale « OpenSource ». À l’occasion de cette première journée, la société a levé le voile sur FlashMLA, un Core de décodage optimisé pour les GPU Hopper d’NVIDIA. Les améliorations apportées par cette technologie sont particulièrement intéressantes.

DeepSeek annonce un potentiel de 580 TFLOPS en multiplication de matrices BF16 sur lesHopper H800, ce qui dépasse de près de huit fois les normes de l’industrie. Par ailleurs, grâce à une utilisation efficace de la mémoire, FlashMLA parvient à atteindre une bande passante de 3000 GB/s, presque le double du maximum théorique des H800. Tout cela, réalisé uniquement par des lignes de code.

This is crazy.
-> Blazing fast: 580 TFLOPS on H800, ~8x industry avg (73.5 TFLOPS).
-> Memory wizardry: Hits 3000 GB/s, surpassing H800’s 1681 GB/s peak.

— Visionary x AI (@VisionaryxAI) Février 24, 2025

Le système de compression par clé-valeur à faible rang de FlashMLA permet de segmenter des ensembles de données, ce qui accélère le traitement et réduit la consommation de mémoire jusqu’à 60%. De plus, un système de pagination basé sur des blocs alloue dynamiquement la mémoire en fonction de l’intensité des tâches, ce qui optimisé le traitement de séquences de longueur variable.

Les avancées de DeepSeek illustrent qu’un seul facteur ne peut pas définir l’avenir de l’informatique AI. Bien que FlashMLA soit pour l’instant exclusivement conçu pour les GPU Hopper, il sera intéressant de voir de quelle manière cette technologie pourra performer sur d’autres modèles, comme le H100.