Plugin vLLM-ATOM d’AMD booste l’inférence DeepSeek-R1, Kimi-K2 et gpt-oss-120B sur Instinct MI350 et MI400

Par Quentin Le 11 Mai 2026 à 23 h 25

AMD présente vLLM-ATOM, un plugin dédié aux grands modèles de langage IA qui exploite pleinement les GPU Instinct MI350 et MI400. Ce module s’intègre sans heurt à vLLM pour accélérer l’inférence tout en conservant les commandes et API existantes. Les utilisateurs bénéficient ainsi des optimisations kernels d’AMD dès le lancement des nouveaux matériels.

AMD booste les LLMs IA avec son plugin vLLM-ATOM compatible vLLM et accélérant les performances d’inférence

Le plugin vLLM-ATOM optimise les performances d’inférence pour divers grands modèles de langage IA. Il cible les accélérateurs GPU Instinct haut de gamme d’AMD, comme les séries MI350 et MI400, en mode serveur autonome ou intégré comme backend plugin. Les utilisateurs profitent des optimisations natives de modèles et kernels AMD sans toucher à la base de vLLM.

Les principaux atouts de vLLM-ATOM sont :

Zéro courbe d’apprentissage : Compatibilité totale avec les commandes, API et flux de travail vLLM actuels. ATOM fonctionne en arrière-plan de façon transparente, sans outils supplémentaires ni configurations complexes, tout en améliorant les performances kernels pour une expérience utilisateur inchangée.
Accès direct aux innovations AMD : Exploitation immédiate des fonctionnalités hardware avancées (comme FP4 sur le GPU MI355X ou inférence à l’échelle rack sur MI400) et optimisations kernels supérieures (AITER fused attention, AllReduce personnalisé), sans attendre leur intégration dans le code principal de vLLM. Cela accélère le déploiement des nouveaux GPU AMD.
Sandbox agile pour innovations : Espace de validation rapide pour idées techniques, activation hardware et tests de bibliothèques kernels (comme AITER). Le plugin s’aligne sur la roadmap AMD, couvrant sorties GPU, support FP8/FP4 et mécanismes d’attention futurs, indépendamment des cycles de sortie vLLM.
vLLM comme base solide pour ROCm : Framework standard communautaire, vLLM offre stabilité entreprise, couverture étendue de modèles et fonctions critiques pour déployer à grande échelle l’infrastructure ROCm.
Optimisations matures intégrées pour tous : ATOM teste temporairement les nouveautés ; une fois validées, les kernels, stratégies et fonctions rejoignent le backend ROCm natif de vLLM, profitant à l’ensemble de la communauté ROCm et open-source LLMs.

L’architecture vLLM-ATOM se divise en trois couches :

Couche	Rôle
vLLM	Ordonnancement des requêtes, gestion KV cache, batching continu, API compatible OpenAI
ATOM Plugin	Enregistrement plateforme, implémentation modèles optimisée, routage backends attention, réglage optimisations kernels
AITER	Kernels GPU bas niveau : MoE fusionné, flash attention, GEMM quantifié, fusion RoPE

Pour le support modèles, vLLM-ATOM gère LLMs et VLMs via un pipeline unifié. Voici la liste complète :

Architecture	Type	Modèles représentatifs	Classe modèle ATOM
Qwen3MoeForCausalLM	MoE	Qwen/Qwen3-235B-A22B-Instruct-2507-FP8	atom.models.qwen3_moe
DeepseekV3ForCausalLM	MoE (MLA)	deepseek-ai/DeepSeek-R1-0528 (FP8), amd/DeepSeek-R1-0528-MXFP4, amd/Kimi-K2-Thinking-MXFP4	atom.models.deepseek_v2
GptOssForCausalLM	MoE	openai/gpt-oss-120b	atom.models.gpt_oss
Glm4MoeForCausalLM	MoE (MLA)	zai-org/GLM-4.7-FP8	atom.models.glm4_moe
Qwen3NextForCausalLM	Hybrid MoE	Qwen/Qwen3-Next-80B-A3B-Instruct-FP8	atom.models.qwen3_next
Qwen3_5ForConditionalGeneration	Dense (Text/VLM)	Qwen/Qwen3.5-35B-A3B-FP8	atom.models.qwen3_5
Qwen3_5MoeForConditionalGeneration	MoE (Text/VLM)	Qwen/Qwen3.5-397B-A17B-FP8	atom.models.qwen3_5
KimiK25ForConditionalGeneration	MoE (Text/VLM)	amd/Kimi-K2.5-MXFP4	atom.models.kimi_k25

Note d’AMD : vLLM-ATOM montre que optimisations hardware spécifiques et compatibilité framework coexistent. Grâce au mécanisme plugin natif de vLLM, ATOM fournit kernels AMD natifs (attention fusionnée, GEMM quantifié, routage MoE optimisé) tout en gardant l’ensemble des fonctions vLLM essentielles aux déploiements production.

Au-delà des gains immédiats, l’architecture du plugin valide les innovations hardware et software AMD : les optimisations testées en mode plugin rejoignent progressivement le backend ROCm natif de vLLM, profitant à toute la communauté ROCm et open-source LLMs. Les utilisateurs accèdent sans délai aux capacités des derniers GPU AMD, favorisant une évolution mutuelle entre hardware AMD et écosystème vLLM.

Documentation ATOM
Guide vLLM-ATOM
RFC : Activation ATOM comme plateforme vLLM hors arbre
Répertoire ATOM
AITER – Moteur tenseur inférence AMD pour ROCm
Recettes vLLM-ATOM
Docker Hub – Images ATOM + vLLM

AMD