AMD déploie la prise en charge de Gemma 4 sur toute sa gamme de GPU et CPU

Par Quentin Le 4 Avr 2026 à 09 h 37

AMD officialise la prise en charge de Gemma 4, la nouvelle famille de modèles IA open‑weights de Google, sur l’ensemble de ses GPU et CPU. Du cloud aux postes de travail et aux PC grand public, le support couvre Instinct, Radeon et Ryzen AI, avec intégrations prêtes à l’emploi dans des outils populaires et des projets open source. Les déploiements, locaux ou hébergés, misent sur des optimisations d’inférence et une mise en route rapide pour les équipes comme pour les utilisateurs avancés.

Support Gemma 4 : ce qui arrive chez AMD

Les GPU Radeon d’AMD et les CPU Ryzen AI prennent entièrement en charge le modèle IA Gemma 4 de Google

Google a présenté sa dernière famille de modèles IA open‑weights, Gemma 4, déclinée de 2B à 31B. Dans la foulée, AMD étend la compatibilité à toute sa gamme de GPU Radeon et de CPU Ryzen AI.

Communiqué de presse : AMD se félicite d’offrir une prise en charge Day Zero pour l’ensemble des modèles Gemma 4 sur tout ce portefeuille hardware compatible IA.

Le support couvre les GPU AMD Instinct pour le cloud et les datacenters d’entreprise, les GPU AMD Radeon pour les stations de travail IA, et les processeurs AMD Ryzen AI pour les PC IA. Les intégrations incluent les applications plébiscitées comme LM Studio, ainsi que des projets open source tels que vLLM, SGLang, llama.cpp, Ollama et Lemonade.

Déploiement avec vLLM

Gemma 4 peut être déployé sur des GPU AMD via vLLM pour tirer parti des nombreuses optimisations de ce framework d’inférence, notamment la gestion de multiples requêtes concurrentes. Toute la gamme de GPU AMD prise en charge par vLLM, incluant plusieurs générations d’Instinct et de Radeon, est compatible avec les modèles Gemma 4. Le support est prévu dans la build de lancement Gemma 4 de vLLM amont et dans les nightly à venir, installables en image Docker ou en paquet Python, selon la procédure documentée sur https://vllm.ai/.

docker pull vllm/vllm-openai-rocm:gemma4

Pour tous les GPU AMD, vLLM peut être lancé avec le backend TRITON_ATTN :

vllm serve vllm/vllm-openai-rocm:gemma4 –attention-backend TRITON_ATTN

Le support d’autres backends d’attention, avec des optimisations supplémentaires pour les GPU des séries MI300 et MI350, est prévu prochainement.

Déploiement avec SGLang

Gemma 4 peut aussi être déployé sur les GPU AMD MI300X/MI325X/MI35X via SGLang, qui propose un service haute performance.

SGLang prend en charge toute la famille Gemma 4, y compris les modèles denses (E2B, E4B, 31B) et la déclinaison MoE (26B‑A4B). Le support est disponible dans la build de lancement Gemma 4 de SGLang, via une image Docker décrite sur https://cookbook.sglang.io/.

Tous les modèles Gemma 4 nécessitent le backend d’attention Triton pour l’attention bidirectionnelle image‑token.

SGLang peut être lancé de la façon suivante :

python3 -m sglang.launch_server –model-path –attention-backend triton –tp 1

Le modèle Gemma 4 tient sur un seul GPU MI300X (192 Go de HBM) avec TP=1 et la longueur de contexte complète. Pour accroître le débit, on peut augmenter le parallélisme tensoriel (par exemple, –tp 2).

Déploiement en local avec LM Studio

Les modèles Gemma 4 se déploient facilement et efficacement sur du hardware AMD via le projet open source llama.cpp et l’application LM Studio. Les utilisateurs peuvent lancer rapidement ces modèles sur du hardware compatible, comme les processeurs AMD Ryzen AI et Ryzen AI Max, ainsi que sur des cartes graphiques Radeon et Radeon PRO, en téléchargeant l’application LM Studio et en l’associant aux derniers pilotes AMD Software: Adrenalin Edition.

Déploiement en local avec Lemonade Server

Lemonade Server permet de déployer les modèles Gemma 4 sur hardware AMD via un serveur LLM local open source avec API compatibles OpenAI. L’accélération est prise en charge sur les GPU Radeon et Radeon PRO via ROCm, et sur les processeurs AMD Ryzen AI via le NPU XDNA 2.

Déploiement GPU avec Lemonade et ROCm

Pour exécuter Gemma 4 sur des GPU AMD avec l’accélération ROCm :

Installer Lemonade et récupérer la build ROCm de préversion de llama.cpp correspondant à l’architecture de votre GPU depuis les artefacts de release (par ex. llama-windows-rocm-gfx1151-x64 pour Radeon 8060S).
Pointer Lemonade vers la build ROCm en définissant la variable d’environnement :

export LEMONADE_LLAMACPP_ROCM_BIN=/path/to/llama-server

Démarrer Lemonade et charger le modèle Gemma 4 via l’API :

lemonade-server serve
curl http://localhost:8000/api/v1/pull \
-H « Content-Type: application/json » \
-d ‘{« model_name »: « user.Gemma-4-E4B-IT », « checkpoint »: « », « recipe »: « llamacpp »}’

Dialoguer avec le modèle via l’API compatible OpenAI :

curl http://localhost:8000/api/v1/chat/completions \
-H « Content-Type: application/json » \
-d ‘{« model »: « user.Gemma-4-E4B-IT », « messages »: [{« role »: « user », « content »: « Hello! »}], « llamacpp »: « rocm »}’

Déploiement NPU avec Ryzen AI

Les développeurs pourront déployer les modèles Gemma 4 sur le NPU en intégrant Lemonade Server, compatible avec le NPU AMD XDNA 2. La prise en charge NPU pour les modèles Gemma‑4 E2B et E4B arrivera avec la prochaine mise à jour logicielle Ryzen AI. Cette mise à jour sera intégrée à Lemonade et également disponible directement via les API OnnxRuntime.

AMD