L’accélérateur d’IA Instinct MI350 d’AMD, basé sur l’architecture CDNA 4, a été pleinement détaillé lors de l’événement Hot Chips 2025.
AMD Dévoile les Détails Architecturaux de l’Instinct MI350, Prêt pour les LLM Massifs
Il y a seulement deux mois, AMD a lancé sa série Instinct MI350, l’accélérateur phare pour les charges de travail d’IA. Aujourd’hui, lors de Hot Chips, ils ont approfondi les détails de cette puissante machine d’IA.
La série MI350 a été développée en réponse à la croissance des modèles d’IA, les LLM devenant plus volumineux chaque année. AMD a innové sur le format des types de données et agrandi la mémoire des puces pour répondre à ces besoins.

Les accélérateurs de la série CDNA-4 d’AMD améliorent les performances et l’efficacité des charges de travail d’IA. Ils augmentent la bande passante et la capacité de la HBM, facilitant un entraînement et une inférence d’IA plus rapides sur des modèles plus grands, tout en optimisant la consommation d’énergie.

Cette performance accrue est obtenue en réduisant l’énergie non core, permettant un Infinity Fabric plus large pour un plus grand débit à des fréquences plus efficaces, tout en supportant des formats de données à faible précision comme le FP8.
La série MI350 se décline en deux modèles : le MI350X refroidi par air, ayant un TDP de 1000W et une fréquence maximale de 2,2 GHz, et le MI355X, destiné aux centres de données refroidis par liquide, avec un TDP de 1400W et une fréquence maximale de 2,4 GHz.

Ce chip représente un chef-d’œuvre d’architecture, tirant parti des années d’expertise d’AMD dans le domaine des chiplets. Il dispose de 185 milliards de transistors et adopte une mise en page 3D multi-chiplet avec deux types de chiplets, ainsi que de la mémoire HBM3e.

Le chip se compose d’XCD (Accelerator Complex Dies) utilisant la technologie N3P « 3nm ». Il y a 8 de ces chiplets dans un seul package MI350X/MI355X, associés à 4 par IOD (AMD I/O Base Die) basé sur le processus 6nm.

Au total, il y a 8 emplacements HBM3E avec chaque IOD connecté à 4 sites. Le package entier repose sur un interposeur principal.
L’IOD est équipé de trois liaisons Infinity Fabric et d’une liaison PCIe Gen5 vers un hôte AMD EPYC. Les contrôleurs de mémoire HBM3E permettent jusqu’à 8,0 TB/s de bande passante.

Les puces de la série MI350 comprennent 32 unités de calcul par XCD, soit 256 unités au total, permettant jusqu’à 16 384 cœurs. Ces unités sont réparties en quatre zones avec chaque zone ayant son propre XCD.

Le sous-système mémoire interne comprend plusieurs types de registres et un Infinity Cache de 256 Mo. Voici un résumé des caractéristiques :
- 131 Mo de registres vecteurs (en totalité)
- 40 Mo de LDS (en totalité)
- 8 Mo de L1 (en totalité)
- 32 Mo de L2 (en totalité)
- 256 Mo d’Infinity Cache (en totalité)

AMD compare également la performance de la MI355X par rapport à la MI300X, notamment une augmentation de 20% en sortie de calcul dans le domaine de l’IA.
Voici le diagramme SoC du GPU Instinct MI350 :

Les accélérateurs d’IA de la série MI350 supportent également un partitionnement flexible des GPU par socket, permettant de séparer les clusters de mémoire.
Les liaisons Infinity Fabric permettent à 8 accélérateurs de communiquer via un lien bidirectionnel à 154 Go/s, soit une amélioration de 20% par rapport à la génération précédente.
AMD précise également l’assemblage de chaque puce, depuis l’emballage 3D jusqu’à l’assemblage final, avec les systèmes OAM chargés dans des UBB (Universal Base Boards) prêts pour les datacenters.
Concernant l’augmentation de la capacité de calcul en IA, AMD affirme que la série MI350 offre 20 PFLOPs en FP4/FP6, représentant une amélioration de 4x génération à génération.

Les solutions MI350X et MI355X offrent respectivement 36.9 PFLOPs et 40.2 PFLOPs dans des configurations allant jusqu’à 10U et 5U. Les deux sont équipées de HBM3e et de l’Infinity Fabric.
Les chiffres comparatifs avec la compétition montrent de nets avantages :
MI355X vs B200 :
- Mémoire : 1.6x plus haute
- Bande passante : 1.0x plus haute
- FP64 : 2.1x plus haute
- FP16 : 1.1x plus haute
- FP8 : 1.1x plus haute
- FP6 : 2.2x plus haute
- FP4 : 1.1x plus haute
MI355X vs GB200 :
- Mémoire : 1.6x plus haute
- Bande passante : 1.0x plus haute
- FP64 : 2.0x plus haute
- FP16 : 1.0x plus haute
- FP8 : 1.0x plus haute
- FP6 : 2.0x plus haute
- FP4 : 1.0x plus haute
L’Instinct MI355X présente une amélioration de 35x en performance d’inférence grâce à Llama 3.1 405B, un progrès significatif.

La série MI350 sera disponible via divers partenaires à partir du troisième trimestre 2025, tandis que la série MI400 est prévue pour 2026.
Accélérateurs AI AMD Instinct :
| Nom de l’Accélérateur | AMD Instinct MI500 | AMD Instinct MI400 | AMD Instinct MI350X | AMD Instinct MI325X | AMD Instinct MI300X | AMD Instinct MI250X |
|---|---|---|---|---|---|---|
| Architecture GPU | CDNA Next / UDNA | CDNA Next / UDNA | CDNA 4 | Aqua Vanjaram (CDNA 3) | Aqua Vanjaram (CDNA 3) | Aldebaran (CDNA 2) |
| Nœud de Processus GPU | TBD | TBD | 3nm | 5nm+6nm | 5nm+6nm | 6nm |
| XCDs (Chiplets) | TBD | 8 (MCM) | 8 (MCM) | 8 (MCM) | 8 (MCM) | 2 (MCM) 1 (Par Die) |
| Cœurs GPU | TBD | TBD | 16,384 | 19,456 | 19,456 | 14,080 |
| Fréquence d’Horloge GPU (Max) | TBD | TBD | 2400 MHz | 2100 MHz | 2100 MHz | 1700 MHz |
| Calcul INT8 | TBD | TBD | 5200 TOPS | 2614 TOPS | 2614 TOPS | 383 TOPs |
| Matrice FP6/FP4 | TBD | 40 PFLOPs | 20 PFLOPs | N/A | N/A | N/A |
| Matrice FP8 | TBD | 20 PFLOPs | 5 PFLOPs | 2.6 PFLOPs | 2.6 PFLOPs | N/A |
| Matrice FP16 | TBD | 10 PFLOPs | 2.5 PFLOPs | 1.3 PFLOPs | 1.3 PFLOPs | 383 TFLOPs |
| Vecteur FP32 | TBD | TBD | 157.3 TFLOPs | 163.4 TFLOPs | 163.4 TFLOPs | 95.7 TFLOPs |
| Vecteur FP64 | TBD | TBD | 78.6 TFLOPs | 81.7 TFLOPs | 81.7 TFLOPs | 47.9 TFLOPs |
| VRAM | TBD | 432 GB HBM4 | 288 GB HBM3e | 256 GB HBM3e | 192 GB HBM3 | 128 GB HBM2e |
| Cache Infinity | TBD | TBD | 256 Mo | 256 Mo | 256 Mo | N/A |
| Horloge Mémoire | TBD | 19.6 TB/s | 8.0 Gbps | 5.9 Gbps | 5.2 Gbps | 3.2 Gbps |
| Bus Mémoire | TBD | TBD | 8192 bits | 8192 bits | 8192 bits | 8192 bits |
| Bande Passante Mémoire | TBD | TBD | 8 TB/s | 6.0 TB/s | 5.3 TB/s | 3.2 TB/s |
| Forme | TBD | TBD | OAM | OAM | OAM | OAM |
| Refroidissement | TBD | TBD | Passif / Liquide | Refroidissement passif | Refroidissement passif | Refroidissement passif |
| TDP (Max) | TBD | TBD | 1400W (355X) | 1000W | 750W | 560W |



