GPU AMD Instinct MI350 : Puissance AI avec 3nm, 185 milliards de transistors et 288 Go de mémoire

Par Guillaume Meyer Mis à jour le 27 Août 2025 à 11 h 21

L’accélérateur d’IA Instinct MI350 d’AMD, basé sur l’architecture CDNA 4, a été pleinement détaillé lors de l’événement Hot Chips 2025.

AMD Dévoile les Détails Architecturaux de l’Instinct MI350, Prêt pour les LLM Massifs

Il y a seulement deux mois, AMD a lancé sa série Instinct MI350, l’accélérateur phare pour les charges de travail d’IA. Aujourd’hui, lors de Hot Chips, ils ont approfondi les détails de cette puissante machine d’IA.

La série MI350 a été développée en réponse à la croissance des modèles d’IA, les LLM devenant plus volumineux chaque année. AMD a innové sur le format des types de données et agrandi la mémoire des puces pour répondre à ces besoins.

Les accélérateurs de la série CDNA-4 d’AMD améliorent les performances et l’efficacité des charges de travail d’IA. Ils augmentent la bande passante et la capacité de la HBM, facilitant un entraînement et une inférence d’IA plus rapides sur des modèles plus grands, tout en optimisant la consommation d’énergie.

Cette performance accrue est obtenue en réduisant l’énergie non core, permettant un Infinity Fabric plus large pour un plus grand débit à des fréquences plus efficaces, tout en supportant des formats de données à faible précision comme le FP8.

La série MI350 se décline en deux modèles : le MI350X refroidi par air, ayant un TDP de 1000W et une fréquence maximale de 2,2 GHz, et le MI355X, destiné aux centres de données refroidis par liquide, avec un TDP de 1400W et une fréquence maximale de 2,4 GHz.

Ce chip représente un chef-d’œuvre d’architecture, tirant parti des années d’expertise d’AMD dans le domaine des chiplets. Il dispose de 185 milliards de transistors et adopte une mise en page 3D multi-chiplet avec deux types de chiplets, ainsi que de la mémoire HBM3e.

Le chip se compose d’XCD (Accelerator Complex Dies) utilisant la technologie N3P « 3nm ». Il y a 8 de ces chiplets dans un seul package MI350X/MI355X, associés à 4 par IOD (AMD I/O Base Die) basé sur le processus 6nm.

Au total, il y a 8 emplacements HBM3E avec chaque IOD connecté à 4 sites. Le package entier repose sur un interposeur principal.

L’IOD est équipé de trois liaisons Infinity Fabric et d’une liaison PCIe Gen5 vers un hôte AMD EPYC. Les contrôleurs de mémoire HBM3E permettent jusqu’à 8,0 TB/s de bande passante.

Les puces de la série MI350 comprennent 32 unités de calcul par XCD, soit 256 unités au total, permettant jusqu’à 16 384 cœurs. Ces unités sont réparties en quatre zones avec chaque zone ayant son propre XCD.

Le sous-système mémoire interne comprend plusieurs types de registres et un Infinity Cache de 256 Mo. Voici un résumé des caractéristiques :

131 Mo de registres vecteurs (en totalité)
40 Mo de LDS (en totalité)
8 Mo de L1 (en totalité)
32 Mo de L2 (en totalité)
256 Mo d’Infinity Cache (en totalité)

AMD compare également la performance de la MI355X par rapport à la MI300X, notamment une augmentation de 20% en sortie de calcul dans le domaine de l’IA.

Voici le diagramme SoC du GPU Instinct MI350 :

Les accélérateurs d’IA de la série MI350 supportent également un partitionnement flexible des GPU par socket, permettant de séparer les clusters de mémoire.

Les liaisons Infinity Fabric permettent à 8 accélérateurs de communiquer via un lien bidirectionnel à 154 Go/s, soit une amélioration de 20% par rapport à la génération précédente.

AMD précise également l’assemblage de chaque puce, depuis l’emballage 3D jusqu’à l’assemblage final, avec les systèmes OAM chargés dans des UBB (Universal Base Boards) prêts pour les datacenters.

Concernant l’augmentation de la capacité de calcul en IA, AMD affirme que la série MI350 offre 20 PFLOPs en FP4/FP6, représentant une amélioration de 4x génération à génération.

Les solutions MI350X et MI355X offrent respectivement 36.9 PFLOPs et 40.2 PFLOPs dans des configurations allant jusqu’à 10U et 5U. Les deux sont équipées de HBM3e et de l’Infinity Fabric.

Les chiffres comparatifs avec la compétition montrent de nets avantages :

MI355X vs B200 :

Mémoire : 1.6x plus haute
Bande passante : 1.0x plus haute
FP64 : 2.1x plus haute
FP16 : 1.1x plus haute
FP8 : 1.1x plus haute
FP6 : 2.2x plus haute
FP4 : 1.1x plus haute

MI355X vs GB200 :

Mémoire : 1.6x plus haute
Bande passante : 1.0x plus haute
FP64 : 2.0x plus haute
FP16 : 1.0x plus haute
FP8 : 1.0x plus haute
FP6 : 2.0x plus haute
FP4 : 1.0x plus haute

L’Instinct MI355X présente une amélioration de 35x en performance d’inférence grâce à Llama 3.1 405B, un progrès significatif.

La série MI350 sera disponible via divers partenaires à partir du troisième trimestre 2025, tandis que la série MI400 est prévue pour 2026.

Accélérateurs AI AMD Instinct :

Nom de l’Accélérateur	AMD Instinct MI500	AMD Instinct MI400	AMD Instinct MI350X	AMD Instinct MI325X	AMD Instinct MI300X	AMD Instinct MI250X
Architecture GPU	CDNA Next / UDNA	CDNA Next / UDNA	CDNA 4	Aqua Vanjaram (CDNA 3)	Aqua Vanjaram (CDNA 3)	Aldebaran (CDNA 2)
Nœud de Processus GPU	TBD	TBD	3nm	5nm+6nm	5nm+6nm	6nm
XCDs (Chiplets)	TBD	8 (MCM)	8 (MCM)	8 (MCM)	8 (MCM)	2 (MCM) 1 (Par Die)
Cœurs GPU	TBD	TBD	16,384	19,456	19,456	14,080
Fréquence d’Horloge GPU (Max)	TBD	TBD	2400 MHz	2100 MHz	2100 MHz	1700 MHz
Calcul INT8	TBD	TBD	5200 TOPS	2614 TOPS	2614 TOPS	383 TOPs
Matrice FP6/FP4	TBD	40 PFLOPs	20 PFLOPs	N/A	N/A	N/A
Matrice FP8	TBD	20 PFLOPs	5 PFLOPs	2.6 PFLOPs	2.6 PFLOPs	N/A
Matrice FP16	TBD	10 PFLOPs	2.5 PFLOPs	1.3 PFLOPs	1.3 PFLOPs	383 TFLOPs
Vecteur FP32	TBD	TBD	157.3 TFLOPs	163.4 TFLOPs	163.4 TFLOPs	95.7 TFLOPs
Vecteur FP64	TBD	TBD	78.6 TFLOPs	81.7 TFLOPs	81.7 TFLOPs	47.9 TFLOPs
VRAM	TBD	432 GB HBM4	288 GB HBM3e	256 GB HBM3e	192 GB HBM3	128 GB HBM2e
Cache Infinity	TBD	TBD	256 Mo	256 Mo	256 Mo	N/A
Horloge Mémoire	TBD	19.6 TB/s	8.0 Gbps	5.9 Gbps	5.2 Gbps	3.2 Gbps
Bus Mémoire	TBD	TBD	8192 bits	8192 bits	8192 bits	8192 bits
Bande Passante Mémoire	TBD	TBD	8 TB/s	6.0 TB/s	5.3 TB/s	3.2 TB/s
Forme	TBD	TBD	OAM	OAM	OAM	OAM
Refroidissement	TBD	TBD	Passif / Liquide	Refroidissement passif	Refroidissement passif	Refroidissement passif
TDP (Max)	TBD	TBD	1400W (355X)	1000W	750W	560W

AMD