GPU AMD Instinct MI350 : Puissance AI avec 3nm, 185 milliards de transistors et 288 Go de mémoire

L’accélérateur d’IA Instinct MI350 d’AMD, basé sur l’architecture CDNA 4, a été pleinement détaillé lors de l’événement Hot Chips 2025.

AMD Dévoile les Détails Architecturaux de l’Instinct MI350, Prêt pour les LLM Massifs

Il y a seulement deux mois, AMD a lancé sa série Instinct MI350, l’accélérateur phare pour les charges de travail d’IA. Aujourd’hui, lors de Hot Chips, ils ont approfondi les détails de cette puissante machine d’IA.

La série MI350 a été développée en réponse à la croissance des modèles d’IA, les LLM devenant plus volumineux chaque année. AMD a innové sur le format des types de données et agrandi la mémoire des puces pour répondre à ces besoins.

Feuille de route de la série AMD Instinct MI350 montrant les avancées AI et HPC de 2021 à 2025.

Les accélérateurs de la série CDNA-4 d’AMD améliorent les performances et l’efficacité des charges de travail d’IA. Ils augmentent la bande passante et la capacité de la HBM, facilitant un entraînement et une inférence d’IA plus rapides sur des modèles plus grands, tout en optimisant la consommation d’énergie.

Série AMD Instinct MI350 : Améliorations architecturales et augmentation de l'efficacité AI dans les GPU.

Cette performance accrue est obtenue en réduisant l’énergie non core, permettant un Infinity Fabric plus large pour un plus grand débit à des fréquences plus efficaces, tout en supportant des formats de données à faible précision comme le FP8.

La série MI350 se décline en deux modèles : le MI350X refroidi par air, ayant un TDP de 1000W et une fréquence maximale de 2,2 GHz, et le MI355X, destiné aux centres de données refroidis par liquide, avec un TDP de 1400W et une fréquence maximale de 2,4 GHz.

Spécifications GPU AMD Instinct MI350 : 185 milliards de transistors, multi-chiplet 3D, emballage COWOS-S, TDP 1400W.

Ce chip représente un chef-d’œuvre d’architecture, tirant parti des années d’expertise d’AMD dans le domaine des chiplets. Il dispose de 185 milliards de transistors et adopte une mise en page 3D multi-chiplet avec deux types de chiplets, ainsi que de la mémoire HBM3e.

Diagramme de chiplet AMD Instinct MI350 détaillant l'architecture du GPU, les XCD et les spécifications de mémoire.

Le chip se compose d’XCD (Accelerator Complex Dies) utilisant la technologie N3P « 3nm ». Il y a 8 de ces chiplets dans un seul package MI350X/MI355X, associés à 4 par IOD (AMD I/O Base Die) basé sur le processus 6nm.

Diagramme du GPU AMD Instinct MI350 avec spécifications et caractéristiques.

Au total, il y a 8 emplacements HBM3E avec chaque IOD connecté à 4 sites. Le package entier repose sur un interposeur principal.

À lire :  Battlefield 6: Nightfall - Update majeur avec la nouvelle carte Hagental Base et un mode limité.

L’IOD est équipé de trois liaisons Infinity Fabric et d’une liaison PCIe Gen5 vers un hôte AMD EPYC. Les contrôleurs de mémoire HBM3E permettent jusqu’à 8,0 TB/s de bande passante.

Diagramme SoC du GPU Instinct MI350 avec mise en page du cœur XCD et détails de mémoire HBM3E.

Les puces de la série MI350 comprennent 32 unités de calcul par XCD, soit 256 unités au total, permettant jusqu’à 16 384 cœurs. Ces unités sont réparties en quatre zones avec chaque zone ayant son propre XCD.

Diagramme de cache et de hiérarchie de mémoire des GPU AMD Instinct MI350 montrant les améliorations LDS.

Le sous-système mémoire interne comprend plusieurs types de registres et un Infinity Cache de 256 Mo. Voici un résumé des caractéristiques :

  • 131 Mo de registres vecteurs (en totalité)
  • 40 Mo de LDS (en totalité)
  • 8 Mo de L1 (en totalité)
  • 32 Mo de L2 (en totalité)
  • 256 Mo d’Infinity Cache (en totalité)

GPU AMD Instinct MI350, graphique de comparaison de bande passante et de capacité.

AMD compare également la performance de la MI355X par rapport à la MI300X, notamment une augmentation de 20% en sortie de calcul dans le domaine de l’IA.

Voici le diagramme SoC du GPU Instinct MI350 :

Diagramme SoC du GPU Instinct MI350 avec mise en page du cœur XCD.

Les accélérateurs d’IA de la série MI350 supportent également un partitionnement flexible des GPU par socket, permettant de séparer les clusters de mémoire.

Les liaisons Infinity Fabric permettent à 8 accélérateurs de communiquer via un lien bidirectionnel à 154 Go/s, soit une amélioration de 20% par rapport à la génération précédente.

AMD précise également l’assemblage de chaque puce, depuis l’emballage 3D jusqu’à l’assemblage final, avec les systèmes OAM chargés dans des UBB (Universal Base Boards) prêts pour les datacenters.

Concernant l’augmentation de la capacité de calcul en IA, AMD affirme que la série MI350 offre 20 PFLOPs en FP4/FP6, représentant une amélioration de 4x génération à génération.

Solutions d'infrastructure AMD Instinct MI350 affichant les spécifications et configurations GPU.

Les solutions MI350X et MI355X offrent respectivement 36.9 PFLOPs et 40.2 PFLOPs dans des configurations allant jusqu’à 10U et 5U. Les deux sont équipées de HBM3e et de l’Infinity Fabric.

Les chiffres comparatifs avec la compétition montrent de nets avantages :

MI355X vs B200 :

  • Mémoire : 1.6x plus haute
  • Bande passante : 1.0x plus haute
  • FP64 : 2.1x plus haute
  • FP16 : 1.1x plus haute
  • FP8 : 1.1x plus haute
  • FP6 : 2.2x plus haute
  • FP4 : 1.1x plus haute
À lire :  Unbound Games - Shinji Mikami développe un nouveau jeu fantastique multiplateforme avec Unreal Engine

MI355X vs GB200 :

  • Mémoire : 1.6x plus haute
  • Bande passante : 1.0x plus haute
  • FP64 : 2.0x plus haute
  • FP16 : 1.0x plus haute
  • FP8 : 1.0x plus haute
  • FP6 : 2.0x plus haute
  • FP4 : 1.0x plus haute

L’Instinct MI355X présente une amélioration de 35x en performance d’inférence grâce à Llama 3.1 405B, un progrès significatif.

Feuille de route des GPU AMD montrant les séries MI300A/X, MI325X, MI350 et MI400.

La série MI350 sera disponible via divers partenaires à partir du troisième trimestre 2025, tandis que la série MI400 est prévue pour 2026.

Accélérateurs AI AMD Instinct :

Nom de l’Accélérateur AMD Instinct MI500 AMD Instinct MI400 AMD Instinct MI350X AMD Instinct MI325X AMD Instinct MI300X AMD Instinct MI250X
Architecture GPU CDNA Next / UDNA CDNA Next / UDNA CDNA 4 Aqua Vanjaram (CDNA 3) Aqua Vanjaram (CDNA 3) Aldebaran (CDNA 2)
Nœud de Processus GPU TBD TBD 3nm 5nm+6nm 5nm+6nm 6nm
XCDs (Chiplets) TBD 8 (MCM) 8 (MCM) 8 (MCM) 8 (MCM) 2 (MCM)
1 (Par Die)
Cœurs GPU TBD TBD 16,384 19,456 19,456 14,080
Fréquence d’Horloge GPU (Max) TBD TBD 2400 MHz 2100 MHz 2100 MHz 1700 MHz
Calcul INT8 TBD TBD 5200 TOPS 2614 TOPS 2614 TOPS 383 TOPs
Matrice FP6/FP4 TBD 40 PFLOPs 20 PFLOPs N/A N/A N/A
Matrice FP8 TBD 20 PFLOPs 5 PFLOPs 2.6 PFLOPs 2.6 PFLOPs N/A
Matrice FP16 TBD 10 PFLOPs 2.5 PFLOPs 1.3 PFLOPs 1.3 PFLOPs 383 TFLOPs
Vecteur FP32 TBD TBD 157.3 TFLOPs 163.4 TFLOPs 163.4 TFLOPs 95.7 TFLOPs
Vecteur FP64 TBD TBD 78.6 TFLOPs 81.7 TFLOPs 81.7 TFLOPs 47.9 TFLOPs
VRAM TBD 432 GB HBM4 288 GB HBM3e 256 GB HBM3e 192 GB HBM3 128 GB HBM2e
Cache Infinity TBD TBD 256 Mo 256 Mo 256 Mo N/A
Horloge Mémoire TBD 19.6 TB/s 8.0 Gbps 5.9 Gbps 5.2 Gbps 3.2 Gbps
Bus Mémoire TBD TBD 8192 bits 8192 bits 8192 bits 8192 bits
Bande Passante Mémoire TBD TBD 8 TB/s 6.0 TB/s 5.3 TB/s 3.2 TB/s
Forme TBD TBD OAM OAM OAM OAM
Refroidissement TBD TBD Passif / Liquide Refroidissement passif Refroidissement passif Refroidissement passif
TDP (Max) TBD TBD 1400W (355X) 1000W 750W 560W

Guide Optimisation Pc Windows 11 Jeux Performance Bot Guide Optimisations Pc Windows 10 Jeux Performances Sur Omgpu.com Bot

Guide Comment Reduire Input Lag Latence Omgpu Bot Comment supprimer Coil Whine carte graphique

Vous pourriez aussi aimer