NVIDIA: repensez le TCO de l’IA, la seule métrique qui compte est le coût par token

Par Quentin Le 16 Avr 2026 à 21 h 13

NVIDIA veut remettre à plat la façon d’évaluer le coût total de possession (TCO) des déploiements IA. Plutôt que de s’en tenir aux fiches techniques ou aux FLOPS par euro, la firme propose un indicateur aligné sur l’usage réel: le « coût par token ». Dans un marché désormais mature, c’est la quantité de tokens délivrés pour un coût minimal qui compte, pas uniquement la vitesse brute du GPU.

Pourquoi le « coût par token » devient central

Alors que l’industrie de l’IA atteint un stade de maturité, les repères historiques perdent de leur pertinence. NVIDIA suggère d’évaluer le TCO sous l’angle du « coût par token », un indicateur pensé pour mesurer ce que produisent réellement les « usines d’IA ».

NVIDIA veut que tout le monde repense le TCO de l’IA avec l’indicateur « coût par token »

Le token devient la métrique centrale pour l’IA. Là où les datacenters d’hier se jugeaient à la puissance brute, les usines d’IA d’aujourd’hui se comparent à la production de tokens. La quantité ne suffit toutefois pas: l’efficacité et le coût restent décisifs, d’où la nécessité de revoir la façon de penser le TCO.

NVIDIA note que beaucoup d’entreprises s’appuient encore sur des valeurs relatives, des spécifications de puces, le coût de calcul, ou des ratios du type FLOPS/€, et qu’il faut changer d’approche.

Coût de calcul correspond à ce que paient les entreprises pour l’infrastructure IA, qu’elle soit louée dans le cloud ou exploitée sur site.
FLOPS par euro indique la puissance brute obtenue pour chaque euro, mais la puissance théorique ne reflète pas la production de tokens en conditions réelles.
Coût par token est le coût complet pour produire chaque token délivré, généralement exprimé en coût par million de tokens.

NVIDIA détaille les leviers qui font baisser le coût par token et propose une équation pour calculer le coût par million de tokens. Beaucoup d’acteurs se focalisent sur le numérateur, le « coût par GPU et par heure », alors que le dénominateur — la production de tokens — est le véritable levier pour réduire les coûts et améliorer les marges.

Réduire le coût par token : accroître la production de tokens fait mécaniquement baisser le coût unitaire, ce qui augmente la marge sur chaque interaction servie.
Maximiser le revenu : plus de tokens par seconde signifie aussi plus de tokens par mégawatt, donc davantage d’intelligence à injecter dans les produits et services, pour générer plus de chiffre d’affaires avec la même infrastructure.

Pourquoi est-ce important ? Parce que, pour une entreprise IA, le coût pertinent est le coût par token, pas le FLOPS par euro.

Pour illustrer, NVIDIA compare Hopper et Blackwell. Le coût horaire par GPU est environ deux fois plus élevé sur Blackwell que sur Hopper, et les FLOPS par euro affichent aussi un rapport d’environ 2x. À ces seuls indicateurs, Blackwell semble n’apporter qu’un gain compensé par son coût supérieur.

La différence réelle apparaît sur le débit de tokens et le coût par million de tokens. Sur ces métriques, Blackwell peut être jusqu’à 65x plus rapide que Hopper, et le coût par million de tokens jusqu’à 35x plus bas. Données issues du benchmark InferenceX v2 de SemiAnalysis.

Indicateur	NVIDIA Hopper (HGX H200)	NVIDIA Blackwell (GB300 NVL72)	Blackwell vs Hopper
Coût par GPU et par heure (€)	1.41 €	2.65 €	2x
FLOPS par euro (PFLOPS)	2.8	5.6	2x
Tokens par seconde et par GPU	90	6 000	65x
Tokens par seconde et par MW	54 K	2.8 M	50x
Coût par million de tokens (€)	4.20 €	0.12 €	35x plus bas

On peut y voir un clin d’œil à la « CEO math », mais l’argumentaire repose aussi sur un socle logiciel très complet. NVIDIA domine nombre de benchmarks avec ses piles logicielles IA, là où d’autres peinent à suivre.

Le PDG de NVIDIA a d’ailleurs invité ses concurrents à publier leurs propres mesures, beaucoup affirmant surpasser NVIDIA sans fournir de preuves comparables.

« Personne ne peut me démontrer qu’une plateforme unique au monde offre aujourd’hui un meilleur ratio performance/TCO. Aucune entreprise… Je les encourage à utiliser Inference Max et à démontrer leur coût d’inférence. C’est vraiment, vraiment difficile… non, personne ne veut se présenter. »

Jensen Huang – PDG de NVIDIA

En repositionnant le débat sur le coût par token, NVIDIA ne revendique pas seulement des victoires en benchmarks, mais s’aligne sur des indicateurs que les entreprises IA jugent déterminants pour créer de la valeur.

NVIDIA