Le PDG de NVIDIA affirme produire les tokens les moins chers au monde et met en avant une approche IA full-stack
NVIDIA met en avant un coût par token minimal malgré des systèmes d’IA onéreux. L’entreprise revendique ce résultat grâce à une approche full‑stack mariant matériel, logiciels et applications, optimisée pour l’efficacité et la performance. Voici les points à retenir des déclarations récentes de Jensen Huang et de la stratégie technique qui les sous-tend.
Ce qu’a annoncé Jensen Huang
Le PDG de NVIDIA affirme que, si ses machines d’IA coûtent cher, elles produisent les tokens au coût le plus bas au monde.
Le leadership de NVIDIA en IA ne tient pas qu’au matériel : son approche full‑stack permet d’obtenir le « coût par token » le plus bas
Lors de Cadence Live 2026, Jensen Huang a répété que NVIDIA est le leader du coût par token, en produisant les tokens les moins chers du marché. Un token est l’unité de base traitée par les modèles de langage pour générer une réponse, l’équivalent des syllabes pour une phrase.
La vitesse de génération dépend à la fois du matériel et du logiciel. Se reposer uniquement sur la force brute peut augmenter le débit, mais c’est peu efficient. Il faut une pile logicielle maîtrisée pour exploiter pleinement le matériel et accroître le nombre de tokens produits à ressources constantes.
C’est précisément le rôle de l’écosystème CUDA. Des années d’ingénierie ont affiné la chaîne logicielle et les bibliothèques de NVIDIA, au point que ses GPU sont réputés comme la référence pour générer des tokens de manière rapide et efficace.
On peut imaginer que l’avenir sera full‑stack. À bien des égards, nous partageons cette vision. Il faut comprendre la pile logicielle, les systèmes qu’elle alimente et les applications au‑delà. Il faut être une entreprise full‑stack, car personne ne le fera à votre place.
Jensen Huang – NVIDIA CEO
Pour NVIDIA, l’avenir de l’IA réunit logiciel, matériel et applications. Le prochain grand chantier est l’Agentic AI, déjà en forte progression sur le marché.
Jensen reconnaît que ses machines d’IA sont chères, mais qu’elles restent celles qui délivrent le coût par token le plus faible. Les systèmes Blackwell ou les futures plates‑formes Rubin se négocient à des millions d’€, et peuvent générer des milliards de revenus chez les clients. Malgré un prix d’acquisition élevé, ces mêmes machines produisent une quantité inédite de tokens, avec un coût par token minimal et un excellent ratio token/W (watt).
Nous sommes les leaders du faible coût par token.
Je produis les tokens les moins chers au monde. Le système est cher, je le reconnais. C’est néanmoins le coût par token le plus bas, et il s’améliore sans cesse.
Plus vous en achetez, plus vous économisez.
Jensen Huang – NVIDIA CEO
Ce discours illustre la logique full‑stack évoquée par Jensen. NVIDIA promeut un nouveau cadre d’évaluation du TCO (coût total d’exploitation) autour du « coût par token ». Plutôt que de ne regarder que le débit maximum, l’analyse doit intégrer le coût et la consommation requis pour générer chaque token, des indicateurs plus pertinents pour comparer les systèmes.
Avec l’Agentic AI qui gagne du terrain, NVIDIA devra composer avec des concurrents qui proposent leurs propres approches face à Rubin/Vera Rubin et avec des contraintes d’approvisionnement persistantes. Depuis les débuts de sa stratégie IA, l’entreprise a enchaîné les succès, et c’est encore le cas aujourd’hui.



