NVIDIA dévoile son monstre A100 (Ampere) avec TF32 : 54 milliards de transistors en 7 nm

Un nouveau GPU pour les calculer tous
NVIDIA dévoile son monstre A100 (Ampere) avec TF32 : 54 milliards de transistors en 7 nm

C'est parti pour Ampere : lors de sa conférence en ligne de la GTC 2020, Jen Hsun Huang va présenter ce nouveau GPU haut de gamme devant être intégré dans des serveurs... mais aussi décliné à de nombreuses sauces. Une puce géante qui dévoile ses premiers atouts... mais pas encore la totalité de ses secrets.

Cela fait des mois que les rumeurs courent sur la prochaine génération de GPU NVIDIA : Ampere. Elles ont été nombreuses, souvent contradictoires, mais au final, nos prévisions étaient juste : les annonces du jour ne concernent que des produits à destination des professionnels. Les GeForce GTX 3080 Ti* attendront.

Ampere vient donc remplacer Volta (V100), l'A100 dévoilé aujourd'hui ayant tout d'un monstre pour datacenter. Pour NVIDIA, l'enjeu est en effet de garder son avance pour les années à venir, alors qu'AMD opère un retour progressif et va s'attaquer à ce marché avec Navi 2X, pendant qu'Intel prépare son propre GPU Xe qui visera lui aussi les serveurs.

Ampere n'y va pas avec le dos de la cuillère

Le caméléon a donc fait dans la démesure, ajoutant à son architecture quelques nouveautés. Commençons par quelques chiffres : une puce A100 est gravée en 7 nm par TSMC (N7). Elle se compose de pas moins de 54,2 milliards de transistors, regroupés dans un die de 826 mm². La plus grosse puce produite sur ce process selon NVIDIA. Pour rappel, Volta (gravé en 12 nm) mesurait 815 mm².

Le tout se présente sous la forme d'un module SXM4, 40 Go de HBM2 (5120 bits) étant « stackés », atteignant un débit de 1,6 To/s. Le TDP de l'ensemble : 400 watts.

En charge des calculs matriciels, les Tensor Cores d'Ampere sont de troisième génération, après ceux de Volta puis de Turing. Ils gèrent FP64 et un nouveau format de données : TF32. Sorte de Bfloat16 amélioré il combine la précision du FP16 (mantisse de 10 bits) et la largeur du FP32 (exposant de 8 bits).

NVIDIA promet une accélération sans modification du code. Nous manquons encore de détails sur leurs implémentations concrètes (via CUDA, TensorRT, etc.). Nous tenterons d'en savoir plus sous peu. 

  • NVIDIA Ampere A100
  • NVIDIA Ampere A100
  • NVIDIA Ampere A100
  • NVIDIA Ampere A100

Le constructeur dit aussi avoir optimisé son architecture pour les matrices creuses (sparsity) doublant l'efficacité lorsque de tels cas se présentent. Ainsi, Ampere serait deux fois plus performant que Volta en FP64, 6/7x sur BERT, jusqu'à 20x en croisant ses nouveaux avantages techniques. Des déclarations qu'il faudra vérifier dans les faits.

Autre ajout qui pourra intéresser certains : il est désormais possible de « découper » un GPU Ampere en 7 instances de GPU. Là aussi, on manque de détails sur l'implémentation concrète et comment cela pourra être exploité. Attendons donc les documentations techniques qui ne manqueront pas d'être publiées. SR-IOV est géré.

Pour le moment, aucune déclinaison PCIe (4.0) n'est annoncée. L'A100 est d'ores et déjà en production, distribué à des clients. La puce sera accessible via de nombreux services Cloud et intégrateurs : Alibaba Cloud, Amazon Web Services (AWS), Atos, Baidu Cloud, Cisco, Dell, Fujitsu, Gigabyte, Google Cloud, H3C, Hewlett Packard Enterprise (HPE), Inspur, Lenovo, Microsoft Azure, Oracle, Quanta/QCT, Supermicro et Tencent Cloud.

A100 : tout pour le calcul

Vous avez remarqué que nous n'avons pas encore parlé de ray tracing et de RT Cores ? C'est normal : il n'y en a pas dans cette première déclinaison d'Ampere. L'A100 est taillé pour le calcul, l'entrainement de réseaux neuronaux et l'inférence, comme la gamme Tesla. RTX reste la chasse gardée de Turing pour le moment, des GeForce et des Quadro. 

Un GPU A100 compte ainsi pas moins de 108 SM (Streaming Multiprocessors), pour un total de 6 912 CUDA Cores (FP32, 64 par SM), 432 Tensor Cores, 432 unités de texturing et 40 Mo de cache L2. Le tout fonctionne à une fréquence maximale de 1,41 GHz. NVIDIA annonce également 312 TFLOPS (FP16) et 624 TOPS (INT8 ) :

NVIDIA Ampere A100

Pour rappel, une V100 SXM2 annonçait 15,7 TFLOPS, contre 16,3 TFLOPS pour une Titan RTX avec 4 608 CUDA Cores mais une fréquence de 1 770 MHz. Un gain de 20 % en puissance de calcul brute, auquel il faudra rajouter les optimisations de l'architecture, mais aussi ses capacités d'interconnexion (NVLink/Switch de 3e génération). Une chose est sûre : NVIDIA garde encore quelques « billes » pour de prochaines annonces.

Notez d'ailleurs que si aucune GeForce n'est pour le moment annoncée, de nombreuses déclinaisons sont déjà lancées. Le SoC Orin bien entendu, qui a déjà été annoncé dans le domaine automobile. Mais aussi EGX pour les solutions de communications avec l'intégration à une carte réseau 2x 100G de Mellanox (qui appartient désormais à NVIDIA), des baies DGX/EGX. Le tout accompagné de nombreuses évolutions des couches logicielles.

Retrouvez la présentation de Jen Hsun Huang ci-dessous :


* Dénomination non contractuelle

2000 - 2021 INpact MediaGroup - SARL de presse, membre du SPIIL. N° de CPPAP 0326 Z 92244.

Marque déposée. Tous droits réservés. Mentions légales et contact