Qu'est-ce que le GPU NVIDIA A100 Tensor Core ? Prix, architecture
Pour améliorer les performances en matière de HPC, d'IA et d'analyse de données, les GPU NVIDIA A100 Tensor Core, basés sur l'architecture Ampere la plus récente, offrent plusieurs nouvelles fonctionnalités par rapport aux GPU NVIDIA Tesla V100.
Pour les applications d'apprentissage profond et le calcul GPU exécutés sur des postes de travail GPU à une ou plusieurs cartes, des serveurs, des clusters, des centres de données cloud, des systèmes informatiques de pointe et des centres de calcul intensif, l'A100 offre une évolutivité améliorée. Les GPU A100 permettent de créer des performances élevées. Des centres de données , adaptables et durables.
Grâce à ses capacités révolutionnaires de virtualisation GPU multi-instance (MIG) et de découpe GPU, l'A100 devient encore plus convivial pour les fournisseurs de services cloud (CSP). Le basculement robuste de l'A100 permet aux fournisseurs de diviser les GPU en toute sécurité et, lorsqu'il est configuré pour un fonctionnement MIG, il peut les aider à augmenter l'utilisation du serveur GPU en divisant jusqu'à sept cœurs sans nécessiter d'investissement supplémentaire.
L'A100 est équipé d'un puissant Tensor Core de troisième génération, qui double le débit de calcul par rapport au V100 et prend en charge une plus large gamme de types de données DL et HPC. La nouvelle fonctionnalité Sparsity de l'A100 améliore encore ces performances.
L'A100 peut facilement accélérer les opérations en utilisant FP32 comme données d'entrée/sortie dans les frameworks DL et HPC grâce à la nouvelle unité centrale TensorFloat-32 (TF32). Avec une optimisation clairsemée, l'A100 peut atteindre des vitesses jusqu'à 20 fois plus rapides que les opérations FMA du V100 FP32. Avec une précision combinée FP16/FP32, il est 2,5 fois plus rapide que le V100, et avec une optimisation clairsemée, il est 5 fois plus rapide.
Les nouveaux opcodes Tensor Core pour la précision mixte Bfloat16(BF16)/FP32 s'exécutent à la même fréquence que la précision mixte FP16/FP32. Tensor Core prend entièrement en charge l'inférence DL avec son accélération de INT8, INT4 et INT1, l'INT8 clairsemé A100 jusqu'à 20 fois plus rapide que le V100 INT8. Comparé au V100 INT8, l'A100 clairsemé INT8 est 20 fois plus rapide. Avec le traitement FP64 compatible IEEE, l'A100 Tensor Core surpasse le V100 de 2,5 fois en HPC.
En plus de gérer des tâches complexes et à grande échelle, l'A100 peut également accélérer efficacement plusieurs tâches plus petites. Cela permet de construire des centres de données avec la flexibilité nécessaire pour s'adapter à des charges de travail variables, offrant des configurations de tâches plus précises, une utilisation accrue du GPU et un coût total de possession amélioré.

Unité de traitement graphique (GPU)
Souvent confondu avec la carte graphique elle-même. Le GPU est conçu pour gérer les calculs géométriques et mathématiques plus complexes nécessaires au rendu graphique, contrairement au processeur d'un ordinateur. Par rapport aux processeurs standards, les GPU ont souvent plus de transistors, des cœurs de traitement plus denses et des unités logiques arithmétiques (ALU).
Ces unités sont divisées en quatre catégories :
Multiprocesseurs pour le streaming (SM)
Unités de chargement/stockage (LD/ST)
Unités de fonction spéciale (SFU)
Unité de mappage de texture (TMU)
1) Une entité d'exécution connue sous le nom de Streaming Multiprocessor (SM) est composée de plusieurs cœurs qui partagent de la mémoire, de l'espace de registre et un cache L1. Le cœur d'un SM a la capacité d'exécuter plusieurs threads à la fois. Il existe deux principaux concurrents pour les cœurs d'un SM :
De manière générale, les cœurs Tensor et CUDA de NVIDIA sont considérés comme plus efficaces et plus stables, en particulier pour les charges de travail d'apprentissage automatique. Un cœur CUDA est une fonctionnalité de chaque GPU Nvidia introduit au cours des dix dernières années, tandis que le Tensor Core est un développement plus récent. En termes de calcul, le Tensor Core est bien plus rapide que le CUDA Core. En effet, le Tensor Core est capable d'effectuer plusieurs opérations à chaque cycle d'horloge, tandis que le cœur CUDA est limité à une seule opération. Les cœurs CUDA sont plus que suffisants pour certaines applications, mais ils ne sont pas aussi puissants que les cœurs Tensor pour les modèles d'apprentissage automatique en termes de précision et de vitesse de traitement.
La gestion du cache au sein de l'A100 est conçue pour maximiser la vitesse et la fluidité des transferts de données entre les cœurs et la VRAM. Le GPU A100 dispose de trois niveaux de cache, L0, L1 et L2, pour y parvenir :
Le cache L2 est unifié, partagé par tous les SM et réservé aux données et aux instructions. Le cache d'instructions L0 est privé d'un seul bloc de sous-traitement multiprocesseur de streaming. Le cache d'instructions L1 est privé SM.
2) Plusieurs opérations de chargement et de stockage de données dans la mémoire peuvent être effectuées par threads par cycle d'horloge grâce à l'unité de chargement/stockage (LD/ST). Ces unités dans A100 introduisent une nouvelle méthode de copie de données asynchrone qui charge les données globalement partagées entre les threads sans utiliser de ressources de thread supplémentaires. Cette technique récemment implémentée ajoute environ 20 % au temps de chargement des données entre le cache local et la mémoire partagée.
3) Les unités fonctionnelles spéciales (SFU) exécutent efficacement des opérations mathématiques ou arithmétiques structurées sur des données vectorielles, notamment la racine carrée, le sinus, le cosinus et l'inverse.
4) Les fonctions spécifiques à l'application telles que la rotation de l'image, le redimensionnement, l'ajout de bruit et de distorsion et le mouvement d'objet planaire 3D sont gérées par l'unité de mappage de texture (TMU).
GPU, Nvidia A100, A100
















