Les chercheurs d’Amazon proposent “MiCS”, un système d’intelligence artificielle (IA) qui atteint un débit de formation élevé et une évolutivité quasi linéaire dans le cloud en utilisant uniquement le parallélisme des données

Les modèles gigantesques sont les modèles qui doivent être entraînés à l’aide de milliards ou de billions de paramètres. En raison des frais généraux de communication importants, les frameworks à usage général actuels pour des modèles aussi volumineux ne peuvent pas évoluer efficacement sur les plates-formes de cloud public. Dans leur étude la plus récente, des chercheurs de l’Université John Hopkins, de l’Université de Pékin et d’Amazon Web Services ont suggéré MiCS. L’objectif principal de cette étude est de réduire les frais généraux de communication en minimisant l’échelle de communication. Cette étude offre également la preuve expérimentale que lors du développement d’architectures, en particulier pour des réseaux de neurones profonds et de grande taille formés dans le cloud public, il est essentiel de prendre en compte l’infrastructure de formation du modèle. L’article sur les instances GPU AWS V100 et A100 montre comment la répartition inégale des poids de modèle réduit la surcharge de communication entre les nœuds. Étant donné que la plupart des échanges de gradients ont lieu au sein d’un nœud, la formation peut se dérouler plus rapidement en fonction de la taille du modèle. Le projet s’inscrit dans le cadre des efforts actuels visant à accroître l’efficacité des séances d’entraînement intensives.

Pour les réseaux de neurones profonds, la perte de test évolue de manière logarithmique avec la quantité de données d’entrée et les paramètres du réseau. Pour cette raison, la recherche et les efforts commerciaux se sont concentrés ces dernières années sur la création de réseaux de neurones à haute capacité pouvant être utilisés pour diverses tâches en aval telles que le réglage supervisé. L’évolutivité des ordinateurs de formation a également augmenté, doublant presque tous les six mois, pour répondre aux demandes de formation de ces grands réseaux. Différents algorithmes de partage de paramètres tels que ZeRO et GShard ont été suggérés pour former ces modèles à mesure que l’utilisation du réseau profond à grande échelle se généralisait. Les stations GPU sur site avec des primitives de communication à large bande passante sont souvent privilégiées lors de la création de cadres de preuve de concept. Les applications industrielles, cependant, résident souvent dans le cloud public en réalité. En raison des restrictions et de l’accessibilité des composants architecturaux dans le cloud, cela présente des obstacles technologiques supplémentaires.

Le cloud public utilise des composants réutilisables définis par logiciel qui simplifient la gestion des instances de calcul. Contrairement à la bande passante entre les nœuds entre les GPU tels que NVIDIA NVLink et NVSwitch, les clusters de machines virtuelles cloud ont généralement une bande passante entre les nœuds qui est 12 à 24 fois plus lente. En conséquence, la synchronisation de gradient distribuée devient un goulot d’étranglement important pour la formation des grands réseaux profonds. Les paramètres du modèle doivent être aussi proches que possible des GPU pour réduire la communication entre les nœuds, selon MiCS. Ceci peut être réalisé en réduisant la taille de la partition du modèle et en donnant la préférence aux GPU intra-nœuds. Le plus petit nombre de nœuds est préférable pour diviser les poids lorsque plusieurs nœuds sont nécessaires pour couvrir toute la plage de paramètres. Les chercheurs modifient également l’approche d’accumulation de gradient pour incorporer une distribution de poids inégale. En conséquence, les écarts dans la communication réelle se reflètent au niveau algorithmique.

Le rapport présente les résultats de nombreuses expériences réalisées dans des environnements de réseau 100 Gbps et 400 Gbps. Différents réseaux profonds de différentes tailles et nombres de GPU sont utilisés pour comparer les performances. MiCS améliore constamment le débit jusqu’à 2,82x pour les configurations réseau 100 Gbps et jusqu’à 2,21x pour les cas 400 Gbps. Les chercheurs de Google Cloud ont également préconisé une stratégie similaire plus tôt dans un article de blog GCP.

This Article is written as a research summary article by Marktechpost Staff based on the research paper 'MiCS: Near-linear Scaling for Training Gigantic Model on Public Cloud'. All Credit For This Research Goes To Researchers on This Project. Check out the paper, AWS article and reference article.

Please Don't Forget To Join Our ML Subreddit


Khushboo Gupta est consultant stagiaire chez MarktechPost. Elle poursuit actuellement son B.Tech de l’Indian Institute of Technology (IIT), Goa. Elle est passionnée par l’apprentissage automatique, le traitement du langage naturel et le développement Web. Elle aime en apprendre davantage sur le domaine technique en participant à divers défis.


Leave a Comment

Your email address will not be published.