Utilisation gratuite de modèles d’intelligence artificielle (IA) à la pointe de la technologie : essayez l’OPT-175B sur votre mobile et votre ordinateur portable

Lorsqu’il s’agit de grands modèles d’IA, des performances remarquables sur une large gamme d’applications s’accompagnent souvent d’un budget important pour le matériel et les coûts d’exploitation. En conséquence, la plupart des utilisateurs d’IA, comme les chercheurs dans les startups ou les universités, ne peuvent s’empêcher d’être submergés par des nouvelles stupéfiantes sur le coût de la formation de grands modèles.

Heureusement, grâce à l’aide de la communauté open source, servir de grands modèles d’IA est devenu facile, abordable et abordable pour la plupart.

Vous pouvez maintenant voir l’incroyable performance OPT de 175 milliards de paramètres dans les tâches de génération de texte et tout faire en ligne gratuitement sans aucune inscription !

Il est temps de se salir les mains:

https://service.colossalai.org/

test rapide

Ce service offre une variété de tâches de génération de texte, notamment la FAQ, le chatbot, la traduction, la rédaction, etc.

Vous êtes invité à choisir un scénario tel que FAQ, entrez le contenu et cliquez sur le bouton bleu Générer.
Maintenant, attendez quelques secondes et boum, vous avez vos résultats.

Dans les coulisses

OPT-175B

Pour comprendre les principes techniques d’inférence à partir du grand modèle que nous venons d’essayer, passons d’abord en revue le grand modèle que nous venons d’utiliser.

Le nom complet de l’OPT est Ouvrez le transformateur pré-forméqui est un modèle Transformer à grande échelle (175 milliards de paramètres) qui a des performances similaires à celles du GPT-3.

Par rapport à GPT-3, pour lequel OpenAI n’a pas encore publié les poids du modèle, Meta AI ouvre généreusement tout le code ainsi que les poids du modèle. Il favorise grandement les applications de grands modèles d’IA, et chaque développeur peut les utiliser comme base pour développer des tâches personnalisées en aval.

Cependant, les grands modèles d’IA haut de gamme tels que GPT-3, OPT-175B et AlphaFold dépassent de loin la capacité du matériel existant, et des technologies distribuées complexes et professionnelles doivent être utilisées pour la formation et le déploiement de services d’inférence. La plupart des systèmes existants ont également des problèmes tels que des barrières élevées à l’apprentissage, une faible efficacité d’exécution, une faible généralité, une mise en œuvre difficile et un manque de maintenance.

Pour résoudre ce problème, Colossal-AI, un système d’apprentissage en profondeur unifié pour l’ère des grands modèles, peut Déployez efficacement et rapidement la formation et l’inférence de grands modèles d’IA avec seulement quelques lignes de code et favorisez l’application et la mise en œuvre à faible coût de grands modèles.

Déployez rapidement des services cloud Big AI Model avec l’Open Source Colossal-AI

Services cloud OPT

Le déploiement en ligne rapide du grand modèle OPT-175B repose sur l’écosystème de grands modèles Colossal-AI. Avec seulement quelques lignes de code, le déploiement parallèle de grands modèles dans le cloud peut être complété.

De impossible pour “etpossible

Le premier problème avec l’exécution de grands modèles est qu’une seule unité de mémoire GPU ne peut pas prendre en charge l’énorme quantité de paramètres de modèle, et l’inférence nécessite non seulement un débit mais également une latence. C’est donc une idée intuitive d’utiliser le parallélisme pour résoudre ce problème, et Colossal-AI peut facilement exécuter un seul modèle en parallèle. L’écosystème Colossal-AI peut fournir de nombreux exemples d’applications, notamment GPT, OPT, BERT, PaLM, AlphaFold, etc.

Après avoir obtenu le modèle OPT parallèle, l’étape suivante consiste à gérer le chargement des paramètres, et l’écologie Colossal-AI fournit également une solution décente. Les utilisateurs n’ont qu’à se référer à l’exemple de code pour fournir simplement la relation de mappage de nom de paramètre pour terminer le chargement, enfin mettre le modèle dans le moteur d’inférence et définir les hyperparamètres correspondants. À présent, l’inférence parallèle du réseau fédérateur OPT est prête pour le service et des résultats significatifs en langage naturel peuvent être créés.

De “activer” à “améliorer”

Après avoir exécuté avec succès un réseau dorsal parallèle, surmonté des obstacles tels que le mur de mémoire et le chargement de paramètres parallèles, Colossal-AI améliore encore les performances d’inférence en fournissant diverses optimisations pour les tâches de génération qui peuvent atteindre débit d’inférence des dizaines de fois supérieur.

Comme OPT est orienté vers des tâches de génération qui nécessitent un processus itératif, le modèle de backbone doit être appelé plusieurs fois pour une seule requête. Cela rend la stratégie de traitement par lots commune dans l’inférence non applicable et le traitement par lots unique inefficace. En outre, il existe de nombreux calculs répétés dans l’étape de génération.

Afin de libérer le potentiel de parallélisme matériel avancé pour les tâches de génération, l’équipe Colossal-AI a ajouté la technique de remplissage à gauche pour permettre le traitement par lots, la technique de mise en cache précédente pour éliminer les calculs répétés au stade de la génération, et a introduit la technique du seau. réduire les calculs inutiles.

Expliquons d’abord pourquoi les tâches de génération ne peuvent pas utiliser directement la méthode par lots commune. Comme le montre la figure ci-dessous, étant donné que la longueur des chaînes d’entrée varie souvent et que la plupart des langues sont écrites de gauche à droite, il est difficile de générer des résultats significatifs pour des phrases plus courtes ou vous devez appliquer un traitement complexe au résultat, si vous utilisez le bon rembourrage. Cependant, lorsque nous utilisons le remplissage gauche pour remplir des phrases, le côté génération (côté droit) de chaque phrase est aligné et de nouveaux mots peuvent être générés simultanément.

Le rembourrage droit n’est pas adapté aux tâches génératives
rembourrage gauche

De plus, dans la tâche de génération, une seule inférence de modèle ne peut générer qu’un seul nouveau mot et le nouveau mot sera ajouté à la fin de la chaîne d’origine, puis la chaîne nouvellement assemblée sera remise dans le modèle pour générer le prochain nouveau mot . Ainsi, il y a de nombreux calculs répétés dans le processus itératif. En particulier pour la couche linéaire, qui représente la majeure partie du calcul, de nombreux calculs répétés sont effectués. Par conséquent, les développeurs de Colossal-AI ont ajouté la technique de mise en cache précédente dans le modèle, qui stockera temporairement les résultats de sortie de la couche linéaire dans la même tâche de génération, et un seul nouveau mot circulera dans la couche linéaire à chaque fois, réduisant considérablement la pratique. calculs nécessaires.

Processus de calcul de tâche générative. La technique de mise en cache précédente conserve les résultats du calcul de la couche linéaire de la même tâche. Une nouvelle itération n’a besoin que de calculer un nouveau mot, puis le nouveau mot sera ajouté au cache pour les calculs ultérieurs.

De plus, les développeurs de Colossal-AI ont remarqué que, contrairement à d’autres tâches, le calcul des différentes requêtes dans les tâches de génération varie non seulement dans la longueur des phrases d’entrée, mais également dans la longueur des phrases de sortie cibles, et les deux longueurs varient. très.

Par conséquent, les développeurs de Colossal-AI ont ajouté la technique de traitement par lots, c’est-à-dire le tri des seaux par longueur de phrase d’entrée et longueur de phrase de sortie cible, et les chaînes dans le même seau sont utilisées comme un lot, ce qui réduit considérablement le calcul redondant en réduisant considérablement le nombre de calculs redondants.

Le regroupement par lots place les travaux avec des longueurs d’entrée et de sortie similaires dans le même lot.

Colossal-AI pour l’ère des grands modèles

Colossal-AI fournit non seulement de nombreuses excellentes solutions pour les grands modèles, mais plus important encore, il est entièrement open source!

Chaque développeur peut former ses propres grands modèles basés sur Colossal-AI à faible coût et les déployer en tant que service cloud. Par exemple, sur un RTX 3080 de 10 Go, un modèle avec 12 milliards de paramètres peut être formé, augmentant la capacité du modèle de 120 fois par rapport au PyTorch d’origine.

Depuis qu’il est open source, Colossal-AI a atteint #1 des projets tendances sur GitHub et Papers With Code plusieurs fois, ainsi que d’autres projets qui ont jusqu’à 10 000 étoiles. Colossal-AI montre déjà un énorme potentiel dans plusieurs domaines, y compris médecine, véhicules autonomes, cloud computing, vente au détail et production de puces. De plus, maintenant, avec l’aide de l’open source Colossal-AI, nous pouvons obtenir rapidement un déploiement efficace des services cloud.

Récemment, l’équipe Colossal-AI a été acceptée et invitée à prendre la parole lors de plusieurs conférences internationales notables, notamment SuperComputing 2022 (SC22), Open Data Science Conference (ODSC), World Artificial Intelligence Conference (WAIC) et AWS Summit. Lors de l’événement, l’équipe Colossal-AI partagera de nombreuses choses et technologies à jour et étonnantes sur le calcul haute performance (HPC) et l’intelligence artificielle (IA) qui changeront le monde. Suivez-nous et restez informés !

code source ouverthttps://github.com/hpcaitech/ColossalAI

Entrée de service cloudhttps://service.colossalai.org/

Référence

Thanks to HPC AI Tech for the thought leadership/ Educational article. HPC AI Tech has supported this Content.


Partner Post est un compte d’auteur permettant de publier des articles de nos partenaires, affiliés et annonceurs.


Leave a Comment

Your email address will not be published.