Découvrez MultiRay : la nouvelle plate-forme de Meta AI pour l’exécution efficace de modèles d’intelligence artificielle (IA) à grande échelle

Les systèmes d’IA de pointe d’aujourd’hui pour la gestion du texte, des images et d’autres modalités atteignent des performances optimales en formant d’abord un modèle massif avec une quantité massive de données, puis en formant ce modèle à se spécialiser dans un seul travail (par exemple, identifier les parole). Le résultat est un outil spécialisé de haute qualité et à prix élevé. Le coût de maintenance d’un si grand nombre de modèles massifs devient rapidement incontrôlable s’il y a trop de problèmes à résoudre. En conséquence, d’énormes modèles à la pointe de la technologie sont rarement utilisés dans la production, et des modèles considérablement plus petits et plus simples sont utilisés à la place.

La nouvelle recherche Meta AI a créé MultiRay, une nouvelle plate-forme pour exécuter des modèles d’IA de pointe à grande échelle afin de rendre les systèmes d’IA plus efficaces. Avec MultiRay, plusieurs modèles peuvent partager la même entrée. Seule une fraction du temps de traitement et des ressources est utilisée pour chaque modèle, ce qui minimise le coût global de ces opérations basées sur l’IA. En centralisant les ressources de calcul de l’entreprise dans un modèle, les accélérateurs d’IA peuvent facilement se déployer et échanger stratégiquement entre les ressources de calcul et le stockage de données. Les modèles universels de MultiRay ont été réglés pour exceller dans une grande variété d’applications.

Des modèles d’apprentissage automatique (ML) pour diverses utilisations telles que le post-marquage et la détection des discours de haine peuvent être développés et affinés par les équipes de Meta avec l’aide de MultiRay. Cette méthode est plus efficace en termes de temps et de main-d’œuvre que de demander à plusieurs équipes de créer indépendamment d’énormes modèles de bout en bout.

MultiRay augmente l’accessibilité aux grands modèles de base de Meta en déchargeant les calculs vers du matériel spécialisé tel que les unités de traitement graphique (GPU) et en minimisant le temps et l’énergie consacrés au recalcul en conservant les données fréquemment utilisées en mémoire (cache). MultiRay pilote actuellement plus de 125 cas d’utilisation dans Meta, prenant en charge jusqu’à 20 millions de requêtes par seconde (RPS) et 800 milliards de requêtes quotidiennes.

MultiRay utilise des modèles massifs et fondamentaux pour refléter avec précision l’entrée qui fournit un point dans un espace vectoriel de grande dimension. Une intégration représente l’entrée la plus réceptive à l’apprentissage automatique. Pour simplifier le traitement des modèles spécifiques à une tâche, MultiRay fournit une intégration de données d’entrée (telles que du texte et des images) qui peuvent être consommées à la place de l’entrée brute. Les modèles de base de MultiRay sont formés pour bien fonctionner sur une variété de tâches, y compris la similarité et la classification. En raison de la nécessité de transmettre des informations supplémentaires, nos intégrations sont volumineuses (plusieurs kilo-octets).

Les modèles centralisés massifs offrent les avantages suivants :

  1. Amortissement de plusieurs équipes
  2. Réduction de la complexité de la production et de l’exploitation
  3. Délais plus courts entre la découverte et la commercialisation : changement de vitesse localisé

Une seule demande peut être effectuée simultanément à l’aide de l’API externe de MultiRay. Pour gérer le volume élevé de demandes provenant de plusieurs clients en même temps, MultiRay utilise un mécanisme interne de regroupement de demandes croisées. La logique ne doit être écrite qu’une seule fois et peut être modifiée pour produire des lots de taille optimale pour votre modèle et votre matériel. Même en cas d’améliorations significatives des performances, telles que l’utilisation d’une taille de lot plus importante lors du passage à la dernière génération de matériel d’accélérateur GPU, ce lot est totalement transparent pour les clients qui font les demandes.

Pour minimiser le temps et l’énergie consacrés au recalcul, MultiRay utilise un cache. Il s’agit d’un cache à plusieurs niveaux conçu pour économiser du temps et de l’argent, avec des taux de réussite plus élevés au détriment de temps d’accès plus lents. Chaque serveur MultiRay possède son propre cache local rapide mais limité basé sur la RAM. Ces caches sont complétés par un cache distribué mondialement basé sur Flash plus lent mais plus étendu.


Vérifiez article de référence🇧🇷 Tout le mérite de cette recherche revient aux chercheurs de ce projet. N’oubliez pas non plus de vous inscrire notre page Reddit et canal de la discordeoù nous partageons les dernières nouvelles sur la recherche en IA, des projets d’IA passionnants, et plus encore.


Tanushree Shenwai est consultante stagiaire chez MarktechPost. Actuellement, elle poursuit son B.Tech à l’Indian Institute of Technology (IIT), Bhubaneswar. Elle est une passionnée de la science des données et s’intéresse vivement au champ d’application de l’intelligence artificielle dans divers domaines. Elle est passionnée par l’exploration des nouvelles avancées technologiques et leur application dans la vie réelle.