Apprentissage automatique collaboratif qui préserve la confidentialité | Nouvelles du MIT

La formation d’un modèle d’apprentissage automatique pour effectuer efficacement une tâche telle que la classification d’images implique de montrer au modèle des milliers, des millions, voire des milliards d’exemples d’images. La collecte d’ensembles de données aussi volumineux peut être particulièrement difficile lorsque la confidentialité est une préoccupation, comme dans l’imagerie médicale. Des chercheurs du MIT et de la startup née au MIT DynamoFL ont maintenant adopté une solution populaire à ce problème connue sous le nom d’apprentissage fédéré et l’ont rendue plus rapide et plus précise.

L’apprentissage fédéré est une méthode collaborative de formation d’un modèle d’apprentissage automatique qui préserve la confidentialité des données utilisateur sensibles. Des centaines ou des milliers d’utilisateurs forment leur propre modèle en utilisant leurs propres données sur leur propre appareil. Les utilisateurs transfèrent ensuite leurs modèles vers un serveur central, qui les combine pour créer un meilleur modèle qu’il renvoie à tous les utilisateurs.

Un ensemble d’hôpitaux situés dans le monde entier, par exemple, pourrait utiliser cette méthode pour former un modèle d’apprentissage automatique qui identifie les tumeurs cérébrales dans les images médicales tout en protégeant les données des patients sur leurs serveurs locaux.

Mais l’apprentissage fédéré présente certains inconvénients. Déplacer un grand modèle de machine learning vers et depuis un serveur central implique de déplacer beaucoup de données, ce qui a des coûts de communication élevés, d’autant plus que le modèle doit faire des allers-retours des dizaines voire des centaines de fois. De plus, chaque utilisateur collecte ses propres données, de sorte que ces données ne suivent pas nécessairement les mêmes modèles statistiques, ce qui nuit aux performances du modèle combiné. Et ce modèle combiné est fait en prenant une moyenne – il n’est pas personnalisé pour chaque utilisateur.

Les chercheurs ont développé une technique qui permet de résoudre simultanément ces trois problèmes d’apprentissage fédéré. Leur méthode augmente la précision du modèle d’apprentissage automatique combiné en réduisant considérablement sa taille, ce qui accélère la communication entre les utilisateurs et le serveur central. Cela garantit également que chaque utilisateur reçoit un modèle plus personnalisé pour son environnement, ce qui améliore les performances.

Les chercheurs ont pu réduire la taille du modèle de près d’un ordre de grandeur par rapport à d’autres techniques, ce qui a entraîné des coûts de communication quatre à six fois inférieurs pour les utilisateurs individuels. Sa technique a également permis d’augmenter la précision globale du modèle d’environ 10 %.

« De nombreux travaux ont abordé l’un des problèmes de l’apprentissage fédéré, mais le défi était de tout rassembler. Les algorithmes qui se concentrent uniquement sur la personnalisation ou l’efficacité de la communication ne fournissent pas une solution suffisamment bonne. Nous voulions nous assurer que nous pouvions tout optimiser afin que cette technique puisse être utilisée dans le monde réel », explique Vaikkunth Mugunthan PhD ’22, auteur principal d’un article présentant cette technique.

Mugunthan a rédigé l’article avec son conseiller, l’auteur principal Lalana Kagal, chercheur principal au Laboratoire d’informatique et d’intelligence artificielle (CSAIL). Les travaux seront présentés à la conférence européenne sur la vision par ordinateur.

Réduire un modèle à sa taille

Le système développé par les chercheurs, appelé FedLTN, est basé sur une idée d’apprentissage automatique connue sous le nom d’hypothèse de billet de loterie. Cette hypothèse indique que dans les modèles de très grands réseaux de neurones, il existe des sous-réseaux beaucoup plus petits qui peuvent atteindre les mêmes performances. Trouver l’un de ces sous-réseaux revient à trouver un billet de loterie gagnant. (LTN signifie “Lottery Ticket Network”.)

Les réseaux neuronaux, vaguement basés sur le cerveau humain, sont des modèles d’apprentissage automatique qui apprennent à résoudre des problèmes en utilisant des couches interconnectées de nœuds, ou neurones.

Trouver un réseau de billets de loterie gagnant est plus compliqué qu’une simple carte à gratter. Les chercheurs doivent utiliser un processus appelé élagage itératif. Si la précision du modèle est supérieure à un seuil défini, ils suppriment les nœuds et les connexions entre eux (comme l’élagage des branches d’un buisson), puis testent le réseau de neurones le plus léger pour voir si la précision reste supérieure au seuil.

D’autres méthodes ont utilisé cette technique d’élagage pour l’apprentissage fédéré afin de créer des modèles d’apprentissage automatique plus petits qui peuvent être transférés plus efficacement. Mais si ces méthodes peuvent accélérer les choses, les performances du modèle en souffrent.

Mugunthan et Kagal ont appliqué des techniques innovantes pour accélérer le processus d’élagage tout en rendant les nouveaux modèles plus petits plus précis et personnalisés pour chaque utilisateur.

Ils ont accéléré l’élagage en évitant une étape où les parties restantes du réseau neuronal élagué sont “rembobinées” à leurs valeurs d’origine. Ils ont également formé le modèle avant de le tailler, ce qui le rend plus précis et peut donc être taillé plus rapidement, explique Mugunthan.

Pour rendre chaque modèle plus personnalisé à l’environnement de l’utilisateur, ils ont pris soin de ne pas éliminer les couches du réseau qui capturent des informations statistiques importantes sur les données spécifiques de cet utilisateur. De plus, lorsque tous les modèles étaient combinés, ils utilisaient des informations stockées sur le serveur central afin qu’il ne reparte pas de zéro à chaque cycle de communication.

Ils ont également développé une technique pour réduire le nombre de tours de communication pour les utilisateurs avec des appareils à ressources limitées comme un smartphone sur un réseau lent. Ces utilisateurs démarrent le processus d’apprentissage fédéré avec un modèle allégé qui a déjà été optimisé par un sous-ensemble d’autres utilisateurs.

Gagner gros avec les réseaux de billets de loterie

Lorsqu’ils ont testé FedLTN dans des simulations, cela a conduit à de meilleures performances et à une réduction des coûts de communication globaux. Dans une expérience, une approche d’apprentissage fédéré traditionnelle a produit un modèle d’une taille de 45 mégaoctets, tandis que leur technique a généré un modèle avec la même précision de seulement 5 mégaoctets. Dans un autre test, une technique de pointe nécessitait 12 000 mégaoctets de communication entre les utilisateurs et le serveur pour former un modèle, tandis que FedLTN ne nécessitait que 4 500 mégaoctets.

Avec FedLTN, les clients les moins performants ont tout de même vu leurs performances augmenter de plus de 10 %. Et la précision globale du modèle a surpassé l’algorithme de personnalisation de nouvelle génération de près de 10 %, ajoute Mugunthan.

Maintenant qu’ils ont développé et perfectionné FedLTN, Mugunthan travaille à intégrer la technique dans une startup d’apprentissage fédéré qu’il a récemment fondée, DynamoFL.

À l’avenir, il espère continuer à améliorer cette méthode. Par exemple, les chercheurs ont réussi à utiliser des ensembles de données qui avaient des étiquettes, mais un plus grand défi serait d’appliquer les mêmes techniques à des données non étiquetées, dit-il.

Mugunthan espère que ce travail inspirera d’autres chercheurs à repenser leur approche de l’apprentissage fédéré.

“Ce travail montre l’importance de penser à ces problèmes de manière globale, et pas seulement aux mesures individuelles qui doivent être améliorées. Parfois, l’amélioration d’une métrique peut entraîner la rétrogradation d’autres métriques. Au lieu de cela, nous devrions nous concentrer sur la façon dont nous pouvons améliorer diverses choses ensemble, ce qui est vraiment important si c’est déployé dans le monde réel », dit-il.

Leave a Comment

Your email address will not be published.