Un système d’intelligence artificielle (IA) apprend à jouer au football à partir de zéro : du contrôle moteur au jeu d’équipe dans le football humanoïde simulé

Le comportement humain est organisé à différents niveaux, des contractions musculaires d’une milliseconde aux jugements cognitifs effectués en centaines de millisecondes, en passant par des séquences à plus long terme orientées vers des objectifs socialement informés qui se déroulent sur des secondes, des minutes ou même des années. Seule une compréhension incomplète existe de la façon dont les commandes motrices de bas niveau sont structurées pour soutenir les jugements de niveau cognitif, les objectifs de haut niveau et la coordination sociale.

Bien que la nécessité d’intégrer plusieurs niveaux de contrôle dans des systèmes embarqués intelligents soit reconnue depuis longtemps, on sait peu de choses sur les concepts directeurs qui guident leur développement. L’apprentissage par renforcement (RL) peut produire des solutions compliquées à partir d’une spécification d’objectif simple et de haut niveau. Cependant, il est toujours difficile de former des systèmes incarnés pour qu’ils présentent un comportement intelligent qui s’étend sur de nombreuses échelles.

DeepMind présente des techniques générales pour une prise de décision coordonnée à long terme et une maîtrise intégrée du contrôle moteur de haute dimension. L’équipe a intégré le RL multi-agents avec des représentations comportementales pré-entraînées à différentes échelles pour résoudre les difficultés de spécification du comportement à différentes échelles, d’attribution de crédits et d’exploration. Lorsque cela est possible, la stratégie utilise les connaissances acquises par imitation, et l’auto-programme qui se développe dans les populations d’agents d’apprentissage au cours de l’auto-jeu permet le développement de solutions sophistiquées et fiables qu’il serait difficile de définir par la récompense ou l’apprentissage par imitation. Ce paradigme présente de vagues similitudes avec l’apprentissage humain en raison de l’acquisition régulière de capacités pour accroître la complexité, du mélange de multiples méthodes d’apprentissage qui se situent entre l’imitation et la pratique délibérée, et de la réorientation des compétences existantes.

En apprenant à des équipes d’humanoïdes avec 56 degrés de liberté à jouer à un jeu de football généré par ordinateur avec une physique réaliste, l’équipe démontre comment le contrôle moteur et la prise de décision émergent dans des groupes d’agents incarnés autonomes. Diverses études et statistiques, y compris celles de l’analyse sportive dans le monde réel, ont été utilisées pour quantifier l’évolution des comportements locomoteurs complexes et du travail d’équipe. Leurs découvertes montrent que les agents ont appris à jouer au football coordonné. Après la formation, ils pouvaient combler le fossé entre le comportement dirigé par l’équipe à dix secondes et le contrôle moteur de bas niveau à une échelle de temps de quelques millisecondes pendant le jeu.

Les chercheurs ont d’abord développé un module moteur primitif basé sur des clips de capture de mouvement humain pour encourager les mouvements naturalistes et faciliter l’exploration. Ce module a fourni un mouvement immédiat de type humain en réponse à une commande motrice abstraite. Il a été utilisé comme composant de réseau dans les politiques de football sous la forme d’un contrôleur de bas niveau. Il a fourni la liberté de créer des séquences de mouvements non présentes dans les clips de capture de mouvement d’origine en limitant l’espace des mouvements apprenables à une variété générique de mouvements de type humain tout en limitant au minimum le comportement généré.

Deuxièmement, ils ont préformé les comportements antérieurs pour diriger l’apprentissage et promouvoir l’exploration dans la tâche de football à long horizon et à faible récompense. Les capacités générées ont été modélisées comme des priors de compétences de football réutilisables, des politiques stochastiques pluripotentes qui peuvent générer de nombreux exemples de comportements liés aux exercices de football. Ils ont utilisé ces priors de compétences lors de la formation multi-agents pour orienter les politiques vers ces activités de football intermédiaires en régularisant le comportement. Une perte d’imitation sensible au contexte et adaptative qui pénalise la divergence Kullback-Leibler (KL) d’une politique de football par rapport aux compétences préalables a servi de régularisation. PBT a beaucoup plus amélioré le poids relatif de cette baisse.

Ils montrent également une procédure de formation incrémentale qui nous permet de former des agents à jouer à des jeux à deux contre deux (2v2), puis de transférer ces joueurs vers des jeux avec un plus grand nombre de joueurs pour une formation plus poussée. Les coûts de formation augmentent considérablement avec le nombre de joueurs par équipe. Leur architecture de perception basée sur l’attention rend cela possible.

This Article is written as a research summary article by Marktechpost Staff based on the research paper article 'From motor control to team play in simulated humanoid football'. All Credit For This Research Goes To Researchers on This Project. Check out the paper, article, reference article.

Please Don't Forget To Join Our ML Subreddit


Tanushree

” data-medium-file=”https://www.marktechpost.com/wp-content/uploads/2020/10/Tanushree-Picture-225×300.jpeg” data-large-file=”https://www.marktechpost .com/wp-content/uploads/2020/10/Tanushree-Picture-768×1024.jpeg”/>

Tanushree Shenwai est consultante stagiaire chez MarktechPost. Elle poursuit actuellement son B.Tech de l’Indian Institute of Technology (IIT), Bhubaneswar. Elle est une passionnée de la science des données et a un vif intérêt pour le champ d’application de l’intelligence artificielle dans divers domaines. Elle est passionnée par l’exploration des nouvelles avancées technologiques et leur application dans la vie réelle.


Leave a Comment

Your email address will not be published.