Deepmind présente ‘Sparrow’, un chatbot alimenté par l’IA conçu pour créer des systèmes d’apprentissage automatique plus sûrs

Les progrès technologiques s’efforcent de développer des modèles d’IA qui communiquent de manière plus efficace, précise et sécurisée. Les grands modèles linguistiques (LLM) ont obtenu un succès remarquable ces dernières années dans une variété de tâches, y compris la réponse aux questions, les résumés et les discussions. En permettant une communication souple et dynamique, le dialogue est une tâche qui passionne particulièrement les chercheurs. Cependant, les agents de dialogue alimentés par des LLM présentent souvent du matériel faux ou inventé, un langage discriminatoire ou encouragent un comportement à risque. Les chercheurs peuvent développer des agents de dialogue plus sûrs en tirant parti des commentaires des utilisateurs. De nouvelles techniques de formation d’agents de dialogue prometteuses pour un système plus sécurisé peuvent être étudiées en utilisant l’apprentissage par renforcement basé sur les commentaires des participants à la recherche.

Dans leur publication la plus récente, les chercheurs de DeepMind présentent Sparrow, un agent de dialogue pratique qui réduit la probabilité de réponses dangereuses et inappropriées. L’objectif de Sparrow est d’enseigner aux agents de dialogue à être plus bénéfiques, précis et sûrs. Lorsqu’il est nécessaire de rechercher des informations pour étayer leurs arguments, cet agent peut parler à l’utilisateur, répondre à des questions et effectuer des recherches Google pour aider à la preuve. Sparrow améliore notre compréhension de la façon d’éduquer les agents pour qu’ils soient plus sûrs et plus productifs, contribuant ainsi au développement d’une intelligence générale artificielle (IAG) plus sûre et plus utile.

Comme il peut être difficile d’identifier les facteurs qui contribuent à une discussion réussie, la formation à l’IA conversationnelle est une tâche compliquée. L’apprentissage par renforcement peut aider dans cette situation. Ce formulaire utilise les données de préférence des participants pour former un modèle qui détermine à quel point la réponse est bénéfique. Il est basé sur les commentaires des utilisateurs. Les chercheurs ont sélectionné ce type de données en montrant aux participants une variété de modèles de réponses à la même question afin qu’ils sélectionnent leur réponse préférée. Cela a aidé le modèle à comprendre quand une réponse devait être étayée par des preuves, car les options étaient présentées avec et sans preuves collectées sur Internet.

Mais l’amélioration de l’utilité résout une partie du problème. Les chercheurs se sont également concentrés sur la contrainte du comportement du modèle pour s’assurer qu’il se comporte en toute sécurité. En conséquence, un ensemble de lignes directrices de base a été établi pour le modèle, telles que « ne faites pas de déclarations menaçantes » et « ne faites pas de commentaires durs ou offensants ». Certaines restrictions portaient également sur le fait de donner des conseils potentiellement préjudiciables et de ne pas s’identifier en tant que personne. Ces lignes directrices ont été élaborées après des recherches sur les troubles du langage et des consultations avec des experts. Le système a ensuite été chargé de parler aux sujets de l’étude pour les inciter à enfreindre les restrictions. Ces discussions ont ensuite aidé à développer un «modèle de règles» différent qui alerte Sparrow lorsque ses actions enfreignent les règles.

Même pour les professionnels, confirmer que les réponses de Sparrow sont exactes est un défi. Au lieu de cela, à des fins d’évaluation, les participants ont été invités à décider si les explications de Sparrow avaient du sens et si les informations à l’appui étaient correctes. Les participants ont rapporté que lorsqu’on leur posait une question factuelle, Sparrow donnait 78 % du temps une réponse plausible et l’étayait par des preuves. Comparé à plusieurs autres modèles de base, le Sparrow montre une amélioration significative. Cependant, Sparrow n’est pas parfait; parfois, elle hallucine des informations et répond de manière futile. Sparrow peut également mieux respecter les règles. Sparrow est meilleur pour adhérer aux règles lorsqu’il est soumis à des sondages contradictoires que des méthodes plus directes. Cependant, les participants peuvent toujours inciter le modèle à enfreindre les règles 8 % du temps après la formation.

Sparrow vise à construire des machines adaptatives pour faire respecter les règles et les normes dans les agents de dialogue. Le modèle est actuellement formé sur les règles de grattage. Ainsi, la création d’un ensemble de règles plus compétent nécessiterait la contribution d’experts et d’un plus large éventail d’utilisateurs et de groupes concernés. Sparrow représente une avancée significative dans nos connaissances sur l’éducation des agents de dialogue pour qu’ils soient plus bénéfiques et plus sûrs. La communication entre les personnes et les agents de dialogue doit non seulement prévenir les dommages, mais aussi être conforme aux valeurs humaines afin d’être pratique et utile. Les chercheurs ont également souligné qu’un bon agent refuserait de répondre aux questions dans des situations où il est approprié de céder aux humains ou où cela pourrait décourager un comportement destructeur. Des efforts supplémentaires sont nécessaires pour garantir des résultats comparables dans différents contextes linguistiques et culturels. Les chercheurs envisagent une époque où les interactions entre les personnes et les machines amélioreront les évaluations du comportement de l’IA, permettant aux gens d’aligner et d’améliorer des systèmes qui peuvent être trop complexes à comprendre.

This Article is written as a research summary article by Marktechpost Staff based on the research paper 'Improving alignment of dialogue agents via targeted human judgements'. All Credit For This Research Goes To Researchers on This Project. Check out the paper and reference article.

Please Don't Forget To Join Our ML Subreddit


Khushboo Gupta est consultant stagiaire chez MarktechPost. Elle poursuit actuellement son B.Tech de l’Indian Institute of Technology (IIT), Goa. Elle est passionnée par l’apprentissage automatique, le traitement du langage naturel et le développement Web. Elle aime en apprendre davantage sur le domaine technique en participant à divers défis.