Des chercheurs de Stanford ont développé une nouvelle référence d’intelligence artificielle (IA) pour comprendre les grands modèles de langage (LLM)

Les benchmarks pilotent l’IA. Ils résument les idéaux et les priorités qui décrivent comment la communauté de l’IA devrait progresser. Lorsqu’ils sont correctement développés et analysés, ils permettent à la communauté au sens large de mieux comprendre et d’influencer l’orientation de la technologie de l’IA. La technologie de l’IA qui a le plus évolué ces dernières années sont les modèles de base, en mettant l’accent sur l’avènement des modèles de langage. Un modèle de langage est essentiellement une boîte qui accepte du texte et génère du texte. Malgré leur simplicité, ces modèles peuvent être personnalisés (par exemple, ordonnés ou réglés) pour un large éventail de scénarios en aval lorsqu’ils sont formés sur de grandes quantités de données complètes. Cependant, il faut encore plus de connaissances sur l’immense surface des capacités, des limites et des menaces du modèle. Ils doivent évaluer les modèles linguistiques de manière holistique en raison de leur croissance rapide, de leur importance croissante et de leur compréhension limitée. Mais que signifie évaluer les modèles de langage dans une perspective globale ?

Les modèles de langage sont des interfaces de texte à usage général qui peuvent être utilisées dans diverses circonstances. Et pour chaque scénario, ils peuvent avoir une longue liste d’exigences : les modèles doivent être précis, résilients, équitables et efficaces, par exemple. En fait, la pertinence relative des divers désirs est souvent déterminée par sa perspective et ses idéaux et sa propre situation (par exemple, l’efficacité de l’inférence peut être plus importante dans les applications mobiles). Ils pensent que l’évaluation holistique comprend trois composantes :

  1. Large couverture et reconnaissance de l’incomplétude : étant donné l’énorme surface de capacités et les pièges associés aux modèles linguistiques, ils devraient examiner les modèles linguistiques dans divers scénarios. L’extension de l’évaluation a été une tendance constante dans le domaine de la PNL, passant d’ensembles de données uniques comme SQuAD à de petites collections d’ensembles de données comme SuperGLUE à de grandes collections d’ensembles de données comme l’ensemble d’évaluation GPT-3, Eleuther AI LM Harness et BIGBench. Cependant, il est pratique de passer en revue quelques-unes des circonstances ou des desideratums qui (pourraient) s’appliquer aux LM. Par conséquent, l’évaluation holistique devrait fournir une taxonomie descendante et clarifier toutes les situations manquantes et les indicateurs importants.
  2. Mesurer sur plusieurs paramètres : les systèmes qui sont bénéfiques pour la société reflètent plus que la simple précision. Ces différents désirs doivent être évalués de manière holistique, en pesant chaque désir par rapport à chaque possibilité envisagée.
  3. Normalisation : ce n’est pas un système spécifique à un scénario, mais le modèle de langage est ce qu’ils évaluent. Par conséquent, la méthode d’adaptation d’un LM à un scénario doit être envisagée pour comparer équitablement différents LM.
Plusieurs métriques pour chaque cas d’utilisation
Standardisation de l’évaluation des modèles de langage

De plus, dans la mesure du possible, chaque LM doit être testé dans les mêmes situations. Dans l’ensemble, l’évaluation holistique augmente la transparence en examinant les modèles linguistiques dans leur ensemble. Plutôt que de se concentrer sur une seule caractéristique, ils visent une caractérisation plus complète des modèles de langage pour faire progresser les connaissances scientifiques et guider l’influence sociale. Les chercheurs l’appellent GOUVERNAIL (Évaluation holistique des modèles de langage). Il est divisé en deux parties : (i) une taxonomie abstraite des situations et des métriques pour définir l’espace de conception pour évaluer le modèle de langage et (ii) une collection concrète de scénarios mis en œuvre et de métriques choisies pour hiérarchiser la couverture. Le framework HELM est entièrement open source sur GitHub.


Vérifiez Papier🇧🇷 Projet🇧🇷 GitHub🇧🇷 et Article de référence🇧🇷 Tout le mérite de cette recherche revient aux chercheurs de ce projet. N’oubliez pas non plus de vous inscrire notre page Reddit et canal de la discordeoù nous partageons les dernières nouvelles sur la recherche en IA, des projets d’IA passionnants, et plus encore.


Aneesh Tickoo est consultante stagiaire chez MarktechPost. Il poursuit actuellement des études de premier cycle en science des données et en intelligence artificielle à l’Institut indien de technologie (IIT) de Bhilai. Il passe la plupart de son temps à travailler sur des projets qui visent à exploiter la puissance de l’apprentissage automatique. Son intérêt de recherche est le traitement d’images et il est passionné par la création de solutions autour de ce sujet. Il aime se connecter avec les gens et collaborer sur des projets intéressants.