Expliqué : Comment savoir si l’intelligence artificielle fonctionne comme nous le voulons | Nouvelles du MIT

Il y a une dizaine d’années, les modèles d’apprentissage en profondeur ont commencé à obtenir des résultats surhumains dans toutes sortes de tâches, de battre le champion du monde joueurs de plateau pour surmonter les médecins dans le diagnostic du cancer du sein.

Ces puissants modèles d’apprentissage en profondeur sont souvent basés sur des réseaux de neurones artificiels, qui ont été proposés pour la première fois dans les années 1940 et sont devenus un type populaire d’apprentissage automatique. Un ordinateur apprend à traiter les données en utilisant des couches de nœuds interconnectés, ou neurones, qui imitent le cerveau humain.

Au fur et à mesure que le domaine de l’apprentissage automatique s’est développé, les réseaux de neurones artificiels se sont développés avec lui.

Les modèles d’apprentissage en profondeur sont désormais composés de millions ou de milliards de nœuds interconnectés dans de nombreuses couches qui sont formés pour effectuer des tâches de détection ou de classification en utilisant de grandes quantités de données. Mais parce que les modèles sont extrêmement complexes, même les chercheurs qui les conçoivent ne comprennent pas entièrement comment ils fonctionnent. Il est donc difficile de savoir s’ils fonctionnent correctement.

Par exemple, peut-être qu’un modèle conçu pour aider les médecins à diagnostiquer les patients a correctement prédit qu’une lésion cutanée était cancéreuse, mais l’a fait en se concentrant sur une marque non liée qui se produit souvent lorsqu’il y a du tissu cancéreux sur une photo, plutôt que dans la tumeur cancéreuse. tissu lui-même. C’est ce qu’on appelle une fausse corrélation. Le modèle obtient la prédiction correcte, mais il le fait pour la mauvaise raison. Dans un cadre clinique réel, où la marque n’apparaît pas sur les images positives au cancer, cela peut entraîner des diagnostics erronés.

Avec tant d’incertitudes autour de ces modèles dits de “boîte noire”, comment peut-on démêler ce qui se passe à l’intérieur de la boîte ?

Ce casse-tête a conduit à un nouveau domaine d’étude en croissance rapide dans lequel les chercheurs développent et testent des méthodes d’explication (également appelées méthodes d’interprétabilité) qui cherchent à clarifier comment les modèles d’apprentissage automatique en boîte noire font des prédictions.

Quelles sont les méthodes d’explication ?

À leur niveau le plus élémentaire, les méthodes d’explication sont soit globales, soit locales. Une méthode d’explication locale vise à expliquer comment le modèle a fait une prédiction spécifique, tandis que les explications globales cherchent à décrire le comportement général d’un modèle entier. Cela se fait généralement en développant un modèle séparé, plus simple (et, espérons-le, compréhensible) qui imite le plus grand modèle de boîte noire.

Mais comme les modèles d’apprentissage en profondeur fonctionnent de manière fondamentalement complexe et non linéaire, le développement d’un modèle d’explication global efficace est particulièrement difficile. Cela a conduit les chercheurs à réorienter une grande partie de leur attention récente vers les méthodes d’explication locale, explique Yilun Zhou, un étudiant diplômé du groupe de robotique interactive (CSAIL) du Laboratoire d’informatique et d’intelligence artificielle qui étudie les modèles, les algorithmes et les évaluations en apprentissage automatique.

Les types les plus populaires de méthodes d’explication locale se répartissent en trois grandes catégories.

Le premier type de méthode d’explication, et le plus largement utilisé, est connu sous le nom d’attribution de caractéristiques. Les méthodes d’attribution de caractéristiques montrent quelles caractéristiques étaient les plus importantes lorsque le modèle a pris une décision spécifique.

Les caractéristiques sont les variables d’entrée qui sont introduites dans un modèle d’apprentissage automatique et utilisées dans sa prédiction. Lorsque les données sont tabulaires, les caractéristiques sont extraites des colonnes d’un jeu de données (elles sont transformées à l’aide de diverses techniques afin que le modèle puisse traiter les données brutes). Pour les tâches de traitement d’image, en revanche, chaque pixel d’une image est une ressource. Si un modèle prédit qu’une image radiographique montre un cancer, par exemple, la méthode d’attribution des caractéristiques mettrait en évidence les pixels de cette radiographie spécifique qui étaient les plus importants pour la prédiction du modèle.

Essentiellement, les méthodes d’affectation des ressources montrent ce à quoi le modèle accorde le plus d’attention lorsqu’il fait une prédiction.

« En utilisant cette explication de l’affectation des ressources, vous pouvez voir si une fausse corrélation est un problème. Par exemple, il montrera si les pixels d’un filigrane sont mis en surbrillance ou si les pixels d’une vraie tumeur sont mis en surbrillance », explique Zhou.

Un deuxième type de méthode d’explication est connu sous le nom d’explication contrefactuelle. Étant donné une entrée et la prédiction d’un modèle, ces méthodes montrent comment modifier cette entrée pour qu’elle tombe dans une autre classe. Par exemple, si un modèle d’apprentissage automatique prédit qu’un emprunteur se verra refuser un prêt, l’explication contrefactuelle montre quels facteurs doivent changer pour que sa demande de prêt soit acceptée. Peut-être que votre pointage de crédit ou votre revenu, les deux caractéristiques utilisées pour prédire le modèle, doivent être plus élevés pour qu’il passe.

“L’avantage de cette méthode d’explication est qu’elle vous indique exactement comment vous devez modifier l’entrée pour inverser la décision, ce qui peut être d’une utilité pratique. Pour quelqu’un qui demande un prêt hypothécaire et qui n’a pas pu le faire, cette explication lui indiquerait ce qu’il doit faire pour obtenir le résultat souhaité », dit-il.

La troisième catégorie de méthodes d’explication est connue sous le nom d’explications de l’importance de l’échantillon. Contrairement aux autres, cette méthode nécessite l’accès aux données qui ont été utilisées pour former le modèle.

Une explication de l’importance de l’échantillon montrera sur quel échantillon d’apprentissage un modèle s’est le plus appuyé lorsqu’il a fait une prédiction spécifique ; idéalement, il s’agit de l’échantillon le plus similaire aux données d’entrée. Ce type d’explication est particulièrement utile si nous examinons une prédiction apparemment irrationnelle. Une erreur de saisie de données peut s’être produite et affecter un échantillon spécifique utilisé pour former le modèle. Avec ces connaissances, vous pouvez corriger cet échantillon et recycler le modèle pour améliorer sa précision.

Comment les méthodes d’explication sont-elles utilisées ?

L’une des motivations pour développer ces explications est d’effectuer une assurance qualité et de déboguer le modèle. Avec une meilleure compréhension de la façon dont les fonctionnalités affectent la décision d’un modèle, par exemple, on peut identifier qu’un modèle fonctionne mal et intervenir pour corriger le problème, ou jeter le modèle et recommencer.

Un autre domaine de recherche plus récent explore l’utilisation de modèles d’apprentissage automatique pour découvrir des modèles scientifiques que les humains n’ont pas découverts auparavant. Par exemple, un modèle de diagnostic du cancer qui surpasse les médecins peut être défectueux ou peut en fait détecter certains schémas cachés dans une image radiographique qui représentent une voie pathologique précoce vers le cancer qui était inconnue des médecins humains ou considérée comme non pertinente. , dit Zhou.

Il est cependant encore trop tôt pour ce domaine de recherche.

mots d’avertissement

Alors que les méthodes d’explication peuvent parfois être utiles aux praticiens de l’apprentissage automatique lorsqu’ils essaient de détecter des bogues dans leurs modèles ou de comprendre le fonctionnement interne d’un système, les utilisateurs finaux doivent procéder avec prudence lorsqu’ils essaient de les utiliser dans la pratique, dit-il. professeur adjoint et responsable du groupe Healthy ML au CSAIL.

À mesure que l’apprentissage automatique a été adopté dans de plus en plus de disciplines, des soins de santé à l’éducation, des méthodes d’explication sont utilisées pour aider les décideurs à mieux comprendre les prédictions d’un modèle afin qu’ils sachent quand faire confiance au modèle et utiliser leurs conseils pratiques. Mais Ghassemi met en garde contre l’utilisation de ces méthodes de cette manière.

“Nous avons constaté que les explications rendent les gens, experts et non-experts, trop confiants dans la capacité ou les conseils d’un système de recommandation particulier. Je pense qu’il est très important que les humains n’éteignent pas ce circuit interne en demandant, “laissez-moi remettre en question le conseil que je suis”.
donné », dit-elle.

les scientifiques savent les explications rendent les gens trop confiants sur la base d’autres travaux récents, ajoute-t-elle, citant certains récent études par les chercheurs de Microsoft.

Loin d’être une solution miracle, les méthodes d’explication ont leur part de problèmes. D’une part, des recherches récentes de Ghassemi ont montré que les méthodes d’explication peuvent perpétuer les préjugés et conduire à de moins bons résultats pour les personnes issues de groupes défavorisés.

Un autre écueil des méthodes d’explication est qu’il est souvent impossible de dire si la méthode d’explication est correcte en premier lieu. Il faudrait comparer les explications avec le modèle réel, mais comme l’utilisateur ne sait pas comment fonctionne le modèle, c’est de la logique circulaire, dit Zhou.

Lui et d’autres chercheurs travaillent à améliorer les méthodes d’explication pour qu’elles soient plus fidèles aux prédictions du modèle réel, mais Zhou prévient que même la meilleure explication doit être prise avec prudence.

« De plus, les gens perçoivent souvent ces modèles comme des décideurs de type humain, et nous sommes enclins à une généralisation excessive. Nous devons calmer les gens et les retenir pour vraiment nous assurer que le modèle omniprésent de compréhension qu’ils construisent à partir de ces explications locales est équilibré », ajoute-t-il.

Les dernières recherches de Zhou cherchent à faire exactement cela.

Quelle est la prochaine étape pour les méthodes d’explication de l’apprentissage automatique ?

Plutôt que de se concentrer sur la fourniture d’explications, Ghassemi soutient que davantage d’efforts doivent être déployés par la communauté des chercheurs pour étudier comment l’information est présentée aux décideurs afin qu’ils la comprennent, et que davantage de réglementation doit être mise en œuvre pour garantir que les modèles d’apprentissage automatique sont utilisé de manière responsable dans la pratique. De meilleures méthodes d’explication seules ne sont pas la réponse.

“J’étais ravi de voir qu’il y a beaucoup plus de reconnaissance, même dans l’industrie, que nous ne pouvons pas simplement prendre ces informations et créer un beau tableau de bord et supposer que les gens fonctionneront mieux avec. Vous devez avoir des améliorations mesurables dans l’action, et j’espère que cela conduira à de véritables lignes directrices sur la façon d’améliorer la façon dont nous affichons des informations dans ces domaines profondément techniques comme la médecine », dit-elle.

Et en plus de nouveaux travaux axés sur l’amélioration des explications, Zhou s’attend à voir davantage de recherches liées aux méthodes d’explication pour des cas d’utilisation spécifiques, tels que le débogage de modèles, la découverte scientifique, l’audit d’équité et l’assurance de la sécurité. En identifiant les caractéristiques raffinées des méthodes d’explication et les exigences des différents cas d’utilisation, les chercheurs pourraient établir une théorie qui associe les explications à des scénarios spécifiques, ce qui pourrait aider à surmonter certains des pièges qui surviennent lors de leur utilisation dans des scénarios du monde réel. .

Leave a Comment

Your email address will not be published.