Photo: iStock

Un autre obstacle pour les modèles d’IA de base

Ceci est la deuxième colonne que j’écris sur les limites des «modèles de base». Il y a quelques mois, la recherche autour des modèles d’Intelligence Artificielle (IA) a pris un nouveau tournant avec la sortie tant attendue de modèles de base comme GPT-3, DALL-E et Bert. Ces modèles tentent de cartographier et d’inclure presque tous les documents disponibles sur Internet. Ceci est destiné à être utilisé dans ce qui ne peut être décrit que comme une tentative de force brute pour fournir un référentiel aussi global que possible pour les futurs programmes d’IA sur lesquels baser leurs propres données de “formation”.

L’idée derrière ces modèles de base financés par les plus grandes entreprises technologiques du monde comme Microsoft et Google est que ces modèles peuvent constituer une base pour toutes sortes d’applications d’IA. Plus important encore, ils diffèrent des autres modèles cognitifs qui utilisent des ensembles de données plus petits pour former des systèmes d’IA, car leur genèse en tant que modèles de base s’est produite en parcourant presque toutes les informations disponibles sur le Web, un magasin de données qui est déjà gigantesque et double de taille tous les deux. ans ou plus.

Dans les modèles d’IA qui n’utilisent pas ces modèles de base, le programme est entraîné avec des données très spécifiques à la tâche à accomplir, telles que l’analyse d’électrocardiogrammes (ECG) à la recherche de preuves d’une crise cardiaque. Dans ces cas, la reconnaissance des formes est essentielle. Ainsi, former un programme d’IA pour rechercher des modèles spécifiques dans un ensemble de données qui contient certainement des instances de ces modèles est une tâche plus facile que de l’entraîner sur un ensemble de données global contenant toutes sortes d’informations.

En termes simples, si je vais écrire un programme informatique pour lire les ECG afin d’identifier les crises cardiaques potentielles, je ne vais pas alimenter votre modèle d’entraînement avec toutes les données disponibles sur Internet. Au lieu de cela, je vais vous donner autant de lectures d’ECG que possible, et rien que ça. Je n’ajouterais pas, disons, des graphiques boursiers ou des sonnets shakespeariens au flux. À mesure que le nombre de rapports ECG dans mon modèle d’entraînement augmente, je serais en théorie capable d’augmenter la précision de mon modèle de reconnaissance de formes au point où il deviendrait plus efficace qu’un médecin expérimenté analysant les données ECG et tirant des conclusions. L’utilisation d’un modèle de base largement alimenté pour cette tâche cognitive cruciale (mais toujours limitée) serait un cas clair d’exagération.

J’ai écrit dans la dernière partie de IT Matters que ces modèles de base pour l’IA devront conquérir de nouveaux sommets, et le scénario ECG ci-dessus fournit un exemple où les modèles de base, basés essentiellement sur toutes les connaissances disponibles sur Internet, auront du mal à fournir précision et précision autour de la tâche répétitive mais cruciale d’obtenir les bonnes lectures d’ECG.

La conscience contextuelle incarne toutes les nuances subtiles de l’apprentissage humain – c’est le « qui », le « pourquoi », le « quand » et le « quoi » qui informent les décisions et le comportement humains.

Par exemple, si un ECG était pris peu de temps après l’entrée d’un patient à l’hôpital se plaignant de douleurs thoraciques aiguës, le contexte serait très différent que si cette lecture était prise lors d’un bilan de santé normal d’une personne en parfaite santé. Les modèles de base sont confrontés à un défi pour obtenir le bon contexte.

En plus du contexte, ces grands modèles manquent également de « visions du monde ». La clé de l’acquisition d’un modèle de vision du monde est un découplage entre les éléments constitutifs du modèle mondial et leur utilisation ultérieure dans la simulation des résultats possibles. En termes simples, un modèle de base aura accès à toutes sortes de graphiques et de tableaux – des graphiques boursiers et des graphiques scientifiques et techniques aux modèles d’amplitude d’onde sinusoïdale, etc. – mais tous ces graphiques et tableaux ne peuvent pas simplement être jetés dans une simulation spécifique qui recherche des résultats potentiels, comme un krach boursier.

Les humains et les machines vraiment intelligents doivent utiliser des modèles du monde ou des « visions du monde » pour donner un sens aux observations et évaluer les futurs potentiels afin de sélectionner le meilleur plan d’action. Dans l’exemple ci-dessus, nous écarterions tous les graphiques qui n’étaient pas liés au marché boursier.

Lorsque l’on passe d’une configuration générique à grande échelle (telle que la réponse à des requêtes de recherche sur le Web ou une recherche dans un dictionnaire pour le sens d’un mot) à une interaction directe dans une configuration spécifique qui inclut plusieurs acteurs, le modèle du monde doit être efficacement réduit et personnalisé pour la tâche à accomplir. Une approche découplée, modulaire (c’est-à-dire à petite échelle) et personnalisable est une architecture logiquement différente et beaucoup moins complexe que celle qui tente de tout simuler et de raisonner en une seule étape de «fonction d’entrée-sortie», là où les modèles de base nous laissent aller .

En tant qu’êtres humains, vous et moi ne répondons pas aux questions sans référence à cette vision du monde ; dans les deux cas, notre réponse est éclairée par plusieurs années de types spécifiques de scolarité ainsi que par des expériences du monde réel, et nous répondrions à une situation en prenant de petits composants spécifiques de ce trésor d’apprentissage et en les utilisant précisément pour la tâche à accomplir. Nous ne parcourons pas toutes les informations que nous mettons dans notre cerveau ; nous utilisons plutôt nos visions du monde pour améliorer (ou réduire à l’échelle et des composants de ce que nous savons, pour utiliser le langage de programmation informatique) nos réponses à une question ou à une situation.

Un programme d’IA conçu pour une tâche spécifique basée sur un modèle de base sera inutile sans fournir cette capacité à utiliser une vision du monde pour améliorer ou composer la “pensée” du programme, tout comme nous, les humains. Lancer des zettaoctets de données d’entraînement ne fonctionnera pas.

Siddharth Pai est co-fondateur de Siana Capital et auteur de ‘Techproof Me’

Attrapez toutes les dernières nouvelles commerciales, les nouvelles du marché, les événements d’actualité et les mises à jour sur Live Mint. Téléchargez l’application The Mint News pour les mises à jour quotidiennes du marché.

Comme ci comme ça

S’abonner à bulletins d’information à la menthe

* Entrer un email valide

* Merci de vous être abonné à notre newsletter.

postez votre commentaire
Premier article

Leave a Comment

Your email address will not be published.