Intelligence Artificielle Multilingue, Rire, Piège et Street Smart • TechCrunch

La recherche dans le domaine de l’apprentissage automatique et de l’IA, désormais une technologie clé dans pratiquement tous les secteurs et entreprises, est trop volumineuse pour que quiconque puisse tout lire. Cette chronique, Perceptron, vise à rassembler certaines des découvertes et articles récents les plus pertinents – en particulier, mais sans s’y limiter, l’intelligence artificielle – et à expliquer pourquoi ils sont importants.

Ces dernières semaines, des chercheurs de Google ont fait la démonstration d’un système d’IA, Pali, qui peut effectuer de nombreuses tâches dans plus de 100 langues. Ailleurs, un groupe basé à Berlin a lancé un projet appelé Source+ qui a été conçu comme un moyen de permettre aux artistes, y compris les artistes visuels, les musiciens et les écrivains, d’accepter – et non – que leur travail soit utilisé comme données de formation pour l’IA.

Les systèmes d’IA comme le GPT-3 d’OpenAI peuvent générer du texte très sensible ou résumer du texte existant sur le Web, des livres électroniques et d’autres sources d’informations. Mais historiquement, ils sont limités à une seule langue, ce qui limite leur utilité et leur portée.

Heureusement, ces derniers mois, la recherche sur les systèmes multilingues s’est accélérée, en partie grâce aux efforts de la communauté comme Hugging Face’s Bloom. Pour tenter de tirer parti de ces avancées en matière de multilinguisme, une équipe de Google a créé PaLI, qui a été formé aux images et au texte pour effectuer des tâches telles que le sous-titrage d’images, la détection d’objets et la reconnaissance optique de caractères.

Google Pal

Crédits image : Google

Google affirme que PaLI peut comprendre 109 langues et les relations entre les mots dans ces langues et les images, permettant, par exemple, de légender une image de carte postale en français. Alors que le travail reste fermement dans les phases de recherche, les créateurs disent qu’il illustre l’interaction importante entre le langage et l’imagerie – et pourrait jeter les bases d’un produit commercial à l’avenir.

La parole est un autre aspect du langage que l’IA améliore constamment. Play.ht a récemment présenté un nouveau modèle de synthèse vocale qui met une quantité remarquable d’émotion et de portée dans leurs résultats. Les clips que vous avez publiés la semaine dernière ils ont un son fantastique, même s’ils sont, bien sûr, triés sur le volet.

Nous avons généré un clip de nous-mêmes en utilisant l’intro de cet article, et les résultats sont toujours solides :


On ne sait pas exactement à quoi ce type de génération de voix sera le plus utile. Nous n’en sommes pas encore au stade où ils font des livres entiers – ou plutôt, ils le peuvent, mais ce n’est peut-être pas encore le premier choix de personne. Mais à mesure que la qualité augmente, les demandes se multiplient.

Mat Dryhurst et Holly Herndon – respectivement universitaire et musicienne – se sont associés à l’organisation Spawning pour lancer Source+, une norme qui, ils l’espèrent, attirera l’attention sur la question des systèmes de génération de photos par IA créés à partir d’œuvres d’art d’artistes qui n’ont pas été informés ou n’ont pas demandé l’autorisation. . Source+, qui ne coûte rien, vise à permettre aux artistes de ne pas autoriser l’utilisation de leur travail à des fins de formation à l’IA s’ils le souhaitent.

Des systèmes d’imagerie tels que Stable Diffusion et DALL-E 2 ont été formés sur des milliards d’images extraites du Web pour “apprendre” à traduire des invites de texte en art. Certaines de ces images provenaient de communautés d’art public comme ArtStation et DeviantArt – pas nécessairement avec les connaissances des artistes – et ont imprégné les systèmes de la capacité d’imiter des créateurs spécifiques, Y compris des artistes comme Greg Rutowski.

Stabilité AI Stable Diffusion

Échantillons de diffusion stables.

En raison du talent des systèmes pour imiter les styles artistiques, certains créateurs craignent qu’ils ne menacent leurs moyens de subsistance. Source + – bien que volontaire – pourrait être une étape pour donner aux artistes plus de voix dans la façon dont leur art est utilisé, disent Dryhurst et Herndon – en supposant qu’il soit adopté à grande échelle (un gros si).

Chez DeepMind, une équipe de recherche est en essayant pour aborder un autre aspect problématique de longue date de l’IA : sa tendance à cracher des informations toxiques et trompeuses. En mettant l’accent sur le texte, l’équipe a développé un chatbot appelé Sparrow qui peut répondre aux questions courantes en effectuant une recherche sur le Web à l’aide de Google. D’autres systèmes haut de gamme comme LaMDA de Google peuvent faire de même, mais DeepMind affirme que Sparrow fournit des réponses plausibles et non toxiques aux questions plus souvent que ses homologues.

L’astuce consistait à aligner le système sur les attentes des gens. DeepMind a recruté des personnes pour utiliser Sparrow, puis leur a demandé de fournir des commentaires pour former un modèle sur l’utilité des réponses, en montrant aux participants plusieurs réponses à la même question et en leur demandant quelle réponse ils préféraient. Les chercheurs ont également établi des règles pour Sparrow, telles que “ne faites pas de déclarations menaçantes” et “ne faites pas de commentaires haineux ou offensants”, qu’ils ont demandé aux participants d’appliquer au système en essayant de le tromper pour qu’il enfreigne les règles.

Exemple de conversation avec le moineau de DeepMind.

DeepMind reconnaît que Sparrow peut encore s’améliorer. Mais dans une étude, l’équipe a découvert que le chatbot fournissait une réponse « plausible » étayée par des preuves 78 % du temps lorsqu’on lui posait une question factuelle, et n’enfreignait les règles mentionnées que 8 % du temps. C’est mieux que le système de dialogue original de DeepMind, notent les chercheurs, qui a enfreint les règles environ trois fois plus souvent lorsqu’il a été amené à le faire.

Une équipe distincte de DeepMind s’est récemment attaquée à un domaine très différent : les jeux vidéo qui ont toujours été difficiles à maîtriser rapidement pour l’IA. Votre système, appelé avec audace MEMEaurait atteint des performances de «niveau humain» dans 57 jeux Atari différents 200 fois plus rapidement que le meilleur système précédent.

Selon l’article de DeepMind détaillant MEME, le système peut apprendre à jouer en regardant environ 390 millions d’images – des «images» faisant référence à des images fixes qui se mettent à jour trop rapidement pour donner l’impression de mouvement. Cela peut sembler beaucoup, mais la technique de pointe précédente nécessitait 80 milliard images dans le même nombre de jeux Atari.

Deep Mind MEME

Crédits image : DeepMind

Jouer habilement à Atari peut ne pas sembler être une compétence souhaitable. Et en effet, certains critiques soutiennent que les jeux sont une référence d’IA imparfaite en raison de leur abstraction et de leur relative simplicité. Mais des laboratoires de recherche comme DeepMind pensent que les approches pourraient être appliquées à d’autres domaines plus utiles à l’avenir, tels que les robots qui apprennent plus efficacement à effectuer des tâches en regardant des vidéos ou en améliorant les voitures autonomes.

Nvidia a eu une journée sur le terrain le 20 en annonçant des dizaines de produits et services, parmi lesquels plusieurs efforts passionnants en matière d’IA. Les voitures autonomes sont au centre de l’attention de l’entreprise, à la fois pour alimenter l’IA et pour la former. Pour ces derniers, les simulateurs sont cruciaux et il est également important que les routes virtuelles ressemblent aux routes réelles. Ils décrivent une flux de contenu nouveau et amélioré qui accélère le transfert des données collectées par les caméras et les capteurs des voitures réelles vers le domaine numérique.

Un environnement de simulation basé sur des données du monde réel.

Des choses comme les véhicules du monde réel et les bosses de la route ou la couverture des arbres peuvent être reproduites avec précision, de sorte que l’IA autonome n’apprend pas sur une version aseptisée de la rue. Et cela permet de créer des configurations de simulation plus grandes et plus variables dans l’ensemble, ce qui contribue à la robustesse. (Une autre image de lui est en haut.)

Nvidia a également présenté son système IGX pour plateformes autonomes en situation industrielle — une collaboration homme-machine telle que vous pourriez la trouver dans une usine. Il n’y a pas de pénurie, bien sûr, mais à mesure que la complexité des tâches et des environnements d’exploitation augmente, les anciennes méthodes ne suffisent plus et les entreprises qui cherchent à améliorer leur automatisation se tournent vers l’avenir.

Exemple de vision par ordinateur classant des objets et des personnes dans une usine.

La sécurité « proactive » et « prédictive » est ce à quoi IGX est destiné à aider, à savoir la détection des problèmes de sécurité avant qu’ils ne causent des perturbations ou des blessures. Un bot peut avoir son propre mécanisme d’arrêt d’urgence, mais si une caméra surveillant la zone lui dit de dévier avant qu’un chariot élévateur ne gêne, les choses iront un peu plus facilement. Exactement quelle entreprise ou quel logiciel accomplit cela (et sur quel matériel et comment tout est payé) est toujours un travail en cours, avec des entreprises comme Nvidia et des startups comme Veo Robotics.

Une autre étape intéressante a été franchie à la maison de jeu Nvidia. Les derniers et meilleurs GPU de la société sont conçus non seulement pour pousser les triangles et les shaders, mais pour accomplir rapidement des tâches avec l’intelligence artificielle, telles que leur propre technologie DLSS pour l’uprezzing et l’ajout de trames.

Le problème qu’ils essaient de résoudre est que les moteurs de jeu sont si exigeants que générer plus de 120 images par seconde (pour suivre les derniers moniteurs) tout en maintenant la fidélité visuelle est une tâche herculéenne que même les GPU puissants peuvent à peine gérer. Mais DLSS est comme un mélangeur d’images intelligent qui peut mettre à l’échelle l’image source sans alias ni artefacts, de sorte que le jeu n’a pas à pousser autant de pixels.

Dans DLSS 3, Nvidia affirme qu’il peut produire des images supplémentaires entières à un rapport d’aspect de 1: 1, de sorte que vous pouvez restituer 60 images naturellement et les 60 autres via AI. Je peux penser à un certain nombre de raisons qui pourraient rendre les choses gênantes dans un environnement de jeu hautes performances, mais Nvidia en est probablement conscient. Quoi qu’il en soit, vous devrez payer environ un millier de dollars pour avoir le privilège d’utiliser le nouveau système, car il ne fonctionnera que sur les cartes de la série RTX 40. Mais si la fidélité graphique est votre priorité absolue, allez-y.

Illustration de la construction de drones dans une région éloignée.

La dernière chose aujourd’hui est un Technique d’impression 3D basée sur un drone de l’Imperial College de Londres qui pourraient être utilisés pour des processus de construction autonomes à un moment donné dans le futur. Pour l’instant, il n’est certainement pas pratique de créer quelque chose de plus gros qu’une poubelle, mais c’est encore tôt. Finalement, ils espèrent le rendre plus semblable à celui ci-dessus, et ça a l’air cool, mais regardez la vidéo ci-dessous pour clarifier vos attentes.