L’intelligence artificielle décode la parole à partir de l’activité cérébrale avec une précision surprenante

L’intelligence artificielle est un pas de plus vers le décodage non invasif de ce que nous entendons et avons l’intention de dire à partir des données d’activité cérébrale.

L’intelligence artificielle peut décoder des mots et des phrases à partir de l’activité cérébrale avec une précision surprenante mais encore limitée. En utilisant seulement quelques secondes de données d’activité cérébrale, l’intelligence artificielle devine ce que la personne a entendu. Il indiquait la bonne réponse dans les 10 premières possibilités jusqu’à 73% du temps, ont constaté des chercheurs dans une étude préliminaire.

“Les résultats de l’intelligence artificielle vont au-delà de ce que beaucoup de gens pensaient possibles à ce stade”, a commenté Giovanni Di Liberto, informaticien au Trinity College de Dublin qui n’a pas participé à la recherche.

Développée au sein de la société mère de Facebook, Meta, l’intelligence artificielle pourrait éventuellement être utilisée pour aider des milliers de personnes dans le monde qui ne peuvent pas communiquer par la parole, l’écriture ou les gestes, rapportent des chercheurs sur arXiv.org. Cela inclut de nombreux patients dans des états de conscience minimale ou «végétatifs» – ce qui est maintenant communément appelé syndrome d’éveil sans réponse.

La plupart des technologies existantes pour aider ces patients à communiquer nécessitent une chirurgie cérébrale risquée pour implanter des électrodes. Cette nouvelle approche “pourrait fournir un moyen viable d’aider les patients présentant des déficits de communication… sans recourir à des méthodes invasives”, note le neurobiologiste Jean-Rémi King, chercheur en méta IA actuellement à l’École normale supérieure de Paris.

King et ses collègues ont formé un outil informatique pour détecter des mots et des phrases dans 56 000 heures d’enregistrements vocaux dans 53 langues. L’outil, également connu sous le nom de modèle de langage, a appris à reconnaître des caractéristiques linguistiques spécifiques à la fois à un niveau subtil – comme des lettres ou des syllabes – et à un niveau plus large, comme un mot ou une phrase.

L’équipe a appliqué l’intelligence artificielle avec ce modèle de langage aux bases de données de quatre institutions qui comprenaient l’activité cérébrale de 169 volontaires. Dans ces bases de données, les participants écoutent divers passages et phrases littéraires, par exemple de “Le vieil homme et la mer” d’Ernest Hemingway et “Les aventures d’Alice au pays des merveilles” de Lewis Carroll, tandis que le cerveau des gens est scanné par magnétoencéphalographie ou électroencéphalographie. Ces techniques mesurent la composante magnétique ou électrique des signaux cérébraux.

Ensuite, en utilisant une méthode de calcul qui aide à expliquer les différences physiques entre les cerveaux réels, l’équipe a essayé de décoder ce que les participants ont entendu en utilisant seulement trois secondes des données d’activité cérébrale de chaque personne. L’équipe a demandé à l’IA de faire correspondre les sons de la parole des enregistrements de phrases avec les modèles d’activité cérébrale que l’IA a calculés pour correspondre à ce que les humains ont entendu. Il fait ensuite des prédictions sur ce que la personne aurait pu entendre dans ce court laps de temps, en considérant plus de 1 000 possibilités.

En utilisant la magnétoencéphalographie, ou MEG, la bonne réponse figurait dans les 10 meilleures hypothèses de l’IA 73% du temps, ont découvert les chercheurs. Avec l’électroencéphalographie, cette valeur tombe à pas plus de 30 %.

“[This performance of MEG] c’est très bien », souligne Di Liberto, mais n’est pas si optimiste quant à son utilisation pratique. « Qu’est-ce qu’on peut y faire ? Rien. Absolument rien.

La raison, dit-il, est que le MEG nécessite une machine encombrante et coûteuse. La mise en œuvre de cette technologie dans les cliniques nécessitera une innovation scientifique pour rendre les machines moins chères et plus faciles à utiliser.

Il est également important de comprendre ce que « décoder » signifie réellement dans cette recherche, souligne Jonathan Brennan, linguiste à l’université du Michigan à Ann Arbor. Le mot est souvent utilisé pour décrire le processus de déchiffrement des informations directement à partir de la source – dans ce cas, la parole – de l’activité cérébrale. Mais l’IA ne peut le faire que parce qu’elle reçoit une liste finie de réponses correctes possibles pour faire ses suppositions.

“Avec le langage, cela ne suffira pas si nous voulons l’utiliser pratiquement, car le langage est infini”, note Brennan.

De plus, Di Liberto précise que l’intelligence artificielle décodait les informations des participants qui écoutaient passivement de l’audio qui n’était pas directement liée aux patients non verbaux. Pour que cela devienne un outil de communication significatif, les scientifiques devront apprendre à déchiffrer à partir de l’activité cérébrale ce que ces patients veulent dire, y compris les expressions de faim, d’inconfort ou un simple oui ou non.

La nouvelle recherche consiste à “décoder la perception de la parole, pas la production de la parole”, convient King. Bien que la production de la parole soit l’objectif ultime, jusqu’à présent « nous sommes loin du compte ».

Référence : A. Défossez et al. Décodage de la parole à partir d’enregistrements cérébraux non invasifs. arXiv:2208.12266. Publié le 25 août 2022.

Source : Une IA peut décoder la parole à partir de l’activité cérébrale avec une précision surprenante, Science News

Crédit photo : SVG gratuit

Leave a Comment

Your email address will not be published.