Mieux comprendre les mécanismes du langage

Une équipe de chercheurs grenoblois et canadiens viennent pour la première fois de montrer qu’un locuteur est capable d’identifier la voyelle qu’il est en train de produire à partir des seuls retours somatosensoriels l’informant sur la position et la forme de sa langue.
En plaçant de manière aléatoire votre langue dans votre bouche, seriez-vous capable de deviner la voyelle qui en sortirait avant même de la prononcer ? La réponse est vraisemblablement « oui ». C’est ce que vient de montrer une équipe grenobloise pluridisciplinaire de spécialistes du contrôle moteur et de la perception de la parole du Gipsa-lab* et du LPNC** en collaboration avec deux équipes canadiennes, dont celle du Professeur David Ostry de l’Université McGill à Montréal. Et aussi étrange que cela puisse paraître, cela n’était pas évident dès le départ.

Pour arriver à cette conclusion, les chercheurs ont utilisé un protocole expérimental astucieux. « Nous avons muni des volontaires de petits capteurs au niveau de la langue, avant de leur demander de positionner ces derniers d’une certaine manière dans leur bouche grâce à un retour visuel piloté par leur langue, qui, un peu à la manière d’un joystick, leur permettait de pointer sur une cible placée au centre de l’écran explique Jean-Luc Schwartz, directeur de recherches CNRS au Gipsa-lab et co-auteur de ces travaux publiés dans PNAS***. Une fois la position relative des pastilles demandée atteinte, les sujets étaient invités à dire à quelle voyelle correspondait la forme de leur langue sans pouvoir s’appuyer pour cela sur le retour auditif. En général, ils étaient capables de prédire la voyelle correspondant à leur forme de langue tout aussi efficacement que s’ils l’avaient entendue… »
 
EMA3

Pour tester les retours somatosensoriels sans mettre en jeu des stratégies motrices de la production de la parole, les chercheurs auraient pu attraper la langue des sujets par une pince et la déplacer par l'intermédiaire d'un moteur agissant sur la pince.... Pour éviter cet instrument de torture ils ont dû mettre au point un protocole expérimental très sophistiqué, mais beaucoup plus confortable pour les sujets.
Illustration : Sandra Reinhard©

A chaque position de langue correspond un son


Ainsi, ces travaux suggèrent que notre cerveau est capable de traiter et de classer l’information somatosensorielle concernant la forme de notre langue en catégories relatives au langage. « Lorsque nous parlons, nous ne produisons pas seulement des sons, nous donnons une forme particulière à notre langue, qui conditionne celle du conduit vocal et c’est cette forme qui donne au son ses caractéristiques fréquentielles pertinentes pour la communication parlée, précise Pascal Perrier, professeur à Grenoble INP, chercheur au Gipsa-lab et co-auteur de la publication de PNAS. Ainsi, en même temps que nous produisons des sons, nous donnons naissance à des sensations appelées ‘retours somatosensoriels’ qui font partie, au même titre que ce que nous entendons, de l’ensemble des informations que nous rattachons fondamentalement aux conséquences physiques de la production de notre parole, et qui nous permettent d’en contrôler la qualité et l’exactitude. »

Ces résultats, d’un grand intérêt théorique, ouvrent également des perspectives intéressantes pour la rééducation orthophonique d’enfants affectés par des pathologies du langage parlé, ou d’adultes ayant perdu une partie significative de leur audition : l’apprentissage dans l’enfance serait tellement efficace que les informations somatosensorielles permettraient de maintenir la précision du langage en permettant de contrôler finement l’action de la langue, même sans retour auditif parfait.
 

Améliorer les modèles de langage artificiel


Plus généralement, ces nouvelles connaissances sur le fonctionnement de la production et de la perception de la parole vont permettre d’enrichir les modèles de contrôle de la production de la parole élaborés par les chercheurs pour piloter des modèles physiques complexes (biomécaniques et acoustiques) du système de production de la parole. Avec ces modèles, à partir d’un jeu « de commandes musculaires », on peut synthétiser un ensemble de « sorties », les sons produits.

Un modèle biomécanique probabiliste simplifié simulant l’action des principaux muscles de la langue sur la forme du conduit vocal a été développé par Jean-François Patri, premier auteur de la publication de PNAS et ancien doctorant au Gipsa-lab, sous la direction de Pascal Perrier et Julien Diard, chargé de recherches CNRS au LPNC et également co-auteur de la publication. Ce modèle probabiliste de contrôle de la parole pourra être inséré dans des applications de type intelligence artificielle pour associer efficacement stimulations musculaires, formes de langue et sons par Machine Learning. Ces travaux s’intègrent dans le cadre de la chaire « Bayesian Cognition and Machine Learning for Speech Communication» pilotée par Pascal Perrier au sein de l’institut MIAI Grenoble Alpes, visant notamment à générer de la parole de synthèse en exploitant des outils d’Intelligence Artificielle pour simuler les processus humains de la production de parole, comme un robot humanoïde pourrait le faire.

* GIPSA-lab, Grenoble Images Parole Signal Automatique, CNRS, Grenoble INP, UGA
** LPNC, Laboratoire de Psychologie et NeuroCognition, CNRS, UGA
*** Patri, J.F., Ostry, D.J., , Diard, J., Schwartz, J.L., Trudeau-Fisette, P., Savariaux, C., & Perrier, P. Speakers are able to categorize vowels based on tongue somatosensation. Proceedings of the National Academy of Sciences, in press.