Votre état de santé… dans votre voix – The Conversation FR

Votre état de santé… dans votre voix – The Conversation FR

Avez-vous déjà senti lors d’un appel téléphonique avec un·e ami·e que celui-ci ne va pas bien ?

Uniquement à partir de sa voix, vous avez réussi à deviner son état de santé.

Sur quels indices votre cerveau s’est-il basé pour émettre une telle conclusion ?

L’audition humaine, un outil bien rodé

Mauvaise estime de soi, fatigue, ou troubles du sommeil, il suffit d’écouter les plaintes de ses ami·e·s – c’est-à-dire le contenu de ce qu’ils disent – pour savoir qu’ils ne vont pas bien. Mais même quand la réponse est un petit « ça va, ça va », vous arrivez malgré tout à percer à jour leur mal-être : ce que la personne dit n’est pas le seul indice que votre cerveau exploite pour analyser l’état de santé de votre interlocuteur.

En effet, des maladies telles que la dépression, Parkinson, ou Alzheimer ont un impact sur le fonctionnement neurologique des patients qui en sont affectés, et peuvent modifier la façon dont ils parlent. Ainsi, en plus du contenu, le « contenant » du discours d’un individu – sa voix – recèle des informations sur son état de santé. Que la personne parle dans sa barbe, articule moins, parle plus lentement ou encore allonge les voyelles, votre cerveau analyse à votre insu de nombreux paramètres vocaux, principalement divisés en deux catégories.

D’une part, des paramètres acoustiques, mesurant la qualité de la voix, comme la fréquence, l’énergie, la nasalité ou l’amplitude de la voix. Est-ce que la voix est aiguë, grave, forte, douce ? La voix fait-elle de grandes variations ou est-elle monotone ?

D’autre part, des paramètres que l’on appelle « prosodiques », tels que la durée des voyelles, la vitesse d’élocution, la longueur des pauses. Ces marqueurs de la qualité du phrasé permettent de rendre compte du rythme de la parole, de la prononciation et de l’articulation du locuteur. Les voyelles sont-elles allongées ? Certaines syllabes sont-elles altérées ?

Les paramètres extraits de la voix permettent d’inférer des connaissances sur l’état de santé de l’interlocuteur.
Vincent Martin, Author provided

Toutes ces informations sont des marqueurs vocaux qui sont utilisés pour estimer de très nombreuses informations sur votre interlocuteur, de manière indirecte – on parle d’« inférence ».

Estimation automatique de pathologies dans la voix

De même qu’elle peut analyser le contenu de la voix d’une personne pour rédiger une fiche de SAMU, des algorithmes d’intelligence artificielle peuvent, en calculant et interprétant les marqueurs vocaux décrits précédemment, identifier tout un panel de pathologies affectant la personne dont on a enregistré la voix.

Ces systèmes d’IA ont tous en commun le fait qu’ils sont basés sur un apprentissage supervisé par renforcement : ces systèmes nécessitent une base de données annotée manuellement par des spécialistes, à partir de laquelle ils ajustent les poids relatifs donnés à chaque indice vocal, et prennent une décision.

Dans notre cas d’étude de la voix, si quelques systèmes essayant d’estimer la gravité des symptômes commencent à voir le jour, la majorité des systèmes actuels ont pour but de classifier les échantillons dans des catégories – généralement « sujet pathologique » ou « sujet sain ».

Les systèmes d’apprentissage existant dans le domaine du traitement du signal vocal sont principalement divisés en deux catégories, chacune ayant ses avantages et ses inconvénients.

L’approche la plus ancienne, mais toujours la plus utilisée, consiste à extraire les marqueurs de manière automatique, mais explicite (par exemple la moyenne de la fréquence de la voix), puis d’entraîner un « classifieur » sur ceux-ci. Les marqueurs utilisés par le système sont alors parfaitement connus et on peut identifier les mécanismes de la voix qui permettent la détection de la maladie.

Des approches plus récentes et plus innovantes utilisent l’apprentissage profond (deep learning), ce qui permet d’atteindre de bonnes performances de classification entre les sujets sains et les patients malades. C’est le cas par exemple du système le plus avancé en détection de la dépression, qui atteint un score de classification de 74,0 %. Pour extraire les marqueurs vocaux et les classifier, ce système étudie également le contenu fréquentiel des échantillons audio, mais il utilise pour ce faire des « couches de neurones convolutifs ». Si cette méthode donne de très bons résultats, son principal inconvénient réside dans le manque d’interprétabilité des paramètres extraits : quels indices vocaux le système a-t-il écoutés pour deviner si la personne est dépressive ?

Diagnostic précoce de maladies neurodégénératives

Utiliser de tels systèmes pour détecter des signes de pathologies dans la voix présente deux défis principaux.

Tout d’abord, le diagnostic le plus précoce possible de maladies neurodégénératives. Pour ces maladies, Alzeihmer ou Parkinson par exemple, le retard de diagnostic complique la prise en charge des patients. La voix, du fait qu’elle soit altérée avec la maladie, et par sa facilité d’acquisition et son faible coût logistique (il suffit d’un microphone pour enregistrer les patients), est un marqueur très prometteur pour le diagnostic de leurs formes précoces. Par exemple, en 2011 une équipe de l’université de Prague a étudié la voix de patients atteints d’une forme précoce de Parkinson et a réussi à atteindre un score de 85,02 % de classification correcte grâce à différents marqueurs vocaux : le « rapport bruit sur harmoniques », qui mesure la « pureté » de la voix, le nombre de baisses d’intensité par seconde, un marqueur qui quantifie la justesse de l’articulation, et enfin l’écart-type de la fréquence fondamentale de la voix. Ainsi, par rapport à leurs homologues sains, les patients atteints de la maladie de Parkinson étudiés dans cette étude avaient une voix moins nette, plus bruitée, qui baissait souvent en intensité, avec une articulation diminuée et une fréquence fondamentale qui variait moins.

Suivi de patients à domicile

Kanopée, un assistant virtuel développé Bordeaux pour aider à gérer problèmes de sommeil, d’addiction et de stress liés aux confinements.
SANPSY, Author provided (No reuse)

Une autre application prometteuse est celle des médecins virtuels. Ayant notamment fait leurs preuves dans le suivi du sommeil et de la fatigue lors des confinements avec Kanopée, ces assistants permettent de proposer des conseils personnalisés à l’utilisateur, basés sur les informations que celui-ci remplit régulièrement. Une collaboration entre une équipe du Laboratoire bordelais de recherche en informatique et le laboratoire SANPSY du CHU de Bordeaux travaille ainsi à y intégrer une IA pour analyser la voix et estimer la somnolence des utilisateurs d’un médecin virtuel. Cette approche permet de suivre la somnolence de l’utilisateur dans son milieu de vie habituel, inaccessible au médecin, et de mesurer l’efficacité des conseils donnés par l’application.

Cette collaboration a déjà permis la mise au point d’un système de détection de la somnolence atteignant un score de classification de 76,4 % en se basant sur 22 marqueurs vocaux, divisés en cinq catégories. Les personnes somnolentes ont ainsi tendance à allonger les voyelles, qui ont une fréquence et une énergie qui varient moins, avec des « formants » déformés et une voix moins pure.

Pourquoi ça n’existe pas déjà ?

Pourquoi ces systèmes ne sont-ils pas encore utilisés dans la pratique clinique ?

Différences de langues dans les bases de données, différences de mesures des pathologies ou encore différences de populations, les obstacles sont nombreux à l’unification des résultats obtenus par chaque équipe séparément.

Par ailleurs, très peu d’études se sont penchées sur les cas de plusieurs pathologies simultanées. Par exemple, une personne dépressive peut aussi être dyslexique ou avoir un rhume. Dans ce cas, les deux maladies s’expriment dans la voix, et les connaissances actuelles ne sont pas suffisantes pour les spécifier de manière exclusive. Des études complémentaires sont donc nécessaires pour compléter les modèles, et petit à petit aboutir à un système « universel ».

En outre, la fiabilité des systèmes doit être d’autant plus grande qu’un mauvais diagnostic d’une IA pourrait avoir de grandes conséquences sur la prise en charge d’un·e patient·e. Même si certaines maladies sont détectées de manière crédible par des IA, la fiabilité de ces systèmes doit être vérifiée et revérifiée de multiples fois. Comme le rappelle le physicien et philosophe des sciences Étienne Klein, la recherche est un processus qui nécessite du temps.

Un autre frein aux prochaines avancées dans le domaine de l’IA vocale pourrait bien sûr être éthique : si les obstacles précisés précédemment ne permettent pas encore leur déploiement – bien que cela soit un sujet de recherche actif en plein essor – la question du respect de la vie privée des usagers d’appareils connectés utilisant la voix se pose. Si l’estimation de la santé d’une personne grâce à sa voix permet une meilleure prise en charge médicale, que penser de la même estimation par des entreprises privées, évaluant ou commercialisant les mêmes informations, potentiellement à l’insu de leurs usagers ?

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

You have successfully subscribed to the newsletter

There was an error while trying to send your request. Please try again.

web-breaking-news will use the information you provide on this form to be in touch with you and to provide updates and marketing.