Résumé : L’analyse du signal de parole offre un moyen privilégié pour l’évaluation clinique de la qualité de la voix en vue d’un diagnostique et d’une documentation quantitative des pathologies du larynx. Une analyse acoustique présente plusieurs avantages. En plus du coût peu élevé du système d’évaluation, elle est simple à mettre en œuvre, présente un caractère non invasif et documente quantitativement le degré d’enrouement perçu par le clinicien.

L’objectif de l’analyse du signal acoustique est d’extraire des indices pertinents permettant de déterminer les caractéristiques de la voix afin de renseigner sur l’état du larynx du locuteur. Dans ce contexte, plusieurs indices acoustiques sont utilisés pour caractériser la parole produite par des locuteurs dysphoniques. Un nombre de ces indices reflète la déviation du signal de parole voisée par rapport à la périodicité parfaite. Les causes de ces dyspériodicités sont diverses : vibrations non modales des cordes vocales, bruit de modulation comprenant les variations cycle à cycle de la durée de cycle (jitter) et de l’amplitude (shimmer) dues aux perturbations externes, bruit additif dû à une turbulence excessive, etc.

Les indices acoustiques des dyspériodicités vocales sont souvent obtenus à partir de fragments stationnaires de voyelles soutenues. La raison en est que les voyelles sans attaques et déclins sont faciles à analyser parce que les hypothèses de cyclicité et de stationnarité utilisées par les méthodes d’analyse sont valables pour beaucoup de locuteurs. En effet, les voyelles soutenues peuvent être supposées avec une bonne précision comme produites en maintenant invariant dans le temps les caractéristiques de la source vocale, du conduit vocal et des articulateurs et, donc, les paramètres des perturbations et du bruit sont facilement calculés pour les voyelles soutenues.

La plupart des cliniciens considèrent la parole continue plus informative que les voyelles soutenues. Plusieurs arguments en faveur de l’analyse de la parole continue peuvent être avancés. La vibration des cordes vocales doit commuter continuellement pour donner lieu à l’apparition ou l’extinction du voisement, le voisement doit être maintenu alors que l’impédance supra-glottique change constamment, plus particulièrement durant les obstruents, et le larynx doit descendre et monter continuellement. Le larynx fonctionne donc dans des conditions non stationnaires et très variables. La parole continue contient donc les caractéristiques dynamiques de la source de la voix et du conduit vocal tels que l’attaque et le déclin et les variations dans la fréquence fondamentale et l’amplitude. De même, il semble que les locuteurs compensent moins pour leurs problèmes de voix lors de la production de la parole continue que lorsqu’ils produisent des voyelles soutenues.

Les méthodes de traitement du signal de parole pour la caractérisation des troubles de la voix sont basées sur les hypothèses de stationnarité et de périodicité locales qui conduisent à des approches heuristiques permettant de détecter et d’isoler les périodes fondamentales ou les harmoniques spectrales. Comme conséquence, des erreurs d’insertion ou d’omission se produisent souvent lors de l’analyse des signaux fortement perturbés. Ces erreurs biaisent numériquement les indices acoustiques. Les mesures objectives ne sont donc fiables que lorsque l’analyse est effectuée sur des voyelles soutenues produites par des locuteurs faiblement ou modérément enroués.

La précision des méthodes d’analyse dans le cadre de l’estimation des dyspériodicités vocales est une caractéristique fondamentale. En effet, les perturbations cycle à cycle des durées de cycle peuvent être inférieures à 1 % alors que les perturbations cycle à cycle de l’amplitude peuvent être inférieures à 10 %. Donc, les méthodes de traitement doivent être appliquées avec précaution vis à vis de la précision de mesure pour ne pas biaiser les valeurs numériques. Le bruit de quantification par exemple peut affecter la précision d’estimation s’il n’est pas pris en considération.

Cette thèse se focalise sur le développement de méthodes robustes d’analyse acoustiques du signal de parole continue en vue de la caractérisation des troubles de la voix, la définition et l’évaluation d’indices acoustiques pour quantifier les dyspériodicités vocales et le développement d’une méthode d’évaluation perceptive fiable permettant de mesurer et comparer les performances des différentes méthodes d’analyse développées.

Les méthodes développées sont de deux types : des méthodes d’analyse par bloc qui opèrent sur des trames de courte durée du signal et des méthodes adaptatives qui permettent d’analyser le signal à chaque échantillon en tenant compte de son caractère non stationnaire.

Deux indices acoustiques sont utilisés pour quantifier les dyspériodicités vocales dans le signal de parole. Le premier indice, utilisé conventionnellement dans le cadre de l’évaluation objective de la qualité de la voix, est le rapport signal à dyspériodicité global. La valeur numérique de l’indice global est principalement déterminée par les segments vocaliques et donc il peut masquer certains évènements locaux, notamment dans le cas de l’analyse de la parole continue. Le second indice proposé comme alternative à l’indice global est le rapport signal à dyspériodicité segmental. Il a pour objectif de donner une plus forte pondération aux segments bruités de faibles niveaux qui sont peu pondérés dans le calcul de l’indice global.

La méthode d’évaluation perceptive développée est basée sur la comparaison de paires de signaux. Elle permet d’obtenir des résultats fiables même lorsque l’évaluation est réalisée par des auditeurs naïfs n’ayant pas d’expérience dans l’évaluation de la qualité de la voix et permet une grande concordance inter-juges et intra-juges. Les performances de la méthode d’évaluation perceptive basée sur la comparaison de paires de signaux sont comparées à celles de la méthode conventionnelle utilisée en milieu clinique.

Les performances des différentes méthodes d’analyse et des indices acoustiques sont mesurées en les testant sur des corpus comprenant des voyelles soutenues et de la parole continue. Les stimuli sont produits par des locuteurs normophoniques et dysphoniques et comprennent une large gamme de pathologies.