next up previous contents
Next: Système de Li Up: Systèmes d'IAL utilisant la Previous: Système de Hazen et

Système de Muthusamy

Muthusamy [Muthusamy 93] a développé un système basé sur une classification en larges catégories phonétiques du signal de parole. Ce système a été initialement testé sur un corpus de quatre langues (anglais, japonais, mandarin et tamoul) contitué d'enregistrement de parole de haute qualité (OGI-HQ). Muthusamy a ensuite amélioré ce système, en évaluant différentes combinaisons de paramètres en utilisant le corpus téléphonique OGI-MLTS avec 10 langues.

Le premier système se décompose de deux phases :

  1. une segmentation en grandes catégories (cf. tableau 4.1) du signal de parole,
  2. une classification de langage utilisant des paramètres extraits des grandes catégories.

 
nom description
VOC voyelle
PRVS pré-vocalique
POVS post-vocalique
INVS intervocalique
FRIC fricative
STOP explosion
CLOS pas de signal de parole
Table 4.1: Grandes catégories utilisées par le système de Muthusamy 

La segmentation est basée sur un réseau de neurones entièrement connecté à trois couches qui délivre des scores sur 7 grandes catégories de phonèmes. Une recherche par algorithme de Viterbi qui prend en compte les probabilités sur la durée et les modèles bigrammes est alors utilisée pour trouver les meilleures séquences de labels.

La classification utilise un autre réseau de neurones à trois couches. 80 paramètres prosodiques et phonétiques dérivés de la segmentation en larges catégories sont utilisés en entrée du réseau. Parmi les paramètres prosodiques, notons l'utilisation de la moyenne de la variance de la fréquence fondamentale, prise à l'intérieur de chaque catégorie voisée et sur toutes les catégories voisées, la moyenne et la variance de la durée de chaque catégorie, la moyenne et la variance de la différence de durée entre des segments successifs.

Les résultats en identification des langues sont de 79% avec un corpus de test composé de 6 locuteurs par langue.

La deuxième série d'expérimentations, effectuées sur le corpus téléphonique avec dix langues, utilise le même principe de segmentation/classification mais avec différents jeux de paramètres. Les meilleurs résultats obtenus avec les paramètres exploitant la fréquence fondamentale (variance inter et intra segmentale) ne dépassent pas 19%. Les paramètres prosodiques utilisés (fréquence fondamentale, rythme de parole) se sont révélés moins performants que les paramètres mettant en jeu des règles phonotactiques ou la durée segmentale.


next up previous contents
Next: Système de Li Up: Systèmes d'IAL utilisant la Previous: Système de Hazen et

Jérôme Farinas
Mon Nov 16 16:11:40 MET 1998