Système de Muthusamy

Next: Système de Li Up: Systèmes d'IAL utilisant la Previous: Système de Hazen et

Système de Muthusamy

Muthusamy [Muthusamy 93] a développé un système basé sur une classification en larges catégories phonétiques du signal de parole. Ce système a été initialement testé sur un corpus de quatre langues (anglais, japonais, mandarin et tamoul) contitué d'enregistrement de parole de haute qualité (OGI-HQ). Muthusamy a ensuite amélioré ce système, en évaluant différentes combinaisons de paramètres en utilisant le corpus téléphonique OGI-MLTS avec 10 langues.

Le premier système se décompose de deux phases :

une segmentation en grandes catégories (cf. tableau 4.1) du signal de parole,
une classification de langage utilisant des paramètres extraits des grandes catégories.

nom description

VOC voyelle

PRVS pré-vocalique

POVS post-vocalique

INVS intervocalique

FRIC fricative

STOP explosion

CLOS pas de signal de parole

Table 4.1: Grandes catégories utilisées par le système de Muthusamy

**Table 4.1:** Grandes catégories utilisées par le système de Muthusamy
nom	description
VOC	voyelle
PRVS	pré-vocalique
POVS	post-vocalique
INVS	intervocalique
FRIC	fricative
STOP	explosion
CLOS	pas de signal de parole

La segmentation est basée sur un réseau de neurones entièrement connecté à trois couches qui délivre des scores sur 7 grandes catégories de phonèmes. Une recherche par algorithme de Viterbi qui prend en compte les probabilités sur la durée et les modèles bigrammes est alors utilisée pour trouver les meilleures séquences de labels.

La classification utilise un autre réseau de neurones à trois couches. 80 paramètres prosodiques et phonétiques dérivés de la segmentation en larges catégories sont utilisés en entrée du réseau. Parmi les paramètres prosodiques, notons l'utilisation de la moyenne de la variance de la fréquence fondamentale, prise à l'intérieur de chaque catégorie voisée et sur toutes les catégories voisées, la moyenne et la variance de la durée de chaque catégorie, la moyenne et la variance de la différence de durée entre des segments successifs.

Les résultats en identification des langues sont de 79% avec un corpus de test composé de 6 locuteurs par langue.

La deuxième série d'expérimentations, effectuées sur le corpus téléphonique avec dix langues, utilise le même principe de segmentation/classification mais avec différents jeux de paramètres. Les meilleurs résultats obtenus avec les paramètres exploitant la fréquence fondamentale (variance inter et intra segmentale) ne dépassent pas 19%. Les paramètres prosodiques utilisés (fréquence fondamentale, rythme de parole) se sont révélés moins performants que les paramètres mettant en jeu des règles phonotactiques ou la durée segmentale.

Next: Système de Li Up: Systèmes d'IAL utilisant la Previous: Système de Hazen et

Jérôme Farinas
Mon Nov 16 16:11:40 MET 1998