next up previous contents
Next: Modèle de langage Up: Réalisation d'une modélisation automatique Previous: Paramètres utilisés

 

Modèles prosodiques

Le but principal est de réaliser une modélisation des différentes unités (formes) prosodiques contenues dans le contour intonatif des zones voisées.

  figure424
Figure 5.1: Contour mélodique d'un signal parlé 

La première question qui est soulevée par une telle modélisation concerne le choix de l'unité temporelle. Une modélisation basée sur des trames n'est pas concevable, car elle ne reflète pas le caractère suprasegmental de la prosodie. En observant le contour intonatif d'un signal de parole (cf. figure 5.1 : la partie du haut représente l'évolution dans le temps de la valeur de F0, celle du bas le signal acoustique associé), il apparait qu'il existe déjà une segmentation au niveau du voisement : une zone voisée est caractérisée par un contour de la fréquence fondamentale non nulle, dont les valeurs du F0 sont comprises entre 50 et 200 Hz pour les hommes, et 100-400Hz pour les femmes ; une zone non voisée par un contour intonatif nul. La segmentation en unités prosodiques doit-elle être effectuée au niveau de la segmentation voisé/non voisée, ou utiliser un autre niveau, par exemple en choisissant des unités plus petites ? Un motif tel que :

tex2html_wrap1765

doit-il être caractérisé par une seule unité prosodique (``creux'') ou plusieurs (une ``descente'' suivie d'une ``montée'') ? Il a été décidé d'essayer une modélisation dont les unités correspondent exactement à une zone voisée du signal dans le cadre d'une première approche.

10 formes élémentaires sont définies :

ST
(STationary) : forme stationnaire
BU
(BUmp) : bosse
TR
(TRough) : creux
UPlo, UPmi, UPhi
(UP low, middle, high) : montées de pentes différentes
DWlo, DWmi, DWhi
(DWown low, middle, high) : descentes de pentes différentes
UPen
(UP end) : montée de fin de phrase

Exemples de contours mélodiques des modèles :

tex2html_wrap1767 tex2html_wrap1769 tex2html_wrap1771
stationnaire bosse creux

tex2html_wrap1773 tex2html_wrap1775 tex2html_wrap1777 tex2html_wrap1779
montée légère montée moyenne montée forte montée de fin de phrase

tex2html_wrap1781 tex2html_wrap1783 tex2html_wrap1785
descente légère (DWlo) descente moyenne (DWmi) descente forte (DWhi)

Pour modéliser ces contours, une modélisation par Modèles Stochastiques de Trajectoires [Gong et Haton 94, Illina 97,] a été envisagée. Nous n'avons pas pu avoir accès à l'implémentation de ces modèles, et nous avons alors employé une modélisation par Modèles de Markov Cachés (MMC), qui permet de modéliser l'évolution temporelle des formes et qui se révèle intéressante du point de vue de la variabilité des formes.

Parmi les 10 formes considérées, 7 sont modélisées avec un seul état, et les 3 autres à l'aide de trois états (sans compter les états fictifs de début et de fin). Une seule gaussienne est utilisé pour décrire chaque état. Un seul état est utilisé pour modéliser une forme dont l'évolution dans le temps est monotone :

tex2html_wrap1787

Les modèles à trois états sont assignés aux formes dont l'évolution dans le temps est plus complexe et qui nécessitent donc plus d'un état pour être représenté : il s'agit des formes UPen, TR, BU.

tex2html_wrap1789

Il faut noter qu'avec une telle modélisation on perd les informations de durée des segments : en effet, un motif très étalé dans le temps et un autre motif du même type de durée plus courte sont modélisés par le même MMC. Ceci est dû au fait que les états bouclent sur eux-même, c'est-à-dire qu'à la sortie d'un état le réseau offre la possibilité de revenir dans cet état ou bien de changer d'état.

Il faut aussi signaler qu'un nombre minimum de vecteurs de paramètres est demandé pour entrer dans un état. Ainsi avec HTKgif, la boîte à outils utilisée pour réaliser cette modélisation, il est nécessaire de disposer d'au moins trois vecteurs prosodiques pour caractériser un état. Ces vecteurs étant calculés toutes les 10 ms. (cf. section 5.3) les formes ne seront étiquetées que si elles sont d'une durée supérieure à 30 ms. Ces formes sont donc étiquetées ``V'' pour ``zone Voisée''.

L'apprentissage est réalisé de manière empirique par succession d'essais et d'améliorations. Chaque modèle est initialisé par une douzaine de formes prosodiques étiquetées manuellement. Le corpus d'apprentissage est ensuite étiqueté par ce modèle. Lorsqu'une erreur d'étiquetage est décelée, la forme en question est rajoutée dans la liste des formes utilisée pour l'initialisation. L'étiquetage est alors relancé avec le nouveau modèle appris avec les nouvelles listes. Le processus est répété jusqu'à ce que l'étiquetage convienne. Les expérimentations n'ont jamais dépassé 10 cycles de modifications.

La phase de reconnaissance consiste d'une part à découper le signal en segments voisés distincts (à l'aide de la valeur de F0) et d'autre part à étiqueter chaque segment par le modèle prosodique (constitué des 10 MMC prosodiques). La figure 5.2 montre un exemple de segmentation et d'étiquetage.

  figure491
Figure 5.2: Exemple de segmentation et d'étiquetage 


next up previous contents
Next: Modèle de langage Up: Réalisation d'une modélisation automatique Previous: Paramètres utilisés

Jérôme Farinas
Mon Nov 16 16:11:40 MET 1998