next up previous contents
Next: Système de Muthusamy Up: Systèmes d'IAL utilisant la Previous: Systèmes d'IAL utilisant la

Système de Hazen et Zue

Hazen et Zue [Hazen et Zue 97] ont intégré un modèle prosodique à un système d'IAL dans un cadre probabiliste. Le système est constitué d'un modèle acoustico-phonétique, d'un modèle de langage phonétique et d'un modèle prosodique (cf. figure 4.1 pour un aperçu du système global). Etant donné le vecteur acoustique tex2html_wrap1633 , la vecteur prosodique tex2html_wrap1634 , la séquence phonétique la plus probable tex2html_wrap1635 et la segmentation associée tex2html_wrap1636 , le langage le plus probable tex2html_wrap1637 est trouvé en utilisant l'expression suivante :

displaymath1697

ce qui revient à écrire :

displaymath1698

Les quatre probabilités de cette expression sont organisées de telle sorte que les informations phonétiques et prosodiques soient séparées. Ces termes désignent les différents modèles du système :

  1. tex2html_wrap1638 : le modèle acoustico-phonétique
  2. tex2html_wrap1639 : le modèle prosodique
  3. tex2html_wrap1640 : le modèle phonétique de langage
et tex2html_wrap1641 désigne la probabilité a priori du langage. Cette dernière est considérée comme uniforme et a donc été ignorée par la suite.

  figure241
Figure 4.1: vue globale du système de Hazen et Zue 

Le modèle acoustique est utilisé pour capturer des informations sur les phonèmes utilisés par chaque langage. Pour simplifier le modèle, Hazen et Zue font l'hypothèse que le vecteur acoustique tex2html_wrap1633 est indépendant du vecteur prosodique tex2html_wrap1634  :

displaymath1699

tex2html_wrap1644 est le nombre de trames dans le signal et tex2html_wrap1645 est le vecteur de paramètres qui décrit l'acoustique de la tex2html_wrap1646 trame. Le vecteur tex2html_wrap1645 est constitué de 14 MFCCgif et des 14 dérivées associées.

Le modèle phonétique de langage utilisé est un modèle trigramme interpolé, dont l'expression est :

displaymath1700

tex2html_wrap1648 et tex2html_wrap1649 sont les poids qui dépendent des phonèmes précédant tex2html_wrap1650 . tex2html_wrap1648 s'écrit :

displaymath1701

tex2html_wrap1652 est le nombre d'occurences de tex2html_wrap1653 dans le corpus d'apprentissage et tex2html_wrap1654 est une constante. D'une manière similaire nous avons :

displaymath1702

Le modèle prosodique se base sur des informations statistiques simples sur la fréquence fondamentale et la durée des segments. Pour simplifier le modèle, l'expression pour le modèle prosodique peut de développer comme suit :

displaymath1703

Le modèle de fréquence fondamentale tex2html_wrap1655 utilise des informations du contour du F0 d'un signal. Alors qu'il doit y avoir une corrélation entre le contour du F0 et le durée segmentale, cette corrélation est ignorée pour simplifier le modèle. Donc tex2html_wrap1634 est considéré comme indépendante de tex2html_wrap1636 et tex2html_wrap1635 . Avec ces hypothèses, le modèle de fréquence fondamentale donne :

displaymath1704

Hazen et Zue considèrent maintenant que l'information qui est contenue dans la dynamique du contour du F0 est contenue dans les valeurs de la dérivée du F0 et qu'il n'est donc pas indispensable de modéliser spécifiquement cette dynamique. Pour simplifier le modèle, chaque trame est considérée comme statistiquement indépendante :

displaymath1705

tex2html_wrap1644 est le nombre de trames dans le signal et tex2html_wrap1660 est un vecteur de paramètres représentant les valeurs du F0 et de la derivée du F0 pour la tex2html_wrap1661 trame. Il faut noter que le calcul de cette probabilité n'est effectué que sur les zones voisées, i.e. que sur les zones où la fréquence fondamentale est définie. L'expression ci-dessus a été modélisée en utilisant un mélange de Gaussiennes, avec 9 fonctions de densité estimées avec des matrices de covariance pleines.

Le modèle de la durée segmentale ne tient pas compte des informations contenues dans l'accentuation des motifs des syllabes, des mots et des phrases du signal. En faisant l'hypothèse d'indépendance des segments, le modèle de durée s'écrit :

displaymath1706

tex2html_wrap1595 est le nombre de segments dans le signal et tex2html_wrap1663 la durée du tex2html_wrap1646 segment. Cette expression est modélisée par mélange de Gaussiennes.

Les résultats ont été calculés à la sortie du système global mais chaque modèle à été évalué séparément, ce qui permet de mesurer l'importance relative de chaque composante. Sur le corpus OGI-MLTS, les résultats pour 11 langues avec des fichiers de parole spontanée de 10 et 45 s. sont les suivants :

Modèles 10 s. 45 s.
Système complet 65% 78%
Modèle de langage 62% 77%
Modèle acoustique 49% 53%
Modèle de durée 31% 44%
Modèle de F0 12% 20%

Ces résultats sont compétitifs avec les autres systèmes d'IAL. Le modèle de langage est la modélisation la plus utile pour le système probabiliste, les informations des modèles acoustico-phonétique et prosodique pouvant tout de même se révéler utiles pour améliorer les performances.


next up previous contents
Next: Système de Muthusamy Up: Systèmes d'IAL utilisant la Previous: Systèmes d'IAL utilisant la

Jérôme Farinas
Mon Nov 16 16:11:40 MET 1998