Hazen
et
Zue
[Hazen et Zue 97]
ont
intégré
un
modèle
prosodique
à
un
système
d'IAL
dans
un
cadre
probabiliste.
Le
système
est
constitué
d'un
modèle
acoustico-phonétique,
d'un
modèle
de
langage
phonétique
et
d'un
modèle
prosodique
(cf.
figure
4.1
pour
un
aperçu
du
système
global).
Etant
donné
le
vecteur
acoustique
,
la
vecteur
prosodique
,
la
séquence
phonétique
la
plus
probable
et
la
segmentation
associée
,
le
langage
le
plus
probable
est
trouvé
en
utilisant
l'expression
suivante :
ce qui revient à écrire :
Les quatre probabilités de cette expression sont organisées de telle sorte que les informations phonétiques et prosodiques soient séparées. Ces termes désignent les différents modèles du système :
Figure 4.1: vue
globale
du
système
de
Hazen
et
Zue
Le
modèle
acoustique
est
utilisé
pour
capturer
des
informations
sur
les
phonèmes
utilisés
par
chaque
langage.
Pour
simplifier
le
modèle,
Hazen
et
Zue
font
l'hypothèse
que
le
vecteur
acoustique
est
indépendant
du
vecteur
prosodique
:
où
est
le
nombre
de
trames
dans
le
signal
et
est
le
vecteur
de
paramètres
qui
décrit
l'acoustique
de
la
trame.
Le
vecteur
est
constitué
de
14
MFCC
et
des
14
dérivées
associées.
Le modèle phonétique de langage utilisé est un modèle trigramme interpolé, dont l'expression est :
où
et
sont
les
poids
qui
dépendent
des
phonèmes
précédant
.
s'écrit :
où
est
le
nombre
d'occurences
de
dans
le
corpus
d'apprentissage
et
est
une
constante.
D'une
manière
similaire
nous
avons :
Le modèle prosodique se base sur des informations statistiques simples sur la fréquence fondamentale et la durée des segments. Pour simplifier le modèle, l'expression pour le modèle prosodique peut de développer comme suit :
Le
modèle
de
fréquence
fondamentale
utilise
des
informations
du
contour
du
F0
d'un
signal.
Alors
qu'il
doit
y
avoir
une
corrélation
entre
le
contour
du
F0
et
le
durée
segmentale,
cette
corrélation
est
ignorée
pour
simplifier
le
modèle.
Donc
est
considéré
comme
indépendante
de
et
.
Avec
ces
hypothèses,
le
modèle
de
fréquence
fondamentale
donne :
Hazen et Zue considèrent maintenant que l'information qui est contenue dans la dynamique du contour du F0 est contenue dans les valeurs de la dérivée du F0 et qu'il n'est donc pas indispensable de modéliser spécifiquement cette dynamique. Pour simplifier le modèle, chaque trame est considérée comme statistiquement indépendante :
où
est
le
nombre
de
trames
dans
le
signal
et
est
un
vecteur
de
paramètres
représentant
les
valeurs
du
F0
et
de
la
derivée
du
F0
pour
la
trame.
Il
faut
noter
que
le
calcul
de
cette
probabilité
n'est
effectué
que
sur
les
zones
voisées,
i.e.
que
sur
les
zones
où
la
fréquence
fondamentale
est
définie.
L'expression
ci-dessus
a
été
modélisée
en
utilisant
un
mélange
de
Gaussiennes,
avec
9
fonctions
de
densité
estimées
avec
des
matrices
de
covariance
pleines.
Le modèle de la durée segmentale ne tient pas compte des informations contenues dans l'accentuation des motifs des syllabes, des mots et des phrases du signal. En faisant l'hypothèse d'indépendance des segments, le modèle de durée s'écrit :
où
est
le
nombre
de
segments
dans
le
signal
et
la
durée
du
segment.
Cette
expression
est
modélisée
par
mélange
de
Gaussiennes.
Les résultats ont été calculés à la sortie du système global mais chaque modèle à été évalué séparément, ce qui permet de mesurer l'importance relative de chaque composante. Sur le corpus OGI-MLTS, les résultats pour 11 langues avec des fichiers de parole spontanée de 10 et 45 s. sont les suivants :
Modèles | 10 s. | 45 s. |
Système complet | 65% | 78% |
Modèle de langage | 62% | 77% |
Modèle acoustique | 49% | 53% |
Modèle de durée | 31% | 44% |
Modèle de F0 | 12% | 20% |
Ces résultats sont compétitifs avec les autres systèmes d'IAL. Le modèle de langage est la modélisation la plus utile pour le système probabiliste, les informations des modèles acoustico-phonétique et prosodique pouvant tout de même se révéler utiles pour améliorer les performances.