next up previous contents
Next: Application au modèle prosodique Up: Modèle de langage Previous: Modèle de langage

Description du modèle multigramme [Deligne 96]

Un modèle de langage multigramme est un outil statistique qui permet de détecter des motifs récurrents de suites d'observations.

Une source gouvernée par un processus de type multigramme émet des observations (à valeurs continues ou discrètes) par séquences de longueur variable. Seule la concaténation des séquences est accessible à l'observation.

Dans le cas discret (cas de l'étude), le processus observable prend ses valeurs dans un dictionnaire. En phase de reconnaissance il s'agit de trouver à partir d'une suite d'observations tex2html_wrap1793 , la segmentation tex2html_wrap1794 la plus problable au sens du maximum de vraisemblance :

displaymath1817

displaymath1818

displaymath1819

avec tex2html_wrap1795 : vraisemblance et tex2html_wrap1796 : suite d'observations.

L'algorithme d'apprentissage des multigrammes est basé sur un algorithme de type EM itératif et a pour but d'estimer les probabilités de toute séquence d'observations tex2html_wrap1796 . À chaque itération (k+1) à partir du modèle k, la probabilité de la séquence tex2html_wrap1796 est réestimée après segmentation optimale du corpus d'apprentissage.

displaymath1820

displaymath1821

tex2html_wrap1799 est le nombre d'apparitions de tex2html_wrap1796 dans tex2html_wrap1801 et tex2html_wrap1802 est le nombre total de séquences dans tex2html_wrap1801 , la segmentation tex2html_wrap1801 la plus probable étant obtenue par l'algorithme de Viterbi.



Jérôme Farinas
Mon Nov 16 16:11:40 MET 1998