Un modèle de langage multigramme est un outil statistique qui permet de détecter des motifs récurrents de suites d'observations.
Une source gouvernée par un processus de type multigramme émet des observations (à valeurs continues ou discrètes) par séquences de longueur variable. Seule la concaténation des séquences est accessible à l'observation.
Dans
le
cas
discret
(cas
de
l'étude),
le
processus
observable
prend
ses
valeurs
dans
un
dictionnaire.
En
phase
de
reconnaissance
il
s'agit
de
trouver
à
partir
d'une
suite
d'observations
,
la
segmentation
la
plus
problable
au
sens
du
maximum
de
vraisemblance
:
avec
:
vraisemblance
et
:
suite
d'observations.
L'algorithme
d'apprentissage
des
multigrammes
est
basé
sur
un
algorithme
de
type
EM
itératif
et
a
pour
but
d'estimer
les
probabilités
de
toute
séquence
d'observations
.
À
chaque
itération
(k+1)
à
partir
du
modèle
k,
la
probabilité
de
la
séquence
est
réestimée
après
segmentation
optimale
du
corpus
d'apprentissage.
où
est
le
nombre
d'apparitions
de
dans
et
est
le
nombre
total
de
séquences
dans
,
la
segmentation
la
plus
probable
étant
obtenue
par
l'algorithme
de
Viterbi.