Li
[Li 94]
a
adopté
des
méthodes
issues
de
la
reconnaissance
du
locuteur.
Son
idée
est
de
classer
un
signal
en
mesurant
la
similarité
entre
son
locuteur
et
les
locuteurs
les
plus
proches
dans
chaque
langue.
Durant
l'apprentissage,
un
réseau
de
neurones
est
utilisé
pour
extraire
tous
les
noyaux
syllabiques.
Des
coefficients
spectraux
sont
extraits
à
différents
endroits
des
noyaux
et
sauvegardés.
Durant
la
phase
de
reconnaissance,
les
noyaux
sylllabiques
sont
extraits
de
la
même
façon
et
les
coefficients
spectraux
sont
comparés
à
tous
ceux
sauvés
pour
chaque
locuteur.
La
plus
petite
différence
entre
chaque
noyau
du
fichier
à
examiner
et
les
noyaux
des
autres
locuteurs
est
alors
calculée.
La
somme
des
différences
est
considérée
comme
la
différence
entre
le
locuteur
et
chacune
des
références.
La
différence
moyenne
des
locuteurs
les
plus
semblables
dans
chaque
langage
constitue
la
différence
entre
le
fichier
de
test
et
les
langages
cibles :
le
langage
ayant
la
plus
petite
différence
est
sélectionné.
Le système a été évalué sur le corpus téléphonique OGI-MLTS, en utilisant 449 locuteurs répartis sur 10 langues. Les résultats sont d'environ 78% et 58% pour 10 langues en utilisant des séquences de respectivement 45 s. et 10 s. Si l'on ne considère que les identifications par paire de langues, les taux moyens sont de 82% et 91% pour des fichiers de 45 s. et 10 s. respectivement.