Identification Automatique des Langues :
variations sur les multigrammes

Jérôme Farinas, Régine André-Obrecht
IRIT - équipe IHM-PT
118, route de Narbonne – F-31062 Toulouse Cedex 04, France
Tél.: ++33 (0)5 61 55 88 35 - Fax: ++33 (0)5 61 55 62 58
Mél: {Jerome.Farinas, obrecht}@irit.fr - http://www.irit.fr

 

Abstract

Most systems of Automatic Language Identification give a great importance to the phonotactic level, by using N-gram models and relatively large phone-dictionary sizes. However, it is obvious that introducing other features (acoustic, phonetic, prosodic) will improve performances. Recently, we have proposed an alternative acoustic phonetic model which exploits the vowel / non vowel distinction. Here we complete this preliminary system, by studying the phonotactical level and adapting it to the acoustic outputs (small phone dictionary). We used a n-multigram model based on broad phonetic categories. We present a first study based on hand-label data, showing the influence of the number of phonetic broad categories in an ALI task.

1. Introduction

Parmi les différentes sources d'information disponibles pour identifier un langage donné, les informations phonotactiques, relatives aux règles qui gouvernent la combinaison des sons dans une langues, contribuent grandement à la décision d'identification [Haz97]. Les systèmes actuels les plus performants en témoignent largement en privilégiant cette source de connaissances et sa modélisation [Mat99].

Les études menées à l'IRIT en Identification Automatique des Langues, ont pour but d’exploiter le maximum de sources. C’est pourquoi nous portons nos efforts sur la modélisation acoustico-phonétique, la modélisation phonotactique, la modélisation prosodique et la fusion de ces informations. Une première étude nous a conduit à proposer une approche différenciée au niveau acoustico-phonétique. Pour prendre en compte les paramètres structuraux des systèmes phonologiques, deux espaces, l’espace vocalique et l’espace consonantique, sont modélisés par deux modèles distincts pour chacune des langues. L’identification est obtenue par fusion adéquate des scores ainsi obtenus [Pel00] . Cette approche a montré une amélioration des résultats comparativement à une modélisation acoustique globale. Cette approche remet en cause la modélisation phonotactique. L'influence d'une telle séparation en classes phonétiques sur une modélisation phonotactique est étudiée. Ce premier travail se place dans un cadre idéal dans la mesure où nous utilisons en entrée de la modélisation un étiquetage manuel réalisé par des experts phonéticiens. Nous étudions les performances en reconnaissance de la langue d'un modèle phonotactique à base de multigrammes sur des classes de phonèmes. Nous présentons le modèle multigramme utilisé en section 2, le protocole expérimental en section 3 et nous discutons les résultats en section 4.

2. modèles multigrammes

Pour rendre compte des différentes règles qui gouvernent la combinaison des phonèmes d'une langue. nous utilisons un modèle de langage multigramme [Del96] qui permet de détecter des motifs récurrents dans des suites d'observations. Ces motifs récurrents peuvent avoir une longueur variable.

La modélisation par multigrammes consiste à trouver la segmentation S=(s1,… , sn(S)) la plus probable d'une séquence d'observations O=(o1,… , oT) :

avec la vraisemblance :

où Zi = (osi,… , os(i+1)-1)

L’algorithme d'apprentissage est un algorithme itératif de type EM. A chaque itération, sont estimées les probabilités a priori d'une séquence d'observations Zi :

avec

où > est la vraisemblance de la séquence d'apprentissage O à l'itération k, >est le nombre d'occurrences de > dans la segmentation optimale >. La segmentation la plus probable > est estimée en utilisant un algorithme de Viterbi. Au cours de ces itérations, les segmentations du corpus évoluent, faisant émerger les séquences d'observation les plus typiques.

Après apprentissage, un dictionnaire est créé contenant les séquences Zi les plus probables et leur vraisemblance.

La phase de reconnaissance consiste à calculer la perplexité d'une séquence d'observation O en utilisant la segmentation la plus vraisemblable, suivant la formule :

où > est le nombre d'observations de O et où la vraisemblance de cette même suite est :

3. Expériences

Les expériences sont menées sur six langues du corpus OGI Multi Language Telephone Speech : l'anglais, l'allemand, l'hindi, le japonais, le mandarin et l'espagnol. Les données utilisées correspondent aux transcriptions phonétiques réalisées manuellement par des experts phonéticiens [Lan97]. Ces transcriptions, réalisées au format international Worldbet [Hie93], sont ensuite réduites en grandes classes phonétiques. Les voyelles sont regroupées en 9 classes, correspondant à une discrétisation de l'espace articulatoire, suivant les deux premiers formants F1 et F2. Les consonnes sont rassemblées en grandes classes : occlusives (en différenciant le silence avant explosion et l'explosion-friction), fricatives, nasales, liquides et semi-consonnes. De plus, l'information sur le voisement est conservée pour les occlusives, fricatives et nasales. Il en résulte 9 classes consonantiques. Les étiquettes des diacritiques ne sont pas considérées, seules les pauses sont conservées.

Le corpus est scindé en deux parties, l'une destinée à être utilisée pendant la phase d'apprentissage et l'autre pendant la phase de test. La partie destinée à l'apprentissage est constituée d'environ 70 locuteurs par langue, et celle destinée aux tests, 20 locuteurs. Les deux parties sont indépendantes, on ne retrouve pas de locuteur commun entre les deux sous corpus.

Les expériences consistent à faire varier à la fois la longueur maximum autorisée des séquences du modèle multigramme (de 3 à 5) et la composition des classes phonétiques. La variation des classes phonétiques consiste à réduire le nombre de classes des consonnes en regroupant les classes voisées/non voisées, en ne conservant qu'une classe pour les occlusives, en regroupant les sonantes (tableau 1) et en ne considérant qu'un seul des deux axes formantiques pour les voyelles (tableau 2).

Tableau 1 : Description des différents jeux de réduction du nombre de classes pour les consonnes. La dernière colonne indique le nombre de classes consonantiques obtenues après réduction.

Tableau 2 : Description des différents jeux de réduction du nombre de classes pour les voyelles. La dernière colonne indique le nombre de classes vocaliques obtenues après réduction.

Pour chaque langue, un modèle phonotactique multigramme est appris comme indiqué ci-dessus. Le problème d'identification consiste alors à trouver la langue qui maximise la probabilité d'observation de la séquence O :

ce qui revient à déterminer :

4. Résultats

Les résultats d’identification correcte en utilisant un modèle 3-multigramme (tableau 3) varient de 33% à 100% pour une tâche de reconnaissance sur 6 langues.
Tableau 3 : Taux d'identification correcte (%) avec un modèle 3-multigramme pour 6 langues

Globalement le fait d'autoriser une longueur maximum de 4 observations pour une séquence au lieu de 3 améliore légèrement les résultats (tableau 4).

Tableau 4 : Taux d'identification correcte (%) avec un modèle 4-multigramme pour 6 langues

Par contre, en utilisant des 5-multigrammes, même si l'on conserve des résultats proches des 4-multigrammes, les performances se dégradent (tableau 5). La cause essentielle est certainement liée à la taille insuffisante du corpus d'apprentissage pour apprendre de tels modèles : les dictionnaires pour les 5-multigrammes sont alors en moyenne constitués de 1600 séquences d'observations, au lieu de 1000 pour les 3-multigrammes et 2000 pour les 4-multigrammes.

Tableau 5 : Taux d'identification correcte (%) avec un modèle 5-multigramme pour 6 langues

Afin d’interpréter plus justement ces résultats, il convient de préciser la répartition des grandes classes phonétiques parmi les langues (tableau 6) : elle est relativement homogène, les voyelles (avec environ 23000 occurrences sur le corpus d'apprentissage) représentent la plus grande partie des occurrences, deux fois plus que les occlusives et les fricatives (resp. 9200 et 9700). Notons cependant l’absence de liquides pour le japonais ; ce biais disparaît dès que les sonantes sont regroupées.

Si l'on compare les résultats obtenus pour les classes où l'on ne prend pas en compte le voisement (ensembles #C2, #C3, #C4, #C5) à ceux pour lesquels on distingue au sein d’une même classe de sons, les segments voisés et non voisés (resp. ensembles #C6, #C7, #C8, #C9), on constate une dégradation d'environ 10% des taux. En effet, certaines langues (hindi, mandarin et espagnol) privilégient des occlusives non voisées dans les séquences les plus probables, alors que d'autres (anglais, allemand) privilégient les occlusives voisées. A noter que le japonais met en avant des séquences d'occlusives avec un voisement mixte : un silence avant explosion non voisé avec une explosion et un relâchement voisé et vice versa.

Si l'on s'intéresse plus particulièrement à la réduction des consonnes liquides, nasales et semi-consonnes en une seule classe, les consonnes sonantes (ensembles #C2, #C3, #C6, #C7 par rapport à #C4, #C5, #C8, #C9), on ne note pas une dégradation des résultats de manière extrêmement sensible : nous ne perdons pas énormément d'information en regroupant ces trois classes phonétiques.

Si nous examinons les dictionnaires n-multigrammes (n=3,4,5) de chaque langue, le score relativement bas obtenu en utilisant une seule classe pour les consonnes et une seule classe pour les voyelles s'expliquent par le fait que les cohortes les plus fréquentes, à savoir CCC, CVC et VCC sont communes à toutes les langues. La cohorte CCC correspond généralement à l'enchaînement d'une fricative ou d'une sonante (C) et d'une occlusive (caractérisée par CC du fait de la distinction entre le silence avant explosion et l'explosion-friction).

Si nous examinons maintenant les séquences les plus fréquentes dans le cas où nous avons le maximum de classes (9 voyelles et 9 consonnes), les séquences les plus fréquentes sont constituées uniquement d'occlusives (anglais, hindi), ou d'occlusives suivi d'une voyelle (allemand, japonais, espagnol), ou d'occlusives suivi d'une fricative (mandarin). Les occlusives se retrouvent la plupart du temps dans les séquences les plus fréquentes.

Tableau 6 : Occurrences des grandes classes phonétiques par langue dans le corpus d'apprentissage

5. Conclusion

La modélisation multigramme se montre au travers de cette série d’expériences fort appropriée pour rendre compte des règles phonotactiques élémentaires : un modèle 4-multigramme défini sur un ensemble global de 12 symboles comprenant 3 classes consonnes et 9 classes voyelles se montre très performant, tout en utilisant une discrimination (occlusives, fricatives, sonantes et voyelles) qui pourra être effectuée assez aisément de manière automatique. Etant donné que ces résultats sont obtenus à partir d'une classification grossière, il s’agit maintenant de prolonger le modèle phonétique différencié consonne/voyelle, à ces classes de sons afin d’une part de définir automatiquement les symboles phonétiques en entrée du modèle phonotactique et d’autre part de fusionner les scores issus des deux niveaux. Nous envisagerons ensuite la possibilité de fusionner des scores obtenus en utilisant une modélisation prosodique, pour compléter l'utilisation de l'éventail de sources d'information disponibles pour discriminer les langues.

Références

[Haz97] T. J. Hazen, & V. W. Zue, (1997), "Segment-based automatic language identification", Journal of the Acoustical Society of America, Vol. 101, No. 4, pp. 2323-2331.

[Mat99] Matrouf D. et al (1999), "Comparing different model configuration for language identification using a phonotactic approach", Eurospeech'99, Budapest, Hongrie, pp 387-390. [pdf]

[Pel00] Pellegrino F. et al. (2000), "Identification automatique des langues par une modélisation diférenciée des systèmes vocaliques et consonantiques", Reconnaissances des Formes et Intelligence Artificielle, Paris.

[Del96] Deligne S. (1996), Modèles de séquence de longueur variables : application au traitemant du langage écrit et de la parole, Thèse de 3ème cycle, Ecole Nationale Supérieure des Télécommunications, Paris.

[Lan97] Lander T. (1997), The CSLU Labeling Guide, rapport interne, Center for Spoken Language Understanding, Oregon Graduate Institute. [ps.gz]

[Hie93] Hieronymous J. L. (1993), Ascii phonetic symbols for the world's languages: WorldBet. rapport interne, Bell Labs. [ps.gz]