next up previous contents
Next: Principe général d'un système Up: Description d'un système d'IAL Previous: Problématique

Les sources d'informations

Un bon algorithme d'IAL devrait exploiter des informations de toutes les sources suivantes pour arriver à la décision d'identification [Muthusamy et al. 94] :

- le vocabulaire : chaque langue possède son propre lexique, même si l'on retrouve certains mots en commun entre les langues, les mots voisins seront sûrement différents.

- les phonèmes : chaque langue possède son propre système phonétique. Certains phonèmes sont spécifiques à une langue et même quand les langues possèdent le même jeu de phonèmes, on peut s'intéresser aux fréquences d'occurence des phonèmes.

- la phonotactique : les règles d'enchaînement des différents sons sont propres à chaque langage. Par exemple la combinaison /sr/ est courante en Tamoul, alors qu'elle n'est pas admise en anglais.

- la prosodie : les langues varient en fonction de la durée, du rythme et de l'intonation (cf. section 2.1). Certains langages appartiennent à des catégories prosodiques différentes (langue tonale, accentuée au niveau de la syllabe...) qui ont des propriétés bien distinctes mais il est difficile d'automatiser le traitement des règles d'ordre linguistique en identification des langues.

Les systèmes d'IAL actuels sont principalement basés sur une modélisation statistique du niveau acoustique et phonotactique : un tel système est présenté à la section suivante. La prise en compte d'informations prosodiques reste difficile et peu exploitée car leur connaissance est à ce jour plus qualitative que quantitative, et le problème de fusion de données (acoustiques, phonotactiques, prosodiques) deumeure non résolu.



Jérôme Farinas
Mon Nov 16 16:11:40 MET 1998