Le thème de l'Identification Automatique des Langues (IAL) est abordé dans l'équipe IHM-PT de l'IRIT, depuis deux ans sous son aspect fondamental, dans le cadre du projet Discrimination Automatique Multilingue financé par la DGA, réunissant trois Instituts de Phonétique (ICP Grenoble, ILPGA Paris, DDL Lyon) et l'IRIT. L'étude est orientée suivant deux axes :
- la recherche d'une typologie des langues selon des indices discriminants et détectables automatiquement,
- une meilleure connaissance des systèmes vocaliques (nombre de voyelles, représentation fréquentielle, fréquence d'apparition) et la recherche d'un modèle probabiliste de l'espace acoustique vocalique pour chaque langue.
Dans le cadre de cette étude, nous avons montré qu'avec une simple détection automatique des noyaux vocaliques présents dans le signal et une modélisation stochastique de type Mélanges de Lois Multigaussiennes, des performances en IAL intéressantes pouvaient être atteintes [Pellegrino et Obrecht 97a] sur le corpus de la parole téléphonique OGI-MLTS.
Notre groupe de travail se propose actuellement de fournir un système complet d'identification automatique de la langue, regroupant des aspects acoustiques, phonotactiques et prosodiques, après avoir cerné les paramètres discriminants. Ce système se décomposera en trois modules :
- un module de décodage acoustico-phonétique généralisé. Il s'agit d'élargir l'approche vocalique décrite ci-dessus à l'ensemble des sons de chaque langue en proposant un modèle probabiliste global [Pellegrino et al. 97] ou plusieurs modèles différenciés,
- un modèle de langage pour gèrer les séquences de sons. Il sera basé sur des modèles probabilistes multigrammes [Deligne 96] qui se substitueront aux traditionnels modèles bigrammes ou trigrammes,
- un modèle prosodique. Ce module devra exploiter les critères discriminants du point de vue prosodique. Cet aspect étant principalement dynamique et suprasegmental, il est nécessaire de définir des unités intrinsèquement prosodique, puis de développer une modélisation statistique adaptée. Ce module n'avait pas fait l'objet d'une étude au sein de l'équipe, le travail de DEA s'insère comme un premier pas dans cette recherche.