Muthusamy [Muthusamy 93] a développé un système basé sur une classification en larges catégories phonétiques du signal de parole. Ce système a été initialement testé sur un corpus de quatre langues (anglais, japonais, mandarin et tamoul) contitué d'enregistrement de parole de haute qualité (OGI-HQ). Muthusamy a ensuite amélioré ce système, en évaluant différentes combinaisons de paramètres en utilisant le corpus téléphonique OGI-MLTS avec 10 langues.
Le premier système se décompose de deux phases :
La segmentation est basée sur un réseau de neurones entièrement connecté à trois couches qui délivre des scores sur 7 grandes catégories de phonèmes. Une recherche par algorithme de Viterbi qui prend en compte les probabilités sur la durée et les modèles bigrammes est alors utilisée pour trouver les meilleures séquences de labels.
La classification utilise un autre réseau de neurones à trois couches. 80 paramètres prosodiques et phonétiques dérivés de la segmentation en larges catégories sont utilisés en entrée du réseau. Parmi les paramètres prosodiques, notons l'utilisation de la moyenne de la variance de la fréquence fondamentale, prise à l'intérieur de chaque catégorie voisée et sur toutes les catégories voisées, la moyenne et la variance de la durée de chaque catégorie, la moyenne et la variance de la différence de durée entre des segments successifs.
Les résultats en identification des langues sont de 79% avec un corpus de test composé de 6 locuteurs par langue.
La deuxième série d'expérimentations, effectuées sur le corpus téléphonique avec dix langues, utilise le même principe de segmentation/classification mais avec différents jeux de paramètres. Les meilleurs résultats obtenus avec les paramètres exploitant la fréquence fondamentale (variance inter et intra segmentale) ne dépassent pas 19%. Les paramètres prosodiques utilisés (fréquence fondamentale, rythme de parole) se sont révélés moins performants que les paramètres mettant en jeu des règles phonotactiques ou la durée segmentale.