next up previous contents
Next: Annexe D : INTSINT Up: La prosodie pour l'Identification Previous: Annexe B : Calcul

Annexe C : Une base de donnée pour tester les extracteurs de F0

Fundamental Frequency Determination Algorithm (FDA) Evaluation Database est une base de donnée constituée par Paul Bagshaw [Bagshaw 94] pour évaluer les méthodes d'extraction de la fréquence fondamentale à partir du contour laryngographique.

Les données laryngographiques, enregistrées en même temps que le signal de parole, constituent une référence précise sur les vibration des cordes vocales. En effet, la vibration glottique peut être directement recueillie au niveau des cartilages thyroidiensmm à l'aide de capteurs electro mécaniques sensibles aux vibrations de la membrane entourant le larynx. L'évaluation de la fréquence fondamentale est plus simple qu'à partir du signal de parole du fait de l'absence de bruit et de fréquences harmoniques.

Bagshaw a ainsi pu tester quelques méthodes d'évaluation de la fréquence fondamentale. Il différencie quatre types d'erreurs :

- les erreurs de non-voisement (``unvoiced in error'') qui désignent les régions non voisées incorrectement classé comme voisé

- les erreurs de voisement (``voiced in error'') qui concernent les régions voisées qui auraient dû être classées non-voisées

- les erreurs grossières hautes (``high gross errors'')

- les erreurs grossières basses (``low gross errors'')

Ces deux dernières erreurs concernes les évaluations de F0 qui dépassent en plus ou en moins de 20% de la valeur de référence.

La base est constitué du signal à 20 kHz en 16 bits, des données laryngographiques échantillonées à 20 kHz en 12 bits et du contour de la fréquence du larynx dérivé de ce dernier.

Voici les résultats calculés par Bagshaw pour les méthodes CPD (Cepstral based F0 Determinator), FBPT (Feature based F0 tracker), HPS (Harmonic product spectrum based method), IPTA (Integrated pitch tracking algorithm), PP (Parallel Processing method), SRPD (Super Resolution) et eSRPD (enhanced SRPD) qui est une méthode développée par Bagshaw. Les résulats sur les locuteurs masculins pour la méthode de combinaison de MESSIGNAIX ont été rajoutés. La partie du haut du tableau représente l'évaluation pour un locuteur masculin et celle du bas un locuteur féminin.

Unvoiced Voiced Gross errors Gross errors déviations déviations
Algorithme in error in error Low High absolues absolues
(%) (%) (%) (%) moy. (Hz) ecart-type
CPD 18,11 19,89 4,09 0,64 2,94 3,60
FBPT 3,73 13,90 1,27 0,64 1,86 2,89
HPS 14,11 7,07 5,34 28,15 3,25 3,21
IPTA 9,78 17,45 1,40 0,83 2,67 3,37
PP 7,69 15,82 0,22 1,74 2,64 3,01
SRPD 4,05 15,78 0,62 2,01 1,78 2,46
eSRPD 4,63 12,07 0,90 0,56 1,40 1,74
combinaison 18,99 3,16 1,05 1,13 2,36 3,16
CPD 31,53 22,22 0,61 3,97 6,39 7,61
FBPT 3,61 12,16 0,60 3,55 5,40 7,03
HPS 19,10 21,06 0,46 1,61 4,59 5,31
IPTA 5,70 15,93 0,53 3,12 4,38 5,35
PP 6,15 13,01 0,26 3,20 6,11 6,45
SRPD 2,35 12,16 0,39 5,56 4,14 5,51
eSRPD 2,73 0,13 0,43 0,23 4,17 5,13

La base est disponible sur le réseau à l'adresse :

http://www.cstr.ed.ac.uk/~pcb/home.html


next up previous contents
Next: Annexe D : INTSINT Up: La prosodie pour l'Identification Previous: Annexe B : Calcul

Jérôme Farinas
Mon Nov 16 16:11:40 MET 1998