L'énergie
est
un
paramètre
couramment
utilisé
dans
les
systèmes
de
reconnaissance
(par
exemple
le
premier
coefficient
des
paramètres
cepstraux).
C'est
le
paramètre
prosodique
le
plus
facile
à
calculer.
L'énergie
d'un
signal
échantillonné
à
support
fini
est
définie
par :
Étant donné sa dynamique et pour respecter l'échelle perceptive, elle est généralement exprimée en décibels :
Pour un signal échantillonné quelconque, on calcule l'énergie à court terme en prenant des portions de signal convoluées avec une fenêtre glissante (généralement assez étroite, de l'ordre de 5 à 10 ms).
Pour éliminer la variabilité du gain (dû à des conditions d'enregistrements différentes, par exemple à la distance entre le locuteur et le microphone), l'énergie peut être normalisée par rapport au maximum sur la phrase.
Pour tenir compte de résultats d'études psychoacoustiques selon lesquelles la perception d'intensité dépend de la longueur du son, un paramètre agrégé peut être formé en sommant l'énergie sur l'ensemble de la syllabe.