Académique Documents
Professionnel Documents
Culture Documents
Joseph Fourier, mathématicien français du 19ème siècle (1768-1830), a construit les bases ma-
thématiques nécessaires à l’analyse fréquentielle des sons.
Fourier a démontré que toute fonction périodique peut être décomposée en une somme de fonc-
tions sinusoïdales dont les fréquences sont multiples les unes des autres. Cette somme de fonc-
tions constitue une série de Fourier.
Théorème de Fourier
Une fonction périodique x(t) avec période T peut être représentée par une somme infinie de signaux
périodiques sinusoïdaux. Chaque signal simple aura deux coefficients, pour l’amplitude et la phase
respectivement. Le rapport de fréquence entre ces signaux est entier (spectre harmonique).
La transformée de Fourier détermine les valeurs des coefficients, c'est-à-dire l'amplitude et la phase
de chaque partiel. La TF prend (en entrée) des valeurs d'amplitude sur le domaine temporel et nous
fournit (en sortie) des valeurs d'amplitude et de phase dans le domaine fréquentiel. La transformée
inverse réalise l’opération dans le sens opposé : du domaine fréquentiel au domaine temporel.
https://jackschaedler.github.io/circles-sines-signals/dft_introduction.html
FFT (Fast Fourier Transform) / Transformée de Fourier rapide
Méthode très efficace (moins gourmande en ressources) pour réaliser la DFT.
Marche uniquement pour les signaux périodiques.
Fenêtrage
La fenêtre utilise une enveloppe d’amplitude. Les fenêtres sont en forme de cloche (dans la plupart
des cas) et se superposent (overlap). Le spectre est analysé sur chaque fenêtre, puis le résultat donne
un spectre variable dans le temps. La fenêtre rajoute une distorsion puisque le signal analysé devient
le signal original multiplié par la fenêtre d’analyse. Le spectre résultant est la convolution entre le
spectre original et la fenêtre.
Le nombre d’échantillons temporels à l’entrée deviennent des échantillons de fréquence (ou bins) à
la sortie. Donc, une fenêtre de 1024 samples donnera lieu à 1024 bins.
Si on est à sr = 44.1KHz, 44100/1024 = 43Hz, c'est-à-dire que chaque bin aura une largeur de
bande de 43Hz. Le 1er bin comprend les fréquences de 0 à 43Hz, le deuxième de 43Hz à 86Hz, et
ainsi de suite. Étant donné le rapport logarithmique entre fréquence et hauteur (perception de la
hauteur), la résolution sera moins bonne pour les graves. En effet, une différence de 100hz dans le
grave (par exemple entre 300hz et 400hz) sera beaucoup plus remarquable pour notre oreille que
la même différence dans l'aigu (par exemple entre 2000hz et 2100hz). Ceci ne représente pas un
gros problème pour l'analyse des spectres harmoniques.
Comme cela a été dit précédemment, nous aurons pour chaque fenêtre d’analyse une valeur
d’amplitude et une valeur de phase et ce pour chaque bin. Chaque bloc de données (l'ensemble
de valeurs d'amplitude et de phase pour une même fenêtre) s’appelle une frame.
Pour chaque fenêtre on obtient donc 2 représentations spectrales : amplitudes et phases.
Et pour chaque bin, 1 seule valeur de fréquence et une seule valeur de phase.
Relation/compromis entre taille de fenêtre et résolution temporelle.
Une petite fenêtre d’analyse (par exemple 512 échantillons) nous apporte plus de résolution tempo-
relle, puisqu'il y aura plus d'analyses réalisés dans une même période de temps. En revanche, la
résolution fréquentielle sera moins bonne. Principe d’incertitude...
Attention : Une augmentation de la fréquence d’échantillonnage ne nous apporte pas une meilleure
résolution fréquentielle !
• Taille de fenêtre : idéalement elle sera suffisamment grande pour contenir 4 cycles de la
fréquence la plus grave que nous voulons analyser.
• Type de fenêtre : la fenêtre module le signal original et ceci introduit des bandes latérales
(sidebands) dans le spectre analysé. Une fenêtre souple en forme de cloche réduit ce pro-
blème. C’est le cas pour Hamming, Hanning (ou Hann), Gaussian, Blackman-Harris et Kai-
ser. Dirichelet est rectangulaire (beaucoup de clutter).
Le choix de la forme de fenêtre d’analyse à une influence directe sur le résultat et doit être
choisi en fonction du type de son analysé.
• Hop size ou overlap factor : pour améliorer la résolution temporelle de l'analyse sans devoir
perdre en résolution fréquentielle, les fenêtres sont superposées sur l'axe du temps. Le hop
size est le nombre d'échantillons entre les débuts de chaque fenêtre. Si la taille de fenêtre
est de 1024, le hs peut être de 256 par exemple. Ceci veut dire que le of est de 4 (c'est-à-
dire qu'il y aura 4 débuts de fenêtre dans l'intervalle de temps d'une seule fenêtre). Bien
entendu, ces paramètres ont un effet direct sur les ressources nécessaires pour l'analyse
(CPU).
• Pitch syncrhonous analysis. Estimation de pitch (f fondamentale) pour adapter la taille de la fenêtre
à la période de la fréquence fondamentale du son analysé. Ça marche bien si le son et harmonique
et simple.
Il existe une relation entre, le nombre de bandes d'analyse, l'espacement des bandes de fré-
quences, la fréquence d'échantillonnage et le nombre d'échantillons dans chaque fenêtre (taille de
la trame).
Nombre de bandes =
Longueur de la fenêtre en échantillons / 2
Représentation du Signal
(voir sur Audiosculpt ET Sonic Visualiser)
Spectre ins-
tantané (ou
à court
terme)
Amplitude (X) /
Fréquence (Y)
Attention, on peut voir des représentations inversées selon le logiciel et/ou la vue demandée.
Sonogramme
Temps (X) / Fréquence (Y) / Amplitude
L'amplitude est représentée par l'intensité du niveau de gris
Types de fenêtres
Quelques fonctions de fenêtrage usuelles, et la conséquence sur le spectre d'une sinusoïde. (Lar-
geur de fenêtre T0 = 2 ms ; fréquence de la sinusoïde f = 9 kHz)