Académique Documents
Professionnel Documents
Culture Documents
Introduction
Introduction
Les techniques utilisées dans le codage de la parole sont semblables à celles dans la
compression de données audio et le codage audio, où la connaissance en psychoacoustique est
employée pour transmettre seulement les données qui sont appropriées au système auditif
humain. Par exemple, dans le codage à bande étroite de la parole , seulement l'information
dans la bande de fréquence 400 hertz à 3500 hertz est transmise car le critère le plus important
est la conservation de l'intelligibilité et du «pleasantness» du discours, avec une quantité
contrainte d'émissions de données. Le codage n’a aucune influence sur la qualité de la
transmission proprement dite. Les arguments en faveur de tel ou tel code sont plutôt dictés par
les arguments suivants :
• Avantages technologiques pour la réalisation du codage
• Facilité de réalisation du décodeur
• Bonne teneur en information d’horloge (code riche en transitions), faible composante
continue (idéalement nulle), faible largeur de bande occupée, etc...
Dans le cas de la largeur de bande occupée, il faut également tenir compte du mode de
transmission (en plus du code).
1
Le but de la compression est de représenter un message porteur d’information (ex.: fichier
de données, signal de parole, image, signal vidéo, etc.) d’une manière aussi précise que
possible en utilisant le nombre minimum de symboles binaires (bits), afin de réduire le temps
de transmission ou la capacité de stockage. Il y a deux approches différentes de la
compression: compression sans perte de données (compression réduisant la redondance) ;
ex.: fichier données compression avec perte de données (compression réduisant l’entropie) ;
ex.: fichier son ou image. L’approche adoptée dépend du type de message à comprimer.
Une compression de données réduit toujours un peu la qualité du signal, sauf pour la
compression de textes alphanumériques.
B) Parole et audition
Un signal audio est un signal audible par l'oreille humaine. Il peut s'agir de musique, de
vibrations produites par une machine ou d'une voix humaine.
Un signal vocal est un signal produit par la voix humaine. Cela peut être de la parole mais
aussi une mélodie ou d'autres bruits. La parole est un signal encore plus spécifique.
SIGNAL AUDIO
SIGNAL VOCAL
PAROLE
2
Spectre d'énergie à long terme du signal vocal
L'aire d'audition
3
fréquence la plus élevée contenue dans le signal analogique (Théorème d'échantillonnage de
Nyquist-Shannon),
Pour la bande de fréquences de 300 à 3400 Hz utilisée en téléphonie, la fréquence
d'échantillonnage a été fixée à 8000 Hz à l'échelle mondiale, Ceci signifie qu'un signal de
fréquence vocale est exploré 8000 fois par seconde. L’intervalle entre deux échantillons
successifs se calcule comme suit :
La quantification est l'opération qui consiste à associer un mot de code numérique (quantum)
à une valeur du signal. L’amplitude de chaque échantillon est mesurée (quantifiée) par rapport
à une échelle de référence (8 bits généralement); C'est cette valeur binaire qui est transmise en
ligne pour permettre la restitution du signal d'origine.
4
faut des petits pas de quantification et inversement, ce qui revient théoriquement à comprimer
l'amplitude du signal x(t) avant de le coder linéairement.
Comme nous l’avons dit plus haut, la modulation par impulsions et codage (MIC,
Pulse Code Modulation PCM) consiste en la combinaison des trois opérations suivantes :
• Échantillonnage
• Quantification, non uniforme en téléphonie, à q niveaux.
• Codage des q nombres correspondant aux intervalles de quantification. Le codage se fait le
plus souvent sous forme binaire, ce qui signifie qu’à un échantillon vont correspondre
log2 (q) bit.
La figure suivante illustre cette suite d’opérations pour le cas où q = 8, avec une
caractéristique de quantification uniforme, et un codage binaire à 3 bit.
5
coder) et des combinaisons de valeurs discrètes jusqu’à l’obtention de la meilleure
approximation possible. Le mot binaire est déduit de la combinaison de valeurs discrètes
ayant conduit à l’approximation choisie.
Comme nous l'avons mentionné plus haut, un signal vocal peut être considéré comme
stationnaire pendant un intervalle d'environ 20 ms. On transmettra donc un nouveau jeu de
paramètres toutes les 20 ms. On parle dans ce cas de "codage paramétrique". On obtient des
taux de compression plus élevés si le codeur ne transmet que certains paramètres de la voix
considérés comme constants pendant un intervalle de temps.
Vocodeurs
Les premiers systèmes de codage paramétriques, appelés vocodeurs, étaient analogiques.
Ils étaient constitués d'un banc de filtres passe-bande, de détecteurs d'enveloppe, d'une
détection de ton (pitch detector) et d'une détection de type de son (son voisé ou non voisé,
voice detector).
Codage prédictif linéaire LPC (Linear Predictive Coding)
Le codage prédictif linéaire est une réalisation numérique du vocodeur. La compression de la
voix repose sur l’algorithme du LPC utilisant les filtres numériques. Le principe de cet
algorithme est de remplacer les données du son, analysé par tranches de 20 ms, par les
coefficients d’un filtre numérique ayant à peu près la même enveloppe spectrale. Un nombre
de coefficients élevés (huit dans le GSM) décrit le spectre beaucoup plus fidèlement qu’un
nombre de coefficients faibles. La méthode marche d’autant mieux que le son a une structure
répétitive dans le temps. On transmet donc seulement les coefficients du filtre a0, a1, a2….an
sous forme numérique.
Chaque coefficient n’est codé qu’en quelques bits (de 6 pour a0 à 3 bits seulement pour
a7), adaptés à leur variation pour différents sons de la parole. Plus le nombre de bits utilisés
est réduit, plus le son restitué paraît synthétique. Le calcul des coefficients nécessite un calcul
mathématique assez lourd, appelé auto-corrélation. En pratique, un processeur de signaux
DSP (Digital signal processing), intégré dans le téléphone portable, a la charge de tous les
calculs pour le codage.
Le circuit de compression produit donc 260 bits toutes les 20 ms, tous n’ayant pas la même
importance, un classement a été établi donnant par exemple au paramètre d’amplitude du son
la sensibilité la plus importante. Un processus de code correcteur d’erreur est implémenté, au
prix d’une augmentation du nombre de bit, de manière à permettre au récepteur de
reconstruire les bonnes informations numériques, même en présence de bruit. Les techniques
employées sont des codes convolutionnels et cycliques.
Le codage LPC de base produit des sons artificiels qui ne permettent pas de reconnaître la
personne qui les a produits. La qualité est insuffisante pour la téléphonie.
Le codage LPC a été amélioré par différentes variantes :
- CELP (Code Excited Linear Prediction)
- VSELP (Vector Sum Excited Linear Prediction)
- RELP (Residual Excited Linear Prediction)
- MLPC (Multipulse excited Linear Prediction Coding )
Dans tous les cas, on a cherché à améliorer la fonction d'excitation.
6
toutes sont basées sur les caractéristiques de l’ouïe, et c’est pourquoi on parle de codage
perceptif.
La norme G.722 définit un codage avec sous-bandes pour transmettre un canal de parole
de 7 kHz avec un débit de 64 kbit/s.
CONCLUSION
La numérisation du signal de parole, préalablement limité à la bande 300-3400hz en
téléphonie, est réalisée en échantillonnant ce signal à la fréquence de 8kHz puis en codant les
échantillons quantifiés sur m=8 bits. Ainsi après numérisation, le signal de parole est
transformé en une source numérique ayant un débit binaire de 64kbits/s ; ce codage de la
parole a pris (improprement) le nom de « codage MIC » (modulation par impulsions codées).
Avec un codage de source plus élaboré, ce débit de64kbits/s peut être réduit à 32kbits/s sans
dégradation de la qualité subjective de la parole ; des algorithmes permettant d’atteindre des
débits de 16 et 8kbit/s ont même été adoptés récemment par les organismes internationaux de
normalisation .Pour le radiotéléphone cellulaire numérique européen (GSM), ce débit a été
ramené à 13 kbits/s.
Le résultat de la modulation PCM est un signal purement numérique, indiscernable d’une
transmission de données entre ordinateurs. C’est là que réside l’intérêt fondamental de cette
forme de transmission: la transmission de la parole et la transmission de données sont
7
devenues identiques par la forme, et peuvent donc être véhiculées par un media commun. La
modulation PCM est à la base du réseau numérique à intégration de services à bande étroite
(RNIS-E, N-ISDN, Narrowband Integrated Services Digital Network)
ANNEXE