Vous êtes sur la page 1sur 8

Introduction

La téléphonie consistait à l’origine en la transmission de la voix, De nos jours avec la


venue du GSM (Global System for Mobile) la téléphonie s’est vite développée et transmet en
plus de la parole des objets multimédia (musique, image, vidéo…). Au départ la transmission
de la parole en téléphonie se faisait dans une bande passante de 3100hz (300-3400) et le
signal était modulé en AM ou en FM. Actuellement avec la transmission du multimédia, on
est obligé de compresser les données et de les coder- afin de ne pas perdre l’information-
pour pouvoir les adapter à la bande passante du canal, vu leur taille ; De même la modulation
utilisée a changé puisque les données sont plus complexes.
Notons cependant qu’en téléphonie RTC les notions de modulation, codage et compression ne
font qu’un c’est-à-dire qu ils sont vont de paire.

A) Modulation  ? Codage  ? Compression  ?

La modulation d'amplitude (A M) et la fréquence modulée (F M)  étaient les premiers


types de modulation utilisés pour la téléphonie.
La modulation en elle-même consiste en une adaptation du signal utile (informatif, modulant)
aux caractéristiques du canal de transmission ; autrement dit il s’agit d’une transposition du
spectre du signal modulant dans la bande passante du canal.
 La modulation AM consiste en une modification de l’amplitude d’une sinusoïde haute
fréquence appelée porteuse
 La modulation FM affecte la fréquence de la porteuse
Bien que l’AM et la FM furent les premières modulations utilisées en téléphonie, elles ne sont
plus utilisées de nos jours.
En effet nous distinguons deux catégories de modulation impliquant les trains d'impulsions :
la modulation numérique d'un signal analogique et la modulation analogique d'un signal
numérique.
La première catégorie consiste à varier l'amplitude, la durée ou la position d'un train
d'impulsions en fonction de l'amplitude de l’information analogique, ou encore à générer des
trains d'impulsions codées. La deuxième catégorie, utilisée dans les modems ou dans la
transmission à large bande, consiste à modifier l'amplitude, la phase ou la fréquence d'une
onde porteuse sinusoïdale en fonction du signal binaire transmis.
En téléphonie RTC les modulations de la première catégorie sont plus utilisées.

Les techniques utilisées dans le codage de la parole sont semblables à celles dans la
compression de données audio et le codage audio, où la connaissance en psychoacoustique est
employée pour transmettre seulement les données qui sont appropriées au système auditif
humain. Par exemple, dans le codage à bande étroite de la parole , seulement l'information
dans la bande de fréquence 400 hertz à 3500 hertz est transmise car le critère le plus important
est la conservation de l'intelligibilité et du «pleasantness» du discours, avec une quantité
contrainte d'émissions de données. Le codage n’a aucune influence sur la qualité de la
transmission proprement dite. Les arguments en faveur de tel ou tel code sont plutôt dictés par
les arguments suivants :
• Avantages technologiques pour la réalisation du codage
• Facilité de réalisation du décodeur
• Bonne teneur en information d’horloge (code riche en transitions), faible composante
continue (idéalement nulle), faible largeur de bande occupée, etc...
Dans le cas de la largeur de bande occupée, il faut également tenir compte du mode de
transmission (en plus du code).

1
Le but de la compression est de représenter un message porteur d’information (ex.: fichier
de données, signal de parole, image, signal vidéo, etc.) d’une manière aussi précise que
possible en utilisant le nombre minimum de symboles binaires (bits), afin de réduire le temps
de transmission ou la capacité de stockage. Il y a deux approches différentes de la
compression: compression sans perte de données (compression réduisant la redondance) ;
ex.: fichier données compression avec perte de données (compression réduisant l’entropie) ;
ex.: fichier son ou image. L’approche adoptée dépend du type de message à comprimer.
Une compression de données réduit toujours un peu la qualité du signal, sauf pour la
compression de textes alphanumériques.

En téléphonie on utilise une technique de modulation de codage et de compression qui est la


modulation d'impulsion codée ou MIC, (en anglais Pulse Code Modulation, généralement
abrégé en PCM). La MIC est une représentation numérique non compressée d'un signal
analogique via une technique d’échantillonnage. Il est utilisé pour la voix en
télécommunications (RTC ou VoIP) et pour le son notamment pour les disques compacts
audio, pour l'enregistrement sur bandes DAT, les disques optiques à haute capacité (Blu-ray et
HD DVD), que pour les fichiers WAV ainsi standard.
Comme en téléphonie la principale donnée transmise est le son (voix humaine), une étude
préliminaire sur la voix serait nécessaire avant de développer son traitement.

B) Parole et audition
Un signal audio est un signal audible par l'oreille humaine. Il peut s'agir de musique, de
vibrations produites par une machine ou d'une voix humaine.
Un signal vocal est un signal produit par la voix humaine. Cela peut être de la parole mais
aussi une mélodie ou d'autres bruits. La parole est un signal encore plus spécifique.

SIGNAL AUDIO

SIGNAL VOCAL
PAROLE

Catégories de signaux audio

La voix produit un signal très complexe:


a) un signal aléatoire non stationnaire: les paramètres de la voix comme l'intensité ou le
timbre varient au cours du temps, par exemple à cause des variations d'humeur du locuteur.
b) un signal dépendant de la personne: le timbre de la voix est quasiment unique pour chaque
individu.
c) les propriétés du signal vocal dépendent de l'âge et du sexe de la personne
d) un signal comportant différents types de sons : sons voisés (voyelles), sons non voisés
(consonnes).
La principale caractéristique du signal vocal est un domaine spectral compris entre 20 Hz et
20 kHz. Le signal de parole reste intelligible si la largeur du spectre est réduite à 3 kHz
environ. En téléphonie, la bande passante normalisée va de 300 à 3400 Hz.

2
Spectre d'énergie à long terme du signal vocal

Les principales propriétés de l'audition (ou ouïe) sont:


- Sensibilité spectrale : environ de 20 Hz à 16 kHz, diminue avec l'âge. La sensibilité est
maximum dans le domaine de 200 Hz à 5 kHz.
- Effet de masquage : la sensibilité diminue si un son en masque un autre
- L'oreille en écoute monophonique n'est pas sensible aux déphasages entre les harmoniques.
- Un rapport signal bruit de 40 dB est suffisant pour des communications téléphoniques.

L'aire d'audition

C) Modulation par Impulsions Codées


La modulation d'impulsion codée ou MIC, (en anglais Pulse Code Modulation,
généralement abrégé en PCM) est une modulation numérique d’un signal analogique. Elle
comprend aussi bien la modulation que le codage. Pour réaliser un système de modulation
MIC, trois opérations de base sont indispensables :
-          échantillonnage
-          quantification
-          codage

Le théorème de l'échantillonnage indique la fréquence minimale à laquelle un signal


analogique doit être exploré pour qu'il puisse être rendu dans sa forme initiale à partir des
échantillons sans aucune perte d'information.  Nous avons vu que la fréquence
d'échantillonnage (fe) doit être au moins le double de la bande passante du signal ou de la

3
fréquence la plus élevée contenue dans le signal analogique (Théorème d'échantillonnage de
Nyquist-Shannon),
Pour la bande de fréquences de 300 à 3400 Hz utilisée en téléphonie, la fréquence
d'échantillonnage a été fixée à 8000 Hz à l'échelle mondiale, Ceci signifie qu'un signal de
fréquence vocale est exploré 8000 fois par seconde. L’intervalle entre deux échantillons
successifs se calcule comme suit :

La quantification est l'opération qui consiste à associer un mot de code numérique (quantum)
à une valeur du signal. L’amplitude de chaque échantillon est mesurée (quantifiée) par rapport
à une échelle de référence (8 bits généralement); C'est cette valeur binaire qui est transmise en
ligne pour permettre la restitution du signal d'origine.

Exemple de quantification linéaire et codage avec 16 bits

Pour chaque échantillon, on détermine l'intervalle de quantification auquel il correspond. A


chaque fois, un décalage peut se produire entre la valeur de l'échantillon et le niveau de
quantification correspondant.
Enfin, l'intervalle de quantification correspondant à un échantillon du signal est converti en un
code binaire qui peut être transmis sous forme d'impulsions codées.
L'erreur d'approximation commise dans la mesure se traduit par une légère dégradation de la
qualité du signal transmis (bruit de quantification). Afin de prendre en compte la
caractéristique de l'oreille, plus sensible aux sons faibles qu'aux fortes puissances, une échelle
de quantification de type logarithmique est utilisée en téléphonie.
Pour la modulation PCM en téléphonie, utilisant une quantification non linéaire, on a cherché
à obtenir un rapport signal sur bruit de quantification supérieur à 35 dB en faisant varier le
pas de quantification en fonction de la valeur instantanée x(t). Pour les faibles valeurs de x il

4
faut des petits pas de quantification et inversement, ce qui revient théoriquement à comprimer
l'amplitude du signal x(t) avant de le coder linéairement.
Comme nous l’avons dit plus haut, la modulation par impulsions et codage (MIC,
Pulse Code Modulation PCM) consiste en la combinaison des trois opérations suivantes :
• Échantillonnage
• Quantification, non uniforme en téléphonie, à q niveaux.
• Codage des q nombres correspondant aux intervalles de quantification. Le codage se fait le
plus souvent sous forme binaire, ce qui signifie qu’à un échantillon vont correspondre
log2 (q) bit.
La figure suivante illustre cette suite d’opérations pour le cas où q = 8, avec une
caractéristique de quantification uniforme, et un codage binaire à 3 bit.

Le codage (coding) fait correspondre à un niveau de quantification donné, déterminé par


l’approximation de la valeur exacte de l’échantillon par la loi de quantification, une
expression numérique, généralement binaire, appelée mot PCM. La table de correspondance
entre les q intervalles numérotés et leurs expressions binaires définit le code. Le format des
mots PCM est de 8 bits pour q = 256 niveaux, soit log2 (q).
Le code utilisé doit répondre à un certain nombre de critères que nous avons déjà énumérés
plus haut. En téléphonie, on a opté pour un code possédant les caractéristiques suivantes:
• Code binaire replié. Les signaux à transmettre sont symétriques, si bien que l’on peut se
contenter de ne coder que la valeur absolue de l’échantillon, et de transmettre le signe dans un
bit séparé (conversion à 7 bit + signe).
• Inversion des bits de rang pair. La réception PCM demande un maximum d’information
d’horloge pour se faire correctement. Le codage binaire replié a le défaut d’être très pauvre en
transitions en l’absence de signal, donc de ne véhiculer que très peu d’informations d’horloge.
C’est pourquoi on inverse systématiquement les bits de rang pair dans le mot PCM transmis.
L’argument de facilité de décodage n’a actuellement plus d’influence prépondérante.
Généralement, la quantification et le codage sont effectués dans un même dispositif appelé
codeur, qui effectue la comparaison entre une valeur analogique (celle de l’échantillon à

5
coder) et des combinaisons de valeurs discrètes jusqu’à l’obtention de la meilleure
approximation possible. Le mot binaire est déduit de la combinaison de valeurs discrètes
ayant conduit à l’approximation choisie.

Comme nous l'avons mentionné plus haut, un signal vocal peut être considéré comme
stationnaire pendant un intervalle d'environ 20 ms. On transmettra donc un nouveau jeu de
paramètres toutes les 20 ms. On parle dans ce cas de "codage paramétrique". On obtient des
taux de compression plus élevés si le codeur ne transmet que certains paramètres de la voix
considérés comme constants pendant un intervalle de temps.

Vocodeurs
Les premiers systèmes de codage paramétriques, appelés vocodeurs, étaient analogiques.
Ils étaient constitués d'un banc de filtres passe-bande, de détecteurs d'enveloppe, d'une
détection de ton (pitch detector) et d'une détection de type de son (son voisé ou non voisé,
voice detector).
Codage prédictif linéaire LPC (Linear Predictive Coding)
Le codage prédictif linéaire est une réalisation numérique du vocodeur. La compression de la
voix repose sur l’algorithme du LPC utilisant les filtres numériques. Le principe de cet
algorithme est de remplacer les données du son, analysé par tranches de 20 ms, par les
coefficients d’un filtre numérique ayant à peu près la même enveloppe spectrale. Un nombre
de coefficients élevés (huit dans le GSM) décrit le spectre beaucoup plus fidèlement qu’un
nombre de coefficients faibles. La méthode marche d’autant mieux que le son a une structure
répétitive dans le temps. On transmet donc seulement les coefficients du filtre a0, a1, a2….an
sous forme numérique.
Chaque coefficient n’est codé qu’en quelques bits (de 6 pour a0 à 3 bits seulement pour
a7), adaptés à leur variation pour différents sons de la parole. Plus le nombre de bits utilisés
est réduit, plus le son restitué paraît synthétique. Le calcul des coefficients nécessite un calcul
mathématique assez lourd, appelé auto-corrélation. En pratique, un processeur de signaux
DSP (Digital signal processing), intégré dans le téléphone portable, a la charge de tous les
calculs pour le codage.
Le circuit de compression produit donc 260 bits toutes les 20 ms, tous n’ayant pas la même
importance, un classement a été établi donnant par exemple au paramètre d’amplitude du son
la sensibilité la plus importante. Un processus de code correcteur d’erreur est implémenté, au
prix d’une augmentation du nombre de bit, de manière à permettre au récepteur de
reconstruire les bonnes informations numériques, même en présence de bruit. Les techniques
employées sont des codes convolutionnels et cycliques.
Le codage LPC de base produit des sons artificiels qui ne permettent pas de reconnaître la
personne qui les a produits. La qualité est insuffisante pour la téléphonie.
Le codage LPC a été amélioré par différentes variantes :
- CELP (Code Excited Linear Prediction)
- VSELP (Vector Sum Excited Linear Prediction)
- RELP (Residual Excited Linear Prediction)
- MLPC (Multipulse excited Linear Prediction Coding )
Dans tous les cas, on a cherché à améliorer la fonction d'excitation.

Codage par sous-bandes


Comme l'oreille n'a pas la même sensibilité dans tout le spectre, il n'est pas nécessaire
d'avoir la même résolution pour toutes les fréquences. Il est donc possible d'améliorer
l'efficacité du codage en découpant de spectre en plusieurs sous-bandes. La compression
par codage en sous-bandes est appliquée aux messages audio. Il y a plusieurs méthodes et

6
toutes sont basées sur les caractéristiques de l’ouïe, et c’est pourquoi on parle de codage
perceptif.
La norme G.722 définit un codage avec sous-bandes pour transmettre un canal de parole
de 7 kHz avec un débit de 64 kbit/s.

Autres algorithmes de codage

HVXC (Harmonic Verctor eXcitation Coding): Algorithme de codage paramétrique de la


parole utilisé par la norme MPEG-4. Débit: 1.4 – 4 kbit/s.
HILN (Harmonic and Individual Line plus Noise coding): Algorithme de codage
paramétrique de la musique utilisé par la norme MPEG-4. Débit: 4-16 kbit/s.
En annexe un résumé des normes pour le codage et la compression de la voix

Par convention, on a défini les valeurs suivantes pour la téléphonie :


• Fréquence d’échantillonnage :fe=8 kHz
• Quantification non uniforme à q = 256 niveaux
• Longueur du mot PCM : log2 q =8bits
• Débit de décision résultant pour une voie : D=fe log2 q=64 kbit/s
• Loi de codage européenne : compression numérique 13 segments, code binaire replié avec
inversion des bits de rang pair.
Loi de codage américaine : compression numérique à 15 segments, code binaire replié avec
inversion de tous les bits hormis le premier (bit de signe)

CONCLUSION
La numérisation du signal de parole, préalablement limité à la bande 300-3400hz en
téléphonie, est réalisée en échantillonnant ce signal à la fréquence de 8kHz puis en codant les
échantillons quantifiés sur m=8 bits. Ainsi après numérisation, le signal de parole est
transformé en une source numérique ayant un débit binaire de 64kbits/s ; ce codage de la
parole a pris (improprement) le nom de « codage MIC » (modulation par impulsions codées).
Avec un codage de source plus élaboré, ce débit de64kbits/s peut être réduit à 32kbits/s sans
dégradation de la qualité subjective de la parole ; des algorithmes permettant d’atteindre des
débits de 16 et 8kbit/s ont même été adoptés récemment par les organismes internationaux de
normalisation .Pour le radiotéléphone cellulaire numérique européen (GSM), ce débit a été
ramené à 13 kbits/s.
Le résultat de la modulation PCM est un signal purement numérique, indiscernable d’une
transmission de données entre ordinateurs. C’est là que réside l’intérêt fondamental de cette
forme de transmission: la transmission de la parole et la transmission de données sont

7
devenues identiques par la forme, et peuvent donc être véhiculées par un media commun. La
modulation PCM est à la base du réseau numérique à intégration de services à bande étroite
(RNIS-E, N-ISDN, Narrowband Integrated Services Digital Network)

ANNEXE

Résumé des normes pour le codage et la compression de la


voix

Vous aimerez peut-être aussi