Vous êtes sur la page 1sur 12

Chapitre I 

Séparation de sources

I.1 Introduction
Dans les télécommunications, la qualité vocale est souvent dégradée par la présence de bruits
ambiants, plus particulièrement, dans des cas de faible rapport signal à bruit. Le bruit peut être cause
de fatigue pour le locuteur distant, d’où la nécessité de mettre en place des algorithmes de traitement
de parole. Les traitements d’amélioration de la parole et de réduction de bruit ont pour but
d’améliorer la qualité ou encore l’intelligibilité du signal de parole utile en réduisant le niveau du
bruit ambiant.
La qualité de la communication est souvent fortement dégradée par le phénomène d’écho
acoustique.
Ce chapitre résume les principales caractéristiques de la parole, en particulier sa production et le
phénomène d’audition. Les caractéristiques temporelles et spectrales de certains types de bruits.liés
aux applications de téléphonie mobile seront citées; pour l’écho, on illustrera le phénomène et ses
différents types. Ce chapitre comporte aussi un rappel sur les systèmes de communications mobiles.

I.2.La parole
La parole, manifestation sonore du langage, est sans doute le principal moyen de communication
entre humains. L'avènement des télécommunications, puis du traitement numérique de l'information,
s'est donc naturellement accompagné d'un vaste effort de recherche visant à comprendre les
mécanismes de la communication parlée.

I.2.1. Modèle de production de la parole


Le signal de parole s(n) est le résultat de l’excitation u(n) du conduit vocal par un train
d’impulsion, ou un bruit avec un gain G, donnant lieu respectivement aux sons voisés et non voisés
(cf. la Figure I.2) [4]. Dans le cas des sons voisés, l’excitation est une vibration périodique des cordes
vocales suite à la pression exercée par l’air provenant de l’appareil respiratoire.

Figure I.2 : Modèle simplifié de production de la parole.


Chapitre I  Séparation de sources

L’analyse de la parole est une étape indispensable à toute application de synthèse, de codage ou
de reconnaissance. Elle repose en général sur un modèle. Il existe de nombreux modèles de parole.
On distingue les modèles articulatoires, les modèles de production, et les modèles
phénoménologiques. Dans le processus de codage, on s’intéresse au modèle de production. On y
décrit la parole comme le signal produit par un assemblage de générateurs et de filtres numériques
(modèle source-filtre). Les paramètres de ces modèles sont ceux des générateurs et filtres qui les
constituent. Le modèle Autorégressif (AR) en est l'exemple le plus utilisé.

I.3. Notions de bruits


On appelle bruit, tout phénomène perturbateur gênant la perception ou l’interprétation d’un signal
par analogie avec les nuisances acoustiques. Le bruit est inhérent à l’environnement naturel et à
l’équipement électronique caractérisant aussi le bruit d’origines externe et interne [5].

I.3.1. Bruit blanc


Un bruit blanc est un processus stochastique utilisé afin de modéliser les bruits intervenant dans
toute modélisation de systèmes dynamiques. Une fonction aléatoire faiblement stationnaire X (t) est
un bruit blanc si elle est in corrélée (cf. Figure I.5(a)). Cela montre qu’un bruit blanc gaussien
stationnaire a une densité de puissance identique à toutes les fréquences, ce qui justifie la
dénomination de bruit blanc par analogie avec la lumière blanche. Toutefois, si l’on calcule la
puissance totale d’un bruit blanc, nous obtenons une valeur infinie qui montre que ce type de
processus n’existe pas dans le monde physique [7]. La fonction d’auto corrélation d’un tel bruit blanc
est une impulsion de Dirac (cf. Figure I.5(b)).
Chapitre I  Séparation de sources

Figure I.5 : Bruit blanc gaussien à moyenne nulle et variance égal à 1 (Figure.a), et sa fonction
d'autocorrelation (Figure.b).

I.3.2. Bruit coloré


Un bruit coloré est un bruit blanc filtré, ainsi la fonction d’autocorrélation d’un tel bruit ne sera pas
une impulsion de Dirac, mais plutôt une courbe étroite [9]. Un bruit coloré de basse fréquence est
parfois appelé bruit rose, car il ne conserve que les grandes longueurs d’onde, ce qui dans le spectre du
visible correspond aux teintes rouges.

I.3.3. Bruit ambiant


Niveau sonore incluant l'ensemble des bruits environnants. Dans le cas d'une gêne liée à une source
sonore particulière, le bruit ambiant est la somme du bruit résiduel et du bruit particulier émis par la
source. Il est composé de l'ensemble des bruits émis par toutes les sources proches et éloignées.
Chapitre I  Séparation de sources

I.4. Nature et caractéristiques du bruit


On appelle bruit tout signal nuisible qui se superpose au signal utile en un point quelconque d’une
chaîne de mesure ou d’un système de transmission. Il constitue donc une gêne dans la compréhension
du signal utile, qui est dans notre cas, la parole. En physique, en acoustique et en traitement du signal,
bien que le bruit soit, par nature, aléatoire, il possède certaines caractéristiques statistiques, spectrales
ou spatiales. Le tableau I.1, extrait de [10], représente les différentes classes auxquelles un bruit peut
appartenir.

Propriétés Types

Structures Continu / Impulsif / Périodique


Type d’interaction Additif / Multiplicatif / Convolutif
Comportment Stationnaire / Non stationnaire
temporal
Bande de fréquence Étroite / Large
Dépendance Corrélé / Décorrélé
Proprieties statistiques Dependant / Indépendant
Proprieties Spatial Coherent / Incoherent

Tableau I.1 : Différentes classes du bruit.

I.5. Notion d’écho


Un écho est le phénomène dans lequel une version retardée et distordue d’un son est
réfléchie et renvoyée vers la source [13]. Les systèmes de communications recueillent des
échos émanent d'un certain nombre de sources, alors l'annulation d'écho devient une tache
essentielle pour la bonne qualité de service. Dans le marché concurrentiel
d'aujourd'hui, l'introduction de l’annulation d'écho efficace peut être un atout pour augmenter
le nombre d’abonnés. Il existe deux formes d'écho dans les réseaux de communication: l'écho
acoustique et l'écho hybride (électrique).

I.5.1. Echo acoustique


L'écho acoustique se produit lorsqu’une partie du son du haut-parleur du téléphone est
captée et retransmise par le microphone. L'écho acoustique est causé par une mauvaise
isolation acoustique entre l'appelant et le microphone de l’appelé.
Chapitre I  Séparation de sources

I.5.2. Echo hybride


L’écho hybride (parfois appelé écho ligne ou écho électrique) est le retour d’un signal
électrique à la source qui lui a donné naissance. En téléphonie, l’écho hybride n’est d’autre que
le renvoi d’une conversation téléphonique à la même personne qui est entrain de parler.

I.6. La perception humaine des échos

L’apparition d’écho est un problème bien connu dans les communications longues distance.
Les usages du réseau téléphonique en ont fait l’expérience à cause des imperfections de
l’hybride, un des composants du récepteur téléphonique.
Ce composant est en effet incapable d’empêcher le signal reçu de repartir dans le réseau vers
l’utilisateur qui a envoyé ce signal et qui, du coup, entend son propre écho. Un problème plus
gênant est apparu avec les téléphones mains-libres et les communications multimédia pour
lesquels l’écho du aux réverbérations dans la salle où se trouve le dispositif (Figure I.6). On
parle alors d’écho acoustique [13].

Figure I.6 : Génération d’un écho hybride et acoustique.

L’acoustique de quasiment tous les locaux est faite de réflexions dues aux murs, au sol et au
plafond. Des échos avec un court délai, de l’ordre d’une dizaine de millisecondes allé et retour,
sont perçus comme une distorsion spectrale ou une réverbération [1].

Des échos distincts sont perçus lorsque le délai aller et retour de la réflexion non atténuée
dépasse quelques dizaines de millisecondes. Dans le cas où le délai s’approche d’un quart de
seconde, l’écho n’est pas atténué et toute conversation claire est rendue impossible. Le fait est
que plus le délai dans une conversation augmente, plus il faut atténuer le signal réfléchi pour
Chapitre I  Séparation de sources

garantir un bon confort d’écoute à l’utilisateur. Par ailleurs, des études montrent que quand
l’écho est supprimé, un utilisateur peut supporter un délai plus important que lorsque l’écho est
présent. C’est ce qui a motivé la recherche de dispositifs suppresseurs et annuleurs d’écho
efficaces.

L'écho pour le locuteur (cf. Figure I.7(a)) se produit lorsqu'une certaine partie de son signal
vocal est renvoyée en retour avec un retard suffisant pour que le signal puisse être distingué
d'un effet local normal. L'écho pour l'auditeur survient quand un signal doublement réfléchi
arrive du côté de l'auditeur, avec un retard par rapport au signal original (cf. Figure I.7(b)) [14].

Figure I.7 : Echos pour le locuteur et pour l'auditeur, perçus par l'interlocuteur 1.

I.7. l’annulation d’écho acoustique

La première méthode proposée, appelée suppression d’écho, était basée sur la détection d’une voie :
lorsque le locuteur A se met à parler, une augmentation de gain est observée et la parole est coupée au
locuteur B. La suppression d’écho est de mise en œuvre simple mais s’avère d’une qualité insuffisante.
En effet, cette méthode fait intervenir l’hypothèse, très réductrice, que les deux locuteurs ne parlent
jamais en même temps, assurant ainsi une communication seulement bidirectionnelle et non
simultanée.

L’annulation d’écho acoustique consiste à identifier le chemin d’écho entre le haut parleur et le
microphone. Ceci permet une évaluation de l’écho qui est alors soustrait du signal à envoyer (cf.
Figure I.8). Cette méthode apparaît bien adaptée à la résolution du problème d’écho puisqu’elle permet
une communication bidirectionnelle simultanée.
Le canal acoustique, composé essentiellement en première approximation de retards et
d’atténuations, est généralement modélisé par un filtre de réponse impulsionnelle finie (RIF) F de
taille L. L’annulation d’écho acoustique est un problème d’identification d’un système linéaire F (le
Chapitre I  Séparation de sources

canal acoustique) avec entrée connue x(n) : la parole qui provient du locuteur distant, et sortie connue
bruitée d(n) (écho y(n) plus éventuellement parole locale s(n)), suivie d’un traitement correctif
approprié [3].

Figure I.8 : Principe de l’annulation d’´echo acoustique.

D’après la figure I.8, le microphone disposé dans l’espace considéré capte à la fois la parole du
locuteur local et celle issue du haut-parleur à cause du couplage acoustique.

Afin d’assurer une communication bidirectionnelle simultanée de qualité, le filtre adaptatif identifie
le canal de couplage acoustique F et fournit une estimation 𝑦^(n) de l’écho acoustique y(n), résultat de
la transformation de l’entrée x(n) envoyée dans le haut parleur par F.

Cette estimation 𝑦^(n), version reconstituée de l’écho, est soustraite du signal d(n) = y(n)+s(n) issu du
microphone. Le signal différence e(n) = d(n) − 𝑦^(n), résultat de cette opération est constitué de
l’écho résiduel er(n) = y(n) − 𝑦^(n) et de la parole local s(n).

I.8. Séparation Aveugle de Sources (SAS)


La Séparation Aveugle de Sources est une technique de traitement numérique des signaux
permettant d'obtenir les composantes élémentaires (sources) à partir d'une combinaison linéaire de ces
dernières telles que reçues par les capteurs utilisés [2]. L'exemple classique est l'effet cocktail où un
bruit ambiant et plusieurs conversations sont présents simultanément. La capacité de l'oreille humaine
à se concentrer sur la compréhension d'une discussion particulière et d'ignorer les autres représente
bien le processus de séparation. L'objectif de ce processus est l'isolation d'une source de l'ensemble
des sources présentes. Notre cerveau, avec l'aide de notre système auditif est en mesure d'effectuer ce
travail complexe.
Chapitre I  Séparation de sources

I.8.1. Le cas aveugle

La SAS est un cas spécifique de la SS où aucune ou peu de caractéristiques sont connues. Un bon
exemple est celui où l'analyste recherche les sources significatives mais inconnues à l'origine d'un
mélange. Il ne connaît rien des signaux sources omis leur existence. Un exemple pratique est
l'interprétation des électroencéphalogrammes (EEG) et des magnéto encéphalogrammes (MEG). Les
données recueillies sont le résultat d'un mélange de sources associé à certaines régions du cerveau. La
séparation permet l'extraction des sources significatives utiles au spécialiste lors de son diagnostic.
Bien entendu, l'algorithme doit être développé en collaboration avec ce dernier pour que les résultats
obtenus soient utiles.

I.8.2. Le cas « semi-aveugle »

Dans certaines situations, il est possible d'émettre des hypothèses portant sur le type de sources
que l'on désire reconstraire ou les caractéristiques des canaux de transmission présents. Ces éléments
permettent à l'algorithme développé de converger vers une solution existante partiellement connue.

Les hypothèses au niveau des sources portent généralement sur leurs distributions. Par exemple, il
est possible d'affirmer qu'une certaine source est gaussienne ou laplacienne. Au niveau du canal de
transmission, les hypothèses portent généralement sur les fonctions de transfert. Ces canaux peuvent
être modélisés par des filtres à réponses impulsionnelles finies (RTF) ou à réponses impulsionnelles
infinies (RII). Ces hypothèses limitent l'étendu du problème transformant la séparation aveugle, où
rien n'est en principe connu, en séparation « semi-aveugle ».

I.9. Filtrage adaptatif


Les filtres adaptatifs sont des systèmes appliqués sur des données bruitées pour obtenir une
information utile à un certain instant t, ces systèmes étant mis en œuvre dans trois configurations :
• Le filtrage c’est à dire l’extraction de cette information au temps t à partir des données bruitées
mesurées jusqu’au temps t inclus.
• Le lissage qui utilisera aussi les données postérieures au temps t.
• La prédiction qui ne se sert que des données jusqu’au temps t-τ pour déduire l’information qui
nous intéresse au temps t.
Chapitre I  Séparation de sources

I.9.1. Principe du filtrage adaptatif


Le concept du traitement adaptatif des signaux a évolué à partir des techniques développées pour
permettre la commande adaptative des systèmes variables dans le temps.
Un filtrage est rendu adaptatif si ses paramètres, les coefficients, sont modifiés selon un critère
donné, dès qu’une nouvelle valeur du signal devient disponible. Ces modifications doivent suivre
l’évolution des systèmes dans leur environnement aussi rapidement que possible. L'algorithme
adaptatif détermine les caractéristiques de filtre en ajustant leurs coefficients, selon les conditions de
signal et les critères d'exécution (ou l'évaluation de qualité). Selon la figure II.1, un filtre adaptatif est
un filtre numérique avec des coefficients qui peuvent être déterminés et mis à jour par un algorithme
adaptatif. Par conséquent, l'algorithme adaptatif se comporte comme un opérateur humain qui a la
capacité de s'adapter dans un environnement en cours d'évolution.

Figure II.1 : Principe de base d’un filtre adaptatif.

I.9.2. Structure générale d’un filtre adaptatif

La disposition générale d’un environnement de filtrage adaptatif est illustrée par la figure
II.2, où x(n) est le signal d’entrée, 𝑦^(n) est le signal de sortie estimée, d(n) le signal de sortie
désirée (la quantité que l’on veut reproduire) et e(n) le signal d’erreur défini comme étant la
différence entre la sortie désirée et la sortie estimée. Ce dernier est utilisé afin d’établir la
fonction objectif (fonction coût), requise par l’algorithme d’adaptation dans le but de
déterminer la mise à jour appropriée des coefficients du filtre.

Comme montré dans la figure II.2, la conception d’un filtre adaptatif impose la caractérisation de
deux structures principales : la structure de filtrage et la structure d’adaptation.
Chapitre I  Séparation de sources

Figure II.2 : Configuration générale d’un filtre adaptatif.

Chapitre II
3.4 Estimation de la DOA
Nous présentons dans cette section les techniques développées pour l’estimation de la direction
d’arrivé. En effet, nous allons décrire brièvement la méthode de base ensuite la technique d’estimation
haute résolution basée sur les méthodes de sous-espaces.
3.4.1 Méthode de base : la transformée de Fourier spatiale
Le transformée de Fourier est la première méthode qui a été utilisée pour détecter les angles d'arrivées
des signaux. Le principe est de réaliser la transformée de Fourier dans l'espace des signaux reçus. Si on
trace cette fonction pour une onde donnée, on obtiendra un pic d'énergie pour la direction dans laquelle se
situe la source, donc dans le cas de la superposition de plusieurs ondes on a des pics pour chaque DOA.
Cette technique nécessite de prendre de nombreux capteurs si on veut arriver à des résultats précis. Dans
[34] Mehrdad Soumekh montre qu'on arrivera à séparer deux ondes planes d'angles 𝜃1 𝑒𝑡 𝜃2 si

Si ces techniques ont longtemps été utilisées pour détecter des sources, en particulier dans les
domaines des radars et des sonars, elles n'offraient pas des précisions suffisantes et il a rapidement
fallu faire appel à des techniques plus puissantes. Ainsi détecter une source avec un réseau de 8
capteurs permet d'avoir une précision de l'ordre de 30 degrés. Dans les années 80 ont donc été
développées les méthodes à haute résolution permettant d'avoir des précisions beaucoup plus
importantes. En effet si Fourier nous permet de déterminer les angles en parcourant une courbe
formée d'autant de points que de capteurs, les méthodes hautes résolution ont un pas qui peut être
aussi faible que désiré.
Chapitre I  Séparation de sources

3.4.2 La méthode MUSIC (MUltiple SIgnal Classification)


Algorithme MUSIC est un algorithme de direction à haute résolution qui estime les directions
d'arrivée (DOA) des signaux dans un réseau à partir de la matrice de covariance des données du
capteur de réseau. MUSIC appartient à la famille de sous-espace-décomposition des algorithmes de
recherche de direction. Contrairement à la formation conventionnelle de faisceaux, MUSIC peut
résoudre des sources de signaux étroitement espacées. [35]
Sur la base de la décomposition spatiale de la matrice de covariance du capteur, MUSIC divise l'espace
d'observation en sous-espaces orthogonaux de signal et de bruit. Les vecteurs propres correspondant aux
plus grandes valeurs propres couvrent le sous-espace signal. Les vecteurs propres correspondant aux
valeurs propres les plus petites couvrent le sous-espace du bruit. Comme les vecteurs d'arrivée (ou de
direction) se trouvent dans le sous-espace de signal, ils sont orthogonaux au sous-espace de bruit. Pour les
ULA, les vecteurs d'arrivée sont des fonctions des angles de direction des flancs des sources. L'algorithme
recherche une grille d'angles d'arrivée pour trouver les vecteurs d'arrivée qui ont des projections nulles ou
petites dans le sous-espace de bruit. Ces angles sont les directions des sources.
MUSIC requiert que le nombre de signaux source soit connu. Si le nombre de sources spécifiées ne
correspond pas au nombre réel de sources, l'algorithme se dégrade. En règle générale, on doit fournir une
estimation du nombre de sources ou utiliser l'une des méthodes d'estimation du numéro de source
intégrées.
A la place de la véritable matrice de covariance de capteurs, l'algorithme calcule la matrice de
covariance d'échantillon à partir des données de capteur. MUSIC s'applique à des signaux non
cohérents mais peut être étendu à des signaux cohérents en utilisant des techniques de lissage spatial
et / ou de moyenne en avant-arrière.
Modèle de signal
Le modèle de signal relie les données de capteur reçues aux signaux émis par la source. Supposons
qu'il existe des sources de signal 𝐷 non corrélées ou partiellement corrélées, (𝑡) . Les données de
capteur, (𝑡) , sont constituées des signaux, tels que reçus dans le réseau, ainsi que du bruit, 𝑛𝑚(𝑡). Un
instantané de données de capteur est le vecteur de données de capteur reçu aux 𝑀 éléments d'un
réseau à un seul instant .
Chapitre I  Séparation de sources

(𝑡) est un vecteur 𝑀 × 1 d'instantané reçu de données de capteur qui sont constituées de signaux et de
bruit additif.

 𝐴 est une matrice 𝑀×𝐷 contenant les vecteurs d'arrivée. Un vecteur d'arrivée se compose des
déphasages relatifs aux éléments du réseau de l'onde plane d'une source. Chaque colonne de 𝐴 représente
le vecteur d'arrivée d'une des sources et dépend de la direction d'arrivée, 𝜃𝑑. 𝜃𝑑 est l'angle de direction
d'arrivée pour la 𝑑 ième source et peut représenter soit l'angle de flanc pour des réseaux linéaires, soit
l'azimut et l'angle d'élévation pour des matrices planes ou 3D.
 (𝑡) est un vecteur 𝐷×1 de valeurs de signaux source provenant de 𝐷 sources.

 (𝑡) est un vecteur 𝑀×1 de valeurs de bruit de capteur.

Conclusion
Nous avons énuméré les différentes techniques de la formation de faisceaux qui constituent l’une
des applications envisageables des antennes intelligentes. Nous avons présenté les types et les
différents algorithmes de formation de faisceaux. Ainsi nous avons opté pour la technique LCMV.
Les techniques d’estimation de la direction d’arrivé ont été également présentées dans ce chapitre.
Nous avons fait un rappel sur la méthode de base, mais notre intérêt s’est surtout porté sur la méthode
MUSIC. Nous avons élucidé quelques faiblesses et ainsi apporté des améliorations possibles en 54
terme de résolution et complexité de calcul, notamment la méthode root MUSIC utilisant le lissage
spatial dans le cas des signaux corrélés.
En somme, il est primordial de choisir un algorithme de formation de faisceau adéquat, et en
utilisant une version améliorée de la méthode d’estimation de DOA, afin d’exploiter efficacement les
systèmes d’antennes intelligentes.
Nous verrons dans le chapitre 4 l’application et la simulation de ces techniques ainsi que les
résultats de différentes comparaisons.

Vous aimerez peut-être aussi