Vous êtes sur la page 1sur 188

Coordination scientifique

Marion BERBINEAU (INRETS)


Sébastien AMBELLOUIS (INRETS)

Étude d’un système


de Vidéo et d’Audio
Surveillance sans fil
Centre de contrôle

Super
Mobile

... ou comment assurer la continuité d’un


service d’aide à la surveillance entre une flotte
de véhicules et l’infrastructure ?

Rapport INRETS N°275


Décembre 2007
Conformément à la note du 04/07/2014 de la direction générale de l'Ifsttar précisant la politique de
diffusion des ouvrages parus dans les collections éditées par l'Institut, la reproduction de cet ouvrage est
autorisée selon les termes de la licence CC BY-NC-ND. Cette licence autorise la redistribution non
commerciale de copies identiques à l’original. Dans ce cadre, cet ouvrage peut être copié, distribué et
communiqué par tous moyens et sous tous formats.
Attribution — Vous devez créditer l'Oeuvre et intégrer un lien vers la licence. Vous devez indiquer ces
informations par tous les moyens possibles mais vous ne pouvez pas suggérer que l'Ifsttar vous
soutient ou soutient la façon dont vous avez utilisé son Oeuvre.

Pas d’Utilisation Commerciale — Vous n'êtes pas autoriser à faire un usage commercial de cette
Oeuvre, tout ou partie du matériel la composant.
(CC BY-NC-ND 4.0)
Pas de modifications — Dans le cas où vous effectuez une adaptation, que vous transformez, ou
créez à partir du matériel composant l'Oeuvre originale (par exemple, une traduction, etc.), vous
n'êtes pas autorisé à distribuer ou mettre à disposition l'Oeuvre modifiée.

Le patrimoine scientifique de l'Ifsttar


Le libre accès à l'information scientifique est aujourd'hui devenu essentiel pour favoriser la circulation du
savoir et pour contribuer à l'innovation et au développement socio-économique. Pour que les résultats des
recherches soient plus largement diffusés, lus et utilisés pour de nouveaux travaux, l’Ifsttar a entrepris la
numérisation et la mise en ligne de son fonds documentaire. Ainsi, en complément des ouvrages
disponibles à la vente, certaines références des collections de l'INRETS et du LCPC sont dès à présent
mises à disposition en téléchargement gratuit selon les termes de la licence Creative Commons CC
BY-NC-ND.

Le service Politique éditoriale scientifique et technique de l'Ifsttar diffuse différentes collections qui sont
le reflet des recherches menées par l'institut :
• Les collections de l'INRETS, Actes
• Les collections de l'INRETS, Outils et Méthodes
• Les collections de l'INRETS, Recherches
• Les collections de l'INRETS, Synthèses
• Les collections du LCPC, Actes
• Les collections du LCPC, Etudes et recherches des laboratoires des ponts et chaussées
• Les collections du LCPC, Rapport de recherche des laboratoires des ponts et chaussées
• Les collections du LCPC, Techniques et méthodes des laboratoires des ponts et chaussées, Guide
technique
• Les collections du LCPC, Techniques et méthodes des laboratoires des ponts et chaussées, Méthode
d'essai

www.ifsttar.fr

Institut Français des Sciences et Techniques des Réseaux,


de l'Aménagement et des Transports
14-20 Boulevard Newton, Cité Descartes, Champs sur Marne
F-77447 Marne la Vallée Cedex 2
Contact : diffusion-publications@ifsttar.fr
Étude d’un système de Vidéo et d’Audio Surveillance sans fil

Coordination scientifique
Marion Berbineau, Directrice de Recherche, LEOST
Sébastien Ambellouis, Chargé de Recherche, LEOST

L’Unité de recherche :
Laboratoire Electronique, Ondes et Signaux pour les Transports (LEOST)
20 rue Elisée Reclus, BP 317
59666 Villeneuve d’Ascq Cedex - Tél. : 03 20 43 83 31 – Fax : 03 20 43 83 97

Ce rapport est le fruit des recherches menées dans le cadre du projet EVAS
(Étude d’un système de Vidéo et d’Audio Surveillance sans fil) du PREDIT.

Les auteurs par ordre alphabétique :


Sébastien Ambellouis, Chargé de Recherche, LEOST
Marion Berbineau, Directrice de Recherche, LEOST
Gilles Blanquart, Ingénieur d’Études, LEOST
Marc Chenu-Tournier, Ingénieur de Recherche, THALES Communications
Hervé Dumortier, Ingénieur de Recherche, LEOST
Catherine Fauqueur, Chargée de projets, Transpole
Amaury Flancquart, Ingénieur d’Études, LEOST
Jean-Pierre Ghys, Assistant Ingénieur, LEOST
Jean-François Legrand, Ingénieur de Recherche, MIRIAD Technologies
Sylvain Marsault, Ingénieur d’Études, THALES Communications
Philippe Mariage, Directeur de GIGACOMM
Gérald Moniak, Chargé de Recherche, LEOST
Jean-Luc Rouas, Chargé de Recherche, LEOST

Ce rapport a bénéficié des commentaires et remarques des référés


suivants :
Rodolphe Vauzelle, Professeur au laboratoire Signal, Images et
Communications de l’Université de Poitiers
Xavier Apolinarski, CEA LIST, responsable des partenariats stratégiques du
secteur transports et membre du GO9 PREDIT 2002-2007

Institut National de Recherche sur les Transports et leur Sécurité INRETS


Service des publications 2, avenue du Général Malleret-Joinville
94114 ARCUEIL CEDEX Tél. : 33 (0)1 47 40 70 74 - Fax : 01 45 47 56 06
www.inrets.fr
© Les collections de l’INRETS
N ° ISBN 978-2-85782-657-6 N° ISSN 0768-9756
En application du code de la propriété intellectuelle, l’INRETS interdit toute reproduction intégrale ou partielle du
présent ouvrage par quelque procédé que ce soit, sous réserve des exceptions légales

2 Rapport INRETS n°00


Fiche bibliographique

UR (1er auteur) Projet n° INRETS report N°


LEOST 275
Titre : Étude d’un système de Vidéo et d’Audio Surveillance sans fil
Sous-titre Langue
... où comment assurer la continuité d’un service Français
d’aide à la surveillance entre une flotte de véhicules
et l’infrastructure ?
Auteur(s) Rattachement ext.
Sébastien Ambellouis, Marion Berbineau, Gilles INRETS-LEOST
Blanquart, Hervé Dumortier, Amaury Flancquart,
Jean-Pierre Ghys, Gérald Moniak, Jean-Luc Rouas,
Marc Chenu-Tournier, Sylvain Marsault, THALES
Jean-François Legrand, MIRIAD Technologies
Philippe Mariage GIGACOMM
Catherine Fauqueur Transpole
Nom adresse financeur, co-éditeur N° contrat, conv.
C05-08
PREDIT – ANR
04 K 445
Date de publication
Juillet 07
Remarques
Résumé
Ce rapport présente les résultats des recherches menées afin d’étudier un
système d’aide à la vidéo et à l’audio surveillance sans fils dit «intelligent» à
embarquer dans les autobus de TRANSPOLE de l’Agglomération Lilloise. Les
travaux réalisés sur la partie « audio » se sont focalisés sur la détection
automatique des événements de type « cris » (acte d’agression, acte de
dérangement) et de type « aérosol de peinture» (graffiti). Le système proposé
est fondé sur des techniques de classification supervisée. Le lien sans fil haut
débit robuste entre un autobus et le poste de contrôle s’appuie sur le standard
WIMAX et les techniques multi antennes ou techniques MIMO. Les recherches
menées pour aboutir à la démonstration finale à Lille avec un autobus de
Transpole sont décrites dans le document. Le détail de l’architecture du système
mis en œuvre ainsi qu’une description des composants utilisés sont donnés.
Mots clés
Surveillance audio et vidéo embarquée, transmissions sans fil, MIMO, sécurité
des transports publics, aide à l’exploitation
Nb de pages Prix Bibliographie
187 15,24 euros Oui

Rapport INRETS n°275 3


Publication data form

UR (1st author) Projet n° INRETS Report


LEOST N°275
Title : Study of a wireless video and audio surveillance system
Subtitle Language
… or how to ensure service continuity for a French
surveillance system between urban buses and
infrastructure ?
Auteur(s) Affiliation
Sébastien Ambellouis, Marion Berbineau, Gilles INRETS-LEOST
Blanquart, Hervé Dumortier, Amaury Flancquart,
Jean-Pierre Ghys, Gérald Moniak, Jean-Luc Rouas, Thales
Marc Chenu-Tournier, Sylvain Marsault,
MIRIAD Technologies
Jean-François Legrand,
Philippe Mariage GIGACOMM
Catherine Fauqueur Transpole
Sponsor, co-editor, name and address Contract, conv. N°
PREDIT-ANR C05-08 04 K 445
Publication date
Notes
Summary
This report presents the results of the researches performed to develop an
« intelligent » video and audio wireless surveillance system embedded in a
TRANSPOLE bus of the Lille agglomeration. The works realised on the “audio”
system are focused on automatic detection of events such as « shouts »
(aggression, disturbances) and « gas sprays» (tags or others). The proposed
system is based on supervised classification techniques. The wireless link
between the bus and the control centre relies on WIMAX bricks and multiple
antennas techniques also called MIMO techniques. The researches performed
to obtain the final demonstration organised in Lille with a Transpole bus are
described in the document. The details of the system architecture and system
components are given.
Key Words
Embedded audio and video surveillance, MIMO wireless transmissions, security
in public transport, exploitation assistance
Nb of pages Price Bibliography
187 15,24 euros yes

4 Rapport INRETS n°275


Table des matières

Remerciements............................................................................................................... 9

Synthèse ........................................................................................................................ 11

Introduction ................................................................................................................. 13

Chapitre 1..................................................................................................................... 17

Comment une analyse audio peut-elle compléter une vidéo surveillance


intelligente? .................................................................................................................. 17

1. Introduction ........................................................................................................... 17
2. Contexte des travaux.............................................................................................. 18
3. Les bases de données audio ................................................................................... 21
4. Etiquetage manuel et difficultés rencontrées ......................................................... 22
5. Méthode « classique » de traitement ..................................................................... 23
6. Méthode « originale »............................................................................................ 25
6.1. Segmentation en zones d'activité .................................................................... 26
6.1.1. Segmentation automatique....................................................................... 26
6.1.2. Détection de segments d'activité............................................................. 28
6.2. Cadre de modélisation et de classification...................................................... 28
6.2.1. Extraction des paramètres acoustiques .................................................... 28
6.2.2. Les MMG................................................................................................. 29
6.2.3. Les SVM.................................................................................................. 30
6.3. Classification .................................................................................................. 32
7. Résultats en matière de détection de cri ................................................................ 34
7.1. Description du corpus utilisé dans les expériences ......................................... 34
7.2. Intérêt du pré-traitement ................................................................................. 34
7.3. Intérêt de la classification hiérarchique .......................................................... 35
7.4. Expériences en validation croisée................................................................... 37
7.5. Conclusions et perspectives ............................................................................ 41
8. Résultats en matière de détection du bruit de bombes de peinture........................ 41
8.1. Paramètres ...................................................................................................... 42
8.2. Adaptation aux conditions acoustiques........................................................... 42
8.3. Conclusions .................................................................................................... 43
9. Conclusions et perspectives ................................................................................... 44

Rapport INRETS n°275 5


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

10. Bibliographie ....................................................................................................... 46

Chapitre 2 ..................................................................................................................... 49

Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de
contrôle ......................................................................................................................... 49

1. Les télécommunications sans fil pour les transports publics urbains .................... 49
1.1 Le contexte transport........................................................................................ 49
1.2. Les recherches visant l’augmentation des débits de transmission................... 50
2. Les standards de réseaux sans fil pour du haut débit en mobilité.......................... 51
2.1. Classification des systèmes ............................................................................. 51
2.3.3. Le WiMAX ou les normes IEEE 802.16x................................................ 52
3. Etat des recherches sur les techniques MIMO....................................................... 54
4. Le canal de propagation radioélectrique MIMO ................................................... 59
4.1. Introduction..................................................................................................... 59
4.2. Phénomènes physiques caractéristiques d'un canal de propagation ................ 60
4.3. Représentation mathématique du canal MIMO............................................... 61
4.3.1. Représentation classique du canal MIMO................................................ 61
4.3.2. Représentation du canal MIMO par décomposition en canaux propres ... 63
4.4. Capacité d'un canal MIMO ............................................................................. 65
4.4.1. Définition générale de la capacité ............................................................ 65
4.4.2. Paramètres affectant la capacité d'un canal MIMO .................................. 66
4.5. Conclusion ...................................................................................................... 68
5. Modèles de canal MIMO fondés sur la corrélation ............................................... 69
5.1. Introduction..................................................................................................... 69
5.2. Le modèle de Kronecker ................................................................................. 70
5.3. Le modèle de Weichselberger ......................................................................... 71
5.4. Conclusion ...................................................................................................... 73
6. Mesure et modélisation de canaux MIMO réels..................................................... 73
6.1. Les configurations mesurées ........................................................................... 73
6.2. Corrélation spatiale et capacité des canaux mesurés ....................................... 75
6.3. Conclusion ...................................................................................................... 82
7. La chaîne de transmission en simulation ............................................................... 82
7.1. Introduction..................................................................................................... 82
7.2. L'émetteur ....................................................................................................... 83
7.2.1. L'étage codage canal ................................................................................ 83
7.2.2. Modulation et diversité spatiale ............................................................... 84
7.2.3. Rappel sur la modulation OFDM ............................................................. 85
7.3. Les récepteurs ................................................................................................. 88
7.3.1. Le choix des récepteurs à implémenter .................................................... 88
7.3.2. Le récepteur classique .............................................................................. 90
7.3.3. Le turbo récepteur .................................................................................... 90
7.3.4. Description des algorithmes utilisés......................................................... 92
7.4. Comparaison des performances des deux récepteurs dans un canal connu..... 96

6 Rapport INRETS n°275


Table des matières

7.4.1. Impact du nombre d'antennes de réception dans un canal de Rayleigh ... 96


7.4.2. Transmission dans un canal NLOS fortement corrélé ............................. 97
7.5. Introduction de l'estimation du canal .............................................................. 99
7.5.1. Généralités sur les estimateurs de canaux................................................ 99
7.5.2. Les estimateurs considérés..................................................................... 101
7.5.3. Choix des estimateurs testés .................................................................. 102
7.6. Conclusion .................................................................................................... 105
8. Conclusion ........................................................................................................... 106
9. Bibliographie ....................................................................................................... 107

Chapitre 3................................................................................................................... 115

Le démonstrateur ...................................................................................................... 115

1. Objectifs du démonstrateur.................................................................................. 115


2. Architecture du démonstrateur ............................................................................ 116
2.1 Configuration matérielle de la partie audio/vidéo.......................................... 116
2.2 Configuration matérielle de la partie télécoms .............................................. 118
3. Le module de démonstration RF.......................................................................... 119
3.1. Architecture du démonstrateur en émission.................................................. 119
3.1.1. Matériel.................................................................................................. 119
3.1.2 Logiciel ................................................................................................... 123
3.2. Architecture du démonstrateur en réception ................................................. 126
3.2.1. Le matériel ............................................................................................. 126
3.2.2. Le logiciel .............................................................................................. 130
3.3. Traitement du signal ..................................................................................... 136
3.3.1. Modélisation du signal........................................................................... 136
3.3.2 Estimation de canal LMMSE suivant cette modélisation ....................... 137
3.3.3. Synchronisation des signaux en réception ............................................. 139
3.3.4 Egalisation MMSE pour du multiplexage spatial en émission ............... 147
3.3.5 Correction de phase ................................................................................ 150
3.4. Environnement temps réel ADEOS .............................................................. 151
3.4.1. Description et généralités....................................................................... 151
3.3.2. Modes de Performance .......................................................................... 154
3.4.3. Le Nanokernel Adeos ............................................................................ 155
3.4.4. Insertion d’Adeos................................................................................... 155
3.4.5. Contrôle des interruptions...................................................................... 156
3.4.6. Bouclier d’interruption .......................................................................... 156
3.4.7 DIC ......................................................................................................... 156
4. Résultats des expérimentations............................................................................ 157
4.1. Modem OFDM SISO.................................................................................... 157
4.2. Modem OFDM MIMO 2x2 .......................................................................... 158
4.3. Sondeur de canal MIMO............................................................................... 159
4.4. Taux d’erreurs binaires (TEB) ...................................................................... 164
4.5. Tests en conditions réelles ............................................................................ 165
4.6 Analyse de la propagation pour un déploiement............................................ 168
4.6.1. Outil de simulation................................................................................. 168
Étude d’un système de Vidéo et d’Audio Surveillance sans fil

4.6.2. Exemples de mesures sur quelques trajets spécifiques........................... 170


4.6.3. Calcul de la couverture radioélectrique du centre ville de Lille ............. 174
4.7. CONCLUSION............................................................................................. 177

Conclusion Générale .................................................................................................. 179

ANNEXES .................................................................................................................. 183

Les algorithmes VQ.................................................................................................. 183


Les k-mans ........................................................................................................... 183
Algorithme LBG (Linde, Buzo, Gray) ...................................................................... 184
L algorithme EM ...................................................................................................... 185
Petit Rappel ...................................................................................................... 185
Algorithme de base .......................................................................................... 185

8 Rapport INRETS n°275


Remerciements

Les auteurs remercient Rodolphe Vauzelle et Xavier Apolinarski d’avoir


accepté de relire ce rapport et de nous avoir apporté leurs commentaires et
remarques. Ils remercient le groupe opérationnel n°9 du PREDIT 2002-2007 qui
a soutenu financièrement ce projet via le ministère de la recherche et en
particulier Chantal Meilhac du ministère de la Recherche, puis l’ANR et Ludovic
Valadier. Un grand merci à Emilie Masson qui a donné beaucoup de son temps
pour le démonstrateur final et également à Jean-Pierre Ghys, Amaury
Flancquart, Emmanuel Debrauwer, Olivier Delafraye, Bernard Delsinne et
Daniel Bourbotte qui ont assuré la logistique de la démonstration du 15 février
2007. Merci aussi à Transpole, partenaire du projet, et tout particulièrement à
Mme C. Fauqueur, M. Soffray et leurs équipes.

Rapport INRETS n°275 9


Synthèse

Une des priorités des opérateurs de transports publics concerne


l’amélioration du sentiment de sécurité des passagers et des personnels, et la
maintenance des matériels roulants. Ainsi, la vidéo surveillance s'est imposée
dans les gares et les couloirs des réseaux. Aujourd’hui, l’installation de
systèmes de surveillance embarqués est envisagée. Pour ces systèmes,
l’utilisation de l’audio conjointement à la vidéo est une solution tout à fait
pertinente. Un des points clef de ces systèmes de réside dans la nécessité de
transmettre les informations issues des capteurs audio et vidéo. Il convient de
disposer d’un système de reconnaissance automatique d’événements et d'un
lien de transmission sans fil capable de supporter des débits importants et
d'offrir une qualité de service ne dégradant pas l'information transmise. Le
projet EVAS a étudié la manière de répondre à ces deux problématiques et
propose aujourd’hui deux solutions préliminaires. Ce rapport décrit la démarche
théorique et les résultats obtenus.
Les travaux réalisés sur la partie « audio » se sont focalisés sur la détection
automatique des événements de type «cris» (acte d’agression, acte de
dérangement) et de type «aérosol de peinture» (graffiti) qui rejoignent les
priorités annoncées par les exploitants. Le système proposé est fondé sur des
techniques de classification supervisée. Deux stratégies de modélisation ont été
testées et comparées. La première, dite génératrice, est fondée sur une
modélisation par mélange de lois normales. La seconde, dite discriminante, est
une technique à noyau de type «Support Vector Machine».
Le lien sans fil haut débit robuste mis en œuvre entre un autobus et le poste
de contrôle repose sur l’utilisation des techniques MIMO et du standard WIMAX
802.16d. Les différentes étapes de développement sont décrites et justifiées.
Deux stratégies différentes ont été étudiées en réception sans modification de
la partie émission: un récepteur classique et un récepteur itératif. Les principaux
algorithmes utilisés sont décrits ainsi que les performances obtenues dans
différents canaux de propagation caractéristiques. Le turbo récepteur présente
toujours de meilleures performances.
L’architecture du système mis en œuvre pour la démonstration avec un
autobus de Transpole de l’agglomération Lilloise ainsi que les différents
composants utilisés sont détaillés. La génération des signaux et le traitement en
réception sont effectués de façon logicielle sur des PC dédiés. Les logiciels de
traitement ont été développés en langage C sous Linux à partir de ceux
implémentés en simulation. Les résultats obtenus sont présentés. L’apport du
MIMO garantit une amélioration de la robustesse de la transmission radio,
notamment dans le contexte d’une zone urbaine.

Rapport INRETS n°275 11


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

12 Rapport INRETS n°275


Introduction

Unité de Réseau IP
sauvegarde

Caméra 2
Caméra Alarme !!!
intelligente

Caméra 1 Caméra 2 Caméra 3

Les actes de malveillance et les agressions sur les réseaux de transports


publics ont augmenté ces dernières années. De récentes études auprès des
exploitants ont montré que l’amélioration du sentiment de sécurité des
passagers et des personnels, et la maintenance des matériels représentent les
deux postes de dépenses stratégiques pour l’entreprise exploitante. Ainsi, la
vidéo surveillance s'est imposée comme un outil incontournable dans les
stations et les gares des grands réseaux. Elle a fait l’objet de nombreuses
recherches dans le cadre de projets européens et nationaux afin de leur
associer des fonctions d’interprétation, d’enregistrement et de transmission
automatiques des images provenant d’une ou plusieurs caméras.
Les premiers produits qui apparaissent sur le marché constituent une
première réponse à la demande. Toutefois, de nettes améliorations restent
encore à apporter notamment en matière d’interprétation (création automatique
d’alerte, indexation) et de transmission (réduction de la bande passante). A
court terme, les exploitants prévoient l’équipement systématique de toutes les
gares et stations de transports existantes et futures. A moyen terme, ils
envisagent l’installation de systèmes embarqués. Pour ces systèmes,
l’utilisation de l’audio conjointement à la vidéo est apparue comme une solution
tout à fait pertinente. Dans le projet EVAS (Etude d’un système de Vidéo et
Audio Surveillance sans fil), nous avons donc contribué à répondre à la
demande des exploitants pour des systèmes embarqués en étudiant un
système d’aide à la vidéo et à l’audio surveillance sans fils dit «intelligent» à
embarquer dans les autobus de TRANSPOLE de l’Agglomération Lilloise.
Les préoccupations des opérateurs concernent notamment la détection de
situations telles que les bagarres, la dégradation des matériels (taggage à la
peinture, gravure ou bris de vitre) et les nuisances (actes de mendicité,
agression verbale). La détection et la combinaison de l'audio et de la vidéo

Rapport INRETS n°275 13


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

permettent d'affiner la qualification d'événements à risque afin de les confirmer


et de les localiser pour intervention. Cette gestion au plus près permet d'alerter
sereinement les opérateurs de sécurité sur la décision la plus juste pour toute
intervention. Un des points clés des systèmes de surveillance embarqués
réside donc dans la nécessité de transmettre périodiquement, à la demande ou
en cas d'alarmes, les informations issues des capteurs audio et vidéo. Pour ce
faire il convient de disposer d’un système de reconnaissance automatique
d’événements et d'un lien de transmission sans fil capable de supporter des
débits importants et d'offrir une qualité de service ne dégradant pas
l'information transmise. Le projet EVAS a donc étudié la manière de répondre à
ces deux problématiques et propose aujourd’hui deux solutions préliminaires.
Lorsque le système de surveillance est embarqué, les occultations et les
changements de luminosité apparaissent beaucoup plus souvent et sont
beaucoup plus contraignants. Dans ces conditions, la robustesse de la fonction
de détection d’un système de caméras embarqué n’est plus suffisante et la
vidéo ne permet plus d’identifier, seule, l'activité d'un ou plusieurs passagers.
Nous avons donc étudié comment compléter la perception vidéo de l’enceinte
du véhicule par l’écoute de son ambiance sonore tout particulièrement lorsque
des difficultés surgissent. Il n’est pas question de supprimer l'information vidéo.
Un événement étant modélisé de manière bi-modale, il peut être alors détecté
de manière automatique à partir de l’un, de l’autre ou des deux modes,
augmentant ainsi sa probabilité de détection. Les travaux réalisés dans le cadre
du projet sont décrits dans le premier chapitre de ce document. Ils se sont
focalisés sur la détection automatique des événements de type « cris » (acte
d’agression, acte de dérangement) et de type « aérosol de peinture» (graffiti)
qui rejoignent les priorités annoncées par les exploitants. Le système proposé
est fondé sur des techniques de classification supervisée très bien décrites
dans la littérature et éprouvées dans de nombreux domaines d’application tels
que l’analyse de la parole et l’indexation. Deux stratégies de modélisation ont
été testées. La première, dite génératrice, est fondée sur une modélisation par
mélange de lois normales. La seconde, dite discriminante, est une technique à
noyau de type «Support Vector Machine». Nous avons ensuite comparé les
performances obtenues avec l’une et l’autre des méthodes.
Le deuxième chapitre de ce rapport, présente les travaux réalisés pour la
mise en œuvre d’un lien sans fil haut débit robuste entre un autobus et le poste
de contrôle. En effet, de nombreux systèmes de télécommunication dédiés à
des flottes d'autobus ont déjà été testés ou sont en exploitation pour des
applications similaires ou dédiées à de l’information voyageur. Le lien de
communication entre le véhicule et l'infrastructure s'appuie en général sur des
standards de communication existants tels que TETRA (Terrestrial Trunked
Radio), GSM (Global System for Mobile communication), GPRS (Global Packet
Radio System), EDGE (Enhanced Data rates for GSM) et UMTS (Universal
Mobile Terrestrial System) mais aussi la possible combinaison avec un satellite
de diffusion pour transmettre de l’information vers l’autobus. L'ensemble des
résultats disponibles sur ces expérimentations confirme que les débits offerts
par les standards de communication sans fil existants dans le sens véhicule

14 Rapport INRETS n°275


Introduction

vers infrastructure sont largement insuffisants si l'on veut transmettre de la


vidéo de qualité. Afin de répondre à ce problème, de nouvelles solutions
s’appuient sur le déploiement de modems Wifi le long des lignes du réseau
d’autobus. Se pose alors la question du coût de déploiement compte tenu de la
portée limitée des bornes Wifi et des environnements urbains denses non
propices à la propagation. Les récents standards émergeants de type WMAN
(Wide Metropolitan Area network) tels que le IEEE802.20 ou MBWA ou la
famille des standards WIMAX (Worldwide Interoperability Microwave Access)
connue sous le sigle IEEE 802.16 offre aujourd’hui des débits tout à fait
intéressants dans les sens montant et descendant (3 à 5 Mbps) pour des zones
couvertes allant de 2 km (urbain dense) à 15 km. Partant de ce constat, le lien
de communication développé dans le projet EVAS pour la liaison « bus vers sol
» s’appuie sur le standard WIMAX associé à des techniques multi antennes «
Multiple Input et Multiple Output » (MIMO) et tes techniques turbo en réception
afin d’augmenter la robustesse de la liaison dans le but d’accroître soit la
qualité de service pour une portée donnée soit la portée du système à qualité
de service égale. Plusieurs solutions techniques ont été évaluées en simulation
en fonction de différents paramètres clefs dans des modèles de canaux de
propagation spécifiques transports issus de mesures réalisées sur le terrain.
Les choix technologiques finaux ont été réalisés selon un compromis
efficacité/coût d’implémentation. Une chaîne de transmission réelle a été
développée sur la base de ces choix et fait l’objet du démonstrateur final
présenté dans le dernier chapitre.
Le dernier chapitre de ce rapport présente le démonstrateur réalisé à Lille
avec un autobus Transpole. Le détail de l’architecture du système mis en
œuvre ainsi qu’une description des composants utilisés sont donnés. Nous
présentons les résultats obtenus en particulier pour le lien radio. Enfin, nous
concluons et donnons les perspectives de ces travaux de recherche qui ont
montré la faisabilité et l’intérêt de la continuité d’un service d’aide à la
surveillance entre une flotte de véhicules et l’infrastructure grâce aux
techniques MIMO en mobilité et à l’analyse de l’ambiance sonore et la détection
d’évènement spécifiques.

Rapport INRETS n°275 15


Chapitre 1

Comment une analyse audio


peut-elle compléter une vidéo
surveillance intelligente?

Jean-Luc Rouas, Sébastien Ambellouis, Amaury Flancquart,


Laboratoire Electronique, Ondes et Signaux pour les Transports
INRETS-LEOST
20 rue Elisée Reclus, BP 317
59666 VILLENEUVE D’ASCQ Cedex jean-luc.rouas@inrets.fr
Jean-François Legrand,
MIRIAD Technologies

1. Introduction
L'impossibilité d'assurer une surveillance efficace par des opérateurs dans
des systèmes comprenant un nombre important de caméras a suscité dans le
monde entier de nombreux travaux de recherches visant à automatiser la
vidéosurveillance par l'analyse et l'interprétation en temps-réel des flux vidéos.
Aux USA on peut citer le projet VSAM, 1999, (Video Surveillance And
Monitoring) de Carnegie-Mellon et du MIT avec des applications de surveillance
automatiques des espaces publics (routes, parkings, centre commerciaux etc.)
et militaires (frontières, proximité des bases, ambassades etc.)
En Europe, les travaux de Recherche et Développement tels que ceux
menés dans les projets Européens PCRD4 et PCRD5, CROMATICA (CROwd
MAnagement with Telematic Imaging and Communication Assistance) et
PRISMATICA (PRo-active Integrated Systems for Security MAnagement by
Technological, Institutional and Communication Assistance) et le projet IST
ADVISOR (Annotated Digital VIdeo for Surveillance and Optimised Retrieval)
sur la surveillance automatique ont traité les espaces ouverts en stations, mais
pas l'intérieur des véhicules.
L'environnement particulier constitué par l'intérieur d'un véhicule en
mouvement transportant des passagers pose de nombreux problèmes pour les

Rapport INRETS n°275 17


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

traitements vidéo. Les principales difficultés rencontrées sont liées aux


variations importantes des conditions d'éclairage, à la présence de nombreuses
occultations (lié à la taille du véhicule), notamment lors de moments d'affluence,
mais aussi liées au mobilier intérieur. Une solution à ces problèmes est
d'envisager une détection sonore des événements.
L'utilisation de traitements audio peut être envisagée de deux manières :
— la détection d'événements est entièrement faite grâce aux traitements
acoustiques, et lorsqu'une situation délicate est détectée, les
enregistrements sonores et vidéo sont transmis à l'agent situé au
poste de contrôle qui déterminera s'il y a lieu d'effectuer une action ;
— la détection d'événements peut être faite conjointement avec la vidéo.
Dans ce cas la détection d'un événement étant associée à une
mesure de confiance, elle sera importante si l'événement est détectés
par les deux média. La mesure de confiance fera alors également
partie des informations transmises au poste de contrôle.
Suite à ces considérations, l'objectif de l'étude effectuée au cours de ce
projet est la détection d'événements sonores dans un environnement de
transport en commun. Les événements sonores analysés dans le cadre de
cette première étude sont des événements simples liés à la sécurité des
personnes et à l'intégrité du matériel :
— la détection d'un événement de type « cri » permet de détecter les
scènes de violence ou d'agression physique ;
— la détection d'un événement de type « tag » (bruit lié à l'utilisation de
bombe de peinture) permet de repérer une partie des dégradations
matérielles souvent problématiques pour les opérateurs de transports
en commun.

La démarche adoptée dans le cadre de ce travail est l'utilisation de


méthodes d'apprentissage supervisées. Ainsi, des extraits sonores permettent
de créer un modèle type pour chaque événement que nous voulons
reconnaître. Nous commencerons par décrire rapidement le projet EVAS, les
problèmes rencontrés au cours de la constitution de la base de données et les
méthodes employées. Ensuite, ces méthodes seront expliquées en détail puis
les expériences sont décrites et commentées. Les conclusions et les
perspectives pour les recherches sur ce projet sont évoquées dans la dernière
section.

2. Contexte des travaux


Le projet EVAS s'inscrit dans la démarche initiée par les projets cités plus
haut. Le projet PRISMATICA a eu pour objectifs de développer des systèmes
innovant en matière de sécurité dans les transports, et en particulier dans le
métro. Ce projet a émis un ensemble de recommandations pour la définition
d'une plate-forme de CCTV (Close-Circuit Television) active et s'appuie sur les

18 Rapport INRETS n°275


Comment une analyse audio peut-elle compléter une vidéo surveillance intelligente?
travaux de CROMATICA et ADVISOR. PRISMATICA tire partie de technologies
éprouvées et disponibles depuis plusieurs années (CORBA, MPEG2, MJPEG
etc.) et propose une architecture de vidéo distribuée dans le module MIPSA
(Modular Integrated Pedestrian Surveillance Architecture). Cependant, ce projet
se limitait au cadre de la sécurité dans un environnement fixe (e.g. stations de
métro).
Le projet EVAS a pour objectif la surveillance automatique dans les
véhicules et plus particulièrement les autobus par l'analyse des comportements
des personnes. Il vise à inclure les espaces mobiles avec leurs spécificités et
prendre en compte les limitations de bande passante dans les systèmes de
communications disponibles. La vidéo surveillance en espace mobile implique
le développement et/ou l'adaptation d'algorithmes et d'équipements
d'acquisition vidéo spécifiques, si possible intelligents, capable de réaliser des
pré-traitements permettant de ne transmettre à l'équipement de niveau
supérieur que l'information pertinente.
Le projet doit permettre de spécifier et développer les nouveaux éléments
fonctionnels d'un système d'aide à la vidéo et à l'audio surveillance sans fil dans
les Transports Publics (flotte d'autobus de l'opérateur TRANSPOLE -
Agglomération Lilloise) sur les objectifs suivants :
— Analyser des enregistrements vidéo et sonores massifs sur autobus
urbains afin de définir, avec les équipes de sécurité les besoins
nouveaux en matière de surveillance sonores et visuelles de
situations à risques pour la sécurité des passagers à bord d'autobus
en milieu urbain,
— Tester et valider la mise en œuvre, à bord d'autobus urbains, de
diagnostics sonores automatiques déclencheurs d'alertes sur risques
sécurité passager,
— Tester et valider la faisabilité de levée de doute sur alarme par
communication hertzienne sans fil entre capteurs d'audio/vidéo
surveillance et un poste central, en mode fortement comprimé.

L'ensemble de ces objectifs permet de démontrer la faisabilité d'un système


complet de surveillance avancé avec des possibilités de gestion de crises ainsi
que la faisabilité d'un déploiement efficace sur flotte d'autobus en milieu urbain.
La figure 1 montre les enjeux applicatifs liés au projet.

Les actions de ce projet viennent compléter celles menées dans le cadre du


projet SAMSIT (Système d’Analyse de Médias pour une Sécurité Intelligente
dans les transports publics) dont l’objectif est de développer un système
d’interprétation de scène en associant une analyse automatique des signaux
audio et des signaux vidéo. Le tableau 1.1 permet de positionner le projet
EVAS par rapport au contenu des projets passés et en cours du point de vue
des technologies étudiées et de l’environnement de l’application. Dans ce projet
et contrairement au projet SAMSIT qui traite très précisément de la
combinaison des deux modes de perception, le projet EVAS n’étudie que

Rapport INRETS n°275 19


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

l’automatisation de la tâche d’audio surveillance. La vidéo intervient dans le


système comme le moyen de valider ou non le doute associé à l’alarme
générée et d’identifier exactement la situation en présence et d’apprécier sa
gravité. Les images de la scène filmée sont transmises au poste de sûreté via
un système de communication sans fil. Finalement, le choix est laisser à l’agent
de surveillance situé au poste de sûreté dont l’objectif est de faire intervenir
rapidement l’équipe la plus en adéquation avec le scénario détecté.

Figure 1.1 : Illustrations des tâches liées au projet EVAS

Tableau 1.1 : Tableau comparatif de certains projets d’aide à la vidéo et à


l’audio surveillance
Environnement
Technologies
surveillé
Embarqué Fixe Architecture Télé
Projets Vidéo Audio
(Véhicule) (Station) réseau communication
Cromatica Identification
(EU- oui de situations non non non
PCRD) élémentaires
Prismatica Identification
Reconnaissance Etalement de
(EU- oui de situations
de la parole CORBA spectre
PCRD) élémentaires
Modélisation
Advisor Reconnaissance
oui de situations non non
(EU-IST) de la parole
complexes
Modélisation Identification de
SAMSIT
oui de situations d’événements Service non
(PREDIT)
complexes sonores Web
Uniquement Identification de WiMAX
EVAS
oui en d’événements non MIMO
(PREDIT)
transmission sonores

Dans la suite de cette section, nous commençons par décrire rapidement les
données dont nous disposons sur ce projet. Après la description des données,

20 Rapport INRETS n°275


Comment une analyse audio peut-elle compléter une vidéo surveillance intelligente?
nous parlons rapidement des problèmes et des intérêts liés à l'étiquetage
manuel de la base de données. Ensuite, nous décrirons brièvement les
différentes méthodes proposées: une méthode dite « classique » et une
méthode dite « originale », qui sera décrite plus en détails par la suite.

3. Les bases de données audio


Nous avons utilisé deux types de bases de données audio. Le premier jeu
de données a été enregistré à bord d'un train TER sans passagers publics, mis
à disposition par la SNCF dans le cadre du projet SAMSIT. Le train a été
équipé de matériels d'acquisition sonore et vidéo. Pour la partie audio, nous
avons utilisé quatre microphones répartis sur un autobus.
Différents scénarii ont été envisagés conformément aux demandes de la
SNCF. Nous avons fait appel à des acteurs professionnels pour jouer le plus
naturellement possible les scènes demandées. Les scénarii retenus sont les
suivants :
— Scénario 1 : agression-bagarre 2 personnes (cris)
— Scénario 2 : agression-bagarre plus de deux personnes (beaucoup de
cris)
— Scénario 3 : vol avec violence (peu de cris)
— Scénario 4 : vol à l'arrachée (cri bref)
— Scénario 5 : simulation d'écriture sur les vitres (sans bruit)
— Scénario 6 : signal d'alarme (sans bruit)
— Scénario 7 : mendicité (parole)
— Scénario 8 : scène de confusion sonore importante impliquant un
grand nombre de cris (beaucoup de cris)

Chaque scénario est joué plusieurs fois. Pour chaque type de scénario, les
acteurs ont joué une scène dite « en condition normale », dans laquelle aucune
situation critique n'est présente, mais qui possède des propriétés acoustiques
proches d'une scène qualifiée de critique. Dans le cadre de ce projet, nous
nous sommes principalement intéressés à la détection de cris humains.
L'ensemble des scénarii ne convenant pas totalement pour cette étude,
seuls les scénarii les plus pertinents ont été pris en compte. Ces scénarii sont
les scénarii 1 à 4. Leur durée totale cumulée est 2540 secondes. La durée des
cris est de 138 secondes. La durée moyenne d'un cri est de 2.85 secondes.
Le second jeu de données a été enregistré lors d'acquisitions en conditions
réelles à bord d'un autobus Transpole (sans passagers publics) équipé de 4
caméras et de 4 microphones. La durée totale des enregistrements est de
11678 secondes (soit 194 minutes, ou 3h15min) sur l'ensemble des 4
microphones (environ 2900 secondes par micro, soit 50 minutes). Les
dispositifs d'enregistrement sont illustrés dans le chapitre 3.

Rapport INRETS n°275 21


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

Les demandes de la société d'exploitation Transpole étant similaires à celles


formulées par la SNCF, les mêmes scénarii ont été envisagés. En ce qui
concerne la sécurité des usagers, nous nous sommes plus particulièrement
focalisés sur les vols à l'arraché (notamment de téléphone portable). Coté actes
de malveillance à l'encontre des matériels, nous avons simulé les dégradations
les plus fréquentes, à savoir le « taggage » (bruits liés à l'utilisation de bombes
de peinture) et le « gravage » (à l'aide de clefs) des vitres.
Dans le cadre de la détection automatique de bruits liés à l'utilisation de
bombes de peinture, nous disposons de données provenant de différentes
sources (contrairement au cas de l'étude sur la détection de cris, les bruits liés
à l'utilisation de bombes de peinture sont plus facile à simuler) :
— Les données décrites précédemment ;
— les données laboratoire, enregistrées au laboratoire et constituées de
scénarii comportant des bruits de bombes de peinture mixés avec un
bruit d'environnement de type bus urbain (corpus mis au point dans le
projet TESS – Transport, Espace et Société) ;
— les données studios obtenues dans le cadre d'une collaboration avec
Dan Istrate de l'ESIGETEL (Fontainebleau).
Le tableau 1.2 récapitule les différentes sources de données ainsi que les
durées associées.

Tableau 1.2 : Durées des différentes sources de données


Base de données Durée totale Durées des « tags »
EVAS (enregistrements en conditions 55 min 250 s
réelles)
« labo » (simulations en laboratoire) 269 s 125 s
« studio » 147 s 147 s
TESS (bus en exploitation normale) 6h40 min -

4. Etiquetage manuel et difficultés rencontrées


Avant de décrire les méthodes utilisées, il est important de noter que
l'étiquetage manuel est une étape particulièrement importante dans le contexte
de la classification supervisée. Il convient de souligner la difficulté de l’étape
d'étiquetage manuel. Cette étape a représenté une partie non négligeable du
travail et a porté sur toute la base donc il est important d’en rappeler l'intérêt.
Les méthodes de classification utilisées dans le cadre de ces recherches
sont de type supervisées. Un des problèmes majeurs rencontrés lors de
l'utilisation de ces techniques est le besoin de procéder à un étiquetage manuel
des données d'apprentissage, de manière à créer des modèles spécifiques à
chacune des classes. L'étiquetage manuel sert également de référence lors de
l'évaluation des différentes méthodes proposées. La figure 1.2 illustre une
annotation sur un événement de type cri.

22 Rapport INRETS n°275


Comment une analyse audio peut-elle compléter une vidéo surveillance intelligente?

Figure 1.2 : Illustration d'une annotation de bande sonore

Or, dans le cadre d'un environnement réel, et donc fortement bruité, tel que
pouvant être rencontré dans les transports en commun, l'étiquetage devient
rapidement une tâche ardue.
La présence dans nos données de bruits affectant fortement les
caractéristiques du son à reconnaître (notamment spectrales), il est souvent
difficile de définir s'il est toujours pertinent d'affecter le mélange sonore à l'une
des classes considérées. Ceci est d’autant plus vrai aux frontières des motifs
sonores. Ceci nous amène à nous interroger sur la pertinence d'effectuer
l'apprentissage des modèles sur des données aussi dégradées.
De plus, dans le cadre de l'évaluation des performances, on ne saurait trop
s'interroger sur la pertinence d'une détection d'un son relativement faible noyé
dans un bruit important. Il est cependant regrettable de constater qu'étant
donné que nous disposons de données réelles (et non pas simulées, c'est-à-
dire mixées a posteriori, aucun contrôle sur le rapport signal/bruit n'est possible.
Cependant, étudier les méthodes de détection d'événements dans des
conditions réelles est intéressant d'un point de vue pratique puisque les
comportements des algorithmes sur des données « mixées » et réelles sont
sensiblement différents.

5. Méthode « classique » de traitement


La méthode « classique » utilise des techniques connues en traitement
automatique de la parole. La thématique de recherche sur l'analyse audio dans
des environnements de transport venant d'être initiée, nous ne disposons
d'aucune base de comparaison. Nous avons implémenté cette méthode dans
ce but.
La première étape est la paramétrisation du signal audio. Les paramètres
utilisés sont des coefficients cepstraux [20] extraits selon l'échelle Mel- une
échelle de fréquence non linéaire, liée à la perception humaine. Ces coefficients
sont appelés communément MFCC [19] (Mel Frequency Cepstral Coefficients).
Ils sont couramment employés dans des applications de transcription
automatique de la parole. Nous calculons ces coefficients sur une fenêtre de 16

Rapport INRETS n°275 23


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

ms, avec un recouvrement 8 ms. Ainsi, des observations sont obtenues toutes
les 8 ms. La figure 1.3 illustre le procédé de calcul des MFCC.

Figure 1.3 : Etapes de calcul des MFCC - FFT (Fast Fourier Transform),
DCT (Discrete Cosinus Transform) , CMS (Cepstral Mean Substration)

Après avoir calculé les paramètres sur l'ensemble du signal, les


observations de la partie d'apprentissage du corpus sont regroupées en
classes. Dans notre problème, les classes sont : « Cris » et « Non Cris ».
L'étape suivante est la détermination des modèles permettant de représenter
les distributions des paramètres pour chacune des classes. En phase de test,
ces modèles seront utiles pour tester la similarité de l'échantillon à tester avec
chaque classe.
Une des techniques de modélisation les plus simples et les plus employées
est l'utilisation de Modèles de Mélange de lois Gaussiennes (ou MMG).
Les distributions multidimensionnelles des paramètres sont représentées
par un ensemble de lois Gaussiennes multidimensionnelles permettant
d'approximer quasiment n'importe quel type de distribution statistique (voir
figure 1.4).

Figure 1.4 : Illustration de la modélisation par mélange de lois


gaussiennes

Les sorties obtenues en phase de test sont les probabilités d'appartenance à


chaque classe pour chacun des échantillons. Afin d'améliorer la fiabilité, nous
prenons une décision toutes les 200 ms (soit 25 observations), en faisant
l'hypothèse que les observations sont indépendantes (somme des probabilités).

24 Rapport INRETS n°275


Comment une analyse audio peut-elle compléter une vidéo surveillance intelligente?

6. Méthode « originale »
Cette méthode est une amélioration de la méthode « classique » basée sur
des observations faites en considérant la qualité des enregistrements et les
types de sons à détecter. Ainsi, puisque les enregistrements sont assez
difficiles à exploiter du fait notamment de la présence de nombreux bruits, et
que les sons que nous cherchons à repérer possèdent un niveau sonore très
supérieur au niveau moyen, nous avons fait l’hypothèse qu'un pré-traitement
ayant pour but d'identifier les zones de forte énergie permet d'améliorer les
performances du système, notamment en ne traitant pas les zones non
pertinentes de faible énergie (gain en temps de calcul) et en évitant de créer de
fausses alarmes sur ces zones.
La détection de zones d'activité se fait en trois étapes, que nous décrirons
plus en détail dans la partie suivante :
— Segmentation automatique
— Détection d'activité
— Sélection des zones pertinentes
Au niveau de la paramétrisation, outre les classiques coefficients MFCC,
d'autres paramètres concurrentiels utilisés habituellement dans le cadre du
traitement automatique de la parole ont été testés. Il s'agit des coefficients LPC
(Linear Prediction Coefficients) [15] et PLP (Perceptual Linear Prediction
Coefficients)[6].
Outre le mélange de lois Gaussiennes, une autre méthode de classification,
dite discriminante, est proposée : les machines à vecteurs de support (SVM)
[22].
Cette méthode a pour but de trouver une frontière (non-linéaire) entre deux
classes. Les paramètres représentant les observations d'apprentissage pour
chaque classe sont projetés dans un espace de dimension supérieure. Puis
une frontière linéaire est déterminée dans cet espace de projection. Lors du
retour aux dimensions originelles, la frontière trouvée est alors non-linéaire. En
phase de test, l'échantillon testé est confronté à la frontière, ce qui permet
l'affectation à une classe. Une mesure de confiance est également disponible
en fonction de la distance entre l'échantillon de test et la frontière.
Contrairement au cas de la méthode « classique », les décisions ne sont
plus prises ici à des intervalles de temps réguliers. La zone d'activité dans son
ensemble constitue désormais la zone de décision. Ainsi, les résultats ne sont
plus obtenus toutes les 200 ms comme dans le cas « classique », mais sur des
intervalles de temps irréguliers dépendant de la détection des zones d'activité.
La méthode dite « originale » est détaillée ci-dessous.

Rapport INRETS n°275 25


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

6.1. Segmentation en zones d'activité


Le but du pré-traitement est d'extraire les zones d'intérêt (ou d'activité) à
partir du flux audio, afin de réduire les temps de calcul et d'améliorer les
performances globales. Ce pré-traitement consiste en trois étapes :
— Une segmentation automatique du signal audio, qui sépare le flux
audio en segments quasi-stationnaires ;
— Un algorithme de détection d'activité, dont le but est de supprimer les
segments de silence et les zones où seul le bruit de fond est présent ;
— Une phase de regroupement des segments d'activité.
6.1.1. Segmentation automatique
La segmentation est issue de l'algorithme de « Divergence Forward-
Backward » (DFB) qui est basé sur une étude statistique du signal dans le
domaine temporel. Cet algorithme, décrit dans [1], a été appliqué à la parole, et
par la suite utilisé pour la segmentation parole/musique [14]. Le signal audio est
hypothétiquement décrit par une séquence de segments quasi-stationnaires.
Chaque segment est caractérisé par un modèle statistique, le modèle auto-
régressif Gaussien donné par :

⎧ y n = ∑ a i y n −i + en

⎩ var(en ) = σ n
2

où y n est le signal, e n est un bruit blanc Gaussien de variance σ n2 .


La méthode consiste à détecter les changements dans les modèles
autorégressifs au travers des erreurs de prédiction calculées sur deux fenêtres
d'analyse (figure 1.5). La distance entre les deux modèles est obtenue par le
calcul de l'entropie mutuelle des deux lois conditionnelles correspondantes.
La statistique est définie comme une somme cumulée :
n
Wn = ∑ω k
k =1

1 ⎧⎪ ek0 e1k ⎡ σ 02 ⎤ ek0 ⎡ σ 02 ⎤ ⎫⎪


avec : ω k = ⎨2 − ⎢1 + ⎥ + ⎢1 − ⎥ ⎬ l'entropie mutuelle entre
2 ⎪⎩ σ 12 ⎣ σ 12 ⎦ σ 02 ⎣ σ 12 ⎦ ⎪⎭
les deux modèles dans le cadre Gaussien. L'erreur de prédiction pour chaque
modèle à l'instant k est :
p
e = y k − ∑ a ij y k − j pour i = 0,1
i
k
j =1

26 Rapport INRETS n°275


Comment une analyse audio peut-elle compléter une vidéo surveillance intelligente?
n
Figure 1.5 : Localisation des fenêtres d'estimation des modèles M o et
M 1n au temps n. Le temps « 0 » correspond à la dernière frontière validée.
La phrase (traduite en français) est : « il se garantira du.. ».

Cette méthode a été comparée à des nombreuses autres méthodes de


segmentation [2]. Elle a donné des résultats intéressants pour la
reconnaissance automatique de la parole : des expériences ont montré que la
durée des segments est porteuse d'une information pertinente. L'algorithme
permet d'obtenir une segmentation infra-phonémique où trois types de
segments peuvent être identifiés :
— des segments quasi-stationnaires, correspondant à la partie stable
des phonèmes,
— des segments transitoires,
— des segments courts (d'environ 20 ms).
Leur longueur varie entre 20 et 100 ms pour la parole (figure 1.6).

Figure 1.6 : Résultat de la segmentation sur la phrase : « Confirmez le


rendez-vous par écrit »

Rapport INRETS n°275 27


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

6.1.2. Détection de segments d'activité


La détection d'activité, développé par François Pellegrino, est basée sur une
statistique du premier ordre du signal temporel [13]. Il a été précédemment
intégré dans un système d'identification automatique des langues [17].
L'algorithme de détection d'activité détecte les segments les moins
proéminents (en terme d'énergie) dans l'extrait audio et les autres segments
sont classés Silence ou Activité d'après un seuil adaptatif. Nous pouvons
distinguer les segments de silence montrant une absence d'activité (long
segments) et les silences apparaissant au cours d'une phrase (pauses courtes).
A l'issue des étapes de segmentation et de détection d'activité, des
segments d'activité sont identifiés. Cependant tous ces segments ne sont pas
pertinents, il est donc important d'effectuer un filtrage afin de prendre en
compte uniquement les segments de durée suffisante.
Afin d'écarter les segments trop courts (durée inférieure à 300 ms), une
fusion des segments quasi-adjacents est opérée. Les segments d'activité sont
dits quasi-adjacents s'ils sont séparés par une zone de non-activité d'une durée
inférieure à 300ms. Seuls les segments ayant une durée supérieure à 300 ms
sont conservés. Un exemple de la segmentation obtenue par cette méthode est
donné sur la figure 1.7.

Figure 1.7 : Zones d'activité détectées sur un signal audio (en gris)

6.2. Cadre de modélisation et de classification


Deux méthodes de modélisation des données audio ont été utilisées : les
Modèles de Mélanges de lois Gaussiennes (MMG) et la méthode des Machines
à Vecteurs de Support (SVM). Les deux méthodes sont appliquées à des
paramètres acoustiques extraits du signal audio.
6.2.1. Extraction des paramètres acoustiques
Nous avons étudié les performances obtenues avec différents jeux de
paramètres utilisés en traitement de la parole : les coefficients MFCC, les

28 Rapport INRETS n°275


Comment une analyse audio peut-elle compléter une vidéo surveillance intelligente?
coefficients LPC et les coefficients PLP. Les MFCC et les PLP sont obtenus
après une transformation du signal dans le domaine spectral. Les coefficients
LPC sont basés sont une analyse prédictive faisant l'hypothèse qu'un
échantillon de parole à un instant donné peut être représenté par une
combinaison linéaire des échantillons précédents.
Pour chaque jeu de paramètres, nous avons inclu les coefficients, leurs
dérivées (Δ ) et leurs accélérations (ΔΔ), et ajouté l'énergie totale ainsi que sa
dérivée et son accélération. Les jeux de paramètres que nous avons utilisés
dans les expériences sont donc :
— 12 MFCC, Δ, ΔΔ et leur 3 termes d’énergie (39 coefficients),
— 20 MFCC, Δ, ΔΔ et leur 3 termes d’énergie (63 coefficients),
— 12 LPC, Δ, ΔΔ et leur 3 termes d’énergie (39 coefficients),
— 12 PLP, Δ, ΔΔ et leur 3 termes d’énergie (39 coefficients).
6.2.2. Les MMG
Cette méthode suppose que les différentes classes représentées dans
l'espace des paramètres peuvent être modélisées par une somme pondérée de
distributions Gaussiennes. Les paramètres du mélange de lois Gaussiennes
sont estimés avec l'algorithme EM (Expectation-Maximization ou maximisation
de l'espérance, voir annexe) initialisé par l'algorithme LBG [8].
Cette méthode suppose qu’un ensemble de vecteurs de paramètres issus
d’un jeu d’échantillons sonores appartenant à la même classe suit une loi de
probabilité qui peut être modélisée par un mélange de loi normale.
Soient x un vecteur de paramètres de dimension d et C = {C i }i∈[1, N ] N
{
classes Ci à laquelle x peut appartenir. Soit w j , μ j , Σ j } j∈[1, M ]
un mélange

de M lois normales N j (μ j , Σ j ) associé à la classe Ci . Les paramètres μ j


et Σ j sont respectivement le vecteur moyen des paramètres et la matrice de
covariance de la jème loi gaussienne. w j est la proportion de la jème loi dans le
mélange. La densité de probabilité P ( x / Ci ) est alors donnée par la somme
pondérée des M fonctions gaussiennes p j :

⎧1 t −1 ⎫
M
1 ⎨ ( x−μ j ) Σ j ( x−μ j ) ⎬
P( x / Ci ) = ∑ w j p j ( x) où p j ( x) = 1/ 2
e ⎩2 ⎭
.
j =1 (2π ) d / 2 Σ j

L’objectif de la phase d’apprentissage est de déterminer, pour chaque Ci ,


les M triplets de paramètres à partir d’un ensemble X = {x1 ,..., x m } de
paramètres extraits d’un corpus de motifs sonores représentatif de la classe
considérée. Les 3 × M paramètres gaussiens relatifs à la classe Ci sont alors
obtenus en maximisant la vraisemblance décrite par la relation suivante :

Rapport INRETS n°275 29


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

m
p( X Ci ) = ∏ p( x j Ci )
j =1

Puisque ces valeurs affectent grandement les performances de l'algorithme


EM, une quantification vectorielle (QV, voir annexe) est appliquée à l'ensemble
d'apprentissage pour les optimiser.
Pendant la phase d'identification, tous les segments d'activité détectés dans
le fichier de test sont regroupés et les paramètres sont calculés sur ces
segments. La vraisemblance de cet ensemble de segments Y = {y1 ,..., y m }
pour chaque modèle (noté Ci ) est donnée par :
m
p(Y Ci ) = ∏ p ( y j Ci )
j =1

avec p ( y j C i ) la vraisemblance de chaque segment.

Sous l'hypothèse « Winner Takes All (WTA) » [12], l'approximation de


p ( y j C i ) est donnée par :

⎧ ⎫
α ki
p ( y j Ci ) = max ⎨
⎪ ⎡ 1
( ) (
exp ⎢− y j − μ ki Σ −k1 y j − μ ki
t
)
⎤⎪
⎥⎦ ⎬
1≤ k ≤Qi
⎪ (2π )
p/2
Σ ik ⎣ 2 ⎪
⎩ ⎭
6.2.3. Les SVM
Les expériences menées avec la technique de classification discriminante
par SVM ont été effectuées avec l'aide de Jérôme Louradour (IRIT-Université
Paul Sabatier) dont le sujet de thèse porte sur la vérification du locuteur (voir
par exemple [10]).
Les MMG capturent les distributions des paramètres des différentes classes
et effectuent la classification en utilisant un critère de décision bayésien. Au
contraire, la technique SVM est directement focalisée sur la modélisation d'une
fonction discriminante permettant de séparer les classes. Cette fonction est une
combinaison linéaire de plusieurs fonctions kernel (noyau) k estimées sur les
données d'apprentissage.
Pour un problème de classification binaire, avec les données
+ −
d'apprentissage ( x i ) (respectivement ( x i )) avec les étiquettes li = 1
(respectivement l i = −1 ), la fonction peut être écrite :

( ) (
f ( y ) = ∑α i+ k y, xi+ − ∑α i− k y, xi− + b )
Les poids αi sont positifs, b est un seuil tel que f ( y ) > 0 signifie que
nous devons décider d'affecter l'étiquette 1 à y. La fonction k(.,.) peut être vue
comme un produit scalaire généralisé.

30 Rapport INRETS n°275


Comment une analyse audio peut-elle compléter une vidéo surveillance intelligente?
Le processus d'apprentissage est un problème d'optimisation, pour lequel le
coût à minimiser peut être considéré comme la somme pondérée du risque
empirique (différence avec les valeurs cibles l i = 1 / − 1 ) sur les données
d'apprentissage, et un terme de complexité permettant de contrôler le sur-
apprentissage :
1 N
C= ∑ li − f (xi ) + T (α )
N i =1 +

Le paramètre C joue le même rôle que le nombre de lois dans un mélange


de lois Gaussiennes pour l'approche MMG.
A cause de la discontinuité des dérivées premières du coût, de nombreuses
composantes du vecteur poids optimal α sont nulles, c'est-à-dire qu'une
solution unique est obtenue, conduisant à une procédure de « scoring » rapide.
Les valeurs non nulles de α correspondent aux Vecteurs de Support, qui
définissent, avec la fonction k , la complexité de la frontière de décision
( f ( y ) = 0 ).
Si la matrice K, composée des évaluations de kernel entre chaque paire de
données d'apprentissage (c’est à dire K (i, j ) = k ( xi , x j ) ) est définie positive,
alors il est possible de trouver la solution optimale au problème d'optimisation.
Sinon, la convergence de l'algorithme d'apprentissage n'est pas garantie.
Dans le cas de la classification de données audio, chaque vecteur
acoustique pris individuellement contient peu d'information discriminante, et les
techniques discriminantes appliquées au niveau vectoriel souffrent de la
présence de bruit. Ainsi, il est intéressant d'effectuer un traitement à un niveau
supérieur : le niveau séquentiel.
Comme la manière optimale de combiner les sorties des SVM n'a pas
encore été trouvée (contrairement au cas de MMG qui offre un cadre
probabiliste permettant de traiter des séquences de manière naturelle), nous
nous intéressons ici aux SVM avec des noyaux séquentiels.
Une technique efficace qui a montré de bonnes performances en vérification
du locuteur (problème typique en classification de données audio séquentielles)
est la technique SVM associée à un noyau dit « Generalised Linear
Discriminant Sequence (GLDS) » [3].
Le calcul du noyau entre deux séquences se résume (à quelques
approximations pratiques près) à apprendre un classifieur polynomial vectoriel
sur une séquence et à effectuer les tests sur l'autre séquence.
Le calcul du noyau GLDS implique une expansion polynomiale φp
composée de tous les monômes entre chaque combinaison possible des
composantes du vecteur jusqu'au degré p.
Par exemple : si p=2 et x = [ x1 , x2 ] est un vecteur à deux dimensions alors
t

on a :

Rapport INRETS n°275 31


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

φ p ( x ) = [x1 , x 2 , x12 , x1 x 2 , x 22 ]
t

Le noyau GLDS entre deux séquences de vecteurs X = {xt }t =1..T et


x

Y = {y t }t =1..Ty est donné comme le produit scalaire normalisé entre les


expansions moyennes :
TX TY
k GLDS ( X , Y ) = ∑φ (x ) M ∑φ ( y )
1 t −1 1
p t p p s
TX t =1 TY s =1

avec M p la matrice des moments du deuxième ordre de l'expansion


polynomiale φp estimée sur une population dite "background".

Dans les expériences, nous utilisons cette approximation avec p=3, dans le
but d'avoir une première idée des performances du classificateur SVM.

6.3. Classification
Dans l'objectif d'améliorer les performances de la classification et de réduire
le taux de fausses alarmes, l'utilisation d'un arbre hiérarchique de classification
est envisagée. L'intérêt de l'utilisation de cet arbre est confirmé par les
expériences décrites en section suivante. L'arbre hiérarchique est décrit sur la
figure 1.8. Plusieurs options sont étudiées en fonction de la topologie de l'arbre.
— Pendant la première étape, une détection bruit de fond/bruits à court
terme est effectuée. Le modèle de bruit de fond est appris sur toutes
les parties du signal où le bruit de fond est présent, y compris les
parties contenant de la parole et des cris. Le modèle de bruits à court
terme est entraîné sur des segments de bruits spécifiques (ouverture
des portes, bruits de chocs …).
— Pendant la deuxième phase, une classification parole/non parole est
effectuée. Pour cette étape, nous considérons les cris humains
comme de la parole.
— Enfin, une détection cri/non cri est effectuée.

32 Rapport INRETS n°275


Comment une analyse audio peut-elle compléter une vidéo surveillance intelligente?

Figure 1.8 : Arbre hiérarchique complet utilisé pour la classification

Rapport INRETS n°275 33


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

7. Résultats en matière de détection de cri


Tout d'abord, la procédure de modélisation/classification est testée sur la
partie apprentissage du corpus de manière à confirmer (ou infirmer) la
pertinence du pré-traitement et de l'arbre hiérarchique de classification. Ces
expériences permettent d'évaluer les meilleurs choix techniques.
Pour chaque test, une matrice de confusion est donnée. Pour l'interprétation
des résultats, nous nous focalisons sur le taux de détection des cris et le taux
de fausses alarmes (lorsque des cris sont identifiés alors qu'ils ne le devraient
pas). Le système a pour but d'aider les opérateurs dans leur tâche de
surveillance en leur indiquant au moyen d'une alarme si des cris sont détectés.
Si le système fournit trop de fausses alarmes, l'opérateur ne le prendra plus en
compte.

7.1. Description du corpus utilisé dans les expériences


Les données audio de la base de données ont été enregistrées par nos
soins dans un train TER dans le cadre du projet SAMSIT (voir section
précédente pour plus de détails). Les scénarii considérés lors de cette étude
sont les suivants :
— Scénario 1: scène de bagarre impliquant deux personnes ou plus,
— Scénario 2: scène de bagarre impliquant deux hommes et une
femmes,
— Scénario 3: scène de vol avec violence (deux hommes attaquent une
personne),
— Scénario 4: scène de vol à l'arrachée (sac à main ou téléphone
portable).
Ainsi, la durée totale de la base de données est d'environ 2500 secondes et
la durée totale des cris à détecter est d'environ 140 secondes. Tous les fichiers
de la base de données ont été étiquetés manuellement. La durée moyenne d'un
cri étiqueté manuellement est de 2,85 secondes.

7.2. Intérêt du pré-traitement


Les expériences suivantes tentent de montrer la pertinence du pré-
traitement (segmentation en zones d'activité) dans le contexte des MMG. Ces
expériences sont effectuées en utilisant comme paramètres 12 MFCC et
l'énergie globale, avec leurs dérivées premières et secondes. Le tableau 1.3
montre les meilleurs résultats obtenus sans pré-traitements.
Les vecteurs d'observation sont calculés toutes les 8 ms sur une partie du
signal. Un lissage a posteriori permet d'obtenir une décision toutes les 200 ms.

34 Rapport INRETS n°275


Comment une analyse audio peut-elle compléter une vidéo surveillance intelligente?
Tableau 1.3 : Résultats sur les données d'apprentissage, sans pré-
traitement et sans classification hiérarchique
Résultats Æ Non cris Cris
Attendus È
Non cris (2402 s) 85.0% (2043 s) 15.0% (360 s)
Cris (138 s) 24.1% (35 s) 75.9 % (109 s)

Dans un souci de comparaison, des expériences ont également été menées


en utilisant le même système, mais avec pré-traitement. Dans ces expériences,
les paramètres sont uniquement calculés sur chaque zone d'activité. Une
décision est alors prise sur l'ensemble de la zone d'activité. Le tableau 1.4
montre les meilleurs résultats obtenus avec cette méthode.

Tableau 1.4 : Résultats sur les données d'apprentissage, avec pré-


traitement et sans classification hiérarchique
Résultats Æ Non cris Cris
Attendus È
Non cris (2402 s) 97.0% (2330 s) 3.0% (73 s)
Cris (138 s) 24.2% (33 s) 75.8 % (105 s)

En ce qui concerne le taux de bonne détection des cris, les résultats sont
quasiment identiques que l'on emploie ou non la phase de pré-traitement
(environ 75% d'identifications correctes). Toutefois, le taux de fausses alarmes
décroît significativement lorsque le pré-traitement est utilisé (seulement 73s de
fausses alarmes contre 360s sans le pré-traitement).
Ces expériences montrent donc l'intérêt d'utiliser la phase de pré-traitement
puisqu'elle n'influence pas les performances en terme de détection de cris tout
en réduisant nettement le nombre de fausses alarmes.

7.3. Intérêt de la classification hiérarchique


Les expériences présentées ici ont pour but de démontrer si l'usage de la
classification hiérarchique permet d'améliorer les performances. Dans les deux
expériences suivantes, le système employé est exactement le même, sauf en
ce qui concerne la présence ou non du classifieur hiérarchique. Le pré-
traitement est appliqué dans les deux cas.
Les paramètres utilisés sont 12 MFCC avec l'énergie globale, leurs dérivées
premières et secondes. Les modèles sont des MMG. Les résultats obtenus
sans utiliser la classification hiérarchique sont décrits dans le tableau 1.3.
Comme nous l'avions précisé plus haut, l'arbre de classification hiérarchique
est composé tout d'abord d'une décision bruit de fond/bruits à court-terme, puis
d'une décision parole/non parole.
Pour la décision bruit de fond/bruits à court terme, les modèles de bruit à
court terme sont appris avec des exemples de bruits à court terme (e.g. bruits
de portes, etc.).

Rapport INRETS n°275 35


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

Le modèle de bruit de fond est entraîné en utilisant toutes les autres


données (avec les parties de parole et les cris). Le modèle de parole est
entraîné avec toutes les parties des données contenant de la parole, y compris
les cris. Le modèle de non parole est appris en utilisant toutes parties ne
contenant pas de la parole. Les résultats obtenus avec l'arbre de classification
sont décrits dans le tableau 1.5.

Tableau 1.5: Résultats sur les données d'apprentissage, avec pré-


traitement et avec l'arbre hiérarchique
Résultats Æ Non cris Cris
Attendus È
Non cris (2402 s) 98.3 % (2363 s) 1.6 % (39 s)
Cris (138 s) 25.6 % (35 s) 74.3 % (103 s)

Les résultats sont quasiment identiques en ce qui concerne le taux


d'identification correcte des cris, que l'arbre de décision soit utilisé ou non
(environ 75 % d'identifications correctes), bien qu'ils soient légèrement moins
bons lorsque l'arbre de décision est utilisé (103 s contre 105 s d'identifications
correctes).
De plus, le taux de fausses alarmes décroît lorsque l'arbre de décision est
utilisé (seulement 39 s de fausses alarmes contre 73 s précédemment).
Comme cela a été dit auparavant, ce système est développé dans le cadre
d'une aide à un opérateur humain.
Le but du système n'est pas de détecter tous les événements (cris) avec
exactitude, mais de détecter au moins un cri pour chaque scénario où les cris
sont présents.
Le plus important est de limiter le nombre de fausses alarmes, puisque si le
système génère trop de fausses alarmes, cela constituera une gêne pour
l'opérateur. Les résultats obtenus avec le système complet ont donc été
évalués de manière plus précise sur le tableau 1.6.
Ce tableau montre les résultats obtenus pour chaque scénario et pour
chaque condition (normal ou scène). Même si le nombre et la durée des cris
identifiés ne correspondent pas précisément au nombre de cris étiquetés
manuellement, nous pouvons observer qu'au moins une partie des cris est
détectée pour chaque condition « scène ». De plus, les fausses alarmes
apparaissant dans les conditions « normale » sont fort peu nombreuses et la
durée des cris identifiés dans ces cas est faible. Cependant, ces expériences,
préliminaires, ont été menées en prenant les mêmes données pour faire
l'apprentissage et le test, et le système n'a pas été optimisé pour obtenir le
moins de fausses alarmes possibles (ce qui serait au détriment du taux
d'identification des cris).
Les expériences présentées dans la section suivante démontrent la
potentialité d'utiliser ce système dans des conditions réelles (ensemble de test
inconnu) par le biais d'une validation croisée. De plus, des tests sont effectués

36 Rapport INRETS n°275


Comment une analyse audio peut-elle compléter une vidéo surveillance intelligente?
afin de trouver les meilleurs réglages de façon à minimiser le nombre de
fausses alarmes.

Tableau 1.6: Présentation des résultats détaillés obtenus avec le système


complet (première colonne : référence du scénario, deuxième colonne :
condition normale ou scène, troisième colonne : nombre de micros
utilisés, quatrième et cinquième colonnes : nombre et durée des cris
étiquetés manuellement, septième et huitième colonnes : nombre et durée
des cris détectés)
scenario scène Numéro Nombre de Nombre de
du micro cris (durée) cris (durée)
détectés
Scenar1 Normale 2 0 (0 s) 4 (2,58 s)
Scenar1 Scène 2 5 (28,43 s) 8 (23,12 s)
Scenar2 Normale 2 0 (0 s) 2 (1,73 s)
Scenar2 Scène 2 17 (56,49 s) 31 [31,22 s)
Scenar3 Normale 2 0 (0 s) 3 (1,83 s)
Scenar3 Scène 2 17 (42,83 s) 27 (42,21 s)
Scenar4 Scène 4 9 (8,95 s) 15 (10,35 s)

7.4. Expériences en validation croisée


Le but de la validation croisée est d'estimer de quelle manière les modèles
que nous avons appris sur les données d'apprentissage vont se comporter sur
des données de test inconnues. Nous utilisons ici la technique dite Leave-one-
out. Cette méthode implique trois étapes :
— Tout d'abord, les modèles sont entraînés sur tous les scénarii sauf un ;
— Ensuite, les modèles sont évalués sur le scénario restant ;
— Chacune de ces étapes est alors répétée jusqu'à ce que tous les
scénarii aient été testés.
Dans la méthode d'évaluation, nous ne considérons pas uniquement les
performances en termes de détection d'événements, mais également la
précision temporelle de la détection. Les résultats sont donc exprimés en terme
de durées correctement identifiées (pour les cris et les non cris) et de durées
mal identifiées. Nous présentons ici uniquement les taux de détection des cris
et le taux de fausses alarmes. La procédure de validation croisée est donc
utilisée sur tous les fichiers de la base de données et pour les deux algorithmes
de classification (MMG et SVM).
Dans le cadre de la modélisation par MMG, nous avons testé différents
nombres de lois Gaussiennes. De la même manière, pour les SVM, le
paramètre C varie dans l'intervalle [0.01, 10]. Les résultats sont donnés
graphiquement.
Le taux d'identifications correctes des cris et de cris non identifiés
correspondent respectivement aux barres blanches et grises. Le taux de

Rapport INRETS n°275 37


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

fausses alarmes est la courbe rouge. Les résultats obtenus avec les MMG sont
décrits sur la figure 1.9.

Figure 1.9 : Résultats obtenus en validation croisée avec les MMG. Les
identifications correctes correspondent aux parties blanches des barres.
Les mauvaises classifications sont représentées par les parties grises de
barres. Les fausses alarmes sont représentées par la courbe. (a) 12 MFCC
+ E + Δ + ΔΔ, (b) 20 MFCC + E + Δ + ΔΔ, (c) 12 LPC + E + Δ + ΔΔ (d) 12
PLP+ E + Δ + ΔΔ

Ces graphiques montrent que le taux de fausses alarmes le plus faible est
obtenu en utilisant 1024 lois gaussiennes et pour les ensembles de paramètres
(b) et (d). La durée des fausses alarmes dans ces deux cas est respectivement
de 9,4 s et 14 s. Elle est relativement faible par rapport à la durée totale du
corpus (environ 2540 s), et également par rapport à la durée des cris à identifier
(environ 140 s).
Le tableau 1.7 montre les résultats d'une autre manière pour ces deux
ensembles de paramètres. Dans ce tableau, nous pouvons voir que lorsqu'il n'y
a pas de cris à détecter (condition « Normale »), l'algorithme ne produit que très
peu de fausses alarmes (seulement 1,3 s de cris détectés dans la condition «
Normale » du deuxième scénario).
Le taux de détection des cris ne semble pas très bon. Cependant, même si
tous les cris ne sont pas détectés précisément dans les scènes dénotées «

38 Rapport INRETS n°275


Comment une analyse audio peut-elle compléter une vidéo surveillance intelligente?
Scène », la classification par MMG avec les paramètres PLP montre de bonnes
performances en termes de nombre de cris identifiés. Une situation critique
étant la plupart du temps composée de plusieurs cris, la détection d'une partie
de ces cris peut être suffisante afin d'identifier cette situation et de déclencher
l'alarme.

Tableau 1.7 : Résultats pour la classification par MMG (1024 lois


Gaussiennes, paramètres 20 MFCC et 12 PLP). Les résultats sont montrés
comme le nombre et la durée des cris à détecter pour chaque scénario.
scenario scène Etiquetage GMM GMM
manuel (12 PLP) (20 MFCC)
Scenario 1 Normal 0 (0 s) 3 (1,2 s) 2 (0,8 s)
Scène 5 (28,4 s) 4 (10,4 s) 13 (27,8 s)
Scenario 2 Normal 0 (0 s) 1 (1,3 s) 1 (1,3 s)
Scène 17 (57,4 s) 17 (34,4 s) 6 (8,8 s)
Scenario 3 Normal 0 (0 s) 1 (0,5 s) 0 (0 s)
Scène 17 (43 s) 14 (24,3 s) 8 (16,9 s)
Scenario 4 Scène 9 (9,2 s) 9 (9,,5 s) 5 (4,0 s)

Les mêmes expériences ont été effectuées avec classification par SVM. Les
résultats sont résumés sur la figure 1.10. Les graphiques montrent que la
classification par SVM permet d'obtenir des taux de fausses alarmes inférieurs
à ceux obtenus par les MMG. Les meilleurs paramètres sont toujours 20 MFCC
et 12 PLP, avec une durée de fausses alarmes de respectivement 6.2s et 7.4s.
De plus, les performances en termes de durée de cris correctement identifiés
semblent meilleures que pour le cadre MMG.
Nous avons également évalué en détail les résultats obtenus pour ces deux
ensembles de paramètres en utilisant la classification par SVM. Les résultats
sont décrits dans le tableau 1.8.
Ce tableau nous permet de vérifier que les SVM permettent d'obtenir de
meilleures performances en termes de fausses alarmes, exception faite de la
scène « Normale » du scénario 2, pour laquelle un ou deux cris sont détectés.
De la même manière que pour la classification par MMG, des performances
légèrement meilleures sont obtenues avec les paramètres PLP.
Lorsque l'on compare les approches MMG et SVM avec les paramètres
PLP, nous pouvons observer que l'approche SVM permet d'obtenir moins de
fausses alarmes que la classification par MMG : une seule fausse alarme de
1,3 secondes contre cinq fausses alarmes d'une durée totale de 2,98 secondes.
Cependant le taux d'identification des cris est moins bon pour l'approche SVM.

Rapport INRETS n°275 39


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

Figure 1.10 : Résultats obtenus en validation croisée avec les SVM. Les
identifications correctes correspondent aux parties blanches des barres.
Les mauvaises classifications sont representées par les parties grises
des barres. Les fausses alarmes sont représentées par la courbe.(a) 12
MFCC + E + Δ +ΔΔ (b) 20 MFCC + E + Δ + ΔΔ (c) 12 LPC + E + Δ + ΔΔ (d)
12 PLP+ E + Δ + ΔΔ

40 Rapport INRETS n°275


Comment une analyse audio peut-elle compléter une vidéo surveillance intelligente?

Tableau 1.8 : Résultats pour la classification par SVM, paramètres 20


MFCC et 12 PLP. Les résultats sont donnés en termes de nombre et durée
des cris à identifier pour chaque scénario.
scenario scène Etiquetage SVM SVM
manuel (12 PLP) (20 MFCC)
Scenario 1 Normal 0 (0 s) 0 (0 s) 0 (0 s)
Scène 5 (28,4 s) 5 (18,7 s) 4 (14,8 s)
Scenario 2 Normal 0 (0 s) 1 (1,3 s) 2 (1,3 s)
Scène 17 (57,4 s) 11 (29,1 s) 10 (25,5 s)
Scenario 3 Normal 0 (0 s) 1 (0 s) 0 (0 s)
Scène 17 (43 s) 11 (23,6 s) 14 (28,3 s)
Scenario 4 Scène 9 (9,2 s) 8 (6,8 s) 6 (6,0 s)

7.5. Conclusions et perspectives


Nous avons proposé et comparé deux méthodes de classification dans le
but de détecter des cris dans un véhicule de transport public. Les deux
méthodes ont été évaluées dans le cadre d'un environnement réel. Cet
environnement est très bruité et les deux approches ont montré des
performances prometteuses.
Nous avons montré que la méthode SVM est celle qui génère le moins de
fausses alarmes tandis que la méthode MMG permet d'obtenir un meilleur taux
d'identification. Dans le cadre d'une application à la surveillance, le point le plus
important est de ne pas générer trop de fausses alarmes. Le fait de ne pas
détecter quelques cris n'est pas très important si nous arrivons à en détecter
un nombre suffisant de manière à déclencher l'alarme. Ainsi, un compromis doit
être fait afin de choisir la méthode de classification. Les paramètres PLP
associés à la classification par SVM est le meilleur choix technique pour notre
application.
Les recherches effectuées dans le cadre de ce projet ont pour l'instant
donné lieu à deux publications dans des congrès internationaux : IEEE ITSC
2006 (IEEE Conference on Intelligent Transportation System) [18] et ICDP 2006
(Imaging for Crime Detection and Prevention) [21].

8. Résultats en matière de détection du bruit de


bombes de peinture
Pour cette étude, nous nous sommes focalisés sur la détection des bruits
liés à l'utilisation de bombes de peinture (scénarii de « taggage »). La durée
totale des fichiers utilisés est de 3302 secondes (55 minutes -- soit 13 min 45 s
par micro). Les bruits liés à l'utilisation de bombes de peinture sont présents
dans ces données à hauteur de 250 secondes (4 minutes) sur l'ensemble des 4
micros.

Rapport INRETS n°275 41


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

La méthode employée est la méthode classique. Une différence est toutefois


à noter en ce qui concerne l'apprentissage des modèles. En effet, nous avons
étudié différentes approches de manière à avoir un apprentissage correct en
utilisant le moins de données possible, dans l'objectif de ne plus avoir recours à
la validation croisée. La validation croisée ne construit pas de modèle utilisable
mais ne sert qu'à estimer la robustesse d'un modèle. Cette technique est
également assez lourde à mettre en place. Afin d'utiliser les données provenant
de différents enregistrements, nous nous sommes donc intéressés aux
techniques d'adaptation.

8.1. Paramètres
Dans un premier temps, nous nous sommes interrogés sur la pertinence
d'employer les mêmes paramètres que ceux utilisés pour effectuer la détection
des cris. En effet, la bande spectrale recouverte par les bruits liés aux bombes
de peinture est très large (voir figure 1.11).

Figure 1.11 : Illustration d'un événement de bruit lié à l'utilisation de


bombes de peinture (en haut : spectrogramme, en bas : signal sonore)

Or les paramètres utilisés jusqu'ici sont des paramètres orientés parole. Ils
sont calculés uniquement sur les bandes de fréquences nécessaires à la
compréhension orale (typiquement entre 300 Hz et 8000 Hz --- bande passante
téléphonique).
Il a donc été important de modifier la technique de calcul de ces paramètres
afin de prendre en compte la plus large bande de fréquence possible (jusqu'à
20 kHz, puisque nos enregistrements sont effectués à 44,1 kHz).

8.2. Adaptation aux conditions acoustiques


De nombreux essais ont été effectués en utilisant les différentes données
d'apprentissage, afin de trouver le meilleur compromis. Nous n'avons utilisé que
les données « labo » dans un premier temps, ce qui s'est avéré insuffisant.
Les résultats en détection du bruit de bombes de peinture n'étaient pas
satisfaisants (5 % d'identifications correctes - 11 s), de plus le système
provoquait de nombreuses fausses alarmes (260 s).
Par la suite, nous avons utilisé les données «studio» et les données «labo»
pour l'apprentissage. Cette fois encore, les résultats n'ont pas été concluants

42 Rapport INRETS n°275


Comment une analyse audio peut-elle compléter une vidéo surveillance intelligente?
(7 % d'identifications correctes - 20s), ce qui a amené à considérer le problème
de l'adéquation aux conditions acoustiques particulière au bus.
Afin de prendre en compte les particularités de cet environnement
acoustique, une procédure d'adaptation des modèles [16] a été suivie :
— Le modèle «de fond» (appelé communément Background) est appris.
— Ce modèle est ensuite utilisé comme référence pour créer le modèle
«adapté» en utilisant les données «studio» et «labo».
— Lors des tests, la décision est faite par rapport au modèle «de fond»
et au modèle «adapté».
Cette méthode a permis d'obtenir les meilleurs résultats, consignés dans le
tableau 1.9.

Tableau 1.9 : Résultats en détection de bruits liés à l'utilisation de bombes


de peinture

Résultats Æ Non Tags Tag


Attendus È
Non Tag (3008 s) 99,4 % (2991 s) 0,5 % (17 s)
Tag (269 s) 83,6 % (216 s) 16,4 % (44 s)

Ces résultats illustrent la difficulté de la tâche. Il n'est en effet pas aisé


d'identifier des événements sonores dans un environnement aussi bruité que
celui d'un bus de transport urbain en conditions d'exploitation. Il est toutefois
remarquable que le taux de fausses alarmes est ici relativement faible.

8.3. Conclusions
Considérant le fait que dans un scénario de « taggage » le nombre de bruits
liés à l'utilisation de bombes de peinture est relativement conséquent, les
performances en détection ne doivent pas nécessairement être excellentes.
Cependant, les résultats obtenus sont à prendre avec précaution. En effet,
l'étiquetage manuel des bruits liés aux bombes de peinture est assez délicat et
le niveau sonore parfois faible (lié au positionnement des différents micros) les
rend difficile à détecter (à l'oreille comme avec le spectrogramme). Dans ces
conditions, il convient de s’interroger sur les techniques d'évaluation à employer
conformément au cahier des charges. Que doit-on détecter en réalité ?
Lorsqu'un bruit est trop faible sur un micro, peut-on se contenter d'une détection
sur un micro mieux placé ?
Il serait alors intéressant de se pencher sur des évaluations plus soignées,
prenant en compte le rapport signal/bruit (difficile à estimer en conditions
réelles).

Rapport INRETS n°275 43


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

9. Conclusions et perspectives
Les travaux réalisés dans ce projet, bien que permettant déjà d'obtenir des
résultats satisfaisants, ne constituent qu'une pré-étude concernant l'intégration
de technologie audio pour la surveillance dans les environnements de
transports en commun. Ces recherches doivent évidemment être approfondies,
de manière à profiter des dernières avancées techniques, que ce soit dans les
domaines de la paramétrisation des signaux audio, des procédés de débruitage
et de séparation de sources multicapteur, ou des algorithmes de classification.
D'une manière générale, un des problèmes à résoudre concernent la
définition des événements à reconnaître. Si ce problème n'est pas essentiel
dans le cas de la détection de bruits liés à l'utilisation de bombes de peinture, la
question reste entière pour ce qui concerne l'identification des cris humains.
Comment définir un cri ? Quelle est la différence entre quelqu'un qui parle fort
et quelqu'un qui crie ? Afin de répondre à ces questions, il serait très
intéressant de mener une étude sur l'analyse de conversations menant à des
situations de violence verbale qui permettrait de définir s'il existe des
différences perceptibles entre la voix « normale » et la voix criée.
Comme nous l'avons vu dans les expériences présentées dans ce rapport,
pour obtenir de bonnes performances, il est important de faire le bon choix de
paramètres. Les paramètres étudiés dans le cadre de la détection de cris
humains sont des paramètres appropriés lorsque l'on cherche à modéliser la
parole.
Au cours des expériences menées en détection de bruits liés à l'utilisation
de bombes de peinture, nous avons remarqué que la bande spectrale couverte
par ces paramètres pouvait ne pas contenir toutes les informations pertinentes
pour la détection de ces bruits. Nous avons donc modifié légèrement la
méthode de calcul de ces paramètres en élargissant la bande spectrale prise
en compte. Cependant, nous n’avons effectué cette modification et ces
expériences qu'avec les paramètres de type MFCC. Il est aujourd’hui
nécessaire d'effectuer ces expériences en modifiant les méthodes de calcul des
autres types de paramètres afin de pouvoir comparer les résultats.
D'autres paramètres pourraient être plus adaptés à la tâche demandée. Des
recherches récentes ont montré l'intérêt d'utiliser des transformées en
ondelettes, notamment dans le cadre d'un habitat médical sécurisé [7], ou bien
en indexation automatique de la bande sonore de documents audio-vidéo
(séparation parole/musique [54]).
L'utilisation de techniques de débruitage, qui, même si elle dégradent les
caractéristiques spectrales du signal, peut être utile dans le cadre notamment
des transports en bus urbain.
Un important travail reste à faire en profitant de la possibilité d'utiliser les 4
microphones de manière à localiser l'emplacement des sources sonores
provoquant les alarmes. Ainsi, le capteur audio pourrait aider le système de
surveillance vidéo à localiser les personnes incriminées. Les techniques de
débruitage et séparation de sources permettraient d'obtenir une amélioration

44 Rapport INRETS n°275


Comment une analyse audio peut-elle compléter une vidéo surveillance intelligente?
des performances (en ne considérant que le « meilleur » microphone pour
effectuer la détection) et d'obtenir des informations supplémentaires (position
du « meilleur » micro et par conséquent positionnement de l'action). Il est
important de noter que les performances attendues, tant du point de vue de la
détection des événements audio que de leur localisation, sont conditionnées
par une répartition et un positionnement judicieux des microphones dans le
véhicule.
D'autres méthodes de classification devraient être testées, les résultats
obtenus par la classification discriminante (SVM) sont prometteurs, mais
méritent d'être confrontés à d'autres approches. Une collaboration avec le
Laboratoire d'Analyse des Systèmes du Littoral (LASL, Calais) permet
d'envisager la classification non supervisée des événements sonores
apparaissant dans le signal audio.
Avec Alissar Nasser [11], nous avons mené des expériences visant à la
classification non supervisée pour la séparation de zones de parole/zones de
bruit en testant différents types de bruits (bus ou train), zones de parole bruité,
bruit sans parole, séparation de deux locuteurs etc. Différentes techniques de
classification non supervisée ont été testées dans cet objectif : k-means, Kernel
k-means, Spectral Clustering. Ces recherches n'en sont qu'à un stable
extrêmement préliminaire, et nécessitent encore un investissement conséquent.
La classification ne serait alors plus limitée aux classes recherchées mais
permettrait l'identification d'événements nouveaux qualifiant aussi bien le bon
fonctionnement des installations que des situations plus critiques.
Menées avec Alissar Nasser, des recherches ont également été engagées
dans le but de réduire la dimension des vecteurs d'observation (pouvant aller
jusqu'à plus de 60 paramètres) en utilisant les techniques de PCA et Kernel
PCA. Ces études doivent également être approfondies et permettraient à terme
d'améliorer les performances du système en terme de temps de calcul.
Les techniques d'évaluation peuvent être améliorées. En effet, au cours de
cette étude, les techniques utilisées sont classiques dans le domaine de la
reconnaissance de la parole. Ces techniques ne sont pas adaptées aux
problèmes spécifiques de la détection d'événements dans le cadre de la
sécurité dans les transports en commun.
Un travail important reste donc à faire de ce point de vue. Un cahier des
charges précis devra être documenté afin de conduire à une procédure
d'évaluation spécifique. Les problèmes concernent principalement la qualité de
la détection (détecter un événement par scénario peut-il suffire ?), la pertinence
de la détection (doit-on détecter un événement sur tous les micros même si le
niveau sonore perçu n'est pas égal ?) et la robustesse (évaluer le rapport
signal/bruit afin de définir les limites des traitements proposés).
Ce travail, constituant la première étude pour la détection d'événements
sonores dans les transports en communs et l'application de cette détection à
des tâches de sécurité, permet d'illustrer l'intérêt de compléter les
traditionnelles surveillances vidéo. Cependant, malgré de premiers résultats
prometteurs, de nombreuses questions restent en suspens, il est donc bien
évidemment nécessaire de continuer les recherches dans cette voie.

Rapport INRETS n°275 45


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

10. Bibliographie
[1] R. André-Obrecht.A new statistical approach for automatic speech seg
mentation. IEEE Transanctions on Acoustics, Speech and Signal
Processing, 36(1) pp29–40, 1988.
[2] Régine André-Obrecht. Segmentation et parole, Habilitation à diriger des
recherches, Université de Rennes - IRISA, Rennes, June 1993.
[3] W.M. Campbell, J.P. Campbell, D.A. Reynolds, E. Singer, et P.A. Torres-
Carrasquillo. Support vector machines for speaker and language
recognition. Computer Speech and Language, 20(2-3) pp210–229,
April-July 2006.
[4] E. Diday. Cluster analysis. In Digital Pattern Recognition, pages 47–94.
Springer Verlag.
[5] E. Didiot, I. Illina, O. Mella, D. Fohr, et J.P. Haton. Une nouvelle approche
fondée sur les ondelettes pour la discrimination parole/musique. In
Journées d’Etudes de la Parole, 2006.
[6] Hynek Hermansky. Perceptual linear predictive (plp) analysis of speech.
Journal of Acoustical Society of America, 87(4) -pp1738–1752, June
1990.
[7] D. Istrate, E. Castelli, M. Vacher, L. Besacier, et J.F. Serignat. Information
extraction from sound for medical telemonitoring. IEEE Transactions
on Information Technology in Biomedicine, 10(3) :264–274, 2006.
[8] Y. Linde, A. Buzo, et R.M. Gray. An algorithm for vector quantizer design.
IEEE Transactions on Communications, 28(1) pp84–95, 1980.
[9] S. Lloyd. Least squares quantization in pcm. Technical report, Bell
Telephone Laboratories Papers, 1957.
[10] Jérôme Louradour et Khalid Daoudi. Conceiving a new sequence kernel
and applying it to svm speaker recognition. In Eurospeech, Lisboa,
Portugal, 2005.
[11] Alissar Nasser, Denis Hamad, et Chaiban Nasr. K-means clustering
algorithm in projected spaces. In Fusion 2006, Florence, Italia, 2006.
[12] S. Nowlan. Soft Competitive Adaptation : Neural Network Learning
Algorithm based on fitting Statistical Mixtures. PhD thesis, School of
Computer Science, Carnegie Mellon University, 1991.
[13] F. Pellegrino et R. André-Obrecht. Vocalic system modeling : A vq
approach. In IEEE Digital Signal Processing, pages 427–430,
Santorini, July 1997.
[14] Julien Pinquier, Jean-Luc Rouas, et Régine André-Obrecht. Fusion de
paramètres pour une classification automatique parole/musique
robuste. In Technique et science informatiques (TSI) : Fusion
numérique/symbolique, volume 22, pages 831–852. Hermes, 8, quai
du marche neuf, F-75004 Paris, 2003.

46 Rapport INRETS n°275


Comment une analyse audio peut-elle compléter une vidéo surveillance intelligente?
[15] L. R. Rabiner et R. W. Schafer. Digital signal processing of speech signals.
Prentice Hall International, 1968.
[16] Douglas A. Reynolds, Thomas F. Quatieri, et Robert B. Dunn. Speaker
verification using adapted gaussian mixture models. Digital Signal
Processing, 10(1-3), 2000.
[17] Jean-Luc Rouas, Jérôme Farinas, François Pellegrino, et Régine André-
Obrecht. Rhythmic unit extraction and modelling for automatic
language identification. Speech Communication, 47(4) pp 436–456,
2005.
[18] Jean-Luc Rouas, Jérôme Louradour, et Sébastien Ambellouis. Audio
events detection in public transport vehicle. In 9th International IEEE
Conference on Intelligent Transportation Systems (ITSC’2006),
Toronto, Canada, Septembre 2006.
[19] Davis S. et Mermelstein P. Comparison of parametric representations for
monosyllabic word recognition in continuously spoken sentences.
IEEE Transactions on Audio, Speech and Signal Processing, 28(4) pp
357–366, 1980.
[20] J. W. Tukey, B. P. Bogert, et M. J. R. Healy. The frequency analysis of time
series for echoes: Cepstrum, pseudo-autocovariance, cross-cepstrum,
and saphe-cracking. In M. Rosenblatt, editor, Proceedings of the
Symposium on Time Series Analysis, volume 15, pages 209–243.
New York : Wiley, 1963.
[21] Van-Thinh Vu, Quoc-Cuong Pham, Jean-Luc Rouas, Francois Bremond,
Nicolas Allezard, Sébastien Ambellouis, Gabriele Davini, Patrick
Sayd, Amaury Flancquart, et Monique Thonnat. Audio-video event
recognition system for public transport security. In IET Imaging for
Crime Detection and Prevention (ICDP 2006), London, UK, June
2006.
[22] V. Vapnik, Statistical Learning Theory, Wiley-Interscience, New York, 1998

Rapport INRETS n°275 47


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

48 Rapport INRETS n°275


Chapitre 2

Techniques MIMO pour un lien sans


fil robuste entre un autobus et un
poste de contrôle

Gérald Moniak, Marion Berbineau,


Laboratoire Electronique, Ondes et Signaux pour les Transports
INRETS-LEOST
20 rue Elisée Reclus, BP 317
59666 VILLENEUVE D’ASCQ Cedex gerald.moniak@inrets.fr,
marion.berbineau@inrets.fr,
Marc Chenu-Tournier
THALES Communications

1. Les télécommunications sans fil pour les


transports publics urbains
1.1 Le contexte transport
Avec le développement de l'électronique, de l'informatique et des
télécommunications, les besoins en transmission dans les transports publics se
sont multipliés. Aux besoins de transmissions initiaux liés au contrôle-
commande, à l'exploitation et à la maintenance, s'ajoutent aujourd'hui les
besoins d'information et de services à destination des clients à tout moment. Il
est aujourd'hui communément admis que ces services rendent les transports
publics plus attractifs, favorisent les usages multimodaux et augmentent le
sentiment de sécurité des clients des transports publics. Ces applications
nécessitent des liens de transmission sans fil entre les véhicules de transport
public et le sol, entre les véhicules eux-mêmes et à l'intérieur du véhicule.
De nombreux systèmes dédiés à des flottes d'autobus ont déjà été testés.
Le lien de communication entre le véhicule et l'infrastructure s'appuie sur des
standards de communication existants. Citons à titre d'exemples:

Rapport INRETS n°275 49


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

— les systèmes AIGLE et ALTAÏR de la RATP [ESC01] qui utilisent un lien


de communication de type TETRA ;
— les projets SECURBUS d'Integral Media à Belfort [SEC02] et LOREIV à
Marseille [DAV01] pour lesquels un réseau TETRA ou TETRAPOL doit
être déployé,
— en 2004, la RATP a présenté au salon des transports publics un projet
d'autobus "communiquant" possédant un lien de communication multi
réseaux (GSM, GPRS, UMTS et WiFi ) à l'intérieur du bus. Dans ce
système développé en étroite collaboration avec Naxos et CISCO
Systems, un routeur permettait de passer d'un réseau à un autre selon
la disponibilité optimale. Cette solution permettait de limiter la coupure
du lien. Par contre, l'utilisation conjointe de ces réseaux hétérogènes ne
permet pas de garantir continuellement le débit nécessaire à une bonne
qualité de service.
— La même année, le Projet TESS (Terre ESpace et Société), dirigé par
l'INRETS-LEOST [TES04] a aussi proposé un concept d'autobus
communiquant expérimenté à Lille avec des autobus de Transpole et
exploitant la dualité offerte par des systèmes terrestres et satellitaires.
Le lien terrestre utilisait le standard GSM-GPRS alors que le satellite
GLOBALSTAR assurait le lien descendant satellitaire par radiodiffusion.
La dualité du système permettait la continuité du lien via un intergiciel
spécifique qui permettait de mettre en attente les communications dans
les zones de non disponibilité des systèmes. Un réseau Wifi était
également déployé à l'intérieur du bus.
L'ensemble des résultats disponibles sur ces expérimentations confirme que
les débits offerts par les standards de communication sans fil existants dans le
sens véhicule vers infrastructure sont largement insuffisants si l'on veut
transmettre de la vidéo de qualité. En outre, plusieurs états de l'art récents
[IGR06], [TRA06] confirment que les systèmes existants tels que GSM-GPRS,
EDGE et UMTS n'offrent pas des débits suffisants en particulier sur le lien
montant (autobus vers poste de contrôle) qui sera utilisé pour la transmission
des données issues des capteurs audio et vidéo de façon périodique ou à la
demande sur déclenchement d'une alarme.

1.2. Les recherches visant l’augmentation des débits de


transmission
Dans le monde des télécommunications sans fils ces recherches visent
principalement à répondre aux besoins d'Internet sans fil haut débit. Les
exigences de haut débit sont essentiellement satisfaites dans le sens
descendant pour des besoins de téléchargement et notamment de nombreuses
recherches tentent d'optimiser l'usage des ressources spectrales à certaines
heures, donnant accès à des débits plus importants et à coûts réduits en
dehors des heures de pointe pour du téléchargement ou des échanges
multimédia.

50 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

Le débit effectif d'un système de transmission dépend des mécanismes de


contrôle d'accès au médium de transmission, des mécanismes de contrôle
d'erreurs, de la modulation et de la puissance d'émission. La poursuite des
hauts débits à partir d'architectures existantes de systèmes passe donc par
l'optimisation, séparée ou conjointe, des mécanismes de la couche contrôle de
la liaison (DLC, Data Link Control du modèle ISO) et du schéma de mise en
forme du signal transmis de la couche physique (PHY, Physical layer).
Plusieurs pistes de recherche prometteuses, visant à améliorer les débits, sont
identifiées aujourd'hui:
— les techniques utilisant des signaux ultra large bande pour des liaisons
courte portée,
— les modulations multi porteuses,
— la recherche de nouvelles familles de modulations numériques,
— l'optimisation conjointe des fonctions de codage et de modulation,
— les techniques itératives appliquant les principes des turbo codes,
— les techniques dites Multi-Utilisateurs,
— l'utilisation de réseaux d'antennes simultanément à l'émission et à la
réception encore appelée techniques MIMO (Multiple Input, Multiple
Output) et les traitements associés.
Les récents standards émergeants de type WMAN tels que la famille des
standards WIMAX associent plusieurs de ces pistes (OFDM, Multi-Utilisateurs,
turbo codes, MIMO ...).

2. Les standards de réseaux sans fil pour du haut


débit en mobilité
2.1. Classification des systèmes
Une classification possible des systèmes sans fil s'appuie sur la taille de la
couverture radioélectrique qui permet de distinguer les différents réseaux sans
fil, chacun répondant aux besoins d'applications différentes:
— les réseaux personnels WPAN (Wireless Personnal Area Network) de
quelques mètres jusqu'à une centaine de mètres ;
— les réseaux locaux WLAN (Wireless Local Area Network) jusqu'à
plusieurs centaines de mètres ;
— les réseaux métropolitains WMAN (Wireless Metropolitan Area Network)
jusqu'à une vingtaine de kilomètres ;
— les réseaux étendus ou cellulaires WWAN (Wireless Wide Area
Network) jusqu'à plusieurs dizaines de kilomètres.
Ces systèmes offrent des caractéristiques techniques et de services qui les
rendent plus ou moins bien adaptés aux problématiques transports. Le lecteur

Rapport INRETS n°275 51


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

intéressé trouvera dans [TRA06] et [IGR06] une description technique poussée


de ces standards et notamment dans [IGR06] les avantages et inconvénients
pour des applications ferroviaires sont mis en avant.
Au regard de l'application envisagée dans ce travail, il n'est raisonnablement
pas possible d'envisager l'utilisation de réseaux personnels de type WPAN
compte tenu de leur portée trop réduite.
Les réseaux cellulaires et notamment les plus récents peuvent en théorie
offrir des services intéressants pour l’application visée. L'UMTS par exemple
peut offrir des débits très importants (2 Mbps sur le lien descendant) et encore
plus dans sa version HSDPA (High Speed Downlink Data Packet Access).
Cependant, pour tous ces systèmes, les débits réels sur le terrain sont loin
d'atteindre les débits théoriques [IGR06] et ils sont optimisés pour des
applications Internet et n'offrent donc pas des débits intéressants pour
l'application visée sur le lien montant dans un contexte de mobilité et avec
potentiellement des besoins haut-débit pour plusieurs autobus dans une même
zone.
Les standards WLAN et en particulier les standards IEEE 802.11x sont
aujourd’hui largement utilisés dans notre vie quotidienne mais aussi pour des
systèmes de contrôle commande et de surveillance des métros. Pour ces
applications transport public, des couches MAC et LLC propriétaires ont parfois
été développées en s’inspirant du standard [IEEE802.21] pour la "signalisation",
les handovers (passage de la communication de façon automatique et
transparente) entre points d'accès radio et la sécurisation poussée du système.
Des expérimentations fondées sur un déploiement Wifi le long des lignes
d’autobus sont en cours à la RATP. Compte tenu des puissances autorisées en
extérieur et des conditions de déploiement de points d’accès Wifi le long des
lignes d’autobus, il a semblé plus judicieux et plus prometteur de nous tourner
vers des standards susceptibles de couvrir naturellement des zones
géographiques plus importantes et notamment les réseaux de type WMAN ou
WWAN. Les standards WLAN MBWA et le WiMAX nous ont semblé être des
candidats potentiellement plus intéressants dans ce projet EVAS.

2.3.3. Le WiMAX ou les normes IEEE 802.16x


Le standard IEEE 802.16x définit un réseau sans fil de type métropolitain
intéressant vu les débits annoncés et la couverture radioélectrique possible. Il
connait aujourd'hui un grand engouement de la part des industriels et des
opérateurs de télécommunications. Ce standard est aujourd'hui communément
appelé WiMAX, nom désignant en réalité le consortium travaillant sur le sujet et
poussant à une interopérabilité entre les différentes versions existantes. En
parallèle du développement du WiMAX, les coréens ont développé un autre
réseau WMAN, le WiBRO. Dans sa première phase celui-ci se rapprochait du
système chinois et était incompatible avec le WiMAX. Une deuxième phase est
maintenant en route afin d'harmoniser le WiBRO et le WiMAX.

52 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

La première version 802.16 du standard parue en 2001 devait fonctionner


dans la gamme de fréquence des 10-60 GHz pour des communications en ligne
de vue. Les amendements suivants l'ont étendu à des applications sans trajet
direct du signal (NLOS, Non Line Of Sight) dans la gamme de fréquence des 2-
11 GHz (802.16a en 2003). La version 802.16e sortie en 2005 doit fonctionner
dans la gamme 2-6 GHz. Actuellement le standard est donné en Europe pour la
gamme de fréquences inférieures à 11 GHz. Ce standard prévoit trois types
d'applications : les applications outdoor fixes (du type Internet haut débit sans
fil), des applications outdoor-indoor fixes et des applications nécessitant de
prendre en compte la mobilité. Ces trois types d'applications sont définis
respectivement par les trois groupes IEEE 802.16a (2003), IEEE 802.16d
(2004) et IEEE 802.16e (2006).
WiMAX est principalement conçu pour un accès Internet haut débit pour des
zones rurales ou urbaines, en mobilité ou non. Un débit de 75 Mbps peut être
atteint pour une station de base avec 20 MHz de bande et dans les meilleures
conditions de propagation. Dans la réalité, des débits de 11 Mbps sont plutôt
envisageables. La couverture radio maximale envisagée est de 50 km (cas
idéal avec un débit réduit). Cependant, pour un environnement sans visibilité
directe (NLOS), la taille typique des cellules serait de 5 à 15 km. Afin de
s'adapter à un environnement NLOS, plusieurs techniques sont préconisées:
l'OFDM, le découpage en sous-canaux, l'utilisation d'antennes directives,
l'exploitation de la diversité en émission et en réception, l'utilisation de
modulations adaptatives, les techniques de codage canal et les techniques de
contrôle de la puissance. Enfin les techniques d'accès multiples classiques
FDD (Frequency Division Duplexing) et TDD (Time Division Duplexing) sont
supportées.
La norme IEEE 802.16a est aujourd'hui la plus aboutie pour des applications
outdoor pour des vitesses inférieures à 100 km/h, c'est pourquoi nous l'avons
choisie au départ comme base pour l'application développée dans le cadre de
ce projet. Le standard IEEE 802.16a est optimisé pour des transmissions
outdoor dans le cas NLOS et dans la bande des 2-11 GHz. La liaison proposée
est de type point à multipoints.
Trois couches physiques principales sont possibles :
— Simple porteuse (Single Carrier, PHY-SCa)
— OFDM (PHY-OFDM)
— OFDMA (PHY-OFDMA)
Toutes les couches utilisent des techniques de multiplexage de type TDD et
FDD. Elles se différencient essentiellement par la modulation et le type d'accès
multiple. Les différentes couches possibles peuvent coexister et seront utilisées
en fonction de l'application.
Sur la couche physique PHY-SCa , l'accès multiple est géré par du TDMA.
Les modulations utilisées sont variables (QPSK, 16QAM, 64QAM) selon la
robustesse du lien souhaitée. Le codage canal est la concaténation série d'un
code de Reed Solomon et d'un code convolutif qui peuvent être séparés par

Rapport INRETS n°275 53


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

une opération d'entrelacement. L'utilisation des modulations codées en treillis


est suggérée en option.
La couche PHY-OFDMA se fonde sur une modulation OFDM mais l'accès
multiple est du type OFDMA (Orthogonal Frequency Division Multiple Access).
Le signal comporte 2048 sous porteuses divisées en 32 sous canaux. 48 sous
porteuses sont destinées aux données. La méthode d'accès multiple revient à
assigner à chaque utilisateur un jeu de sous porteuses du signal OFDMA. Le
codage canal de cette couche physique associe un code de Reed Solomon et
un code convolutif.
La couche PHY-OFDM est celle qui a retenu notre attention. En effet,
l'utilisation de l'OFDM permet d'obtenir des débits intéressants. De plus,
associée aux techniques MIMO possibles dans le standard, la robustesse du
lien dans un environnement urbain sera augmentée. La couche PHY-OFDM
utilise le TDMA comme technique d'accès multiple et repose sur une forme
d'onde OFDM à 256 sous porteuses. Les 192 sous porteuses destinées aux
données sont modulées en QPSK, 16-QAM ou 64-QAM (en option). Le choix
de la modulation se fait en fonction du débit et de la robustesse souhaités.
Cette modulation est précédée d'un codage canal.
Dans la version 802.16d, la couche PHY-OFDM s'est imposée comme la
plus convaincante, alors que dans la version 802.16e l'OFDMA semble avoir les
faveurs des constructeurs. En pratique, les premiers équipements WiMAX
utilisaient essentiellement la technologie 802.16a dont les composants sont
rapidement arrivés sur le marché. Mais la tendance est maintenant au WiMAX
Mobile dont le potentiel d'utilisation est grandissant. Aussi les premiers
systèmes propriétaires sont apparus avant même la fin de la standardisation.
On peut citer les systèmes iBurst de Arraycomm mais également les
équipements de Flarion ou de WiLAN [DEE].

Nous nous intéressons ici à une liaison point à point entre un bus et une
station de base. Les différents bus accéderont à celle-ci par les techniques
d'accès classiques de type TDD ou FDD proposées par le standard. Aussi, en
l'absence d'information précise sur la norme IEEE 802.16e, les normes IEEE
802.16a ou d semblent les meilleures candidates pour notre étude. La
modulation OFDM offrant un meilleur potentiel qu'une modulation mono
porteuse, notre intérêt s'est porté sur les couches l'utilisant. Nous avons donc
choisi de nous baser sur la couche physique OFDM de la spécification IEEE
802.16d qui est sensiblement identique à la couche OFDM du 802.16a.

3. Etat des recherches sur les techniques MIMO


Les techniques "multi émetteurs, multi récepteurs", plus connues sous
l'acronyme MIMO (Multiple Input Multiple Output) reposent sur l'utilisation
conjointe d'un réseau d'antennes à l'émission et à la réception qui améliorent
les débits ou la robustesse sans augmenter les puissances d'émission et les
bandes de fréquences allouées [FOS98]. En outre, elles permettent de

54 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

développer une couche physique se substituant à la couche originale du


standard choisi et ce, de manière quasi transparente à la couche MAC. Ces
techniques exploitent de façon conjointe la dimension temporelle ou
fréquentielle des signaux et la dimension spatiale apportée par l'utilisation de
plusieurs antennes à l'émission et à la réception. Les méthodes de traitement
des signaux utilisées exploitent ces différentes dimensions ce qui permet
d'atteindre des efficacités spectrales beaucoup plus importantes qu'avec des
systèmes traditionnels SISO [FOS96], [FOS98]. Un système MIMO est
représenté schématiquement sur la figure 2.1.
L'objectif des systèmes MIMO est de tirer partie des trajets multiples dans le
canal de propagation grâce à l'utilisation de plusieurs antennes à l'émission et à
la réception associées à des traitements spécifiques. Ainsi, dans un milieu de
propagation riche en trajets multiples, plusieurs canaux de propagation
indépendants peuvent être mis en évidence. Ils correspondent à des modes de
propagation « propres » associés aux trajets du signal entre l'émetteur et le
récepteur [GUG03]. Les signaux issus des N t antennes d'émission se
combinent naturellement dans le canal de propagation. Leur extraction à la
réception n'est mathématiquement possible que si le système linéaire n'est pas
singulier. Le nombre de modes « propres » correspond au rang de la matrice de
canal et est égal au min( N t , N r ) . La singularité du système provient alors de la
dégénérescence de la matrice de canal due essentiellement à la présence de
corrélation spatiale, d'un trajet prépondérant ou à un phénomène appelé goulot
d'étranglement.

Figure 2.1 : Représentation schématique d'un système MIMO

Dans les systèmes MIMO, les traitements sont implémentés soit côté
émetteur, soit côté récepteur, soit des deux côtés simultanément. Trois grands
domaines d'investigation ont été identifiés selon que la dimension spatiale est
exploitée seule, ou conjointement avec la dimension fréquentielle
(compensation des effets de la sélectivité en fréquence) ou avec la dimension
temporelle (compensation des effets de la sélectivité temporelle). Les critères

Rapport INRETS n°275 55


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

de mise en œuvre de ces différentes techniques dépendent des objectifs visés


(l'augmentation des débits ou l'augmentation de la robustesse) mais aussi de la
connaissance ou non des propriétés du canal de propagation. Le tableau 2.1
tiré de [GUG03] présente les principales techniques étudiées aujourd'hui.
Chacune d'elles permet d'améliorer soit le débit soit la robustesse du système.
Un grand nombre de travaux sur les techniques MIMO portent sur les
techniques de codage et décodage spatio-fréquentiel et spatio-temporel, le
précodage ou la pré-égalisation.

Tableau 2.1 : Les techniques MIMO existantes


Multiplexage temps-espace,
modulations codées en treillis temps-espace,
modulations codées temps-espace en bloc
orthogonales,
Canal connu à la modulations codées temps-espace à diversité
réception maximale,
Pas de modulations codées à dispersion linéaire,
sélectivité modulations codées algébriques, concaténation de
en temps codes.
et en Pré-codage
fréquence Pré-filtrage,
Canal connu à
pré-égalisation,
l’émission
pré-codage.

Modulations unitaires temps-espace,


Canal inconnu
techniques différentielles.

Récepteur adaptatif,
modulation temps-espace,
Sélectivité en temps
techniques différentielles,
concaténation de codes.
Egalisation,
techniques MIMO-OFDM,
Sélectivité en fréquence bancs de filtres,
modulations codées temps-espace en bloc
orthogonales.

Le codage spatio-temporel (STC) introduit simultanément dans les données


de la redondance spatiale et temporelle. On distingue les codes en bloc des
codes en treillis. Les premiers travaux sur les codes spatio-temporels en bloc
ont été menés par S. Alamouti [ALA98] sur les codes spatio-temporels en bloc
orthogonaux (OSTBC). L'auteur a introduit le seul code de ce type de
rendement unitaire. Ce code est cependant limité à l'utilisation de deux
antennes d'émission. V. Tarokh [TAR98], [TAR99] le généralisa par la suite de
manière à augmenter le nombre d'antennes d'émission. En contre partie de
cette amélioration, le rendement n'est alors plus unitaire. Les codes spatio-
temporels en treillis (STTC) [TAR98] sont une extension pour les systèmes
MIMO des modulations codées en treillis utilisées en SISO. D'une manière

56 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

générale ces types de codes spatio-temporels sont des cas particuliers des
codes à dispersion linéaire [HAS02]
Le code d'Alamouti a l'avantage d'être simple à décoder et exploiter. De plus
il offre le maximum de gain de diversité, 2, pour deux antennes d'émission et
une antenne de réception. Cependant, lorsque le nombre d'antennes augmente
en réception cette diversité diminue et le code n'est plus optimal. Les Golden
codes [BEL05] utilisant deux antennes à l'émission permettent de garder ce
gain en diversité. Ils s'appuient sur la théorie des nombres et utilisent
1+ 5
notamment le nombre d'or (Golden number) θ = , une des racines du
2
polynôme θ 2 − θ − 1 = 0 . Les Golden codes ont été généralisés à un nombre
plus important d'antennes d'émission (3,4 et 6) dans [OGGO4]. Ils sont alors
connus sous le nom de codes spatio-temporels en bloc parfaits et sont valides
pour N r ≥ N t .
Les codes présentés ci-dessus imposent de connaître le canal de
transmission à la réception pour être décodés. Un étage d'estimation du canal
devient alors obligatoire. Lors de la transmission de trames courtes (dans le cas
du protocole IP par exemple), cette opération d'estimation devra être répétée
de très nombreuses fois. La rapidité du système peut alors être
considérablement réduite. Afin de s'affranchir de cette étape, de nombreux
travaux portent actuellement sur les techniques différentielles et surtout sur les
codes spatio-temporels non cohérents. Ces techniques reprennent le principe
des modulations et codages différentiels existant pour les transmissions SISO.
Elles peuvent nécessiter une connaissance partielle du canal [DIF04]. Dans ce
cas le codage évolue avec l'état du canal. En l'absence d'information sur le
canal, il est possible d'appliquer les méthodes différentielles sur les blocs du
code STBC [TAO05].
Les codes non cohérents n'exploitent pas d'information sur le canal puisque
les méthodes de construction ne le prennent pas en compte. Ils sont fondés sur
l'utilisation de matrices unitaires. Deux approches existent: l'une s'appuie sur la
théorie des groupes finis [SHO01] ou infinis [JIN05] et l'autre considère la
théorie algébrique des codes cycliques [OGG05]. Les recherches s'intéressent
de plus en plus à ce type de codes très performants. Ainsi, lors d'une
comparaison de codes cohérents et non cohérents dans un canal rapide sélectif
en temps et en fréquence [SAU05], il a été montré que les codes non cohérents
peuvent être plus performants. Cependant, il faut noter que dans cette étude, la
principale faiblesse des codes cohérents réside dans les erreurs fournies par
l'estimateur de canal.
Une autre technique, le précodage, donne également lieu à de nombreuses
recherches. Cette technique consiste à étaler les symboles à transmettre. En
pratique, si le vecteur x représente les symboles à transmettre, il est multiplié
par une matrice de précodage. Le résultat est un nouveau vecteur x' dont
chaque élément contient une contribution des symboles originaux. Cette
opération peut être vue comme un codage en blocs de rendement unitaire qui
transforme la constellation. Avec cette technique, plusieurs répliques du

Rapport INRETS n°275 57


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

symbole peuvent subir des dégradations différentes. Il est alors possible en les
recombinant d'obtenir un gain en diversité de codage [LEM05]. Ces méthodes
peuvent être appliquées pour différents types de canaux même si ceux ci sont
destructeurs pour les systèmes MIMO. La différence se fera lors de la
construction de la matrice de précodage. De plus, ces techniques peuvent se
combiner avec du codage spatio-temporel. Des exemples sont proposés pour
des canaux corrélés ou de Rice dans [AKT03], [HJO04], [HJOO6].
Les systèmes MIMO décrits en début de section correspondent à une liaison
point à point. De nouvelles approches pour les systèmes MIMO multi-
utilisateurs (MU-MIMO) et les réseaux MIMO virtuels (VMIMO) sont apparues et
les travaux à ce sujet sont de plus en plus nombreux. La figure 2.2 montre les
différentes architectures possibles pour ces systèmes.

Figure 2.2 : Les différents systèmes MIMO

Nous ne nous attarderons pas plus sur ces systèmes MIMO particuliers
puisque dans ce projet nous considérons un lien de communication point à
point. Les différents utilisateurs accèdent à la station de base en utilisant des
techniques d'accès classiques notamment du type TDMA ou FDMA.
Cependant, ces techniques semblent particulièrement prometteuses pour des
applications transports.

Dans le projet EVAS, nous avons recherché la création d'un lien de


communication robuste. Le canal est connu uniquement à la réception grâce à
un étage d'estimation du canal. L'augmentation de la robustesse permet de
satisfaire un des deux objectifs suivants: à puissance d'émission équivalente, il
est possible d'augmenter soit la qualité de service (diminution du taux
d'erreurs), soit la portée du système (pour un taux d'erreurs équivalent). Dans
ce dernier cas, le nombre de stations d'émission/réception fixes peut ainsi être
diminué, réduisant d'autant les coûts de déploiement du système. Nous
poursuivons donc indifféremment l'un ou l'autre des deux objectifs, le choix sera
à faire lors du déploiement du réseau et fonction de son utilisation.

58 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

En outre, le souci de développer un système quasi temps réel pour


l'application envisagée demande la mise en œuvre d'un système de complexité
réduite afin de garantir une rapidité d'exécution suffisante. Le rapport
complexité/performances donne aujourd'hui l'avantage aux codes STBC
orthogonaux dont l'algorithme de décodage possède une complexité moindre.
Ces codes génèrent, à partir de N s = N t symboles, des codes orthogonaux de
Ns
rendement sous la forme d'une matrice de dimension N t × N k , où N t
Nk
représente le nombre d'antennes à l'émission. Afin de lutter contre la sélectivité
fréquentielle du canal, la pertinence des techniques MIMO-OFDM est
aujourd'hui largement démontrée, l'OFDM facilitant l'égalisation fréquentielle
des signaux en réception. Nous allons maintenant présenter brièvement les
principales caractéristiques des réseaux sans fil existants ou en cours de
standardisation afin d'expliciter les choix effectués dans ce travail.

4. Le canal de propagation radioélectrique MIMO


4.1. Introduction
Les performances des systèmes MIMO sont largement dépendantes du
degré de diversité (espace, fréquence, polarisation) dans le canal de
propagation. La connaissance et la modélisation du canal de propagation sont
donc des étapes indispensables lors de l'analyse des performances d'une
chaîne de transmission MIMO afin de valider les différents choix à toutes les
étapes du processus de réalisation. Dans ce projet nous avons considéré une
station d'émission-réception fixe placée sur un point haut d'une zone urbaine
permettant de couvrir les zones de circulation de plusieurs lignes d'autobus
dans un milieu urbain dense comme illustré sur la figure 2.3.
Plusieurs familles de modèles MIMO existent dans la littérature. Dans
[PAR05] une comparaison de différents modèles est proposée afin d'évaluer
leur pertinence à traduire le degré de corrélation spatiale dans le canal. Dans
[SHI00] des modèles prenant en compte la géométrie des diffuseurs fixes et
mobiles sont étudiés. Plus récemment [OES04] et [J03] analysent la prise en
compte de la diversité de polarisation dans les modèles de canal. Ce
paragraphe est consacré à la description de quelques modèles connus
aujourd'hui dans le but de les utiliser dans l'environnement spécifique transport
dans lequel le système étudié sera déployé.

Rapport INRETS n°275 59


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

Figure 2.3 : Exemple de positionnement typique pour la ville de Lille

4.2. Phénomènes physiques caractéristiques d'un canal de


propagation
Dans un système de transmission SISO (Single Input Single Output), les
différents obstacles présents entre l'émetteur et le récepteur (vallonnement du
terrain, bâtiments, végétation...) entraînent des perturbations du signal de
différentes natures. Ces perturbations sont liées aux phénomènes physiques
mis en jeux, à savoir la réflexion sur les surfaces lisses, la transmission (ou
réfraction) à travers les parois, la diffraction par les arêtes ou les sommets et la
diffusion par les végétaux ou les surfaces rugueuses. La direction de l'onde
ainsi que l'amplitude, la phase et la polarisation sont affectées par ces
phénomènes [PAR92] qui génèrent des trajets multiples du signal entre
l'émetteur et le récepteur. De plus, de façon proportionnelle à la vitesse avec
laquelle le mobile se déplace, des décalages fréquentiels appelés décalages
Doppler sont introduits sur chaque trajet arrivant sur l'antenne de réception et
conduisent à un spectre Doppler qui affecte le signal en réception. Ce
phénomène de trajets multiples détermine les principales propriétés du canal de
propagation radioélectrique à savoir [PAR92] :
— la variabilité temporelle due aux modifications dynamiques de
l'environnement de propagation;
— la variabilité spatiale qui traduit un comportement différent du canal de
propagation lorsque l'émetteur et le récepteur sont mobiles. Elle se
traduit par les variations à grande échelle et à petite échelle du signal
(slow and fast fadings);
— la sélectivité en fréquence directement liée au phénomène de
multitrajets et illustrée par la réponse impulsionnelle ou la fonction de

60 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

transfert du canal selon que l'on se place dans l'espace des temps ou
des fréquences.

Dans un environnement de propagation quelconque, les différentes


répliques du signal générées par les multi trajets sont plus ou moins corrélées
en temps, en fréquence ou dans l'espace et ne subissent pas les mêmes
affaiblissements si elles sont peu corrélées. L'utilisation conjointe d'un réseau
d'antennes à l'émission et à la réception et la mise en œuvre des traitements
adaptés permettent de tirer partie de ces différentes diversités.
Comparativement aux techniques SISO, les techniques MIMO exploitent avant
tout une dimension supplémentaire du canal de propagation: la dimension
spatiale qui peut être caractérisée par la corrélation spatiale dans le canal. La
corrélation spatiale du canal dépend du degré de corrélation en émission d'une
part et en réception d'autre part. Elle est fonction de facteurs tels que
l'espacement entre les antennes, les angles d'arrivée et l'étalement angulaire
des signaux intimement reliés à la distribution des obstacles dans le canal de
propagation. Les variations de polarisation du signal influent également sur le
degré de corrélation du canal.

4.3. Représentation mathématique du canal MIMO


4.3.1. Représentation classique du canal MIMO
Le canal MIMO pour un système à N t antennes d'émission et N r antennes
de réception peut se décrire comme N t × N r canaux SISO parallèles. Chacun
de ces canaux SISO correspond au canal élémentaire entre chaque couple
d’antennes ( Rx /Tx ) , x1 variant de 1 à N r et x2 variant de 1 à N t . Chaque
1 2
sous canal SISO peut être caractérisé par sa réponse impulsionnelle complexe.
Celle-ci peut alors être modélisée ou mesurée de façon indépendante comme
pour les canaux SISO.
D'après cette description, le canal MIMO prend une forme matricielle.
Lorsque l'étalement des retards dans le canal est important au regard de la
durée du temps symbole du système de communication MIMO, les réponses
impulsionnelles du canal sont représentées par quelques échantillons
caractérisant les K trajets principaux de propagation. La matrice des réponses
impulsionnelles H (t ) s'exprime alors comme la somme de K matrices de
canal H k décalées chacune d'un retard τ k .
K
H (t ) = ∑H δ (t − τ
k =1
k k) (2.1)

H (t ) est la matrice de taille N r × N t représentant le canal caractérisé par K


trajets principaux. H k est la matrice ( N r × N t ) des coefficients complexes des
réponses impulsionnelles à l'instant τ k .

Rapport INRETS n°275 61


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

⎡ h L h1, N ⎤
⎢ 1,1 t ⎥
Hk = ⎢ M O M ⎥ (2.2)
⎢ ⎥
⎢⎣hN r ,1 L hN r , Nt ⎥⎦

Cette représentation est un modèle de type ligne à retards où les


coefficients d'atténuation sont les matrices H k [PED00]. La figure 2.4 illustre
cette notation et montre que le canal peut être représenté par une matrice à
trois dimensions ( N r × N t × K ) lors d'une implémentation dans une chaîne de
simulation par exemple. Le signal reçu r(t) s'exprime selon (3) :
K
r (t ) = ∑H .e(t − τ
k =1
k k ) + b(t ) (2.3)

Si le canal est non sélectif en fréquence, le canal MIMO est parfaitement


décrit par une matrice de canal H = H1 de dimension ( N r × N t ) contenant des
coefficients complexes variant au court du temps. En supposant que le canal
est quasi-statique, c'est-à-dire invariant durant l'émission d'une salve de N
symboles, le signal reçu relatif à une salve peut s'écrire de façon matricielle
comme l'indique l'équation (2.4). Cette hypothèse d'un canal quasi-statique est
utilisée dans le reste de l'exposé. Elle est justifiée par la durée des symboles
OFDM ( 16 μs ) considérés comparée aux retards dans le canal de propagation
qui sont en milieu urbain souvent compris entre 20 et 50 ns [PAR04].
R = HE + B (2.4)
où R est la matrice de réception N r × N , E la matrice d’émission N t × N , H la
matrice de canal N r × N t et B la matrice de bruit N r × N .

Figure 2.4 : Représentation du canal MIMO en présence de plusieurs


trajets principaux

Afin de définir sans ambiguïté le rapport signal sur bruit ρ du système


MIMO, nous avons normalisé les différents signaux en puissance. Les
principales caractéristiques sont résumées ci-après:
— les matrices de canal H sont normalisées de telle sorte que la puissance
moyenne de leur coefficient soit égale à 1. De plus, pour les canaux

62 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

caractérisés expérimentalement, seules les variations rapides du signal


reçu sont inclues dans la matrice H
— La puissance totale du signal émis E est fixée à 1 watt.
— La puissance du bruit B est fixée à 1 watt.
— Le rapport signal sur bruit ρ correspond à la moyenne des rapports
signal sur bruit observés sur l'ensemble des récepteurs.
Cette normalisation des grandeurs permet de comparer aisément des
systèmes SISO et MIMO dont les nombres d'antennes diffèrent. Le fait de fixer
le rapport signal sur bruit ρ permet de comparer des systèmes possédant la
même puissance émise totale et la même densité spectrale de puissance de
bruit sur chaque antenne de réception. L'équation régissant le système MIMO à
partir des grandeurs normalisées s'écrit :

R = ρ HE + B (2.5)
Le système MIMO ainsi normalisé est représenté par la figure 2.6:

Figure 2.6 : Représentation normalisée du canal MIMO adoptée

4.3.2. Représentation du canal MIMO par décomposition en canaux


propres
La représentation classique du canal présentée dans le paragraphe
précédent repose sur une description du canal par N t × N r canaux SISO
modélisés par la matrice H. La diagonalisation du système matriciel
correspondant permet d'exprimer le canal comme la superposition de plusieurs
canaux "propres" décorrélés. En effet, il a été démontré que le canal de
propagation est constitué de la superposition de plusieurs sous canaux
indépendants transportant chacun une fraction du signal transmis [BER96,
[GAL68]. Le canal MIMO apparaît comme une application linéaire du signal
émis E vers le signal reçu R. La décomposition en valeurs singulières [GOL96]
de la matrice H permet de diagonaliser le système d'équations (6). Dans la
suite de l'exposé, nous utilisons le terme SVD (Singular Value Decomposition)
qui désigne la décomposition en valeurs singulières du canal MIMO qui permet
de diagonaliser la matrice H. Ainsi, si H est une matrice de taille N r × N t , sa
décomposition prend la forme de l'équation (2.7).
H =U ΛV H (2.7)

Rapport INRETS n°275 63


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

L'opérateur X H produit la matrice conjuguée et transposée de X (symétrie


hermitienne). Les matrices U et V sont des matrices unitaires. Elles vérifient les
relations (2.8) et (2.9):
U U H = IN (2.8)
r

V V H = IN (2.9)
t

La matrice Λ est une matrice diagonale de dimension N r × N t . Elle contient


les n valeurs singulières réelles positives ou nulles λ1/2
i de la matrice de canal
H. Les λi sont les valeurs propres de la matrice HH
H
.
Le nombre de valeurs singulières non nulles r correspond au rang r H de la
matrice H. Nous définissons :
Λ = diag (λ1/2
1 , λ2 , ..., λn )
1/2 1/2
(2.10)

λ1/2
1 ≥ λ2 ≥ ... ≥ λn ≥ 0
1/2 1/2
(2.11)
r H = min( N r , N t ) (2.12)

où l'opérateur diag (a1 , a2 ,...an ) produit une matrice diagonale dont les
éléments de la diagonale prennent les valeurs a1 , a2 ,..., an . La fonction
min(a, b) retourne a si a ≤ b sinon b . A partir de cette description, les
coefficients hij de H s'expriment comme la somme de r canaux indépendants.
r
hi , j = ∑λ
k =1
1/2
k uik v*jk (2.13)

où vik* est le conjugué de vik .


Cette décomposition du canal en valeurs singulières permet de représenter
le canal de propagation comme n canaux totalement décorrélés et de
coefficients de transfert λ1/2
i ( i variant de 1 à n ). La valeur de ces coefficients
dépend du degré de corrélation et du rang de la matrice de canal H . Plus la
corrélation entre les canaux augmente, plus leurs valeurs tendent vers 0 .
La décomposition en valeurs singulières fournit une représentation
équivalente à la représentation classique du canal de propagation. Les
coefficients de transfert conservent donc la même puissance totale. Cette
représentation est plus complexe que la représentation classique. Cependant,
la matrice Λ s'analyse rapidement et offre la possibilité de caractériser
facilement le canal. A l'aide de cette décomposition, le système MIMO peut être
réorganisé selon la figure 2.7. Elle montre alors qu'au plus rH antennes
reçoivent un signal. Les autres antennes, associées à des valeurs singulières
nulles, sont considérées comme ne recevant que du bruit. Cette interprétation
simplifie le système.

64 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

Figure 2.7 : Représentation du canal MIMO

4.4. Capacité d'un canal MIMO


4.4.1. Définition générale de la capacité
La théorie de l'information permet de formaliser les mécanismes de
transmission entre une source et un récepteur. En partant du principe que le
message à transmettre n'est pas connu du récepteur, la source d'information
peut être considérée comme un processus aléatoire [GUG03]. L'entropie et
l'information mutuelle mesurent la quantité d'information contenue dans un
message [SHA48]. L'information mutuelle est la mesure de l'information
contenue dans un processus sur un autre processus. L'information mutuelle
I ( x, y ) entre deux variables aléatoires discrètes x et y se note selon:


Px , y ( x, y )
I ( x, y ) = P x , y ( x, y ) log (2.14)
χ ξ
x∈ , y∈
Px ( x) Py ( y )

où χ = {x : Px ( x) =/ 0} et ξ = { y : Py ( y ) =/ 0}
Shannon a démontré qu'il existe un débit d'information en dessous duquel il
est possible de transmettre avec une probabilité d'erreur arbitrairement faible
en utilisant un codage suffisamment élaboré. Au-dessus de ce débit, la
probabilité d'erreur ne peut plus être annulée. Cette grandeur s'appelle la
capacité du canal. Elle est définie comme le maximum de l'information mutuelle
entre la source et le destinataire. Pour un canal sans mémoire, elle s'exprime
selon:
C = maxP ( I ( x, y )) (2.15)
x

Elle correspond au débit maximal par unité de fréquence pouvant être


transmis sans erreur et est exprimée en bit/s/Hz.
Pour un canal MIMO, le modèle du signal reçu se note selon (2.16) en
reprenant le modèle normalisé présenté précédemment :

Rapport INRETS n°275 65


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

r (t ) = ρ He(t ) + b(t ) (2.16)


où e(t ) , r (t ) et b(t ) représentent respectivement les vecteurs d'émission, de
réception et de bruit et H est la matrice de canal qui contient les coefficients
d'atténuation entre chaque antenne d'émission et de réception.
La capacité s'exprime aussi directement en s'appuyant sur la décomposition
en valeurs singulières du canal selon (2.17) [PAR04]
r
⎛ ρλk ⎞
C= ∑log ⎜⎜⎝1 +
k =1
2 ⎟
N t ⎟⎠
(2.17)

Cette relation montre clairement que la valeur de la capacité dépend du


nombre et des amplitudes des valeurs singulières. La détermination de la
capacité repose donc sur la connaissance de la distribution de ces valeurs et
dépend fortement des propriétés du canal de propagation. Elle dépend aussi du
nombre d'antennes utilisé et augmente avec celui-ci.
Les transmissions de données se font le plus souvent par salves dont la
durée est supposée suffisamment courte pour que le canal soit considéré
comme constant. A partir du comportement du canal durant cette durée,
plusieurs définitions de la capacité peuvent être données [POL03]. Le détail des
expressions de ces différentes capacités à partir de la matrice H est aussi
donné dans [PAR04].

4.4.2. Paramètres affectant la capacité d'un canal MIMO


La capacité du canal dépend fortement de trois paramètres: la corrélation
spatiale, la présence ou non de trajets directs et la polarisation. Dans les
paragraphes qui suivent nous allons détailler ces trois phénomènes et leur
influence respective. Nous montrerons ensuite comment ces différents
paramètres seront pris en compte dans les modèles de canaux MIMO.

Influence de la corrélation spatiale


L'exploitation de plusieurs antennes à l'émission et à la réception ajoute la
dimension spatiale au canal de propagation. Cette nouvelle dimension peut se
caractériser directement à l'aide de la corrélation spatiale du canal définie
comme la corrélation entre chaque sous canaux SISO formé par les couples
d’antennes (Tx , Rx ) . Dans un canal non sélectif en fréquence, la corrélation
spatiale du canal ou corrélation spatiale totale s'exprime alors selon (2.18) :
[
RH = E vec( H )vec( H ) H ] (2.18)

⎡a ⎤
où x = vec( X = [abc]) = ⎢⎢b ⎥⎥
⎢⎣ c ⎥⎦

66 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

La corrélation spatiale du canal dépend de nombreux facteurs: l'espacement


entre les antennes, les angles de départ et d'arrivée des signaux, l'étalement
angulaire associé et lié à la distribution des obstacles/diffuseurs dans
l'environnement. Ainsi, pour une même puissance émise ou reçue, plus
l'espacement entre les antennes est important, plus la corrélation diminue.
L'influence de l'étalement angulaire va dans le même sens. On considère donc
souvent qu'un espacement de quelques λ (la longueur d'onde) suffit au niveau
du mobile pour obtenir une faible corrélation. En revanche, côté station de base
où la puissance est plus élevée, un espacement de 10 λ est préférable. Ces
grandeurs sont issues des études sur la diversité spatiale mais indicatives et
dépendent de la place réellement disponible pour les réseaux d'antennes à
l'émission et à la réception.
Hormis la corrélation totale du canal, la corrélation à l'émission, la corrélation
à la réception et la corrélation interne du canal peuvent également être
considérées.
Les corrélations à l'émission RT et à la réception RR caractérisent la
x x
corrélation du point de vue de l'émetteur et du récepteur. Elles se définissent
respectivement par les relations (2.19) et (2.20).
RT = E H H H
x
[ ] (2.19)

RR = E [HH ]
H
(2.20)
x

La corrélation interne du canal ne peut pas s'exprimer à partir des


représentations du canal définies précédemment. Cependant, elle apparaît
dans certains modèles de canal qui seront décrits par la suite. La corrélation
interne traduit la corrélation qui se crée lors de la propagation du signal. Elle
dépend directement de l'environnement de propagation, de sa richesse en
diffuseurs, de leur position dans l'espace et de la distance émetteur/récepteur.
Les matrices de corrélation telles que définies ci-dessus ne font pas
apparaître l'information de puissance dans le canal. C'est pourquoi, il est
courant de caractériser la corrélation à l'aide des matrices de covariance. La
relation entre les deux représentations est définie par (2.21)
cov(a, b) a b
cor (a, b) = = cov( , ) (2.21)
σ aσ b σa σb
où cor (a, b) est la corrélation entre a et b , cov(a, b) est la covariance entre
a et b et σ a et σ b représente les puissances respectives de a et b .

Influence d'un trajet prépondérant


La présence d'un trajet prépondérant conduit à une modification des
propriétés de la liaison. Les coefficients de la matrice suivent alors une
distribution de Rice et non plus une distribution de Rayleigh. Dans ce cas, il
convient de distinguer les zones de faible et fort rapport signal sur bruit SNR

Rapport INRETS n°275 67


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

(Signal to Noise Ratio). Pour de forts rapports signal sur bruit, la composante
spéculaire n'a pratiquement aucun effet sur la capacité. Les composantes hors
visibilité assurent seules le rang plein de la matrice. Pour de faibles rapports
signal sur bruit, la composante moyenne conditionne l'expression de la capacité
et conduit à une dégénérescence de la matrice du canal. La prépondérance du
trajet principal par rapport aux autres se caractérise par le facteur K de Rice.
Ce facteur est égal au rapport entre la puissance du trajet prépondérant et la
puissance des autres trajets.

Influence de la diversité de polarisation


La diversité de polarisation est utilisée depuis longtemps dans les systèmes
cellulaires afin d'améliorer les performances en réception des stations de base.
Des travaux récents montrent l'intérêt de son utilisation dans les systèmes
MIMO afin de limiter l'encombrement des antennes ou de pallier un manque de
diversité spatiale [AND01].
Des études se sont intéressées à l'influence des diversités spatiales, de
polarisation et angulaire et à leurs performances dans un système MIMO. Dans
[KIM00], l'utilisation de chaque diversité en réception est analysée dans un
environnement outdoor urbain. Cette étude s'appuie sur une campagne de
mesures. Le degré de diversité est quantifié à partir des fonctions de
distributions cumulatives des coefficients d'enveloppe de la matrice de canal.
Les résultats obtenus montrent que la diversité de polarisation en réception
peut offrir de meilleures performances que les autres diversités si l'émetteur est
polarisé horizontalement. Les diversités de polarisation et spatiale ont des
performances proches et supérieures à celles de la diversité angulaire pour de
longue distance (1 et 2,6 km). La diversité spatiale possède un léger avantage
pour une distance émetteur/récepteur de 2,6 km.
D'autres études tentent de caractériser le canal de propagation utilisant la
diversité de polarisation. D'un point de vue théorique, Liang Dong & Al [DON05]
analyse la capacité d'un canal MIMO 3 x 3 en présence de diversité de
polarisation. La capacité du canal obtenue en présence de diversité de
polarisation est plus importante dans un environnement outdoor urbain qu'en
indoor (≤1dB) ou en outdoor suburbain (environ 1 dB). La capacité du canal
avec uniquement de la diversité de polarisation est supérieure à celle utilisant la
diversité d'agencement (pattern diversity) en "indoor", "outdoor urbain" et
"suburbain".

4.5. Conclusion
Dans ce paragraphe, nous avons rappelé les différentes représentations
possibles d'un canal MIMO ainsi que les différentes expressions de la capacité
du canal et les principaux paramètres qui l'influencent jouant un rôle
prépondérant dans les performances globales du système. La capacité du
canal dépend fortement de la corrélation du canal et donc de l'environnement
de propagation et de la configuration du système (nombre d'antennes,
espacement entre les antennes, position des diffuseurs à l'émission et à la

68 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

réception...). La totale décorrélation du canal ne suffit pas à garantir une


capacité importante. Le rang de la matrice est prépondérant et peut être affecté
par la présence d'un trajet direct. La corrélation du canal de propagation peut
être la cause de la dégénérescence de la matrice. Une forte corrélation interne
traduit un goulot d'étranglement dans l'environnement de propagation et conduit
à une réduction du rang et donc de la capacité du canal. Cependant, le cas d'un
canal de rang 1 et totalement décorrélé reste un cas théorique et n'a jamais été
observé dans la réalité. Nous allons maintenant présenter quelques modèles
MIMO parmi les plus utilisés dans la littérature qui permettent de traduire de
façon plus ou moins simple les différents paramètres influençant les
performances des systèmes MIMO.

5. Modèles de canal MIMO fondés sur la corrélation


5.1. Introduction
L'évaluation des nouveaux systèmes de transmission en simulation
nécessite de disposer de modèles de canaux représentant le plus fidèlement le
médium de transmission et capables de traduire les principaux phénomènes
physiques influençant les performances. Cet exercice de modélisation est un
axe de recherche très actif pour les systèmes MIMO. De nombreux modèles
existent ainsi que plusieurs classifications. Un des derniers articles synthétique
est [ALM07]. Certains modèles, souvent appelés modèles physiques reposent
sur une description géométrique très fine des environnements de propagation
prenant en compte éventuellement des propriétés électromagnétiques. D'autres
modèles appelés analytiques s'attachent à décrire de façon statistique certaines
propriétés du canal comme la corrélation. Certains modèles analytiques
exploitent aussi les paramètres de propagation. La polarisation des ondes peut
aussi être considérée en faisant apparaître le facteur discriminant de
polarisation croisée (XPD) et le rapport de puissance de branches (BPR). Une
étude bibliographique détaillée a été menée dans le cadre de la thèse de G.
Moniak [MON07] et a servi de support pour les travaux menés dans le cadre du
projet EVAS.
Pour les travaux menés dans le cadre du projet EVAS, nous avons
considéré les modèles analytiques qui s’appuient sur les propriétés de
corrélation dans le canal et en particulier le modèle de Kronecker et le modèle
de Weichselberger. L’influence de la diversité de polarisation a été envisagée
uniquement dans les mesures réalisées.
De nombreux modèles analytiques pour les canaux MIMO exploitent la
corrélation spatiale du canal qui peut être représentée par les matrices de
corrélation ou les matrice de covariance. A la différence de la corrélation, la
covariance comporte l'information de puissance. Les travaux de J.F.
Pardonche, réalisés au laboratoire, ont montré que les modèles exploitant la
covariance du canal sont particulièrement intéressants dans des
environnements indoor et outdoor corrélés [PAR05]

Rapport INRETS n°275 69


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

En l'absence de diversité de polarisation et dans le cas NLOS, la matrice de


canal MIMO peut s'écrire d'une manière générale selon la relation (2.22).
H = R1/2
H G (2.22)

où R1/2 H est la racine carré de la matrice de corrélation ou de covariance et


G est une matrice dont les coefficients sont indépendants et identiquement
distribués i.i.d.indépendant et identiquement distribué. Cette représentation
nécessite de manipuler des matrices d'autant plus grande dimension que le
nombre d'antennes à l'émission et à la réception est important (matrice à
( N r × N t ) 2 coefficients).
Les inconvénients majeurs de cette représentation résident dans la taille des
matrices à manipuler et le côté "abstrait" de la matrice de corrélation totale.
D'autres modèles tentent de réduire la taille des matrices à manipuler et
décomposent la matrice de corrélation afin de mieux traduire l'environnement
de propagation. Parmi ces modèles, deux d'entre eux se détachent dans la
littérature: le modèle de Kronecker [KER02] et le modèle de Weichselberger
[WEI06] plus récent.

5.2. Le modèle de Kronecker


Le modèle de Kronecker repose sur l'hypothèse d'une corrélation à
l'émission et à la réception indépendante l'une de l'autre. Cette hypothèse
conduit à la possibilité de formuler la corrélation totale du canal comme le
produit de Kronecker des matrices de corrélation à l'émission et à la réception
[KER02].
ΓH = RT ⊗ RR (2.23)
x x

En exploitant cette formulation dans le modèle général on obtient le modèle


suivant:
vec( H ) = ( RT ⊗ RR )1/2 vec(G ) ⇐ H = ( RR )1/2 G ( RT )1/2 (2.24)
x x x x

La corrélation est ici exprimée à l'aide des matrices de corrélation. La


covariance peut être utilisée [KYU01]. Le modèle de Kronecker l'exploitant a été
vérifié à l'aide d'un logiciel de tracé de rayon dans [CHU02]. Dans [PED00] et
[KER00], le modèle utilise les matrices de corrélation en puissance à l'émission
et à la réception. La comparaison avec des mesures [BON05] montre que le
modèle est proche de la réalité si l'on s'intéresse aux distributions cumulatives
des valeurs propres de la matrice du canal. Cependant, l'utilisation de ce
modèle dans la simulation de communications entraîne une perte sur
l'information de phase. Pour palier ce problème il est proposé dans [PED00]
d'introduire l'influence de la corrélation des phases en considérant les angles
moyens d'arrivée et de départ par le biais de matrices diagonales.
Ainsi, le modèle de Kronecker est un modèle couramment utilisé de par sa
simplicité et de par la taille réduite des données à manipuler ( N r2 + N t2 ). Bien
que validé dans certains environnements, il n'est valide qu'à la condition que les

70 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

directions de départ et d'arrivée des signaux soient séparables et


indépendantes. Ainsi, il ne permet pas de traduire l'existence de corrélation
croisées entre les deux extrémités du système. En outre, la structure du modèle
exclut d'introduire des propriétés statistiques internes du canal et donc de
reproduire des effets tel que le goulot d'étranglement. Le modèle de
Weichselberger tente de palier ces contraintes.

5.3. Le modèle de Weichselberger


Le modèle de Weichselberger [WEI06] est un modèle récent qui essaie de
palier les limitations du modèle de Kronecker en utilisant la décomposition en
vecteurs propres des matrices de corrélation et en introduisant une matrice de
couplage. Pour cela, quelques hypothèses sont nécessaires:
— La base formée par les vecteurs propres est indépendante du
diagramme de rayonnement de l'antenne (puissance, direction) et traduit
uniquement l'environnement de propagation (nombre, position et
caractéristiques des diffuseurs)
— La valeur des valeurs propres dépend du diagramme de rayonnement.
L'application de la décomposition aux matrices de corrélation permet de les
formuler selon (2.25) et (2.26).

RT = U T Λ T U TH (2.25)
x x x x

RT = U R Λ R U RH (2.26)
x x x x

U T et U R sont des matrices unitaires dont les colonnes sont formées par
x x
les vecteurs propres de RT et RR respectivement. Λ T et Λ R sont des
x x x x
matrices diagonales composées des valeurs propres des matrices de
corrélation respectives. A partir de ces définitions, le modèle de Weichselberger
s'écrit selon l'équation (2.27).

H = U R (Ω • G )U TT (2.27)
x x

La matrice G est une matrice dont les coefficients sont i.i.d.. Ω est une
matrice décrivant le lien entre l'émission et la réception. Ses éléments sont
réels et positifs. Ils représentent le couplage de puissance moyen entre les
vecteurs propres à l'émission et ceux à la réception. Les coefficients ωm,n de Ω
sont définis par l'équation (2.28).

ωm,n = EH [| u RH ,m HuT* ,m |2 ] (2.28)


x x

Ω reflète directement la configuration spatiale des diffuseurs dans le canal


de propagation. Elle influence donc le degré de diversité du canal et sa
capacité. Un coefficient non nul établi un lien entre les deux modes propres
concernés et donc l'existence d'un sous canal. Un coefficient nul indique qu'il
n'existe pas de couplage entre les modes propres. La correspondance entre la

Rapport INRETS n°275 71


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

structure de Ω et la géométrie de l'environnement peut être réalisée. La figure


2.11 tiré de [WEI06] présente quelques exemples.
Dans le premier cas présenté sur la figure, ( Ω1 ), un seul coefficient est non
nul ce qui correspond à un seul trajet exploitable dans le canal de propagation.
Ce cas de figure peut correspondre à une transmission en ligne de vue avec un
trajet prédominant de forte puissance.
Dans la deuxième structure ( Ω 2 ), d'un point de vue émetteur, au moins N t
trajets indépendants sont présents. La diversité spatiale est au minimum d'ordre
N t . Pour le récepteur, cette structure est équivalente au cas Ω1 . Le cas est
typique d'une transmission MISO ou SIMO. Cependant dans le cas d'un
système MIMO, deux causes peuvent être responsables de ce motif:
— L'ensemble des multitrajets issus de Tx réalisent leur dernière réflexion
sur le même diffuseur.
— La distance entre Rx et Tx est très grande par rapport à l'étalement des
diffuseurs autour de Tx . L'étalement angulaire des angles d'arrivée est
donc très réduit.
Enfin, dans la troisième configuration, Ω est une matrice diagonale et
correspond à un motif où chaque Rx et chaque Tx possède une et une seule
entrée. Un mode propre à l'émission est relié à un mode propre en réception. Il
faut noter dans ce cas l'absence de diversité sur les flux transmis. Le degré de
diversité est donc équivalent au minimum de N t et N r .
Le cas particulier où Ω est une matrice pleine correspond à un système
MIMO à diversité maximale. Il peut correspondre à un canal MIMO dans lequel
les réponses impulsionnelles sont i.i.d.. Il peut signifier la présence de
nombreux diffuseurs autour des antennes d'émission et de réception et entre
les deux. Une comparaison avec d'autres modèles à l'aide de mesures de
canaux montre que le modèle de Weichselberger donne une bonne
approximation du canal de propagation et s'avère meilleur que le modèle de
Kronecker [BON05]. Cependant, il est plus complexe à mettre en œuvre.

72 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

Figure 2.11 : Structure de Ω et géométrie de transmission

5.4. Conclusion
Nous venons de présenter quelques unes des différentes méthodes
permettant de modéliser le canal de propagation MIMO. L'application traitée
implique une mobilité importante et donc une variation importante des
paramètres tels que les angles de départ et d'arrivée des signaux, la répartition
et la forme des diffuseurs... il nous a paru difficile d'utiliser des modèles fondés
sur une description fine de l'environnement. Nous avons donc fait le choix
d'utiliser préférentiellement des modèles purement stochastiques. Des
campagnes de mesures ont donc été réalisées au cours de nos travaux afin de
servir de base à la modélisation. Dans la suite de ce chapitre nous présentons
les modèles que nous avons utilisés dans la chaîne de simulation réalisée
durant le projet EVAS.

6. Mesure et modélisation de canaux MIMO réels


6.1. Les configurations mesurées
Afin d'extraire les paramètres statistiques du canal de propagation et
d'analyser notamment l'influence de la diversité de polarisation, une campagne
de mesures des réponses impulsionnelles a été réalisée à l'aide d'un analyseur

Rapport INRETS n°275 73


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

de réseau. Le mode opératoire a été développé au laboratoire dans le cadre


d'un précédent travail de thèse et est détaillé dans [PAR04]. Les canaux
caractérisés sont des canaux MIMO à quatre antennes d'émission et quatre
antennes de réception. Pour chacun d'entre eux, la fréquence du canal est
centrée sur 2,7 GHz et la largeur de bande observée est de 20 MHz ou
10 MHz. Le choix de la bande sondée a été guidé par les potentialités des
émetteurs et du récepteur qui seront utilisés pour les essais en vraie grandeur
présentés dans le dernier chapitre de ce mémoire. Trois configurations ont été
étudiées. Toutes ne traduisent pas un environnement transport spécifique car la
méthode employée limite les distances émetteur/récepteur possibles et la
mobilité du matériel.
— Diversité spatiale dans un environnement suburbain NLOS (Canal SU-
S). Les mesures ont été réalisées sans ligne de vue directe entre
l'émetteur et le récepteur et dans un environnement suburbain avec peu
de diffuseurs. Des antennes patch à polarisation horizontale sont
utilisées.
— Diversité spatiale dans un couloir en ligne de vue (Canal C-S). La
mesure a été réalisée dans un couloir en ligne de vue de l'émetteur afin
d'obtenir un canal fortement corrélé avec un trajet direct avec des
antennes patch à polarisation horizontale.
— Diversité spatiale et diversité de polarisation +/- 45° dans un couloir en
ligne de vue (Canal C-S+P). Les mesures ont été réalisées dans le
même environnement que le canal C-S mais en exploitant
simultanément la diversité spatiale et la diversité de polarisation. Les
antennes patch utilisées ont une polarisation à +/- 45 degrés. Nous
avons choisi ces polarisations car [LEM98] montre que lorsque deux
degrés de polarisation sont utilisés, la configuration +/- 45 degrés offre
de meilleures performances en comparaison des configurations
Horizontale/Verticale ou des configurations à une seule polarisation.
La configuration des antennes à l'émission et à la réception pour chaque
mesure est représentée sur la figure 2.12.

Figure 2.12 : Configuration des antennes pour les différents canaux


mesurés

74 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

6.2. Corrélation spatiale et capacité des canaux mesurés


Dans cette étude, les canaux étudiés sont caractérisés à l'aide des matrices
de corrélation, de la distribution des coefficients de la matrice de canal, de la
capacité et le cas échéant du XPD ou du BPR. Afin d'évaluer ces
caractéristiques nous considérons en référence des canaux théoriques de
Rayleigh et de Rice non corrélés. Le canal de Rice est modélisé suivant
l'équation (2.29).
H rice = K H directpath + 1 − K H rayl (2.29)
jφa jφd
où H directpath = αβ T représente le trajet direct fixe. α = e et β = e sont
des vecteurs de tailles respectives N r × 1 et N t × 1 et fonction des angles de
départ φd et d'arrivée φa qui suivent une distribution uniforme entre −π et π .
H rayl représente les multitrajets variables et est modélisée comme un canal de
Rayleigh. K est le facteur de Rice tel que 0 < K ≤ 1 .
Dans un premier temps, nous considérons la corrélation des canaux
présentés. La figure 2.13 présente les matrices de covariance des canaux
mesurés. La pauvreté en réflecteur de l'environnement de propagation du canal
SU-S induit une très forte corrélation spatiale en émission et en réception.
Celle-ci est bien supérieure à celle présente pour les deux autres canaux même
si ceux ci sont en ligne de vue.
Pour les canaux C-S et C-S+P, la corrélation spatiale est moins importante
en raison de la richesse en diffuseurs de l'environnement. Les matrices de
covariance de ces deux canaux sont assez proches. Afin de comparer plus
efficacement les deux canaux, nous calculons les matrices de corrélation. Le
tableau 2.2 présente les valeurs minimales, maximales et moyennes issues des
matrices de corrélation de ces canaux. Nous constatons que la corrélation
moyenne à l'émission et à la réception est significativement réduite lors de
l'utilisation de la diversité de polarisation. Cette technique semble donc
intéressante même en présence d'un trajet prépondérant et doit améliorer la
capacité du canal.

Rapport INRETS n°275 75


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

Figure 2.13 : Matrices de covariances des canaux mesurés.

76 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

Tableau 2.2 : Corrélation minimale, moyenne et maximale des différents


canaux
CANAL SU-S CANAL C-S CANAL C-S+P
Corrélation minimale 0,67 0,13 0,06
à moyenne 0,78 0,33 0,21
l’émission maximale 0,86 0,52 0,31
Corrélation minimale 0,30 0,27 0,04
à la moyenne 0,55 0,40 0,17
réception maximale 0,78 0,67 0,31

Les capacités respectives de chaque canal mesuré en fonction du rapport


signal sur bruit sont représentées sur la figure 2.14 et comparées aux capacités
de référence d'un canal de Rayleigh et d'un canal de Rice non corrélés avec
K=0,5 et K=0,9. Pour de faible rapport signal sur bruit (< 6 dB) la différence
entre les canaux mesurés reste faible alors que lorsque ce rapport augmente
l'utilisation de la diversité de polarisation apporte un gain significatif au système
(près de 2 dB pour une capacité de 15 bits/s/Hz).

Figure 2.14: Capacité des canaux considérés

Afin de réutiliser ces canaux dans la chaîne de simulation, nous avons


évalué deux modèles : le modèle de Kroneker fondé sur la covariance et le
modèle de Weichselberger pour les canaux exploitant la diversité spatiale
seule. Nous rappelons que la polarisation n'est pas considérée dans ces
modèles.

Rapport INRETS n°275 77


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

Modélisation des canaux réels à diversité spatiale


La matrice de couplage telle que définie dans le modèle de Weichselberger
a été générée à partir des mesures. Les matrices obtenues sont présentées sur
la figure 2.15.

Figure 2.15 : Matrices de couplage du modèle de Weichselberger

Nous pouvons observer qu'il existe peu de sous canaux de propagation pour
le canal SU-S. On note également la présence d'un mode de propagation
prépondérant. Ceci est confirmé par la valeur de la capacité calculée
précédemment. Pour le canal C-S, le degré de diversité côté récepteur est très
important alors que la diversité est plus faible côté émetteur avec deux trajets
prédominants. L'ajout de la diversité de polarisation dans le canal C-S+P
modifie la structure de la matrice de couplage de manière importante et
augmente la diversité à l'émission. Il existe alors de nombreux modes de
propagation.
Ainsi pour chaque canal, un modèle de Weichselberger et un modèle de
Kronecker ont été générés. Les capacités de chaque modèle ont été
comparées avec celles des canaux mesurés. La fonction cumulative de la
distribution de l'enveloppe des coefficients de H a également été étudiée.
La figure 2.16 présente les différentes fonctions cumulatives des
distributions d'enveloppe des coefficients respectivement pour chaque canal
mesuré et les modèles associés. Les résultats obtenus avec les deux modèles
sont assez proches. Le modèle de Weichselberger semble meilleur dans le cas
du canal C-S+P par rapport aux deux autres canaux.
Les évolutions des capacités en fonction du rapport signal sur bruit sont
présentées figure 2.17. Il apparait que les deux modèles ont tendance à sous
estimer la capacité du canal. En particulier, cette sous estimation augmente lors
d'une forte corrélation spatiale dans le canal à modéliser. Le modèle de
Weichselberger semble légèrement meilleur que le modèle de Kronecker pour
les canaux SU-S et C-S+P. Le modèle de Kronecker est meilleur pour le canal
C-S.
En conclusion, les deux modèles donnent des résultats très voisins. Le
modèle de Weichselberger possède l'avantage de considérer les interactions
possibles entre la corrélation à l'émission et à la réception par l'intermédiaire de

78 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

la matrice de couplage. C'est pourquoi nous considérons cette modélisation lors


de l'utilisation des canaux réels à diversité spatiale seule dans les simulations.

Figure 2.16 : CDF des enveloppes des coefficients pour les différents
modèles dans les canaux mesurés

Canal SU-S

Canal C-S

Rapport INRETS n°275 79


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

Canal C-S+P

Figure 2.17 : Capacité moyenne pour les différents modèles dans les
canaux mesurés

Canal SU-S

80 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

Canal C-S

Canal C-S+P

Pour le canal C-S+P, l'utilisation de ces modèles ne peut pas être


satisfaisante car aucun des deux ne permet la modélisation de la diversité de
polarisation du canal. En outre, l'étude bibliographique réalisée a montré qu'il
n'y avait pas encore de modèle établi pour sa représentation dans le cas d'un
canal MIMO 4x4. Nous avons pris la décision d'exploiter directement le canal
mesuré lors des simulations.

Rapport INRETS n°275 81


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

6.3. Conclusion
Dans ce paragraphe, les différentes méthodes de représentation du canal
MIMO ont été présentées. La définition la plus couramment considérée de la
capacité a été rappelée. Cette grandeur dépend fortement des propriétés
statistiques du canal liées à l'environnement de propagation. Plus
particulièrement, elle est influencée par la corrélation du canal, la présence d'un
trajet prépondérant ou de l'utilisation de la diversité de polarisation. Lors de la
modélisation d'un canal MIMO il est donc important de considérer ces
paramètres.
Nous avons privilégié l’utilisation des modèles analytiques qui exploitent les
propriétés statistiques du canal. Ils offrent une utilisation plus souple.
L'importance de l'influence de la corrélation dans le canal MIMO nous a
conduits à considérer plus particulièrement les modèles faisant appel à ce
paramètre : les modèles de Kronecker et celui de Weichselberger.
Enfin, nous avons réalisé une campagne de mesures dans trois
configurations spécifiques distinctes : un canal avec diversité spatiale en milieu
suburbain et sans ligne de vue, un deuxième canal avec diversité spatiale dans
un couloir en ligne de vue et un troisième canal avec diversité spatiale et
diversité de polarisation dans un couloir en ligne de vue. Les matrices de
covariance et les capacités de ces canaux sont présentées. Enfin, une
comparaison des modèles de Kronecker et de Weichselberger générés à partir
des mesures a conduit à considérer ce dernier modèle pour les canaux utilisés
en simulation.

7. La chaîne de transmission en simulation


7.1. Introduction
Cette partie est consacrée à la chaîne de transmission développée pour
tester plusieurs solutions de traitements en simulation sur la base de deux
antennes à l'émission et de quatre antennes à la réception. Les étapes de
synchronisation et de correction de phase sont considérées comme parfaites et
le récepteur a une connaissance parfaite du SNR. Deux architectures
différentes sont considérées et se distinguent par les traitements réalisés en
réception (itératif ou non). Dans un premier temps, la partie émettrice
(commune) est détaillée puis les deux récepteurs considérés sont décrits. Nous
explicitons brièvement les algorithmes implémentés dans chaque partie de la
chaîne. Nous présentons ensuite les performances obtenues dans un canal de
propagation connu en fonction du rapport signal sur bruit. L'influence du canal
de propagation est mise en évidence. Plusieurs estimateurs sont ensuite
envisagés et nous précisons nos choix. Dans la dernière partie, la chaîne
complète est testée pour différents modèles de propagation en fonction du
rapport signal sur bruit et nous concluons.

82 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

7.2. L'émetteur
La chaîne d'émission se fonde sur la couche physique du standard IEEE
802.16d [IEEE 802.16-2004] exploitant l'OFDM. Un schéma synoptique du
module d'émission développé est donné figure 2.18.
L'émetteur se décompose selon les étapes classiques suivantes que nous
allons présenter:
— Un étage de codage canal qui permet de détecter et corriger un certain
nombre d'erreurs. Des bits de redondance sont générés et ajoutés au
signal de départ. Le débit initial est diminué. L'entrelacement permet de
répartir les erreurs aléatoirement dans la trame et augmente l'efficacité
des codes. Le poinçonnage permet d'adapter le débit final.
— La modulation M-aire compacte les données.
— Le codage spatio-temporel introduit de la diversité spatiale et temporelle
et augmente la robustesse du lien.
— La modulation OFDM et la mise en forme des trames exploitent la
diversité fréquentielle. Le canal est découpé en sous canaux de bande
étroite ce qui simplifie les traitements en réception.
— Cet étage correspond à la mise en forme des trames et à l'insertion des
symboles OFDM pilotes.

Figure 2.18 : Emetteur du système développé

7.2.1. L'étage codage canal


L'étage de codage canal repose sur la concaténation série d'un code de
Reed Solomon (RS) et d'un code convolutif (CC). Le code RS permet la
correction de blocs d'erreurs. Le CC est plus efficace pour la correction des
erreurs éparses. Un étage traditionnellement appelé "randomizer" est spécifié

Rapport INRETS n°275 83


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

dans le standard et se place avant le code RS. Il transforme les données issues
de la source en données pseudo aléatoires à l'aide d'opérations binaires et de
registres à décalages.
Le code de RS est un code systématique qui génère 255 octets pour 239
octets en entrée. Il peut corriger jusqu'à 8 octets. Les polynômes générateurs
sont donnés dans [IEEE 802.16-2003].
Ce code RS est concaténé en série avec un code convolutif non récursif et
non systématique. Il est de rendement 1/2 et de polynômes générateurs
G1 = 171oct et G2 = 133oct . Le standard spécifie également l'utilisation de turbo
codes en bloc et convolutifs pour la couche physique OFDM. Ces deux
méthodes de codage sont cependant optionnelles et ne sont pas considérées
dans l'étude présentée. Une description détaillée de ces types de code et de
leur mode de fonctionnement est proposé dans [PRO95]
A la sortie de cet étage, une opération de perforation est réalisée afin
d'adapter le rendement de la chaîne au débit désiré. Cette opération consiste à
supprimer des bits du signal afin d'adapter le débit de sortie à la valeur
souhaitée. En considérant le masque [1 1 0 1] proposé dans [IEEE802.16-
2003], pn le symbole émis par la sortie 1 du codeur à l'instant n et qn le
symbole émis par la sortie 2 à l'instant n , le masque appliqué sur les données
[ p1 q1 p2 q2 ] donne en sortie [ p1 q1 q2 ] . Après cette opération, le
rendement du code convolutif est égal à 2/3 et le rendement global de la
chaîne devient 1/2 .
Le codage canal est suivi par une opération d'entrelacement qui permet de
réduire la corrélation des bits entre eux. Nous utilisons l'entrelacement en bloc
du standard décrit dans [IEEE802.16-2004]. Cet entrelacement consiste à
remplir une matrice avec les données en entrée puis à effectuer des
permutations entre les lignes et les colonnes.
7.2.2. Modulation et diversité spatiale
Les données binaires issues de l'étage de codage canal sont ensuite
modulées. Le standard propose un système de modulation adaptatif utilisant la
BPSK, la QPSK, la 16-QAM ou la 64-QAM. Cette dernière est en option pour la
couche PHY-OFDM. Le choix de la modulation s'effectue en fonction de la
qualité du signal et du débit souhaités.
Dans le standard, deux stratégies de codage des constellations des
modulations sont proposées : le codage de Gray et le codage dit "pragmatic"
que nous appelons dans la suite codage pragmatique. L'intérêt des différents
codages de constellation pour une même modulation (appelé aussi par le terme
anglophone mapping) est d'adapter celle-ci au canal de transmission et aux
traitements en réception de façon à maximaliser les distances entre symboles
pour une meilleure détection. Cette méthode permet également d'augmenter la
quantité d'information contenue dans chaque symbole. Dans [SEZ03], A.
Sezgin montre que la stratégie de codage de la constellation d'une modulation
peut influencer fortement les performances d'un système de réception itératif à

84 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

plusieurs antennes, cependant, aucune stratégie particulière n'est préconisée.


Les performances de trois stratégies différentes (codage de Gray, codage
pragmatique et codage par défaut dans Matlab) seront évaluées.
L'option de diversité spatiale proposée dans la définition du standard a été
implémentée. Cette option conduit à l'utilisation en émission du code spatio-
temporel en bloc STBC (Space Time Bloc Code) présenté par S. Alamouti
[ALA98] en 1998. Ce code spatio-temporel de rendement unitaire est construit
pour deux antennes d'émission et peut être représenté sous la forme matricielle
(2.31).
⎡ s s2 ⎤
G = ⎢ 1* (2.31)
⎣ − s2 s1* ⎥⎦

où s1 et s2 sont les symboles issus de la modulation.


La modulation OFDM est ensuite appliquée à chaque sortie du codeur
spatio-temporel.
7.2.3. Rappel sur la modulation OFDM
Le principe de la modulation OFDM a été introduit par Chang dans les
années 60 [CHA66]. L'utilisation des propriétés d'orthogonalité permet
d'améliorer l'efficacité spectrale du signal par rapport aux techniques de
multiplexage fréquentiel classiques. Le signal OFDM peut alors être compris
comme la somme de sous porteuses orthogonales. Cependant, dans les
canaux multi trajets l'othogonalité entre sous porteuses est perdue et il se crée
alors des interférences entre sous porteuses. Afin de lutter contre ce
phénomène, l'ajout d'un préfixe cyclique proposé par Peled et Ruiz [PEL80] est
maintenant communément admis. Au lieu d'utiliser un intervalle de garde entre
deux symboles afin de limiter les risques d'interférences entre symboles ou
entre porteuses, celui-ci est remplacé par une extension cyclique du symbole
OFDM. Cette opération place en début de symbole une copie de sa fin comme
illustré sur la figure 2.19.

Figure 2.19 : Ajout du préfixe cyclique au symbole OFDM

Rapport INRETS n°275 85


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

Représentation mathématique de l'OFDM :


Il est possible de représenter mathématiquement le signal OFDM. Nous
considérons le i-ième symbole OFDM si (t ) composé de N sous porteuses,
ayant une largeur de bande de W Hz et une durée de T secondes dont Tcp
secondes correspondant à la durée du préfixe cyclique. Ce symbole OFDM
s'écrit dans le domaine continu sous la forme (2.32)
N −1
si (t ) = ∑x
k =0
k ,iψ k (t − iT ) (2.32)

avec x0,i ...x N −1,i les données complexes de la constellation modulant chaque
sous porteuses et ψ k la forme d'onde d'une sous porteuse définie par
l'équation (2.33).
⎧ 1
W
j 2π k (t −Tcp )
⎪ e N si t ∈ [0, T ]
ψ k (t ) = ⎨ T − Tcp (2.33)

⎩ 0 sinon

Propriétés
L'utilisation de l'OFDM permet :
— Une bonne efficacité spectrale et donc des débits importants
— Une bonne résistance aux multitrajets si l'étalement des retards est
inférieur à la durée du préfixe cyclique
— Une égalisation simplifiée en divisant l'ensemble du canal en N sous
canaux
En pratique, les performances d'un système OFDM dépendent
essentiellement de sa résistance aux interférences entre symboles et entre
porteuses provoquées par un étalement des retards trop important par rapport à
la taille du préfixe cyclique mais aussi par une perte de l'orthogonalité du fait de
la mobilité (effet Doppler), des erreurs de synchronisation et des décalages en
phase ou en fréquence des oscillateurs locaux. Des codes correcteurs d'erreurs
sont de plus en plus souvent utilisés afin d'améliorer la robustesse des
systèmes OFDM [LEF95]. Cette méthode est connue sous le nom d'OFDM
codée COFDM (Coded OFDM).
Enfin des distorsions liées à une mauvaise dynamique des amplificateurs et
à l'application de la transformée de fourrier inverse peuvent également
apparaître. Cela se traduit par l'apparition de symboles ou d'échantillons de très
forte amplitude par rapport à la puissance moyenne du signal. Ces fluctuations
de l'enveloppe du signal sont mesurées à l'aide du rapport de puissance crête
sur la puissance moyenne du signal PAPR (Peak to average power ratio). Ce
problème fait l'objet de nombreuses recherches. Parmi les propositions, nous

86 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

citerons l'utilisation d'amplificateur linéaire à saturation (clipping) [ONE95] ou


les techniques de fenêtrage [PAU98], [VAN98]. Ces méthodes peuvent être
associées aux codes correcteurs d'erreurs ou à des méthodes de précodage
qui permettent d'étaler l'énergie du signal. Une vue d'ensemble de toutes ces
techniques permettant de lutter contre le PAPR est présentée dans [HAN05].
Après l'application de l'OFDM sur chaque antenne d'émission, le signal est
structuré sous la forme de trames regroupant plusieurs symboles OFDM. Cette
structure varie d'un système à un autre et inclus souvent de nouveaux
symboles ne transportant pas les données. Ces symboles transportent des
données protocolaires ou sont utilisés pour faciliter la tâche du récepteur.

Les trames de données transmises


La structure des symboles et des trames utilisées est décrite par la figure
2.20. Le symbole de données a une structure identique à celle du standard
alors que la trame employée utilise deux préambules bien que le standard n'en
préconise qu'un seul sur le lien montant. Cette modification nous permet
d'augmenter la robustesse de l'estimation du canal que nous étudions
ultérieurement.

Figure 2.20: Structure des symboles et des trames OFDM

Les symboles OFDM chargés de transporter les données sont composés de


256 sous porteuses (sans le préfixe cyclique). Ils possèdent 8 sous porteuses
pilotes (sous porteuses chargées avec un symbole connu), 192 sous porteuses
pour les données et 56 sous porteuses non chargées (la composante continue
et les sous porteuses latérales). Les sous porteuses pilotes peuvent aider à
l'estimation du canal. On peut noter que les sous porteuses latérales ne sont
pas chargées. Cette technique permet de limiter les risques de perte de
données en cas d'interférences entre symboles.

Rapport INRETS n°275 87


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

La trame OFDM est composée tout d'abord de 2 symboles OFDM connus


ou préambules. Ils sont suivis de N symboles OFDM transportant des
données. La structure des préambules ne correspond pas à celle du standard.
En effet, le standard n'est pas conçu à l'origine pour utiliser plusieurs antennes
à l'émission et à la réception. Aussi, il n'est pas proposé de préambule
spécifique pour chaque antenne d'émission. Nous avons donc choisi de charger
les préambules à l'aide de données aléatoires. Ces données ont comme
valeurs possibles celles utilisées dans les préambules du standard à savoir :
(-1,1,0). Les préambules utilisés sont donc chargés d'une séquence aléatoire
composée de 0, de -1 et de 1. Chaque antenne d'émission possède des
préambules différents. Le choix de cette méthode facilite l'estimation du canal
de propagation. En effet, cette étape peut nécessiter une inversion de la
matrice représentant le signal connu. Or, l'utilisation des mêmes préambules
pour les trames émises à chaque antenne d'émission conduit à une matrice du
signal déficiente.

7.3. Les récepteurs


7.3.1. Le choix des récepteurs à implémenter
Pour un système d'émission défini, il est possible de concevoir plusieurs
récepteurs. Ils se différencient par leur architecture, les algorithmes utilisés et
bien entendu leurs performances. Dans ces travaux nous proposons de classer
les différentes architectures existantes selon trois catégories: les récepteurs
simples ou 'classiques', les Turbo-récepteurs et les récepteurs exploitant des
méthodes de traitement conjoint.
— La structure des récepteurs classiques est simple et plus ancienne.
L'émetteur comme le récepteur sont décomposés en modules
indépendants. Chacun réalise une opération spécifique sur les données
(codage, modulation, etc.). A un module d'émission correspond un
module en réception effectuant l'opération inverse. A ces modules il
convient d'ajouter des modules dédiés à une opération spécifique dans
la chaîne de réception (synchronisation, estimation du canal, etc.). Dans
ce cas de figure, chaque module est optimisé indépendamment des
autres.
— Les récepteurs à traitement conjoint se fondent sur des techniques
d'optimisation conjointe de plusieurs modules. Parmi elles, les
techniques de codage conjoint source/canal sont pertinentes pour notre
application où des données audio et vidéo sont utilisées. Dans ces
techniques, une optimisation conjointe des modules de codage source
et de codage canal est réalisée. Ces fonctions sont le plus souvent
entrelacées. Ces méthodes nécessitent d'être prises en compte à
l'émission et à la réception. Elles font l'objet de recherches intensives.
Elles n'ont pas été prises en compte dans nos travaux mais un travail de
thèse a été lancé en commun sur ce sujet [FAT06]. Une modification
importante de la chaîne est nécessaire.

88 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

— Les Turbo-récepteurs introduisent dans leur structure une boucle de


rétroaction créant ainsi un processus itératif. A l'origine, cette technique
a été mise en place dans le décodage des Turbo-codes inventés par
Claude Berrou et Alain Glavieux [BER96].
A l'émission, les premiers Turbocodes étaient formés par la concaténation
de deux codes convolutifs séparés par un étage d'entrelacement des données.
En réception un processus itératif est réalisé entre les deux décodeurs. Ces
derniers utilisent des algorithmes à entrée et sortie souples (la définition de ces
types d'entrées est donnée dans la section suivante). Le processus itératif se
traduit par l'échange d'information sur les bits décodés ou codés entre les deux
modules. Les Turbo-codes ont maintenant prouvé leur efficacité et sont utilisés
pour des communications satellitaires ou dans des standards récents (en option
dans le WiMAX). Face à ce succès, de nombreuses recherches autour de ces
principes Turbo ont permis leur extension à d'autres modules de la chaîne de
transmission (détection, démodulation, égalisation...).
Pour un même algorithme en réception, la nature des sorties varie selon la
méthode décisionnelle de l'algorithme. Deux types de décisions sur la valeur
des symboles de sortie peuvent être prises : les décisions dites dures ou
fermes et les décisions dites souples.
— Dans l'approche à décisions dures, le module prend une décision ferme
sur la valeur de chaque symbole de sortie. Il quantifie l'information du
symbole de sortie. Les valeurs de sortie possibles ou l'alphabet des
sorties du récepteur coïncident alors avec l'alphabet des entrées du
module d'émission correspondant. A titre d'exemple, la valeur 0 ou 1
est affectée à chaque symbole si on considère des bits dont les valeurs
peuvent être égales à 1 + j ou 3 − 3 j pour les symboles issus d'une
modulation 16-QAM.
— Dans le cas d'un traitement à décisions souples, c'est une information
sur la valeur du symbole ou de la séquence traitée qui est transmise en
sortie vers l'étage suivant. A titre d'exemple, cette information peut
prendre la forme de la probabilité que le bit décodé soit égal à 1 . A la fin
de la chaîne utilisant cette méthode, une décision ferme est prise sur la
valeur du symbole en fonction de cette information.
Nous avons donc considéré les deux récepteurs suivants:
— avec des algorithmes à décisions dures. Ce récepteur de faible
complexité répond parfaitement à des contraintes de temps de calcul.
En revanche, les performances attendues seront inférieures à celles
d'un récepteur plus élaboré.
— avec le principe des Turbo processus entre le décodeur du code
convolutif et le décodeur spatio temporel du code d'Alamouti. Tous deux
utilisent des entrées et sorties souples. Les autres modules sont
identiques à ceux du récepteur classique. La complexité du récepteur
est plus importante et le temps de calcul également. Cependant, ce

Rapport INRETS n°275 89


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

récepteur doit offrir de meilleures performances que le récepteur


classique.
Les paragraphes suivants détaillent les algorithmes utilisés pour ces deux
récepteurs.
7.3.2. Le récepteur classique
Pour le récepteur classique à décisions dures, les étapes inverses de celles
de l'émetteur sont réalisées une à une. La chaîne de réception développée peut
alors être schématisée sur la figure 2.21.

Figure 2.21 : Le récepteur à décisions dures

Après réception du signal, la démodulation OFDM est réalisée sur chaque


antenne de réception par application d'une simple transformée de Fourier
rapide sur 256 points (nombre de sous porteuses) précédée de l'extraction du
préfixe cyclique. Les données utiles sont ensuite récupérées sur les porteuses
adéquates. Le décodage du code d'Alamouti puis la démodulation sont ensuite
effectués. L'opération de désentrelacement est suivie par l'annulation de la
perforation qui consiste à remplacer les bits manquants par des bits égaux à 0.
Le décodage du code convolutif est implémenté selon l'algorithme de Viterbi
[VIT67]. La dernière opération porte sur le décodage du code de Reed Solomon
selon l'algorithme de BerleKamp-Massey [BERL68], [MAS69]

7.3.3. Le turbo récepteur


Le récepteur itératif considéré est représenté par la figure 2.22. Comme
pour le récepteur à décisions fermes, la démodulation OFDM est d'abord

90 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

réalisée sur chaque antenne de réception. La sortie des démodulateurs est


injectée en entrée du décodeur spatio-temporel à entrées et sorties souples. Le
processus itératif s'effectue entre ce module et le décodeur du code convolutif à
entrées et sorties souples. Le processus se traduit par l'échange d'informations
entre les deux décodeurs. Dans les processus itératifs trois types d'information
sont couramment distinguées: l'information a posteriori, l'information a priori et
l'information extrinsèque.
L'information a posteriori représente l'information sur la valeur du symbole
traité sachant l'ensemble de la séquence reçue. Dans les traitements itératifs
elle prend souvent la forme du logarithme du rapport de vraisemblance ( LLR ,
Log Likelyhood Ratio). Si les symboles considérés sont des bits alors le LLR
est défini par l'équation (2.34).
⎛ P (bi = 1/Y) ⎞
LLR (bi ) = log⎜⎜ ⎟⎟ (2.34)
⎝ P (bi = 0/Y) ⎠
où bi est le i-ème bit de la séquence Y , Y l'ensemble de la séquence
reçue et P (./.) la probabilité conditionnelle.

Figure 2.22 : Le récepteur itératif

L'information a priori correspond à l'information déjà connue sur les


symboles traités. Enfin, l'information extrinsèque correspond à l'information
supplémentaire sur la valeur des symboles issue du traitement réalisé par le
module. En considérant le récepteur présenté figure (2.22), le traitement itératif
se décompose selon les étapes suivantes:

Rapport INRETS n°275 91


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

— L'information a priori des bits d'entrée La1 du décodeur/démodulateur


spatio-temporel et celle des bits décodés La2 pour décodeur SISO du
code convolutif, sont mises à 0 (Aucune information a priori).
— Les données données provenant de chaque démodulateur OFDM sont
reçues par le "soft décodeur".
— Le décodeur du code spatio temporel calcule l'information extrinsèques
Le1 de chaque bit décodé provenant des symboles démodulés à l'aide
des informations a priori La1 sur ces bits et des coefficients qui
représentent les réponses impulsionnelles du canal de transmission.
L'information extrinsèque est ensuite récupérée en sortie.
— Cette information est transmise. L'opération d'entrelacement inverse est
réalisée et suivie par l'annulation de la perforation qui consiste à
remplacer l'information sur les bits manquants par 0 (aucune
information). A la fin de ces étapes, l'information extrinsèque devient
l'information source pour le décodeur du code convolutif.
— Le décodeur du code convolutif calcule l'information a posteriori Lapp2
des bits décodés et l'information extrinsèque de chaque bit de la
séquence codée Le2 à l'aide des informations a priori sur les bits
décodés reçus et de l'information sur les bits codés transmis par le soft
décodeur.A la sortie du module, Lapp2 prend la forme du LLR de
chaque bit décodé.
— Si le processus itératif n'est pas terminé, Le2 est renvoyée vers le
premier décodeur. Les opérations de perforation et d'entrelacement sont
effectuées et transforment Le2 en un nouveau La1 . Le processus
reprend à l'étape 3. Si le processus itératif est terminé une décision est
prise sur la valeur du bit (0 ou 1) en fonction du signe de Lapp2 (bit
ci =′ 0′ si LLR (ci ) < 0 et ci =′ 1′ sinon).
Après avoir présenté le principe du traitement itératif réalisé, nous détaillons
maintenant les algorithmes utilisés.

7.3.4. Description des algorithmes utilisés


a) Le décodeur spatio-temporel à entrées et sorties souples
Le principe :
Dans ce module, le décodage et la démodulation sont réalisés
conjointement selon l'algorithme du Logarithme du Maximum A Posteriori (Log-
MAP). D'autres méthodes de décodage à sortie souple existent pour les codes
STBC, il est possible de citer notamment l'algorithme List Sphere Decoder
(LSD) [HOC01] qui offre des performances intéressantes. Cependant
l'algorithme Log-MAP est le plus couramment utilisé et bien que plus complexe
il est plus performant.

92 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

Cet algorithme dérive de ceux utilisés pour le décodage des Turbo codes
[BERR96]. Le principe est la maximalisation de la probabilité a posteriori pour
un bit donné ce qui a pour effet de minimiser la probabilité de commettre une
erreur sur celui-ci. Le module calcule donc l'information a posteriori Lapp et
l'information extrinsèque Le des bits codés à partir des réponses
impulsionnelles du canal de propagation, des informations a priori et des
données reçues en entrée.

L'algorithme :
A l'émission, les bits c sont définis comme étant les bits en sortie du codeur
convolutif, perforés et entrelacés. Ces bits sont regroupés pour former les
symboles de la modulation M -QAM. Le codage spatio-temporel d'Alamouti
utilisé considère ensuite ces symboles Q = 2 à Q = 2 . Chaque couple peut être
représenté par une matrice X k définie par l'équation (2.35).

⎡ s1,k ⎤
Xk = ⎢ ⎥ (2.35)
⎣ s2,k ⎦
où si ,k est le i-ème symbole considéré dans le couple k .
Ce couple est ensuite codé par le codeur spatio-temporel représenté par la
matrice code G k similaire à l'équation (2.31).
En réception le signal reçu R s'exprime selon l'équation (2.36).
R k = G k .H + n (2.36)
Après la démodulation OFDM, le décodeur spatio-temporel à entrées et
sorties souples réalise simultanément le décodage spatio-temporel et la
démodulation. Il ne considère plus la matrice Xk comme une matrice de
symboles mais comme une matrice de bits ckμ avec μ variant de 1 à
N = Q. log2 M .
L'algorithme Log-MAP calcule le LLR des bits démodulés. Les propriétés
d'orthogonalité du code spatio temporel et l'indépendance des symboles si ,k
composant la matrice X k fait que l'on traitera ensemble les bits d'un même
symbole mais chaque symbole séparément. La séquence binaire composant un
symbole de la modulation est notée cνk avec ν variant de 1 à L = N/Q . Il est
également possible de dire que
L
P ( si ,k ) = ∑
ν
P (cν )
=1
k (2.37)

Nous pouvons maintenant exprimer le LLR (cνk ) par l'équation (2.38).

Rapport INRETS n°275 93


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

P (cνk = 1/R k )
∑ P(s/R ) k
ν s∈S ν,1
LLR (ck ) = = (2.38)
P (cνk = 0/R k ) ∑ P ( s/ R ) k
s∈S ν,0

où S ν,1 et S ν,0 sont respectivement l'ensemble des symboles possibles


issus de la constellation ayant le bit à la position ν égal à 1 ou 0.
Sous l'hypothèse de bit d'un même symbole indépendants et en utilisant le
thèorème de Bayes, LLR (cνk ) prend la forme de l'équation (2.39).
L

∑ c .La (c )k
j
k
j

∑ P(R k /s ).e
ν
j ≠ , j =1

s∈S ν,1
LLR (cνk ) = La (cνk ) + L
(2.39)
∑ ckj .La (ckj )

∑ ν,0
P (R k /s ).e j ≠ν , j =1

s∈S444442444443
1
Le ( cνk )

Dans cette formulation, l'effet du passage dans le canal de propagation


P ( Rk /s ) apparaît. Les propriétés d'orthogonalité des codes spatio-temporels et
la méthode de décodage proposée par S. Alamouti permettent de simplifier
cette équation. Dans un premier temps le décodeur spatio-temporel calcule
l'information extrinsèque des bits puis, si cela lui est demandé, l'information a
posteriori. Dans notre cas, le module se contente de passer en sortie
l'information extrinsèque à destination du décodeur du code convolutif.

b) Le décodeur du code convolutif


Dans la chaîne de transmission développée, le décodeur du code convolutif
extrait deux types d'information : l'information extrinsèque des bits codés et
l'information a posteriori des bits décodés. Le module développé s'inspire du
module présenté par S. Benedetto dans [BEN96]. Ce module utilise un dérivé
de l'algorithme BCJR (Bahl, Coke, Jeinek, Raviv) [BAH74]. L'algorithme utilisé
simplifie le BCJR en utilisant l'algèbre logarithmique. Son principe général est
de minimiser la probabilité d'erreur sur chaque bit du code afin d'améliorer le
décodage. Cela est réalisé en parcourant le treillis dans un sens puis dans
l'autre afin d'estimer la séquence la plus plausible en fonction des données
reçues et parmi toutes les séquences possibles du treillis. Il convient de noter
que cet algorithme nécessite que l'ensemble de la séquence à traiter soit
disponible avant de pouvoir fournir les premiers résultats.
Afin de mieux comprendre le fonctionnement de l'algorithme, il est
nécessaire de revoir le fonctionnement du codeur convolutif. Ce type de codeur
repose sur des registres à décalage et des opérations binaires. Il est possible
de suivre l'opération de codage en la représentant par un treillis composé des

94 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

états du codeur et des transitions entre ces états en fonction des entrées. Si le
codeur présente un état initial S S (e) ( S 'Start′ ). Le bit u (e) arrivant en entrée du
codeur provoque la transition e du codeur vers un état d'arrivée S E (e) ( S 'End ′ ).
Cet état d'arrivée est dépendant de la valeur du bit u (e) . Cette transition va
correspondre à la sortie du codeur à la génération des bits codés. En
s'appuyant sur [BEN96] et [BER96]], les informations extrinsèques des bits
codés et les informations a posteriori des bits décodés peuvent s'exprimer
respectivement selon les équations (2.40) et (2.41).

⎧⎪ ⎫⎪
Le(ci ,k (e)) = max∗ ⎨α k −1 ( S S (e)) + u (e) ⋅ La (uk ) +
e:ci ,k (e)=1⎪
∑c j ,k (e) ⋅ La (c j ,k ) + β k ( S E (e))⎬
⎪⎭
(2.40)
⎩ j ≠i
⎧⎪ ⎫⎪
e:ci ,k (e)=0⎪

− max∗ ⎨α k −1 ( S S (e)) + u (e) ⋅ La (uk ) + c j ,k (e) ⋅ La (c j ,k ) + β k ( S E (e))⎬
⎪⎭
⎩ j ≠i

⎧⎪ ⎫⎪
max∗ ⎨α k −1 ( S S (e)) +
Lapp (uk (e)) = e:uk (e)=1⎪⎩
∑cj
j ,k (e) ⋅ La (c j ,k ) + β k ( S E (e)) ⎬
⎪⎭ (2.41)
⎧⎪ ⎫⎪
− max∗ ⎨α k −1 ( S S (e)) +
e:uk (e)=0⎪
∑ c j ,k (e) ⋅ La (c j ,k ) + β k ( S E (e))⎬
⎪⎭
⎩ j

avec
⎧⎪ ⎫⎪
α k ( s) = max∗ ⎨α k −1 ( S S (e)) + u (e) ⋅ La (uk ) +
e:S E (e)= s ⎪
∑ c j ,k (e) ⋅ La (c j ,k )⎬ + hα ,k
⎪⎭
(2.42)
⎩ j

et
⎧⎪ ⎫⎪
β k ( s) = max∗ ⎨β k +1 ( S E ( s)) + u (e) ⋅ La (uk +1 ) +
e:S S (e)= s ⎪
∑ c j ,k +1 (e) ⋅ La (c j ,k +1 )⎬ + hα ,k (2.42)
⎪⎭
⎩ j

où j varie de 1 au nombre de sorties du codeur convolutif et max∗ est un


opérateur provenant de l'approximation du logarithme d'une somme
d'exponentielles. En considérant l'équation (2.43)
L

∑e
ai
a = log( ) (2.43)
i

et sous l'hypothèse que le maximum des ai n'est pas très grand par rapport
aux autres, alors il est possible d'approximer récursivement l'équation (2.44) de
la manière suivante:

Rapport INRETS n°275 95


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

a (1) = a1 ⎫


( − al −1−al ) ⎪
a (l ) = max(a l −1 − al ) + log[1 + e ] ⎬ (2.44)


a ≡ a ( L) ⎪

L'opérateur max ∗ représente donc cette opération. Enfin, hα ,k et hβ ,k sont des
constantes de normalisation permettant d'éviter le débordement des mémoires
système.
Après l'application de cet algorithme et si le traitement itératif n'est pas
terminé, l'information extrinsèque des bits codés est transmise comme
information a priori au décodeur spatio-temporel. Dans le cas contraire,
l'information a posteriori des bits décodés est communiquée à un module de
décision sur la valeur du bit. Si la valeur reçue est négative ou nulle, le bit prend
la valeur '0'. Sinon, il prend la valeur '1'.

7.4. Comparaison des performances des deux récepteurs


dans un canal connu
Le but est ici de déterminer la structure offrant la meilleure robustesse aux
erreurs. Le critère choisi pour cette évaluation est donc le taux d'erreurs
binaires obtenu pour différents rapports de puissance du signal reçu sur la
puissance du bruit. Le canal est parfaitement connu à la réception. L'étage
d'estimation du canal sera introduit par la suite.
Afin de déterminer la structure la plus adaptée à notre application nous
avons analysé :
— l'impact du nombre d'antennes à l'émission
— l'impact de la corrélation spatiale du canal

7.4.1. Impact du nombre d'antennes de réception dans un canal de


Rayleigh
L'émetteur précédemment décrit est utilisé avec une modulation 16-QAM et
un mapping de Gray. En réception, le récepteur classique sert de récepteur de
référence. Le canal est considéré comme parfaitement connu à la réception. Il
correspond à un canal de Rayleigh non corrélé. lors des simulation nous avons
fait varier le nombre d'antennes de réception. Celui-ci prend les valeurs N r = 1
(MISO), N r = 2 (système symétrique), N r = 4 ou N r = 6 et N r = 8 pour Nt=2
La figure 2.23 présente les taux d'erreur obtenus en fonction du rapport
signal sur bruit et du nombre d'antennes de réception. A partir de ces résultats,
une première observation montre que, pour un rapport signal sur bruit donné, le
taux d'erreur diminue lorsque le nombre d'antennes de réception augmente. Ce

96 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

résultat provient de l'augmentation du degrés de diversité avec le nombre


d'antennes. La seconde observation concerne le gain apporté par l'utilisation de
plusieurs antennes en réception. Nous pouvons observer que le gain en terme
de taux d'erreur binaire apporté par l'ajout d'antennes de réception diminue
avec l'augmentation du nombre d'antennes réceptrices. En effet, le gain entre
un système 2x1 et 2x2 et celui aporté par le passage d’un système 2x2 à un
système 2x4 est légèrement supérieur à 3 dB. Lorsque l'on augmente encore le
nombre d'antennes, le taux d'erreurs baisse à nouveau mais le gain est cette
fois inférieur à 1,5 dB lorsque l'on passe d'un système 2x4 à un système 2x6 ou
lors de la transition entre un système 2x6 à un système MIMO 2x8.
L'augmentation du nombre d'antennes entraine inévitablement une plus forte
complexité en réception. Aussi, afin d'obtenir un bon rapport
performance/complexité, la décision de considérer un système MIMO 2x4 a été
prise.

Figure 2.23 : TEB obtenus pour le récepteur classique et différentes


valeurs de N r

7.4.2. Transmission dans un canal NLOS fortement corrélé


La figure 2.24 présente les résultats obtenus en terme de TEB pour
différents rapports signal à bruit dans un canal de Rayleigh et dans le canal
modélisé, pour une transmission utilisant le récepteur itératif et un codage
pragmatique de la modulation (codage matlab).

Rapport INRETS n°275 97


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

Dans le canal mesuré, nous observons une forte dégradation des


performances égale à 3,8 dB pour un taux d'erreur de 10-2. Ces résultats
traduisent bien l'effet de la corrélation du canal sur sa capacité. Celle-ci
diminuant, les performances du système se trouvent dégradées.

Figure 2.24 : TEB dans un canal de Rayleigh et dans un canal réel


modélisé pour le récepteur itératif associé au codage pragmatique

Des constatations similaires peuvent être faites sur les photogrammes de la


figure 2.25 qui permettent une analyse de la qualité de l'image reçue. Un fichier
vidéo au format H.263 a été utilisé comme source de données. La simulation a
été réalisée avec le canal mesuré et modélisé dans les mêmes conditions que
celles considérées pour la figure 2.24.

Figure 2.25 :Vidéos obtenues après transmission en simulation dans un


canal réel modélisé

Figure 2.25 a Figure 2.25 b


SNR= 8dB et TEB = 0 SNR= 7 dB et TEB = 9.10-3

98 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

7.5. Introduction de l'estimation du canal


7.5.1. Généralités sur les estimateurs de canaux
Dans de nombreux traitements en réception (égalisation, détection,
décodage ...) il est nécessaire de connaître la réponse impulsionnelle du canal
de propagation ou au minimum ses propriétés statistiques. Cependant, lors de
transmissions réelles, ces informations sont rarement disponibles, surtout en
présence de mobilité. Afin de récupérer ces informations, il est donc
indispensable de les estimer. Deux familles de méthodes se distinguent :
l'estimation aveugle et l'estimation avec séquence d'apprentissage
(préambules, pilotes...). Les techniques d'estimation aveugle s'appuient sur les
propriétés statistiques du second ordre ou supérieures du signal émis afin
d'estimer une ou plusieurs caractéristiques du canal. Ces méthodes sont
souvent d'une complexité élevée et offrent des performances moindres. Les
techniques avec séquence d'apprentissage nécessitent l'insertion de
séquences connues dans le signal émis. L'estimation du canal s'effectue
ensuite en exploitant ces séquences.
Le système envisagé se fonde sur le standard WiMAX qui utilise des
symboles OFDM connus (préambules aussi appelé symboles pilotes) dans les
trames OFDM et des porteuses pilotes connues dans les symboles OFDM de
données. Cette particularité nous a conduit naturellement à étudier plus en
détail les techniques d'estimation utilisant des séquences d'apprentissage dans
le cadre d'un système OFDM. L'estimation peut se faire soit dans le domaine
temporel soit dans le domaine fréquentiel. Cependant les propriétés de l'OFDM
permettent de simplifier l'estimation dans le domaine fréquentiel grâce à un
découpage en sous bande correspondant aux sous porteuses.
Dans le cadre de systèmes utilisant l'OFDM, les techniques d'estimation du
canal avec séquence d'apprentissage peuvent se scinder en trois, suivant les
séquences d'apprentissage qu'elles considèrent:
— Les méthodes exploitant des sous porteuses connues appelées sous
porteuses pilotes ;
— Les méthodes exploitant des symboles OFDM connus nommés
symboles pilotes ;
— Les méthodes exploitant à la fois les symboles et les porteuses pilotes.
Les techniques utilisant les porteuses pilotes estiment dans un premier
temps les sous canaux qui leur correspondent. Elles nécessitent ensuite la
réalisation d'une opération d'interpolation afin d'estimer les sous canaux
manquants. Pour cela elles s'appuient sur les propriétés de corrélation
fréquentielle du canal. Ces techniques sont surtout intéressantes lors de
transmission incluant une forte mobilité car elles permettent de suivre
rapidement l'évolution du canal de propagation. Cependant ces méthodes
nécessitent de répéter régulièrement ces opérations et offrent une estimation
moins précise liée à l'interpolation. Un exemple est donné dans [Coleri,02]

Rapport INRETS n°275 99


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

Les méthodes exploitant des symboles pilotes estiment l'ensemble du canal


de propagation à partir de ces derniers. Les symboles pilotes sont le plus
souvent placés en début, en milieu ou en fin de trame. Il est possible
d'appliquer cette méthode sur un ou plusieurs symboles pilotes. Ces techniques
estiment plus précisément le canal. Plus le nombre de symboles pilotes
présents dans la trame est important, plus l'estimation du canal est juste.
Cependant, plus le nombre de préambules est important dans la trame plus le
débit réel des données est réduit. Ainsi, Il est nécessaire de trouver le bon
compromis débit/efficacité. Le fait de ne considérer que quelques symboles
dans la trame implique également que ces techniques doivent être utilisées
dans le cas d'un canal variant lentement dans le temps car dans le cas
contraire l'estimation du canal s'avère rapidement erronée pour une partie de la
trame.
Enfin, des techniques utilisent les deux types de séquences connues
(Symboles et sous porteuses pilotes). Ces techniques ont l'avantage d'être
robustes. En effet, elles possèdent une bonne précision d'estimation (grâce aux
symboles pilotes) et sont réactives sur l'évolution de la valeur du canal (en
exploitant les sous porteuses pilotes). L'inconvénient majeur de ces méthodes
réside dans le temps de calcul beaucoup plus important qu'elles demandent.
Dans l'application visée, le bus évolue en général à des vitesses réduites.
Ainsi, en considérant une structure de trame courte, l'hypothèse d'un canal
évoluant lentement semble plausible. Ces conditions permettent l'utilisation des
techniques exploitant des symboles connus. Ce choix réduit la complexité et le
temps de calcul du récepteur.
Les estimateurs qui s'appuient sur des séquences d'apprentissage se
différencient également par le critère de décision utilisé pour la convergence de
l'algorithme d'estimation. Les plus courants sont les critères de minimisation de
l'erreur quadratique moyenne linéaire (LMMSE), du maximum de vraisemblance
(ML), de la maximalisation de la probabilité a posteriori (MAP, Maximum A
Posteriori) ou encore le critère des moindres carrés (LS, Least Square). Avant
d'étudier ces méthodes, il est nécessaire de rappeler la modélisation du signal
utilisée et de poser les hypothèses considérées.
D'une manière générale, la transmission considérée prend la forme d'un
modèle linéaire représenté par l'équation (2.47)
Y = HX + b (2.47)
Après les opérations de codage et de modulation, le signal transmis X est
une matrice de dimension N t × N ifft ou N t correspond au nombre d'antennes
d'émission et N ifft correspond au nombre de sous porteuses d'un symbole
OFDM. Le signal traverse un canal H dont la réponse impulsionnelle est
représentée par une matrice de dimension N r × N t , ou N r est le nombre
d'antennes de réception. Un bruit blanc gaussien B , matrice de dimension
N r × N ifft , est considéré. La matrice Y est le signal reçu et est de dimension
N r × N ifft . Lors de cette étude, l'hypothèse d'un canal de Rayleigh totalement

100 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

décorrélé est posée. Les coefficients hij de la matrice de canal H sont donc
indépendants et identiquement distribués (i.i.d.). Les estimateurs utilisent X et
Y afin de donner une estimation de la valeur de H . X représente alors les
symboles OFDM connus et est de taille N t × ( N p × N ifft ) . N p est ici le nombre
de préambules utilisés.

7.5.2. Les estimateurs considérés


Nous avons considéré et comparé des estimateurs utilisant uniquement les
préambules et se servant des critères de maximum de vraisemblance (ML), de
minimisation de l'erreur quadratique moyenne linéaire (LMMSE), de
maximalisation de la probabilité a posteriori (MAP) ou le critère des moindres
carrés (LS). En effet l'estimateur LS présente de faibles performances face aux
autres estimateurs considérés. Tous les détails des algorithmes sont donnés
dans [MON07]
L’estimateur du maximum a posteriori (MAP) est un estimateur de type
Bayesien qui estime la matrice de canal et maximalise la densité de probabilité
conditionnelle p( H | Y , X ) d'avoir H si X est émis et Y reçu.
L’estimateur du Maximum de vraisemblance (ML) calcule la séquence reçue
la plus vraisemblable pour la séquence émise qui va maximaliser la densité de
probabilité conditionnelle p(Y | X , H ) . En comparaison avec d'autres
estimateurs, l'estimateur ML offre parfois une variance plus importante. C'est le
cas avec l'estimateur MAP qui possède toujours une variance inférieure.
Cependant l'estimateur basé sur le critère de maximum de vraisemblance offre
des propriétés de convergence plus intéressantes. C'est à dire que plus le
nombre d'informations connues est grand plus l'estimateur converge vers la
véritable valeur de H .
L’estimateur au sens des moindres carrés (LS) est moins complexe que les
deux précédents. Il peut être utilisé lorsqu'aucune information statistique sur H
et Y n'est disponible et que Y est considéré comme une mesure bruitée de H.
L'avantage de l'estimateur LS provient de sa faible complexité mais il souffre
d'une erreur quadratique moyenne élevée surtout si le système opère à des
faibles rapports signal à bruit. Il présente en général des performances
moindres comparé aux autres estimateurs présentés.
L’estimateur selon le critère de minimisation de l'erreur quadratique
moyenne linéaire (LMMSE) cherche à minimiser l'erreur quadratique moyenne.
Il est couramment employé pour l'estimation du canal des systèmes OFDM.
Cependant son application nécessite la connaissance de la variance du bruit et
le cas échéant de la matrice d'autocorrélation du canal de propagation.
Néanmoins, il présente en général de bonnes performances. Dans [EDF98] une
méthode permettant de réduire sa complexité est proposée.
De manière générale ces différents estimateurs diffèrent suivant leur
convergence et leur formulation. Ces différences se traduisent alors en terme
de performances. Dans le cas d'un canal de Rayleigh non corrélé, certains de

Rapport INRETS n°275 101


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

ces estimateurs sont équivalents. Les estimateurs LS et ML sont équivalent


pour un système non itératif transmettant dans un canal de Rayleigh non
corrélé auquel s'additionne un bruit blanc gaussien. En cas d'absence
d'information a priori sur le canal en réception, l'estimateur MAP leur est
équivalent. Nous avons donc fait le choix de ne considérer que l'estimateur ML
et LMMSE dans notre étude.
7.5.3. Choix des estimateurs testés
Afin de limiter la complexité du récepteur et de réduire le temps de
traitement, nous avons fait le choix de ne pas inclure l'estimateur dans le
processus itératif. Aussi, aucune information a priori sur le canal n'est
disponible à son niveau. Dans ce cas de figure et pour un canal de Rayleigh
non corrélé, il est possible de ne considérer que deux estimateurs : l'estimateur
ML et l'estimateur LMMSE. Au cours du trajet du bus, le canal de transmission
varie régulièrement. La corrélation spatiale varie et la transmission s'effectue en
alternance en LOS et NLOS.
a) Impact de l'introduction de l'estimation du canal
Les estimateurs étudiés sont analysés vis à vis de leurs performances en
fonction du rapport signal à bruit pour les deux récepteurs choisis (décisions
dures et souples) et respectivement pour le codage de Gray et le codage
pragmatique. Un seul estimateur est utilisé, celui basé sur le critère de
maximum de vraisemblance. Le canal de propagation considéré est un canal de
Rayleigh non corrélé. La figure 2.26 donne les résultats obtenus pour le TEB en
fonction du rapport de puissance signal sur bruit dans le cas d'un canal
parfaitement connu et pour un canal estimé.

Ces résultats montrent que le récepteur itératif est beaucoup plus résistant
aux erreurs d'estimation du canal que le récepteur à décisions dures. En effet,
si l'objectif est d'atteindre un taux d'erreur de 4.10 −3 , les performances du turbo
récepteur sont dégradées d'environ 1 dB alors que la dégradation est
légèrement supérieure à 3 dB pour le récepteur à décisions dures. Cette
résistance aux erreurs d'estimation du canal nous a conforté dans l'utilisation
d'une structure itérative pour le récepteur.
Sur cette figure, il est possible d'observer un résultat pour de faibles rapports
signaux sur bruit qui peut paraître aberrant. En effet, le cas où le canal est
connu présente de moins bon résultats que lors de l'estimation du canal. La
méthode de simulation est à l'origine de ces résultats. Les temps de calculs ne
nous permettent pas d'envisager un grand nombre de réalisations du canal. Les
propriétés statistiques diffèrent alors d'une série de réalisations à l'autre. La
série utilisée pour l'estimation du canal était, dans le cas présenté, plus
favorable que la série utilisée pour les simulations avec un canal connu.

102 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

Figure 2.26 : Influence d'une connaissance imparfaite du canal sur les


performances des récepteurs

b) Comparaison des estimateurs ML et MMSE


Afin de déterminer l'estimateur possédant les meilleures performances, nous
avons observé les taux d'erreurs binaires obtenus lors de transmissions dans
un canal de Rayleigh et dans un canal mesuré corrélé (figure 2.27). Les
résultats nous montrent un meilleur comportement de l'estimateur ML aussi
bien dans un canal de Rayleigh que dans le canal corrélé. Cet estimateur est
aussi moins sensible à la corrélation du canal. Une perte de 1 dB est observée
pour le LMMSE alors que celle ci est inférieure à 0,5 dB pour le ML. Les
résultats obtenus au cours de cette étude font que nous considérons
maintenant un récepteur itératif avec un estimateur de canal ML dans les 3
canaux modélisés.

Rapport INRETS n°275 103


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

Figure 2.27 : Comparaison des estimateurs ML et MMSE dans un canal de


Rayleigh et un canal mesuré corrélé

c) Influence de l'environnement de propagation


Afin d'étudier, l'influence de l'environnement sur le système considéré, nous
avons simulé des transmissions dans les trois canaux modélisés et dans un
canal de Rice non corrélé. Ce choix nous permet de tester l'influence d'un trajet
direct (canal de Rice), d'une forte corrélation (canal SU-S), de la combinaison
des deux (canal C-S) mais également l'apport de la diversité de polarisation
devant ces phénomènes (canal C-S+P). Les taux d'erreurs binaires obtenus en
fonction du SNR sont présentés figure 2.28.
Plus le canal est corrélé, plus les performances du système se dégradent.
Cependant, le système présenté se montre assez robuste à la corrélation avec
des écarts restants assez faibles. Il faut également noter que la présence d'un
trajet prépondérant se montre moins pénalisante que la corrélation du canal
pour les performances du récepteur. Au vue de ces résultats, nous pouvons
émettre l'hypothèse que le Turbo-récepteur peut être capable de fournir une
continuité de qualité de service intéressante au cours du trajet.

104 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

Figure 2.28 : TEB obtenus dans différents canaux de transmission

7.6. Conclusion
Nous avons présenté les deux chaînes de transmission évaluées en
simulation. Chacune considère la synchronisation parfaite des signaux en
réception et une connaissance parfaite du SNR en réception. Les chaînes
développées sont des systèmes MIMO 2 × 4 (2 antennes d’émissioin-4
antennes de réception) qui possèdent une partie émission commune inspirée
de la couche physique OFDM de la norme IEEE 802.16d. Pour la partie codage
canal, nous avons implémenté la concaténation d'un code de Reed Solomon et
d'un code convolutif suivie par un codage spatio temporel de type Alamouti. La
modulation OFDM est effectuée en considérant 256 sous porteuses.
En réception, les deux chaînes ont été testées. Une première chaîne de
complexité réduite effectue exactement les opérations inverses de l'émission.
La deuxième chaîne s'appuie sur un Turbo-récepteur. Le turbo processus
s'effectue entre le décodeur spatio temporel et le décodeur du code convolutif.
Les algorithmes classiques utilisés sont détaillés.
Les performances des deux chaînes sont dans un premier temps évaluées
dans un canal de Rayleigh connu. L'influence du codage de la modulation
(codage de Gray, codage pragmatique et codage naturel) sur les performances
des systèmes a été analysée. Les résultats montrent que le Turbo récepteur est
toujours plus performant bien qu'il soit plus sensible aux différents codages
étudiés. Le codage pragmatique et le codage de Gray se sont montrés

Rapport INRETS n°275 105


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

optimaux respectivement pour le Turbo-récepteur et pour le récepteur


classique. L'impact de la corrélation dans le canal sur les performances a été
mis en évidence. Le Turbo récepteur se montre ici encore moins sensible que
le récepteur classique.
Nous introduisons ensuite une étape d'estimation du canal. Le principe des
estimateurs ML, LMMSE, MAP et LS est rappelé pour un canal de Rayleigh et
sans information a priori à la réception. Avec cette hypothèse, seules deux
formulations diffèrent : le ML (ou MAP ou LS) et le LMMSE. L'impact de
l'introduction de l'étage d'estimation du canal dans les différentes chaînes est
analysé. Le Turbo-récepteur est plus résistant aux erreurs d'estimation du canal
que le récepteur classique. Ces résultats montrent que la chaîne exploitant le
Turbo-récepteur est la plus adaptée. Les deux estimateurs ML et LMMSE ont
été testés avec cette chaîne pour un canal de Rayleigh et le canal C-S qui est
un canal moyennement corrélé et présentant un trajet prépondérant.
L'estimateur LMMSE fournit de moins bons résultats que l'estimateur ML. De
plus, les dégradations observées en présence de corrélation spatiale dans le
canal sont plus importantes. Au final, l'estimateur ML a été retenu.
La chaîne de transmission complète a été évaluée dans différents canaux
réels modélisés et dans un canal de Rice. Les performances du Turbo
récepteur se dégradent avec l'augmentation de la corrélation mais elles sont
moins sensibles à la présence d'un trajet direct. Les dégradations observées ne
sont pas très importantes et peuvent laisser penser que le système est capable
d'assurer une qualité de service raisonnable dans les différents environnements
de propagation qu'il pourra rencontrer en pratique. Les différents modules de la
chaîne choisis pour les simulations ont donc été retenus pour une
implémentation dans la chaîne de transmission réelle afin de réaliser des essais
en vraie grandeur.

8. Conclusion
Dans ce chapitre, nous avons brièvement présenté les principaux projets
connus qui s'intéressent à la transmission d'informations audio et vidéo depuis
des autobus ou des trains pour des applications de surveillance embarquée.
Les caractéristiques des systèmes MIMO ont ensuite été introduites de façon
simple et un bref état des recherches sur ces techniques a été réalisé et
propose un panorama non exhaustif des techniques existantes dans la
littérature. Nous avons en particulier donné les caractéristiques principales des
techniques de codage spatio temporel en bloc, en treillis ou de précodage.
Nous désirons exploiter les techniques MIMO avec un standard existant afin
de réduire les coûts pour l'opérateur de transport. En partant d'une classification
des systèmes sans fil fonction de l'étendue de la zone de couverture
radioélectrique, une description des standards les plus récents et susceptibles
de répondre à la problématique a été proposée. L'accent a été mis sur les
normes IEEE 802.20 (MBWA) et IEEE 802.16 (WiMAX). Les avantages et
inconvénients des systèmes dans le contexte traité sont soulignés. Le souci

106 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

d'implémenter une solution préservant un compromis complexité/efficacité aussi


proche que possible d'un standard a guidé notre choix vers l'utilisation de la
spécification 802.16d (2004) du WiMAX. La chaîne de simulations et la chaîne
réelle que nous avons développées s'appuient sur la couche physique OFDM
de ce standard.
La connaissance du canal de propagation est fondamentale pour l'analyse
de performances d'un système de transmission. Une étude bibliographique sur
quelques modèles de canaux MIMO a été réalisée en distinguant les modèles
physiques et les modèles analytiques. Nous avons présenté deux types de
modèles de canal analytiques susceptibles de traduire le plus fidèlement
possible les caractéristiques de l'environnement : le modèle de Kronecker et de
Weichselberger. Ces modèles ont été comparés à partir de mesures sur le
terrain.
Nous avons ensuite détaillée la chaîne de simulation développée afin
d’évaluer les solutions possibles à déployer pour le démonstrateur. Nous avons
implémenté un système MIMO 2× 4 dont la partie émission est inspirée de la
couche physique OFDM de la norme IEEE 802.16d. Pour la partie codage
canal, nous avons implémenté la concaténation d'un code de Reed Solomon et
d'un code convolutif suivie par un codage spatio temporel de type Alamouti. La
modulation OFDM est effectuée en considérant 256 sous porteuses.
Deux récepteurs ont été testés. L’un dit « classique » et l’autre s’appuyant
sur un turbo processus qui s'effectue entre le décodeur spatio temporel et le
décodeur du code convolutif. Les algorithmes classiques utilisés sont détaillés.
Les deux types de récepteurs ont été testés dans différentes configurations
d’algorithmes et dans différents canaux de propagation. Les résultats montrent
que le Turbo récepteur est toujours plus performant. Les différents modules de
la chaîne choisis pour les simulations ont donc été retenus pour une
implémentation dans la chaîne de transmission réelle afin de réaliser des essais
en vraie grandeur.

9. Bibliographie
[ESC01] M. Berbineau & Al. State of the art report. Projet ESCORT IST 1999-
20006, D2011, 2001.
[SEC02] Projet securbus. Journée technique " Sécurité dans les transports
terrestres" d'Integral Média, march 2002.
[DAV01] Y. David, Y. Robin-Jouan, and M. Heddebaut. Communication avec
les mobiles : application aux transports collectifs et aux transports
routiers. Collections du Certu, mars 2001.
[TES04] S. Ambellouis and M. Berbineau. TESS : Transports collectifs de
voyageurs et de marchandises avec des véhicules qui communiquent.
In les ches de l'INRETS, number 2 in Les réseaux de transport et les
servies. INRETS, 2004.

Rapport INRETS n°275 107


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

[IGR06] Intelligent integration of railway systems - project no. pl 012526 -


deliverable d3d4.1 - gsm-r alternative study. Version o-cielle à paraître
en Janvier 2007.
[TRA06] M. Berbineau, M. Chennaoui, Ch. Gransart, H. Afifi, J.M. Bonnin, D.
Sanz, R. Coutureau, and D. Duchange. High data rate
communications with high speed trains dream or reality ? - user
requirements and technical state of the art - projet predit train-ipsat.
Synthèse INRETS
[PAR04] J.F. Pardonche. Systèmes de transmission sans fil multi-émetteurs
multi-recepteurs pour des applications transpots. Etude des modèles
de canaux de propagation. PhD thesis, Thesis of Université de Lille 1,
2004.
[DEE] Deepak Pareek. The business of wimax. John Wiley and Son LTD, ISBN-
10 0-470-02691-X (HB).470-02691-5 (HB)
[FOS98] G.J. Foschini and M.J. Gans. On limits of wireless communications in
a fading environnement when using multiple antennas. Wireless
Personnal Communications, 6(3), 1998.
[FOS96] G.J. Foschini. Layered space-time architecture for wireless
communication in a fading environment when using multi-element
antennas. Bell Labs Technical journal, 1(2), 1996.
[GUG03] P. Guguen. Techniques multi-antennes émission-récepetion -
Applications aux réseaux domestiques sans fil. PhD thesis, thesis of
the Institut national des sciences appliquées de Rennes, 2003.
[ALA98] S. Alamouti. A Simple Transmit Diversity Technique for Wireless
Communications. IEEE Journal on Select Areas in Communications,
16(8) :1451-1458, october 1998.
[TAR98] V. Tarokh, N. Seshardi, and A.R. Calderbank. Space-Time Codes for
High Data Rate Wireless Communications : Performance Criterion
and Code Construction. IEEE Trans. Inform. Theory, 44(2) :744-765,
1998.
[TAR99] V. Tarokh, H. Jafarkhani, and A. R. Calderbank. Space-Time Block
Codes from Orthogonal Designs. IEEE Trans. on Information Theory,
45(5), 1999. pp 1456-1467
[HAS02] B. Hassibi and B.M. Hochwald. High rate code that are linear in space
and time. IEEE Trans. in Information Theory, 48(7), 2002.
[BEL05] J-C. Belfiore, G. Rekaya, and E. Viterbo. The golden code : a 2x2 ful
rate space time code with non vanishing determinants. IEEE Trans. in
Information Theory, 51(4), pp 1432-1436, April 2005.
[OGG06] F Oggier, G. Rekaya, J-C. Bel ore, and E. Viterbo. Perfect space
time block codes. IEEE Trans. in Information Theory, Vol 52, Issue 9,
pp. 3885- 3902, Sept. 2006.
[DIF04] Xiaodong Cai; Giannakis, G.B. - Differential space-time modulation
with transmit-beamforming for correlated MIMO fading channels -

108 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

Proceedings. ICASSP 2003 IEEE, Issue , 6-10 April 2003 Page(s): IV


- 25-8 vol.4, volume 4, april 2003.
[TAO05] M. Tao and P.Y. Kam. Analysis of differential orthogonal space time
block codes over semi identical mimo fading channel IEEE
Transaction on Communications, Volume 55, Issue 2, Feb. 2007
pp282 - 291.
[SHO] B. Shokrollahi, B. Hassibi, B.M. Hochwald, and Sweldens W.
Representation theory for high rate multiple antenna code design.
IEEE Trans. on Information Theory, 47(6), pp 2335-2367- september
2001.
[JIN05] Y. Jing and B. Hassibi. Three transmit antenna space time codes based
on su(3). IEEE Trans. on Signal Processing, 53(10), October 2005, pp
3688-3702.
[OGG05] F. Oggier. First applications of cyclics algebras to non coherent mimo
channel. In Allerton Conference, 2005.
[SAU05] B. Le Saux, Hélard M., and Bouvet P-J. Comparaison de techniques
mimo coherentes et non coherentes sur canal rapide selectif en
frequence. In Proc. of Manifestation des Jeunes Chercheurs
francophones dans les domaines des STIC, pp 413-416 -november
2005.
[LEM05] J. Le Masson. Système de transmission avec précodage linéaire et
traitement itératif - Application à l'OFDM et aux techniques MIMO.
PhD thesis, Thesis of Université de Bretagne-Sud, France, 2005.
[AKT03] J. Aktar and D. Gesbert. A closed-form precoder for spatial
multiplexing over correlated mimo channels. In Proc. of IEEE Global
Telecommunications Conference, volume 4, pp 1847-1851-december
2003.
[HJO04] A. Hjorungnes, J. Aktar, and D. Gesbert. Precoding for space time
block codes in (non-) kronecker correlated mimo channels. In Proc. of
the 12th European Signal Processing Conference, september 2004.
[HJO06] A. Hjorungnes and D. Gesbert. Precoded orthogonal space time block
codes over correlated ricean MIMO channels. IEEE Trans. on Signal
Processing, 55(2), pp779-783 - February 2007.
[RAG07] V. Raghavan, R.W. Heath, and J.A.M Sayeed. Systematic codebook
designs for quantized beamforming in correlated mimo channels.
IEEE Journal on Selected Area in Communications, September 2007
Volume: 25(7) pp 1298-1310.
[CHA06] C.b. Chae, T. Tang, R.W. Heath, and S. Cho. Mimo relaying with linear
processing for multiuser transmission in xed relay network. IEEE
Trans. in Signal Processing, february 2006 Vol9 N°1.
[PAR05]J.F. Pardonche, M. Berbineau, and C. Seguinot. Présentation de
quelques modèles stochastiques de canal mimo et comparaison

Rapport INRETS n°275 109


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

expérimentale. Les annales des télécommunications, 60(5/6), march


2005 – pp649-680.
[SHI00] D-S. Shiu. Wireless communication using dual antenna arrays. Kluwer
Academic Publisher, 2000.
[OES04] C. Oestges, V. Erceg, and A.J. Paulraj. Propagation modelling of multi-
polarized mimo fixed wireless channels. IEEE Trans. on Vehicular
Technology, 53(3), pp644-654 - may 2004.
[JOO03] J. Jootar and J.R. Zeidler. Performance analysis of polarization receive
diversity in correlated rayleigh fading channels. In Proceedings of
Global telecommunication conference GLOBECOM 2003, december
2003.
[PAR92] J. D. Parsons. The Mobile Radio Propagation Channel. Pentech Press,
1992.
[PED00] K.I. Pedersen, J.B. Andersen, J.P. Kermoal, and P. Mogensen. A
stochastic multiple input multiple ouput radio channel model for
evaluation of space time codings algorithm. In Proc. of IEEE Vehicular
Technology Conference, september 2000.
[BER96] Y.M. Berezansky and Z.G. Sheftel. Functional analysis, volume 1.
Birkhauser Verlag, 1996.
[GAL68] Gallager R. Elements of information. Wiley, 1968.
[GOL96] G.H. Golub and C.F. Van Loan. Matrix computations. Johns Hopkins
university press, 1996.
[SHA48] C.E. Shannon. A mathematical theory of communication. Bell system
technical journal, 27 :379 423 and 623 656, 1948.
[POL03] Pollock, T.S.; Abhayapala, T.D.; Kennedy, R.A., Introducing space into
space-time MIMO capacity calculations : a new closed form upper
bound, Proceedings of ICT 2003, Volume 2, pp. 1536 – 1541
[AND01] R.A. Andrews, P.P. Mitra, and R. De Carvalho. Tripling the capacity of
wireless communications using electromagnetic polarization. Nature,
409 :316 318, January 2001.
[KIM00] Byung ki Kim, W.L. Stutzman, and D.G. Sweeney. Indoor and outdoor
measurements of space, polarization, and angle diversity for cellular
base stations in urban environments. In Proc. of IEEE Vehicular
Technology Conference, volume 1, 2000 pp22-29
[DON05] L. Dong, H. Choo, R. W. Heath, and H. Ling. Simulation of MIMO
channel capacity with antenna polarization diversity. IEEE Trans. on
Wireless Commununications, 4(4), pp1869-1873 - july 2005.
[ALM07] P. Almers & Al, Hindawi Publishing Corporation - Survey of Channel
and Radio Propagation Models for Wireless MIMO Systems,
EURASIP Journal onWireless Communications and Networking -
Volume 2007, Article ID 19070, 19 pages - doi:10.1155/2007/19070

110 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

[MON07] Gerald Moniak, Techniques MIMO pour un lien sans fil robuste entre
un bus et un poste de contrôle pour une application de surveillance
embarquée, PhD thesis, University of Valenciennes, Février 2007
[KER02] J. Kermoal, L. Schumacher, K. Pedersen, P. Mogensen, and F.
Frederiksen. A stochastic mimo radio channel model with
experimental validation. IEEE Journal on Selected Areas in
Communications, 20(6), pp1211-1226 - august 2002.
[WEI06] W. Weichselberger, M. Herdin, H. H. Özcelik, and E. Bonek. A
stochastic mimo radio channel model with joint correlation of both link
ends. IEEE Trans. on Wireless Communications, 5(1), pp90-100 -
january 2006.
[KYU01] K. Yu, M. Bengtsson, B. Ottersten, P. Karlsson, D. McNamara, and M.
Beach. Measurement analysis of nlos indoor mimo channels. In Proc.
of IEEE Global Telecommunication Conference, november 2001.
[CHU02] C-N. Chuah, D.N.C. Tse, J.M. Kahn, and R.A. Valenzuela. Capacity
scaling in mimo wireless systems under correlated fading. IEEE
Trans. on Information Theory, 48(3), pp637-650, march 2002.
[KER00] J.P. Kermoal, L. Schumacher, P. Mogensen, and K.I. Pedersen.
Experimental investigation of correlation properties of mimo radio
channels for indoor picocells scenarios. In Proc. of IEEE Vehicular
Technology Conference, pp 14-21 Vol 1, september 2000.
[BON05] E. Bonek. Experimental validation of analytical MIMO channel models.
Elektrotechnik und Informationstechnik (e&i), 122(6) :196 205, 2005.
[LEM98] J.J.A. Lempiainen and J.K. Laiho-Ste ens. The performance of
polarization diversity schemes at a base stationin small/micro cells at
1800 MHz. IEEE Trans. on Vehicular Technology, 47(3), pp 1087-
1092august 1998.
[IEEE 802.16-2004] IEEE 802.16 - WirelessMAN. 802.16-2004 - Standard for
Local and metropolitan area networks - Part 16 : Air Interface for
Fixed Broadband Wireless Access Systems, 2004.
[IEEE 802.16-2003] IEEE 802.16 - WirelessMAN. IEEE Standard for local and
metropolitan area networks, Part 16 : Air interface for fixed broadband
wireless access systems - Medium access control modifications and
additional physical layer specifications for 2-11 GHz, 2003.
[PRO95] J.G. Proakis. Digital Communications. Mc Graham-Hill, third edition,
1995.
[SEZ03] A. Sezgin, D. Wübben, and V. Kühn. Analysis of mapping strategies for
turbo-coded space time block codes. In Proc. of IEEE Information
Theory Workshop, pp103-106, 2003.
[ALA98] S. Alamouti. A Simple Transmit Diversity Technique for Wireless
Communications. IEEE Journal on Select Areas in Communications,
16(8) :1451 1458, october 1998.

Rapport INRETS n°275 111


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

[CHA66] R.W. Chang. Synthesis of band-limited orthogonal signals for


multichannel data transmission. Technical Report 45, Bell System
Tech. J., 1966.
[PEL80] A. Peled and A. Ruiz. Frequency domain data transmission using
reduced computational complexity algorithms. In Proc. of IEEE
International Conference on Accoustic, Speech and Signal
Processing, volume 5, pp964-967, april 1980.
[LEF95] B. Le Floch, M. Alard, and C. Berrou. Coded Orthogonal Frequency
Division Multiplex. Proc. of IEEE, 83(6), june 1995.
[ONE95] R. O'Neill and L.B. Lopes. Envelope variations and spectral splatter in
clipped multicarrier signals. In Proc. of IEEE International Symposium
on Personnal, Indoor and Mobile Radio Communications, pp 71-75
Vol1, september 1995.
[PAU98] M. Pauli and H.P. Kuchenbecker. On the reduction of the out of band
radiation of OFDM signals. In Proc. of IEEE International Conference
of Communications, volume 3, pp 1304-1308 Vol3, june 1998.
[VAN98] R. Van Nee and A. Wild. Reducing the peak to average ratio of ofdm.
In Proc. Of 48th IEEE Vehicular Technology Conference, volume 3,
may 1998.
[HAN05] S.H. Han and J.H. Lee. Modulation, coding and signal processing for
wireless communications- an overview of peak-to-average power ratio
reduction techniques for multicarrier transmission. IEEE Transactions
on Wireless Communications, 12(2), pp 56-65, April 2005.
[FAT06] I. FATANI. Etude d’une chaîne de transmission d’image robuste aux
erreurs basée sur l’utilisation conjointe d’un système mimo/ofdm et
d’un codage par descriptions multiples. Rapport de Master recherche,
Université de Valenciennes et du Hainaut Cambrésis, 2006.
[BER96] C. Berrou, A. Glavieux, and P. Thitimajshima. Near Shannon limit error
correcting coding and decoding: Turbo-Codes. IEEE Trans. on
Communications, october 1996.
[VIT67] A.J. Viterbi. Error bounds for convolutional codes and an asymptotically
optimum decoding algorithm. IEEE Trans. on Information Theory,
Vol 13, Issue 2, pp 260-269april 1967.
[BERL68] E. Berlekamp. Nonbinary BCH decoding. IEEE Trans. on Information
Theory, 14(2), pp 242march 1968.
[MAS69] J.L. Massey. Shift register synthesis and bch decoding. IEEE Trans.
on Information Theory, 15(1), pp 122-127january 1969.
[HOC01] B. M. Hochwald and S Ten Brink. Achieving Near Capacity on a
multiple antenna channel. In Proc. of Conference on Communication,
Control and Computing, 2001.
[BEN96] S. Benedetto, D. Divsalar, G. Montorsi, and F. Pollara. A SISO MAP
module to decode parallel an serial concatenated codes. Technical
report, TDA progress report 42-127, 1996.

112 Rapport INRETS n°275


Techniques MIMO pour un lien sans fil robuste entre un autobus et un poste de contrôle

[BAH74] L.R. Bahl, J. Coke, F. Jeinek, and J. Raviv. Optimal decoding of linear
codes for mimnimizing symbol error rate. IEEE Trans. on Information
Theory, 20 :248-287, 1974.
[EDF98] O. Edfors, M. Sandell, J-J. Van de Beek, S.K. Wilson, and P.O.
Börjesson. OFDM channel estimation by singular value
decomposition. IEEE Trans. on Communications, 46(7), pp 931-939 -
july 1998.

Rapport INRETS n°275 113


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

114 Rapport INRETS n°275


Chapitre 3

Le démonstrateur

Sylvain Marsault, Marc Chenu-Tournier


Thales Communications
Sébastien Ambellouis, Gilles Blancquart, Amaury Flancquart, Gérald
Moniak, Hervé Dumortier, Emilie Masson, Jean-Pierre Ghys,
Marion Berbineau
INRETS-LEOST
20, rue élisée reclus BP 317
59666 Villeneuve d’Ascq Cedex sebastien.ambellouis@inrets.fr
Jean-François Legrand,
MIRIAD Technologies
Philippe Mariage
GIGACOMM
Catherine Fauqueur
Transpole

1. Objectifs du démonstrateur
Le démonstrateur a été réalisé afin de montrer la faisabilité d'un système
embarqué de vidéo et d'audio surveillance sans fil. Pour cela, tous les sous-
systèmes techniques ont été développés et installés à bord d'un autobus de la
flotte de Transpole. La démonstration a été menée au travers des deux scénarii
suivants :
1 – la transmission des images vers le poste de contrôle sur la détection
d'un événement sonore
2 – la transmission des images en continue vers le poste de contrôle
Dans la suite de ce chapitre, nous décrivons dans un premier temps
l'architecture générale du démonstrateur et les éléments constitutifs des
configurations matérielles audio/vidéo et de télécommunication. Nous terminons
par la description du module de transmission RF.

Rapport INRETS n°275 115


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

2. Architecture du démonstrateur
L’architecture du démonstrateur est présentée à la figure 3.1. Elle est
composée d’une partie embarquée et d’une partie fixe. Le sous-système
embarqué a pour fonction d’identifier un événement sonore et de transmettre
les images au poste de contrôle. Lors de notre phase de démonstration en
ligne, le poste de contrôle a été localisé en haut du Beffroi de la ville de Lille. Le
sous-système embarqué a été installé dans un autobus mis à la disposition du
projet par le partenaire Transpole, en charge de l’exploitation du système de
transport collectif de la métropole Lilloise.
Le sous-système embarqué est composé de trois calculateurs
respectivement en charge de l’acquisition et du traitement des signaux audio et
des signaux vidéo et de la transmission. Ces trois calculateurs sont mis en
réseau et les applications développées et implantées sur chacun d’eux
échangent des données via les protocoles TCP ou UDP.
Le sous-système fixe est composé de deux calculateurs : l’un destiné à la
réception des données numériques transmises par le sous-système embarqué
et l’autre dont la fonction est de les visualiser. Ces deux calculateurs sont en
réseau et peuvent se transmettre des données via les protocoles TCP ou UDP.

Figure 3.1 : Architecture du démonstrateur

Réseau

WiMax

Microphone Caméra Pc Emission


intelligent intelligente WiMax
linux linux linux

Réseau

UDP
Pc Pc Réception
Visualisation WiMax
Linux linux

2.1 Configuration matérielle de la partie audio/vidéo


La configuration matérielle de la partie audio/vidéo est constituée des
éléments suivants :

116 Rapport INRETS n°275


Le démonstrateur

1. deux calculateurs industriels avec une carte d’acquisition audio 4


canaux mono 44kHz sur 24bits et une carte d’acquisition vidéo 4
canaux couleur ;
2. quatre microphones de type cravate (réponse plate sur l’intervalle
des fréquences 20Hz-20kHz) ;
3. cinq caméras couleur ;
4. un récepteur GPS ;
5. un routeur Wifi.
Tout ce matériel est installé à demeure dans un autobus mis à disposition
par Transpole.
La figure 3.2 présente quelques photographies du matériel installé.

Figure 3.2 : Matériels audio/vidéo embarqués à demeure dans l’autobus

Deux logiciels sont actuellement installés sur le système. Le premier permet


l’acquisition et l’enregistrement en temps-réel des 4 capteurs audio et des 4
caméra vidéo. Ce logiciel est paramétrable (période d’échantillonnage,
profondeur des données numérisées et taux de compression) et permet de
déclencher une phase d’acquisition selon les besoins exprimés. Par ailleurs,
chacune des données audio et vidéo peut être repositionnée sur le trajet de
l’autobus grâce à une acquisition synchrone de la position GPS du véhicule. Ce
logiciel est utilisé en particulier lors de la conception des bases de données
audio et vidéo, bases utilisées lors des phases de développement et

Rapport INRETS n°275 117


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

d’évaluation de nos algorithmes. Le PC est muni d’un disque dur de plusieurs


dizaines de Go qu’il est possible de récupérer quand nécessaire.
La seconde suite logicielle constitue l'application de détection automatique
de motifs sonores et d'analyse d'images. Elle est composée de deux parties
installées sur l'un et l'autre des deux calculateurs associés aux microphones et
aux caméras. La partie relative à la détection automatique des motifs sonores
est construite autour de l'architecture serveur Jack (http://jackaudio.org/) et des
librairies IPP d'intel (Intel Integrated Performance Primitives 5.1)
(http://www.intel.com). Elle permet l'acquisition et l'analyse en temps-réel des
signaux fournis par les microphones. Le logiciel identifie simultanément tous les
motifs sonores pour lesquels un fichier regroupant tous les éléments de leur
modèle est disponible. Pour obtenir le fonctionnement de jack en mode temps
réel, le module Realtime Linux Security Module est installé.
La partie relative à l'analyse d'images permet d'acquisition et la compression
des images acquises puis leur transmission par le réseau au PC d'émission. La
méthode de compression implantée est la méthode JPEG. Le flux vidéo peut
être transmis en UDP ou en TCP et une modulation du taux de compression est
possible.

2.2 Configuration matérielle de la partie télécoms


La configuration matérielle de la partie télécommunications est constituée de
la manière suivante:
En émission :
— 1 PC Linux
— 1 Carte d’émission PCI multi-voies de type ICS-564
— 2 générateurs de signaux arbitraires (Agilent ou Rhode&Schwarz)
— 2 amplificateurs de puissance de 40dB.
— 2 antennes (au maximum)
Lors des essais, ce PC est placé dans le bus. Il reçoit les images sur son
port Ethernet (webcam déportée sur un second PC présent dans le bus), avant
de les émettre à son tour.

En réception :

— 1 PC Linux
— 1 Carte d’acquisition PCI multi-voies de type ICS-554B avec
modification du quartz pour obtenir une fréquence de 102.4MHz
— 1 récepteur THALES 4 voies synchrones
— 4 préamplificateurs de puissance (si nécessaire)
— 4 antennes (au maximum)

118 Rapport INRETS n°275


Le démonstrateur

Les PC utilisés sont des modèles DELL Précision 670 qui possèdent les
caractéristiques suivantes:
— Système d'exploitation Linux (noyau 2.6)
— 2 Microprocesseurs Intel Xéon 64 bits, fréquence d'horloge 3,6 GHz
avec 2 Mo de cache de niveau 2
— Mémoire vive: 2 Go DDR2
— Disque dur Serial ATA 60 Go

Le système d'exploitation est dans une version assez minimaliste afin


d'alléger son fonctionnement. Afin de réaliser des transmissions en temps réel,
le système d’exploitation des 2 PC a été modifié. Le nanokernel ADEOS/DIC
développé par Thales, Bull et d'autres partenaires dans le cadre du projet
Hyades (www.hyades-itea.org) a été installé. En raison des fortes contraintes
temporelles régissant le système, tant à l'émission qu'à la réception, chacun
des PC doit bénéficier d'un environnement temps réel qui garantit la maitrise
des temps d'exécution et le respect des priorités des différentes tâches.
L’intérêt de l’utilisation de la souche temps réel Hyades a été d’assurer que les
modems utilisés dans le cadre des démonstrations étaient fonctionnels et
permettaient d’augmenter les bandes passantes traitées. L’utilisation d’un
système d’exploitation temps réel ne permet pas d’effectuer en moyenne plus
d’opérations par seconde mais assure que sur certains évènements, les
opérations programmées seront déclenchées sans latence. Comme il n’y a pas
de latence, les signaux à traiter ne s’accumulent pas et les débits sont alors
maximaux. Ce sont ces particularités logicielles et matérielles, ainsi que leur
exploitation qui sont détaillées dans les sections suivantes.

3. Le module de démonstration RF
3.1. Architecture du démonstrateur en émission
3.1.1. Matériel
La carte ICS-564 est une carte d’émission 4 voies. Elle utilise 4 DAC (Digital
to Analog Converter) 14 bits pour convertir simultanément des fréquences
d’échantillonnage allant jusqu’à 200 MHz sur chaque voie. L’horloge nécessaire
aux convertisseurs peut être soit interne (50 MHz) soit externe (<200 MHz),
avec un coefficient multiplicateur permettant d’augmenter la fréquence d’un
facteur 4 à 20. Les données d’entrées passent par un FPGA avant d’être écrites
dans 4 FIFO (1 par voie). Le routage de ces données vers les différentes FIFO
est déterminé par le réglage de divers registres, ce qui permet aux mêmes
données d’être redirigées vers plusieurs FIFO. Chaque FIFO a une taille de
65536 x 72 bits, ce qui implique un maximum de 65536 x 4 échantillons 16 bits
par DAC. En plus de ces 4 FIFO, la carte dispose d’une FIFO de taille
65536 x 72 bits entre l’interface PCI (66 MHz/ 64 bits) et le FPGA pour rendre
possible la mise en buffer de données si nécessaire.

Rapport INRETS n°275 119


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

La fréquence de conversion est supérieure à la fréquence d’entrée des


données; le rapport entre les 2 correspond au rapport d’interpolation du
convertisseur.

Figure 3.7 : Carte ICS 564

Figure 3.8: Schéma interne de la carte ICS 564

Les données d’entrée doivent être présentées sous forme d’échantillons de


14 bits en complément à 2, justifiés sur le poids fort des 2 moitiés du mot de 32
bits. Si les échantillons sont au format complexe (pour le mode modulation en
quadrature), les 16 bits hauts contiennent la partie réelle (I) et les plus bas la
partie imaginaire (Q). Pour des échantillons au format réel, la partie Q est
remplacée par la partie I de l’échantillon suivant. Les 2 bits de poids faible de
chaque échantillon (I, Q ou réel) sont ignorés.

120 Rapport INRETS n°275


Le démonstrateur

Figure 3.9 : Format des données d’entrée complexes

Figure 3.10 : Format des données d’entrée réelles

La carte ICS-564 peut être utilisée dans divers modes :


— Mode continu : les données sont converties de manière continue à
partir de l’activation du trigger, jusqu’à l’arrêt de la carte. Pour cela,
les données doivent être constamment acheminées par le bus PCI.
— Mode Loop : un nombre fixe d’échantillons (identique pour chaque
voie) est constamment répété à partir de l’activation du trigger, jusqu’à
l’arrêt de la carte.
— Mode One-shot : un nombre donné d’échantillons (programmable par
registre pour chaque voie) est converti à chaque activation du trigger.
Le nombre d’échantillons à écrire dans le buffer de chaque voie est
défini par un registre dédié. Le mode One-shot est divisé en 2 sous-
modes : avec rechargement, et sans rechargement de données.
Dans le premier, de nouvelles données doivent être écrites dans le
buffer avant chaque conversion. Dans le second, les données de la
FIFO sont initialisées une fois, et un nombre défini d’échantillons est
converti à chaque activation du trigger jusqu’à la désactivation de la
carte.

Rapport INRETS n°275 121


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

En plus de ces modes, on dispose pour les DAC de plusieurs modes de


conversion : single tone (fréquence seule ; pas de données nécessaires en
entrée), modulation en quadrature et interpolation.
— Mode ‘single tone’ : il permet d’utiliser la carte en tant qu’horloge
synchronisée. 4 horloges (1 par voie) peuvent ainsi être créées. Il
n’est pas nécessaire d’avoir des données d’entrée.

Figure 3.11 : ICS-564 en mode Single Tone

— Mode modulation en quadrature : dans ce mode, les données d’entrée


(14 bits) sont partagées en données I et Q, puis interpolées et
fournies au DAC sous la forme :
I.cos wt - Q.sin wt
où w = est défini par le DDS (digital quadrature oscillator)

— Mode interpolation : les échantillons sont interpolés avant d’être


transmis au DAC. Le signal reste en bande de base (pas de
modulation). Le coefficient minimum d’interpolation valant 4, la
fréquence maximale d’échantillons en entrée vaut 50 MHz.

Figure 3.12 : ICS-564 en mode modulation en quadrature

On utilise le PC pour générer le ou les signaux en temps réel et la carte ICS-


564 pour l’émission multi-voie. La carte ICS-564 utilise pour la fréquence de
conversion des DAC une horloge externe (avec un coefficient multiplicateur 4).
Par ailleurs, on choisit un facteur d’interpolation de 28. Avec une horloge
externe réglée à 44.8 MHz, on obtient ainsi une fréquence de conversion des

122 Rapport INRETS n°275


Le démonstrateur

DAC de 44.8x4=179.2 MHz, donc une largeur de bande du signal de


179.2 / 28 = 6.4 MHz. Les 2 signaux issus de la carte sont émis à une
fréquence intermédiaire de 10 MHz, et envoyés sur l’entrée I de 2 générateurs
de signaux arbitraires (de type Agilent ou Rhode&Schwarz), où ils sont
transposés à la fréquence désirée.

Figure 3.13 : Transposition en fréquence

Figure 3.14 : Montage en émission

3.1.2 Logiciel
Compte tenu des contraintes temporelles, nous devons nous restreindre à
un fonctionnement MIMO à 2 voies d’émission.

Rapport INRETS n°275 123


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

On émet des séquences (trames) de 26 symboles OFDM, en les envoyant


par 2 à la carte ICS-564 pour chacune des 2 voies (on ne tient pas le temps
réel en les envoyant individuellement). La construction en temps réel de ces
séquences est confiée à 2 tâches : l’une (sur le processeur 1) crée la première
séquence de chaque voie, l’autre (sur le processeur 2) crée la seconde
séquence.
Par ailleurs, un interfaçage de notre modem avec un flux réseau UDP a été
développé afin de pouvoir traiter les données issues d’un autre PC. Il est ainsi
possible de transmettre de la vidéo. En pratique, le débit des trames UDP est
variable (dans le cadre d’EVAS, il dépend par exemple du codage source des
images à transmettre), mais notre modem possède un débit constant de trames
OFDM. Lorsque l’on manque de trames UDP, il est alors nécessaire d’insérer à
l’émission des trames de bourrage afin de pouvoir continuer à construire les
trames OFDM à émettre. En outre, ces trames de bourrage (qui sont connues)
peuvent permettre, en réception, de calculer un taux d’erreurs binaires.
La figure 3.16 représente le fonctionnement du programme. Dès que 2
trames de 564 octets UDP sont reçues, elles sont traitées en parallèle (codage,
modulation OFDM) par 2 tâches. A l’issue de ce traitement, on dispose de 2
trames de symboles OFDM pour chaque voie (en mode Alamouti, les trames de
la voie 2 sont déduites de celles de la voie 1). Par la suite, on fait intervenir une
étape d’écrêtage (facultative) afin de réduire la dynamique du signal. Enfin, les
données sont mises au format ICS avant d’être envoyées vers la carte
d’émission, dès que celle-ci nous signale qu’elle est presque à court de
données (fonctions wait DAC 1 empty et wait DAC 2 empty).

Figure 3.15 : Création des 4 séquences sur 2 processeurs

124 Rapport INRETS n°275


Le démonstrateur

Figure 3.16: Fonctionnement du programme

Ecrêtage :
Comme on peut le voir sur la figure 34, un étage d’écrêtage (optionnel) a été
intégré en émission. Sa fonction est de régler la puissance du signal émis en
écrêtant le signal OFDM. L’opération d’écrêtage consiste simplement à couper
toutes les valeurs au-dessus d’un certain niveau de puissance. A chaque trame
OFDM, le programme recherche les échantillons qui vérifient cette condition et
les ramène à la puissance correspondant au seuil d’écrêtage voulu. Enfin il
ajuste l’amplitude du signal obtenu afin qu’il occupe toute la dynamique des
convertisseurs (sur l’ICS-564, l’amplitude maximale des voies réelle et
imaginaire est égale à 32767).
Après écrêtage, le signal est un peu dégradé. Mais du fait que l’excursion en
amplitude est diminuée, on peut par la suite fournir en entrée d’un éventuel
amplificateur un signal d’une puissance moyenne plus élevée, tout en restant
dans la zone de fonctionnement linéaire de l’amplificateur (cf figure 3.18).

Rapport INRETS n°275 125


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

Figure 3.17: Signal avant, et après écrêtage

Figure 3.18 : Points de fonctionnements d’un amplificateur de puissance


avec un signal écrêté

3.2. Architecture du démonstrateur en réception


3.2.1. Le matériel
a) Caractéristiques du récepteur RF THALES
Le récepteur réalise la partie RF de la réception. Il opère entre 20 MHz à
3000 MHz. Chaque voie possède 20 MHz de bande passante. Les signaux
sortent à la fréquence intermédiaire FI = 64 MHz et couvrent une bande de 20
MHz (de 54 MHz à 74 MHz). Les quatre voies sont synchrones. Le récepteur se
commande à partir du PC d'acquisition et de programmes C dédiés implantés
sous Linux. Il est possible de sélectionner le nombre de voies de réception

126 Rapport INRETS n°275


Le démonstrateur

utilisées (entre 1 et 4), la fréquence de réception et l'atténuation (entre 0 et 50


dB). En pratique, il n'est pas conseillé d'utiliser le matériel dans ces limites de
fonctionnement. Afin de s'assurer de l'absence de toute distorsion, il est
préférable de ne pas dépasser la fréquence de 2,7 GHz et une largeur de
bande de 15 MHz. Après traitement des signaux reçus, le récepteur les
transmet à la carte d'acquisition en les transposant à la fréquence intermédiaire
FI .

b) Carte d’acquisition des signaux


La carte ICS 554B est une carte d’acquisition 4 voies synchrone. Une
modification du quartz a été réalisée afin d’obtenir une horloge à 102.4 MHz.
Elle est composée de 4 ADC (Analog to Digital Converter), de 4 DDC (Down
Converter Chip), d’un FPGA, de deux FIFO de 512Ko et d’une interface PCI 64
bits/66 MHz.
La carte ICS prend en entrée un signal sous porteuse de 64 MHz avec une
amplitude comprise entre –0,6 et 0,6 V. Ce signal est échantillonné à 102.4
MHz (signal replié à 38.4 MHz) La carte d’acquisition peut fournir soit les
données réelles du signal en sortie des ADC, soit des données complexes (I/Q)
si l’on désire convertir le signal en base de base avec les DDC. Dans les deux
cas, il est possible de définir la décimation en fréquence du signal et le nombre
de voies utilisées (1 à 4 en réel, 2 ou 4 en complexe). La carte peut fonctionner
sous deux modes : continu ou capture. Dans le mode continu, les données
arrivant sur les canaux sélectionnés sont traitées en continu. Dans le mode
capture, un nombre d’échantillons fixé est traité sur le déclenchement d’un
trigger.

Figure 3.19 : Schéma interne de la carte ICS 554

Rapport INRETS n°275 127


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

Figure 3.20 : Carte ICS 554

Les ADC servent à numériser chacune des 4 voies de la carte. Ils ont une
précision de 14 bits. Les DDC sont utilisés pour convertir des signaux QPSK en
bande de base. Ils donnent en sortie des échantillons complexes (I+jQ) sur
2x24 bits.
Le FPGA joue un rôle de multiplexeur. Il sélectionne soit les sorties des ADC
des voies choisies, soit les sorties des DDC selon le mode de fonctionnement
(réel ou complexe). Il écrit ensuite les données dans les FIFO. Dans la FIFO 1
sont stockées les données relatives aux voies 1 et 2 et, dans la FIFO 2 celles
relatives aux voies 3 et 4.
L’interface PCI permet au PC hôte de configurer la carte et de venir
récupérer les données stockées dans les FIFO. Il a une fréquence de 66 MHz
sur 64 bits ce qui représente un débit maximum de 515 Mo/s. La récupération
des données se fait par un transfert DMA. C’est une copie directe des FIFO
vers un espace spécifié dans la RAM du PC, elle ne sollicite pas l’intervention
du processeur.
La carte possède 4 registres concernant l’état de chaque FIFO : «FIFO
vide», « FIFO presque vide », « FIFO presque pleine » et « FIFO pleine ». Il est
possible de programmer la valeur à laquelle les flags « FIFO presque vide » et
« FIFO presque pleine » passe à 1. Lorsque la FIFO atteint la valeur
correspondante à « FIFO presque pleine », une interruption est envoyée au PC
hôte pour l’avertir. Pour les autres flags, il faut venir lire les registres de la carte
pour connaître leur état.
Dans le cadre du modem, on désire convertir une voie en bande de base. La
carte est configurée en mode continu avec des données complexes en sortie.
Cependant l’utilisation du mode complexe implique une contrainte car la carte
ICS fonctionne au minimum avec deux voies (1&2 ou 3&4) et les données des
deux voies sont entrelacées lors du stockage dans la FIFO (voir figure 16). Le

128 Rapport INRETS n°275


Le démonstrateur

format consiste en quatre échantillons issus alternativement des voies 1 et 2.


Ce format impose d’une part d’avoir à récupérer une taille de données deux fois
plus grande et d’autre part d’avoir à traiter le contenu pour retrouver
uniquement les données de la voie 1.

Figure 3.21 : Format des échantillons et format de stockage

63 39 31 7 0
I (24 bits) 11111111 Q (24 bits) 11111111

Format d’un échantillon complexe

échantillon 1 - voie 1
échantillon 2 - voie 1
échantillon 3 - voie 1
échantillon 4 - voie 1
échantillon 1 - voie 2 Format de stockage dans la FIFO 1
échantillon 2 - voie 2
échantillon 3 - voie 2
échantillon 4 - voie 2
échantillon 5 - voie 1

Figure 3.22 : Fonctionnement du modem (par cable)

Rapport INRETS n°275 129


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

Figure 3.23 : Montage en réception

La carte ICS-554 échantillonne le signal reçu à une fréquence de


102.4 MHz, ce qui le ramène à la fréquence intermédiaire de 38,4 MHz
(=102,4-64). Enfin, le DDC (digital down converter) ramène ce signal en bande
de base, avec une décimation d’un facteur 16. On retrouve alors bien la largeur
de bande initiale en fréquence de sortie : fe’ = 102.4/16 = 6.4 MHz.
Remarque : Chaque échantillon est constitué de 2 x 4 octets (partie réelle +
partie imaginaire). Pour une bande de 6.4 MHz, avec une acquisition 2 voies,
on obtient donc un débit sur le bus PCI de 6.4 x 2 x 8 = 102.4 Mo/sec (qui est
bien inférieur au débit théorique maximum de 515Mo/s sur le bus PCI).

3.2.2. Le logiciel
Du coté réception, le programme est composé de 4 tâches, réparties sur 2
processeurs. La tâche d’acquisition a pour rôle de récupérer les données de la
carte d’acquisition. La tâche de traitement est utilisée pour trouver l’offset de
synchronisation de départ (synchronisation longue) puis effectuer le suivi par
synchronisation courte et démoduler les signaux. La synchronisation courte met
en œuvre les calculs optimisés développés dans la partie Traitement du Signal
et Algorithmes. Elle utilise la matrice Slong avec le critère de synchronisation
simple (corrélation) afin d’alléger les traitements. La tâche de transfert fait la
jonction entre les deux tâches précédentes. Elle transmet les données
correspondant aux trames de la voie 1 à la tâche de traitement à partir des
données acquises par la tâche d’acquisition. Enfin une tâche est dédiée au
décodage des signaux. Les bits décodés sont envoyés par UDP vers un second
PC, qui peut décoder et afficher la vidéo.

130 Rapport INRETS n°275


Le démonstrateur

3.2.2.1. Tâche d’acquisition (processeur 1)


La tâche d’acquisition a pour rôle de récupérer les données de la carte
d’acquisition. Toutes les 100 ms, elle se réveille et va lire le flag « FIFO presque
pleine ». Si la FIFO a atteint le niveau « FIFO presque pleine » (280 Ko), elle va
lire les données et les sauve dans une mémoire tampon. Comme la FIFO se
remplit à un débit constant de 102,4 Mo/s, la tâche d’acquisition vient récupérer
les données de la carte toutes les 2,6 ms.
Cette tâche est critique car si du retard est pris dans la récupération des
données, la FIFO peut être pleine et des données perdues. Les données sont
donc stockées dans un buffer circulaire (raw_buffer) de taille 10x280Ko. De
sorte que même si ce buffer est partagé avec la tâche de transfert, les deux
tâches peuvent travailler simultanément sur deux sections différentes du buffer.
De plus comme la tâche d’acquisition possède une priorité supérieure à celle de
transfert, cette dernière ne perturbera pas la tâche d’acquisition.
La tâche d’acquisition est capable de détecter d’éventuelles pertes de
données. Lors de la récupération des données, la tâche lit le flag « FIFO pleine
» pour vérifier qu’il n’y a pas eu de perte de données. Un message d’erreur est
affiché si un dépassement de FIFO a eu lieu.
Comme les tâches de transfert et de traitement ne sont pas synchronisées
entre elles, il est possible que la tâche d’acquisition fonctionne à un rythme plus
rapide que la tâche de transfert. En conséquence, à un moment donné, elle
pourrait essayer d’écrire dans une zone du buffer utilisée par la tâche de
transfert. Dans ce cas, les données seront récupérées pour que la FIFO soit
vidée mais elles ne seront pas sauvegardées et perdues. C’est une perte
contrôlée car on perd des données mais pas la synchronisation avec le signal.
Un message d’erreur est affiché. Cet événement a une probabilité faible de se
produire mais il est anticipé.
Un système de pointeurs est utilisé pour réserver les zones mémoires dans
le buffer circulaire. Le pointeur lock_write est toujours positionné au début de la
zone où la tâche va ou est entrain d’écrire. Les pointeurs lock_read_begin et
lock_read_end définissent le début et la fin de zone de travail de la tâche de
transfert. Ainsi si lock_write et lock_read_begin sont égaux, cela signifie que la
tâche d’acquisition veut écrire dans une zone utilisée par la tâche de transfert.
Les données de la FIFO ne seront pas sauvegardées dans le buffer.

Rapport INRETS n°275 131


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

Figure 3.24: Gestion des buffers

3.2.2.2. Tâche de transfert (processeur 1)


La tâche de transfert opère la jonction entre la tâche d’acquisition et la tâche
de traitement. Elle a trois rôles :
— récupérer les trames de signal dans le buffer partagé avec la tâche
d’acquisition ;
— convertir les données brutes du buffer dans le format attendu par la
tâche de traitement ;
— ajuster le gain du récepteur.
Les tâches de transfert et de traitement partagent deux buffers qui ont la
taille d’une trame (x 2 ou 4 voies pour le MIMO). Deux buffers sont utilisés pour

132 Rapport INRETS n°275


Le démonstrateur

paralléliser le code. Ainsi la tâche de transfert peut écrire des données dans le
buffer n°1 pendant que la tâche de traitement utilise le second. A la trame
suivante, le transfert a lieu dans le buffer n°2 tandis que le traitement travaille
sur le premier (cf buffers acqUnderCopy et acqUnderTreatment dans notre
programme).
Les tâches de transfert et de traitement échangent des données. Pour
synchroniser ces transferts, un système de sémaphores est utilisé. Lorsque la
tâche de transfert a fini de copier une trame dans le buffer destiné à la tâche de
traitement, elle relâche le sémaphore data_rdy. Ainsi la tâche de traitement est
avertie qu’elle peut utiliser ce buffer. De même, la tâche de transfert attend que
la tâche de traitement relâche le sémaphore treat_rdy pour pouvoir utiliser
l’offset de synchronisation.
Au démarrage du programme, la tâche de transfert attend d’abord que la
tâche d’acquisition ait écrit trois fois dans le buffer circulaire raw_buffer afin que
des données à traiter soit disponibles. Puis elle lit les premières données de
raw_buffer correspondant à la taille d’une trame et recopie les données I/Q
dans le buffer buf1. Ce premier buffer va servir à trouver l’offset de
synchronisation du signal. Elle attend ensuite la notification (par sémaphore) de
la tâche de traitement pour pouvoir récupérer l’offset et se décaler d’une taille
de trame plus offset dans raw_buffer. Ainsi la prochaine recopie (dans buf2)
contiendra une trame entière de signal. La tâche de transfert fournit les trames
du signal à la tâche de traitement jusqu’à la fin du programme.
Au niveau du buffer partagé avec la tâche d’acquisition, il est possible que la
tâche de transfert rattrape la tâche d’acquisition (lock_read_end égal à
lock_write). Dans ce cas, aucune nouvelle donnée n’est disponible pour le
traitement. La tâche de transfert attend donc par pas de 100 μs que la tâche
d’acquisition ait récupéré un nouveau buffer.
Remarque : si on fonctionne avec 3 ou 4 voies de réception, on va de la
même façon chercher les données dans la deuxième FIFO de la carte ICS-554
(qui contient les voies 3 et 4 entrelacées), qui sont ensuite recopiées dans les
buffers alternés (en voie 3 et 4) déjà vus précédemment.
Lors de la recopie vers les buffers alternés, un désentrelacement et une
mise en forme des échantillons sont effectués pour passer du format complexe
ICS à un format exploitable par notre tâche de traitement (type complexe du
C99). De plus, c’est à l’issue de cette recopie qu’on procède régulièrement à un
contrôle automatique du gain du récepteur. Pour cela, on mesure la puissance
des échantillons recopiés et on actualise le gain du récepteur de manière à
toujours conserver une puissance constante. On évite ainsi les saturations de la
carte ICS.

3.2.2.3. Tâche de traitement (processeur 2)


La tâche de traitement est constituée de 3 fonctions successives :
synchronisation courte (ou longue si on a perdu la synchronisation), estimation

Rapport INRETS n°275 133


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

des différents canaux, calcul des SNR, démodulation des signaux reçus (c’est à
dire, dans notre cas, reconstruction des symboles QPSK émis).
Au démarrage, la tâche de traitement va effectuer une synchronisation de la
trame entrante et retourner l’offset trouvé à la tâche de transfert pour qu’elle
puisse fournir une trame. Cette synchronisation (longue, c’est à dire sur un
large intervalle) se fait grâce à une simple corrélation. Si aucune
synchronisation n’est trouvée, la synchronisation est répétée jusqu’à 5 fois. Si
aucun pic de synchronisation n’a été trouvé au bout de la cinquième fois, le
programme est quitté. Aucun signal n’a été détecté.
Une fois cette synchronisation longue trouvée, la tâche de traitement
n’effectue plus qu’une courte synchronisation pour chaque trame mais va
extraire les données du signal. Cette synchronisation fine est nécessaire car
elle permet d’une part de vérifier que le signal se trouve bien dans le buffer
fourni par la tâche de transfert et d’autre part de se recaler en réponse à un
léger décalage fréquentiel du signal. On utilise dans le programme un intervalle
de recherche de largeur 30 échantillons, un décalage constant de 32
échantillons sur l’instant de synchronisation, et la matrice (qui suppose des 0
entre chaque trame). L’offset de synchronisation trouvé est retourné à la tâche
de transfert à la fin de la synchronisation et avant l’extraction des données.
Ainsi la tâche de transfert peut éventuellement commencer à copier une
nouvelle trame dans le second buffer, tandis que le traitement continue à
travailler sur le premier.
La tâche de traitement se poursuit avec l’estimation des canaux, le calcul
des SNR, puis la démodulation des signaux reçus (avec égalisation MMSE ou
Alamouti), et la correction du déphasage (grâce aux symboles pilotes). A l’issue
de ce traitement, un sémaphore QPSK_rdy est relâché pour autoriser le début
du décodage des signaux démodulés (tâche de décodage) sur le processeur 1.
Si la synchronisation courte a échoué (c’est à dire si les SNR que l’on
calcule via la tâche de traitement sont inférieurs à 2 dB), on repasse dans la
phase de synchronisation longue (c’est à dire sur une plus grande portion de
signal, avec une simple corrélation).
Remarque : la tâche de traitement suit les calculs évoqués dans la partie
Traitement du Signal et algorithmes. Pour le calcul des corrélations entre 2
vecteurs x et y, on passe par le produit de convolution entre x et le vecteur y
retourné temporellement (ce qui est équivalent). Pour calculer ce produit de
convolution, on dispose d’une fonction de transformée de Fourier rapide (FFT)
dont on tire profit en posant :

x * y = TF −1 (TF ( x * y ) )
= TF −1 ( X * Y )
= TF −1 ( X ) .TF −1 (Y )

134 Rapport INRETS n°275


Le démonstrateur

Le calcul de la corrélation entre 2 vecteurs est donc ainsi ramené à un


produit de 2 transformées de Fourier inverses, qui est suffisamment rapide
dans notre cas.

3.2.2.4. Tâche de décodage (processeur 1)


Cette tâche débute par le calcul des LLR des bits associés aux symboles
estimés lors de la démodulation (tel qu’il est décrit dans la partie Traitement du
Signal et Algorithmes) et se poursuit par le décodage convolutif (algorithme de
Viterbi). Compte tenu des contraintes temporelles, il n’a été possible que de
décoder une des 2 émissions en temps réel (la seconde étant seulement
démodulée). On peut néanmoins tirer parti du MIMO en fonctionnant avec une
émission du type Alamouti (car dans ce cas on a également 2 émissions, mais
un seul signal à décoder).

Figure 3.25 : Répartition des tâches sur les 2 processeurs

Ajustement des paramètres


Dans un souci d’optimisation pour le temps réel, la plupart des paramètres
sont peu ou pas réglables :
Au niveau du signal :
— La taille de la FFT (liée au nombre de porteuses de notre signal
OFDM) est fixée à 256 ;
— La taille du préambule (nombre de symboles connus) est fixée à 2 ;
— La modulation est QPSK ( cf fonction de codage et décodage).
Au niveau de l’acquisition :

Rapport INRETS n°275 135


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

— FIFO_LEVEL : seuil de remplissage de la FIFO (= almost full flag),


fixé à 280 Ko. Cette taille correspond à une acquisition d’une longueur
de 2 trames sur 2 voies ;
— Un buffer DMA circulaire de 10 x FIFO_LEVEL ;
— Taille des blocs de traitement : légèrement supérieure à la taille d’une
trame (pour être sûr d’avoir une trame complète même avec un léger
décalage due à une mauvaise synchronisation) ;
— Un facteur de décimation 16 pour les DDC ( i.e notre bande maximale
vaut 102.4 / 16 = 6,4 MHz).

3.3. Traitement du signal


Cette section expose différents résultats de traitement du signal utiles dans
notre projet, ainsi que les calculs optimisés qui ont été mis en œuvre lors du
développement du modem. Seuls les traitements qui diffèrent de ceux utilisés
lors des simulations sont exposé dans cette partie.

3.3.1. Modélisation du signal


La modélisation du signal utilisé pour la chaîne de transmission réelle diffère
de celle exposée dans le chapitre 2. Cette modification permet d’exploiter plus
efficacement les algorithmes et permet de les utiliser plus aisément dans le cas
de transmission temps réel sur des canaux sélectifs en fréquence.
Nous posons donc le modèle de signal suivant (dans le domaine temporel):

X (τ ) = ΓS + N

avec :
- Γ : canal (longueur L) Matrice Nr x (Nt x L)
- Nr : le nombre d’antennes de réception
- Nt : le nombre d’antennes d’émission
- S : la matrice associée à la partie connue de la séquence émise
Matrice (L x Nt) x Ns. Dans le cas Nt = 2 :

⎛ ⎡ s0 0 L 0 ⎤ ⎡ s '0 0 L 0 ⎤⎞
⎜⎢ ⎥ ⎢ ⎥⎟
⎜⎢ M O M ⎥⎢ M O M ⎥⎟
⎜⎢ M O 0 ⎥⎢ M O 0 ⎥⎟
S† =⎜ ⎢ ⎥⎢ ⎥⎟
⎜⎢ M s0 ⎥ ⎢ M s '0 ⎥ ⎟
⎜⎢ M M ⎥⎢ M M ⎥⎟
⎜⎢ ⎥⎢ ' ⎥⎟
⎜ ⎢⎣ sN s −1 L L sN s − L ⎥⎦ ⎢ s N −1 L L s ' N − L ⎥ ⎟
⎝ ⎣ s s ⎦⎠

136 Rapport INRETS n°275


Le démonstrateur

tx = 1 tx = 2
que l’on note parfois Slong , ou :

⎛ ⎡ sL −1 s0 ⎤ ⎡ s ' L −1 s '0 ⎤ ⎞
⎜ ⎢ ⎥⎢ ⎥⎟
S† =⎜ ⎢ M M ⎥⎢ M ⎥⎟
⎜ ⎢s L L sN s − L ⎦ ⎣ s N s −1 L L s N s − L ⎥⎦ ⎟
⎥ ⎢ ' '
⎝ ⎣ N s −1 ⎠

version tronquée par le haut de la matrice S , de dimension (L x Nt) x (Ns-L+1),


que l’on notera par la suite Scourt . Le modèle de signal utilisant Scourt suppose
que l’on ne connaît pas les échantillons précédant la séquence connue, tandis
que celui utilisant Slong suppose que l’on a une suite d’échantillons nuls avant
la séquence connue (ce qui sera notre cas car on émettra un symbole blanc
avant chaque début de trame, c’est à dire juste avant le début de la séquence
connue).

Les différentes colonnes de la matrice S représentent des versions
décalées dans le temps de la séquence connue. En multipliant la matrice canal
Γ par cette matrice S, on obtient bien la somme des signaux correspondant aux
différents trajets retardés ayant affecté la séquence connue.

— X (τ ) : observation de la séquence connue (instant τ ) - Matrice Nr x


Ns (dans le cas Scourt : Nr x (Ns-L+1) )

— X (τ ) = ( x(τ ) L x(τ + N s − 1) )
— Ns : taille de la séquence connue (2 symboles x 320 échantillons)
— L : taille du canal estimé (64)
— N : bruit (blanc gaussien puissance σ2)

3.3.2 Estimation de canal LMMSE suivant cette modélisation


L’objectif est ici de déterminer les coefficients du canal de propagation Γ .
Pour cela, on cherche quels coefficients de canal minimisent la puissance du
bruit dans le modèle de signal vu précédemment. Il s’agit du critère de
minimisation de l’erreur quadratique moyenne linéaire (LMMSE). On veut
Γ qui minimise E ⎡ X (τ ) − ΓS ⎤ , c’est à dire :
2
trouver
⎣ ⎦

Rapport INRETS n°275 137


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

Γij tels que : ∀i, j

( )⎥⎥⎦ = 0
⎡ δ ⎤
tr ⎡( X (τ ) − ΓS ) ( X (τ ) − ΓS ) ⎤

E⎢
⎢⎣ δΓij ⎣ ⎦

δΓ† δΓ
∀i, j =0 et = ei e j † ⇒
δΓij δΓij

⎣ ⎣

⎦⎦ (
E ⎢⎡tr ⎡( X (τ ) − ΓS ) −ei e j † S ⎤ ⎥⎤ = 0 )
E ⎢⎡tr ⎡ e j † S ( X (τ ) − ΓS ) ei ⎤ ⎥⎤ = 0

⎣ ⎣ ⎦⎦

(
E ⎡tr ⎡⎣e j † S X † (τ ) − S †Γ† ei ⎤⎦ ⎤ = 0
⎣ ⎦ )
SX † (τ ) − SS †Γ† = 0

( )
−1
Γ† = SS † SX † (τ )

( )
−1
Γ = X (τ ) S † SS †

d’où l’on déduit la puissance du bruit par :


1
σ2 = X (τ ) − ΓS
2

NsNr
Il reste à déterminer X (τ ) , c’est à dire l’instant de synchronisation τ qui
minimise X (τ ) − ΓS
2
:
2
X − ΓS = X − XS † ( SS † ) −1 S
2

= tr ⎡⎣( X − XS † ( SS † ) −1 S )( X † − S † ( SS † ) −1 SX † ) ⎤⎦

= tr ⎡⎣ XX † − XS † ( SS † ) −1 SX † − XS † ( SS † ) SX † + XS † ( SS † ) −1 ( SS † )( SS † ) −1 SX † ⎤⎦

= tr ⎡⎣ XX † − 2 XS † ( SS † ) −1 SX † + XS † ( SS † ) −1 SX † ⎤⎦

= tr ⎡⎣ XX † − XS † ( SS † ) −1 SX † ⎤⎦

138 Rapport INRETS n°275


Le démonstrateur


minτ X (τ ) − ΓS = minτ ⎡⎣tr ( X (τ ) X (τ )† ) − tr ( X (τ ) S † ( SS † ) −1 SX (τ )† ) ⎤⎦
2

On peut considérer comme approximation de ce critère (en considérant


tr ( XX † ) constant et ( SS † ) −1 diagonale constante en supposant que les
échantillons de la séquence connue sont décorrélés entre eux) :

minτ X (τ ) − ΓS
2
[
= maxτ tr (X (τ )S † SX (τ ) † ) ]
min τ X (τ ) − ΓS = maxτ X (τ ) S †
2

Dans la suite, on va s’intéresser à la détermination de τ et au calcul du


XS (τ ) qui lui est associé. On en déduira alors le canal par

Γ = X (τ ) S † ( SS † ) et la puissance du bruit par σ 2 =


−1 1
X (τ ) − ΓS (la
2

NsNr

puissance du signal étant la différence entre la puissance reçue ( tr ( XX ) ) et
la puissance du bruit, on en déduira le SNR).

Pour déterminer τ , on envisagera dans un premier temps une


synchronisation par recherche du maximum vu précédemment (critère optimal),
puis une synchronisation moins coûteuse, basée sur la recherche du maximum
d’une simple corrélation entre X et S (critère simple qui ne prend en compte que
le trajet principal de propagation). Cette opération de synchronisation
représentant une part importante en terme de temps dans la chaîne de
réception du modem, il est essentiel de l’optimiser.

3.3.3. Synchronisation des signaux en réception


Dans le chapitre 2, en simulation, la synchronisation a été considérée
comme parfaite en réception. Dans le cas d’un système de transmission réelle
cette hypothèse n’est pas valide et il est nécessaire d’implémenter un étage
effectuant cette fonction. Les méthodes de synchronisation mises en œuvre
sont exposées dans cette section. Les optimisations qui leur ont été apportées
sont également détaillées. Nous distinguerons le cas du modèle de signal avec
Slong du cas utilisant Scourt.

Rapport INRETS n°275 139


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

c) Cas exploitant Slong

max de XS (τ ) (critère optimal)


Nous avons vu qu’il est nécessaire de procéder à une synchronisation pour


trouver X (τ ) qui minimise le critère, et ainsi déterminer le canal par :

( )
−1
Γ = X (τ ) S † SS †
Le problème consiste alors, après s’être placé sur un intervalle de τ jugé
suffisamment large et centré sur la position de synchronisation attendue, à
calculer les X (τ ) S (notés dans la suite XS (τ ) ) et à sélectionner celui dont
† †

la norme est maximale pour calculer Γ . Un tel calcul est coûteux, et peut être
nettement optimisé. Il est tout d’abord intéressant de calculer préalablement à
tout autre traitement les termes de la convolution entre le signal reçu total et la
séquence connue retournée temporellement (opération qui équivaut à une
corrélation) : X (0) ∗ [ sNs −1 K K s0 ] .

Les termes de X (0) ∗ s Ns −1 [ K K s0 ] sont :

⎡ x(0).sNs −1 ⎤ ← terme(0) = c(0)


⎢ x(0).sNs − 2 + x(1).sNs −1 ⎥ ← terme(1) = c(1)
⎢ ⎥
⎢ M ⎥ M
⎢ ⎥
⎢ x(0).s0 + x(1).s1 + L + x( Ns − 1).sNs −1 ⎥ ← terme( Ns − 1) = c( Ns − 1)
⎢ x(1).s0 + x(2).s1 + L + x( Ns ).sNs −1 ⎥ ← terme( Ns ) = c( Ns )
⎢ ⎥
⎢ M ⎥ M
⎢ x(τ ).s + L x( Ns + τ − 1).s ⎥ ← terme( Ns − 1 + τ ) = c( Ns − 1 + τ )
⎢ 0 Ns −1

⎣⎢ M ⎦⎥ M

Les termes de cette convolution nous seront utiles lors du calcul des
XS † (τ ) et de XS † (τ max ) , dans l’optique d’une réduction du nombre
d’opérations à effectuer. En effet, il est possible de réaliser le calcul des
XS † (τ ) itérativement, en tirant profit du calcul de XS † (τ + 1) et du précalcul
des termes de la convolution X (0) ∗ [ s Ns −1 K K s0 ] .

140 Rapport INRETS n°275


Le démonstrateur

Calcul récurrent de XS † (τ ) = f ( XS † (τ + 1) ) :
On cherche une relation de récurrence entre XS † (τ ) et XS † (τ + 1) .
Intéressons-nous notamment au terme de la colonne j de XS (τ ) et au terme

de la colonne j-1 de XS (τ + 1) (notés respectivement XS (τ , j ) et


† †

XS † (τ + 1, j − 1) ) :

⎛ s 0 0 L 0 ⎞
⎜ ⎟
⎜ M O M ⎟
⎜ M O 0 ⎟
⎜ ⎟
⎜ M s0 ⎟
⎜ M M ⎟
⎜ ⎟
⎜ s L L s ⎟
⎝ N s −1 N s − L ⎠

XS † (τ ) : [ x(τ ) L x(τ + Ns − 1) ]
⎡0L L L L j L L L − 1⎤⎦

XS † (τ + 1) : [ x(τ + 1) L x(τ + Ns ) ]
⎡ 0L L L j −1 L L L L − 1⎤⎦

(indice des termes ↑ )

On a :

XS † (τ , j ) = x(τ + j ).s0 + L + x(τ + Ns − 1).sNs −1− j

XS † (τ + 1, j − 1) = x(τ + 1 + j − 1).s0 + L + x(τ + 1 + Ns − 1).sNs −1− j +1

= x(τ + j ).s0 + L + x(τ + Ns).sNs − j

D’où :
XS † (τ , j ) = XS † (τ + 1, j − 1) − x(τ + Ns ).sNs − j ∀j > 0

avec : XS † (τ , 0) = c( Ns − 1 + τ )

Rapport INRETS n°275 141


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

Grâce à cette relation de récurrence, on peut calculer les XS (τ ) (avec τ


parcouru dans le sens décroissant) plus rapidement qu’en effectuant des


produits matriciels successifs.

Calcul de XS † (τ max ) :
Il reste maintenant seulement à calculer XS † (τ max ) pour initialiser le calcul. On
a:

XS † (τ max , j ) = x(τ max + j ).s0 + L + x(τ max + Ns − 1).sNs −1− j


c( Ns − 1 + τ max + j ) = x(τ max + j ).s(0 ) + ...
et : + x(τ max + Ns − 1).s Ns −1− j + ...
+ x(τ max + Ns − 1 + j ).s Ns −1

j −1
d’où : XS † (τ max , j ) = c( Ns − 1 + τ max + j ) − ∑ x(τ max + Ns + k ).sNs − j + k
k =0

∀j ≥ 1

avec XS † (τ max , 0) = c( Ns − 1 + τ max )

Là encore, le calcul obtenu est plus rapide qu’un produit matriciel.

Remarque : avant d’estimer le canal par Γ = X (τ ) S



( SS )† −1
, il est
judicieux de retrancher une constante à τ ( τ ' = τ − ) , afin de ne pas placer
le trajet d’énergie maximale au tout début de l’estimée du canal (valable pour la
suite également). De cette manière il est possible d’estimer correctement des
canaux dont le premier trajet n’est pas le trajet principal. On utilisera cet instant
de synchronisation τ ' pour démoduler la séquence reçue (en y rajoutant
préalablement la taille du préfixe cyclique et le nombre d’échantillons
correspondant aux symboles connus pour se positionner au début de la partie
utile de la séquence).

[
max de X (τ ) ∗ s Ns −1 K K s0 ] (critère simple)

Avec ce type de synchronisation, on ne prend pas en compte la présence de


multi-trajets et on effectue une simple corrélation entre le signal reçu et la
séquence connue :

142 Rapport INRETS n°275


Le démonstrateur

X (τ ) ∗ [ sNs −1 K K s0 ] = c( Ns − 1 + τ )

On peut par conséquent s’attendre à une synchronisation moins bonne si le


canal présente plusieurs forts trajets.
On fait juste une recherche de maximum sur les termes de c pour
déterminer τ . Il faut ensuite calculer la matrice XS † (τ ) de manière directe. Ce
calcul est similaire à celui de XS † (τ max ) vu précédemment.

d) Cas exploitant Scourt

max de XS † (τ ) (critère optimal)


On considère ici les termes de la convolution entre le signal reçu et la
séquence connue retournée et tronquée . Les termes de
X (0) ∗ [ sNs − L K K s0 ] sont :

⎡ x(0).sNs − L ⎤ ← terme(0) = c '(0)


⎢ x(0).sNs − L −1 + x(1).sNs − L ⎥ ← terme(1) = c '(1)
⎢ ⎥
⎢ M ⎥ M
⎢ ⎥
⎢ x(0).s0 + x(1).s1 + L + x( Ns − L).sNs − L ⎥ ← terme( Ns − L) = c '( Ns − L)
⎢ x(1).s0 + x(2).s1 + L + x( Ns − L + 1).sNs − L ⎥ ← terme( Ns − L + 1) = c '( Ns − L + 1)
⎢ ⎥
⎢ M ⎥ M
⎢ x(τ ).s0 + L x( Ns − L + τ ).sNs − L ⎥ ← terme( Ns − L + τ ) = c '( Ns − L + τ )
⎢ ⎥
⎣⎢ M ⎦⎥ M

Comme dans le cas Slong , on peut procéder à un calcul par récurrence


des XS (τ ) et tirer profit du calcul des termes de cette convolution. On note que

la récurrence, dans le cas Scourt , s’effectuera sur τ croissant.

Calcul récurrent de XS † (τ ) = f ( XS † (τ − 1) ) :

Intéressons-nous aux termes XS † (τ , j ) et XS † (τ − 1, j + 1) :

Rapport INRETS n°275 143


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

⎛ s L −1 L L s0 ⎞
⎜ ⎟
⎜ M O M ⎟
⎜ M O M ⎟
⎜ ⎟
⎜ M M ⎟
⎜ M M ⎟
⎜ ⎟
⎜ s N −1 L L s ⎟
⎝ s N s − L ⎠

XS † (τ ) : [ x(τ ) L x(τ + Ns − L) ]
⎡0L L L L j L L L − 1⎤⎦

XS † (τ − 1) : [ x(τ − 1) L x(τ + Ns − L − 1) ]
⎡ j −1 L L L L − 1⎦⎤
⎣0L L L

(indice des termes ↑ )

On a :
XS † (τ , j ) = x(τ ).sL −1− j + L + x(τ + Ns − L).sNs −1− j

XS † (τ − 1, j + 1) = x(τ − 1).sL −1− j −1 + x(τ ).sL −1− j + L + x(τ − 1 + Ns − L).sNs −1− j −1

d’où :

XS † (τ , j ) = XS † (τ − 1, j + 1) + x(τ + Ns − L).sNs −1− j − x(τ − 1).sL −1− j −1


∀j ≥ 1

Calcul de XS † (0) :
Il reste maintenant seulement à calculer XS † (0) pour initialiser le calcul.

144 Rapport INRETS n°275


Le démonstrateur

⎛ s L −1 L L s0 ⎞
⎜ ⎟
⎜ M O M ⎟
⎜ M O M ⎟
⎜ ⎟
⎜ M M ⎟
⎜ M M ⎟
⎜ ⎟
⎜ s N −1 L L s ⎟
⎝ s N s − L ⎠

XS † (0) : [ x(0) L x( Ns − L) ]
⎡ L − 1L L L L j L L 0 ⎤⎦

(indice des termes ↑ )
On a :

XS † (0, j ) = x(0).s j + L + x( Ns − L).sNs − L + j

et :
c '( Ns − L − j ) = x(0).s j + L + x( Ns − L − j ).sNs − L

d’où :

Ns − L
XS † (0, j ) = c '( Ns − L − j ) + ∑
k = Ns − L − j +1
x(k ).sk + j ∀j ≥ 1

avec :

XS † (0, 0) = c '( Ns − L)

[
max de X (τ ) ∗ s Ns − L K K s0 ] (critère simple)

Comme dans le cas Slong , il est envisageable d’utiliser un critère de


synchronisation simplifié reposant sur une simple corrélation, afin de minimiser
les temps de calcul. On recherche alors le maximum sur les termes :
X (τ ) ∗ [ sNs − L K K s0 ] = c '( Ns − L + τ )

Remarque : l’instant de synchronisation τ trouvé par cette corrélation est


décalé de –(L-1) par rapport à l’instant déterminé par le critère optimal. On
compensera ce décalage avant de poursuivre.

Rapport INRETS n°275 145


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

Il faut ensuite calculer de manière directe le XS



(τ ) associé (pas de calcul par
récurrence car τ est connu):

⎛ s L −1 L L s0 ⎞
⎜ ⎟
⎜ M O M ⎟
⎜ M O M ⎟
⎜ ⎟
⎜ M M ⎟
⎜ M M ⎟
⎜ ⎟
⎜ s N −1 L L s ⎟
⎝ s N s − L ⎠

XS † (τ ) : [ x(τ ) L x(τ + Ns − L) ]
⎡ L − 1L L L L j L L 0 ⎤⎦

(indice des termes croissant)

Deux cas sont à envisager dans ce calcul, selon les valeurs relatives de τ et
de l’indice du terme que l’on cherche à déterminer :

Si τ≥j
On cherche : XS (τ , j ) = x(τ ).s j + L + x(τ + Ns − L).s j + Ns − L

On a :
c′( Ns − L + τ − j ) = x(τ − j ).s + ... + x(τ − 1).s
0 j −1
144444444
42444444444 3
A( j )
x(τ ).s + ... + x(τ + Ns − L − j ).s
j Ns − L
1444444444442444444444443
B( j )
j −1
⇒ XS (τ , j ) = B ( j ) + ∑ x(τ + Ns − L − k ).sNs − L + j − k

k =0

⇒ XS (τ , j ) = c '( Ns − L + τ − j ) − A( j ) + RT ( j )

j
A( j ) = ∑ x(τ − k ).s j − k
k =1
avec :
j −1
RT ( j ) = ∑ x(τ + Ns − L − k ).sNs − L + j − k
k =0

Si τ≤ j

146 Rapport INRETS n°275


Le démonstrateur

On a :
c′( Ns − L + τ − j ) = x(0).s
j −τ + ... + x(τ − 1).s
j −1
1444444442444444443
A′ ( j )
x(τ ).s + ... + x(τ + Ns − L − j ).s
j Ns − L
1444444444442444444444443
B( j )

et XS (τ , j ) = B ( j ) + RT ( j )

⇒ XS † (τ , j ) = c '( Ns − L + τ − j ) − A '( j ) + RT ( j )

τ
A '( j ) = ∑ x(τ − k ).s j − k
k =1
avec :
j −1
RT ( j ) = ∑ x(τ + Ns − L − k ).sNs − L + j − k
k =0

Le calcul direct de XS (τ , j ) (dans le cas SISO), avec 0 ≤ τ ≤ 30 , 0 ≤ j < 64


et Ns = 640, nécessiterait 31 x 64 x (640 – 63) = 1.144.768 multiplications


(produit matriciel). Grâce au calcul précédent, il nécessite seulement 87.296
multiplications.

3.3.4 Egalisation MMSE pour du multiplexage spatial en émission


Dans le cadre de transmission réelle, le multiplexage spatial et des
communications SISO ont été testés. Dans ces configurations, une égalisation
de type MMSE a été utilisé en réception. A ce stade, nous disposons d’une
estimation du canal ainsi que de l’observation d’une trame OFDM (dont le début
est donné par l’instant de synchronisation déterminé précédemment). L’objectif
de l’égalisation est de s’affranchir des interférences inter-symboles dues à la
présence de multi-trajets dans le canal de propagation.
Notons N le nombre de sous-porteuses utiles. Dans le domaine fréquentiel,
considérons X l’observation (vecteur-ligne de dimension Nr.N, séquences
reçues sur les Nr voies, mises bout à bout) de la séquence d’apprentissage A
(vecteur-ligne de dimension Nt.N, séquences d’apprentissage des Nt
émetteurs, mises bout à bout), qui correspond ici aux quelques premiers
symboles connus de la séquence OFDM. On cherche la matrice M (dimension
Nr.N x Nt.N) qui minimise la moyenne de l’erreur quadratique (MMSE : minimal
mean square error) entre la séquence égalisée et la séquence d’apprentissage,
c’est à dire la quantité:

E ⎡ XM − A ⎤ = E ⎡⎣tr ⎡⎣( M † X † − A† )( XM − A) ⎤⎦ ⎤⎦
2
⎣ ⎦

Rapport INRETS n°275 147


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

On cherche donc les coefficients mij (coefficients de la matrice M) tels que :

⎡ δ XM − A 2 ⎤
∀i, j E ⎢ ⎥=0
⎢⎣ δ mij ⎥⎦

On obtient :

δM† δM
∀i, j =0 et = ei e j † ⇒
δ mij δ mij
E ⎣⎡tr ( M † X † − A† ) Xei e j † ⎦⎤ = 0 ∀i, j
E ⎣⎡( M † X † − A† ) X ⎦⎤ = 0
E ⎣⎡ M † X † X − A† X ⎦⎤ = 0

Dans le domaine fréquentiel, avec H = TF ( Γ ) sous forme diagonale par


blocs (Nr x Nt blocs, correspondant aux Nr x Nt canaux) :

⎛ H1−>1 (0) 0 0 H1−> 2 (0) 0 0 ⎞


⎜ ⎟
⎜ 0 O 0 0 O 0 ⎟
⎜ 0 0 H1−>1 ( N ) 0 0 H1−> 2 (0) ⎟
⎜ ⎟
⎜ H 2 −>1 (0) 0 0 H 2 −> 2 (0) 0 0 ⎟
⎜ 0 O 0 0 O 0 ⎟
⎜⎜ ⎟
⎝ 0 0 H 2 −>1 ( N ) 0 0 H 2 −> 2 ( N ) ⎟⎠

ex : matrice H (Nr=Nt=2)

On a : X = AH + B ⇒ M † E ⎣⎡ X † X ⎦⎤ − E ⎣⎡ A† ( AH + B ) ⎦⎤ = 0

M † ⎡⎣ H † E ( AA† ) H + σ ² I ⎤⎦ = E ⎡⎣ A† A⎤⎦ H

M † ⎡⎣ H † Ra .H + σ ² I ⎤⎦ = Ra .H

( )
−1
M † = Ra .H Ra .H † H + σ ² I

148 Rapport INRETS n°275


Le démonstrateur

M = ( Ra .H † H + σ ² I ) Ra .H †
−1

−1
⎛ σ ²I ⎞
M = ⎜ H †H + ⎟ H

⎝ Ra ⎠

H étant diagonale par blocs, M est de la même forme. L’égalisation de X ( X eg )


peut donc être effectuée indépendamment sur chaque sous-porteuse p :

X eg = X .M ⇔ X eg ( p) = X ( p).M p ∀p

avec M p matrice d’égalisation de la sous-porteuse p (dimension Nr x Nt) ,


extraite de M.

exemple : cas Nr=Nt=2 :

⎛ M 11 (0) M 12 (0) ⎞
⎜ ⎟
⎜ M 11 ( p) M 12 ( p) ⎟
⎜ ⎟
⎜ O O ⎟
⎜ M 11 ( N ) M 12 ( N ) ⎟
M =⎜ ⎟
⎜ M 21 (0) M 22 (0) ⎟
⎜ M 21 ( p) M 22 ( p) ⎟
⎜ ⎟
⎜ O O ⎟
⎜⎜ ⎟
⎝ M 21 ( N ) M 22 ( N ) ⎟⎠

⎛ M ( p ) M 12 ( p ) ⎞
⇒ M p = ⎜ 11 ⎟
⎝ M 21 ( p ) M 22 ( p ) ⎠

∀p (X eg , Nr = 0 ( p) X eg , Nr =1 ( p) ) = ( X Nr =0 ( p ) X Nr =1 ( p ) ) × M p

Rapport INRETS n°275 149


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

On obtient ainsi les symboles estimés de chacune des émissions.

3.3.5 Correction de phase

Lors de transmissions réelles, la propagation des signaux dans le médium


produit un déphasage des signaux en réception. De plus, une possible dérive
en fréquence des générateurs engendrera les mêmes effets et s’additionnera
aux effets de la propagation.
Dans le cas d’une transmission SISO ou MIMO exploitant le multiplexage
spatiale, la correction de phase est réalisée en utilisant les 8 symboles connus
chargés sur les porteuses pilotes (phases connues) de chaque symbole OFDM.
Le déphasage moyen des symboles reçus par rapport à ces symboles de
référence est ensuite calculé de la manière suivante :
Phaseesti = mean( R( porteuses pilotes ).S * ( porteuses pilotes ))
Lors de l’utilisation d’un code d’Alamouti en émission, en réception, les
résultats de la démodulation sont très sensibles à une éventuelle dérive en
fréquence des 2 émetteurs (une telle dérive en fréquence rendant inexactes les
hypothèses de conjugaison entre symboles sur lesquelles repose le code
Alamouti).
Sans dérive en fréquence, on a vu qu’on émettait successivement sur
chaque antenne:

tx = 1: S1 , − S 2*
tx = 2 : S2 , S1*

Dans le cas d’une dérive en fréquence (supposée ici identique pour les 2
émetteurs, car ils sont supposés être synchronisés par une même horloge), il
faut maintenant prendre en compte un déphasage entre les 2 instants
iϕ iϕ
d’émission : e 1 à l’instant 1 et e 2 à l’instant 2. On émet donc
successivement :
iϕ iϕ
tx = 1: S1.e 1 , − S2*.e 2
iϕ iϕ
tx = 2 : S 2 .e 1 , S1*.e 2

Les relations de conjugaison entre les symboles successifs sont donc


rompues. On reçoit aux instants t1 et t2 :

150 Rapport INRETS n°275


Le démonstrateur

iϕ iϕ
Y1 (t1 ) = H11.s1.e 1 + H 21.s2 .e 1
iϕ iϕ
Y1 (t2 ) = − H11.s2*.e 2 + H 21.s1*.e 2

Et on obtient nos symboles (en compensant les déphasages) par :

−iϕ iϕ
H11*.Y1 (t1 ).e 1 + H 21.Y1* (t2 ).e 2
s1 =
H11 + H 21
2 2

−iϕ iϕ
H 21*.Y1 (t1 ).e 1 − H11.Y1* (t2 ).e 2
s2 =
H11 + H 21
2 2

Les valeurs des déphasages doivent être connus. On utilise pour les
déterminer les symboles des sous-porteuses pilotes :

iϕ Y1 (1, p)
∀p e 1 =
H11 ( p) S1 ( p ) + H 21 ( p) S 2 ( p)
iϕ Y1 (2, p)
∀p e 2 =
− H ( p) S * ( p) + H ( p) S * ( p)
11 2 21 1

avec Y1 (1, p ) et Y1 (2, p ) les observations successives sur la sous-porteuse p

et S1 ( p ) (et S 2 ( p ) ) le symbole de la sous-porteuse pilote p.

3.4. Environnement temps réel ADEOS


3.4.1. Description et généralités
Les systèmes temps réel sont ceux où le facteur temps est la principale
contrainte à respecter et où ce facteur est prépondérant pour évaluer la qualité
du service. Autrement dit, le système ne doit pas simplement délivrer des
résultats exacts, il doit les délivrer dans des délais imposés. Les systèmes
temps réel sont aujourd'hui présents dans de nombreux secteurs d'activités :
dans l'industrie de production par exemple, au travers des systèmes de contrôle
de procédé, dans l'industrie du transport au travers des systèmes de pilotage
embarqués, ou encore dans le secteur de la nouvelle économie au travers du
besoin, toujours croissant, du traitement et de l'acheminement de l'information
(vidéo, données, pilotage à distance, réalité virtuelle...).

Rapport INRETS n°275 151


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

On distingue le temps réel dur et le temps réel mou suivant l'importance


accordée aux contraintes temporelles. Le temps réel strict ne tolère aucun
dépassement de ces contraintes, ce qui est souvent le cas lorsque de tels
dépassements peuvent conduire à des situations critiques (pilote automatique
d'avion par exemple). À l'inverse le temps réel souple s'accommode de
dépassements des contraintes temporelles dans certaines limites au-delà
desquelles le système devient inutilisable (visioconférence, jeux en réseau…).

Figure 3.3 : Tâche temps réel

Une tâche temps réel est caractérisée par un temps de réveil, une durée et
une échéance. Le temps de réveil est le temps où la tâche doit commencer son
exécution et l’échéance représente le délai maximum imparti pour l’exécution
de la tâche. Si l’échéance n’est pas respectée, le système perd son intégrité.
Un système d’exploitation temps réel (RTOS) assure la fonctionnalité d’un
système d’exploitation et également le respect des échéances temporelles pour
les tâches temps réel. Les objectifs d’un RTOS sont d’une part de minimiser le
retard entre le moment où la tâche doit être lancée (temps de réveil) et le
moment où elle commence son exécution et, d’autre part de réduire les
perturbations qui peuvent allonger sa durée d’exécution, de sorte que les
échéances puissent être toujours respectées. Dans un système d’exploitation
temps réel, une augmentation de la charge pénalise principalement les tâches
non temps réel et pas les tâches temps réel ayant une grande priorité.
Le système d’exploitation Linux est un GPOS (General Purpose Operating
System) c'est-à-dire qu’il est destiné à un usage commun. Il assure les
fonctionnalités d’un système d’exploitation conforme à la norme POSIX, sans
garantie de performances d’aucune sorte (best effort policy). C’est donc un
système non temps réel par définition. La spécificité de Linux par rapport à
d’autres systèmes d’exploitation est qu’il se décompose en un espace
utilisateur (user) et un espace noyau (kernel).
L’espace utilisateur est un espace protégé où s’exécutent les programmes
lancés par l’utilisateur. Dans l’espace noyau s’exécutent toutes les tâches qui
communiquent avec le matériel notamment l’ordonnanceur (scheduler), les
routines de gestion des interruptions, l’horloge (timer) et les pilotes (drivers).
Les tâches utilisateur peuvent entrer dans l’espace noyau pour interagir avec le
matériel par le biais d’appels systèmes. Une fois l’appel système terminé, elles
retournent dans l’espace utilisateur.

152 Rapport INRETS n°275


Le démonstrateur

Figure 3.4 : Espaces noyau et utilisateur de Linux

Le noyau Linux 2.6 sorti en décembre 2003 présente de nombreuses


améliorations par rapport au noyau 2.4 en particulier au niveau de la
préemption des tâches. Dans le noyau 2.4, seul l’espace utilisateur est
préemptible. Une tâche de faible priorité s’exécutant dans l’espace noyau ne
peut pas être préemptée par une tâche de plus forte priorité. Cette dernière doit
attendre que la première retourne dans l’espace utilisateur pour prendre la
main. Dans le noyau 2.6, la granularité a été améliorée : des points de
préemption ont été ajoutés dans l’espace noyau. Ceci réduit considérablement
le temps de latence de la tâche de plus forte priorité. Cependant les routines de
gestion des interruptions et l’ordonnanceur restent non préemptibles.
Cette évolution de la préemptivité entre le noyau 2.4 et 2.6 permet d’obtenir
des temps de latence compatibles avec la lecture de fichiers audio ou vidéo
mais pas suffisants pour exécuter des tâches temps réel.
La gestion des interruptions sous Linux est un autre mécanisme qui fait
obstruction au temps réel, d’une part parce qu’il peut créer des inversions de
priorités et d’autre part parce qu’il perturbe le déterminisme du système.
A chaque périphérique qui génère des interruptions est associée une routine
de gestion d’interruptions (Interrupt Service Routine). Ces routines se
déclenchent automatiquement à chaque fois qu’une interruption est reçue par le
noyau. Leur travail se décompose en deux parties : l’acquittement de
l’interruption (top halves) et le traitement de l’interruption (bottom halves).
L’acquittement de l’interruption devant être réalisé dans un délai déterminé, il
doit être exécuté au plus tôt après la réception de l’interruption matérielle. Il
s’opère dans un contexte spécial qui permet à la routine de prendre la main à
n’importe quel moment et sans être préemptée par une autre tâche. L’exécution
du traitement de l’interruption n’est lui pas critique et peut être réalisé plus tard
dans un contexte tâche. Il est peut être préempté par une tâche plus prioritaire.
De ce mécanisme résulte un problème récurrent de Linux : l’inversion de
priorités. Il apparaît car n’importe quelle routine de gestion d’interruptions

Rapport INRETS n°275 153


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

(même peu prioritaire dans le système) peut se déclencher à tout moment et


donc interrompre l’exécution d’une tâche temps réel sous Linux.
D’autre part, le mécanisme de gestion des interruptions perturbe le
déterminisme du système. Le noyau Linux ne peut pas garantir un temps de
latence maximum pour le lancement d’une tâche car la gestion des interruptions
s’effectue de manière asynchrone et pour une durée variable non définie. Or
l’assurance d’un temps de latence maximal est une nécessité indispensable
dans le cadre du temps réel. Il existe néanmoins des solutions pour transformer
Linux en un système temps réel. L’extension Adeos (Adaptative Domain
Environnement for Operating Systems) /DIC est l’une d’elles
(http://home.gna.org/adeos/).
L’approche de l’extension temps réel Adeos /DIC réside dans la
virtualisation des interruptions. Adeos / DIC se décline en deux parties, un
nanokernel Adeos qui s’applique sous forme de patch à Linux et un noyau
temps réel DIC qui s’insère sous forme de module dans Linux. Adeos, qui
s’insère entre le matériel et Linux, gère le flot d’interruptions en provenance du
matériel et permet à plusieurs noyaux de s’exécuter en parallèle. Le noyau DIC
reçoit les interruptions en priorité sur Linux et peut ainsi ordonnancer des
tâches temps réel sans que Linux interfère.
Tout comme pour ARTiS (Asymmetric Real Time Scheduler), les tâches
temps réel sont créées depuis l’espace utilisateur de Linux et l’ajout de
l’extension ne modifie pas l’ABI (Application Binary interface) de Linux. Le fait
de lancer les tâches depuis l’espace utilisateur permet de bénéficier de la
protection mémoire de Linux ce qui est particulièrement important dans le cadre
de systèmes multiprocesseurs.

Figure 3.5 : Configuration Adeos/DIC - LINUX

3.3.2. Modes de Performance


L’inconvénient rencontré dans la plupart des extensions temps réel à Linux
utilisant le principe de virtualisation des interruptions (RTLinux, RTAI) est de ne
pas pouvoir faire appel aux fonctionnalités du noyau Linux. Comme décrit dans

154 Rapport INRETS n°275


Le démonstrateur

la section précédente, une tâche qui s’exécute dans le noyau Linux est sujette à
la granularité du noyau, à la priorité de l’ordonnanceur et surtout à la gestion
des interruptions qui s’effectue de manière asynchrone. Tous les appels
systèmes et pilotes développés sous Linux ne peuvent pas être utilisés par les
tâches temps réel.
La spécificité d’Adeos/DIC est de permettre aux tâches temps réel de faire
appel à des fonctionnalités du noyau Linux tout en restant dans une optique
temps réel et donc sans dépendre du problème d’inversion de priorités de
Linux. Les tâches temps réel sous Adeos/DIC ont accès à deux modes de
fonctionnement entre lesquels elles basculent automatiquement en fonction de
leurs besoins.
Dans le mode PRIMAIRE, les tâches temps réel ont la garantie d’un temps
de latence très court et ne sont perturbées par aucune des opérations de Linux.
Cependant elles n’ont accès qu’aux appels systèmes de DIC.
Dans le mode SECONDAIRE, les tâches temps réel ont accès aux services
de Linux. Grâce à un bouclier d’interruption qui sera décrit par la suite, elles
bénéficient d’une priorité absolue sur toutes les tâches de Linux et
particulièrement sur les tâches de gestion des interruptions ce qui permet de
garder le déterminisme. Cependant leur temps de latence est supérieur à celui
du mode PRIMAIRE car il dépend de la granularité du noyau Linux. Dans le pire
cas où une tâche temps réel veut avoir accès à une ressource déjà utilisée par
une tâche Linux, elle va devoir attendre que la tâche Linux atteigne le prochain
point de préemption pour pouvoir prendre la main.
3.4.3. Le Nanokernel Adeos
La plupart des systèmes d’exploitation comme Linux ont été conçu pour
utiliser les ressources matérielles sans restriction. Pour pouvoir insérer un
ordonnanceur temps réel indépendant de Linux, il est pourtant nécessaire que
le matériel soit partagé entre les noyaux Linux et DIC. Adeos (Adaptive Domain
Environment for Operating Systems) fournit un environnement flexible dans
lequel plusieurs systèmes d’exploitation appelés domaines peuvent partager le
même matériel.
3.4.4. Insertion d’Adeos
Les systèmes d’exploitation se situent par rapport au matériel à différents
niveaux de privilèges (Privilege Levels). Par exemple sur x86 (architecture des
processeurs Intel du 80386 jusqu’au Pentium), le noyau Linux opère au niveau
0 et ses applications au niveau 3. A chaque niveau de privilège correspond des
capacités précises. Au niveau 0, des instructions assembleur telles que « cli
/sti » (disable interrupt/enable interrupt) sont permises alors qu’elles ne le sont
pas aux autres niveaux. Ce système permet aux applications de ne pas
perturber le fonctionnement du système d’exploitation.
Pour qu’Adeos puisse permettre à plusieurs noyaux de coexister, il doit
opérer au niveau de privilège 0 et intercepter les interruptions. Le noyau Linux
doit donc être poussé vers un niveau inférieur. De fait il ne pourra plus exécuter

Rapport INRETS n°275 155


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

certaines instructions assembleur. ADEOS doit donc récupérer ces instructions


et les exécuter en place de Linux. Ainsi ADEOS est inséré à l’insu de Linux
sans en perturber son fonctionnement.
3.4.5. Contrôle des interruptions
Une fois inséré au niveau de privilège zéro, ADEOS est l’unique noyau à
avoir accès aux interruptions matérielles. Les autres noyaux, qui s’enregistrent
sous forme de domaines avec une priorité propre, forment un pipeline dans
lesquelles les interruptions vont se propager du domaine de plus haute priorité
vers le plus faible. Lorsqu’un domaine a fini de traiter les interruptions, elles
sont transmises au domaine suivant.
Lorsque l’on charge le module DIC, il s’enregistre dynamiquement au niveau
d’ADEOS avec une priorité plus forte que Linux. Il reçoit donc les interruptions
matérielles avant Linux ce qui permet aux tâches temps réel ordonnancées par
DIC d’être prioritaires sur toutes les opérations de Linux dans le mode
PRIMAIRE.

Figure 3.6 : Adeos pipeline

3.4.6. Bouclier d’interruption


Le bouclier d’interruption est une spécificité d’Adeos / DIC. C’est un domaine
d’ADEOS qui est inséré entre DIC et Linux. Lorsqu’il est dynamiquement activé,
il retient les interruptions matérielles destinées à Linux qui sont stockées et ne
seront acheminées qu’une fois le bouclier désactivé. C’est grâce à ce bouclier
que le mode SECONDAIRE de DIC peut garder une approche temps réel
déterministe. Comme aucune interruption matérielle ne parvient à Linux
lorsqu’une tâche temps réel s’exécute dans le mode SECONDAIRE, le système
de gestion d’interruptions ne vient pas perturber la tâche.
3.4.7 DIC
Le noyau DIC (Deterministic Interrupt Computing) se trouve sous la forme
d’un module du noyau Linux. Une fois lancé, il s’enregistre sous Adeos dans un
domaine indépendant de Linux avec une priorité supérieure. Le DIC est le cœur
de l’extension temps réel, il est constitué d’un ensemble de fonctions
permettant l’ordonnancement en temps réel de tâches issues de l’espace
utilisateur de Linux. Pour être considérées comme temps réel et être migrées

156 Rapport INRETS n°275


Le démonstrateur

dans l’ordonnanceur du DIC, les tâches doivent être déclarées avec une
politique d’ordonnancement SCHED_FIFO puis faire appel à la fonction
pthread_init_rt(char * nom, 0 ,0). Les tâches basculent ensuite
automatiquement entre les modes PRIMAIRE et SECONDAIRE en fonction de
leurs appels système.
Pour opérer les tâches temps réel depuis l’espace utilisateur, le DIC définit
un thread d’abstraction appelé « real-time shadow » qui est mappé au contexte
des tâches Linux. Les shadows, qui forment les éléments de bases de
l’ordonnanceur temps réel, partagent la pile et les registres de la tâche qui sont
crées par Linux. Les priorités des tâches temps réel sont héritées de celles des
tâches originelles de Linux (comprises entre 0 et 99).
Pour permettre aux tâches temps réel de s’exécuter le plus possible en
mode PRIMAIRE, le DIC implémente un certain nombre de fonctionnalités dont
notamment une horloge haute résolution et des sémaphores temps réel. Le DIC
substitue également certains appels système à Linux pour une meilleure
précision et un meilleur déterminisme. Par exemple, les appels à la fonction
nanosleep() sont pris en charge par le DIC même s’ils sont exécutés depuis
Linux.
Lorsqu’une tâche entre dans le mode SECONDAIRE, le DIC active le
bouclier d’interruption afin d’empêcher le service de gestion des interruptions de
perturber le fonctionnement temps réel.

4. Résultats des expérimentations


4.1. Modem OFDM SISO
Nous présentons ici les résultats de la tâche d’affichage du modem. Comme
il nous restait une marge de temps suffisante disponible sur le processeur 2
(environ 150 sur 1,35 ms), il a été possible d’inclure cette tâche d’affichage,
avec cependant une priorité plus faible que les autres pour ne pas les perturber
(rafraîchissement des fenêtres toutes les 125 ms). On y voit les démodulations
des voies d’émission (dans notre cas, des constellations constituées des 200
symboles), les réponses impulsionnelles des différents canaux, un des canaux
fréquentiels (émetteur 1 vers récepteur 1), ainsi que l’évolution du SNR associé
à chaque émission. Le programme effectue ses calculs avec ces valeurs et le
critère de synchronisation courte simplifié. Chacune des réponses
impulsionnelles a une longueur de 64 échantillons. On peut remarquer que le
pic principal n’est pas placé au tout début du canal, mais au milieu (ceci grâce
au décalage constant appliqué à l’instant de synchronisation évoqué dans la
partie Traitement du Signal et Algorithmes, dans notre cas on a choisi 32
échantillons).
Dans un premier temps, on a validé le fonctionnement du modem en SISO
(et transmission par câble à 64 MHz (d’où un très bon SNR sur la figure 3.26)
dans le cas d’un canal sélectif en fréquence, en introduisant un second trajet
(effectué à l’aide d’un câble d’une centaine de mètre). On peut observer sur la

Rapport INRETS n°275 157


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

figure 3.26 les résultats fournis par le modem, notamment l’effet du second
trajet sur la réponse impulsionnelle (le second pic) et sur la réponse
fréquentielle (le canal n’est plus plat comme il doit l’être dans le cas d’un mono-
trajet).

Figure 3.26 : Fenêtre d’affichage du modem en fonctionnement (SISO)

4.2. Modem OFDM MIMO 2x2


Sur la figure 3.27, on peut observer les résultats fournis par le modem
OFDM en fonctionnement 2 x 2 (MMSE, 2 voies d’émission pour 2 voies de
réception), par voie hertzienne. Les deux antennes d’émission sont écartées
d’environ 40 cm, de même que les antennes de réception, tandis que l’émission
et la réception sont distantes de quelques mètres. Sur la figure, on peut voir
que les canaux associés au deuxième émetteur sont plus forts que ceux
associés au 1er (ce que l’on peut confirmer en observant les constellations).
Les deux constellations obtenues sont de qualité équivalente à celle obtenues
en SISO pour le même SNR.

158 Rapport INRETS n°275


Le démonstrateur

Figure 3.27: Fenêtre d’affichage du modem en fonctionnement (MIMO)

Démodulation voie 1 Démodulation voie 2

Réponses impulsionnelles des 4 canaux :

(tx=1,rx=1) et (tx=2,rx=1) (tx=1,rx=2) et (tx=2,rx=2)

SNR (dB) des 2 voies

canal fréquentiel

4.3. Sondeur de canal MIMO


Sur les deux figures suivantes sont représentées sous Matlab dans le
domaine fréquentiel les différentes estimations de canaux effectuées en temps
réel par le modem MIMO 2x2 (4 canaux).

Rapport INRETS n°275 159


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

Figure 3.28 : Estimation des canaux par le modem (non stationnaire, en


laboratoire)

F T(ms) F T(ms)

T(ms) T(ms)
F F

Sur la figure 3.28, on observe des canaux peu sélectifs en fréquence, et non
stationnaires dans le temps à cause du déplacement des antennes durant
l’acquisition (durée de l’observation : environ 500 ms).

Figure 3.29 : Estimations des canaux par le modem, avec un des canaux
sélectif en fréquence (en laboratoire)

T(ms)
F F T(ms)

F T(ms) F T(ms)

160 Rapport INRETS n°275


Le démonstrateur

Sur la figure 3.29, on observe qu’un des canaux est sélectif en fréquence
(présence d’un trajet indirect). L’évolution temporelle est stationnaire (durée de
l’observation : environ 5 sec).
En désactivant les fonctions de démodulation du modem (en ne conservant
que la synchronisation et l’estimation de canal), il est possible de faire
fonctionner le programme en tant que sondeur de canal temps réel MIMO 2 x 4.

Figure 3.30 : Estimation des canaux en MIMO 2x4 (en laboratoire)

Sur les figures 3.31 à 3.33, on peut observer les mesures de canal
effectuées par notre sondeur lors d’expérimentations faites à Lille, en mobilité
(voir la description dans la partie essais du modem en conditions réelles). Ces
résultats mettent tout d’abord en évidence l’aspect sélectif en fréquence des
canaux de propagation, qui témoigne de l’importance des phénomènes de
multi-trajets que l’on peut rencontrer en milieu urbain. Ainsi on peut constater
sur la figure 3.31 de fortes chutes de puissance du canal à certaines
fréquences. Par ailleurs (figure 3.32), on voit une évolution temporelle rapide de
nos estimées, due aux conditions de mobilité (environ 40 km/h).

Rapport INRETS n°275 161


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

Figure 3.31 : Canaux estimés à Lille à un instant donné

Largeur de bande de 10 MHZ

Sous porteuses du signal OFDM

Figure 3.32 : Exemple 1 d’évolution des canaux estimés au cours du


temps

162 Rapport INRETS n°275


Le démonstrateur

Figure 3.33 : Exemple 2 d’évolution des canaux au cours du temps

A partir des campagnes de mesures du canal de propagation réalisée à


Lille, nous avons extrait l’information de corrélation du canal à l’émission et à la
réception pour un système MIMO à 2 antennes d’émission et 4 de réception.
Les matrices de corrélation moyenne obtenues sont présentées sur la figure
3.34 :

Figure 3.34 : Corrélation moyenne du canal à l’émission et à la réception


pour des mesures réalisées à partir du beffroi de Lille

Rapport INRETS n°275 163


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

Les résultats obtenus sont cohérents avec le schéma de transmission. En


effet la partie émission se trouve le plus souvent dans des canyons urbains et
donc dans un milieu riche en diffuseur. La corrélation spatiale est donc réduite.
A l’inverse, le récepteur et placé sur un point haut, l’environnement de
propagation est alors pauvre en diffuseur local ce qui induit une forte corréaltion
spatiale.

4.4. Taux d’erreurs binaires (TEB)


Sur les figures 3.35 et 3.36, on peut comparer les performances du modem
SISO à celles du SIMO avec 3 antennes de réception.
Sur la figure 3.35, le TEB y est représenté en fonction du SNR calculé par le
modem SISO sur le signal reçu, et également en fonction du SNR calculé sur la
constellation (erreur quadratique moyenne par rapport aux quatre états de la
QPSK). Ces résultats ont été obtenus avec la version modifiée du modem
n’utilisant que le codeur convolutif (ce qui nous permet d’alléger les traitements
et de respecter les contraintes de temps réel dans le cas du modem SIMO).
Sur la figure 3.36, on observe que le passage de la configuration SISO à la
configuration SIMO à 3 antennes de réception nous apporte en pratique un gain
de plus de 3 dB pour un taux d’erreurs binaires de 10-6. Ces mesures ont été
effectuées dans des canaux non sélectifs en fréquence (câbles).

Figure 3.35 : Performances du modem SISO

164 Rapport INRETS n°275


Le démonstrateur

Figure 3.36 : Performances du modem avec codage CC seul, en SISO et


SIMO ( rx = 3 )

4.5. Tests en conditions réelles

Des essais ont pu être réalisés à Colombes et à Lille en camion laboratoire,


ainsi qu’une démonstration publique dans un bus Transpole. Pour cela, nous
avons cherché à nous positionner d’une manière réaliste par rapport à
l’application envisagée. La chaîne est destinée à une communication sans fil
entre un bus et un centre de contrôle déporté. La station de réception devait
donc être située en altitude afin d’offrir la plus grande surface de couverture. Le
récepteur a ainsi été placé au sommet du beffroi de Lille (86 m) dans un local
radio amateur auquel nous avions accès. A l’émission, le véhicule a été équipé
avec notre modem (PC, générateurs, amplificateurs de puissance) et avec le
matériel nécessaire à la détection d’événements (PC+micro) et à la capture
video (webcam) (ce dernier fournissant au modem les images à émettre, via un
câble ethernet et un flux UDP). Dans le contexte du projet EVAS, les images à
transmettre concernent d’éventuels incidents se produisant dans l’enceinte du
bus. A cet effet, il a été développé à l’INRETS (cf chapitre 1) une architecture

Rapport INRETS n°275 165


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

de détection de tels incidents (en l’occurrence, pour notre démonstration,


détection du son de bombes aérosols pour lutter contre les ‘tag’).
Les expérimentations ont été réalisées le long d’une ligne de bus de la
compagnie Transpole de Lille, en conditions réelles de circulation urbaine (entre
0 et 50 km/h), dans un rayon de 2 km autour du beffroi. Trois versions du
modem ont été testées : SISO, SIMO (3 antennes de réception), et MIMO
Alamouti (2 antennes d’émission et 2 antennes de réception). Ces essais nous
ont permis d’observer l’apport du MIMO dans la robustesse de la liaison mais
des pertes de synchronisation intempestives demandent un travail
d’optimisation supplémentaire des algorithmes. Notamment, les problèmes
apparaissent principalement en mobilité, ce qui semble être lié à la non-
stationnarité des canaux à l’échelle des trames OFDM dans ces conditions. Ces
pertes de synchronisation se caractérisent aux niveaux de la chaîne par une
mauvaise estimation des paramètres et une chute brutale du rapport signal sur
bruit comme illustré sur la figure 3.37.
Néanmoins, la chaîne développée dans le projet EVAS a permis d’exhiber
lors de la démonstration finale des résultats suffisamment convaincants,
notamment en ligne de vue et à l’arrêt, à travers la capture temps réel des
images prises à l’intérieur du bus Transpole et à leur restitution en haut du
Beffroi. Le photogramme 3.38 illustre les essais et la démonstration réalisée.

Figure 3.37 : Chute du SNR suite à une perte de synchronisation

166 Rapport INRETS n°275


Le démonstrateur

Figure 3.38 : Les essais et la démonstration

Antennes de réception et A86 Affichage de la vidéo de test


(Colombes) (Colombes)

le Beffroi (Lille) Antennes de réception (Lille)

Architecture de réception (Lille) Affichage de la video (Lille)

Rapport INRETS n°275 167


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

Le bus Transpole (Lille) Architecture d’émission (Lille)

Webcam + architecture de Démonstration (Lille)


détection d’événement (Lille)

Démonstration (Lille)

4.6 Analyse de la propagation pour un déploiement


Nous présentons ici les travaux réalisés en collaboration avec GIGACOMM
visant à étudier le déploiement possible d’un tel système pour les lignes de
BUS de Transpole.
4.6.1. Outil de simulation

168 Rapport INRETS n°275


Le démonstrateur

L'étude a été réalisée à partir d'un plan 2D de la ville avec reconstruction 3D


réalisée à l'aide de l'IHM d’un logiciel de tracé de rayons développé par P.
Mariage de GIGACOMM, logiciel SimuEM (www.gigacomm.fr). Les hauteurs de
bâtiments ont été déduites des observations réalisées sur les parcours lors de
la campagne de mesure. La figure 3.39 représente sur des vues 2D et 3D le
modèle numérique de la ville de Lille reconstruit.

Figure 3.39 : Visualisation du modèle numérique 2D-3D de terrain, en


mode filaire et en trait plein et d'une vue satellite (google-earth).

Rapport INRETS n°275 169


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

Le logiciel SimuEM 3D prend en compte directement la structure


tridimensionnelle des bâtiments constituant l'environnement de l'autobus à
partir duquel seront transmises les informations audio et vidéo. Ce logiciel
simule la propagation des ondes radioélectriques à très haute fréquence sous
la forme de rayons directs, réfléchis et transmis en fonction de la nature, la
forme et la position des bâtiments. Afin d'être le plus précis possible, une phase
de calibrage a été réalisée.

4.6.2. Exemples de mesures sur quelques trajets spécifiques


Les données collectées au cours de la campagne de mesure de mai 2006
sont consignées dans [Mariage 2006]. Nous donnons dans la figure 3.40
quelques exemples de mesures.

Figure 3.40 : exemples de mesures sur plusieurs trajets

-20
(dBm)
signal (dBm)

-40
dudusignal

-60
Amplitude
Puissance

-80

-100

-120
0 5000 10000 15000 20000 25000 30000
Distance (m)

170 Rapport INRETS n°275


Le démonstrateur

0.0
(dBm) (dBm)

-20.0
signal

-40.0
signal
Amplitude dudu

-60.0
Puissance

-80.0

-100.0

-120.0
0 5000 10000 15000 20000 25000 30000
Distance (m)

Le calibrage a été réalisé à l'aide des données collectées durant le parcours


N°4 réalisé le long de la rue Nationale entre la Grand Place de Lille et le square
du maréchal Leclercq, sur une distance de 1.62 km. L'émetteur était situé à
50m de hauteur sur le beffroi de Lille avec une fréquence porteuse de 2,7 GHz.
Le niveau du signal a été enregistré en CW avec un nombre d'échantillons égal
à 40 000, soit 1 échantillon tous les 4 cm (1/3 de longueur d'onde). L'analyse de
ces données a été réalisée sur les 30 000 premiers échantillons, ce qui
correspond à la capacité maximale de représentation graphique du tableur
Excel.
La figure 3.41 représente l'évolution de la puissance mesurée (courbe rose)
et simulée (courbe bleue) du signal en dBm en fonction de la distance sur 1km
environ. La figure 3.42 représente l'histogramme de l'erreur entre les deux
courbes, la moyenne de l'erreur étant égale à 0.56 et l'écart-type à 11 dB pour
un environnement dense urbain.

Rapport INRETS n°275 171


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

Figure 3.41 :Comparaison Mesures-Simulations (modèle non calibré)

Puissance du signal (dBm)

Figure 3.42 : Histogramme de l'erreur Mesures-Simulations (Ecart-type de


l'erreur pour le modèle non calibré : 11dB)

La procédure de calibrage d'un modèle utilisant la théorie des rayons


s'effectue en modifiant de manière adéquate la nature des matériaux
constituant certains des obstacles (ici des ensembles d'immeubles accolés). Il
est nécessaire d'effectuer au préalable une analyse fine de l'influence des
différents ensembles d'immeubles sur le signal tout au long du parcours de
mesure. En plus des matériaux et compte tenu de l'imprécision de la base de
données géographique 3D utilisée, les hauteurs des immeubles ont également
été modifiées lors de la phase de calibrage. Ces hauteurs évoluent entre 10 m
et 25 m (tour de 7 étages).
Les figures 3.43 et 3.44 représentent le résultat de la comparaison entre le
modèle calibré et les mesures et l'histogramme de l'erreur entre les deux
courbes. Après l'opération de calibrage, la moyenne de l'erreur est égale à -
0,47 dB (modèle légèrement optimiste) et l'écart-type a été réduit à 8,8 dB, ce

172 Rapport INRETS n°275


Le démonstrateur

qui acceptable compte-tenu de l'imprécision du modèle numérique de terrain,


de l'imprécision sur le positionnement de la mesure (arrêts aux carrefours) et de
l'absence de prise en compte de la diffraction par les arêtes des bâtiments. Le
phénomène de diffraction a été approximé par un phénomène de transmission
équivalent.

Figure 3.43 : Comparaison Mesures-Simulations (modèle calibré)


Puissance du signal (dBm)

Figure 3.44 : Histogramme de l'erreur Mesures-Simulations (Ecart-type de


l'erreur pour le modèle non calibré : 8.8dB)

A titre indicatif, un écart-type de 8.8dB associé à un facteur de propagation


en ville de 3.5. Ceci entraîne l'introduction dans le bilan de liaison d'une marge

Rapport INRETS n°275 173


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

log-normale (prise en compte du phénomène de slow fading) de 8dB pour un


taux de probabilité de couverture sur la surface d'une cellule égal à 93%.

4.6.3. Calcul de la couverture radioélectrique du centre ville de Lille


Le calcul de la couverture radioélectrique d'un système numérique nécessite
habituellement l'établissement d'un bilan de liaison afin de déterminer le seuil
d'amplitude que doit atteindre le signal afin de garantir une transmission avec
un taux d'erreur de bit acceptable pour garantir une qualité de service donnée.
Dans le présent projet, ce niveau de seuil ne peut pas être défini précisément
car le système d'émission-réception n'est pas défini par une norme. A titre
indicatif, le niveau de seuil que nous avons retenu dans la suite de ce
paragraphe a été défini sur la base d'éléments fournis par le standard IEEE
802.11e (WIMAX mobile).
Les cartes de couverture fournissent un niveau de signal relatif qu'il
conviendra d'ajuster en fonction de la puissance d'émission et de la sensibilité
de réception au débit envisagé du système lorsque ces paramètres auront été
définitivement arrêtés. Sur les cartes représentées ci-dessous, on estime que le
seuil de bon fonctionnement est atteint dans les zones coloriées en rouge. Ces
cartographies ont été calculée en considérant des antennes de station de base
de type dipôle vertical (omnidirectionnel, Gain= 1.76 dBi). Ces antennes sont
situées à une hauteur de 30 m et la fréquence porteuse est égale à 3.5 GHz,
dans la bande de fréquence attribuée par l'Europe sous la forme de licence
wimax.
Figure 3.45 : Couverture radioélectrique du site N°1

Site 1

174 Rapport INRETS n°275


Le démonstrateur

Figure 3.46 : Couverture radioélectrique du site N°2

Site 2

Figure 3.47 : Couverture radioélectrique du site N°3

Site 3

Rapport INRETS n°275 175


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

Figure 3.48 : Couverture radioélectrique globale des 3 sites réunis.

Dans la suite de cette étude, des couvertures radioélectriques obtenues à


l'aide de sites tri-sectoriels et d'antennes directives pourraient être étudiées.
Les seuils seront définis par un bilan de liaison plus précis basé sur les
résultats des expérimentations système.
Cette première phase des travaux visant à caractériser le canal de
propagation radioélectrique a consisté en une analyse des données disponibles
en matière de modèle numérique de terrain et de résultats expérimentaux. Le
traitement de ces données a permis de calibrer le modèle de prédiction radio
basé sur la théorie des rayons de l'optique géométrique.
Une perspective de cette étude consiste à exploiter ce modèle pour étudier
des scénarios de déploiement en intégrant les données nécessaires à
l'établissement d'un bilan de liaison. Un modèle spécifique de simulation de la
propagation dans une rue encaissée (canyon) prenant en compte les
phénomènes de diffraction pourra être utilisé afin de fournir des informations
plus précises sur la réponse spatio-temporelle et fréquentielle du canal de
propagation MIMO et des modèles tels que ceux présentés dans le deuxième
chapitre pourront être générés.

176 Rapport INRETS n°275


Le démonstrateur

4.7. Conclusion
Le modem OFDM développé offre en termes de débit et de TEB des
résultats compatibles avec ceux que l’on attendait. L’apport du MIMO garantit
une amélioration de la robustesse de la transmission radio, notamment dans le
contexte d’une zone urbaine comme c’est le cas pour le projet EVAS.
Cependant, en conditions réelles d’utilisation en milieu urbain avec mobilité, il
semblerait que les algorithmes de synchronisation utilisés ne soient pas
optimaux (mais ils ont permis de réaliser relativement rapidement la chaîne) et
l’exploration de nouveaux algorithmes semble une voie de recherche
nécessaire. La recherche de structures de préambules facilitant la
synchronisation ou l’estimation de canal peut également être bénéfique. Par
ailleurs, il paraît nécessaire d’approfondir les éventuels problèmes de correction
de phase liés à l’effet Doppler, dont on soupçonne l’influence dans les résultats.
Il est également envisageable d’exploiter la diversité de polarisation afin de
consolider le lien radio ou des techniques de précodage.
Enfin, les dernières perspectives correspondent à une évolution du système
présenté, qui pour l’instant se réduit à une liaison point à point, vers un système
multi-utilisateurs (bus). L’accès de ces utilisateurs pourrait se faire
classiquement par des techniques de multiplexage en temps (TDMA) ou en
fréquence (FDMA). Il faudrait alors compléter la chaîne par une couche MAC
simplifiée. Il serait également intéressant d’étudier de nouvelles méthodes afin
d’augmenter la robustesse du lien. Notamment, l’utilisation de techniques de
relayage formant des réseaux MIMO virtuels semble être une solution
prometteuse.

Rapport INRETS n°275 177


Conclusion Générale

Une des priorités des opérateurs de transports publics concerne


l’amélioration du sentiment de sécurité des passagers et des personnels, et la
maintenance des matériels roulants. Ainsi, la vidéo surveillance s'est imposée
comme un outil incontournable dans les stations et les gares des grands
réseaux. Les exploitants envisagent aujourd’hui l’installation de systèmes de
surveillance embarqués. Pour ces systèmes, l’utilisation de l’audio
conjointement à la vidéo est apparue comme une solution tout à fait pertinente.
Un des points clef de ces systèmes de surveillance embarqués réside donc
dans la nécessité de transmettre périodiquement, à la demande ou en cas
d'alarmes, les informations issues des capteurs audio et vidéo. Pour ce faire il
convient de disposer d’un système de reconnaissance automatique
d’événements et d'un lien de transmission sans fil capable de supporter des
débits importants et d'offrir une qualité de service ne dégradant pas
l'information transmise. Le projet EVAS a donc étudié la manière de répondre à
ces deux problématiques et propose aujourd’hui deux solutions préliminaires.
Nous avons donc contribué à répondre à la demande des exploitants pour des
systèmes embarqués en étudiant un système d’aide à la vidéo et à l’audio
surveillance sans fils dit «intelligent» à embarquer dans les autobus de
TRANSPOLE de l’Agglomération Lilloise.

Les travaux réalisés sur la partie « audio » sont décrits dans le premier
chapitre. Ils se sont focalisés sur la détection automatique des événements de
type « cris » (acte d’agression, acte de dérangement) et de type « aérosol de
peinture» (graffiti) qui rejoignent les priorités annoncées par les exploitants. Le
système proposé est fondé sur des techniques de classification supervisée très
bien décrites dans la littérature et éprouvées dans de nombreux domaines
d’application tels que l’analyse de la parole et l’indexation. Deux stratégies de
modélisation ont été testées. La première, dite génératrice, est fondée sur une
modélisation par mélange de lois normales. La seconde, dite discriminante, est
une technique à noyau de type «Support Vector Machine». Nous avons ensuite
comparé les performances obtenues avec l’une et l’autre des méthodes. Nous
avons proposé et comparé ces deux méthodes de classification dans le but de
détecter des cris dans un véhicule de transport public. Nous avons montré que
la méthode SVM est celle qui génère le moins de fausses alarmes tandis que la
méthode MMG permet d'obtenir un meilleur taux d'identification. Dans le cadre
d'une application à la surveillance, le point le plus important est de ne pas
générer trop de fausses alarmes. Le fait de ne pas détecter quelques cris n'est
pas très important si nous arrivons à en détecter un nombre suffisant de
manière à déclencher l'alarme au bon moment. Ainsi, un compromis doit être
fait afin de choisir la méthode de classification. Les paramètres PLP associés à

Rapport INRETS n°275 179


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

la classification par SVM est le meilleur choix technique pour l’application


envisagée dans EVAS.

Le deuxième chapitre de ce rapport, présente de façon détaillée l’ensemble


des travaux réalisés pour la mise en œuvre d’un lien sans fil haut débit robuste
entre un autobus et le poste de contrôle.
Dans une première partie nous avons décrit les principaux projets connus
qui s'intéressent à la transmission d'informations audio et vidéo depuis des
autobus ou des trains. Nous avons ensuite rappelé les caractéristiques des
systèmes MIMO exploitant plusieurs antennes à l'émission et à la réception et
un état des recherches sur ce sujet permet de situer nos travaux. Les grandes
lignes des couches physiques des standards IEEE 802.20 et de la famille
WIMAX sont décrites puisqu'ils semblent les plus adaptés à la problématique
du projet. Leurs avantages et inconvénients dans le contexte traité sont
soulignés. Le souci d'implémenter une solution aussi proche que possible d'un
standard tout en préservant un bon compromis complexité/efficacité a guidé
notre choix vers le standard WIMAX 802.16d et plus particulièrement sa couche
physique OFDM sur laquelle s'appuient les chaînes de transmissions
proposées tout en regardant également le standard 802.16e qui tient compte de
la mobilité.
Les caractéristiques principales des canaux de propagation MIMO et les
principales méthodes de modélisation sont ensuite décrites. Nous nous
sommes focalisés sur les modèles analytiques qui exploitent des propriétés
statistiques du canal : la corrélation ou certains paramètres de propagation.
L'influence de la corrélation spatiale dans un canal MIMO nous a conduits à
considérer les modèles de Kronecker et de Weichselberger. Une campagne de
mesures de canaux de propagation spécifiques a été réalisée. Trois canaux ont
été étudiés : un canal suburbain avec peu de réflecteurs, sans trajet direct et
exploitant la diversité spatiale (canal SU-S), un canal de type couloir en ligne de
vue et avec diversité spatiale (canal C-S), le troisième correspondant au même
environnement que le second mais exploitant la diversité de polarisation en plus
de la diversité spatiale (canal C-S+P). Les canaux sont modélisés à l’aide des
modèles de Kronecker et de Weichselberger et sont comparés en analysant la
capacité des modèles obtenus et la distribution de l'enveloppe des coefficients
du canal. Les résultats des deux modèles sont très proches. Cependant nous
avons retenu le modèle de Weichselberger car il permet de traduire les
interactions entre l'émission et la réception. En l'absence de modèle approprié
pour traduire la polarisation, nous utiliserons directement le canal mesuré C-
S+P dans les simulations.
La dernière partie du deuxième chapitre est consacrée à la description des
chaînes de transmission et à leur évaluation par des simulations. Deux chaînes
MIMO à deux antennes d'émission et quatre antennes de réception sont
considérées. Les modules d'émission sont semblables et s'appuient sur la
couche physique OFDM du WiMAX. Deux stratégies différentes sont testées en
réception sans modification de la partie émission : un récepteur classique et un

180 Rapport INRETS n°275


Conclusion Générale

récepteur itératif. Les principaux algorithmes utilisés sont décrits. Les deux
récepteurs sont évalués en simulations lorsque le canal est connu à la
réception. Le turbo récepteur présente toujours de meilleures performances.
Après une étude préalable des estimateurs de canaux de type maximum de
vraisemblance (ML), maximum a posteriori (MAP), moindres carrés (LS) et
minimisation linéaire de l'erreur quadratique moyenne (LMMSE) dans un canal
de Rayleigh et sans information a priori sur le canal en réception, nous retenons
deux estimateurs possible: le LMMSE et le ML. L'impact de l'introduction de
l'étage d'estimation du canal dans les différentes chaînes a été analysé. Les
résultats montrent que l'estimateur ML est plus performant et est moins sensible
à la présence de corrélation dans le canal de transmission. Cet estimateur est
donc retenu pour la chaîne finale. La chaîne de transmission a ensuite été
évaluée dans les différents canaux de transmission disponibles. Une
dégradation des performances avec l'augmentation de la corrélation est
observée. Le turbo récepteur est moins sensible à la présence d'un trajet direct
qu'à la corrélation. Enfin, l'utilisation de la diversité de polarisation permet
d'améliorer sensiblement les performances du système.

Le dernier chapitre de ce rapport présente le démonstrateur réalisé à Lille


avec un autobus Transpole. Le détail de l’architecture du système mis en
œuvre ainsi qu’une description des composants utilisés sont donnés. Pour le
démonstrateur du projet, nous avons développé une chaîne à 2 antennes
d'émission - 4 antennes de réception qui comporte uniquement les parties RF
du système de transmission. La génération des signaux et le traitement en
réception sont effectués de façon logicielle sur des PC dédiés. Les logiciels de
traitement ont été développés en langage C sous Linux à partir de ceux
implémentés en simulation. Le modem OFDM développé offre en termes de
débit et de TEB des résultats compatibles avec ceux que l’on attendait. L’apport
du MIMO garantit une amélioration de la robustesse de la transmission radio,
notamment dans le contexte d’une zone urbaine comme c’est le cas pour le
projet EVAS. Cependant, en conditions réelles d’utilisation en milieu urbain
avec mobilité, il semblerait que les algorithmes de synchronisation utilisés ne
soient pas optimaux (mais ils ont permis de réaliser relativement rapidement la
chaîne) et l’exploration de nouveaux algorithmes semble une voie de recherche
nécessaire. La recherche de structures de préambules facilitant la
synchronisation ou l’estimation de canal peut également être bénéfique. Par
ailleurs, il paraît nécessaire d’approfondir les éventuels problèmes de correction
de phase liés à l’effet Doppler, dont on soupçonne l’influence dans les résultats.
Il est également envisageable d’exploiter la diversité de polarisation afin de
consolider le lien radio ou des techniques de précodage.
Enfin, les dernières perspectives correspondent à une évolution du système
présenté, qui pour l’instant se réduit à une liaison point à point, vers un système
multi-utilisateurs (bus). L’accès de ces utilisateurs pourrait se faire
classiquement par des techniques de multiplexage en temps (TDMA) ou en
fréquence (FDMA). Il faudrait alors compléter la chaîne par une couche MAC
simplifiée. Il serait également intéressant d’étudier de nouvelles méthodes afin

Rapport INRETS n°275 181


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

d’augmenter la robustesse du lien. Notamment, l’utilisation de techniques de


relayage formant des réseaux MIMO virtuels semble être une solution
prometteuse.
Une partie de ces recherches se poursuit aujourd’hui dans le cadre d’un
projet de plus grande ampleur, le projet BOSS du cluster CELTIC du
programme EU EUREKA.

182 Rapport INRETS n°275


ANNEXES

Les algorithmes VQ
La quantification vectorielle consiste à extraire un « dictionnaire » de
« prototypes » (ensemble des centroïdes) d'un grand ensemble représentatif de
données. Le dictionnaire doit respecter le mieux possible leur répartition dans
l'espace. La première version de l'algorithme de construction du dictionnaire
pour la quantification est connue sous le nom de Lloyd [9] et fut utilisée pour la
quantification scalaire. Cet algorithme a ensuite été généralisé pour la
classification automatique et la reconnaissance des formes sous le nom
d'algorithme des « K-means » ou méthode des « nuées dynamiques »[4].

Les k-mans

Soit ( y n ) , 0 ≤ n ≤ N , un nuage de points (observations) de ℜ m . Soient


d la distance euclidienne de l’espace et K la taille du dictionnaire supposée
fixée. La méthode procède de la manière suivante :

1. Initialisation
Soit un dictionnaire D0 de taille K.

2. Construction de la partition
A la tième itération, le dictionnaire est noté :
Dt = {Di ,t }i =1,.., K

La partition qui minimise l'erreur de quantification associée à Dt est


composée des classes :
C i ,t = {y n / d ( y n , D j ,t ), j ≠ i}
L'erreur de quantification vaut :
1 N
⎡ K ⎤
Dist =
N
∑ ⎢min d ( y n , μ i ,t )⎥
n =1 ⎣ i =1 ⎦
où μ i ,t est le centroïde de C i ,t .

3. Test d'arrêt

Rapport INRETS n°275 183


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

Dis t −1 − Dist
Si < ε alors l'algorithme est terminé.
Dis t
Le dictionnaire recherché est alors Dt +1 composé des nouveaux centroïdes,
soit Di ,t +1 = μ i ,t
Sinon t = t + 1 et l'algorithme est repris à l'étape 2.

Puisque cet algorithme n'est que localement optimal, le choix du dictionnaire


de départ est important. Une variante très utilisée de l'algorithme de Lloyd est
l'algorithme LBG [8] : il procède hiérarchiquement et réalise une sorte
d'initialisation itérative au cours de la construction.

Algorithme LBG (Linde, Buzo, Gray)


Le but est de construire un dictionnaire de taille K , où K = 2 .
p

1. Initialisation
Le centre de gravité de l'ensemble d'apprentissage est calculé.
Soit d 0 ce vecteur. Le dictionnaire est constitué de d 0 , p = 0 .
D0 = {d 0 }, D0 = 2 p

2. Eclatement “Splitting”
k
Tous les éléments d en nombre 2 du dictionnaire sont « éclatés » en deux
vecteurs. Ceci se fait par exemple en transformant chaque d en d + ε et
d − ε , où ε est un vecteur aléatoire de variance adaptée aux points du nuage
associés à d .

3. Convergence
L'algorithme de Lloyd (cf. section précédente) est appliqué sur le dictionnaire
k +1
des 2 éléments ainsi constitué.
k +1
Après convergence un dictionnaire optimal de 2 éléments est obtenu.

4. Arrêt
k = k +1
Si k > k 0 fixé à l'avance, alors l'algorithme prend fin, sinon le processus est
itéré (étape 2).

Le test d'arrêt peut se faire aussi par rapport à un seuil minimal sur la distorsion
des données d'apprentissage par rapport au dictionnaire, comme dans le cas
de l'algorithme de Lloyd.

184 Rapport INRETS n°275


Annexe

L algorithme EM
Petit Rappel
L’expression de la vraisemblance d’une observation y de l’ensemble
d’apprentissage, supposée la réalisation d’un modèle de mélanges de lois
gaussiennes, est donnée par :
N

∑ν N ( y, μ
k =1
k k ,Σk )

avec :
⎡ 1 ⎤
⎢ − 2 ( y − μ k ) Σ k ( y − μ k )⎥
t −1

N ( y, μ k , Σ k ) =
1 ⎣ ⎦
exp
(2π )d / 2 Σ k 1 / 2
et
N le nombre de composantes du mélange,
ν k le poids de chaque composante,
μ k la moyenne de chaque composante,
Σ k la matrice de covariance associée.
L’algorithme EM est basé sur la vraisemblance de chaque vecteur observé par
rapport à chaque composante gaussienne du modèle.

Algorithme de base

1. Initialisation (t=0)

- Initialisation des moyennes μk par N points extraits aléatoirement de


l'ensemble des observations Y , Y = {y1 ,..., y N }
- Initialisation de toutes les matrices de covariance Σ k à la matrice unité I p .
- Initialisation équiprobable des poids des composantes : ν k = 1 / N .

OU

- Utilisation de l'algorithme VQ (Quantification Vectorielle) présenté


précédemment pour l'initialisation.

2. Itération (t)

Pour tout k = 1,..., N


- Phase d’estimation

Rapport INRETS n°275 185


Étude d’un système de Vidéo et d’Audio Surveillance sans fil

Calcul de la probabilité Pnk que le vecteur y n soit généré par la loi gaussienne
k :
ν k N ( yn , μ k , Σ k )
Pnk =
∑ N (y , μk' , Σk' )
K

k'
k ' =1
- Phase de maximisation

Réestimation des paramètres à partir des probabilités Pnk :


N
1
νk =
N
∑P
n =1
nk

∑P nk yn
μk = n =1
N

∑P
n =1
nk

∑ P (y )( )
N
t
nk n − μ k yn − μ k
Σk = n =1
N

∑P
n =1
nk

- Incrémentation de t à t+1 et retour à la phase d’estimation.

3. Arrêt de l’algorithme

Calcul de la vraisemblance des observations ( y n ) .


Si la variation de la vraissemblance est inférieure à seuil alors l’estimation est
terminée. Sinon l’estimation est reprise à l’étape 2.

186 Rapport INRETS n°275


Annexe

Dépôt légal le

Rapport INRETS n°275 187

Vous aimerez peut-être aussi