Vous êtes sur la page 1sur 54

SlideShare utilise les cookies pour améliorer les fonctionnalités et

les performances, et également pour vous montrer des publicités


pertinentes. Si vous continuez à naviguer sur ce site, vous acceptez
l’utilisation de cookies. Consultez notre Politique de
confidentialité et nos Conditions d’utilisation pour en savoir plus.


 Mettre en ligne
 S’identifier
 S’inscrire


 Accueil

 Technologie

 Formation

 Autres thèmes

 Mettre en ligne
3 sur 65

Serveur Vocal Interactif plus d'autres technologies

3 958 vues

 Partager

 J’aime

 Télécharger

josepkap

Suivre

Publié le 6 mai 2014

Publié dans : Technologie


0 commentaire
3 j’aime
Statistiques
Remarques

Publier

 Soyez le premier à commenter


Serveur Vocal Interactif plus d'autres technologies

1. 1. Etude et Conception d’un Serveur Vocal Interactif 2012


Mémoire présenté et soutenu par Joseph KAPOU 1
REPUBLIQUE DU SENEGAL UN PEUPLE-UN BUT-UNE FOI ----------
----------- Ministère de l’Enseignement Supérieur et de la
Recherche Direction de l’Enseignement Supérieur ------------------
------------ Av. Bourguiba prolongée × Front de terre BP : 5549
Dakar-Fann Tel : 33 827 28 89.Fax : 33 867 11 17 Email :
estm@orange.sn/www.estm.sn MEMOIRE DE FIN DE CYCLE
Pour l’obtention de : DIPLOME DE LICENCE PROFESSIONNELLE
EN TELEINFORMATIQUE Option : TELECOMMUNICATIONS ET
RESEAUX Soutenu et présenté par : Joseph KAPOU Email :
josepkap@hotmail.fr Encadré par : M. Christian OUDANG Email
: christianoud@gmail.com Année universitaire 2011-2012
2. 2. Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 2 Dédicace JE
DEDIE LE FRUIT DE CE TRAVAIL A MES PARENTS A qui Je Dois, Ce
Que, Je Suis Aujourd’hui Que La Paix De Dieu Le Tout
Miséricordieux & Sa Miséricorde Les accompagne Que Dieu Les
Protège & Leur Accorde Une Bonne Santé &Une Longue Vie A
MES FRERES & SŒURS Pour Leurs Encouragements Continus
Que Dieu Les Protège & Leur accorde Une Bonne Santé & Une
Longue Vie A LA MESM (Mission d’Evangélisation pour le Salut
du Monde) Que Dieu, Le Tout Puissant Seigneur Continu
D’Œuvrer, Au Travers De Ses Serviteurs Qu’Il y a Etabli, Avec
Puissance Et Amour Dans La Délivrance De Son Peuple Et Pour
Sauver Ceux Qui Sont Perdus
3. 3. Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 3
Remerciements C’est avec un grand plaisir que je réserve ces
lignes en signe de gratitude et de reconnaissance à tous ceux
qui ont contribué de près ou de loin à l’élaboration de ce
travail. Je tiens à remercier vivement, le Tout Puissant Dieu à
travers son fils Jésus, qui m’a accordé la santé, l’intelligence, le
courage, la détermination dans la réalisation de ce projet.
J’exprime ma reconnaissance à mon encadreur Mr. Christian
OUDANG à qui sa grande culture scientifique, sa disponibilité et
sa simplicité sont autant d’éléments qui ont favorisé la
réalisation de ce travail. La qualité de ce projet fut enrichie par
l’apport de l’imminent Dr. Samuel OUYA. Qu’il reçoive
également toute ma gratitude pour les suggestions et conseils
qu’il a pu me prodiguer. Mes remerciements vont également à
l’administration de l’ESTM et au corps professoral qui grâce à la
qualité de la formation qu’ils m’ont donnée m’a conduit à
réaliser ce projet. Mes plus tendres pensées iront vers ma
famille (Othniel, Evodie, Nathan, Eliel, Merveille de Dieu,
Emmanuel, Abraham), et surtout mes parents (Théodore et
Anicette KAPOU), qui m’auront permis de poursuivre mes
études jusqu’à aujourd’hui et m’auront également aidé dans les
périodes de doute. Ces remerciements ne seraient pas complets
sans une pensée pour mes amis de longue date, Mérimée
GUEZEWANE, Bellarmin MIANSI, Leonel FEINDIRONGAI, Nathan
Vladimir FEIKERAM. Merci de m’avoir aidé et encouragé, et
pour m’avoir changé les idées quand j’en avais besoin. Enfin
pour paraphraser une expression de reconnaissance de chez
moi, à vous que j’ai nommé et à vous tous qui avez participé
dans l’anonymat à ma formation, notez ceci « lorsque le soleil
rayonne, sachez que c’est moi qui vous exprime ma gratitude ».
4. 4. Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 4 Avant-
propos L’École Supérieure de Technologie et de Management
(ESTM) est une école privée d’enseignement supérieur
universitaire et professionnel, créée par des universitaires et
des professionnels des secteurs de nouvelles technologies de
l’information et de la gestion. Les cours sont dispensés par des
enseignants qui sont des universitaires et des professionnels
dans les secteurs concernés. La pédagogie de l’Ecole Supérieure
de Technologie et de Management comme celle de toutes les
grandes écoles est de participer en collaboration avec l’étudiant
à la recherche de stage de fin d’études. Le stage en entreprise
est un moment privilégié de mise en pratique des
enseignements reçus. Il permet tout d’abord à l’étudiant de
faire une application réelle des connaissances théoriques.
Ensuite, il emmène l’étudiant à transformer les acquis
pédagogiques en savoir-faire et savoir être, lui permettant de se
positionner dans le milieu professionnel ainsi, de s’impliquer
comme un acteur véritable dans le processus de l’entreprise. En
outre, il doit permettre à l’étudiant de mettre en évidence, son
niveau de maturité, son autonomie et sa capacité à s’évaluer en
dehors du milieu scolaire, dans le strict respect des règles du
monde du travail. A la fin de ce stage, l’étudiant doit produire
un mémoire et le soutenir devant un jury. Ce document décrit
les activités effectuées au sein de la structure d’accueil en
rapport avec un sujet ou projet qui lui a été confié. C’est dans
ce cadre que nous venons à présenter notre document.
5. 5. Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 5 Abstract The
introduction of the voice as additional form of communication
to deploy applications certainly revolutionized the world of
computing as a way to access the information without a
computer. Indeed, has been a liability in recent years, since
people are always connected in network, especially in the rural
world. The use of interactive voice servers (IVR) has significantly
improved the availability of information and voice applications
have continuous access to data remotely with accessible tools
for any category of population (the phone is an example). This
thesis gets in a scientific exploration because this area is recent
and most solutions are owners. Thus, in general we focused
voice servers, and in particular on voice server "Open Sources".
The result enables us to choose Asterisk for the implementation
of a voice application. To validate the proper functioning of our
implementation, we have adapted this work to the consultation
(notes, information about the school) for students remotely by
telephone, and to a permanent contact with the administration.
Another aspect of the work is the improvement of our Asterisk
platform. Indeed, voice applications have added an additional
level of communication between human and artificial systems.
However, the ability to transform text (words) in vocal form is
not as flexible as we could imagine. Thus, this improvement
aims mainly to change the voice synthesis engine that offers
Asterisk by an another synthesizer, capable of reading words,
because the voice synthesis engine before it reads only
numbers, which is a major brake having regard to the general
objectives of the project.
6. 6. Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 6 Table des
matières Dédicace
.......................................................................................................
........................................... 2 Remerciements
.......................................................................................................
................................ 3 Avant-
propos............................................................................................
............................................... 4 Abstract
.......................................................................................................
............................................ 5 Table de
figures............................................................................................
........................................... 9 Table de tableaux
.......................................................................................................
........................... 10
Introduction...................................................................................
........................................................ 11
Problématique...............................................................................
........................................................ 12 1. Mise en
contexte.........................................................................................
.............................. 12 2. Importance de la question
.......................................................................................................
. 12 PREMIERE
PARTIE............................................................................................
...................................... 13 CHAPITRE I. PRESENTATION DE
L’ESTM...........................................................................................
. 14 I.1. Présentation
.......................................................................................................
................... 14 I.2. Présentation des
départements................................................................................
............ 14 I.3. Organigramme de
l’ESTM............................................................................................
.......... 15 I.4. Le réseau de
l’ESTM............................................................................................
................... 15 CHAPITRE II. ETUDE SUR LES SERVEURS VOCAUX
INTERCTIFS....................................................... 16 I. Etat de l’art
des Serveurs Vocaux
Interactifs................................................................................. 16
I.1.
Définition.......................................................................................
........................................ 16 I.2. Rôle d’un
SVI..................................................................................................
........................ 16 I.3. Les domaines d’applications des
SVI..................................................................................... 17 I.4.
Les types de base d’un SVI
....................................................................................................
18 I.4.1. La borne
d’information.................................................................................
................. 18 I.4.2. Le standard téléphonique
............................................................................................. 18
I.4.3. Le Couplage Téléphonie
Informatique.......................................................................... 19
I.4.4. Les fonctionnalités annexes
.......................................................................................... 19 II.
Fonctionnement d’un
SVI..................................................................................................
............ 20 III. Les technologies composantes de
SVI....................................................................................... 21
III.1. L’architecture
matérielle......................................................................................
................. 22 III.2. L’architecture logicielle
.......................................................................................................
.. 22 IV. L’interaction Clients-SVI / SVI-
Clients........................................................................................
23 IV.1. Interaction Clients-
SVI..................................................................................................
......... 23 IV.1.1. Les touches
DTMF.............................................................................................
............ 23
7. 7. Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 7 IV.1.2. La
reconnaissance vocale
............................................................................................. 24
IV.2. Interactions SVI-Clients
.......................................................................................................
.. 25 IV.2.1. Annonce avec un fond
sonore....................................................................................... 25
IV.2.2. Annonces
classiques.......................................................................................
.............. 25 V. La synthèse
vocale.............................................................................................
............................ 26 V.1.
Mbrola...........................................................................................
........................................ 26 V.2.
Lia_Phon........................................................................................
........................................ 27 V.3.
Liambrola.......................................................................................
........................................ 27 CHAPITRE III. ETUDE DES
DIFFERENTES SOLUTIONS DE
SVI............................................................ 28 I. La plateforme
WebSphere
.......................................................................................................
..... 28 I.1.
Architecture...................................................................................
........................................ 28 I.2.
Caractéristiques.............................................................................
........................................ 30 II.3. Avantages et inconvénients
.................................................................................................. 31
II.3.1. Avantages
.......................................................................................................
............... 31 II.3.2. Inconvénients
.......................................................................................................
......... 32 II. La plate-forme
Bayonne.........................................................................................
....................... 32 II.1.
Architecture...................................................................................
........................................ 33 II.2.
Caractéristiques.............................................................................
........................................ 33 II.3. Avantages et inconvénients
.................................................................................................. 34
II.3.1. Avantages
.......................................................................................................
............... 34 II.3.2. Inconvénients
.......................................................................................................
......... 35 III. La plate-forme Asterisk
.......................................................................................................
...... 35 III.1.
Architecture...................................................................................
........................................ 36 III.2.
Caractéristiques.............................................................................
........................................ 37 III.3.
Fonctionnalités..............................................................................
........................................ 38 III.4. Avantages et inconvénients
.................................................................................................. 38
III.4.1. Avantages
.......................................................................................................
............... 38 III.4.2. Inconvénients
.......................................................................................................
......... 38 DEUXIEME PARTIE
.......................................................................................................
.......................... 40
.......................................................................................................
........................................................ 40 CHAPITRE I. CONCEPTION
ET MISE EN OEUVRE D’UN SERVEUR VOCAL
INTERACTIF....................... 41 I. Conception
.......................................................................................................
............................. 41 I.1. L’application
vocale.............................................................................................
.................. 41 I.2. Le noyau
vocal...............................................................................................
........................ 41 I.3. Le traitement des
appels............................................................................................
........... 41
8. 8. Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 8 II. Mise en
œuvre..............................................
................................................................................. 42 II.1.
L’opérateur téléphonique
.....................................................................................................
42 II.2. Le
MIC................................................................................................
.................................... 42 II.3. Le
simulateur......................................................................................
................................... 42 I.4. La carte
vocale.............................................................................................
.......................... 42 CHAPITRE II. REALISATION D’UN SERVEUR
VOCAL INTERACTIF POUR UNE DEMANDE AU SEIN DE
L’ESTM...........................................................................................
........................................................ 43 I. Choix d’une solution et
de
él’environnement..........................................................................
....... 43 II. Implémentation de la
solution..........................................................................................
............ 43 II.1. Mise en place du serveur
Asterisk.........................................................................................
43 I.1.1. Installation de Linux (Ubuntu
12.04)............................................................................. 43 I.1.2.
Installation
d’Asterisk.......................................................................................
............. 43 II.1.3. Configuration du serveur (Asterisk)
.............................................................................. 45 II.2. Mise
en place de la synthèse vocale
..................................................................................... 52 II.2.1.
Application
Mbrola...........................................................................................
............. 52 II.2.2. Application Lia
Phon...............................................................................................
....... 53 II.2.3. Application
Liambrola.......................................................................................
............. 55 III. Test et
Scénario.........................................................................................
....................................... 57
.......................................................................................................
........................................................ 57 Conclusion générale et
perspective
......................................................................................................
60
Bibliographie..................................................................................
........................................................ 61
Webographie.................................................................................
........................................................ 61
Glossaire........................................................................................
........................................................ 62
Annexe...........................................................................................
........................................................ 64
9. 9. Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 9 Table de
figures Figure 1: Organigramme de
l'ESTM............................................................................................
............15 Figure 2 : Architecture du réseau téléphonique de
l’ESTM .............................................................15 Figure 3 :
Couplage Téléphonie
Informatique..................................................................................
...19 Figure 4 : Fonctionnement d’un
SVI..................................................................................................
......21 Figure 5: Tableau récapitulatif des différentes fréquences
du standard DTMF ......................24 Figure 6: Processus de la
reconnaissance
vocale................................................................................24
Figure 7: Processus de la synthèse vocale
.............................................................................................26
Figure 8 : Architecture de
Websphere....................................................................................
................28 Figure 9 : Types de téléphones utilisés avec
Websphere..................................................................29 Figure
10 : Dispositif simulant le réseau de
téléphonie....................................................................29 Figure
11 : Architecture de Bayonne
......................................................................................................
33 Figure 12 : Architecture
d’Asterisk.......................................................................................
...................37 Figure 13 : Carte vocale
Digium............................................................................................
...................37 Figure 14 : Configuration dans
sip.conf..........................................................................................
.......46 Figure 15 : Configuration de plan de numérotation des
clients dans extensions.conf...........47 Figure 16: Arborescence
de
l’application...................................................................................
...........48 Figure 17: Configuration du fichier extensions.conf
pour le serveur vocal ..............................52 Figure 18 : Scénario
de
test.................................................................................................
.......................57 Figure 19 : Configuration du client X-
lite.............................................................................................57
Figure 20 : Aperçu sur la communication entre les utilisateurs et
le serveur vocal...............59 Figure 21 : Script
agi..................................................................................................
..................................65
10. 10. Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 10 Table de
tableaux Tableau 1 : Principaux modules du logiciel
Asterisk…………………………………………………...44 Tableau 2 :
Syntaxe générale pour le fichier
sip.conf…………………………………………………...45 Tableau 3 :
Syntaxe générale pour le fichier
extensions.conf…………………………………….....47
11. 11. Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 11
Introduction Avec l’émergence de la téléphonie IP, le secteur
des services, informatiques et télécoms, à valeur ajoutée
connaît de nos jour un progrès sans précédent. L’avènement du
serveur vocal interactif en est un des plus beaux exemples. Le
SVI (Serveur Vocal Interactif) qui fut l’apanage des grandes
entreprises devient accessible aux plus petites. Il fonctionne
souvent avec des messages préenregistrés qu'il diffuse, mais
peut aussi utiliser un synthétiseur vocal pour générer son
discours. Le SVI constitue une aide appréciée par toutes les
PME qui veulent optimiser la qualité de leurs services clients, en
permettant notamment une accessibilité 24h/24 et une liaison
personnalisée avec les bases de données de l'entreprise. A cet
effet, il convient de se poser la question de savoir : Quelles
méthodologies et technologies mettre en place pour concevoir
et développer des applications permettant à tout un chacun de
bien s’informer à temps et avec un quelconque moyen de
communication ? A ce titre, il s’avère raisonnable de disposer
d'une solution efficace et moins coûteuse. Pour répondre à ce
besoin, il existe des logiciels sur le marché, à l'instar d’Asterisk
qui est un logiciel libre. Asterisk est un IPBX, c'est à dire un
commutateur téléphonique qui fonctionne aussi bien sur le
réseau téléphonique traditionnel que sur les nouveaux réseaux
Internet (IP). Il peut être utilisé sur un système d'exploitation à
base d'Unix (Linux, BSD, Unix) et sous les systèmes
d'exploitation à base de DOS (Windows 2000, Windows 2003).
Aujourd'hui il est important d'interconnecter les différents
PABX ou d’utiliser Asterisk pour effectuer de différentes tâches
sur d'autres ordinateurs. D’où le problème de connexion entre
deux machines UNIX. Ainsi la recherche à mener dans ce projet
doit améliorer la communication entre un système
d’informations et ses utilisateurs au travers de l’analyse et de la
conception de l’interface homme-machine. Ce faisant, la
transformation du texte (mots) sous forme vocale n’est pas une
tâche aisée. C’est ainsi que, l’amélioration que l’on se propose
d’apporter vise surtout à changer le moteur de synthèse vocale
que propose Asterisk par un autre synthétiseur capable de lire
des mots, vu que le moteur de synthèse vocale dont il dispose
ne lit que des nombres, ce qui constitue une entrave majeure
contenu des objectifs généraux du projet. C'est dans cette
optique que le projet d’ «Étude et Conception d’un serveur
vocal interactif au sein de l’ESTM » nous a été confié. De ce qui
précède, il s’agit d’une part de faire une présentation de
l’ESTM, suivie d’une étude sur les serveurs vocaux interactifs, et
d’autre part, de concevoir et réaliser une application vocale
permettant de se renseigner et aussi de programmer un appel
au niveau de l’ESTM, avant de procéder à l’intégration d’un
synthétiseur vocal.
12. 12. Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 12
Problématique
13. 1. Mise en contexte Ce projet a été mis sur pied dans le
souci d’aider les services d’accueil de certaines entreprises à
dialoguer de façon permanente avec leurs clients et, ce, sans
mobiliser assez de ressources. Le projet consiste à mettre en
place des serveurs vocaux capables de dialoguer en langues
internationales et nationales (anglais, français, sangho, etc.)
L’ESTM, en tant qu’une grande école, s’intéresse aussi à
l’automatisation de gestion de la relation clientèle qui est
quelque chose de très important. Donc son objectif est de
proposer un service irréprochable, ainsi que des conseillers
joignables à tout moment. C’est dans cet ordre d’idée que nous
nous proposons de réaliser ce travail aussi passionnant qu’il soit
de mettre en place un serveur vocal interactif au sein de l’ESTM
et de lui attribuer un numéro pour que ceux qui désirent
s’inscrire ou de continuer leur formation, voire même de
chercher des informations sur les différentes filières au niveau
de ladite structure puissent programmer un appel à l’aide d’un
serveur vocal. Grâce à ce dispositif, l’administration pourra
avoir les numéros et entrer en contact si possible avec des
personnes qui ont appelé en dehors des heures normales du
travail. Pour arriver à mettre en place cette application nous
utiliserons le Serveur PABX « Open source » Asterisk. 2.
Importance de la question Le choix d’une application vocale
n’est pas anodin. En effet, le moyen de communication le plus
naturel, plus efficient et plus flexible entre les humains est la
parole. L’interaction vocale est devenue un enjeu technologique
du 21ème siècle, en ce sens où elle permet d’accroître le
naturel de la communication, favorisant l’accès à l’information
pour tous, et particulièrement les personnes défavorisées par
l’usage des dispositifs technologiques. Mais force est de
constater que l’élaboration de tels systèmes d’informations
décuple la compétence des ressources humaines qui y sont
investies, et par-delà la maîtrise technologique dans le
domaine.
14. 13. Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 13 Cette
partie s’attache à : La présentation de l’ESTM ; Faire une étude
les Serveurs Vocaux Interactifs ; La présentation des différentes
plateformes pouvant permettre la mise en œuvre d’un serveur
vocal interactif dont la plate-forme Asterisk. PREMIERE PARTIE
15. 14. Gestion Comptabilité  Marketing  Master 1 et 2
Téléinformatique et Télécommunication Départements des
sciences de la gestion Le département de sciences de la gestion
compte trois formations :  Ingénieur 1 et 2 en réseaux
Téléinformatique  Réseaux télécoms Cours du soir Cycle 2 
Téléinformatique et Réseaux Etude et Conception d’un Serveur
Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph
KAPOU 14 CHAPITRE I. PRESENTATION DE L’ESTM I.1.
Présentation L’ESTM (École Supérieure de Technologie et de
Management) est une école privée d’enseignement supérieur,
universitaire et professionnel. Elle a été créée en 2002 par des
professionnels des secteurs des nouvelles technologies de
l’information, de la communication et de la gestion. Les
enseignements dispensés s’inspirent des normes exigées par le
CAMES (Centre Africain et Malgache pour l’Enseignement
Supérieur) et sont donc superposables à ceux dispensés dans
les meilleurs écoles tant sur le continent africain que sur le
continent européen et américain. Le programme est élaboré en
fonction du monde professionnel, et adapté à l’évolution de la
technologie de manière à donner à l’étudiant des compétences
aussi bien théoriques que pratiques. L’école compte toujours
rester à la pointe de la technologie dans un environnement qui
se veut compétitif. Elle participe en collaboration avec
l’étudiant à la recherche de stage de fin d’études. Le stage
donne lieu à une soutenance devant un jury. L’école forme des
techniciens supérieurs en Informatique de Gestion, en Réseaux
Téléinformatique et Maintenance Informatique dans le premier
cycle de son département des sciences de l’informatique. Au
second du même département elle forme des ingénieurs
spécialisés en Réseaux Téléinformatique, en Génie Logiciel et en
Système de gestion de base de données (SGBD). Dans son
département des sciences de gestion, elle forme des diplômés
de premier et second cycle en marketing, en comptabilité, en
tourisme et en gestion. L’ESTM est sise à l’avenue Bourguiba
prolongée X front de terre derrière la Brioche Dorée.
16. I.2. Présentation des départements Le département des
sciences de l’informatique compte quatre formations en cours
du jour et en cours du soir : Départements des sciences de
l’informatique Cours du jour Cycle 1
17. 15. Téléphonie classique totalement indépendante du
réseau informatique, une sortie T2 et un autocommutateur
local BELLS PABX (non IP) de 8 ports accès inte Firewall,
Routeurs, commutateurs et bornes de Sites  Liens inter sites,
Interconnexion RAP  Des infrastructures de réseaux et
télécoms  Un réseau informatique indépendant du réseau
téléphonique. Figure 2 : Architecture du réseau téléphonique
de l’ESTM  Un réseau téléphonique géré par un PABX
physique BELLS à 8 sorties. Etude et Conception d’un Serveur
Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph
KAPOU 15 I.3. Organigramme de l’ESTM Figure 1:
Organigramme de l'ESTM I.4. Le réseau de l’ESTM Nous avons
deux types de réseaux au niveau de l’ESTM : rnet via un
modem-routeur point d’accès wifi (WAG200G).
18. 16. Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 16
19. CHAPITRE II. ETUDE SUR LES SERVEURS VOCAUX
INTERCTIFS
20. I. Etat de l’art des Serveurs Vocaux Interactifs
21. La numérisation et l’informatique sont de nos jours en
grand essor, ce qui a conduit à une importante évolution au
niveau des réseaux téléphoniques. Nous assistons à une mise
en place d’applications logicielles pour une meilleure gestion du
flux des appels entrants et sortants. Le premier essai
d'application des SVI a été réalisé par IBM en 1972 pour le
compte de la Banque Bred. L'introduction des SVI dans les
entreprises s'est généralisée dans le milieu des années 1980.
Depuis 1991, les serveurs vocaux ne sont plus seulement
présents dans les grandes entreprises, mais aussi dans les
petites et moyennes entreprises qui s’activent dans les
domaines de l’artisanat et des services fournis aux particuliers.
Le SVI a constitué une étape historique de l'évolution des
technologies informatiques et des télécommunications, au sens
où c'était la première fois que l'intégration des technologies
informatiques et vocales, et celle des technologies
téléphoniques au sein d'un unique équipement débouchaient
sur un véritable marché d'équipements de télécommunication.
Le serveur vocal interactif constitue la première étape dans
l'évolution du Couplage Téléphonie-Informatique (CTI).
22. I.1. Définition
23. Un serveur vocal interactif (SVI) est un système
informatique qui prend en charge les appels entrants à l’aide de
messages vocaux enregistrés ou de synthèse vocale. En d’autres
termes, c’est une plateforme, un ensemble logiciel et/ou
matériel, qui sert de répondeur vocal contrôlé par l'ensemble
des touches du téléphone ou des technologies de
reconnaissance vocale, permettant d'échanger de manière
automatique des informations divers (messages, fax, etc.). Le
système est interactif dès lors qu'une réponse à une question
posée par l'appelant entraîne un traitement particulier de la
part du serveur, car, l’appelant est appelé à interagir avec le
serveur par la voix ou par l’utilisation des touches de son
téléphone fixe, mobile ou d’un softphone 24h sur 24 et 7 jours
sur 7 pour certaines applications. Le serveur vocal interactif
peut orienter l’utilisateur vers un opérateur humain ou traiter
entièrement la demande. L’accès à cette application se fait par
un simple numéro de téléphone ou par un numéro spécialisé
dont la demande s'effectue auprès d'un opérateur
téléphonique. Plus précisément, un SVI est chargé de la
délivrance d'informations courtes et simples. Il permet
également d'identifier les appelants, de les aiguiller vers des
services automatiques ou des téléopérateurs compétents. Le
SVI permet aussi d’interroger une base de données dans le
Système d’Information (SI). Les SVI sont adaptés à une large
gamme de services et fonctions. Les applications classiques du
serveur vocal sont les services de transaction (réservation,
télépaiement, etc.) et les services de consultation (horaires,
comptes bancaires, etc.).
24. I.2. Rôle d’un SVI
25. Autre fois, le SVI avait, que, pour rôle la gestion
intelligente du temps d'attente. A présent, nous assistons à une
variation du rôle des serveurs vocaux, grâce notamment à la
synthèse vocale qui a profondément modifié le fonctionnement
de la messagerie et de l'accueil. En même temps, le couplage
téléphonie-informatique a révolutionné les centres d'appels en
donnant un nouveau rôle aux serveurs vocaux interactifs. Les
réseaux téléphoniques acceptant la numérotation en fréquence
vocale, celle qui permet d'envoyer les signaux DTMF (Dual Tone
Multi Frequency) avec les touches du combiné, ont offert la
possibilité de communiquer à distance avec les serveurs
interactifs.
26. 17. Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 17
27. Etant donné qu’aujourd'hui, le téléphone s'affirme
comme le centre névralgique d'une entreprise, qu'elle soit une
TPE, une PME ou une grande compagnie, un simple combiné et
un répondeur classique ne suffisent plus pour répondre au
mieux à des nombreuses demandes des clients. De ce fait, la
téléphonie, à travers les SVI, apparait comme indispensable
pour le développement d’une entreprise. Plus le nombre
d’appels reçus par l’entreprise croît et plus celle-ci doit assurer
un meilleur accueil à ses clients potentiels. Pour ce faire,
l’entreprise doit administrer au mieux les files d’attente. Dans
les années 1990, la prise de conscience que l'image d'une
entreprise dépend de la qualité de son accueil téléphonique va
engendrer une multitude d'investissements. Ainsi, l'acquisition
d'un serveur vocal qui répond immédiatement aux appels et
limite le nombre d'appels non aboutis, vise à améliorer l'image
de l'entreprise dans un premier temps, puis le contact
client/entreprise. Concrètement, la fonction première d'un SVI
consiste à répondre aux appels reçus avec un niveau de qualité
optimale, en s'appuyant sur les atouts intrinsèques de
l'automate. Avec un serveur vocal interactif, fini les longues
attentes dans les périodes d'encombrement du standard, une
voix vous guide et vous permet d'accéder directement au
service correspondant à votre demande. Le SVI permet de
traiter une partie des demandes et de suppléer aux centres
d’appels pendant les heures de fermeture. Le SVI est aussi en
mesure de faire une sélection d'appels en limitant les appels
polluants. En résumé, un SVI offre une solution pour le
traitement des appels entrants qui se résume à la devise : « être
disponible lorsque les clients appellent, traiter au mieux chaque
appel de vos clients et rester efficace, précis quand le téléphone
sonne sans cesse ». Avec le développement de l’Internet et
l’émergence de nouveaux médias notamment les téléphones
mobiles, le SVI connaît un regain d’intérêt et ouvre de nouveaux
champs d’application qui permettent l’accès en base de
données.
28. I.3. Les domaines d’applications des SVI
29. Les domaines d’applications des SVI sont variés, leur
utilisation à bon escient dans le cadre des émissions et
réceptions d’appels est un atout majeur pour certains services
clients par la permanence du service. Les applications vocales
sont mises en œuvre pour la création d'un standard automatisé
au sein d'une entreprise. En effet, le SVI se charge de l'accueil et
de l'orientation du client, déchargeant ainsi le standard
traditionnel. Ce dernier peut toutefois être accessible depuis le
SVI, en fonction des options d'orientations proposées. A défaut
de standard traditionnel, le client peut être orienté vers une
messagerie vocale si sa requête n'est pas prise en compte par
l'arborescence vocale du SVI. Également, il existe d'autres
applications nécessitant un SVI telles les aboutements fax (fax à
la demande), la banque à domicile, le routage d'appels, les
systèmes d'alerte automatisée, le serveur de renseignements
statistiques pour des réponses répétitives, le serveur de
renseignements dynamiques pour des consultations
ponctuelles de situation, le serveur d’information dynamique, le
serveur d’identification et d’authentification, la file d’attente
interactive. Les serveurs vocaux interactifs peuvent être utilisés
dans de nombreux services, tels que la banque, le
rechargement d'un compte de téléphonie mobile,
l´identification d´un appelant, vente par correspondance, accès
aux services clients etc. Les répondeurs classiques ne sont pas
considérés comme serveurs vocaux interactifs tant que la
communication ne va que dans un sens (l´appelant laisse un
message) alors que les systèmes serveurs vocaux interactifs
offrent une interaction (à double sens). Les répondeurs plus
récents sont des serveurs vocaux interactifs, car ils permettent
une plus grande interaction, notamment dans la gestion des
messages (consultation, suppression, archivage, etc.).
30. 18. Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 18
31. Plus généralement les serveurs vocaux interactifs sont
utilisés comme porte d´entrée d´un centre d'appel pour
identifier le service demandé par l´appelant ou traiter des
demandes simples. Les serveurs vocaux interactifs sont souvent
critiqués comme étant peu utiles et difficiles à utiliser à cause
de leur programmation simpliste et leur manque de réactivité
aux demandes des appelants. Une mesure courante de
l'efficacité d'un système de serveurs vocaux interactifs est le
nombre d'interactions nécessaires pour satisfaire le besoin de
l'utilisateur (par exemple, le nombre minimum de questions
pour établir la connexion de l´appelant avec le service désiré).
Notons qu'avec l'utilisation croissante des téléphones
portables, un problème de taille est l'utilisation des serveurs
vocaux interactifs dans des milieux parfois bruyants comme les
rues, ce qui nécessite l'utilisation de modèles et de techniques
plus robustes.
32. I.4. Les types de base d’un SVI
33. Avec un serveur vocal interactif, on peut mettre en place
plusieurs fonctionnalités telles que la mise à disposition
d’informations spécifiques sous forme vocale, un standard
automatique à partir d’une certaine heure avec possibilité
d’aiguillage automatique, la diffusion d’alertes, l’interrogation
de bases de données. De ce fait les SVI se regroupent en trois
types d'utilisation standards: la borne d'informations, le
standard téléphonique et l'utilisation d'un SVI en liaison avec
une base de données ou CTI (Couplage Téléphonie
Informatique).
34. I.4.1. La borne d’information
35. Le fonctionnement en borne d’information est le service
le plus basique que puisse rendre un SVI. Ce dernier diffuse des
messages répétitifs, plus précisément des informations
pratiques, sans aucune intervention humaine. Cette fonction
permet à l’appelant d’être guidé dans une arborescence afin de
trouver les informations qu’il cherche. Il passe d’un menu à
l’autre par simple choix. Les SVI bornes d'informations sont
quelques fois utilisées en cas de "débordement d'appels" c'est à
dire quand le service de réception assuré par du personnel est
saturé. Les appels entrants sont redirigés vers des SVI
fonctionnant en débordement d’appel.
36. I.4.2. Le standard téléphonique
37. Le standard téléphonique, encore appelé standard pré-
décroché, est un commutateur, c'est-à-dire un appareil
assurant automatiquement les connexions téléphoniques entre
appelé et appelant (à l'intérieur de l'entreprise comme vers
l'extérieur). Il se charge de l’accueil de l’appelant et lui propose
par des choix dans des menus vocaux d’accéder à son
correspondant. Les choix s’effectuent par fréquence vocale sur
le clavier téléphonique de l’appelant ou parfois par
reconnaissance vocale. Le standard téléphonique permet de
transférer les appels, les guider vers les différents services et
correspondants, les filtrer en cas de besoin. Le SVI doit alors
faire suivre l'appel, et pour cela il doit commander le PABX
(Private Automatic Branch eXchange) qui à son tour peut
conduire des appels sans interposition manuelle en se basant
entièrement sur le numéro composé, c’est un outil très puissant
et très flexible en terme de mécanisme de routage.
38. 19. Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 19
39. I.4.3. Le Couplage Téléphonie Informatique
40. Figure 3 : Couplage Téléphonie Informatique
41. La notion de CTI est la réunion et l'intégration des mondes
de la téléphonie et de l'informatique sur une plateforme
commune. Le CTI donne la possibilité d’interroger une base de
données, d’y stocker des informations saisies par l’appelant,
mais aussi de lui diffuser des informations qui lui sont propres.
Pour parvenir à cela, il faut intégrer la base de données dans le
logiciel de gestion du SVI. Ce qui différencie ces SVI des autres
ne se situe pas au niveau matériel, mais plutôt au niveau
logiciel. Le logiciel employé n'est plus un logiciel aux fonctions
limitées mais un progiciel. Ce sont par exemple les SVI de type
prise de commandes, consultations de comptes bancaires, etc.
En effet, le couplage téléphonie informatique (CTI) permet
notamment l’utilisation de bases de données qui contiennent
les traces des appels (nombre, durée, qualité, agent, etc.) et
facilitent une approche statistique pour aider à la décision. Les
fonctions du CTI permettent d’effectuer le chargement de la
fiche du demandeur sur l’applicatif métier lors de la
présentation de l’appel à l’opérateur. Grâce au CTI les messages
vocaux sont des fichiers informatiques que l’on peut à souhait
placer dans des scénarii où naviguent les interlocuteurs. De plus
le couplage téléphonie informatique permet une gestion plus
aisée en associant par exemple le numéro de téléphone de
l’appelant ou un code émis par l’appelant, avec une fiche
personnalisée.
42. I.4.4. Les fonctionnalités annexes
43. La fonction la plus élémentaire pour un serveur vocal est
la borne d’informations. Cependant, le SVI est en mesure de
jouer d’autres rôles mis à part les trois fonctionnalités standard
qui viennent d’être explicitées dans la section précédente.
Parmi ces nombreux rôles nous avons la messagerie vocale, la
messagerie unifiée et le service de fax à la demande qui sont les
plus connus.
44. I.4.4.1. La messagerie vocale
45. La messagerie vocale est un répondeur télématique
permettant d'enregistrer les paroles du correspondant en
l'absence de l'abonné. Dans une entreprise utilisant un SVI
remplissant la fonction de messagerie vocale, une boîte vocale
est attribuée à chaque employé où l’appelant peut être dirigé
pour laisser un message lorsque le correspondant souhaité
n’est pas disponible. Dans ce cas, le SVI joue le rôle de
répondeur téléphonique. L’employé peut consulter à distance
sa boîte vocale très facilement avec son clavier téléphonique ; il
se laisse guider par une arborescence vocale qui lui évite ainsi
d’avoir recours à un mode d’emploi papier. Ce type de SVI
permet aussi d’envoyer un message à
46. 20. Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire pré Fonction d’avertissement des correspondants (e-
mail)
47. I.4.4.2. La messagerie unifiée
48. La messagerie unifiée permet de faire converger les
messages, écrits ou vocaux, issus de différentes sources
(courrier électronique, fax, téléphone...) vers un seul serveur
accessible à tout type de terminal (ordinateur, téléphone,
mobile, PDA). Elle centralise la gestion des messages vocaux, e-
mails et fax. L’utilisateur peut écouter ses messages vocaux,
avoir une lecture de ses e-mails grâce à la technologie Text-To-
Speech (Synthèse vocale), éditer un fax et profiter de toutes les
fonctionnalités de sa boîte vocale. La consultation à distance est
donc simplifiée. La messagerie unifiée joue le même rôle que la
messagerie vocale mais en complément de cette dernière qui se
limite aux messages vocaux, elle centralise et permet de
consulter tout type de messages (électroniques, vocaux et
parfois fax) à partir d’une interface unique (téléphone ou
logiciel de messagerie).
49. I.4.4.3. Service de fax à la demande
50. Face au succès qu’a Internet de nos jours, le service de fax
à la demande est de plus en plus mis en oubliette. En effet,
envoyer ou recevoir un document (fichier…) par Internet est
plus commode que par fax. Cependant, il existe des serveurs
vocaux capables de commander un serveur fax par exemple
pour envoyer à la demande le plan d'un appartement, un
itinéraire routier, etc. L’utilisateur de ces services fait son choix
en s’aidant d’une arborescence vocale et de touches
téléphonique. Certains serveurs vocaux peuvent aussi
commander un serveur fax. Les services de fax à la demande
audio-fax utilisent de tels SVI. Les fax « commandés » peuvent
être soit envoyé en rappel (call back). Dans ce cas, les frais
d’émission sont à la charge du service audio-fax ; soit en cours
d’appel, ce qui permet de facturer le fax à l’appelant.
51. II. Fonctionnement d’un SVI
52. Un serveur vocal interactif fonctionne en se basant le plus
souvent sur cinq modules : la reconnaissance de la parole,
l’analyseur sémantique, le gestionnaire du dialogue, la
gestionnaire de réponse et la synthèse de parole. Envoi des
fichiers sons sur la messagerie internet du correspondant 
Lecture, suppression des messages  Création automatique de
boîtes vocales (nombre illimité)  Horodatage, identification du
numéro de l'appelant, senté et soutenu par Joseph KAPOU 20
plusieurs destinataires, de réexpédier un message, de l’annoter,
etc. En outre, la messagerie vocale permet également de gérer
les messages vocaux: transfert avec ajout de commentaires,
auto-login, notification des appels reçus, personnalisation des
messages d’accueil, etc. Une autre fonction caractéristique des
messageries vocales est la possibilité au sein du groupe
d'utilisateurs de la messagerie de réexpédier un message, de
l'annoter, et surtout d'envoyer un message à plusieurs
destinataires. Il existe aussi d'autres fonctions selon les
systèmes :
53. 21. La synthèse de la parole: Dernière composante du
système, c’est une technique informatique de synthèse sonore
qui permet de créer de la parole artificielle à partir de n'importe
quel texte. La synthèse vocale restitue de manière orale le
message généré par la chaine de traitement.
54. III. Les technologies composantes de SVI
Un serveur vocal est avant tout un ordinateur. Il peut avoir la
configuration d’un PC ou d’un VME (Virtual Memory Extension). Un
SVI de type PC est préférable pour les moyennes et grandes
entreprises. Il est capable de recevoir 60 appels en simultané et est
idéal pour les moyennes et grandes entreprises qui l’utilisent par
exemple pour leurs centres d’appels ou de réservation. Dans le cas
d'une utilisation intensive dans le milieu des réseaux de
télécommunications, un serveur de type VME ou PC Industriel est
nécessaire. Il offre des fonctions permettant de sécuriser la machine
afin de réduire les pannes informatiques et de supporter des
applications exigeantes. Le SVI de type VME autorise une plus grande
quantité de traitement d'appels et présente une interactivité
Gestionnaire de réponse: Pour la génération, deux étapes peuvent
être distinguées. La première est la génération profonde. Elle
correspond à la question quoi dire ? c’est-à-dire qu'elle vise à
déterminer le contenu sémantique de la réponse à l’utilisateur. La
deuxième phase, dite génération de surface, permet de choisir les
mots pour exprimer la réponse à l’utilisateur. Elle correspond à la
question comment le dire ?  Gestionnaire de parole: Véritable chef
d’orchestre du système, le contrôleur de dialogue est chargé
d’interagir avec le système d’information, de gérer l’interaction
(choix de la réponse à apporter).  Analyseur sémantique: L’objectif
de la compréhension est de dégager les intentions de l’usager et
d’identifier les actes de langage employés. Il s’agit de donner du sens
à la ou aux phrases reconnues. C’est aussi une phase de l’analyse qui
en établit la signification en utilisant le sens des éléments (mots) du
texte, par opposition aux analyses lexicales ou grammaticales qui
décomposent le message à l'aide d'un lexique ou d'une grammaire. 
La reconnaissance de la parole : c’est une technique informatique qui
permet d'analyser la parole captée au moyen d'un microphone pour
la transcrire sous la forme d'un texte exploitable par une machine.
Elle vise à transformer le signal acoustique produit par l'interlocutoire
en une chaine textuelle équivalente. Etude et Conception d’un
Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par
Joseph KAPOU 21

55. Figure 4 : Fonctionnement d’un SVI


56. 22. Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 22 améliorée
du fait de son intégration dans les réseaux téléphoniques. Les
principaux constructeurs de plates-formes VME sont Philips et
Motorola. L'architecture du SVI découle simplement de
l'utilisation qui en sera faite. Les contraintes d'architecture
varient essentiellement en fonction de la volumétrie des appels
entrants mais aussi en fonction du niveau d'interactivité du SVI
avec des bases de données distantes ou locales. Un serveur
vocal interactif est constitué d’une architecture matérielle et
d’une autre qui est logicielle.
57. III.1. L’architecture matérielle
58. L’architecture matérielle décrit l’agencement de
composants électroniques ainsi que leur interaction. Un serveur
vocal annexe toujours des ressources, applicatives et, de
télécommunications, connues sous le nom de frontaux vocaux
et de serveur d’application. Ces deux ressources peuvent
résider ensemble, mais si le serveur incorpore la reconnaissance
de la parole ou la synthèse vocale, il est préférable d’affecter
une tâche à chacun. Généralement, l’architecture physique d’un
Serveur vocal peut être décrite comme suit : Le frontal vocal :
C’est le serveur de raccordement télécom. Il peut contenir des
cartes électroniques dédiées à ces tâches, ce qui est
systématiquement le cas lors d’un raccordement avec des liens
de téléphonie traditionnelle de types analogiques, T0 ou T2
mais ce qui devient optionnel lors d’un raccordement en VoIP.
En effet, en IP, le frontal vocal ne peut contenir aucun hardware
spécifique, mais seulement les logiciels d’interconnexion SIP ou
H323 appropries. La tendance étant plutôt à des frontaux
vocaux sans rajout matériel et en raccordements SIP. Une
attention particulière devra alors être portée sur la puissance
du serveur et donc sur sa capacité à tenir un nombre d’accès
suffisant. Le serveur d’application : C’est un logiciel
d'infrastructure offrant un contexte d'exécution pour des
composants applicatifs. C’est ce serveur qui embarque
l’ensemble des applications de développement,
d’administration et de supervision du serveur vocal. Il peut être
sur le même serveur physique que le frontal vocal et sur le
même LAN voire à distance.
59. III.2. L’architecture logicielle
60. L’architecture logicielle encore appelée Middleware se
situe entre les interfaces de programmation des cartes médias
et l’application qui sera développée à l’aide de ces dernières.
L’architecture logicielle décrit d’une manière symbolique et
schématique les différents éléments d’un ou de plusieurs
systèmes informatiques, leurs interrelations et leurs
interactions. Toute la richesse d’un serveur vocal interactif
réside dans sa bibliothèque d’éléments actifs. Toute sa
puissance repose dans sa capacité à proposer des outils
permettant de regrouper facilement ces éléments fonctionnels.
En définitive, un serveur vocal interactif se différencie par ses
qualités logicielles et non matérielles. L’architecture logicielle
peut être définie comme étant une couche logicielle
intermédiaire permettant d’ajouter des fonctions CTI à des
applications existantes sans avoir à les modifier. Il n’y a pas de
dépendance entre les applications CTI et les cartes médias ; le
serveur vocal est doté d’outils logiciels donnant accès aux
données ou aux traitements, capables de faire communiquer
selon un formalisme des systèmes
61. 23. L'utilisation de la reconnaissance vocale Le SVI doit
aussi transmettre les différentes possibilités à l’appelant. Ces
possibilités lui sont transmises vocalement : ce sont les
interactions SVI-Clients.
62. IV.1. Interaction Clients-SVI
63. IV.1.1. Les touches DTMF Un code DTMF (Dual Tone Multi
Frequency) est une combinaison de fréquences utilisée pour la
téléphonie moderne. Ces codes sont utilisés pour la
composition des numéros de téléphones (en opposition aux
téléphones dits à impulsions), et ils ont permis la création des
premiers serveurs vocaux interactifs. Techniquement, chaque
touche d'un téléphone correspond à un couple de deux
fréquences audibles qui sont jouées simultanément. De cette
façon, huit fréquences bien distinctes permettent de coder
seize touches. Ces fréquences peuvent être reconnues par des
dispositifs électroniques et sont utilisées pour réaliser des
serveurs vocaux. Dans le tableau suivant figurent des touches «
A » à « D » : celles-ci étaient utilisées par l'armée américaine
pour représenter la priorité d'une communication. Ce système
moderne a été développé par la firme américaine Bell. Le but
recherché était de définir un système de numérotation rapide
pouvant être utilisé par les appareils numériques (ordinateurs,
centraux numériques). La signalisation DTMF est employée
pour permettre à l’utilisateur de transmettre des ordres au SVI.
Avec cette technique, les touches du clavier téléphonique sont
identifiées par leur fréquence en mode DTMF qui permet
l’émission de tonalités multifréquences destinées à la
signalisation sur le réseau analogique. Chaque chiffre ou digit
correspond à un signal sonore. Le signal est constitué de
l'addition de deux sons (Dual Tone), dont les fréquences
caractérisent un digit (Multi Frequency). Le signal ainsi envoyé
correspond à l'émission de deux fréquences précise qu'un bruit
intempestif sur la ligne ne peut perturber. Les digits définis par
le DTMF sont les mêmes que pour le système à impulsions (de 0
à 9) avec en plus 6 nouveaux digits (#, *, A, B, C et D).
Cependant, on ne trouve généralement que les deux nouveaux
digits # et * sur les claviers de téléphone. Un digit est défini par
la somme de signaux sinusoïdaux de fréquences différentes. Les
fréquences utilisées sont caractéristiques et L’utilisation des
touches DTMF du téléphone Etude et Conception d’un
Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par
Joseph KAPOU 23 hétérogènes ou des applications portées par
différents systèmes. Les constructeurs de cartes médias
fournissent avec leur module électronique une interface
logicielle appelé driver nécessaire à fin d’assurer son bon
fonctionnement. Il s’agit d’une solution qui est adaptée au
système d’exploitation. Un serveur vocal interactif est offert
sous différents environnements d’exploitations : Windows,
linux, Unix etc.
64. IV. L’interaction Clients-SVI / SVI-Clients Les SVI se sont
imposés aujourd’hui comme un outil stratégique pour les
relations clients- entreprises. Typiquement, pour un standard
automatisé. L’appelant est guidé à travers une arborescence
vocale et fait des choix au fur et à mesure soit à l’aide du clavier
téléphonique avec les touches DTMF, soit grâce à la
reconnaissance vocale par mots-clés. Ce sont les interactions
Clients-SVI. Cette interaction client à SVI est obligatoire pour
pouvoir s'orienter dans la série de menus vocaux proposés par
la plate-forme vocale. Ainsi, au fil des menus, la précision de la
demande s'accentue. Cette interaction est effectuée de 2
façons différentes :
65. 24. Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 24 leurs
valeurs sont regroupées ci-contre. Un 5 sera, par exemple,
généré en additionnant deux signaux de fréquences 770Hz et
1336Hz. Les avantages de ce système sont multiples, les
numéros de téléphone peuvent être composés très rapidement
et peuvent être générés par des systèmes informatiques.
66. Figure 5: Tableau récapitulatif des différentes fréquences
du standard DTMF Cependant la signalisation DTMF est
remplacée dans certaines plateformes par la reconnaissance
vocale qui se trouve être plus facile à utiliser. Avec le DTMF, le
système donne des ordres à l'utilisateur, avec la reconnaissance
vocale, c'est l'inverse. L’inconvénient majeur du DTMF est que
certains postes téléphoniques n’y ont pas accès, il concerne les
postes émettant des sons à la numérotation. De plus, en termes
purement fonctionnels le DTMF est limité car il ne peut pas être
utilisé par un SVI qui propose un nombre de choix qui dépasse
le nombre de touches du clavier téléphonique.
67. IV.1.2. La reconnaissance vocale Figure 6: Processus de la
reconnaissance vocale La reconnaissance vocale est l’une des
tâches pionnières de l’Intelligence Artificielle (IA) consistant à
reproduire la capacité d’un être humain à extraire des
informations de la parole produite par un autre être humain.
Cette tâche, trop complexe pour être reproduite par un
système informatique unique, a été subdivisée en plusieurs
sous- problèmes en fonction du type d’informations à extraire
et à reconnaître. Les problématiques les plus étudiées sont la
reconnaissance du locuteur, de son état émotionnel, de la
langue employée et du langage parlé. Les recherches sur la
résolution de ces tâches ont donné lieu, depuis une vingtaine
d’années, à des dizaines de milliers de publications, des
centaines de bases de données de parole, des dizaines de
campagnes internationales d’évaluation. Les progrès ont été
importants et ont permis le développement d’applications
importantes en communication homme-machine comme la
dictée vocale ou les systèmes de dialogues finalisés des
serveurs vocaux interactifs (SVI). Cependant de nombreuses
recherches restent indispensables en raison de l’ampleur du
problème et de sa variabilité : 7 milliards de locuteurs, plus de
500 noms d’émotions, près de 7000 langues et quelques
centaines de milliers de mots par langue.
68. 25. Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 25 D’autres
types d’information restent pour l’instant pratiquement
inexploités comme l’accent, l’état physiologique, le niveau de
stress ou de fatigue. Pour les utilisateurs, la reconnaissance
vocale est plus souple d’utilisation que les touches DTMF. Cette
fonction permet de rendre les applications plus interactives. La
reconnaissance automatique de la parole en langage naturel
s'effectue par repérage des mots clés. Cette technologie permet
de remplacer les interfaces DTMF. Avec la reconnaissance
vocale, c’est l’utilisateur qui impose ses choix de navigation au
système. La reconnaissance vocale permet une plus grande
souplesse pour l'utilisateur mais implique un coût plus élevé
pour la configuration du serveur vocal : mémoire, applications,
espaces disques, processeurs, etc. Un module de
reconnaissance de mots ou de phrases d'un système nécessite
des quantités importantes de connaissances acoustiques et
linguistiques. Les connaissances acoustiques permettent au
système de reconnaître les sons, alors que les connaissances
linguistiques permettent de retrouver les mots et de valider
leur enchaînement. Pour obtenir des performances suffisantes,
il est indispensable de disposer de corpus enregistrés dans des
conditions aussi proches que possible de celles des applications
visées. Deux approches, l'une plus globale, l'autre plus
analytique permettent d'appréhender la reconnaissance des
mots. Dans l'approche globale, l'unité de base sera le plus
souvent le mot considéré comme une entité globale, c'est-à-
dire non décomposée. L'idée de cette méthode est de donner
au système une image acoustique de chacun des mots qu'il
devra identifier par la suite. Cette opération est faite lors de la
phase d'apprentissage, où chacun des mots est prononcé une
ou plusieurs fois. Cette méthode a pour avantage d'éviter les
effets de coarticulation, c'est- à- dire l'influence réciproque des
sons à l'intérieur des mots. Elle est cependant limitée aux petits
vocabulaires prononcés par un nombre restreint de locuteurs.
L’approche analytique, qui tire parti de la structure linguistique
des mots tente de détecter et d’identifier les composantes
élémentaires (phonèmes, syllabes). Celles-ci sont les unités de
base à reconnaître. Cette approche a un caractère plus général
que la précédente : pour reconnaître de grands vocabulaires, il
suffit d’enregistrer dans la mémoire de la machine les
principales caractéristiques des unités de base. Actuellement,
bien que la reconnaissance vocale soit encore loin d’être
parfaite, les échecs de cette technique sont le plus souvent
causés par une mauvaise compréhension notamment pour les
mots hors vocabulaire, un modèle de dialogue inadapté ou
encore par le comportement et les attitudes de l‘utilisateur mal
modélisés. Ce dernier n’agissant pas comme prévu, le système
comprend mal ses attitudes et la stratégie de dialogue peut
alors devenir déroutante pour l’usager
69. . IV.2. Interactions SVI-Clients Le SVI guide l’utilisateur à
travers l’arborescence vocale par le biais d’annonces vocales.
On distingue les annonces avec un fond sonore et les annonces
classiques.
70. IV.2.1. Annonce avec un fond sonore Un fond sonore est
ajouté au message vocal pour améliorer l’interface vocale.
Cette opération est réalisée par un enregistrement ou suivant la
technique d’encodage MIC, le message est numérisé à 64 kbps.
Il peut être compressé pour prendre moins d’espace disque sur
le SVI.
71. IV.2.2. Annonces classiques Dans le cas d’un message
composé de texte sans fond sonore (annonce classique), on
peut soit enregistrer directement l’annonce sous forme de
fichier sonore, soit utiliser la technique de la synthèse vocale.
Dans le premier cas, l’espace disque nécessaire pour
72. 26. Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 26 stocker
l’annonce est plus important que dans le second. Pour cela, on
préfère donc la technique de la synthèse vocale.
73. V. La synthèse vocale
74. Figure 7: Processus de la synthèse vocale
75. La synthèse de la parole à partir du texte est la passerelle-
clé entre le monde de l'écrit et celui de l'oral. La synthèse
vocale est une technologie qui produit « des sons de parole à
partir d’une représentation phonétique du message ». Cette
technologie ne doit pas être confondue avec la restitution d’un
message préenregistré dans laquelle le texte est fixe puisque la
synthèse à partir du texte est utilisée à la place de la restitution
de messages préenregistrés, dès que la fréquence (et donc le
coût) de mise à jour de ces messages devient trop importante.
Le principe est extrêmement simple, tout texte écrit peut être
traduit en message vocal grâce à une simple carte de synthèse
vocale. Deux grandes familles de synthèse vocale sont à
distinguer : Les systèmes qui utilisent la concaténation de mots
entiers qui ont un vocabulaire limité et qui offrent une qualité
de parole excellente. Ces systèmes ne nécessitent pas d’analyse
linguistique. Les systèmes dits de synthèse à partir du texte qui
dans une première étape convertissent un texte en une chaîne
de phonèmes marqués par des informations prosodiques
(ensemble des phénomènes d’intonation d’une langue), et dans
une seconde étape qui transforment cette chaîne en un
ensemble de données acoustiques à transmettre à un
synthétiseur. Le synthétiseur vocal permet de créer une voix
artificielle semblable à celle de l'homme. Il convertit le texte
codé au moyen d’un lecteur sonore d’écran et le transmet à la
carte son, afin d’obtenir une reproduction orale en appliquant
au signal les caractéristiques linguistico-prosodiques. Contrôlé
au moyen d’un logiciel de lecteur sonore, le synthétiseur vocal
peut faire varier la cadence, le débit, le volume et la langue.
76. V.1. Mbrola
77. Mbrola est un synthétiseur vocal initié par le laboratoire
de la Faculté Polytechnique de Mons en Belgique. Il est à
l’origine d’un projet visant à obtenir un ensemble de
synthétiseurs vocaux pour une multitude de langues qui est
fournie gratuitement lorsqu’il s’agit d’applications non
commerciales. Mbrola n’est pas sous licence de source libre.
78. 27. Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 27 D’un point
de vue, plus, concret, le synthétiseur vocal Mbrola est basé sur
la concaténation de diphones. Ainsi, il prend une liste de
phonèmes en entrée, avec des informations prosodiques, c’est-
à-dire la durée des phonèmes et une description linéaire par
morceaux de la tonalité, et produit des échantillons de parole
sur 16 bits linéaire. Les fréquences d’échantillonnage
proviennent d’une base de données de diphone. MBROLA n’est
donc pas un synthétiseur « Text-To-Speech », puisqu’il
n’accepte pas de texte brut en entrée, mais plutôt une
représentation de phonèmes. Chaque base de données de
diphone est adaptée au format MBROLA. Une voix françaises a
été mise à la disposition par les auteurs de MBROLA, et le projet
MBROLA a été lui- même organisée de manière à inciter les
laboratoires de recherche et les entreprises à partager leurs
bases de données de diphone. Il est à noter que les bases de
données sont aussi rendues disponibles pour utilisation non
commerciale et utilisation non militaires dans le cadre du projet
MBROLA.
79. V.2. Lia_Phon
80. Comme nous l’avions évoqués précédemment, MBROLA
n’étant pas un synthétiseur «Text-To-Speech», Lia_Phon va être
utilisé pour cette fonction, en le reliant au synthétiseur vocal
MBROLA, afin d’obtenir effectivement une sortie audio basée
sur un texte d’origine. Lia_Phon est un système de
phonétisation de textes qui a été développé au LIA (Laboratoire
Informatique de l’Avignon) par Frédéric Bechet. Ce système
permet de nettoyer, étiqueter, accentuer et phonétiser un texte
libre. Un module de génération d’une prosodie minimale est
également fourni afin de générer des fichiers compatibles avec
le synthétiseur vocal MBROLA. Lia_Phon est disponible
gratuitement sous licence GNU GPL.
81. V.3. Liambrola
82. Le fait d’installer Mbrola puis Lia_Phon peut sembler
quelque fois fastidieuse. C’est dans ce sens qu’un module
d’interface nommé Asterisk-liambrola a été écrit afin
d’interfacer Lia_phon et MBROLA au plan de numérotation
d’Asterisk. Ce module permet l’ajout de l’application Liambrola
au plan de numérotation, ce qui permet d’utiliser Lia_phon et
Mbrola comme synthétiseur vocal « français » directement
dans Asterisk. Le module Liambrola fait appel à Lia_phon et
Mbrola via un appel système, car il n’existe pas d’interface de
programmation applicative « API » pour ces deux composants.
83. 28. Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 28
84. CHAPITRE III. ETUDE DES DIFFERENTES SOLUTIONS DE SVI
85. Plusieurs plateformes sur le marché et en open source
nous permettent la mise en œuvre d’un serveur vocal interactif.
Nous choisissons d’étudier les trois les plus répandues en
l’occurrence WebSphere, Bayonne et Asterisk. Au terme de
cette étude, nous procéderons à un choix. Pour ce faire,
plusieurs aspects doivent être pris en compte. Ainsi pour
chaque solution, nous étudierons son architecture, ses
caractéristiques et enfin ses avantages et ses inconvénients.
86. I. La plateforme WebSphere
87. L’une des inventions majeures qui a profondément
impactée la société humaine est le téléphone. Par ailleurs, le
système de téléphonie a aussi évolué, allant des systèmes de
mise en connexion manuelle avec opérateur humain, aux
systèmes électromécaniques, et plus récemment à l’intégration
des fibres optiques. Le téléphone est aujourd’hui largement
adopté à travers le monde. De même l’invention des
technologies du traitement de la voix telles que la
reconnaissance automatique de la voix et la génération
automatique de la voix à partir de texte seront universellement
adoptées. Les compagnies disposant de telles technologies
seront demain, sans aucun doute, les leaders au niveau
mondial. C’est ainsi que IBM a mis en place un serveur
d’application appelé WebSphere qui regroupe en son sein les
différents modules cités plus haut. Ce qui fait de WebSphere
l’une des solutions qui répond le plus aux besoins des
entreprises. I.1. Architecture La technologie du traitement de la
voix proposée par IBM comporte : la technologie de
reconnaissance automatique de la voix (ASR) et la technologie
de la production du langage parlé à partir d’un texte (TTS). Ainsi
un certain nombre de dispositifs doivent être mis en œuvre
d’où le schéma ci-dessous. Figure 8 : Architecture de
Websphere En effet pour mettre en place un serveur vocal
interactif utilisant la technologie d’IBM plusieurs éléments
interviennent. Tout d’abord le téléphone, qui peut être de types
diverses
88. 29. Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 29
89. Figure 9 : Types de téléphones utilisés avec Websphere
90. Ainsi l’utilisateur peut solliciter le serveur en utilisant un
de ces téléphones. S’il s’agit d’un téléphone IP ou d’un
softphone, l’appel émis passe d’abord par un Gateway et
ensuite par un opérateur de téléphonie ou par un autre
dispositif capable de simuler le réseau de téléphonie. Ce
dispositif est appelé Gordon Kapes System (GKS) et peut être
utilisé comme centrale de téléphonie ou un Private Branch
eXchange (PBX). Ce dispositif permet également
d’interconnecter plusieurs serveurs vocaux. Figure 10 :
Dispositif simulant le réseau de téléphonie L’appel ainsi reçu
par le serveur, doit être traité. Pour effectuer ces traitements
l’application vocale fait appel à plusieurs autres serveurs
notamment le serveur de reconnaissance vocale et le serveur
de synthèse vocale. La reconnaissance des mots prononcés par
l’utilisateur se fait grâce à la grammaire spécifiée et aux fichiers
VoiceXML. Le serveur vocal pour répondre à l’utilisateur
interagit avec les autres serveurs en utilisant plusieurs
protocoles, notamment HTTP, RTP, RGCP. HTTP: HyperText
Transfert Protocole a été mis en service par l'initiative globale
de l'information d'enchaînement mondial depuis 1990. Ces
spécifications définissent le protocole désigné sous le nom de
"HTTP/1.1". HTTP est un protocole de réseau de couche
application construit sur TCP. HTTP permet à des Figure 10 :
Dispositif simulant le réseau de téléphonie
91. 30. Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 30 browsers
d'enchaînement et à des serveurs d'enchaînement de
communiquer. Les clients et les serveurs de http
communiquent par l'intermédiaire des messages de demande
et de réponse. HTTP utilise le port 80 de TCP par défaut, bien
que d'autres ports tels que 8080 soient également employés.
C'est le protocole employé pour transférer des données sur le
World Wide Web. Le protocole HTTP est le support du Web, la
partie la plus utilisée d'Internet et celle qui connaît la plus forte
croissance. C'est pourquoi toutes les adresses de site Web
commencent par "HTTP://". Toutes les fois que l’on
dactylographie un URL dans son navigateur, l’ordinateur envoie
une demande HTTP au "web server" approprié. Ce dernier,
conçu pour manipuler des demandes HTTP, envoie la page
HTML demandée. RTP : Le but de RTP (Real-time Transfert
Protocole) est de fournir un moyen uniforme de transmettre
sur IP des données soumises à des contraintes de temps réel
(audio, vidéo,...). Le rôle principal de RTP consiste à mettre en
œuvre des numéros de séquence de paquets IP pour
reconstituer les informations de voix ou vidéo même si le
réseau sous-jacent change l'ordre des paquets. Plus
généralement, RTP permet : D’identifier le type de l'information
transportée ; D'ajouter des marqueurs temporels et des
numéros de séquence l'information transportée ; De contrôler
l'arrivée à destination des paquets ; De plus, RTP peut véhiculer
des paquets multicast afin d'acheminer des conversations vers
des destinataires multiples. MRCP : Le but du protocole MRCP
(Media Ressource Control Protocol) est de standardiser les
dialogues informatiques entre les moteurs d'ASR et de TTS avec
les serveurs vocaux. Il s'agit d'un dialogue client-serveur. Le
protocole définit les requêtes, les réponses et le contrôle du
média. Il est également basé sur une base des protocoles RTSP
(Real Time Streaming Protocol) et RTP (Real Time Protocole).
Websphere utilise uniquement ce protocole pour les fonctions
avancées de reconnaissance vocale liées au langage VoiceXML.
92. I.2. Caractéristiques Le serveur vocal d’IBM présente
plusieurs caractéristiques. Websphere est propriétaire : En effet
Websphere est une solution commercialisée par IBM, mais il
existe une version d’évaluation de quatre-vingt-dix jours
disponible sur Internet. Il supporte les plates-formes suivantes :
Red Hat Enterprise Linux WS/ES/AS V3.0 Update 1 pour les
processeurs Intel Pentium III (1 GHz ou plus) SUSE Linux
Enterprise Server (SLES) V8.0 powered by United Linux V1.0
avec le Service Pack 2a ou 3 pour les processeurs Intel Pentium
III (1 GHz ou plus) Microsoft Windows Server 2003 Il supporte le
VoiceXML : Voice eXtensible Markup Language ou VoiceXML,
est conçu pour créer les dialogues audio qui comportent le
discours synthétisé, l'acoustique digitalisée, le DTMF, et
l'enregistrement de l'acoustique pour des applications de
téléphonie. Il
93. 31. Adresse IP statique
94. II.3. Avantages et inconvénients
95. II.3.1. Avantages Fiabilité : En effet, installé dans un
réseau stable, Websphere nous offre une grande résistance aux
pannes. Ce qui permet d’ailleurs d’avoir une grande satisfaction
de la part des clients. Ceci est essentiellement dû à l’utilisation
de composants robustes pour sa mise en œuvre. Websphere
est très scalable : dans la mesure où on a la possibilité de
changer les caractéristiques (Mémoire, etc.…) de certains de ces
composants dans le but d’augmenter ses performances.
Réseaux: TCP/IP  Espace disque disponible: 2 GB  Mémoire
(RAM): 2 GB (minimum)  Intel Pentium III (minimum 1 GHz ou
processeurs équivalent) Etude et Conception d’un Serveur
Vocal Interactif 2012 Mémoire présenté et soutenu par Joseph
KAPOU 31 apporte l'avantage des technologies d'enchaînement
aux utilisateurs d'un téléphone en fournissant un mécanisme
interactif de la réponse de voix. Une application développée en
VoiceXML doit permettre de "parler" à l'utilisateur en
synthétisant de la parole, mais également "écouter" la voix de
l'utilisateur grâce à la reconnaissance vocale. VoiceXML
représente le ‘HTML’ pour la téléphonie et les applications de
voix. C’est le langage de programmation des applications
vocales. Il est basé sur XML et permet l’accès aux applications
Web à partir de téléphones ou autres appareils fonctionnant
avec la voix. L’éditeur VoiceXML est l'interface de
développement d'applications vocales sur le modèle Web. La
connexion aux informations issues du site Web devient
naturelle car elle répond aux exigences de la norme VoiceXML.
Elle permet ainsi d'échanger des informations avec tout moteur
répondant à cette norme : reconnaissance vocale, synthèse de
texte, analyse sémantique. Grâce à l’éditeur VoiceXML, on peut
donner de la voix à un site Web en permettant un accès
téléphonique aux données en ligne. VoiceXML est une
passerelle entre le contenu Web et le portail vocal. Etant un
langage d'un seul bloc de présentation conçu pour accepter
l'entrée d'utilisateur sous forme de DTMF (tonalités de contact
produites par un téléphone) et de parole, VoiceXML est une
nouvelle technologie très utilisée dans la conception de serveur
vocal car facilitant celle-ci. En effet avec VoiceXML, le
développement d'application de reconnaissance de la parole
est considérablement simplifié. Au lieu d'utiliser un PC avec un
navigateur Web, n'importe quel téléphone peut accéder à des
applications de VoiceXML par l'intermédiaire d'un VoiceXML
browser fonctionnant sur un serveur de téléphonie.
Considérant que le HTML est généralement employé pour créer
des applications graphiques d'enchaînement, VoiceXML peut
être employé pour des applications voix-permises
d'enchaînement. Il supporte plusieurs langues dont : Anglais,
Français, Chinois, Japonais, Espagnol, Allemand etc. La
configuration minimale du serveur :
96. 32. Discours spontané Pendant une conversation
normale, il peut jaillir, se produire, que les gens éternuent,
toussent ou hésitent avant de poursuivre une conversation.
Dans toutes ces circonstances, la reconnaissance de la parole
s’exécute tout à fait mal parce que le Mots hors vocabulaire
Un vocabulaire contient tous les mots qu'un moteur
d'identification de voix devrait identifier. Cependant, il n'est pas
possible de garantir qu'un haut-parleur n'emploiera jamais un
mot non inclus dans le vocabulaire, puisqu’il peut ne pas se
rendre compte de ce que le vocabulaire contient. Actuellement,
le processus d'identification essaye d'identifier le brin le plus
étroit pour l'entrée reçue, parce qu'il ne peut pas distinguer,
qu'un mot donné appartienne au vocabulaire ou pas. Ce
comportement n'est pas souhaitable pour des applications de
commande puisqu'une fausse action sera appelée. Une bonne
manière de résoudre ce problème pourrait être, employer les
niveaux de seuil minimum pour un brin de mots. L’inconvénient
est que, selon le seuil, les mots qui appartiennent au
vocabulaire pourraient être mal classifiés. Etude et
Conception d’un Serveur Vocal Interactif 2012 Mémoire
présenté et soutenu par Joseph KAPOU 32 Haute disponibilité :
Cette avantage vient du fait que plusieurs appels peuvent être
traités en même temps par le serveur sans aucune interférence
ni interaction entre eux. C’est ce qui fait que la plus part des
appels aboutissent.
97. II.3.2. Inconvénients
98. Cette solution présente néanmoins quelques
inconvénients, parmi lesquels : Manque de fiabilité du moteur
de reconnaissance vocale L’inconvénient majeur de cette
solution réside au niveau de son moteur de reconnaissance
vocale. En effet, en dépit du progrès accompli par la
reconnaissance de la parole ces dernières années, il reste
beaucoup à faire. Les algorithmes actuellement employés ont
en partie échoué dans une variété de situations, d'un
changement simple de voix à un changement d'environnement.
Par conséquent, un effort de perfectionnement doit se faire au
niveau des caractéristiques suivantes : bruit supplémentaire
affecte la qualité du discours réel. Il est certainement
souhaitable d'avoir un système où toutes ces conditions
pourraient facilement être traitées. Demande beaucoup de
ressources : En effet, les différents serveurs qui composent
l’architecture proposée par Websphere ont une certaine
caractéristique. Ainsi leur installation et configuration
nécessitent aussi bien des ressources matérielles qu’humaines.
Et ces dernières doivent avoir une certaine expérience pour
être capables de mener à bien le travail. Très coûteuse
également, comme tenu précédemment dans notre propos, il
demeure propriétaire. Et son acquisition implique d’autres
dépenses supplémentaires notamment le dispositif qui doit
simuler le réseau de téléphonie si l’on désire faire des tests en
local
99. II. La plate-forme Bayonne
100. Les serveurs vocaux ont été pendant longtemps le
monopole de quelques vendeurs qui proposent des solutions
fermées. Chacun d'eux développant des serveurs IVR
(Interactive Voice Response) adaptés à leur propre matériel.
Bayonne est la réponse du monde open source à cette
situation.
101. 33. Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 33 GNU
Bayonne est un serveur de téléphonie sous licence libre
permettant aux petites et grandes entreprises ainsi qu'aux
opérateurs de créer, déployer et gérer les solutions
téléphoniques intégrées pour des capacités allant de la simple
ligne analogique jusqu'à plusieurs lignes ISDN. Un serveur GNU
Bayonne doté d'une carte de téléphonie numérique ou
analogique permet de prototyper et de déployer des services
applicatifs commerciaux de qualité professionnelle. Cette
facilité de développement et d'intégration avec d'autres
logiciels libres ouvre les portes du développement
d'applications téléphoniques à un large public d'utilisateurs et
de développeurs, sans nécessiter d'autres compétences
spéciales ou des API propriétaires
102. II.1. Architecture
103. Utilisant un PC ordinaire tournant sous GNU/linux
équipée de cartes téléphoniques multicanaux (disponibles
auprès de fabricants divers), GNU Bayonne a déjà été utilisé
pour créer et déployer des applications vocales commerciales
s'interfaçant avec le réseau téléphonique public. De telles
applications peuvent être des services d'Email vocal, des
services web intégrés de commerce vocal ou des systèmes de
gestion de la relation client. GNU Bayonne est également
facilement dimensionnable afin de permettre le déploiement de
services avancés d'opérateur fonctionnant sur des systèmes
d’exploitation open source. Figure 11 : Architecture de Bayonne
104. II.2. Caractéristiques
105. La principale caractéristique de Bayonne est d'offrir une
plateforme IVR virtuelle qui est indépendante du matériel
utilisé. Indépendance vis à vis des plates-formes Bayonne peut
fonctionner avec une partie des familles IVR (pas toutes encore)
sans pour autant avoir besoin d'une d'entre elles. En effet,
Bayonne a un tronc commun modulaire qui définit un ensemble
d'instructions et un environnement virtuel, pour un usage
général. Dans cet environnement virtuel on peut développer
une application vocale sans être restreint par le matériel utilisé.
Il est donc possible de changer de plateforme ou mettre en
communication un service IVR à un autre système avec une
plateforme différente sans avoir à réécrire le code.
106. 34. Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 34 Possibilité
de test en local Pour essayer ou tester Bayonne, il ne faut pas
de plateforme IVR coûteuse. Actuellement, il suffit d'une carte
son, car Bayonne utilise un pilote qui émule une plateforme IVR
utilisant les entrées/sorties du PC (clavier, microphone et
écouteurs). Bayonne tourne sur un PC de bureau. Donc pour
lancer des services IVR, Bayonne utilise son propre langage,
appelé CcScript. Ce langage est très simple, avec des actions
informatiques complètes et les principales structures de
programmation: blocs conditionnels, boucles, sauts
conditionnels ou non, routines.... Une fonction principale de
CcScript est d'avoir des instructions «limitées temporellement :
avant qu'une instruction ne soit exécutée, le langage connaît
son temps maximum d'exécution ». Pour des opérations
incluant des appels à des systèmes externes, comme les
systèmes de fichiers, les bases de données et les connexions
réseau, il y a un paramètre «timeout ». Si l'exécution dure plus
longtemps que le timeout, l'opération échoue. Du point de vue
du serveur, cette fonction est très importante car elle permet à
Bayonne d'offrir des services déterministes et reliés. Les
possibilités informatiques de Bayonne ne sont pas seulement
limitées à ceux de CcScript. En fait, Bayonne peut interagir avec
des langages de haut niveau comme le Perl et le Python. Grâce
à cette intégration directe, Bayonne hérite de toutes les
bibliothèques et modules disponibles pour ces langages: chaque
opération informatique, algorithme habituel ou non,
manipulation de données, raccordement à la base de données
ou serveur externe (enchaînement, courriel, LDAP, dossier
partagés)... Ainsi Bayonne peut traiter tout ce qu'on peut lui
demander. Accès direct aux ressources distantes Même sans
Perl et Python, Bayonne peut directement accéder à des bases
de données MySql ou PostGres et aux requêtes SQL. De la
même manière, Bayonne peut accéder au Systèmes de fichiers
et se connecter par l'intermédiaire du réseau à des ressources
distantes. En outre, Bayonne peut directement interagir avec un
synthétiseur de voix TTS, thêta (seulement les voix anglaises
sont disponibles) et festival (multilingue). Actuellement,
Bayonne ne peut se relier aux systèmes de reconnaissance de la
parole, mais ce dispositif est au statut de développement.
Gestion synchronisée et/ou désynchronisée Bayonne peut gérer
des entrées venant de connections téléphoniques et des
entrées provenant du système lui−même dans plusieurs buts :
gestion synchronisée, où Bayonne attend pour un signal
d'entrée (exemple : attendre qu'une touche soit pressée par
l'utilisateur) et de la gestion désynchronisée, où Bayonne reçoit
une notification quand un événement arrive (exemple : une
touche pressée ou un timeout expiré) sans explicitement les
attendre. Ces deux modes de gestion d'entrées permettent à
Bayonne de réagir rapidement à l'utilisateur et aux événements
système sans aucune perte de temps. Système d’exploitation
Bayonne est la réponse du monde open source et du projet
GNU au monde propriétaire et fermé. Donc, le système
d’exploitation sur lequel tourne Bayonne est le GNU Linux.
107. II.3. Avantages et inconvénients
108. II.3.1. Avantages
109. Multitraitement Comme vu précédemment, Bayonne a
été développé pour gérer un grand nombre de lignes
téléphoniques simultanément, donc il permet des commandes
et des instructions
110. 35. Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 35
111. «multithreading » (gestion simultanée de plusieurs
processus). Chaque processus peut interagir avec les autres par
le biais de signaux. Cela autorise des processus de
synchronisation et des échanges de données entre les
processus et, de plus, en connectant des tâches qui utilisent des
lignes différentes (exemple : deux utilisateurs peuvent se parler
à travers Bayonne). Modules TTS intégrés Pour la plupart des
services IVR, Bayonne n'a pas besoin de systèmes externes «
Texte à Parole » car il possède déjà ces propres modules vocaux
multilingues (Anglais, Français, Italien et Russe) qui peuvent
dire des nombres (ordinaires ou cardinaux), et des dates (ces
modules sont complètement personnalisables). Ils incluent des
voies humaines préenregistrées et qui peuvent être utilisées
pour la plus part directement dans l’architecture de Bayonne.
Flexibilité Toutes ces caractéristiques rendent Bayonne utile
dans un large éventail de situations. Il peut être utilisé pour de
petits services téléphoniques IVR avec quelques lignes, tout
aussi bien que pour un grand service central supportant des
centaines de lignes. Avec Bayonne on peut facilement avoir des
services « simples et rapides » ou des services complexes
invoquant par là même des systèmes externes. Ainsi, on peut
dire que Bayonne est une bonne solution de serveur IVR pour
tous les besoins en services IVR.
112. II.3.2. Inconvénients
113. Incompatibilité avec des modems Comme indiqué
précédemment, Bayonne supporte plusieurs panneaux, même
très différents les uns des autres, de 2 à 120 lignes
téléphoniques (analogique ou numérique). D'ailleurs, dans la
nouvelle version de Bayonne, on peut même utiliser des
panneaux de différentes familles en même temps, ainsi des
centaines de lignes téléphoniques peuvent être manipulées
simultanément. Malheureusement Bayonne ne supporte pas les
modems habituels série/USB (analogique, RNIS ou GSM).
Inexistence d’un moteur de reconnaissance vocale L’une des
faiblesses majeures de cette plate-forme, est qu’elle n’a pas de
moteur de reconnaissance vocale. Ainsi la seule interaction qu’il
peut y avoir entre un utilisateur et l’application vocale est
l’ensemble des touches du téléphone en l’occurrence les
touches DTMF.
114. III. La plate-forme Asterisk
115. Asterisk est un commutateur téléphonique privé à part
entière mais d'implémentation logicielle, compatible avec Linux
et qui s'interconnecte avec quasiment tous les équipements de
téléphonie de base. Il rassemble plus de 100 ans de
connaissance sur la téléphonie dans une robuste suite
d’applications de télécommunication fortement intégrées. C’est
probablement l’un des outils les plus puissants, les plus flexibles
et les plus extensibles fournissant tous les services de
télécommunications qui soient. Il a été développé par Mark
Spencer à l'origine de l'entreprise Digium, et qui continue, grâce
à de nombreux contributeurs, à évoluer régulièrement. Ce
logiciel a été conçu pour une flexibilité maximale et reste un
système ouvert à de nouvelles applications. Asterisk fournit
toutes les fonctionnalités attendues d'un PABX mais aussi la
voix sur IP et n'a besoin d'aucun matériel supplémentaire pour
l'assurer. Dans l'interconnexion avec les équipements de
téléphonie numériques et analogiques, Asterisk reconnaît une
large
116. 36. FastAGI (): Permet au script d'être utilisé sur un
serveur Asterisk distant. Création d’une base de données de
test, elle comporte 4 tables fonctionnelles. Mais il est à noter
qu’elle ne constitue pas la base de données définitive car ne
servant ici que d’un support pour exploiter le serveur vocal.
L’application ainsi développée est sous forme de script. Ce
script doit être exécutable (chmod 755 monscript.agi) et déposé
au niveau du répertoire /var/lib/asterisk/agi- bin/. Pour être
accessible via un téléphone, l’application vocale doit être
associée à un numéro, et doit être mis au niveau du fichier
extensions.conf. Machine distante : exten= DeadAGI ():
Permet de contrôler les canaux désactivés (hangup/raccroché).
 EAGI (): Permet de lire le canal son.  Etc. A cela est ajoutée
la possibilité d'utiliser les autres applications de type AGI. A
savoir :  Créer un historique personnalisé  Améliorer le
traitement des appels  Améliorer les manipulations dans le
plan de numérotation  Modifier les informations à l'affichage
 Faire des requêtes dans une base de données (et ainsi lier un
serveur Asterisk à une application) Etude et Conception d’un
Serveur Vocal Interactif 2012 Mémoire présenté et soutenu par
Joseph KAPOU 36 gamme de dispositifs matériels, et
notamment ceux fabriqués par ses sponsors, tels que digium,
ou encore Quicknet. Asterisk offre des services tel que la
conférence téléphonique, le répondeur interactif, la mise en
attente d'appels, la messagerie vocale, la musique d'attente, les
enregistrements d'appels pour l'intégration avec des systèmes
de facturation, etc... Asterisk crée un environnement unique qui
peut être façonné pour s’adapter à n’importe quel cas
d’utilisation notamment en tant que serveur vocal interactif.
Asterisk est conçu pour s’interfacer avec n’importe quel
dispositif logiciel ou matériel de télécommunication de manière
cohérente et progressive. Asterisk est un logiciel assez
complexe, dont la configuration peut être ardue. Il propose des
options avancées de configuration et d’ouverture parmi
lesquelles nous avons une base de données interne et un
système de communication avec des applications externes :
AGI. AGI (Asterisk Gateway Interface) est une interface
permettant de faire communiquer le plan de numérotation
(extensions.conf) avec des programmes extérieurs à Asterisk,
écrits avec des langages de programmation aussi divers que
PHP, Perl, Python, C, Shell Linux. AGI est matérialisé par
l'écriture de scripts qui sont exécutés dans le plan de
numérotation. A chaque lancement d'un script AGI, Asterisk
envoie au script un ensemble de variables avec leurs valeurs.
Les fonctionnalités des scripts AGI sont aussi diverses que le
langage de programmation choisi ne permet de possibilités. Il
est entre autres possible de : > numéro, 1,
AGI(agi://adresseIP/monscripts.agi) Même machine : exten =>
numéro, 1, Agi (monscripts.agi). III.1. Architecture Asterisk a
une architecture très simple. Il se comporte comme un
middleware connectant les applications et les technologies de
téléphonie. Il a tout d’abord été développé sur GNU/LINUX
pour x/86. Mais il a été soigneusement conçu pour une
flexibilité maximale. Ainsi les APIS spécifiques sont définies
autour d'un système PBX
117. 37. Etude et Conception d’un Serveur Vocal Interactif 2012
Mémoire présenté et soutenu par Joseph KAPOU 37 central. Ce
noyau avancé manipule l’interconnexion interne du PBX
proprement soustrait des protocoles spécifiques, des codecs et
des interfaces matérielles des applications de téléphonie. Cela
permet à Asterisk d'utiliser n'importe quel matériel approprié et
technologie disponible (maintenant ou à l'avenir) pour exécuter
ces fonctions essentielles, en connectant le matériel et les
applications.
118. Figure 12 : Architecture d’Asterisk
119. Equipement d’interconnexion Il est à noter que pour un
usage en interne, Asterisk ne nécessite aucun matériel
supplémentaire mais nécessite une ou plusieurs cartes pour
atteindre le réseau téléphonique commuté.
120. Figure 13 : Carte vocale Digium
121. III.2. Caractéristiques
122. Les solutions de commutations téléphoniques d’Asterisk
offrent un assortiment à caractères riches et flexibles. Asterisk
offre les fonctionnalités du PBX classique ainsi que des
caractéristiques avancées et fonctionne avec les systèmes
traditionnels de commutations téléphoniques à base standard
et aussi avec les systèmes Voix sur IP. Asterisk fournit toutes les
caractéristiques souhaitables d’un large système PBX. Asterisk
prend en charge de nombreux protocoles MRT (Multi-Threaded
Routing Toolkit) pour le traitement et la transmission de la voix
par les interfaces de téléphonie traditionnelle. Asterisk est
compatible avec les types de signalisations standards
américaines et européennes utilisés dans les systèmes
téléphoniques d’affaire standard ; il établit un pont entre la
prochaine génération de réseaux d'intégration voix-données et
les infrastructures déjà en place.
Suggestions

Programming the Internet of Things with Android


Computer Security and Internet Safety


Fundamentals

Developing for Apple Watch First Look

Tuto Serveur Vocal Interactif (SVI ou IVR)


Dimitri LEMBOKOLO


Memoire final sfallou
Serigne fallou ndiaye

Memoire karamoko mss


Joseph Diallo

Les Communications Unifiées


ir. Carmelo Zaccone

Mise en place d'une soltion de communication


unifiée
dartenien


Mémoire fin de cycle1
Mustafa Bachir

Rapport de stage TOIP/VOIP


Mounir Kaali

 English
 Español
 Português
 Français
 Deutsch
 À propos

 Développement et API

 Blog

 Conditions générales

 Confidentialité

 Droits d’auteur

 Assistance clientèle




LinkedIn Corporation © 2017