Vous êtes sur la page 1sur 22

Introduction générale

Le monde a connu au cours des dernières années un agrandissement considérable des besoins en
télécommunications. Ceci est expliqué par une large démocratisation des smartphones et des objets
connectés et par le foisonnement des services multimédias. Tout cela impose aux opérateurs et aux
fournisseurs de contenus multimédias de moderniser les technologies qui soutiennent leurs réseaux,
pour continuer à garantir un certain niveau de qualité de service. Sur les réseaux mobiles, ces
évolutions ont donné lieu à une succession de générations de technologie. On est ainsi passé du
Global System for Mobile Communications (GSM) ,2ème génération de réseau mobile, à la Long Term
Evolution (LTE) , 4ème génération, entre les années 90 et les années 2010. Aujourd’hui le monde
prépare la 5G (5ème génération de réseau mobile). Elle comporte à l’heure actuelle plusieurs
exigences en termes de meilleur débit, de moindre latence, de garantie de bonne expérience
utilisateur, de support d’un nombre massif de connections, de support d’une grande diversité de
types de terminaux et d’efficacité énergétique. Plusieurs technologies accompagnent la 5G telles que
la Network Function Virtualization (NFV) qui permet de faire face au défi de performance, en termes
de « scalabilité », de réactivité et d’efficacité énergétique. La NFV consiste en l’utilisation
d’équipements informatiques standards, et non plus d’équipements dédiés très coûteux, pour
assurer les fonctions du réseau. Cela revient à amener l’intelligence des réseaux au niveau logiciel et
ainsi s’appuyer sur les techniques de virtualisation et de gestion de « Cloud » et de « Data center »
pour assurer les services réseau avec une certaine garantie de qualité.

La Data Science est un terme qui s’est démocratisé au cours de la dernière décennie. Elle est la
preuve de la prise de conscience de l’importance et du potentiel que comportent les données dans
tous les activités. Le développement de la Data Science en tant que discipline a été facilité par les
progrès récents dans la capacité à apprendre sur les données grâce à la miniaturisation des
processeurs, à l’évolution des technologies de stockage, au développement de nouvelles
architectures de traitement et à la sophistication des algorithmes d’apprentissage. C’est une
discipline qui inclut divers savoir-faire autour des données, tels que leur collecte(image, texte ,voix..),
leur gestion, leur modélisation(étiquetage manuel du données, leur apprentissage , leur visualisation
et leur intégration à un système d’intelligence artificielle(entrainement , apprentissage..)

La composante de la Data Science qui nous intéresse le plus dans le contexte de ce manuscrit est le
Machine Learning, en d’autres termes, l’apprentissage automatique. Le Machine Learning consiste à
apprendre des données, c’est-à-dire en extraire une connaissance qui se traduit sous la forme d’un
modèle, qu’on utilise pour comprendre, classifier ou prédire une mesure, un phénomène ou un
événement.

Ce projet est né pour montrer le potentiel intérêt de la Data Science pour la gestion des réseaux. Ce
manuscrit porte sur des cas d’utilisation concrets de la Data Science pour le réseau et sur la
proposition de nouveaux outils d’analyse et d’apprentissage de données, mais aussi de déploiement
de la Data Science en tant que service.

Les contributions entrent dans le cadre de l’insertion de la Data Science dans le réseau, soit par la
proposition de cas concrets d’utilisation, soit par la proposition d’outils facilitant l’analyse ou le
déploiement de moyens de traitement de données dans le réseau. Les contributions algorithmiques
sont la prédiction de la couverture et le débit des réseaux cellulaires 3G et 4G
Mesurer et contrôler la couverture, la qualité de service et le débit c’est pouvoir en apprécier la
réalité ou sa représentation. Que recouvrent les termes couverture ,qualité de service et le débit ?
Ces notions sont parfois confondues et nécessitent d’être définies pour en apprécier la portée. Alors
que la couverture est un indicateur disponible en tout point du territoire, notamment fondé sur des
simulations théoriques de propagation du signal (pouvant être ensuite vérifiées par des mesures de
terrain), la qualité de service est une notion à la fois technique et subjective qui peut être mesurée
par des tests plus ou moins lourds visant à établir in fine sa capacité à satisfaire l’utilisateur d’un
service sur le réseau mobile. Le débit est la quantité de données qui transite sur un réseau pendant
une durée déterminée, peut varier significativement au cours du temps, avec un effet non
négligeable sur la qualité d’expérience.

Nous avons réalisé une campagne de mesure de débit(RLC), niveau de signal(RSRP) et qualité de
signal(RSRQ) dans une zone impliquant plusieurs utilisateurs connectés au réseau 3G et 4G à
Monastir. Grâce aux données collectées, nous avons montré la capacité d’exploiter les mesures sur le
réseau de l’opérateur et sur le terminal mobile pour prédire avec précision le niveau de signal,
qualité de signal et le débit accessible. Cela a permis d’introduire des stratégies de coopération entre
le client, l’opérateur, et le fournisseur de contenu pour parvenir à une solution de livraison cognitive
de données multimédia.

Le document s’articule en trois chapitres .Le premier traite les réseaux de télécommunication, il
décrit l’évolution des réseaux télécommunication d’un passé récent à aujourd’hui. Ensuite l’analyse et
l’apprentissage de données (Chapitre 2), expose les stratégies proposées dans la littérature pour
intégrer la notion de Data Science dans la gestion des réseaux et traite des contributions algorithmes
à savoir le modèle de prédiction.

Le Chapitre 3 présente la conception de l’application


Chapitre 1
Généralités sur les réseaux mobiles

Le réseau cellulaire est un type de réseau d’accès qui est apparu au début des années 1971. Son
principe est d’assimiler les zones géographiques à couvrir à des cellules de plusieurs kilomètres de
rayon. Chaque cellule comporte une antenne jouant le rôle d’émetteur-récepteur pour communiquer
avec les terminaux mobiles des utilisateurs grâce à des ondes radioélectriques communément
qualifiées de « radio » tout court. Derrière chaque antenne se trouve une station de base qui gère le
fonctionnement de l’antenne, qui sont reliées à d’autres équipement du réseau d’accès radio qui les
contrôlent et les gère conjointement afin d’assurer les « handover » : le transfert intercellulaire
quand un utilisateur mobile en déplacement passe d’une cellule à une autre.

Plusieurs générations de réseau d’accès radio se sont succédées. De légères modifications de


l’architecture et l’utilisation de bandes de fréquence différentes ont permis d’améliorer au fil des
générations la qualité de service. Ainsi, on a connu la 1G, la 2G, la 3G, la 4G et la 5G qui comporte
déjà des exigences plus fortes de qualité de service.

Les générations de réseaux mobiles :

 La 1 ère génération (1G) : C'est l'ancien Radio com 2000 de France Télécom.
 La 2 -ème génération (2G) : GSM (Global System for Mobile Communication) qui fonctionne
toujours
 La 2.5G : C’est le GPRS (Global Packet Radio Service), premier réseau pour les données.
 La 2.75G : C'est la norme EDGE (Enhanced Data Rate for GSM Evolution).
 La 3 -ème génération (3G) : C'est l'UMTS, la principale norme 3G utilisée en Europe.
 La 3.5G ou 3G+ : Norme HSPA (High Speed Pocket Access) une évolution de l'UMTS.
 La 3.75G ou 3G++ : Toujours une évolution de l'UMTS, c'est la norme HSPA+ (High Speed
Pocket Access +). Il existe aussi une petite évolution avec le DC-HSPA+ (Dual-Carrier High
Speed Pocket Access +).
 La 4 -ème génération (4G) : Parfois appelée par les puristes la 3.9G, cette nouvelle
génération utilise la norme LTE (Long Term Evolution). La 4G constitue la quatrième
génération des technologies de la téléphonie mobile. Elle repose sur la nouvelle norme « LTE
» ou Long Terme Evolution, et succède directement à la technologie 3G et à la 3G+, qui se
fondaient quant à elles sur les normes UMTS et HSDPA
 La 5G est une norme de réseau de téléphonie mobile. Elle succède à la quatrième
génération, débits plus importants et une latence fortement réduite, tout en évitant le
risque de saturation des réseaux lié à l'augmentation des usages numériques. 

I. Les différentes normes des réseaux mobiles :


1. La deuxième génération des réseaux mobiles (2G) :

Le réseau 2G, déployé en 1982 reste toujours actif, actuellement c’est  le réseau le plus étendu en
France avec plus de 99% de couverture territoriale sur l'ensemble des opérateurs. Il représente le
passage de l’analogique au numérique.

La 2G est suffisante pour appeler et envoyer des SMS voire des MMS légers. Ce réseau par ailleurs
précurseur dans le transfert de données par paquets. Les débits généralement observés en 2G sont
de 9.6Kbits/s.

Figure : Architecture d’un réseau GSM

2 Le réseau GPRS :

Le réseau GPRS (General Packet Radio Service), aussi appelé 2,5G, offre une amélioration notable en
matière de débit par rapport à la 2G (171,2Kbits/s théorique, 40Kbits/s généralement en pratique).
Le standard GPRS est précurseur sur l'internet mobile.

Le GPRS et la 2G sont diffusés sur les bandes de fréquences 900 MHz et 1800 MHz.

3 Le réseau EDGE :

Evolution du GPRS, le réseau EDGE utilise en émission des bandes de fréquences comprises entre 876
MHz et 915 MHz, contre 921 MHz et 960 MHz en réception. Le réseau EDGE, aussi appelé 2,75G, a
permis la transition entre la 2G et la 3G via des débits pouvant atteindre 384Kbits/s en théorie et
100Kbits/s en pratique. L'EDGE a été développé dans le but d'optimiser la partie radio du réseau
mobile au niveau des données et d'améliorer les débits de téléchargements.
4 La troisième génération des réseaux mobiles (3G) :

La 3G a connu trois améliorations successives avec la 3G+ (aussi appelée HSPA), le H+ (HSPA+) et


le H+ Dual Carrier (DC-HSPA+). Il s'agit d'évolutions de l'UMTS visant à bénéficier de meilleurs débits :
3,6Mbits/s pour la 3G+, 5Mbits/s pour le H+ et 10Mbits/s pour le H+ Dual Carrier. Ces avancées ont
permis d'aller plus loin dans les usages internet, avec la possibilité de visionner des vidéos
instantanément, sans patienter le temps du chargement.

La 3G a été conçu pour permettre des diverses applications sur le mobile comme la vidéo et
améliorer la QoS (Qualité Of Service) du MultiMedia.

1. L’architecture d’un réseau UMTS : elle se décompose en 3 parties qui sont :

Figure: Architecture générale du réseau UMTS

2. Débit de l’UMTS Théoriquement

L’UMTS permet d'obtenir des débits de transfert de 1.920 Mbit/s.

Certain abonné peut profiter du débit selon le lieu d'utilisation et la vitesse de déplacement :

 Transmission efficace en mode paquet.


 Compatibilité avec les systèmes 2G et possibilité d’intégrer de nouvelles
technologies.
 Gain de traitement plus élevé.
 Possibilité de transmettre des services à haut débit.
 Meilleure performance pour détecter les trajets multiples.
3. Qualité de service dans UMTS
- La classe Conversational qui permet aux conversations vocales de proposer une bande
passante contrôlée avec échange interactif en temps réel avec un minimum de délai entre les
paquets.
- La classe Streaming qui permet aux services de streaming de fournir une bande passante
continue et contrôlée afin de pouvoir transférer la vidéo et l’audio dans les meilleures
conditions.
- La classe Interactive destinée à des échanges entre l’équipement usager et le réseau comme
la navigation Internet qui engendre une requête et une réponse par le serveur distant.
- La classe Background permet des transferts de type traitements par lots qui ne demandent
pas de temps réel et un minimum d’interactivité (envoi et réception de messages
électroniques).

5 La 4 -ème génération (4G) :

Avec un débit théorique de 150Mbits/s et un débit pratique de 40Mbits/s, la 4G ou LTE (Long Term
Evolution) donne aux usagers l'opportunité de surfer à très grande vitesse. L'utilisation des bandes de
fréquences dépend de l'opérateur : tous utilisent le 2600 MHz. Le 800 MHz est employé par tous les
opérateurs excepté Free, qui emploie le 700 MHz. La 4G s’appuie sur un réseau de transport à
commutation par paquet IP.

Figure : Architecture du système LTE

 Aujourd'hui, tous les opérateurs proposent des forfaits 4G. Sa couverture est d'ailleurs très complète
et similaire à la 3G. La 4G permet de transférer des fichiers lourds, visionner des vidéos en HD, "live
streamer"…

6 Le réseau 4G+ :

Comme le GSM et l'UMTS, la norme LTE a connu des évolutions qui ont abouti au développement de
la 4G+. Les débits pouvant atteindre 1Gbit/s à l'arrêt et 100Mbits/s en mouvement. Aujourd'hui,
toutes les zones urbaines du monde sont bien couvertes par la 4G+.
La 5G :

La technologie 5G donne accès à des débits dépassant largement ceux de la 4G, avec des temps de
latence très courts et une haute fiabilité. Elle vise à supporter jusqu'à un million de mobiles au
kilomètre carré (dix fois plus que la 4G). Une fois déployée, elle doit permettre des débits de
télécommunications mobiles de plusieurs gigabits de données par seconde.

II. Indicateurs de puissance et de qualité de lien radio

 Received Signal Strength Indicator (RSSI) :

Mesure de la puissance d’un signal reçu par le terminal client sur la bande de fréquence concerné.

 Reference Signal Received Power (RSRP) :

Mesure la puissance du signal de référence reçu par le terminal client en provenance d’une station
de base.

 Reference Signal Received Quality (RSRQ) :

Mesure de qualité de la réception du signal obtenue d’un ratio entre le RSRP et le RSSI.

 Channel Quality Indicator (CQI)

Mesure de la qualité de l’onde radio reçue par un téléphone mobile, utilisé dans les réseaux 3G et
4G.

Drive testing

Le « drive testing » est une méthode de mesure et d’évaluation de la couverture, de la capacité et de


la qualité de service d’un réseau cellulaire. Cette méthode consiste à utiliser un véhicule motorisé
contenant un équipement de mesure d’interface radio sur le réseau cellulaire pour détecter et
d’enregistrer une grande variété de paramètres des couches Physique et Application du modèle OSI
relatifs à la qualité de service sur la zone géographique donnée. En mesurant ce qu’un abonné du
réseau cellulaire pourrait rencontrer dans une zone spécifique, les opérateurs mobiles peuvent
apporter des changements dirigés sur leurs réseaux offrant une meilleure couverture et un meilleur
service à leurs clients.

III. Qualité de Service


QoS est un élément important à prendre en considération dans l’exploitation des réseaux et des
services qu’ils supportent.

1. Définition

La qualité de service ou Quality of service (QoS) en général définit la capacité de transmission un


nombre de paquet dans de bonnes conditions dans une connexion entre un émetteur et un
récepteur, en fonction de temps de réponse et de bande passante. Elle doit vérifier la capacité d'un
réseau à fournir le service avec un niveau bien déterminé, et assurer à l'usager des services
prévisibles mesurables et parfois garantie.
Il existe plusieurs définitions du terme QoS. L’IETF définit la QoS comme « un ensemble d’exigences
de service que le réseau doit satisfaire lors du transport d’un flux » [CRAWLEY et collab, 1998].
L’Union Internationale des Télécommunications - Secteur de la normalisation des
télécommunications (UIT-T) la définit comme « la totalité des caractéristiques d’un service de
télécommunication qui influent sur sa capacité à satisfaire les besoins exprimés et implicites de
l’utilisateur du service » [ITU-T, 2008]…

2. types de QoS

L’UIT-T unifie les définitions et clarifie les différents types de QoS suivants :

 La QoS intrinsèque

La QoS intrinsèque correspond au type de QoS désigné par la définition de l’IETF. Il s’agit de la QoS
émanant de la capacité du réseau.

 La QoS réalisée

La QoS peut être borné à une certaine limite à cause de divers facteurs. Le niveau atteint est appelé
la QoS réalisée.

 La QoS perçue

Est celle que perçoit le client, au vue de la QoS réalisée et de divers facteurs extérieurs influençant
son ressenti.

3. Paramètres de QoS

La qualité de service se mesure grâce à des paramètres classiques tels que, la capacité d’un lien, la
bande passante disponible, le débit, la latence, et le taux perte de paquets.

 Capacité d’un lien

Indique la quantité maximale de données en fonction de temps. Il s’agit d’une propriété du lien,
donc d’un paramètre de QoS intrinsèque, qui dépend aussi bien de ses propriétés physiques que de
sa configuration. Le gestionnaire du lien peut délibérément décider de limiter cette capacité en
jouant sur la configuration logicielle.

 Bande passante disponible

Elle se rapporte à la capacité inutilisée en fonction du temps. Elle dépend de la quantité de données
qui y circule effectivement et du temps. Il est bon de différencier la bande passante d’un lien de la
bande passante d’un chemin.
 Débit effectif

C’est est la quantité de trafic maximale pouvant être transportée par un flux sur le lien considéré sur
une période de mesure. Un débit calculé sur une connexion TCP qui a saturé le lien sur la période de
mesure va donc refléter la quantité de données que l’on peut faire transiter par unité de temps sur le
lien quand il se trouve dans les mêmes conditions que lors de la période de mesure.

 Latence

La latence dans les réseaux c’est le temps total nécessaire à la transmission d’un paquet entre sa
source et sa destination. Les conséquences de la latence sont particulièrement visibles pour tous les
services qui fonctionnent en temps réel : transmission vidéo, communication vocale, applications
interactives de type jeux-vidéo, etc.

 Taux de perte de paquets

Il correspond au nombre de paquets qui n’arrivent pas correctement jusqu’à leurs destinations. Ce
phénomène peut être principalement causé par deux facteurs.

4. Le but de QoS dans les systèmes 4G

La qualité de service (QoS) de la LTE est devenue une partie nécessaire de la planification et de la
conception du réseau 4G / LTE pour les services de données et de voix. Il existe des abonnés qui
utilisent des services LTE pour les opérations critiques (par exemple, les appels vocaux, les
transactions bancaires, les opérations hospitalières), et il y a des abonnés qui souhaitent simplement
profiter d'une expérience supérieure sur Internet et applications.

LTE a été conçu pour répondre à ces demandes accrues de données et d'applications avec des
connexions fiables et un faible coût de déploiement.

Conclusion :
Dans ce chapitre, nous avons présenté un aperçu sur les différentes normes téléphoniques et
leurs évolutions permettant de comprendre le fonctionnement actuel des réseaux d’opérateur,
ainsi que leur évolution et le concept de qualité de service et ses composantes.
Chapitre 2
Analyse et apprentissage automatique de
données

L’apprentissage automatique constitue aujourd’hui une discipline scientifique à part


entière. Composante de la "Data Science", cette discipline constitue le cœur de l’intelligence
artificielle présentée comme un phénomène qui va révolutionner l’économie mondiale.
L’apprentissage automatique tire son existence des méthodes statistiques largement développées au
cours des dernières décennies et des récents progrès du monde
de l’informatique en capacité de calcul, notamment grâce à l’accroissement des performances des
processeurs.
L’apprentissage automatique consiste en une extraction de connaissance à partir d’un
ensemble de données. La connaissance extraite peut avoir deux finalités. La première est
l’analyse et la compréhension d’un ou de phénomènes décrits par les données. La seconde est
l’apprentissage d’une réalité expliquée par les données qui se traduit sous la forme d’un modèle pour
effectuer de manière automatique une prédiction, une classification ou un regroupement.

QU’est-ce qu’une donnée statistique ?


La donnée est la représentation numérique d’une information sous une forme qui
permet d’en empiler plusieurs, de faciliter sa lecture, de faciliter l’enregistrement d’une
nouvelle et de faciliter le traitement de l’ensemble. Il peut s’agir de la trace écrite d’un
évènement, d’une description, d’un texte, d’une image, d’un son, etc. Ainsi, un ensemble
de données peut prendre différentes formes et différents formats de fichier existent pour
faciliter leurs échanges et leurs traitements.

I. L’apprentissage automatique
L’apprentissage automatique, plus connu sous son appellation anglophone Machine Learning, est un
champ d'étude de l'intelligence artificielle qui vise à donner aux machines la capacité d'apprendre à
partir de données, via des modèles mathématiques, des algorithmes.

Le but peut être d’établir un modèle de prédiction, de classification, de recommandation ou de


regroupement. Selon l’objectif et l’approche, on peut classer les méthodes d’apprentissage
automatique en plusieurs catégories.

Les paragraphes suivants présentent chacune d’elles à savoir : l’apprentissage supervisé, non
supervisé, semi-supervisé et par renforcement.

1. Apprentissage supervisée
Un apprentissage supervisé est le paradigme d'apprentissage le plus populaire en Machine Learning
et en Deep Learning, consiste à mettre en face à face un groupe de variables
appelés variables explicatives ou prédicteurs et un autre en général constitué d’une seule
variable, appelée variable cible ou à prédire. L’objectif, est d’apprendre le lien
entre les variables explicatives et la variable à prédire grâce à des algorithmes d’optimisation et de le
traduire sous forme de modèle.

2. Apprentissage non supervisée


Dans le domaine informatique et de l'intelligence artificielle, l'apprentissage non supervisé désigne la
situation d'apprentissage automatique où les données ne sont pas étiquetées.

Les différentes méthodes de « clustering »,« regroupement » ou « partitionnement » en français,


partagent le même objectif. Il s’agit toujours de déterminer un regroupement des observations optimal
selon des critères définis pour obtenir différentes classes d’individus. Ainsi, en pratique, un «
clustering » peut servir à la recherche d’une typologie, ou d’une segmentation. Pour ce faire, on
optimise le partitionnement selon des critères objectifs d’homogénéité au sein de chaque classe et
d’hétérogénéité entre les classes. En d’autres termes, on cherche à regrouper au sein d’une même
classe les individus les plus ressemblants et à obtenir les classes les plus distinctes possibles.

Le K-means est un exemple simple d’apprentissage non supervisée. C’est plus


précisément une méthode d’agrégation autour de centres mobiles. Son algorithme implémente le
principe de réallocation dynamique des individus à des centres de classes, eux-mêmes recalculés à
chaque itération. Il s’agit de voir les données comme une représentation vectorielle des observations
dans R P muni d’une métrique. C’est-à-dire que l’on peut voir les observations comme un nuage de
points dans un espace de p dimensions. La métrique utilisée, souvent la distance euclidienne, permet de
mesurer l’éloignement entre deux points du nuage. C’est une méthode itérative. Après une
initialisation des centres consistant à tirer aléatoirement k individus, l’algorithme répète deux
opérations jusqu’à atteindre une convergence :

 Chaque individu est affecté à la classe dont le centre est le plus proche au sens de la distance
euclidienne qui est notre métrique.
 On calcule les coordonnées des k centres des classes ainsi constituées.

3. Apprentissage semi-supervisé
Ce sont les méthodes qui s’inspirent à la fois de l’apprentissage supervisé et du non
supervisé pour s’adapter à certaine situation.
L'apprentissage semi-supervisé consiste à entraîner un (ou plusieurs) modèle(s) en incorporant les
données non labellisées à l'ensemble d'apprentissage .

4. Apprentissage par renforcement


C’est un cas particulier de l’apprentissage en ligne, vise à optimiser la politique d'action π de l'agent
grâce à un jeu de récompenses positives et négatives Il s’agit d’une modélisation particulière d’un
système comprenant un agent autonome et son environnement. L’agent mène des actions
continuellement dans le temps au sein de cet environnement. Chaque action est menée au temps t de
manière à maximiser une récompense quantitative. L'apprentissage demandant un grand nombre
d'expérimentation, il est très utile voir indispensable de disposer d'un environnement simulé. On
distingue deux types d’apprentissage supervisé. La différence
est au niveau du type de la variable à prédire. Si elle est qualitative, on parle de classification. Si elle
est quantitative, on parle de régression.
II. Méthodes d’apprentissage supervisé
1. Modèle linéaire
L’approche d’un modèle linéaire est basée sur l’analyse statistique, elle vise à ajuster
la prédiction en une équation linéaire Y + ε=βX où Y est la variable à prédire, X la matrice
de prédicteurs, β les coefficients à estimer et ε l’erreur. Tout en vérifiant les hypothèses
suivantes :

 L’erreur suit une loi Gaussienne pour chaque individu


 L’erreur pour un individu est indépendante de celle pour les autres
 La variance de l’erreur est la même entre les individus.

Cette approche utilise un algorithme d’optimisation pour estimer les coefficients β . Ainsi, l’équation
obtenue permet pour tout nouvel individu d’effectuer une prédiction notée Y. L’avantage d’un modèle
linéaire est la simplicité et la rapidité. Par contre, il peut être moins performant quand on est en face de
relations trop complexes entre variables explicatives et variables à expliquer ou en face de trop de
valeurs extrêmes ou « outlier ».
2. Random Forest
Il s’agit d’une extension des arbres de décision ou de régression. Le principe de fonctionnement est le
suivant :
Premièrement, un ensemble d’arbres est construit à partir d’un nombre réduit de prédicteurs choisis
aléatoirement, et en second lieu, les prédictions issues de tous les arbres sont agrégées. Chaque arbre
est construit à partir d’un échantillon bootstrap et d’un nombre restreint de prédicteurs choisi
aléatoirement. L’ensemble des arbres de régression est appelé forêt aléatoire (random forest). La
prédiction considérée est la moyenne des sorties de chaque arbre dans le cas d’une régression. Un
modèle Random Forest est assez flexible pour capturer des relations complexes entre les prédicteurs et
la variable à prédire. De plus, le Random Forest n’est pas sujet au sur-apprentissage et les valeurs
aberrantes n’impactent pas considérablement sa performance.

3. Réseaux neuronaux artificiels


Feed-Forward Neural Networks, qui contient une unique couche cachée. Le principal avantage de
cette technique d’apprentissage est sa capacité à s’adapter à des corrélations complexes entre la
variable à expliquer et les variables explicatives. De plus, la conception basée sur une seule couche
cachée conduit à des algorithmes faciles à coder et rapide à exécuter.
4.  K-nearest neighbors (kNN)
C’est un algorithme de classification supervisée, il fait partie des algorithmes les plus simples en
apprentissage machine. L’algorithme des k plus proches voisins, également connu sous le nom
de KNN ou k-NN, est un discriminant d'apprentissage supervisé non paramétrique, qui utilise la
proximité pour effectuer des classifications ou des prédictions sur le regroupement d'un point de
données individuel. En effet, KNN évalue localement à quelle classe un point est attribué. Prenons un
ensemble de données d’apprentissage D = {(X1, Y1), (X2, Y2), ..., (Xn, Yn)} avec X la variable
descriptive et Y la variable expliquée. On précise à l’algorithme KNN un paramètre k, pour classer un
nouveau point X on regarde les k plus proches voisins (en termes de distance dans l’espace de nos
données d’apprentissage) et on détermine sa classe ^y par vote majoritaire. Par exemple si ce point X à
comme voisins {(X1, 0), (X2, 0), (X3, 1)} la classe 0 est en majorité donc X sera classé 0. Pour
déterminer les voisins les plus proches plusieurs distances peuvent être utilisées comme la distance
euclidienne ou la distance de Hamming. Un exemple graphique est présenté dans la figure suivante

Figure : Représentation graphique de KNN où le carré vert représente la donnée X à classifier. Si k est
fixé à 3 X sera classé comme un rond bleu par vote majoritaire. Si k est fixé à 5 X sera classé comme
un triangle rouge.

5. Le SVM

Appartient à la catégorie des classificateurs linéaires (qui utilisent une séparation linéaire des
données), et qui dispose de sa méthode à lui pour trouver la frontière entre les catégories. Pour que
le SVM puisse trouver cette frontière, il est nécessaire de lui donner des données d’entraînement. En
l’occurrence, on donne au SVM un ensemble de points, dont on sait déjà si ce sont des carrés rouges
ou des ronds bleus, comme dans la Figure suivante. A partir de ces données, le SVM va estimer
l’emplacement le plus plausible de la frontière: c’est la période d’entraînement, nécessaire à tout
algorithme d’apprentissage automatique. Une fois la phase d’entraînement terminée, le SVM a ainsi
trouvé, à partir de données d’entraînement, l’emplacement supposé de la frontière. En quelque
sorte, il a «appris» l’emplacement de la frontière grâce aux données d’entraînement. SVM est
maintenant capable de prédire à quelle catégorie appartient une entrée qu’il n’avait jamais vue
avant, et sans intervention humaine comme c’est le cas avec le triangle noir dans la Figure.

Figure : SVM muni des données d’entraînement (les carrés bleus et


les ronds rouges déjà indiqués comme tels par l’utilisateur), a
tranché : le triangle noir est en fait un carré bleu.

SVM est un classificateur linéaire. Bien sûr, la frontière


trouvée n’est pas la seule solution possible.

6. Naive Bayes Classifier


 C’est un algorithme du Supervised Learning utilisé pour la classification. Il est particulièrement utile
pour les problématiques de classification de texte. Un exemple d’utilisation du Naive Bayes est celui
du filtre anti-spam.

Le naïve Bayes classifier se base sur le théorème de Bayes qui est un classique de la théorie des
probabilités. Ce théorème est fondé sur les probabilités conditionnelles.

Exemple :

Supposons qu’on ait une classe de lycéens. Soit A et B les deux événements suivants :

 l’événement A: l’élève est une fille.


 L’événement B : l’élève pratique l’allemand.
Quelle est la probabilité qu’on choisisse au hasard une fille pratiquant l’allemand ?

Le théorème de Bayes permet de calculer ce genre de probabilité.

Notons P la probabilité d’un événement.

P(élève est une fille ET élève pratique l ’ allemand)=P ( élève est une fille ) × P(élève pratique l ’ allemand ¿ est u

III. Évaluation d’un modèle issu d’un apprentissage supervisé


Il existe divers moyens d’évaluer la qualité d’un modèle d’apprentissage supervisé.
Nous en présentons d’abord les métriques les plus utilisées selon la catégorie d’apprentissage
supervisé (classification ou régression).

1. Mesures de qualité de Classification supervisée


Les mesures de qualité de classification permettent de juger de la confiance qu’on
peut avoir par rapport au résultat obtenu d’un modèle produit par l’apprentissage. Cela
donne aussi des éléments objectifs pour comparer plusieurs modèles.
Pour une classification, la base de l’évaluation est la matrice de confusion. Elle comporte toutes les
notions de base qui permettent de bâtir les critères d’évaluation. C’est le tableau qui croise les classes
prédites et les classes observées. Considérant, un ensemble de données composé de N instances, on
sait pour chaque instance quelle est la classe observée et quelle est la classe prédite. La matrice de
confusion permet de croiser les classes prédites et les classes observées sous forme d’un tableau de
fréquences.
2. Mesures de qualité de régression
Mesurer la qualité d’une régression consiste à évaluer la distance globale entre les valeurs prédites et
les valeurs observées. Pour les modèles de régression paramétrique, des indicateurs, comme Akaike
Information Criterion (AIC), utilisent la fonction de vraisemblance du modèle.

a) Critère d’information d’Akaike (AIC)


L’AIC est une mesure de la performance basée sur la fonction de vraisemblance du modèle. Il pénalise
les modèles avec un plus grand
nombre de prédicteurs. Il est calculé comme suit : AIC=2 k−2 ln ( L )

 L est la valeur maximale de la fonction de vraisemblance pour le modèle


 k est le nombre de paramètres estimés dans le modèle.

b) Erreur quadratique moyenne (MSE : Mean Square Error)


C’est la moyenne arithmétique des carrés des écarts entre les valeurs prédites et les valeurs observées.
Cette valeur est à minimiser dans le cadre d’une régression simple ou multiple.
Soit un échantillon de n instances, y i est la valeur observée de la variable cible pour
−¿ ¿
chaque instance i, ^y i est la valeur prédite et y est la moyenne empirique de la variable
n 2
1
cible. La MSE est calculée de la manière suivante : MSE= ∑ ( ^y − y i )
n i=1 i
c) Erreur-type (RMSE)
C’est la racine carrée de l’erreur quadratique moyenne définie ci-dessus. La RMSE se calcule par :


n
1
RMSE= ∑ ( ^y i− y i ) ❑
2
n i=1
d) Erreur absolue moyenne (MAE pour Mean Absolute Error)
Il s’agit de la moyenne arithmétique des valeurs absolues des écarts entre les valeurs prédites et les
valeurs observées.
n
1
MAE= ∑ |^y ⅈ− y i|
n L̇=1

Conclusion :
Dans ce chapitre, nous revenons sur la notion de représentation de données .D’abord, nous présentons
les méthodes d’apprentissage classées par leur type déterminé selon leur finalité. Ensuite nous faisons
un focus sur l’apprentissage supervisé qui a le plus servi au cours de nos travaux.
Chapitre 3
Conception

1. Introduction UML :
UML (Unified Modeling Language) est un langage de modélisation orientée objet développée en
réponse à l’appel à propositions lancé par l’OMG (Object Management Group) dans le but de définir
la notation standard pour la modélisation des applications construites à l’aide d’objets. Il est hérité de
plusieurs autres méthodes telles qu'OMT1 (Object Modeling Technique) et OOSE2 (Object Oriented
Software Engineering) ET Booch. Les principaux auteurs de la notation UML sont Grady Booch, Ivar
Jacobson et Jim Rumbaugh.
UML est utilisé pour spécifier un logiciel et/ou pour concevoir un logiciel. Dans la spécification, le
modèle décrit les classes et les cas d’utilisation vus de l’utilisateur final du logiciel. Le modèle produit
par une conception orientée objet est en général une extension du modèle issu de la spécification.
Il enrichit ce dernier de classes, dites techniques, qui n’intéressent pas l’utilisateur final du logiciel
mais seulement ses concepteurs. Il comprend les modèles des classes, des états et d’interaction. UML
est également utilisée dans les phases terminales du développement avec les modèles de réalisation et
de déploiement.
UML est un langage utilisant une représentation graphique. L’usage d’une représentation graphique
est un complément excellent à celui de représentions textuelles. En effet, l’une comme l’autre est
ambiguës mais leur utilisation simultanée permet de diminuer les ambiguïtés de chacune d’elle. Un
dessin permet bien souvent d’exprimer clairement ce qu’un texte exprime difficilement et un bon
commentaire permet d’enrichir une figure. Il est nécessaire de préciser qu’un langage tel qu’UML ne
suffit pas à produire un développement de logiciel de qualité à toute seule. En effet, UML est un
ensemble de formalismes permettant d’appréhender un domaine et de le modéliser.
UML 2.0 comporte ainsi treize types de diagrammes représentant autant de vues distinctes pour
représenter des concepts particuliers du système. Ils se répartissent en deux grands groupes :

Diagrammes structurels ou diagrammes statiques :

 Diagramme de classes (Class diagram)


 Diagramme d’objets (Object diagram)
 Diagramme de composants (Component diagram)
 Diagramme de déploiement (Deploymentdiagram)
 Diagramme de paquetages (Package diagram)
 Diagramme de structures composites (Composite structure diagram)

Diagrammes comportementaux ou diagrammes dynamiques :

 Diagramme de cas d’utilisation (Use case diagram)


 Diagramme d’activités (Activitydiagram)
 Diagramme d’états-transitions (State machine diagram)
 Diagrammes d’interaction (Interaction diagram)
 Diagramme de séquence (Sequencediagram)
 Diagramme de communication (Communication diagram)
 Diagramme global d’interaction (Interaction overviewdiagram)
 Diagramme de temps (Timing diagram)

Ces diagrammes, d’une utilité variable selon les cas, ne sont pas nécessairement tous produits à
l’occasion d’une modélisation. Les plus utiles pour la maîtrise d’ouvrage sont les diagrammes
d’activités, de cas d’utilisation, de classes, d’objets, de séquence et d’états transitions. Les
diagrammes de composants, de déploiement et de communication sont surtout utiles pour la
maîtrise d’œuvre à qui ils permettent de formaliser les contraintes de la réalisation et la solution
technique.

2. Expression initiale des besoins :

Notre future application mobile aura comme objectifs de prédire le débit (RLC), niveau de signal
(RSRP) et qualité de signal (RSRQ), en utilisant des mesures recueillies sur le réseau de l’opérateur et
sur les terminaux mobiles des utilisateurs, avant d’établir une connexion. L’analyse de ces données
montre qu’il est effectivement possible d’exploiter ces mesures pour prédire le débit, niveau de
signal et qualité de signal réalisable avec une précision acceptable. Cela a permis d’élaborer des
stratégies de coopération entre le terminal mobile, le réseau d’opérateur et le réseau de diffusion de
contenu

3. Spécification des exigences d'après les cas d'utilisation :

Acteurs et cas d'utilisation sont les concepts UML fondamentaux pour la spécification des exigences.
Dans cette section, nous les identifierons à partir de l'expression initiale des besoins de notre
étude de cas. Nous structurerons, relierons et classerons ensuite ces cas d'utilisation et élaborerons
les représentations graphiques UML associées.

a) Identification des acteurs :

Un acteur représente un rôle joué par une entité externe (utilisateur humain, dispositif matériel ou
autre système) qui interagit directement avec le système étudié. Il peut consulter et/ou modifier
directement l'état du système, en émettant et/ou en recevant des messages susceptibles d'être
porteurs de données.

Dans le cas de notre système, nous avons identifié principalement deux (02) acteurs en interaction
avec celui-ci :

 Ingénieur optimisation Radio : Optimiser le fonctionnement des nouveaux sites et des


nouvelles technologies. Participer aux plans d'amélioration de la qualité de service end-to-
end
 L’abonné : vérifier s’il peut se connecter à son réseau mobile, établir et maintenir un appel
pendant une période minimale, atteindre un débit spécifique dans la transmission de
données ou accéder aux différents services.

b) Identification des cas d'utilisation :

Un cas d'utilisation (use case) représente un ensemble de séquences d'action qui sont réalisées par
le système et qui produisent un résultat observable intéressant pour un acteur particulier. Il permet
de décrire ce que le futur système devra faire, sans spécifier comment il le fera.

Reprenons un à un les deux acteurs et listons les différentes façons qu'ils ont d'utiliser le futur
système.

 L’abonné :
- Consulter la page d’accueil
- Saisir les données
- Consulter les résultats

Le cas d'utilisation authentification est un cas qui doit être réalisé afin de permettre à chaque
acteur d'exécuter ses propres cas d'utilisation. Ce cas d'utilisation est qualifié de « fragment » ; il ne
représente pas un objectif à part entière de l'acteur, mais plutôt un objectif de niveau intermédiaire .

 Ingénieur optimisation Radio 


- Gérer les utilisateurs
- Gérer les statiques
4. Spécification détaillée des exigences
Dans ce qui suit, nous décrirons de façon détaillée certains cas d'utilisation identifiés précédemment
en recensant de façon textuelle toutes les interactions entre les acteurs et le système .

a. Cas d'utilisation Authentification

Sommaire d’identification
Titre du cas d'utilisation L'authentification

Résumé L'authentification permet d'accéder à des fonctionnalités réservées


à un type d'utilisateur donné.

Acteurs L’abonné, Ingénieur optimisation Radio 

Description des scénarios

Scénario nominal 1. L’utilisateur accède à la page. 2. L’utilisateur choisit sa catégorie.


3. Le système affiche le formulaire d'authentification.
d'authentification 4. L’utilisateur saisit son login et son mot de
5. Le système vérifie l'existence passe
du compte. 6. Le système renvoie l'interface
correspondante.

Enchainements d'erreur Aucun compte correspondant au couple login/mot de passe


indiqué :
le système lève une exception ; le cas d'utilisation se termine en
échec.

Post conditions L'utilisateur est authentifié et accède aux fonctionnalités qui lui
sont dédiées.
Table : Description textuelle du cas d'utilisation Authentification.
Figure : Diagramme de cas d'utilisation
b. Diagrammes de séquence :

L'objectif des diagrammes de séquence est de représenter les interactions entre les objets en
indiquant la chronologie des échanges. Cette représentation peut se réaliser par cas d'utilisation en
considérant les différents scénarios associés.

Dans ce qui suit, nous représentons le diagramme de séquence d'un scénario représentatif de
chacun des cas d'utilisation décrits précédemment.

3.3.1Cas d'utilisation Authentification

Figure : Diagramme de séquence Authentification

3.4 Diagramme de classes


Un diagramme de classe se définit comme étant un ensemble de classes contenant des
attributs et des opérations, reliées les unes aux autres par des relations et ceci en ayant des
conditions de participation (cardinalités) ; il s'agit de la version UML de la base de données.

Les points forts d'UML

UML est un langage formel et normalisé

o gain de précision

o gage de stabilité

o encourage l'utilisation d'outils UML est un support de communication performant

o Il cadre l'analyse.

o Il facilite la compréhension de représentations abstraites complexes.

o Son caractère polyvalent et sa souplesse en font un langage universel.

Les points faibles d'UML:

La mise en pratique d'UML nécessite un apprentissage et passe par une période d'adaptation.

la nécessité de s'accorder sur des modes d'expression communs est vitale en informatique.

UML n’est pas à l'origine des concepts objets, mais en constitue une étape majeure, car il unifie les
différentes approches et en donne une définition plus formelle.

Le processus (non couvert par UML) est une autre clé de la réussite d'un projet.

l'intégration d'UML dans un processus n'est pas triviale et améliorer un processus est une tâche
complexe et longue.

Les auteurs d'UML sont tout à fait conscients de l'importance du processus, mais l'acceptabilité
industrielle de la modélisation objet passe d'abord par la disponibilité d'un langage d'analyse objet
performant et standard.

Vous aimerez peut-être aussi