Vous êtes sur la page 1sur 5

Algorithmes dapprentissage pour les rseaux

sans fil petites cellules


Zakia Mounir, Safae Lakhili
Laboratoire dInformatique Mathmatiques
appliques Intelligence Artificielle et
Reconnaissance de Formes (LIMIARF) Rabat
Email : mounirzakia@gmail.com, safae.lakhili@gmail.com

RsumLes femtocellules visent accrotre la capacit


et la zone de couverture du rseau cellulaire. Toutefois, de
nouveaux dfis de conception se posent en dployant les
femtocellules de manire alatoire sur le rseau cellulaire,
do un rseau htrogne. Un des principaux problmes est
les interfrences causes par les transmissions croises du
femtocellule et macrocellule qui oprent sur le mme spectre
frquentiel.
Parmi tous les mcanismes de contrle daccs, laccs hybride semble tre un choix prometteur, puisque la femtocellule ouvre une partie de ses ressources pour les utilisateurs
macrocellulaires tout en rservant la partie rsiduelle ses
propres utilisateurs.
Nous proposons un mcanisme de contrle daccs hybride,
o la macrocellule rmunre un montant de remboursement
aux femtocellules en fonction de leur contribution de taux
de donnes aux utilisateurs macrocellulaires.
Le but de ce travail est dtudier la concurrence de lenvironnement entre les femtocellules de manire dcentralise
en utilisant lalgorithme dapprentissage LRI.
Quelques simulations ont t menes et les rsultats
montrent que les utilits des deux, macrocellule et femtocellule, ont significativement amliors en exploitant le
mcanisme daccs hybride.

Khalil Ibrahimi
Enseignant chercheur au dpartement
Informatique, facult des sciences
LARIT/IBN-Tofail Knitra
Email : khalil.ibrahimi@gmail.com

contribution nest pas vaine.


Le reste de cet article est organis comme suit : la modlisation du systme sera dcrite dans la section 2 suivie
des dtails et analyses de cadre de remboursement pour
adopter laccs hybride par la femtocellule en section
3, lapplication de lalgorithme dapprentissage LRI est
fournit en section 4 , des rsultats numriques sont ensuite prsents dans la section 5 pour valider les rsultats
thoriques et dmontrer les performances souhaitables
de lalgorithme LRI, la dernire section conclut larticle.
II. M ODLISATION DU SYSTME
On propose un modle de systme pour ltude de
lutilit, y compris larchitecture du rseau et les paramtres de base.
Figure 1 reprsente un rseau macro-femto, compos de
macro BS (Base Station), et trois femto BSs.

I. I NTRODUCTION
Les mthodes daccs du femtocellule peuvent tre
classes en trois catgories : laccs ouvert o toute ressource est ouverte lusage du public, laccs ferm o
seuls les utilisateurs autoriss du femtocellule peuvent
avoir accs et laccs hybride dont une partie de la
ressource reste rserve tandis que la partie rsiduelle
est ouverte. Comme les deux accs ouvert et ferm ont
leurs propres avantages et inconvnients, laccs hybride
est propos pour exploiter lavantage des deux.
De ce point de vue, cest une option raisonnable que
les fournisseurs macrocellulaires se tournent vers les
propritaires femtocellulaires et leur demander daffecter
certaines de leurs ressources aux utilisateurs macrocellulaires.
Nanmoins, puisque les propritaires de femtocellule
sont videmment pas intresss partager leurs propres
ressources sans aucune rcompense, les fournisseurs macrocellulaires doivent offrir des incitations appropries
pour assurer les propritaires de femtocellule que leur

F IGURE 1. Rseau macro-femto

TDMA(Time Divison Multiple Access) est utilis pour


la transmission de donnes. La transmission de donnes
est divise en trames, elles-mmes divises en intervalles

de temps (times-slots). FH (Femtocell Holder) est en


charge de la distribution de time-slots pour les utilisateurs qui vont transmettre travers Fi (i femtocellules).
Chaque trame est compose de deux parties, savoir la
priode de transmission rserve aux utilisateurs femto
et la priode de transmission pour les utilisateurs macro.
Supposons que FH prvoit douvrir une fraction i dans
chaque trame aux utilisateurs macro, et le temps de
transmission de macro utilisateur MUi,j ,(j utilisateurs
K

macro de 1 Km,i ) est i,j satisfaisant j=m,i1 i,j = i .


Le reste de fraction (1 i ) est ddi la transmission
des utilisateurs femto. Femto utilisateur FUi,j ( j utilisateurs femto allant de 1 K f ,i ) obtient i , satisfaisant
K f ,i

j=1 i,j = 1 i .
Nous prsumons que la macro BS et les femto BS fonctionnent sur des frquences diffrentes et ninterfrent
pas. Les utilisateurs de la mme femtocellule adoptent
le TDMA pour la transmission de donnes, ce qui ne
provoque pas dinterfrence entre eux. Les diffrentes
stations de base femto peuvent rutiliser le mme spectre
et nous supposons que linterfrence femto-femto est
dtermine uniquement par la densit de stations de
base femto, note Ii (K ).
Le signal reu rapport interfrence bruit SINR (Signal
Interference Noise ratio) est exprime comme suit [1] :
i =

Pi
Sdn |h2 |
N0 + Ii (K )

(1)

O :
Pi est la puissance de transmission du Fi.
N0 est le bruit gaussien.
Sd est la composante log-normal shadowing.
n est lexposant de lvanouissement.
|h| est le Magnitude distribu dvanouissement de
Rayleigh.
Par consquent, nous pouvons obtenir la vitesse de
transmission agrge dutilisateurs femto et macro, qui
sont servis respectivement par les stations de base femto,
en multipliant le temps de transmission et la capacit du
canal [1].
R f ,i = (1 i )C f , i (2)
Rm,i = (i )C m , i

(3)

O :
C f ,i = log(1 + f ,i )

(4)

Cm,i = log(1 + m,i )

(5)

III. C ADRE DE REMBOURSEMENT


Nous proposons un cadre de remboursement dutilit
dans lequel WSP ( Wireless Service Provider) espre
motiver FHs pour adopter laccs hybride par remboursement. En utilisant les ressources femto, WSP est en
mesure daccrotre sa capacit de rseau et daugmenter
la satisfaction des utilisateurs.

Nous supposons que WSP met une somme totale de


remboursement m, qui est en outre rparti entre FHs
qui ouvrent leur BS aux utilisateurs macro. Comme
FHs permet aux utilisateurs macros transmettre dans
une fraction de temps diffrente i , il est raisonnable
de diviser les remboursements dune manire que la
FH qui contribue le plus de temps obtient le meilleur
remboursement et celle qui contribue le moins obtient le
plus bas.
Les remboursements obtenus par chaque FH peuvent
tre calcule comme le montant total des remboursements multiplis par le rapport du temps ddi chaque
FH et tous les temps ddis tout les FHs [1].

(6)
mi = m K i
j =1 j
A. Fonction dutilit de WSP
La fonction dutilit de WSP est dfinie comme le
profit du taux de dsabonnement rduit de lutilisateur
moins les remboursements accords aux FHs [1].
UWSP = m (1 c) m

(7)

O :
c est le taux de dsabonnement des utilisateurs
macro (churn rate).
m est le revenue quivalent lorsque c diminue de
1%.
Une mauvaise qualit de service provoque le mcontentement des utilisateurs, par consquent les utilisateurs
change de WSP, si FH aide augmenter la capacit de
macro BS, WSP est capable de fournir une meilleure
qualit de service, ainsi les utilisateurs macro sont prts
rester avec le WSP.
Le taux de dsabonnement peut tre exprim comme :
c=

1
1 + expa(b)

(8)

O :
a est la sensibilit de lutilisateur vers lincrment
de QoS (quality of service).
b les exigences de circulation rserves aux utilisateurs de macro
le taux de donnes ralisable pour les utilisateurs
macro. Il peut tre calcul comme suit :
K

Rm,i + 0

(9)

i =1

O 0 est la capacit de macro BS.


B. Fonction dutilit de FH
La fonction dutilit de FH est compos de taux de
transmission des utilisateurs femto, et les remboursements tirs de WSP en ouvrant une partie de transmission du temps aux utilisateurs macros, Comme les
utilisateurs femto demandent souvent des services des

donnes de femto BS, plus la capacit quils peuvent


raliser, plus quils seront satisfaits.
Donc, nous supposons que lutilit de FH augmente
linairement avec le taux de transmission dutilisateurs
femto [1].
U f ,i = f R f ,i + mi (10)
O f dsigne le revenu quivalent que la FH reoive
sur chaque unit de transmission pour les utilisateurs
femto.
IV. A PPLICATION DE L ALGORITHME LRI SUR LES
FEMTOCELLULES

Le systme est modlis comme un processus de


dcision de Markov (MDP).
Dfinition : Un processus de dcision de Markov est un
quadruple {S, A, r, t} compos dun ensemble dtat S,
un ensemble daction A contenant les actions disponibles
dans le systme, une fonction de rcompense r et une
fonction de probabilit de transition dtat t.
Linteraction entre lagent et son environnement, peut
tre rsume comme suit [2] :
1) Lagent observe ltat de lenvironnement et fait des
actions bas sur ltat actuel observ au moment t.
2) Ltat transite ltat suivant en raison de lexcution de laction slectionne et lagent obtient un
cot .
3) Temps t transite t + 1, puis rpter les tapes 1
et 2.

F IGURE 2. Interaction entre agent et environnement

Lr-i (linear reward inaction) est un algorithme dapprentissage qui vise rcompenser les actions prises par
lagent. Lalgorithme dapprentissage calcule les probabilits de slection daction pour la prochaine tape t + 1 en
fonction de la rcompense r et de probabilits actuelles
linstant t [4], [7].
La rgle de mise jour est donne par :
( t +1)

pi

(t)

(t)

(t)

= pi + ri (1 pi )
( t +1)

pi

(t)

Avec Pi

(t)

pour

(t) (t)

= pi ri pi

l 0 action

sinon

1) Afin de bien calculer le montant du remboursement


optimal prcis m, WSP devrait collecter priodiquement des informations sur tout le rseau du
macrocellule et femtocellule, ventuellement avec
laide de FHs.
2) Chaque femto BS collecte priodiquement des informations sur ltat du canal dutilisateurs femto
quelle supporte et les utilisateurs de macros dans
sa couverture, puis transmit linformation de ltat
du canal f ,ij , m, ij sur la trame de donnes WSP
travers la ligne du haut dbit.
3) Avec les informations de FHs, WSP est capable
de calculer la capacit du canal de la macro BS
et femto BS respectivement C f ,i , Cm,i , laide des
relations suivantes : C f ,i = log(1 + f ,i ) et Cm,i =
log(1 + m,i )
4) WSP transmit le taux de donnes agrg Kj=1 sur
la trame de donnes FHs travers la ligne du haut
dbit. Avec les actions choisir (le mcanisme de
contrle daccs) :
a1 = 1 est laccs ferm
a2 = 2 est laccs ouvert
a3 = 3est laccs hybride
5) FHs choisit le mcanisme de contrle daccs sous
une condition K f ,i K f ,imax , FHi slectionne laccs
ferm et rejette simplement la demande daccs de
tous les utilisateurs de macros lorsque ses utilisateurs atteindront le nombre maximum.
6) On suppose que FHi choisit laction a1 = 1(laccs
ferm) ou a2 = 2 (laccs ouvert) la rcompense
(t)
ri = 0 cest--dire que la rponse de FHi est dfavorable inaction (les probabilits de lalgorithme
LRI resteront inchangeables),retourner 5.
WSP ne donne aucun remboursement dans le cas
o FHi choisit laccs ferm ou ouvert donc mi = 0.
7) FHs qui ont choisit laccs hybride, donne la fraction de temps de transmission qui sera ouvert pour
les utilisateurs macro.
8) WSP vrifie dabord si les conditions sont satisfaites. Sinon, il nest pas rentable dexcuter la
politique de remboursement, donc m = 0, Si les
conditions sont satisfaites, WSP calcule le meilleur
montant de remboursement m, ce qui donne plus
lutilit pour lui-mme.
9) WSP diffuse le montant du remboursement m
FHs.
Lalgorithme propos est dcrit en Algorithm 1.

choisie

(11)

V. A NALYSE DE PERFORMANCE ET RSULTATS


NUMRIQUES

la probabilit de slection daction pour


(t)

laction i et ri la rcompense reue linstant t. Le paramtre dapprentissage 0 1 contrle la taille des


mises jour, et par consquent la vitesse dapprentissage.

Pour valuer la performance de lalgorithme dapprentissage LRI appliqu sur la femtocellule,on fournit des
rsultats numriques.

Algorithm 1 Decentralized Learning Algorithm for LTE


FemtoCells
System : MBS=1
Agent :FBSi , i 1, ...., K
State :Si = (Kmi , K f i )
Action : ai , i (1, 2, 3)
a1
= closed access, a2
hybrid access
Reward : r ai = mi = m Ki

open

access, a3

j =1 j

Data : Kmi , K f i , , K f imax


t = 0.3, U t = 0.2, U t = 0.5
Ua1
a2
a3
Choose an action ai randomly (exploration step)
if Kmi 6= 0 and K f i K f imax then
choose a1 = 1
t = 0.3
Uai
r ai = mi = 0
( t +1)
(t)
(t)
(t)
update Uai
= Uai + r ai (1 Uai )
else
if Kmi = 0 then
choose a2 = 2
t = 0.2
Uai
r ai = mi
( t +1)
(t)
(t)
(t)
update Uai
= Uai + r ai (1 Uai )
else
if Kmi 6= 0 and K f i K f imax then
choose a3 = 3
t = 0.5
Uai
give i
Calcul mi
receive immediate reward r tai = mi
( t +1)
(t)
(t)
(t)
update Uai
= Uai + r ai (1 Uai )
end if
end if
end if

Les donnes de simulation montre que pour laccs hybride, la mise jour des probabilits sarrte
lorsque la probabilit daction U(a3(t)) atteint la valeur
1 o la convergence est obtenu, lalgorithme converge
lentement dans 439 itrations, effectivement le temps
pour atteindre la convergence dpend des paramtres
dapprentissage, un lger changement dans la valeur du
paramtre l affecte la vitesse de convergence, en gnral,
les petites valeurs de l correspondent des taux plus
lents de convergence et vice versa.
La figure 3 montre galement que lutilit de la femtocellule augmente en adoptant laccs hybride.

F IGURE 4. Utilit de la femtocellule dans laccs ferm

F IGURE 5. Utilit de la femtocellule dans laccs ouvert

F IGURE 3. Utilit de la femtocellule dans laccs hybride

Les figures 4 et 5 montrent que les utilits des accs


ferm et ouvert restent constantes au bout du temps car
WSP na donn aucune rcompense dans les deux cas
ferm et ouvert.

F IGURE 6. Utilits en fonction des temps pour diffrentes valeurs du


alpha

La figure 6 montre que lalgorithme converge rapidement pour des grandes valeurs de i , en augmentant la
valeur du temps ddi 0,7 lalgorithme converge dans
123 itrations. Lorsque la femtocellule contribue plus de
temps, elle obtient un meilleur remboursement et par
consquent un gain dutilit considrable.

F IGURE 8. Montant optimal du remboursement en fonction du nombre


femto BS

VI. C ONCLUSION
Dans ce papier, les auteurs ont propos un cadre de
remboursement pour ladoption de laccs hybride, dans
lequel WSP rmunre un montant de remboursement
aux FHs en fonction de leur contribution de taux de
donnes aux utilisateurs macrocellulaires. Ils ont modlis le problme en utilisant lalgorithme LRI, et les
rsultats numriques fournis montrent que les deux WSP
et FHs peuvent obtenir un gain dutilit consdirable
dans le cadre de remboursement o la convergence de
lalgorithme est obtenu.
R FRENCES

F IGURE 7. Temps ddis agrgs en fonction du nombre de femto BS

La figure 7 montre que le temps ddi agrg ne cesse


daugmenter avec le nombre de femto BS. Par consquent, il est trs bnfique pour WSP dadopter la politique de remboursement. La figure 8 montre que le montant du remboursement m sapaise lorsque le nombre
de la femto BS augmente. Comme les remboursements
diminuent lgrement, le temps ddi de chaque femto
BS diminue galement.

[1] Yanjiao Chen, Jin Zhang, and Qian Zhang,Utility-Aware Refunding Framework for Hybrid Access Femtocell Network,IEEE
Transactions on Wireless Communications,vol. 11, no. 5, May 2012.
[2] Toshihito Kudo and Tomoaki Ohtsuki,Cell range expansion using
distributed Q-learning in heterogeneous networks,EURASIP Journal onWireless Communications and Networking, 2013.
[3] Guillaume de la Roche, Alvaro Valcarce, David Lopz-Prez, Jie
Zhang,Access Control Mechanisms for Femtocells,IEEE Communications Magazine, JULY 2009.
[4] Gerrit Jan van Ahee,"Models for Multi-Agent Learning", MasterThesis in computer Science, 2009.
[5] Sirisha Mantravadi,"Hybrid Access Control Mechanism In TwoTier Femtocell Networks", Master Thesis in Texas AM University,December 2012.
[6] Yong Bai, Lan Chen, "Hybrid spectrum arrangement and interference mitigation for coexistence between LTE macrocellular and
femtocell networks", EURASIP Journal on Wireless Communications and Networking, 2 March 2013.
[7] Mandayam A. L. Thathachar, P. S. Sastry, "Networks of Learning Automata : Techniques for Online Stochastic Optimization",Springer, 2004.