Vous êtes sur la page 1sur 10

Machine Translated by Google

Apprentissage  fédéré  pour  le  découpage  RAN  au­delà  de  la  5G
Réseaux
Amine  Abouaomar*  Membre,  IEEE,,  Afaf  Taik*  Membre,  IEEE,,  Abderrahime  Filali*  Membre,  IEEE,,  et
Soumaya  Cherkaoui  Membre  senior,  IEEE,

Résumé—Le  découpage  du  réseau  d'accès  radio  (RAN)  permet  la  division   chacun  adapté  et  dédié  pour  répondre  aux  exigences  d'un  service  5G  
du  réseau  en  plusieurs  réseaux  logiques  adaptés  aux  exigences  de  service   spécifique  [4],  [5].  Ces  services  peuvent  être  classés  en  services  haut  
différentes  et  variables  de  manière  durable.  Il  est  ainsi  considéré  comme  un  
débit  mobile  amélioré  (eMBB),  communication  ultra­fiable  à  faible  latence  
catalyseur  clé  de  la  5G  et  des  réseaux  de  nouvelle  génération.  Cependant,  la  
détermination  des  stratégies  optimales  pour  le  découpage  RAN  reste  un  
(URLLC)  et  communication  massive  de  type  machine  (mMTC).  Dans  les  
problème  difficile.  L'utilisation  d'algorithmes  d'apprentissage  automatique  pour   réseaux  de  nouvelle  génération,  les  ORM  se  composent  de  deux  entités  
résoudre  un  problème  aussi  difficile  est  prometteuse.  Cependant,  en  raison   principales,  à  savoir  le  fournisseur  d'infrastructure  (InP)  et  les  opérateurs  
des  grandes  différences  imposées  par  les  déploiements  RAN  et  de  la  disparité   de  réseaux  mobiles  virtuels  (MVNO)  [6].  D'une  part,  l'InP  possède  les  
des  services  requis,  il  est  difficile  d'utiliser  le  même  modèle  de  découpage  dans  
ressources  physiques,  y  compris  les  stations  de  base  et  les  composants  
toutes  les  zones  couvertes.  De  plus,  les  données  collectées  par  chaque  
opérateur  de  réseau  virtuel  mobile  (MVNO)  dans  différentes  zones  sont  pour  la  
du  réseau  central,  et  surtout,  les  ressources  radio.  D'autre  part,  les  MVNO  
plupart  limitées  et  rarement  partagées  entre  les  opérateurs.  L'apprentissage   louent  ces  ressources  physiques  à  l'InP  pour  déployer  les  tranches  RAN  
fédéré  présente  de  nouvelles  opportunités  pour  les  MVNO  de  bénéficier  d'une   nécessaires  à  la  fourniture  de  leurs  propres  services .
formation  distribuée.  Dans  cet  article,  nous  proposons  une  approche  
d'apprentissage  par  renforcement  profond  fédéré  (FDRL)  pour  former  des  
Dans  un  scénario  de  découpage  RAN,  l'InP  alloue  les  ressources  radio  
modèles  d'allocation  de  bande  passante  parmi  les  MVNO  en  fonction  de  leurs  
interactions  avec  leurs  utilisateurs.  Nous  évaluons  l'approche  proposée  à   aux  MVNO  conformément  aux  contrats  d'accord  de  niveau  de  service  
travers  des  simulations  approfondies  pour  montrer  l'importance  d'une  telle   (SLA).  Ensuite,  chaque  MVNO  alloue  la  ressource  radio  louée  à  l'InP  à  ses  
collaboration  dans  la  construction  de  modèles  de  découpage  de  réseau   utilisateurs  [6].
efficaces. L'allocation  des  ressources  radio  aux  utilisateurs  est  une  opération  
Termes  de  l'index :  découpage  RAN ,  apprentissage  fédéré,  renforcement extrêmement  complexe  pour  les  MVNO.  Ceci  est  principalement  dû  à  la  
ment  Apprentissage,  B5G. rareté  des  ressources  radio  et  aux  exigences  hétérogènes  de  leurs  
utilisateurs  en  termes  de  qualité  de  service  (QoS)  [7]–[9].
I.  INTRODUCTION Pour  relever  ces  défis,  diverses  approches  basées  sur  des  techniques  
d'apprentissage  automatique  (ML)  ont  été  proposées  récemment,  en  
Les  réseaux  sans  fil  modernes  ont  connu  une  croissance  explosive  du  
particulier  des  algorithmes  d'apprentissage  par  renforcement  (RL)  [10]–[13].
X
  i n
  1v82311.60 2 ]2C:vD c2
. s2irua[j

trafic  de  données  alors  que  le  nombre  d'appareils  mobiles  augmente  
Néanmoins,  en  raison  de  la  dynamique  de  l'environnement  RAN,  en  termes  
chaque  jour.  Les  appareils  mobiles  échangent  des  données  pour  acquérir  
de  densité  d'utilisateurs,  d'exigences  des  utilisateurs  et  de  conditions  de  
divers  services,  avec  diverses  qualités  et  exigences  de  la  part  de  leurs  
transmission  des  canaux  sans  fil,  le  découpage  du  RAN  reste  un  problème  
opérateurs  de  réseau  mobile  (ORM).  Pour  répondre  aux  besoins  toujours  
particulièrement  difficile  pour  les  MVNO.  Ces  facteurs  d'environnement  
croissants  de  services,  les  opérateurs  de  réseaux  sont  obligés  de  déployer  
RAN  stochastiques  ont  un  impact  majeur  sur  la  précision  des  modèles  RL,  
de  nouveaux  équipements  pour  étendre  leur  couverture  au  fur  et  à  mesure  
ce  qui  diminue  les  performances  d'allocation  des  ressources  radio  aux  
que  les  générations  de  réseaux  évoluent.  Cependant,  l'extension  de  la  
utilisateurs  [14]–[19].  En  effet,  lorsqu'un  MVNO  construit  son  modèle  RL  
couverture  des  réseaux  de  nouvelle  génération  est  coûteuse,  ce  qui  fait  du  
partage  des  infrastructures  réseau  une  alternative  intéressante  pour  divers   d'allocation  de  ressources  à  l'aide  d'ensembles  de  données  d'entraînement  
liés  uniquement  au  comportement  de  ses  utilisateurs  et  à  son  environnement,  
fournisseurs  de  services  [1].  En  partageant  différents  équipements  et  
la  précision  du  modèle  peut  être  limitée.  Pour  bénéficier  d'un  ensemble  de  
ressources  de  réseau,  tels  que  le  spectre,  les  antennes  et  les  interfaces  
données  diversifié,  les  MVNO  peuvent  collaborer  en  partageant  leurs  
radio,  les  fournisseurs  de  services  peuvent  répondre  aux  exigences  de  
données  entre  eux  afin  de  fournir  un  ensemble  de  données  diversifié  et  de  
clients  très  dispersés  à  un  coût  considérablement  réduit  [2].
haute  qualité  qui  sera  utile  dans  les  modèles  RL  de  formation.  Cependant,  
Le  découpage  réseau  (NS)  est  une  solution  avancée  basée  sur  la  
virtualisation  du  réseau  qui  permet  la  transition  d'une  infrastructure  réseau   les  MVNO  sont  souvent  des  entités  concurrentes  et  sont  peu  susceptibles  
de  vouloir  partager  leurs  données  pour  des  raisons  de  confidentialité  et  de  
statique  à  une  infrastructure  dynamique.  Il  permet  la  conception  de  
sécurité  des  données.  Pour  surmonter  ce  problème,  le  paradigme  de  
plusieurs  réseaux  logiquement  indépendants,  appelés  tranches  de  réseau,  
l'apprentissage  fédéré  (FL)  peut  être  mis  à  profit  [20]–[22].
qui  fonctionnent  sur  une  infrastructure  physique  commune  [3].
FL  est  une  approche  d'apprentissage  coopératif  dans  laquelle  plusieurs  
En  particulier,  le  découpage  du  réseau  d'accès  radio  (RAN)  consiste  à  
collaborateurs,  des  MVNO  dans  notre  cas,  forment  un  modèle  ML  à  l'aide  
partitionner  les  ressources  RAN  pour  créer  différentes  tranches  RAN ,
de  leurs  ensembles  de  données  privés,  puis  envoient  leurs  modèles  formés  
*  Les  auteurs  ont  contribué  à  parts  égales. à  une  entité  d'agrégation  pour  construire  un  modèle  global  [22],  [23].  
A.  Abouaomar,  A.  Filali,  and  S.  Cherkaoui  are  with  Polytechnique  Mon  treal,  QC,   L'entité  d'agrégation  renvoie  le  modèle  global  à  tous  les  collaborateurs  
Montreal,  Canada.  
A.  Taik  est  avec  INTERLAB,  Faculté  de  Génie,  Université  de  Sherbrooke,  QC,  
pour  une  utilisation  immédiate  ou  une  formation  complémentaire.  Ainsi,  FL  
Canada. permettra  aux  MVNO  de  construire  un  modèle  d'allocation  de  ressources  ML  robuste
Machine Translated by Google
2

tout  en  préservant  la  confidentialité  des  données  puisque  seuls  les   des  ressources  disponibles  sur  les  tranches  de  réseau  établies  et  pour  
modèles  entraînés  sont  partagés.  En  effet,  l'expérience  partagée   assurer  l'équilibrage  de  charge.  Les  auteurs  de  [27]  ont  proposé  un  
permettra  au  modèle  de  découpage  RAN  d'apprendre  à  partir  de  différents   algorithme  génétique  pour  allouer  des  ressources  en  tenant  compte  des  
scénarios,  ce  qui  le  rend  plus  adaptatif  aux  changements  d'environnement.   réseaux  hétérogènes  multi­locataires  et  multi­niveaux.  L'approche  proposée  
En  fait,  en  raison  des  répartitions  déséquilibrées,  non  indépendantes  et   consiste  à  détendre  le  problème  et  à  le  résoudre  par  des  méthodes  de  
identiques  (non  iid)  des  utilisateurs  entre  les  MVNO,  ainsi  que  de  leurs   décomposition  hiérarchique  et  de  simulation  de  Monte  Carlo.
nombres  et  exigences  variables,  FL  devient  une  solution  intéressante  pour   Ce  travail  a  porté  en  particulier  sur  la  latence  et  l'allocation  de  bande  
construire  des  modèles  robustes. passante  en  tant  que  métriques  de  QoS.  D'un  point  de  vue  plus  profond,  
Pour  promouvoir  une  plus  grande  programmabilité  dans  le  RAN,   le  processus  d'allocation  des  ressources  de  découpage  RAN  intervient  à  
l'architecture  RAN  ouverte  (O­RAN)  peut  être  exploitée  [24]–[26].  En  fait,   plusieurs  niveaux,  et  le  ML  a  été  largement  étudié  à  cet  égard  [28].  La  
le  contrôleur  intelligent  RAN  hiérarchique  (RIC),  y  compris  le  RIC  en   littérature  sépare  l'allocation  des  ressources  InP  aux  MVNO  des  MVNO  
temps  non  réel  (non  RT)  et  le  RIC  en  temps  quasi  réel  (proche  RT)  peut   qui  allouent  leurs  ressources  aux  utilisateurs.  De  nombreux  travaux  
être  utilisé  pour  gérer  les  opérations  de  découpage  du  RAN  à  l'aide  de  ML. étudient  le  découpage  MVNO  RAN  [16]–[18],  [29]  en  utilisant  RL.
Le  premier  gère  les  tâches  RAN  les  plus  lourdes,  telles  que  l'exécution  du   Cependant,  l'allocation  des  ressources  radio  n'est  donnée  que  du  point  de  
processus  de  formation,  tandis  que  le  second  effectue  des  tâches  critiques,   vue  d'un  seul  MVNO.  Par  exemple,  les  auteurs  de  [18]  ont  proposé  un  
telles  que  l'inférence  et  l'agrégation  de  modèles  ML  dans  FL. mécanisme  de  découpage  RAN  pour  améliorer  les  performances  des  
Dans  cet  article,  nous  proposons  un  mécanisme  coopératif  d'allocation   services  uRLLC  et  eMBB.  L'approche  proposée  prend  en  considération  
de  ressources  radio  basé  sur  FL  pour  les  MVNO.  Dans  ce  mécanisme,   deux  tranches  temporelles  (à  grande  échelle  et  à  courte  échelle)  des  
chaque  MVNO  forme  un  modèle  d'allocation  de  ressources  radio  RL  en   ressources  RAN.  À  grande  échelle  de  temps,  l'allocation  des  ressources  
fonction  des  besoins  de  ses  utilisateurs  et  envoie  les  modèles  formés  au   radio  dépend  des  exigences  des  utilisateurs  uRLLC  et  eMBB.  L'échelle  de  
RIC  proche  RT  pour  agrégation.  Ensuite,  le  RIC  proche  RT  renvoie  le   temps  courte  consiste  à  ce  que  les  gNodeB  allouent  leurs  ressources  aux  
modèle  RL  global  à  chaque  MVNO  pour  mettre  à  jour  ses  modèles  RL   utilisateurs  en.  Ce  problème  a  été  modélisé  comme  un  programme  binaire  
locaux.  Nous  considérons  deux  types  d'utilisateurs,  à  savoir  les  utilisateurs   non  linéaire  résolu  en  utilisant  l'apprentissage  par  renforcement  profond,  
URLLC  et  les  utilisateurs  eMBB.  Les  utilisateurs  d'URLLC  ont  besoin  d'une   précisément  le  modèle  d'apprentissage  Q  profond.
faible  latence,  tandis  que  les  utilisateurs  d'eMBB  ont  besoin  d'un  débit  de   Bien  que  le  travail  mentionne  que  les  ressources  peuvent  être  allouées  à  
données  élevé.  A  notre  connaissance,  il  s'agit  du  premier  travail  à  proposer   partir  de  nœuds  adjacents,  cependant,  ce  travail  ne  considère  que  
une  allocation  coopérative  des  ressources  radio  entre  les  MVNO  basée  sur  le  F LDRL.
l'allocation  
des  ressources  pour  un  seul  opérateur.  Les  travaux  de  [19]  ont  
Les  principales  contributions  de  cet  article  sont  résumées  comme  suit : envisagé  une  approche  stratégique  via  des  jeux  de  type  Stackelberg  pour  
faire  face  à  la  fréquence  et  à  l'approvisionnement  en  énergie  pour  l'InP.  
•  Nous  modélisons  le  problème  d'allocation  de  ressources  radio  pour  les  utilisateurs   Les  auteurs  ont  fourni  une  analyse  de  l'équilibre  où  les  utilisateurs  de  
URLLC  et  eMBB  comme  un  problème  d'optimisation  continue  non  linéaire.  •   MVNO  sont  uniformément  répartis.  Les  auteurs  obtiennent  une  politique  
Nous  modélisons  le  problème   d'équilibre  unique  à  chaque  couche  dans  le  scénario  particulier  lorsque  
d'allocation  des  ressources  radio  d'un  MVNO  comme  un  processus  décisionnel  de   chaque  MVNO  ne  gère  qu'une  seule  catégorie  d'utilisateurs.  En  ce  qui  
Markov  (MDP).  •  Nous  développons  un  algorithme  Deep  RL  (DRL)   concerne  le  scénario  plus  large  des  MVNO  qui  desservent  plusieurs  types  
pour  allouer  des  ressources  radio  aux  utilisateurs  URLLC  et  eMBB  de  chaque   d'utilisateurs,  les  auteurs  ont  proposé  un  algorithme  différentiel  évolué  à  
MVNO.  •  Nous  concevons  un  mécanisme  DRL  fédéré  (FDRL)  sur  une   deux  couches  ainsi  qu'une  méthode  basée  sur  le  gradient  pour  atteindre  l'équilibre.
architecture  O­RAN  pour  améliorer  de  manière  coopérative  l'opération  d'allocation   Les  travaux  de  [30]  introduisent  une  approche  de  découpage  dynamique  
RAN  pour  les  réseaux  véhiculaires  afin  de  gérer  divers  services  IoV  avec  
des  ressources  radio  des  MVNO.  •  Nous  évaluons  le  mécanisme  proposé  par  
des  simulations  approfondies. différentes  exigences  de  QoS.  L'algorithme  basé  sur  RL  résout  le  problème  
en  deux  phases,  y  compris  la  répartition  de  la  charge  de  travail  et  les  
décisions  d'allocation  des  ressources.  Une  approche  RL  acteur­critique  
DDPG  a  notamment  été  adoptée.
Le  reste  de  cet  article  est  organisé  comme  suit.  La  section  II  traite  des  
Malgré  les  efforts  importants  pour  fournir  des  solutions  de  gestion  
travaux  connexes  sur  le  découpage  RAN  basé  sur  DRL  et  FL.  La  section  
dynamique  et  efficace  du  découpage  RAN,  de  nombreux  aspects  
III  présente  le  modèle  du  système  et  la  formulation  du  problème  d'allocation  
manquaient  à  la  littérature.  L'aspect  de  la  vie  privée,  qui  est  crucial  et  peut  
des  ressources  radio.  La  section  IV  présente  le  mécanisme  FDRL  proposé.  
représenter  une  menace  pour  les  MVNO  ainsi  que  pour  les  utilisateurs,  
La  section  V  examine  les  évaluations  et  les  résultats  du  mécanisme  
n'est  pas  encore  étudié.  De  plus,  en  partageant  les  expériences  des  uns  
proposé.  La  conclusion  est  présentée  dans  la  section  VI.
et  des  autres,  les  MVNO  peuvent  améliorer  leurs  schémas  d'allocation  des  
ressources  grâce  à  la  formation  collaborative  de  modèles  d'allocation  des  
ressources  et  les  partager  de  manière  FL.  Une  telle  direction  de  recherche  
II.  TRAVAUX  CONNEXES
n'a  pas  été  mieux  étudiée.  À  notre  connaissance,  il  s'agit  du  premier  travail  
De  nombreux  travaux  ont  étudié  le  découpage  RAN  en  général,  comme   à  étudier  l'utilisation  de  FL  dans  la  gestion  des  réseaux  de  nouvelle  
dans  [16]  proposé  DeepSlice,  une  approche  basée  sur  un  réseau  neuronal   génération,  en  particulier  pour  l'allocation  des  ressources  multi­MVNO.  
d'apprentissage  en  profondeur  pour  résoudre  efficacement  les  problèmes   Les  auteurs  de  [17]  ont  étudié  l'allocation  des  ressources  pour  les  tranches  
d'équilibrage  de  charge  et  de  disponibilité  du  réseau.  Dans  leur  travail,  ils   de  réseau  sans  fil.
utilisent  les  KPI  disponibles  pour  entraîner  le  modèle  d'analyse  du  trafic   Ce  travail  a  proposé  un  schéma  d'allocation  des  ressources  de  découpage  
entrant  et  de  prédiction  de  la  tranche  de  réseau  pour  tout  type  d'utilisateur. à  deux  niveaux  utilisant  DRL.  En  outre,  ce  document  a  abordé  le  problème  
L'allocation  intelligente  des  ressources  permet  une  utilisation  efficace au  sein  d'une  seule  BS,  et  les  utilisateurs  accèdent  au  RAN  associé
Machine Translated by Google
3

MVNO1

Qualité  de  service  locale

Base  de  données

MVNON

Modèle  local

éR
  egapuoNcA D
Modèle  mondial

... Contrôleur  intelligent  RAN
InP

MVNO2

Fig.  1 :  Vue  d'ensemble  du  modèle  de  système.

ressources  via  les  MVNO.  Par  conséquent,  le  processus  d'allocation  des  ressources   III.  ARCHITECTURE  MVNOS  COMPATIBLE  AVEC  FDRL

est  divisé  en  deux  niveaux.  Le  premier  niveau  est  dédié  à  l'allocation  des  ressources  
InP  aux  MVNO  en  utilisant  la  technique  DQN  couplée  aux  enchères.  Le  deuxième   A.  Modèle  de  système

niveau  considère  l'allocation  des  ressources  des  MVNO  aux  utilisateurs  en  utilisant  
Nous  considérons  une  architecture  RAN  compatible  RIC  avec  une  seule  station  
la  technique  de  duel  DQN  pour  converger  vers  une  solution  optimale.  Cependant,  
de  base  (BS)  appartenant  à  un  InP.  La  BS  fonctionne  sur  une  bande  passante  totale  
la  technique  DQN  prend  des  délais  plus  longs  pour  converger  vers  une  récompense  
B.  L'InP  est  chargé  de  desservir  un  ensemble  de  MVNO  M  =  {mi},  i     {1,  2, . . . ,  M}  
stable,  ce  qui  la  rend  inadaptée  à  toutes  les  solutions  basées  sur  DRL.
en  louant  à  chacun  d'eux  une  fraction  de  la  bande  passante  totale  B  sur  la  base  
d'un  SLA.  Chaque  MVNO  mi  a  un  ensemble  d'utilisateurs  désigné  par  Ui}.

La  littérature  antérieure  sur  l'allocation  des  ressources  de  découpage  RAN  offre   Nous  considérons  deux  types  d'utilisateurs,  à  savoir  les  utilisateurs  eMBB,  et  =  {0,  
une  variété  de  solutions  et  de  techniques  qui  font  face  à  l'allocation  des  ressources,   Utilisateurs  URLLC.  Pour  un  utilisateur  j,  notons  1}  et  z  =  {0,  1}
C'est dans

j
soit  du  niveau  supérieur  (InP  allouant  des  ressources  aux  MVNO)  ou  du  niveau   z  j  les  variables  binaires  indiquant  si  j  est  un  utilisateur  eMBB  (z  e  =  1)  ou  URLLC  
inférieur  (MVNO  allouant  des  ressources  aux  utilisateurs).  Cependant,  DQN  est   (z  ujj =  1)  utilisateur,  respectivement.
principalement  adapté  pour  résoudre  des  problèmes  où  l'espace  d'observation  a  de   Dans  ce  travail,  nous  considérons  que  l'allocation  de  bande  passante  aux  MVNO  
grandes  dimensions,  il  n'est  capable  de  gérer  que  des  espaces  d'action  discrets  de   a  déjà  été  effectuée  par  l'InP.  On  note  la  fraction  de  la  bande  passante  totale  B  
faible  dimension.  Par  conséquent,  DQN  n'est  pas  bien  adapté  aux  situations  avec   louée  au  MVNO  mi  par  Bi .
des  espaces  d'action  continus  avec  des  dimensions  significativement  élevées.  Par   Un  MVNO  alloue  à  chacun  de  ses  utilisateurs  une  fraction  fi,j     [0,  
conséquent,  DQN  ne  s'applique  pas  directement  aux  domaines  continus  puisqu'il   1]  de  la  bande  passante  louée  wi ,  pour  satisfaire  ses  exigences  de  QoS  en  termes  
est  fondé  sur  la  recherche  d'actions  maximisant  la  fonction  action­valeur.  Dans  les  
de  débit  et  de  latence.  Chaque  utilisateur  u(i,j)  utilise  la  bande  passante  allouée  
cas  continus,  DQN  implique  des  processus  d'optimisation  itératifs  à  chaque  étape. pour  transmettre  un  paquet  de  taille  ξ(i,j) .  Nous  considérons  que  la  taille  de  paquet  
dépend  du  type  d'utilisateurs,  nous  notons  donc  la  taille  de  paquet  d'un  utilisateur  
eMBB  et  d'un  utilisateur  URLLC  par  ξ  e  et  ξ  u  (i,j) ,  respectivement.  Nous  considérons  
Nous  adoptons  dans  cet  article,  un  gradient  politique  déterministe  profond  pour   (i,j)  le  scénario  de  téléchargement  à  accès  
multiple  par  répartition  orthogonale  de  la  
traiter  l'aspect  discret  de  l'espace  d'action,  échappant  ainsi  à  la  malédiction  de  la   fréquence  (OFDMA)  pour  réduire  les  interférences  entre  les  utilisateurs.
dimensionnalité.  De  plus,  dans  l'approche  proposée,  les  MVNO  peuvent  bénéficier  
des  expériences  des  autres  tout  en  promouvant  la  confidentialité.
Le  débit  de  données  de  liaison  montante  réalisable  de  l'utilisateur  u(i,j)     Ui  en  utilisant
Machine Translated by Google
4

+
Passer  à  l'action

OU  Noise  
Action
État
Environnement
<BW,  Utilisateur>

Réseau  d'acteurs

Gradient  politique

Réseau  critique Fonction  de  perte
Récompense

Débit  +  Délai
  ersu i M
oàj
redragevuaS

Tampon  de  relecture

Mise  à  jour  logicielle
Réseau  cible

Fig.  2 :  Un  aperçu  de  la  solution  proposée.

la  bande  passante  allouée  est  définie  comme  suit, formuler  à  la  fois  les  problèmes  de  minimisation  et  de  maximisation  
d'un  MVNO  mi     M  dans  un  problème  conjoint  comme  suit,

δ(i,j)  =  fi,jBi  log2  (1  +  ρ(i,j)) (1)

maximiser   −
tu  z (4a)
où  ρ(i,j)  est  le  rapport  signal  sur  bruit  entre  l'utilisateur  u(i,j)  et  la   δi,j ,
par  z  j j  D(i,j)  
f
BS,  et  est  donné  comme  suit,   j Ui j Ui

sujet  à
Pi,j .gi,j
ρ(i,j)  =   2 (2) 0  fi,j  fmax ,  j  Ui , (4b)
fi,jBiσ
fi,j  ≤  1, (4c)
2 j Ui
où,  σ  est  la  puissance  de  bruit,  Pi,j  est  la  puissance  de  transmission  
=  1, (4j)
C'est

de  l'utilisateur  u(i,j)  et  g(i,j)  est  le  gain  de  canal  entre  l'utilisateur   D(i,j)  ≤  Dmax ,  je j     Ui  et  z  j


min
u(i,j)  et  la  BS.  Le  délai  de  transmission  pour  télécharger  un  paquet   δ(i,j)  ≥  δ je ,   j     Ui  et  z  j
dans
=  1 (4e)
peut  être  calculé  comme  suit :

La  recherche  de  ces  valeurs  est  soumise  à  des  contraintes  
ξ(i,j)
D(i,j)  =  δ(i,j) (3) concernant  les  besoins  des  utilisateurs  et  le  respect  des  capacités  
maximales  des  ressources.  La  contrainte  (4b)  assure  que  les  
fractions  de  bande  passante  allouées  sont  comprises  entre  0  et  
une  valeur  maximale  fmax.  La  contrainte  (4c)  garantit  que  la  bande  
B.  Formulation  du  problème passante  allouée  aux  utilisateurs  n'excède  pas  la  bande  passante  
Bi  louée  à  l'InP.  La  contrainte  (4d)  assure  que  le  débit  atteint  par  
min .
Afin  d'obtenir  une  allocation  efficace  des  ressources  pour  les  MVNO,   un  utilisateur  eMBB  doit  être  supérieur  à  un  seuil  minimum  δ   je

le  problème  nécessite  la  minimisation  de  la  somme  des  retards  subis   La  contrainte  (4e)  stipule  que  le  délai  d'un  utilisateur  URLLC  pour  
D(i,j)  pour  les  utilisateurs  URLLC  et  l'obtention  d'une  somme  plus  élevée   transmettre  son  paquet  ne  doit  pas  dépasser  un  seuil  maximum  
de  débit  de  données  δ(i,j)  pour  les  utilisateurs  eMBB .  Par  conséquent,  nous Dmax  
i .
Machine Translated by Google
5

IV.  ALLOCATION  DE  LA  BANDE  PASSANTE  FDRL une  action  ai  est  considérée  comme  valide  si  la  somme  des  fractions  est  

Dans  cette  section,  nous  présentons  le  mécanisme  FDRL  proposé  pour   inférieure  à  1,  et  si  les  fractions  allouées  entraînent  des  retards  et  des  débits  
de  données  qui  respectent  les  valeurs  SLA.  Si  l'action  n'est  pas  valide,  une  
résoudre  le  problème  d'optimisation  Eq.  (4).  Premièrement,  nous  modélisons  
le  problème  d'allocation  de  bande  passante  d'un  MVNO  comme  un  MDP  à   récompense  négative  est  renvoyée  pour  empêcher  l'agent  de  choisir  des  

agent  unique.  Ensuite,  nous  décrivons  le  mécanisme  FDRL  proposé  en   actions  similaires  dans  les  étapes  suivantes.

expliquant  l'algorithme  DDPG  et  comment  ce  dernier  est  entraîné  de  manière  
fédérée.
B.  Apprentissage  par  renforcement  profond  fédéré

Après  avoir  formulé  le  problème  en  tant  que  MDP,  une  solution  adéquate  
A.  Formulation  MDP  de  l'allocation  de  bande  passante
est  l'apprentissage  par  renforcement.  Dans  ce  cas,  chaque  MVNO  est  
Dans  cette  section,  nous  présentons  la  formulation  du  MDP.  Pour  formuler  
considéré  comme  un  agent  interagissant  avec  l'environnement  composé  
le  problème  MDP,  nous  définissons  l'espace  d'état,  l'espace  d'action  et  la  
d'utilisateurs,  en  observant  un  état  S  et  en  choisissant  une  action  a.  Le  but  de  
fonction  de  récompense.
l'agent  est  d'apprendre  une  politique  optimale  π  en  visant  à  maximiser  la  
1)  Espace  d'état :  A  chaque  pas  de  temps  t,  chaque  agent  (ie,  MVNO)  
récompense  r.
observe  l'état  de  l'environnement.  L'observation  de  chaque  MVNO  inclut  le  
L'apprentissage  par  renforcement  profond  (DRL)  combine  la  puissance  des  
type  de  ses  utilisateurs  actifs  et  leurs  gains  de  canal.  Les  types  d'utilisateurs  
réseaux  de  neurones  profonds  avec  l'apprentissage  par  renforcement  pour  
sont  nécessaires  car  ils  définissent  les  exigences  du  SLA.  L'estimation  des  
créer  des  agents  qui  apprennent  à  partir  d'états  de  haute  dimension.  En  
gains  de  canal  entre  chaque  utilisateur  associé  sur  le  canal  de  communication  
conséquence,  la  politique  π  est  représentée  comme  un  réseau  de  neurones  profonds  [13].
est  nécessaire  pour  prendre  des  décisions  d'allocation  de  bande  passante  
Le  DRL  a  été  introduit  pour  la  première  fois  via  Deep­Q  Networks  (DQN)  et  a  
adéquates.  Les  gains  du  canal  sont  collectés  périodiquement  par  chaque  
été  rapidement  adopté  par  la  communauté  des  chercheurs  pour  résoudre  de  
MVNO.  En  effet,  chaque  MVNO  diffuse  des  signaux  pilotes  à  tous  ses  
nombreux  problèmes  pratiques  de  prise  de  décision  [12].  Néanmoins,  DQN  n'est  
utilisateurs.  Par  la  suite,  chaque  utilisateur  estime  les  informations  d'état  du  
pas  conforme  à  la  politique  et  peut  ne  pas  fonctionner  correctement  dans  des  
canal  et  les  renvoie  à  son  MVNO  via  le  canal  de  retour.
environnements  présentant  de  fortes  incertitudes,  tels  que  les  réseaux  sans  fil.  
Alors  que  les  algorithmes  RL  basés  sur  la  valeur  comme  Q­learning  optimisent  
d'abord  la  fonction  de  valeur,  puis  dérivent  des  politiques  optimales,  les  méthodes  
On  note  Si(t)  l'état  observé  du  MVNO  mi  à  l'intervalle  de  temps  t.
basées  sur  des  politiques  optimisent  directement  une  fonction  objective  basée  
sur  les  récompenses,  ce  qui  les  rend  adaptées  à  des  espaces  d'action  grands  ou  infinis.
Si(t)  =  Gi(t),  Ui(t)  où  Gi(t)   (5)
Pourtant,  le  RL  basé  sur  des  politiques  peut  avoir  des  gradients  bruyants  et  
représente  le  gain  de  canal  entre  le  MVNO  mi  et  ses  utilisateurs  Ui  au  créneau   instables  [31].  En  conséquence,  nous  proposons  d'utiliser  un  algorithme  basé  
t,  Ui(t)  représente  l'ensemble  des  types  d'utilisateurs  du  MVNO  mi . sur  l'acteur  critique  [32].  En  fait,  les  approches  critiques  des  acteurs  combinent  
Les  types  d'utilisateurs  sont  définis  à   les  points  forts  des  algorithmes  RL  basés  sur  les  valeurs  et  sur  les  politiques.
l'aide  de  deux  valeurs  we  et  wu,  qui  représentent  la  priorité  de  chaque  type.   De  plus,  puisque  les  valeurs  de  fraction  sont  continues,  nous  utilisons  le  
En  général,  étant  donné  que  les  utilisateurs  d'URLLC  ont  des  exigences  de   gradient  de  politique  déterministe  profond  (DDPG)  [33],  qui  apprend  
délai  strictes,  des  valeurs  de  priorité  plus  élevées  leur  sont  attribuées. simultanément  une  fonction  Q  et  une  politique  et  effectue  des  actions  à  partir  
d'un  espace  continu.
2)  Espace  d'action :  à  chaque  tranche  de  temps,  RIC  fournit  la  fraction  de  
1)  Deep  Deterministic  Policy  Gradient  (DDPG) :  DDPG  est  un  
bande  passante  Bi  nécessaire  à  chaque  MVNO.  Un  MVNO  attribue  des  
algorithme  hors  politique  qui  utilise  quatre  réseaux  de  neurones,  à  savoir  
factions  de  Bi  à  ses  utilisateurs.  L'espace  d'action  pour  chaque  MVNO  mi  à  
le  réseau  d'acteur  µ,  le  réseau  critique  v,  le  réseau  cible  d'acteur  µ  Pour  un  
un  intervalle  de  temps  t  est  donné  comme  suit : ′ ′.
état  d'environnement  observé   , et  le  réseau  cible  critique  v
Ai(t)  =  [0,  fmax]  où   (6) donné,  l'acteur  choisit  un  action,  et  le  critique  utilise  la  fonction  Q  état­action  
suivante  pour  évaluer  cette  action.
chaque  action  ai     Ai(t)  est  représentée  par  un  vecteur  ligne  donné  comme  
un  vecteur  {f(i,j)(t),   ui,j     Ui}.

3)  Fonction  de  récompense :  Lorsqu'un  MVNO  mi  choisit  une  action  ai     
Q(Si(t),  Ai(t))  =  r(t)  +  γmaxQ(Si(t),  Ai(t)) (9)
Ai(t)  à  l'intervalle  de  temps  t,  il  reçoit  en  retour  une  récompense  Ri(t) .
L'objectif  est  de  minimiser  le  retard,  par  conséquent,  la  récompense  doit  être   Dans  le  processus  de  formation,  DDPG  utilise  la  technique  de  mémoire  de  
exprimée  en  termes  de  retard  pour  les  utilisateurs  uRLLC  et  en  termes  de   relecture  d'expérience.  En  conséquence,  l'agent  stocke  ses  expériences  
débit  de  données  pour  les  utilisateurs  eMBB. dans  un  tampon  de  taille  finie,  où  chacune  d'elles  est  définie  par  le  tuple  (S(t),  
Nous  définissons  une  récompense  liée  à  la  satisfaction  de  chaque  utilisateur  
A(t),  r(t),  S(t  +  1)),  puis  aléatoirement  échantillons  de  mini­lots  de  ces  
final,  avec
expériences  pour  effectuer  le  processus  d'apprentissage.  Cette  technique  
si  zj   =  1
C'est

  weδ(i,j) ,   _ réduit  la  corrélation  entre  les  échantillons  d'apprentissage,  ce  qui  stabilise  le  
1 (7)
r(i,j)(t)  = , si  z  
dans
=  1 comportement  de  l'algorithme  DDPG.  Dans  l'algorithme  DDPG,  la  politique  
j
wu   D(i,j) d'exploration  est  effectuée  en  ajoutant  un  bruit  aux  actions  dans  le  processus  
La  récompense  globale  peut  être  exprimée  comme  suit, d'apprentissage  Eq.(10).  Le  bruit  ajouté  permet  à  l'agent  DDPG  d'explorer  
N efficacement  son  environnement.  Nous  avons  utilisé  le  processus  Ornstein­
r(i,j)(t),  si  ai  est  valide Uhlenbeck  (OU)  pour  générer  les  valeurs  de  bruit.
ri(t)  = (8)
j=1
−0,1, sinon
Machine Translated by Google
6

qui  peuvent  être  servis  par  un  MVNO  à  la  fois,  et  nous  utilisons  un  
A(t)  =  v(S(t)|θ  v  (t))  +  N  (t), (dix) rembourrage  à  zéro  dans  le  cas  où  le  nombre  d'utilisateurs  observé  est  
inférieur  à  Cmax.  Pour  mieux  illustrer,  on  considère  un  MVNO  i  avec  Ci  
où  θ  v  désigne  les  paramètres  du  réseau  critique  et  N  est  la  valeur   =  3  utilisateurs,  et  Cmax  =  5.  Le  constat  est  Si(t)  =  [gi,1(t),  gi,2(t),  gi,3(t),  
absolue  du  bruit  OU.
0,  0,  ui,1(t),  ui,2(t),  ui,3(t),  0,  0].  Cela  nous  permet  à  la  fois  de  nous  
Le  réseau  d'acteurs  met  à  jour  ses  paramètres  en  fonction  du  gradient   adapter  au  nombre  variable  d'utilisateurs  de  chaque  MVNO  et  d'unifier  
de  politique  déterministe.  La  valeur  Q  cible  est  calculée  à  l'aide  du   le  modèle  formé.  De  même,  la  taille  de  sortie  est  alors  Cmax.  De  plus,  
réseau  cible  de  l'acteur  et  du  réseau  cible  critique  comme  suit : afin  d'éviter  le  cas  où  une  fraction  de  la  bande  passante  est  allouée  à  
un  utilisateur  qui  n'existe  pas,  on  associe  cette  action  à  une  punition  
égale  à  ­0.1  que  l'on  ajoute  à  la  récompense.
′ ′
y(t)  =  r(t)  +  γµ′  (S(t  +  1),  v′  (S(t  +  1)|θ  v )|ème  m ),  (11)
Ensuite,  à  chaque  tour  de  communication,  chaque  MVNO  entraîne  
′ ′
où  θ  v  et  θ  µ  désignent  respectivement  les  paramètres  du  réseau  cible   localement  le  modèle  DDPG.  Pour  ce  faire,  chaque  MVNO  initialise  sa  
critique  et  du  réseau  cible  acteur. mémoire  tampon  de  lecture,  puis  démarre  le  processus  d'apprentissage.  
L'apprentissage  Q  dans  DDPG  est  effectué  en  minimisant  la  fonction   Au  travers  de  plusieurs  épisodes,  les  MVNO  réinitialisent  leur  
d'erreur  quadratique  moyenne  suivante : environnement,  effectuent  une  observation  et  initialisent  l'espace  d'action  
à  l'aide  du  bruit  OU.  Pour  un  certain  nombre  d'étapes,  les  MVNO  
1 sélectionnent  une  action  ai ,  l'évaluent  et  calculent  la  récompense  reçue  
L  = (y(t  =  k)  −  µ(S(t  =  k),  A(t  =  k)|θ  µ ))2 , (12) ri ,  puis  passent  à  l'observation  suivante.  Chaque  transition  d'un  état  st  
N
k à  st+1  est  stockée  dans  le  tampon  de  relecture.  Après  un  nombre  
où  N  représente  le  nombre  d'expériences  et  θ  µ  désigne  les   prédéfini  de  transitions  stockées  (par  lots),  les  MVNO  échantillonnent  
paramètres  du  réseau  d'acteurs. des  mini­lots  aléatoires  à  partir  du  tampon  de  relecture.  Le  réseau  
Les  paramètres  du  réseau  cible  acteur  et  du  réseau  cible  critique   d'acteurs  Qi  est  mis  à  jour  par  gradient  de  politique.  Le  réseau  critique  
sont  mis  à  jour  en  douceur  comme  suit : µi  est  mis  à  jour  par  la  minimisation  de  la  fonction  de  perte.  Par  la  suite,  

les  réseaux  cibles  Q  sont  
je

et  µégalement  mis  à  jour.  A  la  fin  des  épisodes,  
je

′ ′ chaque  MVNO  envoie  son  modèle  local  mis  à  jour  au  RIC  à  des  fins  
m ←  tm  +  (1  −  t)m d'agrégation.  RIC  collecte  toutes  les  mises  à  jour  locales  des  MVNO  et  
(13)
′ ′, génère  le  modèle  global  en  utilisant  la  somme  pondérée  définie  par  θG  
dans
←  τv  +  (1  −  τ)v
dans  l'Eq.  (14).
où  0  ≤  τ  ≤  1.
2)  Federated  Deep  Reinforcement  Learning  (FDRL) :  la  
disparité  entre  les  clients  en  termes  de  géographie,  par  exemple,   V.  RÉSULTATS  NUMÉRIQUES

rend  inadéquate  l'utilisation  du  même  modèle  dans  toutes  les  zones  
Cette  section  examine  les  performances  du  mécanisme  FDRL  
couvertes.  De  plus,  la  quantité  de  données  collectées  par  chaque  MVNO   proposé  dans  différents  scénarios.  Nous  introduisons  d'abord  les  
dans  certaines  zones  (par  exemple,  les  zones  rurales)  est  assez  limitée.  
paramètres  des  expériences,  puis  nous  présentons  et  discutons  les  
Étant  donné  qu'il  est  avantageux  pour  chaque  MVNO  d'améliorer  son  
résultats.
modèle  d'allocation  de  bande  passante,  FL  a  créé  la  possibilité  pour  
plusieurs  MVNO  d'exploiter  les  données  d'un  ensemble  plus  large  de  
clients  tout  en  évitant  de  les  partager.  Chaque  MVNO  forme  un  modèle   A.  Paramètres  et  scénarios  d'expérimentation
RL  global  basé  sur  l'interaction  de  ses  utilisateurs.  Chaque  MVNO   Nous  considérons  une  architecture  RAN  compatible  RIC  avec  une  
télécharge  son  modèle  formé  localement  pour  la  ronde  en  cours  sur  le  RIC. seule  station  de  base.  Les  utilisateurs  simulés  sont  dispersés  au  hasard  
RIC  effectue  l'agrégation  des  modèles  à  l'aide  d'une  somme  pondérée   dans  une  zone  de  500m  ×  500m  autour  de  la  BS,  et  desservis  par  3  
en  utilisant  le  nombre  d'utilisateurs  de  chaque  MVNO.  Si  nous  supposons   MVNO.  Le  tableau  I  récapitule  les  différents  réseaux  sans  fil
que  le  paramètre  du  modèle  local  est  noté  θi ,  le  paramètre  du  modèle   paramètres.
global  est  donné  par, Les  MVNO  forment  collectivement  un  modèle  DDPG.  Nous  créons  et  
1 formons  le  modèle  à  l'aide  du  framework  PyTorch.  Les  quatre  réseaux  
θG  = Ciθi (14)
C   du  modèle  ont  deux  couches  cachées  entièrement  connectées  avec  
i M
respectivement  400  et  300  neurones.  Étant  donné  que  le  nombre  
où  C  =  le   i M   Ci  est  le  nombre  total  d'utilisateurs  et  Ci  est maximum  d'utilisateurs  est  de  5,  la  taille  de  la  couche  d'entrée  est  de  10  
cardinal  de  Ui ,   l'ensemble  des  utilisateurs  du  MVNO  i. et  celle  de  la  couche  de  sortie  est  de  5.  Nous  avons  utilisé  l'unité  linéaire  
l'algorithme  1  décrit  l'approche  FDRL  proposée.  Premièrement,  les   rectifiée  (ReLU)  comme  fonction  d'activation  car  elle  permet  d'éviter  la  
réseaux  d'acteurs  et  de  critiques,  et  les  réseaux  d'acteurs  et  de  critiques   disparition  des  gradients  en  rétropropagation,  d'autant  plus  que  l'action  
cibles  sont  initialisés  de  manière  centralisée.  Étant  donné  que  chaque   l'espace  est  limité  aux  valeurs  inférieures  à  fmax  =  0,3.  Nous  avons  
MVNO  peut  desservir  un  nombre  différent  d'utilisateurs  à  chaque  fois,   utilisé  l'Adam  optimisé  avec  deux  taux  d'apprentissage  différents  pour  
son  observation  étant  la  concaténation  d'un  tableau  représentant  les   l'acteur  et  le  critique.  L'exploration  est  assurée  par  l'utilisation  d'une  
valeurs  de  gains  de  canal  et  d'un  tableau  représentant  les  types   fraction  de  la  valeur  absolue  du  bruit  OU  égale  à  1/10.  Le  tableau  II  
d'utilisateurs,  nous  définissons  la  taille  d'entrée  sur  une  valeur  de  2  ×   résume  les  différents  hyperparamètres  d'entraînement  du  DDPG.
Cmax ,  avec  Cmax  le  nombre  maximum  d'utilisateurs
Machine Translated by Google
7

TABLE  II :  Paramètres  DDPG
Algorithme  1 :  Algorithme  FDRL
Valeur  du  paramètre
1  Initialiser  les  réseaux  Actor  et  Target  Actor ; Graine  aléatoire  0  
2  Initialiser  les  réseaux  Critic  et  Target  Critic ; Taux  d'apprentissage  0,0001  (Acteur),  0,001  (Critique)
3  Initialisez  l'environnement ;  4  pour  r   Taille  du  lot  128  
  tours :  faire  pour  i     M :   Facteur  d'actualisation  0,99  
Fonction  de  perte  Mean­Square  Error  
5 faire
Fonction  d'activation  ReLu  
6 Initialisez  le  tampon  de  relecture ;   Optimizer  Adam
7 pour  e  dans  les  épisodes :  faire
8 Réinitialisez  l'environnement ; TABLEAU  III :  Paramètres  FDRL

9 Recevoir  l'observation  initiale ; Valeur  du  paramètre
dix Initialiser  l'action  en  fonction  du  bruit  d'exploration ;   Graine  aléatoire  0
Rondes  de  communication  5
pour  t  
Épisodes  locaux /  environ  500
11   étapes :  sélectionnez   Étapes /  épisode  50
12 l'action  ai  en  fonction  de  la  politique  actuelle ;   Réinitialiser  l'étape  25

évaluer  
13 ai ;  calculer  la  
respectivement.  Dans  ce  cas,  la  fraction  de  la  bande  passante  allouée  à  chaque  
14 récompense  ri ;  observer  
MVNO  est  proportionnelle  à  son  nombre  d'utilisateurs.
15 l'état  suivant  st+1 ;  stocker  la  
Dans  ce  qui  suit,  nous  étudions  deux  scénarios :  Non­iid  avec  un  nombre  égal  
16 transition  dans  le  tampon  de  relecture ;  
d'utilisateurs,  et  Non­iid  avec  un  nombre  inégal  d'utilisateurs.  Pour  évaluer  la  
17 échantillonner  des  lots  aléatoires  à  partir  du  
performance  de  FDRL  et  son  bénéfice,  nous  comparons  avec  le  cas  où  chaque  
tampon  de  relecture ;
MVNO  forme  et  utilise  un  modèle  local  sans  collaborer  avec  d'autres  MVNO.  Ces  
18 mettre  à  jour  le  critique  Qi  en  minimisant  la  perte ;  mise  
paramètres  sont  résumés  dans  le  tableau  III.
19 à  jour  de  l'acteur  µi  sing  policy  gradient ;  mettre  à  
20 ′ à  bout   ′
jour  les  réseaux  cibles  Q  et  µ  i ;  bout  
je

21 pour  

22 envoyer  la   B.  Résultats  de  la  formation  FDRL

23 mise  à  jour  au  RIC ;  24  fin   Le  premier  scénario  considéré  est  non­iid  avec  un  nombre  égal  d'utilisateurs.  Le  
pour  les  modèles   nombre  total  d'utilisateurs  est  de  15,  avec  5  utilisateurs  desservis  par  chaque  
25 agrégés  utilisant  la  somme  pondérée  en  utilisant  l'équation   MVNO.  La  figure  3  montre  l'évolution  de  la  récompense  moyenne  des  modèles  
(14) ;   locaux  et  du  modèle  global  à  travers  5  expériences.  Alors  que  le  modèle  global  
26 envoyer  le  modèle  mis  à  jour  à  M ; s'améliore  grâce  à  l'expérience  partagée,  dépassant  même  la  moyenne  des  modèles  
27  fin  pour locaux  lors  des  cycles  ultérieurs,  les  modèles  locaux  ont  des  performances  
dégradantes  tout  au  long  de  la  formation.  En  effet,  comme  dans  les  tours  ultérieurs,  
l'exploration  induite  par  le  bruit  OU  est  réduite,  les  modèles  locaux  allouent  moins  
TABLEAU  I :  Paramètres  de  simulation
de  bande  passante  aux  utilisateurs,  ce  qui  dégrade  les  valeurs  des  récompenses  
Valeur  du  paramètre reçues.  Le  modèle  global,  en  revanche,  apprend  plus  lentement  à  généraliser,  mais  
Zone  de  couverture  500m  ×  500m
réalise  une  formation  plus  robuste  dans  l'ensemble  en  tirant  parti  de  l'expérience  
Nombre  de  MVNO  3
Nombre  total  d'utilisateurs  [12 ,  15] partagée.
Bande  passante  3  MHz
fmax  0,3  
Le  deuxième  scénario  considéré  est  non­iid  avec  un  nombre  inégal  d'utilisateurs.  
Nombre  maximal  de
5 Le  nombre  total  d'utilisateurs  est  de  12,  où  5,  4  et  3  utilisateurs  sont  desservis  
utilisateurs /  MVNO
respectivement  par  le  premier,  le  deuxième  et  le  troisième  MVNO.  La  figure  4  
montre  l'évolution  de  la  récompense  moyenne  des  modèles  locaux  et  du  modèle  
global  à  travers  5  expériences.  Notre  première  observation  est  que  les  récompenses  
Comme  pour  le  dispositif  FDRL,  la  formation  se  déroule  sur  un  total  de  5  tours  
de  communication.  A  chaque  tour,  le  modèle  est  formé  par  chaque  MVNO  pendant   cumulées  pour  les  deux  modèles  sont  inférieures  à  ce  qui  a  été  obtenu  dans  le  cas  
d'un  nombre  égal  d'utilisateurs.  Cela  est  principalement  dû  à  la  punition  liée  à  
500  épisodes  avant  d'envoyer  le  modèle  au  RIC  pour  agrégation.  Chaque  épisode  
l'attribution  de  bande  passante  à  des  utilisateurs  inexistants.  De  plus,  comme  dans  
est  composé  de  50  étapes,  où  les  valeurs  de  gain  du  canal  sont  réinitialisées  à  
les  expériences  précédentes,  le  modèle  global  s'améliore  lentement  tout  au  long  
chaque  étape,  et  les  emplacements  des  utilisateurs  sont  réinitialisés  tous  les  25  
des  cycles  de  communication,  tandis  que  les  modèles  locaux  ne  s'améliorent  pas.
épisodes.
Afin  de  générer  des  distributions  non­iid  pour  les  besoins  des  utilisateurs,  nous  
avons  défini  différentes  probabilités  d'utilisateurs  URLLC  et  eMBB  pour  chaque  
MVNO.  L'ensemble  des  probabilités  des  utilisateurs  d'URLLC  est  de  25 %,  50 %  et  
75 %  pour  les  MVNO  1,  2  et  3,  respectivement. C.  Évaluation  des  performances  des  FDRL

Pour  évaluer  les  performances  du  mécanisme  FDRL  proposé,  nous  avons  
Pour  tester  davantage  notre  solution  proposée,  nous  avons  généré  une  répartition   comparé  le  nombre  d'actions  invalides  du  modèle  global  par  rapport  à  chaque  
inégale  des  utilisateurs.  Plus  précisément,  nous  avons  considéré  un  cas  où  les   modèle  local  de  MVNO.  Notez  qu'une  action  est  considérée  comme  invalide  si  elle  
MVNO  1,  2  et  3  avaient  5 ,  4  et  3  utilisateurs  re ne  respecte  pas  le  SLA  de  l'utilisateur
Machine Translated by Google
8

pour  un  total  de  20  000  observations.  Nous  avons  remarqué  que,  dans  
l'ensemble,  les  actions  du  modèle  global  sont  moins  susceptibles  de  violer  
les  exigences  SLA  pour  les  utilisateurs  eMBB  et  URLLC  par  rapport  aux  
modèles  formés  individuellement.  De  plus,  comme  nous  avons  attribué  des  
poids  plus  importants  aux  utilisateurs  d'URLLC,  le  modèle  global  donne  la  
priorité  à  ce  type  d'utilisateurs  et  est  moins  susceptible  de  violer  leur  délai  
requis.
2)  Nombre  variable  d'utilisateurs :  
le  deuxième  scénario  envisagé  est  non­iid  avec  un  nombre  inégal  
d'utilisateurs.  Les  modèles  sont  d'abord  formés  avec  un  nombre  total  
d'utilisateurs  de  12,  où  5,  4  et  3  utilisateurs  sont  desservis  par  le  premier,  le  
deuxième  et  le  troisième  MVNO,  respectivement.  En  d'autres  termes,  nous  
cherchons  à  évaluer  la  robustesse  des  modèles  en  cas  d'évolution  du  nombre  
d'utilisateurs.  Dans  une  première  expérience,  nous  avons  changé  le  nombre  
d'utilisateurs  en  temps  de  test  à  4,  3,  5  pour  les  premier,  deuxième  et  
troisième  MVNO,  respectivement.  Dans  une  deuxième  expérience,  nous  
Fig.  3 :  distributions  d'utilisateurs  non­iid  et  égaux
avons  changé  ces  nombres  en  3,  5,  4.  La  Fig.  6  montre  le  nombre  de  fois  où  
les  SLA  des  utilisateurs  n'ont  pas  été  satisfaits  par  les  modèles  locaux  des  
MVNO  et  le  modèle  global,  tout  en  observant  les  mêmes  environnements  
pour  un  total  de  20  000  observations.

Comme  pour  les  expériences  précédentes,  les  actions  du  modèle  global  
sont  moins  susceptibles  de  violer  les  exigences  du  SLA  pour  les  utilisateurs  
eMBB  et  URLLC  par  rapport  aux  modèles  formés  individuellement.  De  plus,  
le  troisième  MVNO,  formé  principalement  avec  des  utilisateurs  d'URLLC,  a  
un  taux  de  satisfaction  élevé  pour  ce  type,  mais  il  fonctionne  mal  pour  les  
utilisateurs  d'eMBB.  En  général,  l'amélioration  de  la  QoS  pour  les  deux  types  
d'utilisateurs  utilisant  le  modèle  global  rend  la  collaboration  des  MVNO  
intéressante.

SCIE.  CONCLUSION

Dans  cet  article,  nous  avons  étudié  l'allocation  des  ressources  du  
Fig.  4 :  Répartition  des  utilisateurs  non  iid  et  inégale découpage  RAN  dans  des  scénarios  multi­MVNO.  Plus  précisément,  nous  
avons  exploré  l'utilisation  de  l'apprentissage  fédéré  comme  moyen  de  
construire  des  modèles  de  découpage  robustes  dans  divers  environnements  
exigences.  Dans  ce  cas,  nous  utilisons  les  modèles  locaux  et  globaux   de  communication  sans  fil.  En  conséquence,  nous  avons  proposé  un  
résultants  et  les  testons  dans  différents  environnements  en  faisant  varier  les   mécanisme  d'apprentissage  par  renforcement  profond  fédéré  pour  former  en  
distributions  des  types  d'utilisateurs  sous­jacents  de  chaque  MVNO,  puis  en   collaboration  un  modèle  d'apprentissage  par  renforcement  profond  pour  l'allocation  de  bande
faisant  varier  le  nombre  d'utilisateurs  desservis  par  chaque  MVNO. Nous  avons  envisagé  un  scénario  avec  deux  types  de  tranches  différents,  à  
savoir  les  tranches  URLLC  et  eMBB.  Nous  avons  formulé  le  problème  sous  
1)  Distributions  variables  des  types   la  forme  d'un  MDP  d'un  seul  opérateur  de  réseau  virtuel  mobile,  où  l'agent  
d'utilisateurs :  le  premier  scénario  considéré  est  non­iid  avec  un  nombre   vise  à  allouer  des  ressources  radio  à  différents  types  d'utilisateurs  (URLLC  et  
égal  d'utilisateurs.  Les  modèles  sont  d'abord  formés  avec  un  nombre  total   eMBB).  Nous  avons  proposé  un  algorithme  critique  d'acteur,  qui  combinait  
d'utilisateurs  de  15,  où  5  utilisateurs  sont  servis  par  chaque  MVNO.  Afin   les  avantages  des  algorithmes  d'apprentissage  par  renforcement  basés  sur  
d'évaluer  la  robustesse  des  modèles  en  cas  d'évolution  des  besoins  des   les  valeurs  et  sur  les  politiques.  De  plus,  comme  les  valeurs  des  fractions  de  
utilisateurs,  nous  avons  fait  varier  les  distributions  sous­jacentes  des   bande  passante  sont  continues,  nous  utilisons  un  gradient  de  politique  
utilisateurs  pour  chaque  MVNO.  Les  probabilités  d'utilisateurs  d'URLLC  dans   déterministe  profond,  qui  apprend  simultanément  une  fonction  Q  et  une  
les  modèles  entraînés  sont  de  25 %,  50 %  et  75 %,  respectivement  pour  le   politique  et  prend  des  mesures  dans  un  espace  continu.  Comme  les  MVNO  
premier,  le  deuxième  et  le  troisième  MVNO. sont  des  entités  concurrentes,  le  partage  de  données  pour  obtenir  divers  
Dans  une  première  expérience,  nous  avons  modifié  les  probabilités   ensembles  de  données  pour  former  les  modèles  n'est  pas  viable.  Au  lieu  de  
URLLC  en  phase  de  test  à  75 %,  25 %  et  50 %  pour  les  premier,  deuxième   cela,  nous  tirons  parti  de  FL  pour  surmonter  ces  défis  et  nous  avons  conçu  
et  troisième  MVNO,  respectivement.  Dans  une  deuxième  expérience,  nous   un  mécanisme  FDRL  sur  une  architecture  O  RAN  pour  améliorer  de  manière  
avons  modifié  ces  probabilités  en  50 %,  75 %,  25 %.  La  Fig.5  montre  le   collaborative  l'opération  d'allocation  des  ressources  radio  de  différents  MVNO.  
nombre  cumulé  de  fois  où  les  exigences  SLA  des  utilisateurs  n'ont  pas  été   L'efficacité  de  l'approche  FDRL  proposée  a  été  prouvée  dans  différents  
satisfaites  par  les  modèles  locaux  des  MVNO  et  par  le  modèle  global,  tout  en   scénarios  de  simulation  avec  des  distributions  non  iid  et  inégales  de
observant  les  mêmes  environnements
Machine Translated by Google
9

(a)  URLLC  (75 %,  25 %,  50 %) (b) eMBB  (75 %,  25 %,  50 %)

(c)  URLLC  (50 %,  75 %,  25 %) (d)  eMBB  (50 %,  75 %,  25 %)

Fig.  5 :  Évaluation  sous  différentes  distributions  d'utilisateurs

¨
les  utilisateurs.  Les  expériences  ont  montré  que  le  modèle  formé  à  l'aide   [10]  MR  Raza,  C.  Natalino,  P.  Ohlen,  L.  Wosinska  et  P.  Monti,  "Apprentissage  par  
renforcement  pour  le  découpage  en  tranches  flexibles  de  5  g",  Journal  of  Lightwave  
de  FDRL  est  plus  robuste  contre  les  changements  d'environnement  par  
Technology,  vol.  37,  non.  20,  p.  5161–5169,  2019.
rapport  aux  modèles  formés  séparément  par  chaque  MVNO.
[11]  C.  Ssengonzi,  OP  Kogeda  et  TO  Olwal,  "Une  enquête  sur  l'application  d'apprentissage  
par  renforcement  profond  dans  la  5g  et  au­delà  du  découpage  et  de  la  virtualisation  
LES  RÉFÉRENCES
du  réseau",  Array,  p.  100142,  2022.

[1]  O.  Sallent,  J.  Perez­Romero,  R.  Ferrus  et  R.  Agusti,  "Sur  le  découpage  du  réseau   [12]  V.  Mnih,  K.  Kavukcuoglu,  D.  Silver,  AA  Rusu,  J.  Veness,  MG
d'accès  radio  du  point  de  vue  de  la  gestion  des  ressources  radio",  IEEE  Wireless   Bellemare,  A.  Graves,  M.  Riedmiller,  AK  Fidjeland,  G.  Ostrovski,  et  al.,  «  Contrôle  au  
Communications,  vol.  24,  non.  5,  p.  166–174,  2017. niveau  humain  par  apprentissage  par  renforcement  profond  »,  nature,  vol.  518,  non.  
[2]  EJ  Oughton  et  Z.  Frias,  "Les  implications  du  coût,  de  la  couverture  et  du  déploiement   7540,  p.  529–533,  2015.
de  l'infrastructure  5g  en  Grande­Bretagne",  Telecommunications  Policy,  vol.  42,  non.   [13]  K.  Arulkumaran,  MP  Deisenroth,  M.  Brundage  et  AA  Bharath,  "Apprentissage  par  
8,  p.  636–652,  2018. renforcement  en  profondeur :  une  brève  enquête",  IEEE  Signal  Processing  Magazine,  
[3]  A.  Filali,  A.  Abouaomar,  S.  Cherkaoui,  A.  Kobbane  et  M.  Guizani,  «  Multi­access  edge   vol.  34,  non.  6,  p.  26–38,  2017.
computing :  A  survey  »,  IEEE  Access,  vol.  8,  pages  197017–197046,  2020. [14]  A.  Filali  et  al.,  "Découpage  des  ressources  de  communication  et  de  calcul  o­ran  pour  
les  services  urllc  utilisant  l'apprentissage  par  renforcement  profond",  arXiv  preprint  
[4]  Z.  Mlika  et  S.  Cherkaoui,  «  Découpage  de  réseau  avec  mec  et  apprentissage  par   arXiv:2202.06439,  2022.
renforcement  profond  pour  l'internet  des  véhicules  »,  IEEE  Network,  vol.  35,  non.  3,   [15]  A.  Abouaomar  et  al.,  "Provisionnement  de  ressources  dans  l'informatique  de  pointe  
p.  132–138,  2021. pour  les  applications  sensibles  à  la  latence",  IEEE  Internet  of  Things  Journal,  vol.  8,  
[5]  X.  Foukas,  MK  Marina  et  K.  Kontovasilis,  "Orion :  Ran  slicing  for  a  flexible  and  cost­ non.  14,  p.  11088–11099,  2021.
effective  multi­service  mobile  network  architecture",  dans  Actes  de  la  23e  conférence  
[16]  A.  Thantharate,  R.  Paropkari,  V.  Walunj  et  C.  Beard,  "Deepslice :  Une  approche  
internationale  annuelle  sur  l'informatique  et  les  réseaux  mobiles,  pp  127–140,  2017.
d'apprentissage  en  profondeur  vers  un  découpage  de  réseau  efficace  et  fiable  dans  
les  réseaux  5g",  en  2019  IEEE  10th  Annual  Ubiquitous  Computing,  Elec  tronics  &  
[6]  C.  Liang  et  FR  Yu,  « Virtualisation  des  réseaux  sans  fil :  une  enquête,  quelques  
Conférence  sur  les  communications  mobiles  (UEMCON),  pp.  0762–  0767,  IEEE,  
problèmes  et  défis  de  recherche »,  IEEE  Communications  Surveys  &  Tutorials,  vol.  
2019.
17,  non.  1,  p.  358–380,  2014.
[17]  G.  Chen,  X.  Zhang,  F.  Shen  et  Q.  Zeng,  "Algorithme  d'allocation  des  ressources  de  
[7]  A.  Rago,  S.  Martiradonna,  G.  Piro,  A.  Abrardo  et  G.  Boggia,  « Un  système  d'application  
découpage  à  deux  niveaux  basé  sur  l'apprentissage  par  renforcement  profond  et  les  
du  découpage  axé  sur  les  locataires  basé  sur  l'intelligence  omniprésente  dans  le  
enchères  conjointes  dans  les  réseaux  d'accès  sans  fil",  Sensors,  vol.  22,  non.  9,  p.  
réseau  d'accès  radio »,  disponible  sur  SSRN  4022195,  2022 .
3495,  2022.
[8]  H.  Song,  J.  Bai,  Y.  Yi,  J.  Wu  et  L.  Liu,  "L'intelligence  artificielle  a  activé  l'Internet  des  
objets :  architecture  réseau  et  accès  au  spectre",  IEEE  Computational  Intelligence   [18]  A.  Filali,  Z.  Mlika,  et  al.,  "Découpage  dynamique  du  réseau  d'accès  radio  basé  sur  sdn  
Magazine,  vol.  15,  non.  1,  p.  44–51,  2020. avec  apprentissage  par  renforcement  profond  pour  les  services  urllc  et  embb",
[9]  H.  Song,  L.  Liu,  J.  Ashdown  et  Y.  Yi,  "Un  cadre  d'apprentissage  par  renforcement   IEEE  Transactions  on  Network  Science  and  Engineering,  pp.  1–1,  2022.
profond  pour  la  gestion  du  spectre  dans  l'accès  dynamique  au  spectre", [19]  J.  Hu,  Z.  Zheng,  B.  Di  et  L.  Song,  «  Découpage  de  réseau  radio  multicouche  pour  les  
IEEE  Internet  of  Things  Journal,  vol.  8,  non.  14,  p.  11208–11218,  2021. systèmes  de  communication  hétérogènes  »,  IEEE  Transactions
Machine Translated by Google
dix

(a)  URLLC  (4,3,5) (b)  eMBB(4,3,5)

(c)  URLLC  (3,5,4) (d)  eMBB(3,5,4)

Fig.  6 :  Évaluation  sous  différents  nombres  d'utilisateurs

sur  la  science  et  l'ingénierie  des  réseaux,  vol.  7,  non.  4,  p.  2378–2391,  2020. [30]  W.  Wu,  N.  Chen,  C.  Zhou,  M.  Li,  X.  Shen,  W.  Zhuang  et  X.  Li,  «  Dynamic  run  slicing  for  
service­oriented  vehicular  networks  via  contraint  learning  »,  IEEE  Journal  sur  des  
[20]  J.  Koneˇcn  ́y,  HB  McMahan,  FX  Yu,  P.  Richt´arik,  AT  Suresh  et  D.  Bacon,  «   domaines  choisis  des  communications,  vol.  39,  non.  7,  p.  2076–2089,  2020.
Apprentissage  fédéré :  stratégies  pour  améliorer  l'efficacité  de  la  communication  »,  
2016. [31]  O.  Nachum,  M.  Norouzi,  K.  Xu  et  D.  Schuurmans,  "Combler  le  fossé  entre  l'apprentissage  
[21]  T.  Li,  AK  Sahu,  A.  Talwalkar  et  V.  Smith,  «Apprentissage  fédéré:  défis,  méthodes  et   par  renforcement  basé  sur  la  valeur  et  sur  la  politique",  Advances  in  neural  information  
orientations  futures»,  IEEE  Signal  Processing  Magazine,  vol.  37,  non.  3,  p.  50–60,   processing  systems,  vol.  30,  2017.
2020. [32]  V.  Konda  et  J.  Tsitsiklis,  «  Actor­critic  algorithms  »,  Advances  in  neural
[22]  A.  Ta¨ık  et  al.,  "Ordonnancement  d'appareils  sensibles  aux  données  pour   systèmes  de  traitement  de  l'information,  vol.  12,  1999.
l'apprentissage  fédéré  en  périphérie",  IEEE  Transactions  on  Cognitive  Communications   [33]  TP  Lillicrap,  JJ  Hunt,  A.  Pritzel,  N.  Heess,  T.  Erez,  Y.  Tassa,  D.  Silver  et  D.  Wierstra,  
and  Networking,  vol.  8,  non.  1,  p.  408–421,  2022. "Contrôle  continu  avec  apprentissage  par  renforcement  profond",  arXiv  preprint  
[23]  A.  Abouaomar,  S.  Cherkaoui,  Z.  Mlika  et  A.  Kobbane,  «  Mean­field  game   arXiv:1509.02971,  2015 .
andrenforcement  learning  mec  resource  provisioning  for  sfc  »,  in  2021  IEEE  Global  
Communications  Conference  (GLOBECOM),  pp.  1–  6 ,  2021.

[24]  O.­R.  Alliance,  « O­RAN :  vers  un  RAN  ouvert  et  intelligent »,  tech.  rep.,  oct.  2018.  Livre  
, blanc.
[25]  I.  Chih­Lin,  S.  Kuklinsk´ı  et  T.  Chen,  "Une  perspective  d'intégration  o­ran  avec  mec,  
son  et  le  découpage  du  réseau  à  l'ère  5g",  IEEE  Network,  vol.  34,  non.  6,  p.  3–4,  
2020.
[26]  D.  Johnson,  D.  Maas  et  J.  Van  Der  Merwe,  «  Nexran :  Closed­loop  run  slicing  in  powder­
a  top­to­bottom  open­source  open­run  use  case  »,  dans  Actes  du  15  Atelier  ACM  sur  
les  bancs  d'essai  de  réseau  sans  fil,  évaluation  expérimentale  et  caractérisation,  pp.  
17–23,  2022.
[27]  SO  Oladejo  et  OE  Falowo,  "Schéma  d'allocation  dynamique  des  ressources  tenant  
compte  de  la  latence  pour  le  réseau  5g  multiniveau :  un  scénario  de  découpage  
réseau­multilocataire",  IEEE  Access,  vol.  8,  pages  74834–74852,  2020.
[28]  B.  Han  et  HD  Schotten,  "Apprentissage  automatique  pour  la  gestion  des  ressources  
de  découpage  de  réseau :  une  enquête  complète",  arXiv  preprint  arXiv:2001.07974,  
2020.
[29]  A.  Abouaomar,  Z.  Mlika,  A.  Filali,  S.  Cherkaoui  et  A.  Kobbane,  "Une  approche  
d'apprentissage  par  renforcement  profond  pour  la  migration  de  services  dans  les  
réseaux  de  véhicules  activés  par  mec",  en  2021  IEEE  46th  Conference  on  Local  
Computer  Networks  ( LCN),  p.  273–280,  2021.

Vous aimerez peut-être aussi