Académique Documents
Professionnel Documents
Culture Documents
Apprentissage fédéré pour le découpage RAN audelà de la 5G
Réseaux
Amine Abouaomar* Membre, IEEE,, Afaf Taik* Membre, IEEE,, Abderrahime Filali* Membre, IEEE,, et
Soumaya Cherkaoui Membre senior, IEEE,
Résumé—Le découpage du réseau d'accès radio (RAN) permet la division chacun adapté et dédié pour répondre aux exigences d'un service 5G
du réseau en plusieurs réseaux logiques adaptés aux exigences de service spécifique [4], [5]. Ces services peuvent être classés en services haut
différentes et variables de manière durable. Il est ainsi considéré comme un
débit mobile amélioré (eMBB), communication ultrafiable à faible latence
catalyseur clé de la 5G et des réseaux de nouvelle génération. Cependant, la
détermination des stratégies optimales pour le découpage RAN reste un
(URLLC) et communication massive de type machine (mMTC). Dans les
problème difficile. L'utilisation d'algorithmes d'apprentissage automatique pour réseaux de nouvelle génération, les ORM se composent de deux entités
résoudre un problème aussi difficile est prometteuse. Cependant, en raison principales, à savoir le fournisseur d'infrastructure (InP) et les opérateurs
des grandes différences imposées par les déploiements RAN et de la disparité de réseaux mobiles virtuels (MVNO) [6]. D'une part, l'InP possède les
des services requis, il est difficile d'utiliser le même modèle de découpage dans
ressources physiques, y compris les stations de base et les composants
toutes les zones couvertes. De plus, les données collectées par chaque
opérateur de réseau virtuel mobile (MVNO) dans différentes zones sont pour la
du réseau central, et surtout, les ressources radio. D'autre part, les MVNO
plupart limitées et rarement partagées entre les opérateurs. L'apprentissage louent ces ressources physiques à l'InP pour déployer les tranches RAN
fédéré présente de nouvelles opportunités pour les MVNO de bénéficier d'une nécessaires à la fourniture de leurs propres services .
formation distribuée. Dans cet article, nous proposons une approche
d'apprentissage par renforcement profond fédéré (FDRL) pour former des
Dans un scénario de découpage RAN, l'InP alloue les ressources radio
modèles d'allocation de bande passante parmi les MVNO en fonction de leurs
interactions avec leurs utilisateurs. Nous évaluons l'approche proposée à aux MVNO conformément aux contrats d'accord de niveau de service
travers des simulations approfondies pour montrer l'importance d'une telle (SLA). Ensuite, chaque MVNO alloue la ressource radio louée à l'InP à ses
collaboration dans la construction de modèles de découpage de réseau utilisateurs [6].
efficaces. L'allocation des ressources radio aux utilisateurs est une opération
Termes de l'index : découpage RAN , apprentissage fédéré, renforcement extrêmement complexe pour les MVNO. Ceci est principalement dû à la
ment Apprentissage, B5G. rareté des ressources radio et aux exigences hétérogènes de leurs
utilisateurs en termes de qualité de service (QoS) [7]–[9].
I. INTRODUCTION Pour relever ces défis, diverses approches basées sur des techniques
d'apprentissage automatique (ML) ont été proposées récemment, en
Les réseaux sans fil modernes ont connu une croissance explosive du
particulier des algorithmes d'apprentissage par renforcement (RL) [10]–[13].
X
i n
1v82311.60 2 ]2C:vD c2
. s2irua[j
trafic de données alors que le nombre d'appareils mobiles augmente
Néanmoins, en raison de la dynamique de l'environnement RAN, en termes
chaque jour. Les appareils mobiles échangent des données pour acquérir
de densité d'utilisateurs, d'exigences des utilisateurs et de conditions de
divers services, avec diverses qualités et exigences de la part de leurs
transmission des canaux sans fil, le découpage du RAN reste un problème
opérateurs de réseau mobile (ORM). Pour répondre aux besoins toujours
particulièrement difficile pour les MVNO. Ces facteurs d'environnement
croissants de services, les opérateurs de réseaux sont obligés de déployer
RAN stochastiques ont un impact majeur sur la précision des modèles RL,
de nouveaux équipements pour étendre leur couverture au fur et à mesure
ce qui diminue les performances d'allocation des ressources radio aux
que les générations de réseaux évoluent. Cependant, l'extension de la
utilisateurs [14]–[19]. En effet, lorsqu'un MVNO construit son modèle RL
couverture des réseaux de nouvelle génération est coûteuse, ce qui fait du
partage des infrastructures réseau une alternative intéressante pour divers d'allocation de ressources à l'aide d'ensembles de données d'entraînement
liés uniquement au comportement de ses utilisateurs et à son environnement,
fournisseurs de services [1]. En partageant différents équipements et
la précision du modèle peut être limitée. Pour bénéficier d'un ensemble de
ressources de réseau, tels que le spectre, les antennes et les interfaces
données diversifié, les MVNO peuvent collaborer en partageant leurs
radio, les fournisseurs de services peuvent répondre aux exigences de
données entre eux afin de fournir un ensemble de données diversifié et de
clients très dispersés à un coût considérablement réduit [2].
haute qualité qui sera utile dans les modèles RL de formation. Cependant,
Le découpage réseau (NS) est une solution avancée basée sur la
virtualisation du réseau qui permet la transition d'une infrastructure réseau les MVNO sont souvent des entités concurrentes et sont peu susceptibles
de vouloir partager leurs données pour des raisons de confidentialité et de
statique à une infrastructure dynamique. Il permet la conception de
sécurité des données. Pour surmonter ce problème, le paradigme de
plusieurs réseaux logiquement indépendants, appelés tranches de réseau,
l'apprentissage fédéré (FL) peut être mis à profit [20]–[22].
qui fonctionnent sur une infrastructure physique commune [3].
FL est une approche d'apprentissage coopératif dans laquelle plusieurs
En particulier, le découpage du réseau d'accès radio (RAN) consiste à
collaborateurs, des MVNO dans notre cas, forment un modèle ML à l'aide
partitionner les ressources RAN pour créer différentes tranches RAN ,
de leurs ensembles de données privés, puis envoient leurs modèles formés
* Les auteurs ont contribué à parts égales. à une entité d'agrégation pour construire un modèle global [22], [23].
A. Abouaomar, A. Filali, and S. Cherkaoui are with Polytechnique Mon treal, QC, L'entité d'agrégation renvoie le modèle global à tous les collaborateurs
Montreal, Canada.
A. Taik est avec INTERLAB, Faculté de Génie, Université de Sherbrooke, QC,
pour une utilisation immédiate ou une formation complémentaire. Ainsi, FL
Canada. permettra aux MVNO de construire un modèle d'allocation de ressources ML robuste
Machine Translated by Google
2
tout en préservant la confidentialité des données puisque seuls les des ressources disponibles sur les tranches de réseau établies et pour
modèles entraînés sont partagés. En effet, l'expérience partagée assurer l'équilibrage de charge. Les auteurs de [27] ont proposé un
permettra au modèle de découpage RAN d'apprendre à partir de différents algorithme génétique pour allouer des ressources en tenant compte des
scénarios, ce qui le rend plus adaptatif aux changements d'environnement. réseaux hétérogènes multilocataires et multiniveaux. L'approche proposée
En fait, en raison des répartitions déséquilibrées, non indépendantes et consiste à détendre le problème et à le résoudre par des méthodes de
identiques (non iid) des utilisateurs entre les MVNO, ainsi que de leurs décomposition hiérarchique et de simulation de Monte Carlo.
nombres et exigences variables, FL devient une solution intéressante pour Ce travail a porté en particulier sur la latence et l'allocation de bande
construire des modèles robustes. passante en tant que métriques de QoS. D'un point de vue plus profond,
Pour promouvoir une plus grande programmabilité dans le RAN, le processus d'allocation des ressources de découpage RAN intervient à
l'architecture RAN ouverte (ORAN) peut être exploitée [24]–[26]. En fait, plusieurs niveaux, et le ML a été largement étudié à cet égard [28]. La
le contrôleur intelligent RAN hiérarchique (RIC), y compris le RIC en littérature sépare l'allocation des ressources InP aux MVNO des MVNO
temps non réel (non RT) et le RIC en temps quasi réel (proche RT) peut qui allouent leurs ressources aux utilisateurs. De nombreux travaux
être utilisé pour gérer les opérations de découpage du RAN à l'aide de ML. étudient le découpage MVNO RAN [16]–[18], [29] en utilisant RL.
Le premier gère les tâches RAN les plus lourdes, telles que l'exécution du Cependant, l'allocation des ressources radio n'est donnée que du point de
processus de formation, tandis que le second effectue des tâches critiques, vue d'un seul MVNO. Par exemple, les auteurs de [18] ont proposé un
telles que l'inférence et l'agrégation de modèles ML dans FL. mécanisme de découpage RAN pour améliorer les performances des
Dans cet article, nous proposons un mécanisme coopératif d'allocation services uRLLC et eMBB. L'approche proposée prend en considération
de ressources radio basé sur FL pour les MVNO. Dans ce mécanisme, deux tranches temporelles (à grande échelle et à courte échelle) des
chaque MVNO forme un modèle d'allocation de ressources radio RL en ressources RAN. À grande échelle de temps, l'allocation des ressources
fonction des besoins de ses utilisateurs et envoie les modèles formés au radio dépend des exigences des utilisateurs uRLLC et eMBB. L'échelle de
RIC proche RT pour agrégation. Ensuite, le RIC proche RT renvoie le temps courte consiste à ce que les gNodeB allouent leurs ressources aux
modèle RL global à chaque MVNO pour mettre à jour ses modèles RL utilisateurs en. Ce problème a été modélisé comme un programme binaire
locaux. Nous considérons deux types d'utilisateurs, à savoir les utilisateurs non linéaire résolu en utilisant l'apprentissage par renforcement profond,
URLLC et les utilisateurs eMBB. Les utilisateurs d'URLLC ont besoin d'une précisément le modèle d'apprentissage Q profond.
faible latence, tandis que les utilisateurs d'eMBB ont besoin d'un débit de Bien que le travail mentionne que les ressources peuvent être allouées à
données élevé. A notre connaissance, il s'agit du premier travail à proposer partir de nœuds adjacents, cependant, ce travail ne considère que
une allocation coopérative des ressources radio entre les MVNO basée sur le F LDRL.
l'allocation
des ressources pour un seul opérateur. Les travaux de [19] ont
Les principales contributions de cet article sont résumées comme suit : envisagé une approche stratégique via des jeux de type Stackelberg pour
faire face à la fréquence et à l'approvisionnement en énergie pour l'InP.
• Nous modélisons le problème d'allocation de ressources radio pour les utilisateurs Les auteurs ont fourni une analyse de l'équilibre où les utilisateurs de
URLLC et eMBB comme un problème d'optimisation continue non linéaire. • MVNO sont uniformément répartis. Les auteurs obtiennent une politique
Nous modélisons le problème d'équilibre unique à chaque couche dans le scénario particulier lorsque
d'allocation des ressources radio d'un MVNO comme un processus décisionnel de chaque MVNO ne gère qu'une seule catégorie d'utilisateurs. En ce qui
Markov (MDP). • Nous développons un algorithme Deep RL (DRL) concerne le scénario plus large des MVNO qui desservent plusieurs types
pour allouer des ressources radio aux utilisateurs URLLC et eMBB de chaque d'utilisateurs, les auteurs ont proposé un algorithme différentiel évolué à
MVNO. • Nous concevons un mécanisme DRL fédéré (FDRL) sur une deux couches ainsi qu'une méthode basée sur le gradient pour atteindre l'équilibre.
architecture ORAN pour améliorer de manière coopérative l'opération d'allocation Les travaux de [30] introduisent une approche de découpage dynamique
RAN pour les réseaux véhiculaires afin de gérer divers services IoV avec
des ressources radio des MVNO. • Nous évaluons le mécanisme proposé par
des simulations approfondies. différentes exigences de QoS. L'algorithme basé sur RL résout le problème
en deux phases, y compris la répartition de la charge de travail et les
décisions d'allocation des ressources. Une approche RL acteurcritique
DDPG a notamment été adoptée.
Le reste de cet article est organisé comme suit. La section II traite des
Malgré les efforts importants pour fournir des solutions de gestion
travaux connexes sur le découpage RAN basé sur DRL et FL. La section
dynamique et efficace du découpage RAN, de nombreux aspects
III présente le modèle du système et la formulation du problème d'allocation
manquaient à la littérature. L'aspect de la vie privée, qui est crucial et peut
des ressources radio. La section IV présente le mécanisme FDRL proposé.
représenter une menace pour les MVNO ainsi que pour les utilisateurs,
La section V examine les évaluations et les résultats du mécanisme
n'est pas encore étudié. De plus, en partageant les expériences des uns
proposé. La conclusion est présentée dans la section VI.
et des autres, les MVNO peuvent améliorer leurs schémas d'allocation des
ressources grâce à la formation collaborative de modèles d'allocation des
ressources et les partager de manière FL. Une telle direction de recherche
II. TRAVAUX CONNEXES
n'a pas été mieux étudiée. À notre connaissance, il s'agit du premier travail
De nombreux travaux ont étudié le découpage RAN en général, comme à étudier l'utilisation de FL dans la gestion des réseaux de nouvelle
dans [16] proposé DeepSlice, une approche basée sur un réseau neuronal génération, en particulier pour l'allocation des ressources multiMVNO.
d'apprentissage en profondeur pour résoudre efficacement les problèmes Les auteurs de [17] ont étudié l'allocation des ressources pour les tranches
d'équilibrage de charge et de disponibilité du réseau. Dans leur travail, ils de réseau sans fil.
utilisent les KPI disponibles pour entraîner le modèle d'analyse du trafic Ce travail a proposé un schéma d'allocation des ressources de découpage
entrant et de prédiction de la tranche de réseau pour tout type d'utilisateur. à deux niveaux utilisant DRL. En outre, ce document a abordé le problème
L'allocation intelligente des ressources permet une utilisation efficace au sein d'une seule BS, et les utilisateurs accèdent au RAN associé
Machine Translated by Google
3
MVNO1
Qualité de service locale
Base de données
MVNON
Modèle local
éR
egapuoNcA D
Modèle mondial
... Contrôleur intelligent RAN
InP
MVNO2
Fig. 1 : Vue d'ensemble du modèle de système.
ressources via les MVNO. Par conséquent, le processus d'allocation des ressources III. ARCHITECTURE MVNOS COMPATIBLE AVEC FDRL
est divisé en deux niveaux. Le premier niveau est dédié à l'allocation des ressources
InP aux MVNO en utilisant la technique DQN couplée aux enchères. Le deuxième A. Modèle de système
niveau considère l'allocation des ressources des MVNO aux utilisateurs en utilisant
Nous considérons une architecture RAN compatible RIC avec une seule station
la technique de duel DQN pour converger vers une solution optimale. Cependant,
de base (BS) appartenant à un InP. La BS fonctionne sur une bande passante totale
la technique DQN prend des délais plus longs pour converger vers une récompense
B. L'InP est chargé de desservir un ensemble de MVNO M = {mi}, i {1, 2, . . . , M}
stable, ce qui la rend inadaptée à toutes les solutions basées sur DRL.
en louant à chacun d'eux une fraction de la bande passante totale B sur la base
d'un SLA. Chaque MVNO mi a un ensemble d'utilisateurs désigné par Ui}.
La littérature antérieure sur l'allocation des ressources de découpage RAN offre Nous considérons deux types d'utilisateurs, à savoir les utilisateurs eMBB, et = {0,
une variété de solutions et de techniques qui font face à l'allocation des ressources, Utilisateurs URLLC. Pour un utilisateur j, notons 1} et z = {0, 1}
C'est dans
j
soit du niveau supérieur (InP allouant des ressources aux MVNO) ou du niveau z j les variables binaires indiquant si j est un utilisateur eMBB (z e = 1) ou URLLC
inférieur (MVNO allouant des ressources aux utilisateurs). Cependant, DQN est (z ujj = 1) utilisateur, respectivement.
principalement adapté pour résoudre des problèmes où l'espace d'observation a de Dans ce travail, nous considérons que l'allocation de bande passante aux MVNO
grandes dimensions, il n'est capable de gérer que des espaces d'action discrets de a déjà été effectuée par l'InP. On note la fraction de la bande passante totale B
faible dimension. Par conséquent, DQN n'est pas bien adapté aux situations avec louée au MVNO mi par Bi .
des espaces d'action continus avec des dimensions significativement élevées. Par Un MVNO alloue à chacun de ses utilisateurs une fraction fi,j [0,
conséquent, DQN ne s'applique pas directement aux domaines continus puisqu'il 1] de la bande passante louée wi , pour satisfaire ses exigences de QoS en termes
est fondé sur la recherche d'actions maximisant la fonction actionvaleur. Dans les
de débit et de latence. Chaque utilisateur u(i,j) utilise la bande passante allouée
cas continus, DQN implique des processus d'optimisation itératifs à chaque étape. pour transmettre un paquet de taille ξ(i,j) . Nous considérons que la taille de paquet
dépend du type d'utilisateurs, nous notons donc la taille de paquet d'un utilisateur
eMBB et d'un utilisateur URLLC par ξ e et ξ u (i,j) , respectivement. Nous considérons
Nous adoptons dans cet article, un gradient politique déterministe profond pour (i,j) le scénario de téléchargement à accès
multiple par répartition orthogonale de la
traiter l'aspect discret de l'espace d'action, échappant ainsi à la malédiction de la fréquence (OFDMA) pour réduire les interférences entre les utilisateurs.
dimensionnalité. De plus, dans l'approche proposée, les MVNO peuvent bénéficier
des expériences des autres tout en promouvant la confidentialité.
Le débit de données de liaison montante réalisable de l'utilisateur u(i,j) Ui en utilisant
Machine Translated by Google
4
+
Passer à l'action
OU Noise
Action
État
Environnement
<BW, Utilisateur>
Réseau d'acteurs
Gradient politique
Réseau critique Fonction de perte
Récompense
Débit + Délai
ersu i M
oàj
redragevuaS
Tampon de relecture
Mise à jour logicielle
Réseau cible
Fig. 2 : Un aperçu de la solution proposée.
la bande passante allouée est définie comme suit, formuler à la fois les problèmes de minimisation et de maximisation
d'un MVNO mi M dans un problème conjoint comme suit,
δ(i,j) = fi,jBi log2 (1 + ρ(i,j)) (1)
maximiser −
tu z (4a)
où ρ(i,j) est le rapport signal sur bruit entre l'utilisateur u(i,j) et la δi,j ,
par z j j D(i,j)
f
BS, et est donné comme suit, j Ui j Ui
sujet à
Pi,j .gi,j
ρ(i,j) = 2 (2) 0 fi,j fmax , j Ui , (4b)
fi,jBiσ
fi,j ≤ 1, (4c)
2 j Ui
où, σ est la puissance de bruit, Pi,j est la puissance de transmission
= 1, (4j)
C'est
La recherche de ces valeurs est soumise à des contraintes
ξ(i,j)
D(i,j) = δ(i,j) (3) concernant les besoins des utilisateurs et le respect des capacités
maximales des ressources. La contrainte (4b) assure que les
fractions de bande passante allouées sont comprises entre 0 et
une valeur maximale fmax. La contrainte (4c) garantit que la bande
B. Formulation du problème passante allouée aux utilisateurs n'excède pas la bande passante
Bi louée à l'InP. La contrainte (4d) assure que le débit atteint par
min .
Afin d'obtenir une allocation efficace des ressources pour les MVNO, un utilisateur eMBB doit être supérieur à un seuil minimum δ je
le problème nécessite la minimisation de la somme des retards subis La contrainte (4e) stipule que le délai d'un utilisateur URLLC pour
D(i,j) pour les utilisateurs URLLC et l'obtention d'une somme plus élevée transmettre son paquet ne doit pas dépasser un seuil maximum
de débit de données δ(i,j) pour les utilisateurs eMBB . Par conséquent, nous Dmax
i .
Machine Translated by Google
5
IV. ALLOCATION DE LA BANDE PASSANTE FDRL une action ai est considérée comme valide si la somme des fractions est
Dans cette section, nous présentons le mécanisme FDRL proposé pour inférieure à 1, et si les fractions allouées entraînent des retards et des débits
de données qui respectent les valeurs SLA. Si l'action n'est pas valide, une
résoudre le problème d'optimisation Eq. (4). Premièrement, nous modélisons
le problème d'allocation de bande passante d'un MVNO comme un MDP à récompense négative est renvoyée pour empêcher l'agent de choisir des
agent unique. Ensuite, nous décrivons le mécanisme FDRL proposé en actions similaires dans les étapes suivantes.
expliquant l'algorithme DDPG et comment ce dernier est entraîné de manière
fédérée.
B. Apprentissage par renforcement profond fédéré
Après avoir formulé le problème en tant que MDP, une solution adéquate
A. Formulation MDP de l'allocation de bande passante
est l'apprentissage par renforcement. Dans ce cas, chaque MVNO est
Dans cette section, nous présentons la formulation du MDP. Pour formuler
considéré comme un agent interagissant avec l'environnement composé
le problème MDP, nous définissons l'espace d'état, l'espace d'action et la
d'utilisateurs, en observant un état S et en choisissant une action a. Le but de
fonction de récompense.
l'agent est d'apprendre une politique optimale π en visant à maximiser la
1) Espace d'état : A chaque pas de temps t, chaque agent (ie, MVNO)
récompense r.
observe l'état de l'environnement. L'observation de chaque MVNO inclut le
L'apprentissage par renforcement profond (DRL) combine la puissance des
type de ses utilisateurs actifs et leurs gains de canal. Les types d'utilisateurs
réseaux de neurones profonds avec l'apprentissage par renforcement pour
sont nécessaires car ils définissent les exigences du SLA. L'estimation des
créer des agents qui apprennent à partir d'états de haute dimension. En
gains de canal entre chaque utilisateur associé sur le canal de communication
conséquence, la politique π est représentée comme un réseau de neurones profonds [13].
est nécessaire pour prendre des décisions d'allocation de bande passante
Le DRL a été introduit pour la première fois via DeepQ Networks (DQN) et a
adéquates. Les gains du canal sont collectés périodiquement par chaque
été rapidement adopté par la communauté des chercheurs pour résoudre de
MVNO. En effet, chaque MVNO diffuse des signaux pilotes à tous ses
nombreux problèmes pratiques de prise de décision [12]. Néanmoins, DQN n'est
utilisateurs. Par la suite, chaque utilisateur estime les informations d'état du
pas conforme à la politique et peut ne pas fonctionner correctement dans des
canal et les renvoie à son MVNO via le canal de retour.
environnements présentant de fortes incertitudes, tels que les réseaux sans fil.
Alors que les algorithmes RL basés sur la valeur comme Qlearning optimisent
d'abord la fonction de valeur, puis dérivent des politiques optimales, les méthodes
On note Si(t) l'état observé du MVNO mi à l'intervalle de temps t.
basées sur des politiques optimisent directement une fonction objective basée
sur les récompenses, ce qui les rend adaptées à des espaces d'action grands ou infinis.
Si(t) = Gi(t), Ui(t) où Gi(t) (5)
Pourtant, le RL basé sur des politiques peut avoir des gradients bruyants et
représente le gain de canal entre le MVNO mi et ses utilisateurs Ui au créneau instables [31]. En conséquence, nous proposons d'utiliser un algorithme basé
t, Ui(t) représente l'ensemble des types d'utilisateurs du MVNO mi . sur l'acteur critique [32]. En fait, les approches critiques des acteurs combinent
Les types d'utilisateurs sont définis à les points forts des algorithmes RL basés sur les valeurs et sur les politiques.
l'aide de deux valeurs we et wu, qui représentent la priorité de chaque type. De plus, puisque les valeurs de fraction sont continues, nous utilisons le
En général, étant donné que les utilisateurs d'URLLC ont des exigences de gradient de politique déterministe profond (DDPG) [33], qui apprend
délai strictes, des valeurs de priorité plus élevées leur sont attribuées. simultanément une fonction Q et une politique et effectue des actions à partir
d'un espace continu.
2) Espace d'action : à chaque tranche de temps, RIC fournit la fraction de
1) Deep Deterministic Policy Gradient (DDPG) : DDPG est un
bande passante Bi nécessaire à chaque MVNO. Un MVNO attribue des
algorithme hors politique qui utilise quatre réseaux de neurones, à savoir
factions de Bi à ses utilisateurs. L'espace d'action pour chaque MVNO mi à
le réseau d'acteur µ, le réseau critique v, le réseau cible d'acteur µ Pour un
un intervalle de temps t est donné comme suit : ′ ′.
état d'environnement observé , et le réseau cible critique v
Ai(t) = [0, fmax] où (6) donné, l'acteur choisit un action, et le critique utilise la fonction Q étataction
suivante pour évaluer cette action.
chaque action ai Ai(t) est représentée par un vecteur ligne donné comme
un vecteur {f(i,j)(t), ui,j Ui}.
3) Fonction de récompense : Lorsqu'un MVNO mi choisit une action ai
Q(Si(t), Ai(t)) = r(t) + γmaxQ(Si(t), Ai(t)) (9)
Ai(t) à l'intervalle de temps t, il reçoit en retour une récompense Ri(t) .
L'objectif est de minimiser le retard, par conséquent, la récompense doit être Dans le processus de formation, DDPG utilise la technique de mémoire de
exprimée en termes de retard pour les utilisateurs uRLLC et en termes de relecture d'expérience. En conséquence, l'agent stocke ses expériences
débit de données pour les utilisateurs eMBB. dans un tampon de taille finie, où chacune d'elles est définie par le tuple (S(t),
Nous définissons une récompense liée à la satisfaction de chaque utilisateur
A(t), r(t), S(t + 1)), puis aléatoirement échantillons de minilots de ces
final, avec
expériences pour effectuer le processus d'apprentissage. Cette technique
si zj = 1
C'est
weδ(i,j) , _ réduit la corrélation entre les échantillons d'apprentissage, ce qui stabilise le
1 (7)
r(i,j)(t) = , si z
dans
= 1 comportement de l'algorithme DDPG. Dans l'algorithme DDPG, la politique
j
wu D(i,j) d'exploration est effectuée en ajoutant un bruit aux actions dans le processus
La récompense globale peut être exprimée comme suit, d'apprentissage Eq.(10). Le bruit ajouté permet à l'agent DDPG d'explorer
N efficacement son environnement. Nous avons utilisé le processus Ornstein
r(i,j)(t), si ai est valide Uhlenbeck (OU) pour générer les valeurs de bruit.
ri(t) = (8)
j=1
−0,1, sinon
Machine Translated by Google
6
qui peuvent être servis par un MVNO à la fois, et nous utilisons un
A(t) = v(S(t)|θ v (t)) + N (t), (dix) rembourrage à zéro dans le cas où le nombre d'utilisateurs observé est
inférieur à Cmax. Pour mieux illustrer, on considère un MVNO i avec Ci
où θ v désigne les paramètres du réseau critique et N est la valeur = 3 utilisateurs, et Cmax = 5. Le constat est Si(t) = [gi,1(t), gi,2(t), gi,3(t),
absolue du bruit OU.
0, 0, ui,1(t), ui,2(t), ui,3(t), 0, 0]. Cela nous permet à la fois de nous
Le réseau d'acteurs met à jour ses paramètres en fonction du gradient adapter au nombre variable d'utilisateurs de chaque MVNO et d'unifier
de politique déterministe. La valeur Q cible est calculée à l'aide du le modèle formé. De même, la taille de sortie est alors Cmax. De plus,
réseau cible de l'acteur et du réseau cible critique comme suit : afin d'éviter le cas où une fraction de la bande passante est allouée à
un utilisateur qui n'existe pas, on associe cette action à une punition
égale à 0.1 que l'on ajoute à la récompense.
′ ′
y(t) = r(t) + γµ′ (S(t + 1), v′ (S(t + 1)|θ v )|ème m ), (11)
Ensuite, à chaque tour de communication, chaque MVNO entraîne
′ ′
où θ v et θ µ désignent respectivement les paramètres du réseau cible localement le modèle DDPG. Pour ce faire, chaque MVNO initialise sa
critique et du réseau cible acteur. mémoire tampon de lecture, puis démarre le processus d'apprentissage.
L'apprentissage Q dans DDPG est effectué en minimisant la fonction Au travers de plusieurs épisodes, les MVNO réinitialisent leur
d'erreur quadratique moyenne suivante : environnement, effectuent une observation et initialisent l'espace d'action
à l'aide du bruit OU. Pour un certain nombre d'étapes, les MVNO
1 sélectionnent une action ai , l'évaluent et calculent la récompense reçue
L = (y(t = k) − µ(S(t = k), A(t = k)|θ µ ))2 , (12) ri , puis passent à l'observation suivante. Chaque transition d'un état st
N
k à st+1 est stockée dans le tampon de relecture. Après un nombre
où N représente le nombre d'expériences et θ µ désigne les prédéfini de transitions stockées (par lots), les MVNO échantillonnent
paramètres du réseau d'acteurs. des minilots aléatoires à partir du tampon de relecture. Le réseau
Les paramètres du réseau cible acteur et du réseau cible critique d'acteurs Qi est mis à jour par gradient de politique. Le réseau critique
sont mis à jour en douceur comme suit : µi est mis à jour par la minimisation de la fonction de perte. Par la suite,
′
les réseaux cibles Q sont
je
′
et µégalement mis à jour. A la fin des épisodes,
je
′ ′ chaque MVNO envoie son modèle local mis à jour au RIC à des fins
m ← tm + (1 − t)m d'agrégation. RIC collecte toutes les mises à jour locales des MVNO et
(13)
′ ′, génère le modèle global en utilisant la somme pondérée définie par θG
dans
← τv + (1 − τ)v
dans l'Eq. (14).
où 0 ≤ τ ≤ 1.
2) Federated Deep Reinforcement Learning (FDRL) : la
disparité entre les clients en termes de géographie, par exemple, V. RÉSULTATS NUMÉRIQUES
rend inadéquate l'utilisation du même modèle dans toutes les zones
Cette section examine les performances du mécanisme FDRL
couvertes. De plus, la quantité de données collectées par chaque MVNO proposé dans différents scénarios. Nous introduisons d'abord les
dans certaines zones (par exemple, les zones rurales) est assez limitée.
paramètres des expériences, puis nous présentons et discutons les
Étant donné qu'il est avantageux pour chaque MVNO d'améliorer son
résultats.
modèle d'allocation de bande passante, FL a créé la possibilité pour
plusieurs MVNO d'exploiter les données d'un ensemble plus large de
clients tout en évitant de les partager. Chaque MVNO forme un modèle A. Paramètres et scénarios d'expérimentation
RL global basé sur l'interaction de ses utilisateurs. Chaque MVNO Nous considérons une architecture RAN compatible RIC avec une
télécharge son modèle formé localement pour la ronde en cours sur le RIC. seule station de base. Les utilisateurs simulés sont dispersés au hasard
RIC effectue l'agrégation des modèles à l'aide d'une somme pondérée dans une zone de 500m × 500m autour de la BS, et desservis par 3
en utilisant le nombre d'utilisateurs de chaque MVNO. Si nous supposons MVNO. Le tableau I récapitule les différents réseaux sans fil
que le paramètre du modèle local est noté θi , le paramètre du modèle paramètres.
global est donné par, Les MVNO forment collectivement un modèle DDPG. Nous créons et
1 formons le modèle à l'aide du framework PyTorch. Les quatre réseaux
θG = Ciθi (14)
C du modèle ont deux couches cachées entièrement connectées avec
i M
respectivement 400 et 300 neurones. Étant donné que le nombre
où C = le i M Ci est le nombre total d'utilisateurs et Ci est maximum d'utilisateurs est de 5, la taille de la couche d'entrée est de 10
cardinal de Ui , l'ensemble des utilisateurs du MVNO i. et celle de la couche de sortie est de 5. Nous avons utilisé l'unité linéaire
l'algorithme 1 décrit l'approche FDRL proposée. Premièrement, les rectifiée (ReLU) comme fonction d'activation car elle permet d'éviter la
réseaux d'acteurs et de critiques, et les réseaux d'acteurs et de critiques disparition des gradients en rétropropagation, d'autant plus que l'action
cibles sont initialisés de manière centralisée. Étant donné que chaque l'espace est limité aux valeurs inférieures à fmax = 0,3. Nous avons
MVNO peut desservir un nombre différent d'utilisateurs à chaque fois, utilisé l'Adam optimisé avec deux taux d'apprentissage différents pour
son observation étant la concaténation d'un tableau représentant les l'acteur et le critique. L'exploration est assurée par l'utilisation d'une
valeurs de gains de canal et d'un tableau représentant les types fraction de la valeur absolue du bruit OU égale à 1/10. Le tableau II
d'utilisateurs, nous définissons la taille d'entrée sur une valeur de 2 × résume les différents hyperparamètres d'entraînement du DDPG.
Cmax , avec Cmax le nombre maximum d'utilisateurs
Machine Translated by Google
7
TABLE II : Paramètres DDPG
Algorithme 1 : Algorithme FDRL
Valeur du paramètre
1 Initialiser les réseaux Actor et Target Actor ; Graine aléatoire 0
2 Initialiser les réseaux Critic et Target Critic ; Taux d'apprentissage 0,0001 (Acteur), 0,001 (Critique)
3 Initialisez l'environnement ; 4 pour r Taille du lot 128
tours : faire pour i M : Facteur d'actualisation 0,99
Fonction de perte MeanSquare Error
5 faire
Fonction d'activation ReLu
6 Initialisez le tampon de relecture ; Optimizer Adam
7 pour e dans les épisodes : faire
8 Réinitialisez l'environnement ; TABLEAU III : Paramètres FDRL
9 Recevoir l'observation initiale ; Valeur du paramètre
dix Initialiser l'action en fonction du bruit d'exploration ; Graine aléatoire 0
Rondes de communication 5
pour t
Épisodes locaux / environ 500
11 étapes : sélectionnez Étapes / épisode 50
12 l'action ai en fonction de la politique actuelle ; Réinitialiser l'étape 25
évaluer
13 ai ; calculer la
respectivement. Dans ce cas, la fraction de la bande passante allouée à chaque
14 récompense ri ; observer
MVNO est proportionnelle à son nombre d'utilisateurs.
15 l'état suivant st+1 ; stocker la
Dans ce qui suit, nous étudions deux scénarios : Noniid avec un nombre égal
16 transition dans le tampon de relecture ;
d'utilisateurs, et Noniid avec un nombre inégal d'utilisateurs. Pour évaluer la
17 échantillonner des lots aléatoires à partir du
performance de FDRL et son bénéfice, nous comparons avec le cas où chaque
tampon de relecture ;
MVNO forme et utilise un modèle local sans collaborer avec d'autres MVNO. Ces
18 mettre à jour le critique Qi en minimisant la perte ; mise
paramètres sont résumés dans le tableau III.
19 à jour de l'acteur µi sing policy gradient ; mettre à
20 ′ à bout ′
jour les réseaux cibles Q et µ i ; bout
je
21 pour
22 envoyer la B. Résultats de la formation FDRL
23 mise à jour au RIC ; 24 fin Le premier scénario considéré est noniid avec un nombre égal d'utilisateurs. Le
pour les modèles nombre total d'utilisateurs est de 15, avec 5 utilisateurs desservis par chaque
25 agrégés utilisant la somme pondérée en utilisant l'équation MVNO. La figure 3 montre l'évolution de la récompense moyenne des modèles
(14) ; locaux et du modèle global à travers 5 expériences. Alors que le modèle global
26 envoyer le modèle mis à jour à M ; s'améliore grâce à l'expérience partagée, dépassant même la moyenne des modèles
27 fin pour locaux lors des cycles ultérieurs, les modèles locaux ont des performances
dégradantes tout au long de la formation. En effet, comme dans les tours ultérieurs,
l'exploration induite par le bruit OU est réduite, les modèles locaux allouent moins
TABLEAU I : Paramètres de simulation
de bande passante aux utilisateurs, ce qui dégrade les valeurs des récompenses
Valeur du paramètre reçues. Le modèle global, en revanche, apprend plus lentement à généraliser, mais
Zone de couverture 500m × 500m
réalise une formation plus robuste dans l'ensemble en tirant parti de l'expérience
Nombre de MVNO 3
Nombre total d'utilisateurs [12 , 15] partagée.
Bande passante 3 MHz
fmax 0,3
Le deuxième scénario considéré est noniid avec un nombre inégal d'utilisateurs.
Nombre maximal de
5 Le nombre total d'utilisateurs est de 12, où 5, 4 et 3 utilisateurs sont desservis
utilisateurs / MVNO
respectivement par le premier, le deuxième et le troisième MVNO. La figure 4
montre l'évolution de la récompense moyenne des modèles locaux et du modèle
global à travers 5 expériences. Notre première observation est que les récompenses
Comme pour le dispositif FDRL, la formation se déroule sur un total de 5 tours
de communication. A chaque tour, le modèle est formé par chaque MVNO pendant cumulées pour les deux modèles sont inférieures à ce qui a été obtenu dans le cas
d'un nombre égal d'utilisateurs. Cela est principalement dû à la punition liée à
500 épisodes avant d'envoyer le modèle au RIC pour agrégation. Chaque épisode
l'attribution de bande passante à des utilisateurs inexistants. De plus, comme dans
est composé de 50 étapes, où les valeurs de gain du canal sont réinitialisées à
les expériences précédentes, le modèle global s'améliore lentement tout au long
chaque étape, et les emplacements des utilisateurs sont réinitialisés tous les 25
des cycles de communication, tandis que les modèles locaux ne s'améliorent pas.
épisodes.
Afin de générer des distributions noniid pour les besoins des utilisateurs, nous
avons défini différentes probabilités d'utilisateurs URLLC et eMBB pour chaque
MVNO. L'ensemble des probabilités des utilisateurs d'URLLC est de 25 %, 50 % et
75 % pour les MVNO 1, 2 et 3, respectivement. C. Évaluation des performances des FDRL
Pour évaluer les performances du mécanisme FDRL proposé, nous avons
Pour tester davantage notre solution proposée, nous avons généré une répartition comparé le nombre d'actions invalides du modèle global par rapport à chaque
inégale des utilisateurs. Plus précisément, nous avons considéré un cas où les modèle local de MVNO. Notez qu'une action est considérée comme invalide si elle
MVNO 1, 2 et 3 avaient 5 , 4 et 3 utilisateurs re ne respecte pas le SLA de l'utilisateur
Machine Translated by Google
8
pour un total de 20 000 observations. Nous avons remarqué que, dans
l'ensemble, les actions du modèle global sont moins susceptibles de violer
les exigences SLA pour les utilisateurs eMBB et URLLC par rapport aux
modèles formés individuellement. De plus, comme nous avons attribué des
poids plus importants aux utilisateurs d'URLLC, le modèle global donne la
priorité à ce type d'utilisateurs et est moins susceptible de violer leur délai
requis.
2) Nombre variable d'utilisateurs :
le deuxième scénario envisagé est noniid avec un nombre inégal
d'utilisateurs. Les modèles sont d'abord formés avec un nombre total
d'utilisateurs de 12, où 5, 4 et 3 utilisateurs sont desservis par le premier, le
deuxième et le troisième MVNO, respectivement. En d'autres termes, nous
cherchons à évaluer la robustesse des modèles en cas d'évolution du nombre
d'utilisateurs. Dans une première expérience, nous avons changé le nombre
d'utilisateurs en temps de test à 4, 3, 5 pour les premier, deuxième et
troisième MVNO, respectivement. Dans une deuxième expérience, nous
Fig. 3 : distributions d'utilisateurs noniid et égaux
avons changé ces nombres en 3, 5, 4. La Fig. 6 montre le nombre de fois où
les SLA des utilisateurs n'ont pas été satisfaits par les modèles locaux des
MVNO et le modèle global, tout en observant les mêmes environnements
pour un total de 20 000 observations.
Comme pour les expériences précédentes, les actions du modèle global
sont moins susceptibles de violer les exigences du SLA pour les utilisateurs
eMBB et URLLC par rapport aux modèles formés individuellement. De plus,
le troisième MVNO, formé principalement avec des utilisateurs d'URLLC, a
un taux de satisfaction élevé pour ce type, mais il fonctionne mal pour les
utilisateurs d'eMBB. En général, l'amélioration de la QoS pour les deux types
d'utilisateurs utilisant le modèle global rend la collaboration des MVNO
intéressante.
SCIE. CONCLUSION
Dans cet article, nous avons étudié l'allocation des ressources du
Fig. 4 : Répartition des utilisateurs non iid et inégale découpage RAN dans des scénarios multiMVNO. Plus précisément, nous
avons exploré l'utilisation de l'apprentissage fédéré comme moyen de
construire des modèles de découpage robustes dans divers environnements
exigences. Dans ce cas, nous utilisons les modèles locaux et globaux de communication sans fil. En conséquence, nous avons proposé un
résultants et les testons dans différents environnements en faisant varier les mécanisme d'apprentissage par renforcement profond fédéré pour former en
distributions des types d'utilisateurs sousjacents de chaque MVNO, puis en collaboration un modèle d'apprentissage par renforcement profond pour l'allocation de bande
faisant varier le nombre d'utilisateurs desservis par chaque MVNO. Nous avons envisagé un scénario avec deux types de tranches différents, à
savoir les tranches URLLC et eMBB. Nous avons formulé le problème sous
1) Distributions variables des types la forme d'un MDP d'un seul opérateur de réseau virtuel mobile, où l'agent
d'utilisateurs : le premier scénario considéré est noniid avec un nombre vise à allouer des ressources radio à différents types d'utilisateurs (URLLC et
égal d'utilisateurs. Les modèles sont d'abord formés avec un nombre total eMBB). Nous avons proposé un algorithme critique d'acteur, qui combinait
d'utilisateurs de 15, où 5 utilisateurs sont servis par chaque MVNO. Afin les avantages des algorithmes d'apprentissage par renforcement basés sur
d'évaluer la robustesse des modèles en cas d'évolution des besoins des les valeurs et sur les politiques. De plus, comme les valeurs des fractions de
utilisateurs, nous avons fait varier les distributions sousjacentes des bande passante sont continues, nous utilisons un gradient de politique
utilisateurs pour chaque MVNO. Les probabilités d'utilisateurs d'URLLC dans déterministe profond, qui apprend simultanément une fonction Q et une
les modèles entraînés sont de 25 %, 50 % et 75 %, respectivement pour le politique et prend des mesures dans un espace continu. Comme les MVNO
premier, le deuxième et le troisième MVNO. sont des entités concurrentes, le partage de données pour obtenir divers
Dans une première expérience, nous avons modifié les probabilités ensembles de données pour former les modèles n'est pas viable. Au lieu de
URLLC en phase de test à 75 %, 25 % et 50 % pour les premier, deuxième cela, nous tirons parti de FL pour surmonter ces défis et nous avons conçu
et troisième MVNO, respectivement. Dans une deuxième expérience, nous un mécanisme FDRL sur une architecture O RAN pour améliorer de manière
avons modifié ces probabilités en 50 %, 75 %, 25 %. La Fig.5 montre le collaborative l'opération d'allocation des ressources radio de différents MVNO.
nombre cumulé de fois où les exigences SLA des utilisateurs n'ont pas été L'efficacité de l'approche FDRL proposée a été prouvée dans différents
satisfaites par les modèles locaux des MVNO et par le modèle global, tout en scénarios de simulation avec des distributions non iid et inégales de
observant les mêmes environnements
Machine Translated by Google
9
(a) URLLC (75 %, 25 %, 50 %) (b) eMBB (75 %, 25 %, 50 %)
(c) URLLC (50 %, 75 %, 25 %) (d) eMBB (50 %, 75 %, 25 %)
Fig. 5 : Évaluation sous différentes distributions d'utilisateurs
¨
les utilisateurs. Les expériences ont montré que le modèle formé à l'aide [10] MR Raza, C. Natalino, P. Ohlen, L. Wosinska et P. Monti, "Apprentissage par
renforcement pour le découpage en tranches flexibles de 5 g", Journal of Lightwave
de FDRL est plus robuste contre les changements d'environnement par
Technology, vol. 37, non. 20, p. 5161–5169, 2019.
rapport aux modèles formés séparément par chaque MVNO.
[11] C. Ssengonzi, OP Kogeda et TO Olwal, "Une enquête sur l'application d'apprentissage
par renforcement profond dans la 5g et audelà du découpage et de la virtualisation
LES RÉFÉRENCES
du réseau", Array, p. 100142, 2022.
[1] O. Sallent, J. PerezRomero, R. Ferrus et R. Agusti, "Sur le découpage du réseau [12] V. Mnih, K. Kavukcuoglu, D. Silver, AA Rusu, J. Veness, MG
d'accès radio du point de vue de la gestion des ressources radio", IEEE Wireless Bellemare, A. Graves, M. Riedmiller, AK Fidjeland, G. Ostrovski, et al., « Contrôle au
Communications, vol. 24, non. 5, p. 166–174, 2017. niveau humain par apprentissage par renforcement profond », nature, vol. 518, non.
[2] EJ Oughton et Z. Frias, "Les implications du coût, de la couverture et du déploiement 7540, p. 529–533, 2015.
de l'infrastructure 5g en GrandeBretagne", Telecommunications Policy, vol. 42, non. [13] K. Arulkumaran, MP Deisenroth, M. Brundage et AA Bharath, "Apprentissage par
8, p. 636–652, 2018. renforcement en profondeur : une brève enquête", IEEE Signal Processing Magazine,
[3] A. Filali, A. Abouaomar, S. Cherkaoui, A. Kobbane et M. Guizani, « Multiaccess edge vol. 34, non. 6, p. 26–38, 2017.
computing : A survey », IEEE Access, vol. 8, pages 197017–197046, 2020. [14] A. Filali et al., "Découpage des ressources de communication et de calcul oran pour
les services urllc utilisant l'apprentissage par renforcement profond", arXiv preprint
[4] Z. Mlika et S. Cherkaoui, « Découpage de réseau avec mec et apprentissage par arXiv:2202.06439, 2022.
renforcement profond pour l'internet des véhicules », IEEE Network, vol. 35, non. 3, [15] A. Abouaomar et al., "Provisionnement de ressources dans l'informatique de pointe
p. 132–138, 2021. pour les applications sensibles à la latence", IEEE Internet of Things Journal, vol. 8,
[5] X. Foukas, MK Marina et K. Kontovasilis, "Orion : Ran slicing for a flexible and cost non. 14, p. 11088–11099, 2021.
effective multiservice mobile network architecture", dans Actes de la 23e conférence
[16] A. Thantharate, R. Paropkari, V. Walunj et C. Beard, "Deepslice : Une approche
internationale annuelle sur l'informatique et les réseaux mobiles, pp 127–140, 2017.
d'apprentissage en profondeur vers un découpage de réseau efficace et fiable dans
les réseaux 5g", en 2019 IEEE 10th Annual Ubiquitous Computing, Elec tronics &
[6] C. Liang et FR Yu, « Virtualisation des réseaux sans fil : une enquête, quelques
Conférence sur les communications mobiles (UEMCON), pp. 0762– 0767, IEEE,
problèmes et défis de recherche », IEEE Communications Surveys & Tutorials, vol.
2019.
17, non. 1, p. 358–380, 2014.
[17] G. Chen, X. Zhang, F. Shen et Q. Zeng, "Algorithme d'allocation des ressources de
[7] A. Rago, S. Martiradonna, G. Piro, A. Abrardo et G. Boggia, « Un système d'application
découpage à deux niveaux basé sur l'apprentissage par renforcement profond et les
du découpage axé sur les locataires basé sur l'intelligence omniprésente dans le
enchères conjointes dans les réseaux d'accès sans fil", Sensors, vol. 22, non. 9, p.
réseau d'accès radio », disponible sur SSRN 4022195, 2022 .
3495, 2022.
[8] H. Song, J. Bai, Y. Yi, J. Wu et L. Liu, "L'intelligence artificielle a activé l'Internet des
objets : architecture réseau et accès au spectre", IEEE Computational Intelligence [18] A. Filali, Z. Mlika, et al., "Découpage dynamique du réseau d'accès radio basé sur sdn
Magazine, vol. 15, non. 1, p. 44–51, 2020. avec apprentissage par renforcement profond pour les services urllc et embb",
[9] H. Song, L. Liu, J. Ashdown et Y. Yi, "Un cadre d'apprentissage par renforcement IEEE Transactions on Network Science and Engineering, pp. 1–1, 2022.
profond pour la gestion du spectre dans l'accès dynamique au spectre", [19] J. Hu, Z. Zheng, B. Di et L. Song, « Découpage de réseau radio multicouche pour les
IEEE Internet of Things Journal, vol. 8, non. 14, p. 11208–11218, 2021. systèmes de communication hétérogènes », IEEE Transactions
Machine Translated by Google
dix
(a) URLLC (4,3,5) (b) eMBB(4,3,5)
(c) URLLC (3,5,4) (d) eMBB(3,5,4)
Fig. 6 : Évaluation sous différents nombres d'utilisateurs
sur la science et l'ingénierie des réseaux, vol. 7, non. 4, p. 2378–2391, 2020. [30] W. Wu, N. Chen, C. Zhou, M. Li, X. Shen, W. Zhuang et X. Li, « Dynamic run slicing for
serviceoriented vehicular networks via contraint learning », IEEE Journal sur des
[20] J. Koneˇcn ́y, HB McMahan, FX Yu, P. Richt´arik, AT Suresh et D. Bacon, « domaines choisis des communications, vol. 39, non. 7, p. 2076–2089, 2020.
Apprentissage fédéré : stratégies pour améliorer l'efficacité de la communication »,
2016. [31] O. Nachum, M. Norouzi, K. Xu et D. Schuurmans, "Combler le fossé entre l'apprentissage
[21] T. Li, AK Sahu, A. Talwalkar et V. Smith, «Apprentissage fédéré: défis, méthodes et par renforcement basé sur la valeur et sur la politique", Advances in neural information
orientations futures», IEEE Signal Processing Magazine, vol. 37, non. 3, p. 50–60, processing systems, vol. 30, 2017.
2020. [32] V. Konda et J. Tsitsiklis, « Actorcritic algorithms », Advances in neural
[22] A. Ta¨ık et al., "Ordonnancement d'appareils sensibles aux données pour systèmes de traitement de l'information, vol. 12, 1999.
l'apprentissage fédéré en périphérie", IEEE Transactions on Cognitive Communications [33] TP Lillicrap, JJ Hunt, A. Pritzel, N. Heess, T. Erez, Y. Tassa, D. Silver et D. Wierstra,
and Networking, vol. 8, non. 1, p. 408–421, 2022. "Contrôle continu avec apprentissage par renforcement profond", arXiv preprint
[23] A. Abouaomar, S. Cherkaoui, Z. Mlika et A. Kobbane, « Meanfield game arXiv:1509.02971, 2015 .
andrenforcement learning mec resource provisioning for sfc », in 2021 IEEE Global
Communications Conference (GLOBECOM), pp. 1– 6 , 2021.
[24] O.R. Alliance, « ORAN : vers un RAN ouvert et intelligent », tech. rep., oct. 2018. Livre
, blanc.
[25] I. ChihLin, S. Kuklinsk´ı et T. Chen, "Une perspective d'intégration oran avec mec,
son et le découpage du réseau à l'ère 5g", IEEE Network, vol. 34, non. 6, p. 3–4,
2020.
[26] D. Johnson, D. Maas et J. Van Der Merwe, « Nexran : Closedloop run slicing in powder
a toptobottom opensource openrun use case », dans Actes du 15 Atelier ACM sur
les bancs d'essai de réseau sans fil, évaluation expérimentale et caractérisation, pp.
17–23, 2022.
[27] SO Oladejo et OE Falowo, "Schéma d'allocation dynamique des ressources tenant
compte de la latence pour le réseau 5g multiniveau : un scénario de découpage
réseaumultilocataire", IEEE Access, vol. 8, pages 74834–74852, 2020.
[28] B. Han et HD Schotten, "Apprentissage automatique pour la gestion des ressources
de découpage de réseau : une enquête complète", arXiv preprint arXiv:2001.07974,
2020.
[29] A. Abouaomar, Z. Mlika, A. Filali, S. Cherkaoui et A. Kobbane, "Une approche
d'apprentissage par renforcement profond pour la migration de services dans les
réseaux de véhicules activés par mec", en 2021 IEEE 46th Conference on Local
Computer Networks ( LCN), p. 273–280, 2021.