Deep reinforcement learning for virtualized radio access networks orchestration
Murti, Fahri Wisnu (2024-11-01)
Murti, Fahri Wisnu
Oulun yliopisto
01.11.2024
https://rightsstatements.org/vocab/InC/1.0/
© University of Oulu, 2024. This publication is copyrighted. You may download, display and print it for your own personal use. Commercial use is prohibited. © Oulun yliopisto, 2024. Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
https://rightsstatements.org/vocab/InC/1.0/
© University of Oulu, 2024. This publication is copyrighted. You may download, display and print it for your own personal use. Commercial use is prohibited. © Oulun yliopisto, 2024. Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
https://rightsstatements.org/vocab/InC/1.0/
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:oulu-202410036167
https://urn.fi/URN:NBN:fi:oulu-202410036167
Kuvaus
Academic dissertation to be presented with the assent of the Doctoral Programme Committee of Information Technology and Electrical Engineering of the University of Oulu for public defence in Auditorium IT116, Linnanmaa, on 8 November 2024, at 1 p.m.
Tiivistelmä
Abstract
The main objective of this thesis is to devise novel learning-based frameworks that orchestrate cost-aware virtualized Radio Access Networks (vRANs).
In vRANs, the base station (BS) functions can be fully configurable, disaggregated, and implemented at a low cost over commodity platforms. This paradigm shift brings flexibility to RAN operations and potentially reduces operational expenses. However, their expansive deployment is challenged by highly coupled configuration options and non-trivial underlying systems. In this regard, their orchestration problems are investigated, and deep reinforcement learning (RL)-based frameworks are developed to solve the problems with minimal assumptions about the system.
First, the functional split problem is investigated, where the BS functions can be deployed flexibly at the centralized unit (CU) and distributed units (DUs) to minimize the total vRAN cost. This problem is combinatorial and provably NP-hard, and finding the optimal solution is computationally expensive. A chain rule-based stochastic RL policy with a sequence-to-sequence model is proposed to solve this problem heuristically. The results show that it can learn to make split decisions close to optimality.
Next, a vRAN reconfiguration problem is proposed to jointly reconfigure the functional splits of the BSs, locations of the CUs and DUs, their resources, and the routing for each BS data flow. The goal is to minimize the long-term total network operation cost while adapting to the traffic demands and resource availability. This problem has a multi-dimensional discrete action space, which yields a combinatorial number of possible actions. A combination of action branching, an action decomposition method followed by neural network branches, with a dueling double deep Q-network algorithm is proposed for the solution framework. The results show the framework successfully learns the optimal policy and offers substantial cost savings to the baselines.
Finally, a joint vRAN and multi-access edge computing (MEC) orchestration is proposed to jointly control the vRAN splits, the resources and hosting locations of the vRAN/MEC services, and the routing for each data flow. The goal is to minimize the long-term network operation cost and maximize the MEC performance criterion while adapting vRAN/MEC demands and resource availability. A Bayesian framework of deep RL is proposed to solve this problem, for which numerical evaluations show that it is data-efficient and can improve the learning performance of its non-Bayesian version. Tiivistelmä
Tämän opinnäytetyön päätavoitteena on kehittää uusia oppimiseen perustuvia virtualisoituja radioliityntäverkkoja (vRAN). vRAN:issa tukiaseman toiminnot voivat olla täysin konfiguroitavissa, eriteltyjä, ja toteutetaan kustannustehokkaasti geneerisillä ohjelmistopohjaisilla toteutusalustoilla. Tämä paradigman muutos tuo mukanaan joustavuutta RAN-toimintoihin ja mahdollisesti vähentää käyttökustannuksia. Haasteena kumminkin on erilaisten konfigurointivaihtoehtojen laajuus ja järjestelmien monimutkaisuus. Tässä työssä tutkitaankin näiden yhteensovittamista vahvistavaa syväoppimismenetelmää (Reinforcement Learning) hyödyntäen.
Aluksi tutkitaan toiminnallisuuksien pilkkomista eri tavoin, joissa tukiasemafunktiot voivat olla keskitetyissä yksiköissä (Centralized Unit - CU) tai hajautetuissa yksiköissä (Distribute Unit - DU) minimoimaan kokonaiskustannukset. Tämä ongelma on kombinatorinen ja todistettavasti NP-kova tarkoittaen erittäin monimutkaista toteutusta. Ketjusääntöön perustuvaa stokastista RL-menetelmää, joka hyödyntää sekvenssistä sekvenssiin -mallia, ehdotetaan heuristisena ratkaisuna tämän ongelman ratkaisemiseksi. Tulokset osoittavat, että se voi oppia tekemään hajautettuja päätöksiä lähellä optimiratkaisua.
Seuraavaksi ehdotetaan vRANin yhteiskonfigurointia tukiasemien toiminnallisissa jaoissa, CU:iden ja DU:iden sijaintien, sekä niiden resurssien ja datavirtojen reitityksen suhteen. Tavoitteena on minimoida pitkän aikavälin kokonaiskustannusfunktio mukautumalla liikenteen vaatimuksiin ja resurssien saatavuuteen. Tällä ongelmalla on moniulotteinen diskreetti määrä ratkaisuja, mikä johtaa kombinatoriseen ratkaisujen määrään. Tätä pyritään ratkaisemaan vaihtoehtoisten päätösten dekompositiolla jota seuraavat neuroverkkohaarat jotka hyödyntävät dueling double deep Q-algoritmia. Tulosten valossa valittu menetelmä oppii menestyksekkäästi optimaalisen verkontoimintojen hajautuksen ja tarjoaa huomattavia parannuksia suhteessa tunnettuihin ratkaisuihin.
Lopuksi ehdotetaan vRAN:n ja verkon reunalaskentapalevelimen (MEC) orkestrointia kontrolloimaan toiminnalista vRAN -jakoa, resursseja, vRAN/MEC sijoittelua ja datavirtojen reititystä. Tavoitteena on minimoida verkon pitkän aikavälin kustannusfunktio ja maksimoida MEC:n suorituskykykriteerit samalla mukauttaen vRAN/MEC-vaatimuksia ja resurssien saatavuutta. Bayesilaista syväoppimisen viitekehystä on ehdotettu ratkaisemaan tämä ongelma. Numeeriset tulokset osoittavat, että se on laskennallisesti tehokas ja parantaa oppiskykyä suhteessa ei-Bayesilaiseen versioon.
The main objective of this thesis is to devise novel learning-based frameworks that orchestrate cost-aware virtualized Radio Access Networks (vRANs).
In vRANs, the base station (BS) functions can be fully configurable, disaggregated, and implemented at a low cost over commodity platforms. This paradigm shift brings flexibility to RAN operations and potentially reduces operational expenses. However, their expansive deployment is challenged by highly coupled configuration options and non-trivial underlying systems. In this regard, their orchestration problems are investigated, and deep reinforcement learning (RL)-based frameworks are developed to solve the problems with minimal assumptions about the system.
First, the functional split problem is investigated, where the BS functions can be deployed flexibly at the centralized unit (CU) and distributed units (DUs) to minimize the total vRAN cost. This problem is combinatorial and provably NP-hard, and finding the optimal solution is computationally expensive. A chain rule-based stochastic RL policy with a sequence-to-sequence model is proposed to solve this problem heuristically. The results show that it can learn to make split decisions close to optimality.
Next, a vRAN reconfiguration problem is proposed to jointly reconfigure the functional splits of the BSs, locations of the CUs and DUs, their resources, and the routing for each BS data flow. The goal is to minimize the long-term total network operation cost while adapting to the traffic demands and resource availability. This problem has a multi-dimensional discrete action space, which yields a combinatorial number of possible actions. A combination of action branching, an action decomposition method followed by neural network branches, with a dueling double deep Q-network algorithm is proposed for the solution framework. The results show the framework successfully learns the optimal policy and offers substantial cost savings to the baselines.
Finally, a joint vRAN and multi-access edge computing (MEC) orchestration is proposed to jointly control the vRAN splits, the resources and hosting locations of the vRAN/MEC services, and the routing for each data flow. The goal is to minimize the long-term network operation cost and maximize the MEC performance criterion while adapting vRAN/MEC demands and resource availability. A Bayesian framework of deep RL is proposed to solve this problem, for which numerical evaluations show that it is data-efficient and can improve the learning performance of its non-Bayesian version.
Tämän opinnäytetyön päätavoitteena on kehittää uusia oppimiseen perustuvia virtualisoituja radioliityntäverkkoja (vRAN). vRAN:issa tukiaseman toiminnot voivat olla täysin konfiguroitavissa, eriteltyjä, ja toteutetaan kustannustehokkaasti geneerisillä ohjelmistopohjaisilla toteutusalustoilla. Tämä paradigman muutos tuo mukanaan joustavuutta RAN-toimintoihin ja mahdollisesti vähentää käyttökustannuksia. Haasteena kumminkin on erilaisten konfigurointivaihtoehtojen laajuus ja järjestelmien monimutkaisuus. Tässä työssä tutkitaankin näiden yhteensovittamista vahvistavaa syväoppimismenetelmää (Reinforcement Learning) hyödyntäen.
Aluksi tutkitaan toiminnallisuuksien pilkkomista eri tavoin, joissa tukiasemafunktiot voivat olla keskitetyissä yksiköissä (Centralized Unit - CU) tai hajautetuissa yksiköissä (Distribute Unit - DU) minimoimaan kokonaiskustannukset. Tämä ongelma on kombinatorinen ja todistettavasti NP-kova tarkoittaen erittäin monimutkaista toteutusta. Ketjusääntöön perustuvaa stokastista RL-menetelmää, joka hyödyntää sekvenssistä sekvenssiin -mallia, ehdotetaan heuristisena ratkaisuna tämän ongelman ratkaisemiseksi. Tulokset osoittavat, että se voi oppia tekemään hajautettuja päätöksiä lähellä optimiratkaisua.
Seuraavaksi ehdotetaan vRANin yhteiskonfigurointia tukiasemien toiminnallisissa jaoissa, CU:iden ja DU:iden sijaintien, sekä niiden resurssien ja datavirtojen reitityksen suhteen. Tavoitteena on minimoida pitkän aikavälin kokonaiskustannusfunktio mukautumalla liikenteen vaatimuksiin ja resurssien saatavuuteen. Tällä ongelmalla on moniulotteinen diskreetti määrä ratkaisuja, mikä johtaa kombinatoriseen ratkaisujen määrään. Tätä pyritään ratkaisemaan vaihtoehtoisten päätösten dekompositiolla jota seuraavat neuroverkkohaarat jotka hyödyntävät dueling double deep Q-algoritmia. Tulosten valossa valittu menetelmä oppii menestyksekkäästi optimaalisen verkontoimintojen hajautuksen ja tarjoaa huomattavia parannuksia suhteessa tunnettuihin ratkaisuihin.
Lopuksi ehdotetaan vRAN:n ja verkon reunalaskentapalevelimen (MEC) orkestrointia kontrolloimaan toiminnalista vRAN -jakoa, resursseja, vRAN/MEC sijoittelua ja datavirtojen reititystä. Tavoitteena on minimoida verkon pitkän aikavälin kustannusfunktio ja maksimoida MEC:n suorituskykykriteerit samalla mukauttaen vRAN/MEC-vaatimuksia ja resurssien saatavuutta. Bayesilaista syväoppimisen viitekehystä on ehdotettu ratkaisemaan tämä ongelma. Numeeriset tulokset osoittavat, että se on laskennallisesti tehokas ja parantaa oppiskykyä suhteessa ei-Bayesilaiseen versioon.
Kokoelmat
- Avoin saatavuus [38840]