Forecasting Data Center Resource Usage With Artificial Neural Networks
Malin, Miika (2021-05-25)
Malin, Miika
M. Malin
25.05.2021
© 2021 Miika Malin. Tämä Kohde on tekijänoikeuden ja/tai lähioikeuksien suojaama. Voit käyttää Kohdetta käyttöösi sovellettavan tekijänoikeutta ja lähioikeuksia koskevan lainsäädännön sallimilla tavoilla. Muunlaista käyttöä varten tarvitset oikeudenhaltijoiden luvan.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:oulu-202105268177
https://urn.fi/URN:NBN:fi:oulu-202105268177
Tiivistelmä
This thesis theoretical part presents some traditional time series forecasting methods (ARIMA) and recurrent neural network methods (LSTM and GRU) combined with convolution layer. The training process (backpropagation) of neural network is also explained in this thesis, and different algorithms to optimize the learning. Multiple metrics for evaluating forecast accuracy, and data preprocessing techniques are also introduced in theory section.
The practical side of this thesis focuses on predicting real-world resource usage data of data center. In the analysis section grid search for optimal hyperparameters of the models is performed. Based on the results found in hyperparameter optimization multiple different neural network architectures are compared with each other taking into account forecasting accuracy and the computational complexity of training the model.
The main result is that the recurrent neural network architecture GRU with convolution layer outperforms other models in forecast accuracy and in the time required to train the model. Proposed model can be effectively applied to load prediction as a part of data center computing cluster. Tämä työ esittelee koneoppimismenetelmiä sekä tilastollisia menetelmiä aikasarjojen ennustamiseen palvelinkeskus kontekstissa. Työn teoriosuus lähtee liikkelle aikasarjojen esikäsittelystä, jossa esitellään aikasarjojen differensointi sekä minimi-maksimi menetelmä aikasarjojen skaalaukselle. Tällä skaalausmenetelmällä saadaan eri skaalalla olevat aikasarjat vertailukelpoisiksi syötteiksi neuroverkolle.
Aikasarjojen esikäsittelyn jälkeen työ siirtyy aikasarjojen ennustamisen pariin. Mallintamismenetelmänä esitellään perinteinen tilastotieteen ARIMA -malli ja koneoppismenetelmänä kaksi erilaista takaisinkytkettyä neuroverkkoarkkitehtuuria, LSTM ja GRU. Ennen takaisinkytkettyjen neuroverkkojen esittelyä työ kertoo neuroverkkojen perusidean, ja millä tavalla neuroverkot oppivat. Lisäksi koneoppimispuolelta esitellään kuvantunnistuksesta tuttu konvoluutiokerrosta hyödyntävä neuroverkkoarkkitehtuuri muokattuna aikasarjoille sopivaksi.
Neuroverkkojen esittelyn jälkeen syvennetään neuroverkkojen ominaisuuksiin ja opetukseen liittyviä yksityiskohtia: Työssä esitellään kolme usein neuroverkoissa käytettyä epälineaarista aktivaatiofunktiota neuroverkon opetusvaiheessa tarvittavineen derivaattoineen. Tämän jälkeen työ esittelee kaksi optimointialgoritmia neuroverkon parametrien päivittämistä varten, ja yhden optimointialgoritmin jota käytetään ARIMA -mallin parametrien optimoimiseen. Lopuksi teoriaosuudessa esitellään erilaisia aikasarjoihin ja ennustevirheen suuruuteen liittyviä tunnuslukuja.
Teoriaosuuden jälkeen seuraa työn käytännön osuus. Tässä osuudessa käytetään ensin perättäishakua löytämään parhaat mahdolliset hyperparametrien arvot eri neuroverkkoarkkitehtuureille. Perättäishaulla saatuja tuloksia käytetään hyödyksi ennustaessa tulevaa oikean palvelinkeskuksen resurssin käyttöastetta kaikilla teoriaosuudessa esiteltyjen menetelmien avulla. Tämän jälkeen käytännön osuudessa vertaillaan eri mallien ennustetarkuutta, sekä mallien opetukseen kuluvaa aikaa.
Tärkeimpänä tuloksena työssä saatiin esille, että takaisinkytketty neuroverkkoarkkitehtuuri GRU konvoluutiokerroksella antoi tarkimmat ennusteet tulevalle palvelinkeskuksen resurssien tarpeelle, lyhentäen samalla mallin opettamiseen tarvittavaa aikaa.
The practical side of this thesis focuses on predicting real-world resource usage data of data center. In the analysis section grid search for optimal hyperparameters of the models is performed. Based on the results found in hyperparameter optimization multiple different neural network architectures are compared with each other taking into account forecasting accuracy and the computational complexity of training the model.
The main result is that the recurrent neural network architecture GRU with convolution layer outperforms other models in forecast accuracy and in the time required to train the model. Proposed model can be effectively applied to load prediction as a part of data center computing cluster.
Aikasarjojen esikäsittelyn jälkeen työ siirtyy aikasarjojen ennustamisen pariin. Mallintamismenetelmänä esitellään perinteinen tilastotieteen ARIMA -malli ja koneoppismenetelmänä kaksi erilaista takaisinkytkettyä neuroverkkoarkkitehtuuria, LSTM ja GRU. Ennen takaisinkytkettyjen neuroverkkojen esittelyä työ kertoo neuroverkkojen perusidean, ja millä tavalla neuroverkot oppivat. Lisäksi koneoppimispuolelta esitellään kuvantunnistuksesta tuttu konvoluutiokerrosta hyödyntävä neuroverkkoarkkitehtuuri muokattuna aikasarjoille sopivaksi.
Neuroverkkojen esittelyn jälkeen syvennetään neuroverkkojen ominaisuuksiin ja opetukseen liittyviä yksityiskohtia: Työssä esitellään kolme usein neuroverkoissa käytettyä epälineaarista aktivaatiofunktiota neuroverkon opetusvaiheessa tarvittavineen derivaattoineen. Tämän jälkeen työ esittelee kaksi optimointialgoritmia neuroverkon parametrien päivittämistä varten, ja yhden optimointialgoritmin jota käytetään ARIMA -mallin parametrien optimoimiseen. Lopuksi teoriaosuudessa esitellään erilaisia aikasarjoihin ja ennustevirheen suuruuteen liittyviä tunnuslukuja.
Teoriaosuuden jälkeen seuraa työn käytännön osuus. Tässä osuudessa käytetään ensin perättäishakua löytämään parhaat mahdolliset hyperparametrien arvot eri neuroverkkoarkkitehtuureille. Perättäishaulla saatuja tuloksia käytetään hyödyksi ennustaessa tulevaa oikean palvelinkeskuksen resurssin käyttöastetta kaikilla teoriaosuudessa esiteltyjen menetelmien avulla. Tämän jälkeen käytännön osuudessa vertaillaan eri mallien ennustetarkuutta, sekä mallien opetukseen kuluvaa aikaa.
Tärkeimpänä tuloksena työssä saatiin esille, että takaisinkytketty neuroverkkoarkkitehtuuri GRU konvoluutiokerroksella antoi tarkimmat ennusteet tulevalle palvelinkeskuksen resurssien tarpeelle, lyhentäen samalla mallin opettamiseen tarvittavaa aikaa.
Kokoelmat
- Avoin saatavuus [34150]