Machine learning supported forecasting of baseline energy consumption for industrial processes
Pesonen, Olli (2022-12-20)
Pesonen, Olli
O. Pesonen
20.12.2022
© 2022 Olli Pesonen. Tämä Kohde on tekijänoikeuden ja/tai lähioikeuksien suojaama. Voit käyttää Kohdetta käyttöösi sovellettavan tekijänoikeutta ja lähioikeuksia koskevan lainsäädännön sallimilla tavoilla. Muunlaista käyttöä varten tarvitset oikeudenhaltijoiden luvan.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:oulu-202212203854
https://urn.fi/URN:NBN:fi:oulu-202212203854
Tiivistelmä
The purpose of the thesis was to study and evaluate machine learning supported methods in order to forecast a baseline energy consumption from time-series data of energy-intensive industry. In addition, time-series anomaly detection methods were studied and the anomaly detection accuracy of them was evaluated with hourly and daily average energy consumption data.
In the experimental part of the thesis a simulation scenario was established for hourly average data of two factories. The energy baseline was identified dynamically with week-ahead time-series forecasting by utilizing previous 52 weeks of data in the model training. In addition, model adaptation was considered in the simulation scenario. Predictor variables of the models were designed to imitate natural calendar effect. The energy baseline data of factory A was used to evaluate five linear and non-linear model structures. An average ensemble model structure appeared to outperform other model structures resulting in mean absolute percentage error of 9.3% for validation data of Factory A. The generalization ability of the model structure was evaluated with the data of factory B. For factory B the average ensemble model resulted in mean absolute percentage error of 9.9% for validation data. Overall, the results seemed promising especially as the set of input variables remained relatively simple as more precise subject matter expertise was not available during variable design and selection phase. Diplomityön tavoitteena oli tutkia ja evaluoida koneoppimiseen pohjautuvia menetelmiä energiaintensiivisen teollisuuden aikasarjamuotoisen energiankulutusdatan käsittelyssä energiankulutuksen perusuran ennustamiseksi. Lisäksi työssä tutkittiin aikasarjadatan anomaliantunnistusmenetelmiä ja evaluoitiin niiden kykyä tunnistaa poikkeamia tuntija päiväkeskiarvoresoluutioisessa energiankulutusdatassa.
Työn kokeellisessa osiossa muodostettiin simulaatioskenaario kahden eri tehtaan vuosien 2020 sekä 2021 tuntikeskiarvoisten energiankulutusaineistojen mallinnukselle. Perusura muodostettiin dynaamisesti kerrallaan viikoksi eteenpäin aikasarjaennusteena edellisen 52 viikon aineistoa mallin opetuksessa hyödyntäen. Mallinnusskenaariossa huomioitiin lisäksi mallin suorituskyvylle olennainen adaptaatioproseduuri. Mallien selittävinä muuttujina käytettiin eksploratiivisen data-analyysin pohjalta luotuja luonnollista kalenterivaikutusta imitoivia muuttujia. Tehtaan A aineistolla evaluoitiin viittä eri lineaarista ja epälineaarista mallirakennetta. Parhaimmaksi mallirakenteeksi osoittautui keskiarvoyhdistelmämalli, jolle ennusteen keskimääräinen suhteellinen virhe oli 9,3 % validointiaineistolla. Mallirakenteen yleistyvyyttä testattiin toisen tehtaan (B) vastaavan ajanjakson aineistolla. Tehtaan B aineistolle keskiarvoyhdistelmämallin ennusteen keskimääräinen suhteellinen virhe oli 9,9 % validointiaineistolla. Tuloksia voidaan yleisesti ottaen pitää lupaavina etenkin, kun mallien tulomuuttujajoukko jäi verrattain yksinkertaiseksi, sillä tarkempaa aiheasiantuntemusta ei ollut saatavilla.
In the experimental part of the thesis a simulation scenario was established for hourly average data of two factories. The energy baseline was identified dynamically with week-ahead time-series forecasting by utilizing previous 52 weeks of data in the model training. In addition, model adaptation was considered in the simulation scenario. Predictor variables of the models were designed to imitate natural calendar effect. The energy baseline data of factory A was used to evaluate five linear and non-linear model structures. An average ensemble model structure appeared to outperform other model structures resulting in mean absolute percentage error of 9.3% for validation data of Factory A. The generalization ability of the model structure was evaluated with the data of factory B. For factory B the average ensemble model resulted in mean absolute percentage error of 9.9% for validation data. Overall, the results seemed promising especially as the set of input variables remained relatively simple as more precise subject matter expertise was not available during variable design and selection phase.
Työn kokeellisessa osiossa muodostettiin simulaatioskenaario kahden eri tehtaan vuosien 2020 sekä 2021 tuntikeskiarvoisten energiankulutusaineistojen mallinnukselle. Perusura muodostettiin dynaamisesti kerrallaan viikoksi eteenpäin aikasarjaennusteena edellisen 52 viikon aineistoa mallin opetuksessa hyödyntäen. Mallinnusskenaariossa huomioitiin lisäksi mallin suorituskyvylle olennainen adaptaatioproseduuri. Mallien selittävinä muuttujina käytettiin eksploratiivisen data-analyysin pohjalta luotuja luonnollista kalenterivaikutusta imitoivia muuttujia. Tehtaan A aineistolla evaluoitiin viittä eri lineaarista ja epälineaarista mallirakennetta. Parhaimmaksi mallirakenteeksi osoittautui keskiarvoyhdistelmämalli, jolle ennusteen keskimääräinen suhteellinen virhe oli 9,3 % validointiaineistolla. Mallirakenteen yleistyvyyttä testattiin toisen tehtaan (B) vastaavan ajanjakson aineistolla. Tehtaan B aineistolle keskiarvoyhdistelmämallin ennusteen keskimääräinen suhteellinen virhe oli 9,9 % validointiaineistolla. Tuloksia voidaan yleisesti ottaen pitää lupaavina etenkin, kun mallien tulomuuttujajoukko jäi verrattain yksinkertaiseksi, sillä tarkempaa aiheasiantuntemusta ei ollut saatavilla.
Kokoelmat
- Avoin saatavuus [37125]