Hyppää sisältöön
    • FI
    • ENG
  • FI
  • /
  • EN
OuluREPO – Oulun yliopiston julkaisuarkisto / University of Oulu repository
Näytä viite 
  •   OuluREPO etusivu
  • Oulun yliopisto
  • Avoin saatavuus
  • Näytä viite
  •   OuluREPO etusivu
  • Oulun yliopisto
  • Avoin saatavuus
  • Näytä viite
JavaScript is disabled for your browser. Some features of this site may not work without it.

The role of data preprocessing in forecasting of spare parts sales : a case study from the mining industry using customer equipment and sales data

Uchôa de Araújo, Aline (2025-06-09)

 
Avaa tiedosto
nbnfioulu-202506094260.pdf (2.260Mt)
nbnfioulu-202506094260_mods.xml (12.10Kt)
nbnfioulu-202506094260_pdfa_report.xml (334.0Kt)
Lataukset: 


Uchôa de Araújo, Aline
A. Uchôa de Araújo
09.06.2025
© 2025, Aline Uchôa de Araújo. Tämä Kohde on tekijänoikeuden ja/tai lähioikeuksien suojaama. Voit käyttää Kohdetta käyttöösi sovellettavan tekijänoikeutta ja lähioikeuksia koskevan lainsäädännön sallimilla tavoilla. Muunlaista käyttöä varten tarvitset oikeudenhaltijoiden luvan.
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:oulu-202506094260
Tiivistelmä
Companies are increasingly employing data analytics to support processes and decision-making. However, real-life data is often noisy, incomplete, inconsistent, and distributed across multiple sources. Data preprocessing plays a crucial role in improving data quality and preparing data to become suitable inputs for use in Artificial Intelligence (AI) models. This thesis explores the data preprocessing steps required to prepare a complex and imperfect real-world company data into suitable inputs for machine learning models, and investigates the feasibility of forecasting spare parts for a Finnish mining equipment manufacturer.

An extensive preprocessing framework was developed, including data cleaning, data integration, data transformation, and data reduction. A Random Forest, an XGBoost and a Catboost model were trained in three different data aggregation scenarios. The performance of the models was measured using Root Mean Squared Error (RMSE) and results were interpreted with the aid of Explainable AI (XAI) techniques, such as feature importance and SHAP values.

The findings show that comprehensive preprocessing is needed when working with real-world data. The predictions of the models were generally able to capture the sales levels and trends, but struggled to accurately capture monthly variation in sales. Feature importance and SHAP analysis provided valuable insights into interpreting models decisions, highlighting the factors influencing the predictions. Overall, the findings of this thesis highlight the importance of data preprocessing and demonstrate that even when prediction accuracy is limited, AI can provide valuable insights to support business activities. The datasets and insights of this thesis can be used to enhance data accuracy, support sales and pricing strategies, and provide a structured foundation for future analytical work.
Kokoelmat
  • Avoin saatavuus [38618]
oulurepo@oulu.fiOulun yliopiston kirjastoOuluCRISLaturiMuuntaja
SaavutettavuusselosteTietosuojailmoitusYlläpidon kirjautuminen
 

Selaa kokoelmaa

NimekkeetTekijätJulkaisuajatAsiasanatUusimmatSivukartta

Omat tiedot

Kirjaudu sisäänRekisteröidy
oulurepo@oulu.fiOulun yliopiston kirjastoOuluCRISLaturiMuuntaja
SaavutettavuusselosteTietosuojailmoitusYlläpidon kirjautuminen