Hyppää sisältöön
    • FI
    • ENG
  • FI
  • /
  • EN
OuluREPO – Oulun yliopiston julkaisuarkisto / University of Oulu repository
Näytä viite 
  •   OuluREPO etusivu
  • Oulun yliopisto
  • Avoin saatavuus
  • Näytä viite
  •   OuluREPO etusivu
  • Oulun yliopisto
  • Avoin saatavuus
  • Näytä viite
JavaScript is disabled for your browser. Some features of this site may not work without it.

Data-driven software system log anomaly detection

Hashemi Hosseinabad, Sayedshayan (2025-06-05)

 
Avaa tiedosto
nbnfioulu-202505133344.pdf (3.630Mt)
Lataukset: 

URL:
https://urn.fi/URN:NBN:fi:oulu-202505133344

Hashemi Hosseinabad, Sayedshayan
Oulun yliopisto
05.06.2025
https://rightsstatements.org/vocab/InC/1.0/
© University of Oulu, 2025. This publication is copyrighted. You may download, display and print it for your own personal use. Commercial use is prohibited. © Oulun yliopisto, 2025. Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
https://rightsstatements.org/vocab/InC/1.0/
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:oulu-202505133344

Kuvaus

Academic dissertation to be presented with the assent of the Doctoral Programme Committee of Information Technology and Electrical Engineering of the University of Oulu for public defence in the OP auditorium (L10), Linnanmaa, on 12 June 2025, at 12 noon
Tiivistelmä
Abstract

Software logs are semi-structured text files that preserve states and events from software runtime. They provide detailed records that help to diagnose issues, monitor performance, and ensure security. Due to the increasing complexity and volume of logs, manual inspection has become impractical, making automated log analysis essential for tasks such as anomaly detection, troubleshooting, and performance optimization. This thesis compiles four papers contributing to software log anomaly detection field. While the first three papers contribute to the four stage (Pre-processor, Parser, Vectorizer, and Classifier) pipeline, Paper IIII proposes a new alternative to it.

At first, the thesis introduces Paper I, an advanced log parser that fits into the parsing stage within the four-stage log anomaly detection system. The paper utilizes a rule-based tokenizer, interdependency token graph, and parallel processing to offer accurate and scalable log parsing. Moreover, the thesis dives deeper into log parsing with Paper II, introducing a new metric to measure character-level accuracy in log parsing alongside a new benchmark dataset tailored to that metric. This benchmark provides a more precise method of assessing and comparing log parsers' accuracy and performance.

For the last stage, the thesis introduces Paper III, which proposes a method built on the foundation of the Siamese networks. The paper differentiates itself from the competition by not only offering enhanced robustness against log evolution but also providing a solution to detect over-the-time data drifts in logs.

Additionally, Paper IIII replaces the parser, vectorizer, and classifier with a character-based Hierarchical Convolutional Neural Network (HCNN), transforming the multi-staged system into an end-to-end one. HCNN allows for analyzing the usually ignored digits, numbers, and punctuations alongside the natural language. Furthermore, Paper4 offers improved generalization across datasets, making it adaptable even in scenarios with limited training data.

Overall, the thesis contributes to software log anomaly detection in four papers. These contributions improve the system's accuracy, performance, scalability, and robustness across a diverse set of evaluations using public open datasets.
 
Tiivistelmä

Ohjelmistolokit ovat puolistrukturoituja tekstitiedostoja, jotka sisältävät ohjelmiston suorituksen tapahtumat. Ne tarjoavat yksityiskohtaisia tietoja, jotka auttavat vikojen diagnosoinnissa, suorituskyvyn seurannassa ja tietoturvan varmistamisessa. Lokien monimutkaisuus ja määrä tekevät manuaalisesta lokien tarkastelusta epäkäytännöllistä, minkä vuoksi automaattinen lokianalyysi on välttämätöntä. Tämä väitöskirja hyödyntää useista eri lähteistä kerättyjä julkisia lokiaineistoja, jotka kattavat laajasti erilaisia ohjelmistojärjestelmiä ja supertietokoneita. Väitöskirja tarjoaa ratkaisuja ohjelmistolokien poikkeuksien tunnistukseen.

Opinnäyte esittelee Artikkelissa I kehittyneen lokijäsentimen, joka sijoittuu nelivaiheisen lokianomalian tunnistusjärjestelmän jäsentämisvaiheeseen. Artikkeli hyödyntää sääntöpohjaista tokenointia, tokenien välisiä riippuvuuksia mallintavaa graafia ja rinnakkaislaskentaa tarjotakseen tarkan ja skaalautuvan lokijäsentimen.

Seuraavaksi opinnäyte syventyy lokijäsentämiseen Artikkelissa II, joka esittelee uuden mittarin lokijäsentämisen tarkkuuden arviointiin merkkitasolla sekä uuden vertailuaineiston. Tämä vertailuaineisto tarjoaa tarkemman tavan arvioida ja vertailla lokijäsentimien tarkkuutta ja suorituskykyä.

Artikkeli III ehdottaa menetelmää poikkeusten luokitteluun, joka pohjautuu Siamese-neuroverkkoihin. Tämä lähestymistapa eroaa aiemmista tutkimuksista tarjoamalla paitsi parempaa sietokykyä lokien muutoksia kohtaan ja myös keinon havaita pitkän aikavälin datasiirtymiä lokeissa.

Lisäksi opinnäyte esittelee uudenlaisen lähestymistavan Artikkelissa IV. Tässä ratkaisussa jäsennin, vektorisointivaihe ja luokittelija korvataan merkkipohjaisella hierarkkisella konvoluutioneuroverkolla (HCNN), mikä muuntaa monivaiheisen järjestelmän päästä-päähän -ratkaisuksi. HCNN mahdollistaa usein huomiotta jäävien numeroiden ja välimerkkien analyysin yhdessä luonnollisen kielen kanssa. Artikkeli IV parantaa myös yleistettävyyttä eri aineistojen välillä, tehden siitä sovellettavan myös tilanteissa, joissa opetusaineistoa on niukasti. Kaiken kaikkiaan opinnäyte esittelee neljä menetelmää ohjelmistolokien analysointiin. Menetelmät parantavat poikkeuksien tunnistamisen tarkkuutta, suorituskykyä, skaalautuvuutta ja vikasietoisuutta laajassa joukossa julkisia lokiaineistoja.
 

Original papers

  1. Hashemi, S., & Mäntylä, M. (2024). Token interdependency parsing (Tipping)—Fast and accurate log parsing. Advance online publication. https://doi.org/10.48550/arXiv.2408.00645 https://doi.org/10.48550/arXiv.2408.00645

  2. Hashemi, S., Nyyssölä, J., & Mäntylä, M. V. (2024). LogPM: Character-based log parser benchmark. 2024 IEEE International Conference on Software Analysis, Evolution and Reengineering (SANER), 705–710. https://doi.org/10.1109/SANER60148.2024.00077 https://doi.org/10.1109/SANER60148.2024.00077

    Self-archived version

  3. Hashemi, S., & Mäntylä, M. (2022). SiaLog: Detecting anomalies in software execution logs using the siamese network. Automated Software Engineering, 29(2), 61. https://doi.org/10.1007/s10515-022-00365-7 https://doi.org/10.1007/s10515-022-00365-7

    Self-archived version

  4. Hashemi, S., & Mäntylä, M. (2024). OneLog: Towards end-to-end software log anomaly detection. Automated Software Engineering, 31(2), 37. https://doi.org/10.1007/s10515-024-00428-x https://doi.org/10.1007/s10515-024-00428-x

    Self-archived version

 

Osajulkaisut

  1. Hashemi, S., & Mäntylä, M. (2024). Token interdependency parsing (Tipping)—Fast and accurate log parsing. Advance online publication. https://doi.org/10.48550/arXiv.2408.00645 https://doi.org/10.48550/arXiv.2408.00645

  2. Hashemi, S., Nyyssölä, J., & Mäntylä, M. V. (2024). LogPM: Character-based log parser benchmark. 2024 IEEE International Conference on Software Analysis, Evolution and Reengineering (SANER), 705–710. https://doi.org/10.1109/SANER60148.2024.00077 https://doi.org/10.1109/SANER60148.2024.00077

    Rinnakkaistallennettu versio

  3. Hashemi, S., & Mäntylä, M. (2022). SiaLog: Detecting anomalies in software execution logs using the siamese network. Automated Software Engineering, 29(2), 61. https://doi.org/10.1007/s10515-022-00365-7 https://doi.org/10.1007/s10515-022-00365-7

    Rinnakkaistallennettu versio

  4. Hashemi, S., & Mäntylä, M. (2024). OneLog: Towards end-to-end software log anomaly detection. Automated Software Engineering, 31(2), 37. https://doi.org/10.1007/s10515-024-00428-x https://doi.org/10.1007/s10515-024-00428-x

    Rinnakkaistallennettu versio

 
Kokoelmat
  • Avoin saatavuus [38618]
oulurepo@oulu.fiOulun yliopiston kirjastoOuluCRISLaturiMuuntaja
SaavutettavuusselosteTietosuojailmoitusYlläpidon kirjautuminen
 

Selaa kokoelmaa

NimekkeetTekijätJulkaisuajatAsiasanatUusimmatSivukartta

Omat tiedot

Kirjaudu sisäänRekisteröidy
oulurepo@oulu.fiOulun yliopiston kirjastoOuluCRISLaturiMuuntaja
SaavutettavuusselosteTietosuojailmoitusYlläpidon kirjautuminen