Hyppää sisältöön
    • FI
    • ENG
  • FI
  • /
  • EN
OuluREPO – Oulun yliopiston julkaisuarkisto / University of Oulu repository
Näytä viite 
  •   OuluREPO etusivu
  • Oulun yliopisto
  • Avoin saatavuus
  • Näytä viite
  •   OuluREPO etusivu
  • Oulun yliopisto
  • Avoin saatavuus
  • Näytä viite
JavaScript is disabled for your browser. Some features of this site may not work without it.

Uncertainty of classification on limited data

Alasalmi, Tuomo (2020-09-08)

 
Avaa tiedosto
isbn978-952-62-2711-5.pdf (1.419Mt)
isbn978-952-62-2711-5_meta.xml (108.9Kt)
isbn978-952-62-2711-5_solr.xml (66.52Kt)
Lataukset: 


Alasalmi, Tuomo
University of Oulu
08.09.2020
Tämä Kohde on tekijänoikeuden ja/tai lähioikeuksien suojaama. Voit käyttää Kohdetta käyttöösi sovellettavan tekijänoikeutta ja lähioikeuksia koskevan lainsäädännön sallimilla tavoilla. Muunlaista käyttöä varten tarvitset oikeudenhaltijoiden luvan.
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:ISBN:9789526227115

Kuvaus

Academic dissertation to be presented with the assent of the Doctoral Training Committee of Information Technology and Electrical Engineering of the University of Oulu for public defence in the OP auditorium (L10), Linnanmaa, on 18 September 2020, at 12 noon
Tiivistelmä

Abstract

It is common knowledge that even simple machine learning algorithms can improve in performance with large, good quality data sets. However, limited data sets, be it because of limited size or incomplete instances, are surprisingly common in many real-world modeling problems.

In addition to the overall classification accuracy of a model, it is often of interest to know the uncertainty of each individual prediction made by the model. Quantifying this uncertainty of classification models is discussed in this thesis from the perspective of limited data. When some feature values are missing, uncertainty regarding the classification result is increased, but this is not captured in the metrics that quantify uncertainty using traditional methods. To tackle this shortcoming, a method is presented that, in addition to making incomplete data sets usable for any classifier, makes it possible to quantify the uncertainty stemming from missing feature values. In addition, in the case of complete but limited sized data sets, the ability of several commonly used classifiers to produce reliable uncertainty, i.e. probability, estimates, is studied. Two algorithms are presented that can potentially improve probability estimate calibration when data set size is limited. It is shown that the traditional approach to calibration often fails on these limited sized data sets, but using these algorithms still allows improvement in classifier probability estimates with calibration.

To support the usefulness of the proposed methods and to answer the proposed research questions, main results from the original publications are presented in this compiling part of the thesis. Implications of the findings are discussed and conclusions drawn.

 

Tiivistelmä

Yleisesti tiedetään, että yksinkertaistenkin koneoppimismenetelmien tuloksia saadaan parannettua, jos käytettävissä on paljon hyvälaatuista aineistoa. Vaillinaiset aineistot, joiden puutteet johtuvat aineiston vähäisestä määrästä tai puuttuvista arvoista, ovat kuitenkin varsin yleisiä.

Pelkän luokittelutarkkuuden lisäksi mallin yksittäisten ennusteiden epävarmuus on usein hyödyllistä tietoa. Tässä väitöskirjassa tarkastellaan luokittimien epävarmuuden määrittämistä silloin, kun saatavilla oleva aineisto on vaillinainen. Kun aineistosta puuttuu arvoja joistakin piirteistä, luokittelutulosten epävarmuus lisääntyy, mutta tämä lisääntynyt epävarmuus jää huomioimatta perinteisillä puuttuvien arvojen käsittelymenetelmillä. Asian korjaamiseksi tässä väitöskirjassa esitetään menetelmä, jolla puuttuvista arvoista johtuva epävarmuuden lisääntyminen voidaan huomioida. Lisäksi tämä menetelmä mahdollistaa minkä tahansa luokittimen käytön, vaikka luokitin ei muutoin tukisi puuttuvia arvoja sisältävien aineistojen käsittelyä. Tämän lisäksi väitöskirjassa käsitellään useiden yleisesti käytettyjen luokittimien kykyä tuottaa hyviä arvioita ennusteiden luotettavuudesta, eli todennäköisyysarvioita, kun käytettävissä oleva aineisto on pieni. Tässä väitöskirjassa esitetään kaksi algoritmia, joiden avulla voi olla mahdollista parantaa näiden todennäköisyysarvioiden kalibraatiota, vaikka käytettävissä oleva aineisto on pieni. Esitetyistä tuloksista ilmenee, että perinteinen tapa kalibrointiin ei pienillä aineistoilla onnistu, mutta esitettyjen algoritmien avulla kalibrointi tulee mahdolliseksi.

Alkuperäisten artikkeleiden tuloksia esitetään tässä kokoomaväitöskirjassa tukemaan esitettyjä väittämiä ja vastaamaan asetettuihin tutkimuskysymyksiin. Lopuksi pohditaan esitettyjen tulosten merkitystä ja vedetään johtopäätökset.

 

Original papers

Original papers are not included in the electronic version of the dissertation.

  1. Alasalmi, T., Koskimaki, H., Suutala, J., & Roning, J. (2015, December). Classification Uncertainty of Multiple Imputed Data. Classification Uncertainty of Multiple Imputed Data. 2015 IEEE Symposium Series on Computational Intelligence (SSCI). https://doi.org/10.1109/ssci.2015.32

  2. Alasalmi, T., Koskimäki, H., Suutala, J., & Röning, J. (2016). Instance Level Classification Confidence Estimation. In Distributed Computing and Artificial Intelligence, 13th International Conference (pp. 275–282). Springer International Publishing. https://doi.org/10.1007/978-3-319-40162-1_30

  3. Alasalmi, T., Koskimäki, H., Suutala, J., & Röning, J. (2018). Getting More Out of Small Data Sets - Improving the Calibration Performance of Isotonic Regression by Generating More Data. Proceedings of the 10th International Conference on Agents and Artificial Intelligence. https://doi.org/10.5220/0006576003790386

    Self-archived version

  4. Tuomo, A., Suutala, J., Röning, J., & Koskimäki, H. (2020). Better Classifier Calibration for Small Datasets. ACM Transactions on Knowledge Discovery from Data, 14(3), 1–19. https://doi.org/10.1145/3385656

    Self-archived version

  5. Alasalmi T., Suutala J., Koskimäki H., & Röning J. (2020). Better Multi-class Probability Estimates for Small Data Sets. Manuscript in preparation.

 

Osajulkaisut

Osajulkaisut eivät sisälly väitöskirjan elektroniseen versioon.

  1. Alasalmi, T., Koskimaki, H., Suutala, J., & Roning, J. (2015, December). Classification Uncertainty of Multiple Imputed Data. Classification Uncertainty of Multiple Imputed Data. 2015 IEEE Symposium Series on Computational Intelligence (SSCI). https://doi.org/10.1109/ssci.2015.32

  2. Alasalmi, T., Koskimäki, H., Suutala, J., & Röning, J. (2016). Instance Level Classification Confidence Estimation. In Distributed Computing and Artificial Intelligence, 13th International Conference (pp. 275–282). Springer International Publishing. https://doi.org/10.1007/978-3-319-40162-1_30

  3. Alasalmi, T., Koskimäki, H., Suutala, J., & Röning, J. (2018). Getting More Out of Small Data Sets - Improving the Calibration Performance of Isotonic Regression by Generating More Data. Proceedings of the 10th International Conference on Agents and Artificial Intelligence. https://doi.org/10.5220/0006576003790386

    Rinnakkaistallennettu versio

  4. Tuomo, A., Suutala, J., Röning, J., & Koskimäki, H. (2020). Better Classifier Calibration for Small Datasets. ACM Transactions on Knowledge Discovery from Data, 14(3), 1–19. https://doi.org/10.1145/3385656

    Rinnakkaistallennettu versio

  5. Alasalmi T., Suutala J., Koskimäki H., & Röning J. (2020). Better Multi-class Probability Estimates for Small Data Sets. Manuscript in preparation.

 
Kokoelmat
  • Avoin saatavuus [38840]
oulurepo@oulu.fiOulun yliopiston kirjastoOuluCRISLaturiMuuntaja
SaavutettavuusselosteTietosuojailmoitusYlläpidon kirjautuminen
 

Selaa kokoelmaa

NimekkeetTekijätJulkaisuajatAsiasanatUusimmatSivukartta

Omat tiedot

Kirjaudu sisäänRekisteröidy
oulurepo@oulu.fiOulun yliopiston kirjastoOuluCRISLaturiMuuntaja
SaavutettavuusselosteTietosuojailmoitusYlläpidon kirjautuminen