Efficient spatiotemporal representation learning for pain intensity estimation from facial expressions
Tavakolian, Mohammad (2021-07-12)
https://urn.fi/URN:ISBN:9789526229720
Kuvaus
Tiivistelmä
Abstract
Pain of any origin usually stems from actual or potential tissue damage in the human body. Hence, reliable pain assessment brings out appropriate treatment, which ameliorates the life quality. In clinical practice, pain is usually assessed via self-report. Due to the subjective and complex nature of pain, self-reporting of pain may not be a reliable assessment technique. Moreover, it cannot be used for uncommunicative people. Observer reports of pain are also subjected to biases and errors, and cannot be used for continuous monitoring purposes. Therefore, it is essential to develop automatic pain assessment methodologies to obtain objective information regarding the health condition of the patient. Hence, automatic pain assessment has received increasing attention in recent years.
Based on medical evidence, facial expressions are a valid indicator of pain. Hence, effective representations of facial expressions can contribute to automatic pain assessment. In this thesis, we focus on analyzing the facial expressions of pain to estimate pain intensity. Due to strong correlations between facial expressions, direct interpretation of the pain intensity levels is non-trivial. Subtle facial expression variations differentiate pain intensity levels from each other. Therefore, we propose spatiotemporal representation learning methods to encode different ranges of variations of the face. For this purpose, we design novel network architectures and develop learning strategies.
Data scarcity hampers effective development of deep learning in pain intensity estimation from facial expressions. To mitigate this issue, we propose data-efficient learning methods to improve the training and inference performance. In particular, we present a cross-architecture transfer learning to leverage the knowledge of pre-trained models for training other network architectures. To the best of our knowledge, we formulate pain intensity estimation as a self-supervised learning problem for the first time to exploit the abundant information of unlabeled data. To increase the computational efficiency, we also introduce a video distillation method to encode the appearance and dynamic of the facial video into one RBG image map. By conducting extensive experiments on benchmark pain datasets, our proposed methods achieve state-of-the-art performance in pain intensity estimation from the face.
Tiivistelmä
Mikä tahansa kipu on yleensä peräisin ihmiskehon todellisesta tai mahdollisesta kudosvauriosta. Luotettava kivun arviointi tuo esille sopivan hoidon, joka kohentaa elämän laatua. Kliinisessä käytännössä kipua arvioidaan yleensä itsearviointiraporteilla. Kivun subjektiivisen ja monimutkaisen luonteen vuoksi itsearviointi ei ole aina luotettavaa. Sitä ei voida myöskään käyttää kommunikaatioon kykenemättömien kanssa. Itsearviointiraportit ovat alttiita ennakkoasenteille ja virheille, eikä niitä voida käyttää jatkuvaan seurantaan. Objektiivisten potilaan terveydentilatiteojen saamiseksi on välttämätöntä kehittää automaattisia kivun arviointimenetelmiä ja tähän kiinnitetty kasvavaa huomiota viime vuosina.
Lääketieteellisen aineiston perusteella kasvonilmeet ovat käypä indikaattori kivusta. Kasvonilmeiden tehokkaat esitystavat voivat edistää automaattista kivun arviointia. Tässä väitöskirjassa keskitymme analysoimaan kivun aiheuttamia ilmeitä kivun voimakkuuden arvioimiseksi. Kivun voimakkuustasojen tulkinta ei ole helppoa kasvonilmeiden voimakkaiden korrelaatioiden ja samankaltaisuuksien vuoksi. Ilmeiden pienetkin vaihtelut erottavat kivun voimakkuusasteet toisistaan. Siksi ehdotamme spatiotemporaaliseen esitystapaan perustuvia oppimismenetelmiä koodaamaan kasvojen eriasteisia vaihteluita. Suunnittelemme uusia neuroverkkoarkkitehtuureja ja kehitämme oppimisstrategioita tähän tehtävään.
Opetusdatan niukkuus vaikeuttaa tehokasta syväoppimismenetelmien kehittämistä kivun voimakkuuden arvioimiseksi kasvonilmeistä. Tämän heikkouden lieventämiseksi ehdotamme datatehokkaita oppimismenetelmiä parantamaan opetusprosessin ja päättelyn suorituskykyä. Erityisesti esitämme arkkitehtuurien välisen siirto-oppimisratkaisun, joka mahdollistaa etukäteen opetettujen mallien käyttämisen muiden verkkoarkkitehtuurien opettamisessa. Parhaan tietomme mukaan tässä työssä muotoiltu kipuintensiteetin estimointi itseohjautuvaksi oppimisongelmaksi hyödyntää ensimmäistä kertaa leimaamattomien tietojen runsasta käyttöä. Laskennallisen tehokkuuden lisäämiseksi esittelemme menetelmän, joka koodaa kasvovideon ulkoasun ja dynamiikan yhdeksi RGB-kuvakartaksi. Osoitamme laajoilla kokeellisilla vertailuilla, käyttäen kipuun liittyviä testitietokantoja, että ehdottamamme menetelmät saavuttavat kärkitasoa edustavan suorituskyvyn kasvoista tehtävän kivun voimakkuuden arvioinnissa.
Original papers
Original papers are not included in the electronic version of the dissertation.
Tavakolian, M., & Hadid, A. (2018, October). Deep Binary Representation of Facial Expressions: A Novel Framework for Automatic Pain Intensity Recognition. 2018 25th IEEE International Conference on Image Processing (ICIP). https://doi.org/10.1109/icip.2018.8451681
Tavakolian, M., & Hadid, A. (2018). Deep Discriminative Model for Video Classification. In Ferrari V., Hebert M., Sminchisescu C., & Weiss Y. (Eds.). Computer Vision – ECCV 2018. Lecture Notes in Computer Science 11208, 401–418. https://doi.org/10.1007/978-3-030-01225-0_24
Tavakolian, M., & Hadid, A. (2018, August). Deep Spatiotemporal Representation of the Face for Automatic Pain Intensity Estimation. 2018 24th International Conference on Pattern Recognition (ICPR). https://doi.org/10.1109/icpr.2018.8545324
Tavakolian, M., & Hadid, A. (2019). A Spatiotemporal Convolutional Neural Network for Automatic Pain Intensity Estimation from Facial Dynamics. International Journal of Computer Vision, 127(10), 1413–1425. https://doi.org/10.1007/s11263-019-01191-3
Tavakolian, M., Tavakoli, H. R., & Hadid, A. (2019, October). AWSD: Adaptive Weighted Spatiotemporal Distillation for Video Representation. 2019 IEEE/CVF International Conference on Computer Vision (ICCV). https://doi.org/10.1109/iccv.2019.00811
Tavakolian, M., Bordallo Lopez, M., & Liu, L. (2020). Self-supervised pain intensity estimation from facial videos via statistical spatiotemporal distillation. Pattern Recognition Letters, 140, 26–33. https://doi.org/10.1016/j.patrec.2020.09.012
Osajulkaisut
Osajulkaisut eivät sisälly väitöskirjan elektroniseen versioon.
Tavakolian, M., & Hadid, A. (2018, October). Deep Binary Representation of Facial Expressions: A Novel Framework for Automatic Pain Intensity Recognition. 2018 25th IEEE International Conference on Image Processing (ICIP). https://doi.org/10.1109/icip.2018.8451681
Tavakolian, M., & Hadid, A. (2018). Deep Discriminative Model for Video Classification. In Ferrari V., Hebert M., Sminchisescu C., & Weiss Y. (Eds.). Computer Vision – ECCV 2018. Lecture Notes in Computer Science 11208, 401–418. https://doi.org/10.1007/978-3-030-01225-0_24
Tavakolian, M., & Hadid, A. (2018, August). Deep Spatiotemporal Representation of the Face for Automatic Pain Intensity Estimation. 2018 24th International Conference on Pattern Recognition (ICPR). https://doi.org/10.1109/icpr.2018.8545324
Tavakolian, M., & Hadid, A. (2019). A Spatiotemporal Convolutional Neural Network for Automatic Pain Intensity Estimation from Facial Dynamics. International Journal of Computer Vision, 127(10), 1413–1425. https://doi.org/10.1007/s11263-019-01191-3
Tavakolian, M., Tavakoli, H. R., & Hadid, A. (2019, October). AWSD: Adaptive Weighted Spatiotemporal Distillation for Video Representation. 2019 IEEE/CVF International Conference on Computer Vision (ICCV). https://doi.org/10.1109/iccv.2019.00811
Tavakolian, M., Bordallo Lopez, M., & Liu, L. (2020). Self-supervised pain intensity estimation from facial videos via statistical spatiotemporal distillation. Pattern Recognition Letters, 140, 26–33. https://doi.org/10.1016/j.patrec.2020.09.012
Kokoelmat
- Avoin saatavuus [37254]