Video representation and deep learning techniques for face presentation attack detection
Muhammad, Usman (2023-08-04)
https://urn.fi/URN:ISBN:9789526237480
Kuvaus
Tiivistelmä
Abstract
Facial recognition technology has been rapidly employed in a wide range of security applications such as airport passenger screening, mobile phones, banking, and law enforcement surveillance. Unfortunately, recent studies show that face recognition systems can be vulnerable to spoofing, known as a presentation attack. For instance, false facial verification by using a photo, a silicone mask, a replay of video, or even a 3D mask to fraudulently access the biometric system. In recent years there has been a considerable effort to develop software or hardware-based methods but their performances degrade drastically under real-world variations (such as lighting conditions, variations in illumination, user demographics, and input cameras).
This thesis pays attention to the very latest developments in face anti-spoofing methods. Specifically, we propose video representation and deep learning techniques to explore spatial and temporal information between bona fide and attack videos. Such exploration is a challenging task because 1) both real and fake videos contain spatiotemporal information and 2) the challenge posed by data labeling. From this perspective, we aim to investigate feature fusion methods to calculate feature importance because the better a model’s features are, the more accurate it is. Our findings suggest that hybrid deep learning provides stronger discrimination ability than single-model deep features. Moreover, a mechanism called sample learning for feature augmentation is presented. We show that the direct integration of convolutional features into a recurrent neural network can cause the risk of interference information (e.g., mutual exclusion and redundancy), which can limit the performance of PAD.
Another key challenge is to provide powerful deep feature learning without depending on human-labeled data. This demands the research community to put more focus on the development of robust face PAD countermeasures. To this end, we develop two countermeasures under the framework of self-supervised learning and alleviate the annotation bottleneck where the models get supervision from the data itself. Finally, the generalization ability is taken into account where the proposed method based on global motion encodes complex patterns from PAD videos to obtain discriminative representations.
Tiivistelmä
Kasvontunnistusteknologia on otettu käyttöön laajasti eri turvallisuussovelluksissa kuten lentokentillä, puhelimissa, pankeissa ja valvontaan viranomaisten toimesta. Valitettavasti viimeaikaiset tutkimukset ovat näyttäneet kasvontunnistusjärjestelmien olevan haavoittuvaisia hyökkäyksille. Esimerkkejä hyökkäyksistä ovat väärä kasvojen varmistus käyttäen kuvaa, silikoonimaskia, videota tai jopa 3-ulotteista maskia vilpilliseen varmistukseen biometriselta järjestelmältä. Viime vuosina on kehitetty huomattavalla vaivannäöllä sekä ohjelmisto- että laitteistopohjaisia ratkaisuja, mutta niiden suorituskyvyt heikkenevät huomattavasti käytännön tilanteissa (kuten vaihteleva valaistus, käyttäjä demografia ja käytetyt kamerat).
Tämä väitöskirja käyttää hyväkseen viimeisimpiä kehityksiä kasvontunnistusjärjestelmän huijauksen torjumiseen. Erityisesti keskitytään esitettyyn videon piirre- ja syväoppimismenetelmiin, joilla voidaan selvittää sekä spatiaalista että temporaalista informaatiota oikeiden videoiden ja hyökkäysvideoiden välillä. Kyseinen selvitys on kuitenkin vaikeaa sillä 1) molemmat, oikeat videot ja hyökkäysvideot sisältävät spatiotemporaalista tietoa ja 2) datan luokittelu on haastavaa. Tämä perspektiivi ottaen huomioon tutkitaan piirreyhdistystekniikoita piirteiden tärkeyden laskemiseen, sillä mitä paremmat mallin piirteet ovat, sitä tarkempi se on. Tulokset osoittavat, että hybridi syväoppiminen tarjoaa vahvemman erottelukyvyn kuin yksittäisen syvämallin piirteet. Sen lisäksi esitetään mekanismi piirteiden augmentointiin käyttäen näytteiden oppimista. Näytetään, että konvoluutiopiirteiden suora integraatio rekursiiviseen neuroverkkoon voi luoda interferenssiä (esim. molemminpuolinen poissulku ja redundanssi), joka rajoittaa menetelmän tehokkuutta.
Toinen suuri ongelma on syväoppimismallien kehittäminen ilman ihmisten luokiteltua dataa. Tämä vaatii tutkimusyhteisöltä erityistä huomiota robustien kasvontunnistusjärjestelmän huijaamisen havaitsemisen tekniikoiden kehitystä. Kaksi tekniikkaa kehitetään vähentääkseen riippuvuutta luokitellusta datasta käyttäen itseohjattua oppimista, jossa mallit saavat ohjaussignaalit puhtaasti datasta. Lopuksi mallien generalisaatio otetaan huomioon esitetyssä mallissa, jossa globaali liike koodaa komplekseja havaintoja videoista, jotta saadaan mahdollisimman eroavaisia piirteitä.
Original papers
Original papers are not included in the electronic version of the dissertation.
Muhammad, U., & Hadid, A. (2019). Face anti-spoofing using hybrid residual learning framework. In 2019 International Conference on Biometrics (ICB), 8987283. https://doi.org/10.1109/ICB45273.2019.8987283
Muhammad, U., Holmberg, T., Carneiro de Melo, W., & Hadid, A. (2019). Face anti-spoofing via sample learning based recurrent neural network (RNN). In The British Machine Vision Conference 2019 (BMVC), 1-12.
Muhammad, U., Yu, Z., & Komulainen, J. (2022). Self-supervised 2D face presentation attack detection via temporal sequence sampling. Pattern Recognition Letters, 156, 15–22. https://doi.org/10.1016/j.patrec.2022.03.001
Muhammad, U., & Oussalah, M. (2023). Self-supervised face presentation attack detection with dynamic grayscale snippets. In 2023 IEEE 17th International Conference on Automatic Face and Gesture Recognition (FG), 1–6. https://doi.org/10.1109/FG57933.2023.10042547
Muhammad, U., Zhang, J., Liu, L., & Oussalah, M. (2022). An adaptive spatio-temporal global sampling for presentation attack detection. IEEE Transactions on Circuits and Systems II: Express Briefs. Advance online publication. https://doi.org/10.1109/TCSII.2022.3169435
Muhammad, U., & Oussalah, M. (2023). Face anti‐spoofing from the perspective of data sampling. Electronics Letters, 59(1), e12692. https://doi.org/10.1049/ell2.12692
Muhammad, U., Beddiar, D. R., & Oussalah, M. (2023). Domain generalization via ensemble stacking for face presentation attack detection. Manuscript submitted for publication. https://doi.org/10.48550/ARXIV.2301.02145
Osajulkaisut
Osajulkaisut eivät sisälly väitöskirjan elektroniseen versioon.
Muhammad, U., & Hadid, A. (2019). Face anti-spoofing using hybrid residual learning framework. In 2019 International Conference on Biometrics (ICB), 8987283. https://doi.org/10.1109/ICB45273.2019.8987283
Muhammad, U., Holmberg, T., Carneiro de Melo, W., & Hadid, A. (2019). Face anti-spoofing via sample learning based recurrent neural network (RNN). In The British Machine Vision Conference 2019 (BMVC), 1-12.
Muhammad, U., Yu, Z., & Komulainen, J. (2022). Self-supervised 2D face presentation attack detection via temporal sequence sampling. Pattern Recognition Letters, 156, 15–22. https://doi.org/10.1016/j.patrec.2022.03.001
Muhammad, U., & Oussalah, M. (2023). Self-supervised face presentation attack detection with dynamic grayscale snippets. In 2023 IEEE 17th International Conference on Automatic Face and Gesture Recognition (FG), 1–6. https://doi.org/10.1109/FG57933.2023.10042547
Muhammad, U., Zhang, J., Liu, L., & Oussalah, M. (2022). An adaptive spatio-temporal global sampling for presentation attack detection. IEEE Transactions on Circuits and Systems II: Express Briefs. Advance online publication. https://doi.org/10.1109/TCSII.2022.3169435
Muhammad, U., & Oussalah, M. (2023). Face anti‐spoofing from the perspective of data sampling. Electronics Letters, 59(1), e12692. https://doi.org/10.1049/ell2.12692
Muhammad, U., Beddiar, D. R., & Oussalah, M. (2023). Domain generalization via ensemble stacking for face presentation attack detection. Manuscript submitted for publication. https://doi.org/10.48550/ARXIV.2301.02145
Kokoelmat
- Avoin saatavuus [34516]