Hyppää sisältöön
    • FI
    • ENG
  • FI
  • /
  • EN
OuluREPO – Oulun yliopiston julkaisuarkisto / University of Oulu repository
Näytä viite 
  •   OuluREPO etusivu
  • Oulun yliopisto
  • Avoin saatavuus
  • Näytä viite
  •   OuluREPO etusivu
  • Oulun yliopisto
  • Avoin saatavuus
  • Näytä viite
JavaScript is disabled for your browser. Some features of this site may not work without it.

From 3D sensing to dense prediction

Huynh, Lam (2022-12-02)

 
Avaa tiedosto
isbn978-952-62-3516-5.pdf (2.214Mt)
isbn978-952-62-3516-5_meta.xml (113.8Kt)
isbn978-952-62-3516-5_solr.xml (92.04Kt)
Lataukset: 


Huynh, Lam
University of Oulu
02.12.2022
Tämä Kohde on tekijänoikeuden ja/tai lähioikeuksien suojaama. Voit käyttää Kohdetta käyttöösi sovellettavan tekijänoikeutta ja lähioikeuksia koskevan lainsäädännön sallimilla tavoilla. Muunlaista käyttöä varten tarvitset oikeudenhaltijoiden luvan.
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:ISBN:9789526235165

Kuvaus

Academic dissertation to be presented with the assent of the Doctoral Programme Committee of Information Technology and Electrical Engineering of the University of Oulu for public defence in Auditorium IT116, Linnanmaa, on 9 December 2022, at 12 noon
Tiivistelmä

Abstract

This thesis introduces novel learning-based approaches for improving 3D sensing and dense prediction. In recent years, deep neural networks (DNNs) have thrived on various vision tasks. Nonetheless, current developments indicate a compromise between accuracy, network size, and architectural engineering cost. This work proposes accurate and lightweight DNNs by exploiting prior knowledge, integrating self-attention, leveraging multi-scale 2D-3D representations fusion, and presenting efficient neural architecture search (NAS) strategies.

Recent monocular depth estimation approaches exhibit impressive results. However, these are often achieved with bulky network architectures employing up to hundreds of millions of parameters and using massive training data. This thesis introduces architectures that exploit geometric constraints and non-local self-attention mechanisms to improve performance. Moreover, the methods achieve state-of-the-art results while using at least ten times less parameters than competing approaches.

Depth completion aims to densify sparse input depth measurements. Best performing depth completion methods only work for cases with relatively high 3D point density. This work proposes a novel multi-scale framework that operates directly on both 2D and 3D feature spaces. Unlike previous approaches, the method performs well on extremely sparse and unevenly distributed 3D points. The proposed architecture is also very compact and works with an arbitrary source of the input 3D points.

Dense prediction resolves mapping problems at the pixel level, comprising many sub-tasks such as depth estimation, semantic segmentation, optical flow prediction, and image restoration. Existing methods usually use human-engineering DNNs or focus on a single sub-task. This thesis presents a novel approach utilizing NAS towards more general dense prediction problems that enable holistic scene understanding.

 

Tiivistelmä

Tämä väitöskirja esittelee uusia koneoppimiseen perustuvia lähestymistapoja 3D-havainnoinnin ja tiheän ennustuksen parantamiseen. Viime vuosina syvät neuroverkot (DNN) ovat suoriutuneet hyvin erilaisissa konenäkötehtävissä. Siitä huolimatta nykyinen kehitys on johtanut kompromissiin tarkkuuden, verkon koon ja arkkitehtuuriin liittyvien suunnittelukustannusten välillä. Tässä työssä ehdotetaan tarkkoja ja kevyitä DNN:iä hyödyntämällä aiempaa tietoa, integroimalla ns. itsehuomio, käyttämällä monen skaalan 2D-3D-esitysten fuusiota ja esittämällä tehokkaita neuroarkkitehtuurihakustrategioita (NAS).

Viimeaikaisilla monokulaarisen syvyyden estimointimenetelmillä on saavutettu vaikuttavia tuloksia. Niihin on kuitenkin päästy usein suurilla verkkoarkkitehtuureilla, jotka käyttävät jopa satoja miljoonia parametreja ja massiivista määrää opetusdataa. Tämä väitöskirjatyö esittelee arkkitehtuureja, jotka hyödyntävät geometrisia rajoituksia ja ei-paikallisia itsehuomiomekanismeja suorituskyvyn parantamiseen. Lisäksi menetelmillä saavutetaan huippuluokan tuloksia käyttämällä vähintään kymmenen kertaa vähemmän parametreja kuin kilpailevilla lähestymistavoilla.

Syvyyden täydentämisen tarkoituksena on tihentää harvat syvyyssyötemittaukset. Parhaat syvyyden täydennysmenetelmät toimivat vain tapauksissa, joissa 3D-pistetiheys on suhteellisen korkea. Tämä työ esittää puitteet uudelle monen skaalan lähestymistavalle, joka toimii suoraan sekä 2D- että 3D-piirreavaruuksissa. Toisin kuin aikaisemmat lähestymistavat, menetelmä sopii hyvin äärimmäisen harvoille ja epätasaisesti jakautuneille 3D-pisteille. Ehdotettu arkkitehtuuri on myös erittäin kompakti ja toimii millä tahansa lähteellä tuotettujen 3D-syötepisteiden kanssa.

Tiheä ennustus ratkaisee pikselitasolla muunnosongelmia, jotka voivat muodostua monista osatehtävistä kuten syvyyden estimointi, semanttinen segmentointi, optisen vuon ennustaminen ja kuvan entistäminen. Nykyiset menetelmät käyttävät yleensä käsin suunniteltuja DNN:iä tai keskittyvät yhteen osatehtävään. Tämä väitöskirja esittelee uuenlaisen lähestymistavan hyödyntäen NAS:ia yleisempiin tiheisiin ennustusongelmiin, jotka mahdollistavat kokonaisvaltaisen näkymän ymmärtämisen.

 

Original papers

Original papers are not included in the electronic version of the dissertation.

  1. Huynh, L., Nguyen-Ha, P., Matas, J., Rahtu, E., & Heikkilä, J. (2020). Guiding monocular depth estimation using depth-attention volume. In A. Vedaldi, H. Bischof, T. Brox, & J.-M. Frahm (Eds.), Computer Vision – ECCV 2020, Lecture Notes in Computer Science, 12371 (pp. 581–597). Springer International Publishing. https://doi.org/10.1007/978-3-030-58574-7_35

    Self-archived version

  2. Huynh, L., Pedone, M., Nguyen, P., Matas, J., Rahtu, E., & Heikkilä, J. (2021). Monocular depth estimation primed by salient point detection and normalized Hessian loss. 2021 International Conference on 3D Vision (3DV), 228–238. https://doi.org/10.1109/3DV53792.2021.00033

    Self-archived version

  3. Huynh, L., Nguyen, P., Matas, J., Rahtu, E., & Heikkilä, J. (2021). Boosting monocular depth estimation with lightweight 3D point fusion. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), 12747–12756. https://doi.org/10.1109/ICCV48922.2021.01253

    Self-archived version

  4. Huynh, L., Nguyen, P., Matas, J., Rahtu, E., & Heikkilä, J. (2022). Lightweight monocular depth with a novel neural architecture search method. 2022 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 326–336. https://doi.org/10.1109/WACV51458.2022.00040

    Self-archived version

  5. Huynh, L., Rahtu, E., Matas, J., & Heikkilä, J. (2022). Fast neural architecture search for lightweight dense prediction networks. Manuscript submitted for publication.

 

Osajulkaisut

Osajulkaisut eivät sisälly väitöskirjan elektroniseen versioon.

  1. Huynh, L., Nguyen-Ha, P., Matas, J., Rahtu, E., & Heikkilä, J. (2020). Guiding monocular depth estimation using depth-attention volume. In A. Vedaldi, H. Bischof, T. Brox, & J.-M. Frahm (Eds.), Computer Vision – ECCV 2020, Lecture Notes in Computer Science, 12371 (pp. 581–597). Springer International Publishing. https://doi.org/10.1007/978-3-030-58574-7_35

    Rinnakkaistallennettu versio

  2. Huynh, L., Pedone, M., Nguyen, P., Matas, J., Rahtu, E., & Heikkilä, J. (2021). Monocular depth estimation primed by salient point detection and normalized Hessian loss. 2021 International Conference on 3D Vision (3DV), 228–238. https://doi.org/10.1109/3DV53792.2021.00033

    Rinnakkaistallennettu versio

  3. Huynh, L., Nguyen, P., Matas, J., Rahtu, E., & Heikkilä, J. (2021). Boosting monocular depth estimation with lightweight 3D point fusion. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), 12747–12756. https://doi.org/10.1109/ICCV48922.2021.01253

    Rinnakkaistallennettu versio

  4. Huynh, L., Nguyen, P., Matas, J., Rahtu, E., & Heikkilä, J. (2022). Lightweight monocular depth with a novel neural architecture search method. 2022 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 326–336. https://doi.org/10.1109/WACV51458.2022.00040

    Rinnakkaistallennettu versio

  5. Huynh, L., Rahtu, E., Matas, J., & Heikkilä, J. (2022). Fast neural architecture search for lightweight dense prediction networks. Manuscript submitted for publication.

 
Kokoelmat
  • Avoin saatavuus [38841]
oulurepo@oulu.fiOulun yliopiston kirjastoOuluCRISLaturiMuuntaja
SaavutettavuusselosteTietosuojailmoitusYlläpidon kirjautuminen
 

Selaa kokoelmaa

NimekkeetTekijätJulkaisuajatAsiasanatUusimmatSivukartta

Omat tiedot

Kirjaudu sisäänRekisteröidy
oulurepo@oulu.fiOulun yliopiston kirjastoOuluCRISLaturiMuuntaja
SaavutettavuusselosteTietosuojailmoitusYlläpidon kirjautuminen