Neural scene representations for learning-based view synthesis
Nguyen, Phong (2023-08-18)
https://urn.fi/URN:ISBN:9789526237404
Kuvaus
Tiivistelmä
Abstract
This thesis introduces learning-based novel view synthesis approaches using different neural scene representations. Traditional representations, such as voxels or point clouds, are often computationally expensive and challenging to work with. Neural scene representations, on the other hand, can be more compact and efficient, allowing faster processing and better performance. Additionally, neural scene representations can be learned end-to-end from data, enabling them to be adapted to specific tasks and domains.
Conventional structure-from-motion, structure-from-depth, and multi-view geometry techniques prescribe how the 3D structure of the environment is represented. This thesis introduces architectures that learn this representational space, allowing it to express concisely the presence of textures, parts, objects, lights, and scenes using a single vector. In addition, the methods can account for the uncertainty of understanding the scene’s content in the face of severe occlusions and partial observations.
Large-scale novel view synthesis aims to generate photo-realistic images of arbitrary targets in the 3D space. Recent research has produced target views by interpolating in ray or pixel space and they often suffer from artifacts arising from occlusions or inaccurate geometry. This work proposes novel, efficient frameworks that represent 3D scenes as multiple-depth planes. The trained model can render color and depth images of the novel views. The proposed architectures are compact and produce plausible results on unseen data without fine-tuning or test-time optimization.
Human capture and rendering is the process of capturing the appearance and motion of a human and generating a realistic 3D representation of that person. Existing methods tackle this problem using expensive multi-view capture setups. This thesis focuses on the issue of predicting novel views of an unseen dynamic human using a single viewpoint. Instead of representing the input as a point cloud, this work presents an efficient sphere-based view synthesis network that produces higher-quality results than multi-view approaches. Despite being trained solely on synthetic data, the work also shows great generalization performance on real images.
Tiivistelmä
Tämä väitöskirja esittelee lähestymistapoja oppimispohjaiseen uuden näkymän synteesiin käyttäen erilaisia neuraalisia näkymän esitystapoja. Perinteiset esitystavat, kuten vokselit tai pistepilvet, ovat usein laskennallisesti kalliita ja haastavia käsitellä. Neuraaliset näkymän esitystavat voivat toisaalta olla kompaktimpia ja tehokkaampia, mikä mahdollistaa nopeamman käsittelyn ja paremman suorituskyvyn. Lisäksi neuraaliset näkymän esitystavat voidaan oppia päästä päähän datasta, jolloin ne voidaan mukauttaa tiettyihin tehtäviin ja alueisiin.
Perinteiset rakenne-liikkeestä-, rakenne-syvyydestä- ja moninäkymägeometriatekniikat määräävät, miten ympäristön 3D-rakenne esitetään. Tämä väitöskirja esittelee arkkitehtuurit, jotka oppivat tämän esitystapa-avaruuden mahdollistaen sen, että tekstuurien, osien, esineiden, valojen ja näkymien olemassaolo voidaan tiiviisti ilmaista yhdellä vektorilla. Lisäksi menetelmät voivat ottaa huomioon näkymän sisällön ymmärtämiseen liittyvän epävarmuuden vaikeiden okkluusioiden ja osittaisten havaintojen yhteydessä.
Laajamittainen uuden näkymän synteesi pyrkii luomaan fotorealistisia kuvia mielivaltaisista kohteista 3D-avaruudessa. Aiemmat tutkimukset ovat tuottaneet kohdenäkymiä interpoloimalla säde- tai pikseliavaruudessa, ja ne kärsivät usein okkluusioista tai epätarkasta geometriasta johtuvista artefakteista. Tässä työssä ehdotetaan uusia, tehokkaita viitekehyksiä, jotka esittävät 3D-näkymiä monisyvyystasoina. Koulutettu malli osaa renderöidä väri- ja syvyyskuvia uusista näkymistä. Ehdotetut arkkitehtuurit ovat kompakteja ja tuottavat uskottavia tuloksia ennalta näkemättömään dataan perustuen ilman hienosäätöä tai testausajan optimointia.
Ihmisen kapturointi ja renderöinti on prosessi, jossa tallennetaan ihmisen ulkonäkö ja liike sekä luodaan realistinen 3D-esitys kyseisestä henkilöstä. Nykyiset menetelmät ratkaisevat tämän ongelman käyttämällä kalliita usean näkymän kuvankaappausasetelmia. Tämä väitöskirja keskittyy ongelmaan, jossa ennustetaan uusia näkymiä ennalta näkemättömästä dynaamisesta ihmisestä yhden kuvakulman avulla. Sen sijaan, että esitettäisiin syöte pistepilvenä, tämä työ esittelee tehokkaan pallopohjaisen näkymän synteesiverkon, joka tuottaa laadukkaampia tuloksia kuin monen näkymän lähestymistavat. Huolimatta siitä, että verkko on koulutettu pelkästään synteettisellä datalla, työ osoittaa myös erinomaista suorituskyvyn yleistyvyyttä todellisilla kuvilla.
Original papers
Original papers are not included in the electronic version of the dissertation.
Nguyen-Ha, P., Huynh, L., Rahtu, E., & Heikkilä, J. (2019). Predicting novel views using generative adversarial query network. In 2019 Scandinavian Conference on Image Analysis (SCIA), 16–27. https://doi.org/10.1007/978-3-030-20205-7_2
Nguyen-Ha, P., Huynh, L., Rahtu, E., & Heikkilä, J. (2021). Sequential view synthesis with transformer. In 2020 Asian Conference on Computer Vision (ACCV), 695–711. https://doi.org/10.1007/978-3-030-69538-5_42
Nguyen, P., Karnewar, A., Huynh, L., Rahtu, E., Matas, J., & Heikkila, J. (2021). RGBD-Net: Predicting color and depth images for novel views synthesis. In 2021 International Conference on 3D Vision (3DV), 1095–1105. https://doi.org/10.1109/3DV53792.2021.00117
Nguyen-Ha, P., Huynh, L., Rahtu, E., Matas, J., & Heikkila, J. (2022). HRF-Net: Holistic radiance fields from sparse inputs. Manuscript submitted for publication.
Nguyen-Ha, P., Sarafianos, N., Lassner, C., Heikkilä, J., & Tung, T. (2022). Free-viewpoint RGB-D human performance capture and rendering. In 2022 European Conference on Computer Vision (ECCV), 13676, 473–491. https://doi.org/10.1007/978-3-031-19787-1_27
Osajulkaisut
Osajulkaisut eivät sisälly väitöskirjan elektroniseen versioon.
Nguyen-Ha, P., Huynh, L., Rahtu, E., & Heikkilä, J. (2019). Predicting novel views using generative adversarial query network. In 2019 Scandinavian Conference on Image Analysis (SCIA), 16–27. https://doi.org/10.1007/978-3-030-20205-7_2
Nguyen-Ha, P., Huynh, L., Rahtu, E., & Heikkilä, J. (2021). Sequential view synthesis with transformer. In 2020 Asian Conference on Computer Vision (ACCV), 695–711. https://doi.org/10.1007/978-3-030-69538-5_42
Nguyen, P., Karnewar, A., Huynh, L., Rahtu, E., Matas, J., & Heikkila, J. (2021). RGBD-Net: Predicting color and depth images for novel views synthesis. In 2021 International Conference on 3D Vision (3DV), 1095–1105. https://doi.org/10.1109/3DV53792.2021.00117
Nguyen-Ha, P., Huynh, L., Rahtu, E., Matas, J., & Heikkila, J. (2022). HRF-Net: Holistic radiance fields from sparse inputs. Manuscript submitted for publication.
Nguyen-Ha, P., Sarafianos, N., Lassner, C., Heikkilä, J., & Tung, T. (2022). Free-viewpoint RGB-D human performance capture and rendering. In 2022 European Conference on Computer Vision (ECCV), 13676, 473–491. https://doi.org/10.1007/978-3-031-19787-1_27
Kokoelmat
- Avoin saatavuus [34328]