Latentin diffuusiomallin optimointi mobiililaitteelle kasvojen superresoluutiossa
Hyry, Jenni (2025-06-12)
Hyry, Jenni
J. Hyry
12.06.2025
© 2025 Jenni Hyry. Ellei toisin mainita, uudelleenkäyttö on sallittu Creative Commons Attribution 4.0 International (CC-BY 4.0) -lisenssillä (https://creativecommons.org/licenses/by/4.0/). Uudelleenkäyttö on sallittua edellyttäen, että lähde mainitaan asianmukaisesti ja mahdolliset muutokset merkitään. Sellaisten osien käyttö tai jäljentäminen, jotka eivät ole tekijän tai tekijöiden omaisuutta, saattaa edellyttää lupaa suoraan asianomaisilta oikeudenhaltijoilta.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:oulu-202506124408
https://urn.fi/URN:NBN:fi:oulu-202506124408
Tiivistelmä
Superresoluutiossa tekoälypohjaiset ratkaisut ovat osoittautuneet ylivoimaisiksi perinteisiin menetelmiin verrattuna. Kasvojen superresoluutiossa uskottavat yksityiskohdat ovat avainasemassa, ja näiden generoinnissa erityisesti diffuusiomallit ovat onnistuneet hyvin, päihittäen GAN-verkot ja perinteisesti koulutetut konvoluutioneuroverkot. Diffuusiomallit ovat kuitenkin hitaita iteratiivisen luonteensa takia ja vaativat parametrimäärältään suuria kohinanpoistoverkkoja.
Työssä perehdytään diffuusiomalleihin, superresoluutioon sekä neuroverkkojen optimointiin. Sen lisäksi kehitetään latentti diffuusiomalli kasvojen superresoluutioon ja optimoidaan se karsimista ja kvantisointia käyttäen Qualcomm Snapdragon 8 Gen 3 Mobile -tekoälykiihdyttimelle. Mallin kehittämisen lisäksi tutkitaan kvantisoinnin vaikutusta ulostulokuvien laatuun sekä tutkitaan, miten diffuusion näytteistysaskeleiden määrä vaikuttaa ulostulokuvien laatuun DDIM-näytteistystä käytettäessä. Lopuksi kehitetyn mallin nopeutta verrataan kvantisoituun Stable Diffusion -malliin tekoälykiihdyttimellä ajettuna.
Tulokset osoittavat, että työssä kehitetty malli on huomattavasti, jopa 97% nopeampi, kuin kvantisoitu Stable Diffusion -malli. Kvantisoinnin vaikutuksia tutkittaessa tulokset osoittavat, että laadun laskeminen on vain pientä verrattuna alkuperäiseen malliin, mutta havaittavissa jokaisella käytetyllä evaluaatiometriikalla. DDIM-näytteistystä käytettäessä puolestaan näytteistysaskeleiden määrän lisäämisellä on negatiivinen vaikutus ulostulokuviin käytetyillä evaluaatiometriikoilla, mutta visuaalisesti tarkasteltuna yksityiskohdat selvästi lisääntyvät ja kuva terävöittyy.
Työssä perehdytään diffuusiomalleihin, superresoluutioon sekä neuroverkkojen optimointiin. Sen lisäksi kehitetään latentti diffuusiomalli kasvojen superresoluutioon ja optimoidaan se karsimista ja kvantisointia käyttäen Qualcomm Snapdragon 8 Gen 3 Mobile -tekoälykiihdyttimelle. Mallin kehittämisen lisäksi tutkitaan kvantisoinnin vaikutusta ulostulokuvien laatuun sekä tutkitaan, miten diffuusion näytteistysaskeleiden määrä vaikuttaa ulostulokuvien laatuun DDIM-näytteistystä käytettäessä. Lopuksi kehitetyn mallin nopeutta verrataan kvantisoituun Stable Diffusion -malliin tekoälykiihdyttimellä ajettuna.
Tulokset osoittavat, että työssä kehitetty malli on huomattavasti, jopa 97% nopeampi, kuin kvantisoitu Stable Diffusion -malli. Kvantisoinnin vaikutuksia tutkittaessa tulokset osoittavat, että laadun laskeminen on vain pientä verrattuna alkuperäiseen malliin, mutta havaittavissa jokaisella käytetyllä evaluaatiometriikalla. DDIM-näytteistystä käytettäessä puolestaan näytteistysaskeleiden määrän lisäämisellä on negatiivinen vaikutus ulostulokuviin käytetyillä evaluaatiometriikoilla, mutta visuaalisesti tarkasteltuna yksityiskohdat selvästi lisääntyvät ja kuva terävöittyy.
Kokoelmat
- Avoin saatavuus [38841]