Learnable down- and upsampling with application in image compression
Pelttari, Vili (2024-06-26)
Pelttari, Vili
V. Pelttari
26.06.2024
© 2024 Vili Pelttari. Ellei toisin mainita, uudelleenkäyttö on sallittu Creative Commons Attribution 4.0 International (CC-BY 4.0) -lisenssillä (https://creativecommons.org/licenses/by/4.0/). Uudelleenkäyttö on sallittua edellyttäen, että lähde mainitaan asianmukaisesti ja mahdolliset muutokset merkitään. Sellaisten osien käyttö tai jäljentäminen, jotka eivät ole tekijän tai tekijöiden omaisuutta, saattaa edellyttää lupaa suoraan asianomaisilta oikeudenhaltijoilta.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:oulu-202406264957
https://urn.fi/URN:NBN:fi:oulu-202406264957
Tiivistelmä
This thesis explores a convolution-based learnable down- and upsampling transform in the context of digital compression. The learnable transform is trained on image and one-dimensional data using machine learning methods and the resulting examples are compared to other transforms widely used within the transform coding scheme of compression.
First, the baseline forming classical sparsifying transforms are described, including discrete versions of Fourier, cosine and wavelet transforms. The learnable transform is then inspired by an invertible downsampling method involving strided convolution arithmetic. To be able to train the described learnable transform into creating a sparse downsampling and a reconstructive upsampling, the training criterion with a sparsity-inducing penalty function is given. The stochastic gradient descent algorithm is derived with a summary of the used Adam optimisation algorithm. Finally, experiment details are given. These include descriptions of function generators for one-dimensional piecewise constant and smooth signals and the STL-10 dataset for images, the parameters and strategy for training, and testing methods involving the thresholding scheme and reconstruction similarity measures derived from the Euclidean norm and the SSIM similarity index.
The results present reconstruction similarity plots against the percentage of thresholded coefficients and examples of the different transforms on example data with reconstructions after thresholding. The conclusion is that the proposed learnable transform approaches the performance of the discrete Haar wavelet transform without surpassing it in all cases. Tässä tutkielmassa tutustutaan konvoluutioon perustuvaan opetettavaan muunnokseen digitaalisen pakkauksen kontekstissa. Opetettava muunnos opetetaan kuvilla sekä yksiulotteisella datalla koneoppimismenetelmiä käyttäen, josta seuraavia esimerkkejä verrataan muihin pakkauksen muunnoskoodauksen piirissä yleisesti käytettyihin muunnoksiin.
Ensiksi kuvaillaan vertailukohtana toimivat klassisesti käytetyt harventavat muunnokset, kuten diskreetit versiot Fourier-, kosini- ja aallokemuunnoksista. Opetettava muunnos annetaan askellettuun konvoluutioaritmetiikkaan perustuvaa kääntyvää signaalinkutistusmenetelmää inspiraationa käyttäen. Opetettavan muunnoksen opettamiseksi tuottamaan harva kutistava muunnos ja tarkka suurentava rekonstruktio, kuvaillaan oppimiskriteeri harvennusta motivoivalla rangaistusfunktiolla. Oppimiskriteerin minimoimiseksi johdetaan stokastinen vastavirta-algoritmi, jatkaen lyhyellä kuvauksella käytetystä Adam-optimointialgoritmista. Lopuksi annetaan kokeiden yksityiskohtia, kuten signaaligeneraattorit paloittaisille vakiofunktioille ja sileille funktioille, käytetty STL-10 kuva-aineisto, koneoppimisen strategia ja parametrit, kokeissa käytetty kynnysarvoistus sekä Euklidiseen normiin ja SSIM-similariteetti-indeksiin perustuvat rekonstruktion similariteettimitat.
Tuloksiksi saadaan eri signaaliluokkia vastaavia kuvaajia rekonstruktion similaarisuudelle yli kynnysarvoistettujen arvojen prosentin, sekä esimerkkejä eri muunnoksista rekonstruktioineen arvojen kynnysarvoistuksen jälkeen. Lopputulokseksi saadaan esitetyn opetettavan muunnoksen suoriutuvan diskreettiä Haar-muunnosta lähestyvästi, muttei ylitä sen suorituskykyä missään tutkitussa tapauksessa.
First, the baseline forming classical sparsifying transforms are described, including discrete versions of Fourier, cosine and wavelet transforms. The learnable transform is then inspired by an invertible downsampling method involving strided convolution arithmetic. To be able to train the described learnable transform into creating a sparse downsampling and a reconstructive upsampling, the training criterion with a sparsity-inducing penalty function is given. The stochastic gradient descent algorithm is derived with a summary of the used Adam optimisation algorithm. Finally, experiment details are given. These include descriptions of function generators for one-dimensional piecewise constant and smooth signals and the STL-10 dataset for images, the parameters and strategy for training, and testing methods involving the thresholding scheme and reconstruction similarity measures derived from the Euclidean norm and the SSIM similarity index.
The results present reconstruction similarity plots against the percentage of thresholded coefficients and examples of the different transforms on example data with reconstructions after thresholding. The conclusion is that the proposed learnable transform approaches the performance of the discrete Haar wavelet transform without surpassing it in all cases.
Ensiksi kuvaillaan vertailukohtana toimivat klassisesti käytetyt harventavat muunnokset, kuten diskreetit versiot Fourier-, kosini- ja aallokemuunnoksista. Opetettava muunnos annetaan askellettuun konvoluutioaritmetiikkaan perustuvaa kääntyvää signaalinkutistusmenetelmää inspiraationa käyttäen. Opetettavan muunnoksen opettamiseksi tuottamaan harva kutistava muunnos ja tarkka suurentava rekonstruktio, kuvaillaan oppimiskriteeri harvennusta motivoivalla rangaistusfunktiolla. Oppimiskriteerin minimoimiseksi johdetaan stokastinen vastavirta-algoritmi, jatkaen lyhyellä kuvauksella käytetystä Adam-optimointialgoritmista. Lopuksi annetaan kokeiden yksityiskohtia, kuten signaaligeneraattorit paloittaisille vakiofunktioille ja sileille funktioille, käytetty STL-10 kuva-aineisto, koneoppimisen strategia ja parametrit, kokeissa käytetty kynnysarvoistus sekä Euklidiseen normiin ja SSIM-similariteetti-indeksiin perustuvat rekonstruktion similariteettimitat.
Tuloksiksi saadaan eri signaaliluokkia vastaavia kuvaajia rekonstruktion similaarisuudelle yli kynnysarvoistettujen arvojen prosentin, sekä esimerkkejä eri muunnoksista rekonstruktioineen arvojen kynnysarvoistuksen jälkeen. Lopputulokseksi saadaan esitetyn opetettavan muunnoksen suoriutuvan diskreettiä Haar-muunnosta lähestyvästi, muttei ylitä sen suorituskykyä missään tutkitussa tapauksessa.
Kokoelmat
- Avoin saatavuus [41242]

