Vektorikvantisointi ja Gaussin sekoitemalli puhujantunnistuksessa
Ojala, Karri; Matero, Matti; Nykänen, Markus (2016-06-03)
Ojala, Karri
Matero, Matti
Nykänen, Markus
K. Ojala; M. Nykänen; M. Matero
03.06.2016
© 2016 Karri Ojala, Matti Matero, Markus Nykänen. Tämä Kohde on tekijänoikeuden ja/tai lähioikeuksien suojaama. Voit käyttää Kohdetta käyttöösi sovellettavan tekijänoikeutta ja lähioikeuksia koskevan lainsäädännön sallimilla tavoilla. Muunlaista käyttöä varten tarvitset oikeudenhaltijoiden luvan.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:oulu-201606042297
https://urn.fi/URN:NBN:fi:oulu-201606042297
Tiivistelmä
Tässä tutkielmassa tehdään yleiskatsaus puhujantunnistukseen ja testataan erilaisten menetelmien toimivuutta. Aluksi käydään lävitse taustaa puhujantunnistuksen perusteista ja puheäänen ominaisuuksista, sitten esitellään tarkemmin puhujantunnistusjärjestelmän osia, kuten esikäsittelyä, äänen muuttamista kertoimiksi ja lopulta varsinaista tunnistusprosessia. Pääpaino on vektorikvantisoinnilla ja Gaussin sekoitemallilla, muita menetelmiä käydään läpi lyhyemmin.
Puhujantunnistusta ja varmennusta testattiin sekä vektorikvantisoinnilla että Gaussin sekoitemallilla erilaisilla kertoimilla ja koodivektoreiden/sekoitekomponenttien määrillä. Kertoimina käytettiin MFCC ja siitä johdettuja delta sekä deltadeltakertoimia. Lisäksi testattiin, miten kertoimien normalisointi, koulutusdatan määrä ja hiljaisten hetkien poisto lausahduksista vaikuttaa päätöksentekoon. Vektorikvantisoinnissa tutkittiin myös koodivektorien painotuksen vaikutusta.
Testeissä havaittiin, että vektorikvantisoinnilla päästään painotuksen avulla varsin lähelle Gaussin sekoitemallin tuloksia noin puolta lyhyemmässä ajassa. Koodivektorien määrä lisäämällä päästiin tunnistuksessa käytännössä samoihin tuloksiin kuin Gaussin sekoitemallilla, mutta tällöin suoritusaika oli pidempi kuin Gaussin sekoitemallilla. Varmennustesteissä GMM oli lähes poikkeuksetta parempi kuin VQ. Universaalin taustamallin ja deltakertoimien käytön havaittiin parantavan varmennuksen tarkkuutta. Lisäksi hiljaisten hetkien poistaminen lausahduksista todettiin johtavan tarkempiin tuloksiin. This thesis does an overview on speaker recognition, and then some methods are tested in practice. First some background on speaker recognition and the features of voice are overviewed, and afterwards different parts of a speech recognition system are reviewed, such as preprocessing the sound, calculating coefficients and finally the actual recognition process. The main focus is on vector quantization and Gaussian mixture model, some other popular methods are explained more shortly.
Speaker recognition and verification were tested using vector quantization and a Gaussian mixture model with several different coefficients and code vector and mixture component quantities. MFCC as well as MFCC derived delta and deltadelta coefficients were used in the tests. The effect of the quantity of training data, coefficient normalization and speech sample silence removal were tested. Code vector weighting was also tested with vector quantization.
The test results showed that vector quantization with weighting can almost reach the accuracy of Gaussian mixture model, while taking about half of the time to process. Adding more code vectors resulted in even closer results compared to Gaussian mixture model, but then VQ would be slower than GMM. In speaker verification, GMM was almost invariably better than VQ. Universal background model and delta coefficients were found to improve the results in speaker verification. Additionally, speech sample silence removal was found to lead to more accurate results.
Puhujantunnistusta ja varmennusta testattiin sekä vektorikvantisoinnilla että Gaussin sekoitemallilla erilaisilla kertoimilla ja koodivektoreiden/sekoitekomponenttien määrillä. Kertoimina käytettiin MFCC ja siitä johdettuja delta sekä deltadeltakertoimia. Lisäksi testattiin, miten kertoimien normalisointi, koulutusdatan määrä ja hiljaisten hetkien poisto lausahduksista vaikuttaa päätöksentekoon. Vektorikvantisoinnissa tutkittiin myös koodivektorien painotuksen vaikutusta.
Testeissä havaittiin, että vektorikvantisoinnilla päästään painotuksen avulla varsin lähelle Gaussin sekoitemallin tuloksia noin puolta lyhyemmässä ajassa. Koodivektorien määrä lisäämällä päästiin tunnistuksessa käytännössä samoihin tuloksiin kuin Gaussin sekoitemallilla, mutta tällöin suoritusaika oli pidempi kuin Gaussin sekoitemallilla. Varmennustesteissä GMM oli lähes poikkeuksetta parempi kuin VQ. Universaalin taustamallin ja deltakertoimien käytön havaittiin parantavan varmennuksen tarkkuutta. Lisäksi hiljaisten hetkien poistaminen lausahduksista todettiin johtavan tarkempiin tuloksiin.
Speaker recognition and verification were tested using vector quantization and a Gaussian mixture model with several different coefficients and code vector and mixture component quantities. MFCC as well as MFCC derived delta and deltadelta coefficients were used in the tests. The effect of the quantity of training data, coefficient normalization and speech sample silence removal were tested. Code vector weighting was also tested with vector quantization.
The test results showed that vector quantization with weighting can almost reach the accuracy of Gaussian mixture model, while taking about half of the time to process. Adding more code vectors resulted in even closer results compared to Gaussian mixture model, but then VQ would be slower than GMM. In speaker verification, GMM was almost invariably better than VQ. Universal background model and delta coefficients were found to improve the results in speaker verification. Additionally, speech sample silence removal was found to lead to more accurate results.
Kokoelmat
- Avoin saatavuus [34618]