Emotionaalisen puhekorpuksen automatisoitu analyysi ja tunteiden sovellutus formantissa puhesyntetisaattorissa
Kemppainen, Ville; Keronen, Harri (2016-06-05)
Kemppainen, Ville
Keronen, Harri
V. Kemppainen; H. Keronen
05.06.2016
© 2016 Ville Kemppainen, Harri Keronen. Tämä Kohde on tekijänoikeuden ja/tai lähioikeuksien suojaama. Voit käyttää Kohdetta käyttöösi sovellettavan tekijänoikeutta ja lähioikeuksia koskevan lainsäädännön sallimilla tavoilla. Muunlaista käyttöä varten tarvitset oikeudenhaltijoiden luvan.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:oulu-201712203352
https://urn.fi/URN:NBN:fi:oulu-201712203352
Tiivistelmä
Työssä esitetään järjestelmä, joka analysoi äänitiedostoista muodostuvan puhekorpuksen ja kerää sieltä tunteiden esilletuonnin kannalta tärkeitä puheen ominaisuuksia. Puhekorpuksena käytettiin MediaTeamin tekemää suomenkielistä tunteikasta puhekorpusta. Korpus sisältää seitsemän tunnetta: neutraali, surullinen, iloinen, vihainen, pelokas, kyllästynyt ja inho. Puheen ominaisuudet kerättiin puhekorpuksesta Praat-analyysiohjelmalla. Työssä käytetyssä puhekorpuksessa ei ollut valmiita merkintöjä, joten ääninäytteisiin merkittiin äänelliset, sekä äänettömät osiot. Näitä osioita hyväksi käyttäen laskettiin seuraavat puheen ominaisuudet: korkein F0:n arvo, matalin F0:n arvo, keskimääräinen F0:n arvo, osion pituus, F0:n keskihajonta, värinä (jitter), kajo (shimmer), korkein intensiteetin arvo, matalin intensiteetin arvon ja keskimääräinen intensiteetin arvo.
Puheen ominaisuuksien arvoista lasketaan tunnekohtaiset keskiarvot, sekä arvojen prosentuaaliset muutokset neutraalin tunteen arvoista. Tämän lisäksi arvojen avulla lasketaan sanat minuutissa, äänellisten ja äänettömien osioiden pituudet, sekä sanakohtainen taukoaika. Arvojen avulla luotiin edellä mainittuja seitsemää tunnetta simuloivat syntetisoidut mies- ja naisäänet. Puhesyntetisaattorina käytettiin eSpeakkia.
Saatuja ääniä testattiin kuuntelutesteillä. Testiin osallistui 14 ihmistä. Testi koostui pakotetun valinnan testistä, jossa testaajien piti valita, mitä tunnetta heidän kuulemansa ääninäyte vastasi. Tämän lisäksi heitä pyydettiin arvioimaan ääninäytteen tunteen esilletulon voimakkuutta, sekä puheen luonnollisuutta, mean opinion score -asteikolla. Testit suoritettiin Google Forms -palvelulla.
Tuloksista selvisi, että miesten keskimääräiseksi tunnistusprosentiksi saatiin 32,6 % ja naisten keskimääräiseksi tunnistus prosentiksi 20,7 %. Korkein tunnistusprosentti oli miesten kyllästyneellä äänellä, joka tunnistettiin 85,7 % tarkkuudella. Matalimmat tunnistus prosentit olivat naisten pelossa ja inhossa. Kummankin tunnistusprosentti oli 0 %. Tunteen esille tuonnin keskiarvo miehillä oli 3,2 ja naisilla 2,9. Luonnollisuuden arvot olivat keskimäärin 2,3 miehille ja 2,4 naisille. Luonnollisuuden arvot eivät muuttuneet paljoa eri tunteiden välillä ja niiden mataluus oli oletettavissa formantille synteesille.
Alhainen tunnistusprosentti johtuu todennäköisesti ääninäytteissä käytetystä neutraalista intonaatiosta. Tunnekohtaisen intonaation lisääminen järjestelmään vaatii puhekorpuksen tarkempaa analyysiä. Tuloksia pitää katsoa suuntaa antavina kyselyn otannan ja asetelman takia. This work presents a system that analyses and collects features of speech from a speech corpus which only consist of sound files. These features are used in presenting emotion. Work uses an emotional Finnish speech corpus made by MediaTeam. Corpus contains seven emotions: neutral, sad, happy, angry, scared, bored and disgust. Speech features were collected using Praat analysis software. Corpus which was used in the work did not contain premade markings so voiced and silent segments were marked to speech samples. With these segments following features of speech were measured: highest F0 value, lowest F0 value, mean F0 value, segment length, standard deviation of F0, jitter, shimmer, highest intensity value, lowest intensity value and mean intensity value.
Emotion specific mean values and percentual deviation from neutral emotion were calculated from the features of speech. With these values the following features were calculated: word per minute, length of the silent and voiced segments and the word gap. Synthetic voices for male and female which simulated the previously mentioned seven emotions were created from the previously mentioned features. Espeak was chosen as the speech synthesizer for this work.
Synthesized voices were tested with listening tests. Fourteen people participated in the tests. Test consisted of forced choice test in which testers had to choose which emotion the speech sample they heard was trying to emulate. After that the testers also had to evaluate the intensity of the emotion and naturalness of the voice using the mean opinion score scale. Tests were done using the Google Forms service.
The results showed that the average recognition rate for male voice was 32.6% and for female voice 20.7%. Bored male voice had the highest recognition rate of 85.7%. Scared and disgusted female voice had a recognition rate of 0% making them the lowest. Mean value for the intensity of emotion for male voice was 3.2 and for female voice it was 2.9. Values of the naturalness of the voice was 2.3 for male and 2.4 for female voice. Naturalness of voice was consistent between speech samples and the low values were expected due to the inherent unnaturalness of formant speech synthesis. Low recognition rate was most likely due to the neutral intonation of the synthesized speech. Using emotion specific intonation requires more in depth analysis of the speech corpus. Results should be viewed as directional due to the sample size and the test setup.
Puheen ominaisuuksien arvoista lasketaan tunnekohtaiset keskiarvot, sekä arvojen prosentuaaliset muutokset neutraalin tunteen arvoista. Tämän lisäksi arvojen avulla lasketaan sanat minuutissa, äänellisten ja äänettömien osioiden pituudet, sekä sanakohtainen taukoaika. Arvojen avulla luotiin edellä mainittuja seitsemää tunnetta simuloivat syntetisoidut mies- ja naisäänet. Puhesyntetisaattorina käytettiin eSpeakkia.
Saatuja ääniä testattiin kuuntelutesteillä. Testiin osallistui 14 ihmistä. Testi koostui pakotetun valinnan testistä, jossa testaajien piti valita, mitä tunnetta heidän kuulemansa ääninäyte vastasi. Tämän lisäksi heitä pyydettiin arvioimaan ääninäytteen tunteen esilletulon voimakkuutta, sekä puheen luonnollisuutta, mean opinion score -asteikolla. Testit suoritettiin Google Forms -palvelulla.
Tuloksista selvisi, että miesten keskimääräiseksi tunnistusprosentiksi saatiin 32,6 % ja naisten keskimääräiseksi tunnistus prosentiksi 20,7 %. Korkein tunnistusprosentti oli miesten kyllästyneellä äänellä, joka tunnistettiin 85,7 % tarkkuudella. Matalimmat tunnistus prosentit olivat naisten pelossa ja inhossa. Kummankin tunnistusprosentti oli 0 %. Tunteen esille tuonnin keskiarvo miehillä oli 3,2 ja naisilla 2,9. Luonnollisuuden arvot olivat keskimäärin 2,3 miehille ja 2,4 naisille. Luonnollisuuden arvot eivät muuttuneet paljoa eri tunteiden välillä ja niiden mataluus oli oletettavissa formantille synteesille.
Alhainen tunnistusprosentti johtuu todennäköisesti ääninäytteissä käytetystä neutraalista intonaatiosta. Tunnekohtaisen intonaation lisääminen järjestelmään vaatii puhekorpuksen tarkempaa analyysiä. Tuloksia pitää katsoa suuntaa antavina kyselyn otannan ja asetelman takia.
Emotion specific mean values and percentual deviation from neutral emotion were calculated from the features of speech. With these values the following features were calculated: word per minute, length of the silent and voiced segments and the word gap. Synthetic voices for male and female which simulated the previously mentioned seven emotions were created from the previously mentioned features. Espeak was chosen as the speech synthesizer for this work.
Synthesized voices were tested with listening tests. Fourteen people participated in the tests. Test consisted of forced choice test in which testers had to choose which emotion the speech sample they heard was trying to emulate. After that the testers also had to evaluate the intensity of the emotion and naturalness of the voice using the mean opinion score scale. Tests were done using the Google Forms service.
The results showed that the average recognition rate for male voice was 32.6% and for female voice 20.7%. Bored male voice had the highest recognition rate of 85.7%. Scared and disgusted female voice had a recognition rate of 0% making them the lowest. Mean value for the intensity of emotion for male voice was 3.2 and for female voice it was 2.9. Values of the naturalness of the voice was 2.3 for male and 2.4 for female voice. Naturalness of voice was consistent between speech samples and the low values were expected due to the inherent unnaturalness of formant speech synthesis. Low recognition rate was most likely due to the neutral intonation of the synthesized speech. Using emotion specific intonation requires more in depth analysis of the speech corpus. Results should be viewed as directional due to the sample size and the test setup.
Kokoelmat
- Avoin saatavuus [29917]