Äänen suodattamisen vaikutus puheentunnistuksen tarkkuuteen meluisassa ympäristössä
Lukkarinen, Olli; Kyllönen, Toni (2024-08-14)
Lukkarinen, Olli
Kyllönen, Toni
O. Lukkarinen; T. Kyllönen
14.08.2024
© 2024 Olli Lukkarinen, Toni Kyllönen. Ellei toisin mainita, uudelleenkäyttö on sallittu Creative Commons Attribution 4.0 International (CC-BY 4.0) -lisenssillä (https://creativecommons.org/licenses/by/4.0/). Uudelleenkäyttö on sallittua edellyttäen, että lähde mainitaan asianmukaisesti ja mahdolliset muutokset merkitään. Sellaisten osien käyttö tai jäljentäminen, jotka eivät ole tekijän tai tekijöiden omaisuutta, saattaa edellyttää lupaa suoraan asianomaisilta oikeudenhaltijoilta.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:oulu-202408205502
https://urn.fi/URN:NBN:fi:oulu-202408205502
Tiivistelmä
Puheentunnistus on tekoälyn kehittymisen myötä helpottamassa niin arkiaskareita, terveydenhuoltoa, kuin monia muitakin tehtäviä. Jotta puheentunnistus olisi toimiva, on valittava käyttötarkoitukseen sopiva mikrofoni monenlaisten teknologioiden joukosta.
Puheentunnistuksen kannalta hyvin olennaista on äänen teoria, sillä ihmisen kuuloaisti ja mikrofoni eivät välttämättä reagoi samalla tavalla äänen taajuussisältöön. Eri mikrofoniteknologioita vertailemalla voitiin todeta tarkoitukseen sopivimmaksi mikrofoniksi MEMS-mikrofoni.
Valitun MEMS-mikrofonin tuottama signaali on amplitudiltaan hyvin pientä, joten signaalia täytyy vahvistaa. Signaalin vahvistaminen saatiin toteutettua suoraksi vahvistimeksi kytketyllä operaatiovahvistimella.
Mikrofonien ja vahvistimien aikaansaama signaali ei kuitenkaan ole puhdasta, vaan siinä esiintyy kohinaa eri lähteistä. Kohina saattaa heikentää puheentunnistuksen toimivuutta, mutta sitä voidaan vaimentaa muun muassa analogisilla suodattimilla.
Kun vaatimukset ja ympäristön aiheuttamat muuttujat olivat tiedossa, voitiin mikrofonin, vahvistimen sekä suodattimien teoria yhdistää piirilevyillä toimivaksi kokonaisuudeksi. Lisäksi käytettyjen komponenttien toimintaa simuloitiin tietokoneella ennen piirilevyjen jyrsintää ja juottamista.
Elektroniikkasuunnittelun jälkeen testattiin analogisen kaistanpäästösuodattimen toimintaa, jotta voitiin päättää suodattimelle sopivat ala- ja ylärajataajuudet. Äänitallenteita kuuntelemalla ja spektrianalyysin avulla todettiin, että rajataajuuksia 118Hz ja 1977Hz käyttäessä kohina väheni huomattavasti ja puheen laatu säilyi ennallaan.
Sopivien suodattimien löydyttyä testattiin puheentunnistuksen osumatarkkuutta. Testausta varten luotiin testiympäristö, jossa pyrittiin nauhoittamaan puheääntä erilaisilla taustamelun tasoilla. Kehitetty mikrofoni ylsi hiljaisessa tilassa noin 100% tarkkuuteen ja meluisassa ympäristössä noin 90% tarkkuuteen. Kun taustamelu ylitti puheen voimakkuuden, romahti tunnistuksen tarkkuus käyttökelvottomaksi.
Puheentunnistuksen kannalta hyvin olennaista on äänen teoria, sillä ihmisen kuuloaisti ja mikrofoni eivät välttämättä reagoi samalla tavalla äänen taajuussisältöön. Eri mikrofoniteknologioita vertailemalla voitiin todeta tarkoitukseen sopivimmaksi mikrofoniksi MEMS-mikrofoni.
Valitun MEMS-mikrofonin tuottama signaali on amplitudiltaan hyvin pientä, joten signaalia täytyy vahvistaa. Signaalin vahvistaminen saatiin toteutettua suoraksi vahvistimeksi kytketyllä operaatiovahvistimella.
Mikrofonien ja vahvistimien aikaansaama signaali ei kuitenkaan ole puhdasta, vaan siinä esiintyy kohinaa eri lähteistä. Kohina saattaa heikentää puheentunnistuksen toimivuutta, mutta sitä voidaan vaimentaa muun muassa analogisilla suodattimilla.
Kun vaatimukset ja ympäristön aiheuttamat muuttujat olivat tiedossa, voitiin mikrofonin, vahvistimen sekä suodattimien teoria yhdistää piirilevyillä toimivaksi kokonaisuudeksi. Lisäksi käytettyjen komponenttien toimintaa simuloitiin tietokoneella ennen piirilevyjen jyrsintää ja juottamista.
Elektroniikkasuunnittelun jälkeen testattiin analogisen kaistanpäästösuodattimen toimintaa, jotta voitiin päättää suodattimelle sopivat ala- ja ylärajataajuudet. Äänitallenteita kuuntelemalla ja spektrianalyysin avulla todettiin, että rajataajuuksia 118Hz ja 1977Hz käyttäessä kohina väheni huomattavasti ja puheen laatu säilyi ennallaan.
Sopivien suodattimien löydyttyä testattiin puheentunnistuksen osumatarkkuutta. Testausta varten luotiin testiympäristö, jossa pyrittiin nauhoittamaan puheääntä erilaisilla taustamelun tasoilla. Kehitetty mikrofoni ylsi hiljaisessa tilassa noin 100% tarkkuuteen ja meluisassa ympäristössä noin 90% tarkkuuteen. Kun taustamelu ylitti puheen voimakkuuden, romahti tunnistuksen tarkkuus käyttökelvottomaksi.
Kokoelmat
- Avoin saatavuus [38841]