Sano se ääneen : puheentunnistusjärjestelmien käyttötarkoitukset, integrointi ja kehitys
Kukkamaa, Krista (2024-01-22)
Kukkamaa, Krista
K. Kukkamaa
22.01.2024
© 2024 Krista Kukkamaa. Ellei toisin mainita, uudelleenkäyttö on sallittu Creative Commons Attribution 4.0 International (CC-BY 4.0) -lisenssillä (https://creativecommons.org/licenses/by/4.0/). Uudelleenkäyttö on sallittua edellyttäen, että lähde mainitaan asianmukaisesti ja mahdolliset muutokset merkitään. Sellaisten osien käyttö tai jäljentäminen, jotka eivät ole tekijän tai tekijöiden omaisuutta, saattaa edellyttää lupaa suoraan asianomaisilta oikeudenhaltijoilta.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:oulu-202401221386
https://urn.fi/URN:NBN:fi:oulu-202401221386
Tiivistelmä
Tutkimus keskittyy kolmeen kysymykseen puheentunnistusjärjestelmien käytöstä, niiden integroimisesta erillisjärjestelmiin sekä kehittämisestä. Ensimmäinen kysymys koskee saatavilla olevia puheentunnistusjärjestelmiä ja niiden käyttötarkoituksia, toinen liittyy erillisjärjestelmään integroitavan puheentunnistuksen järjestelmä- ja laitevaatimuksiin, kun kolmas tarkastelee tekijöitä, jotka on otettava huomioon puheentunnistusta käyttävän järjestelmän kehittämisessä. Tutkimus tehdään kirjallisuuskatsauksena hyödyntäen kirjallisuutta, tutkimuksia ja verkkosivuja.
Tutkimus osoittaa, että nykyiset puheentunnistusjärjestelmät ovat joko pilvipohjaisia tai laitteelle toteutettavia on-premise-järjestelmiä. Käyttölaitteen muisti ja suorituskyky määrittävät reunaehdot järjestelmän integroimiselle, sillä varsinkin spontaanin puheen ja suuren sanaston puheentunnistustehtävät vaativat paljon laskentatehoa. Tämä ongelma ratkaistaan usein hajautetulla tai täysin verkkopohjaisella arkkitehtuurilla, mikä mahdollistaa vaativan prosessoinnin ulkoistamisen virtuaaliselle palvelimelle. Toiminnallisuus edellyttää kuitenkin Internet-yhteyttä. Useimmiten yksinkertaisimmat, pienen sanaston puheentunnistustehtävät toteutetaan osana sulautettua järjestelmää, mutta mikäli vaatimuksena on mahdollisimman hyvä latenssi ja turvallisempi tiedonsiirto voidaan myös vaativiin puheentunnistustehtäviin tarkoitetut järjestelmät toteuttaa laitteelle. Yleisimpiä käyttötarkoituksia puheentunnistusjärjestelmille ovat litterointi, tiedonhaku ja laitteen ohjaustehtävät. Puheentunnistusjärjestelmät ovat jo saavuttaneet vakiintuneen aseman syötemoduulina esimerkiksi älykotien IoT-järjestelmissä ja älylaitteissa.
Puheentunnistusteknologiat perustuvat vanhoihin periaatteisiin, minkä kehitystä uudet teknologiat, kuten tekoäly ja koneoppimiseen liittyvä syväoppiminen, ovat merkittävästi edesauttaneet. Lisäksi mobiililaitteiden ja Internetin yleistyminen ovat lisänneet puheentunnistusominaisuuden suosiota. Tämän päivän state-of-art-järjestelmät ovat saavuttaneet jo ensimmäisen virstanpylvään, lähes ihmistasoisen tunnistustarkkuuden, mutta edelleen haasteena kuitenkin on liikkuvan kohteen puheen tunnistaminen sekä tunnistustehtävät meluisissa olosuhteissa. Muun muassa siksi puheentunnistusta käyttävän järjestelmän kehittämisessä tärkeintä on sen käyttötarkoituksen ja ympäristön määrittäminen, mitkä vaikuttavat sekä järjestelmässä käytettävän sanaston suuruuteen että käyttöliittymän ominaisuuksiin. Järjes-telmän on kyettävä reagoimaan niin onnistuneesti tunnistettuun puhesyötteeseen kuin virhetilanteisiin. Merkittävää on myös kiinnittää huomiota järjestelmän tarjoamaan käyttäjäkokemukseen ja ihmiselle luonnolliseen kommunikointiin.
Tutkimus osoittaa, että nykyiset puheentunnistusjärjestelmät ovat joko pilvipohjaisia tai laitteelle toteutettavia on-premise-järjestelmiä. Käyttölaitteen muisti ja suorituskyky määrittävät reunaehdot järjestelmän integroimiselle, sillä varsinkin spontaanin puheen ja suuren sanaston puheentunnistustehtävät vaativat paljon laskentatehoa. Tämä ongelma ratkaistaan usein hajautetulla tai täysin verkkopohjaisella arkkitehtuurilla, mikä mahdollistaa vaativan prosessoinnin ulkoistamisen virtuaaliselle palvelimelle. Toiminnallisuus edellyttää kuitenkin Internet-yhteyttä. Useimmiten yksinkertaisimmat, pienen sanaston puheentunnistustehtävät toteutetaan osana sulautettua järjestelmää, mutta mikäli vaatimuksena on mahdollisimman hyvä latenssi ja turvallisempi tiedonsiirto voidaan myös vaativiin puheentunnistustehtäviin tarkoitetut järjestelmät toteuttaa laitteelle. Yleisimpiä käyttötarkoituksia puheentunnistusjärjestelmille ovat litterointi, tiedonhaku ja laitteen ohjaustehtävät. Puheentunnistusjärjestelmät ovat jo saavuttaneet vakiintuneen aseman syötemoduulina esimerkiksi älykotien IoT-järjestelmissä ja älylaitteissa.
Puheentunnistusteknologiat perustuvat vanhoihin periaatteisiin, minkä kehitystä uudet teknologiat, kuten tekoäly ja koneoppimiseen liittyvä syväoppiminen, ovat merkittävästi edesauttaneet. Lisäksi mobiililaitteiden ja Internetin yleistyminen ovat lisänneet puheentunnistusominaisuuden suosiota. Tämän päivän state-of-art-järjestelmät ovat saavuttaneet jo ensimmäisen virstanpylvään, lähes ihmistasoisen tunnistustarkkuuden, mutta edelleen haasteena kuitenkin on liikkuvan kohteen puheen tunnistaminen sekä tunnistustehtävät meluisissa olosuhteissa. Muun muassa siksi puheentunnistusta käyttävän järjestelmän kehittämisessä tärkeintä on sen käyttötarkoituksen ja ympäristön määrittäminen, mitkä vaikuttavat sekä järjestelmässä käytettävän sanaston suuruuteen että käyttöliittymän ominaisuuksiin. Järjes-telmän on kyettävä reagoimaan niin onnistuneesti tunnistettuun puhesyötteeseen kuin virhetilanteisiin. Merkittävää on myös kiinnittää huomiota järjestelmän tarjoamaan käyttäjäkokemukseen ja ihmiselle luonnolliseen kommunikointiin.
Kokoelmat
- Avoin saatavuus [38824]