Luonnollisen kielen prosessointi ja suomen kieli
Puotiniemi, Heidi (2025-05-07)
Puotiniemi, Heidi
H. Puotiniemi
07.05.2025
© 2025 Heidi Puotiniemi. Ellei toisin mainita, uudelleenkäyttö on sallittu Creative Commons Attribution 4.0 International (CC-BY 4.0) -lisenssillä (https://creativecommons.org/licenses/by/4.0/). Uudelleenkäyttö on sallittua edellyttäen, että lähde mainitaan asianmukaisesti ja mahdolliset muutokset merkitään. Sellaisten osien käyttö tai jäljentäminen, jotka eivät ole tekijän tai tekijöiden omaisuutta, saattaa edellyttää lupaa suoraan asianomaisilta oikeudenhaltijoilta.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:oulu-202505073139
https://urn.fi/URN:NBN:fi:oulu-202505073139
Tiivistelmä
Generatiivinen tekoäly on ottanut viime vuosina suuria kehitysaskelia ja avannut uusia mahdollisuuksia kieliteknologian saralla. Tekoälyn kyvykkyydet tekstin tuottamisessa, ymmärtämisessä ja kielen kääntämisessä ovat parantuneet. Suomen kieli poikkeaa rakenteeltaan maailman valtakielistä ja on puhujamäärältään pieni kieli, mikä vaikuttaa generatiivisen tekoälyn suomen kielen kyvykkyyksiin.
Tässä tutkielmassa selvitettiin, miten generatiivinen tekoäly käsittelee suomen kieltä. Tutkimuskysymyksenä on, miten generatiivisen tekoälyn kielimallit ymmärtävät ja tuottavat suomen kieltä erityisesti morfologian ja semantiikan tasolla. Tutkimuksessa selvitetään myös, mitä vaatimuksia suomen kielen morfologia asettaa kielimalleille sekä kuinka suomeen keskittyviä kielimalleja koulutetaan ja millaisia haasteita niihin liittyy. Menetelmänä tutkimuksessa on kuvaileva kirjallisuuskatsaus.
Tutkimuksessa käydään läpi luonnollisen kielen prosessoinnin menetelmiä ja kartoitetaan erityisesti suomen kielen kaltaisille kielille olennaisia menetelmiä. Keskeisiä tarkasteltuja menetelmiä ovat lemmatisointi, tokenisointi, nimettyjen entiteettien tunnistus ja parafrasointi. Sen lisäksi tarkastellaan sekä monikielisiä että suomen kieleen keskittyviä suuria kielimalleja.
Tutkimuksessa käy ilmi, että suomen kielen agglutinoiva luonne ja runsas taivutus asettavat vaatimuksia tokenisointialgoritmeille. Vaikka laajasti käytetty BPE-algoritmi on vakiintunut tokenisointimenetelmä, morfologinen erottelu saattaa tarjota tehokkaamman tavan käsitellä suomen kielen rakennetta ja parantaa kielimallin suorituskykyä. Myös sanavektorien, kuten fasttextin, käyttö osoittautuu hyödylliseksi suomen kielen sisäisten rakenneosien käsittelyssä.
Semantiikan osalta tutkimuksessa tunnistetaan parafrasointimenetelmä keinona lisätä kielimallin kykyä ymmärtää ja tuottaa suomen kielen merkityksiä. Kaiken kaikkiaan laadukkaan ja esikäsitellyn koulutusdatan merkitys korostuu. Tutkimuksessa myös esitellään suomenkielisen Poro-kielimallin käyttämä ja hyviä tuloksia saavuttanut koulutusratkaisu, jossa suomenkielinen data on yhdistetty korkean resurssin englannin kielen kanssa.
Tässä tutkielmassa selvitettiin, miten generatiivinen tekoäly käsittelee suomen kieltä. Tutkimuskysymyksenä on, miten generatiivisen tekoälyn kielimallit ymmärtävät ja tuottavat suomen kieltä erityisesti morfologian ja semantiikan tasolla. Tutkimuksessa selvitetään myös, mitä vaatimuksia suomen kielen morfologia asettaa kielimalleille sekä kuinka suomeen keskittyviä kielimalleja koulutetaan ja millaisia haasteita niihin liittyy. Menetelmänä tutkimuksessa on kuvaileva kirjallisuuskatsaus.
Tutkimuksessa käydään läpi luonnollisen kielen prosessoinnin menetelmiä ja kartoitetaan erityisesti suomen kielen kaltaisille kielille olennaisia menetelmiä. Keskeisiä tarkasteltuja menetelmiä ovat lemmatisointi, tokenisointi, nimettyjen entiteettien tunnistus ja parafrasointi. Sen lisäksi tarkastellaan sekä monikielisiä että suomen kieleen keskittyviä suuria kielimalleja.
Tutkimuksessa käy ilmi, että suomen kielen agglutinoiva luonne ja runsas taivutus asettavat vaatimuksia tokenisointialgoritmeille. Vaikka laajasti käytetty BPE-algoritmi on vakiintunut tokenisointimenetelmä, morfologinen erottelu saattaa tarjota tehokkaamman tavan käsitellä suomen kielen rakennetta ja parantaa kielimallin suorituskykyä. Myös sanavektorien, kuten fasttextin, käyttö osoittautuu hyödylliseksi suomen kielen sisäisten rakenneosien käsittelyssä.
Semantiikan osalta tutkimuksessa tunnistetaan parafrasointimenetelmä keinona lisätä kielimallin kykyä ymmärtää ja tuottaa suomen kielen merkityksiä. Kaiken kaikkiaan laadukkaan ja esikäsitellyn koulutusdatan merkitys korostuu. Tutkimuksessa myös esitellään suomenkielisen Poro-kielimallin käyttämä ja hyviä tuloksia saavuttanut koulutusratkaisu, jossa suomenkielinen data on yhdistetty korkean resurssin englannin kielen kanssa.
Kokoelmat
- Avoin saatavuus [37744]