Tekoälymallien hienosäätö myrkytetyllä datalla ja syötteen pituuden vaikutus tuloksiin
Siimes, Siiri; Rousti, Satu; Sarajärvi, Laura (2025-06-12)
Siimes, Siiri
Rousti, Satu
Sarajärvi, Laura
S. Siimes; S. Rousti; L. Sarajärvi
12.06.2025
© 2025 Siiri Siimes, Satu Rousti, Laura Sarajärvi. Ellei toisin mainita, uudelleenkäyttö on sallittu Creative Commons Attribution 4.0 International (CC-BY 4.0) -lisenssillä (https://creativecommons.org/licenses/by/4.0/). Uudelleenkäyttö on sallittua edellyttäen, että lähde mainitaan asianmukaisesti ja mahdolliset muutokset merkitään. Sellaisten osien käyttö tai jäljentäminen, jotka eivät ole tekijän tai tekijöiden omaisuutta, saattaa edellyttää lupaa suoraan asianomaisilta oikeudenhaltijoilta.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:oulu-202506184758
https://urn.fi/URN:NBN:fi:oulu-202506184758
Tiivistelmä
Tekoälyn yleistyminen arkipäiväisessä toiminnassa ja työkaluna useilla eri aloilla on paljastanut siihen liittyviä turvallisuusuhkia. Näistä keskeisimpänä on hyökkääjien mahdollisuus vaikuttaa eri tavoin sen toimintaan, eli muun muassa keskustelutekoälyjen tuottamiin vastauksiin. Tätä kutsutaan tekoälymallin myrkyttämiseksi. Nopean kehityksen myötä tekoälyn turvallisuutta on jouduttu tarkastelemaan uudenlaisista näkökulmista ja siihen liittyvien uhkien tunnistamiseen ja torjumiseen on kehitetty uusia menetelmiä.
Tässä opinnäytetyössä toteutettiin kolmen eri kielimallin tuottamien vastausten myrkyttäminen, eli manipulointi hienosäätämällä niitä virheellistä tietoa sisältävällä datasetillä. Tekoälymallien hienosäätö tapahtui Google Colabissa1 käyttäen Python-ohjelmointikieltä ja jokaiselle tekoälymallille ominaisia valmiita ohjelmakoodeja. Tavoitteena oli hienosäätää eri tekoälymalleja siten, että ne tuottaisivat musiikkiyhtye ABBA:n suosituimpaan kappaleeseen liittyviin syötteisiin virheellistä tietoa sisältävän tulosteen. Hienosäädön onnistumista arvioitiin yhteensä 30 erilaisella syötteellä, jotka jaettiin lyhyisiin, keskipitkiin ja pitkiin syötteisiin.
Työn tuloksena onnistuttiin myrkyttämään kohtuullinen määrä vastauksia jokaisessa tekoälymallissa ja huomattiin, että keskipitkät syötteet tuottivat eniten virheellistä tietoa sisältäviä tulosteita. Tekoälymallin hienosäätö virheellistä tietoa sisältävän datasetin avulla vaatii vielä jatkokehitystä erityisesti datasetin laajuuden osalta, jotta myrkytys onnistuttaisiin upottamaan syvemmälle malliin. Lisäksi laajemman testikysymyssetin avulla voitaisiin saada tarkempi kuva myrkytyksen kattavuudesta.
Tässä opinnäytetyössä toteutettiin kolmen eri kielimallin tuottamien vastausten myrkyttäminen, eli manipulointi hienosäätämällä niitä virheellistä tietoa sisältävällä datasetillä. Tekoälymallien hienosäätö tapahtui Google Colabissa1 käyttäen Python-ohjelmointikieltä ja jokaiselle tekoälymallille ominaisia valmiita ohjelmakoodeja. Tavoitteena oli hienosäätää eri tekoälymalleja siten, että ne tuottaisivat musiikkiyhtye ABBA:n suosituimpaan kappaleeseen liittyviin syötteisiin virheellistä tietoa sisältävän tulosteen. Hienosäädön onnistumista arvioitiin yhteensä 30 erilaisella syötteellä, jotka jaettiin lyhyisiin, keskipitkiin ja pitkiin syötteisiin.
Työn tuloksena onnistuttiin myrkyttämään kohtuullinen määrä vastauksia jokaisessa tekoälymallissa ja huomattiin, että keskipitkät syötteet tuottivat eniten virheellistä tietoa sisältäviä tulosteita. Tekoälymallin hienosäätö virheellistä tietoa sisältävän datasetin avulla vaatii vielä jatkokehitystä erityisesti datasetin laajuuden osalta, jotta myrkytys onnistuttaisiin upottamaan syvemmälle malliin. Lisäksi laajemman testikysymyssetin avulla voitaisiin saada tarkempi kuva myrkytyksen kattavuudesta.
Kokoelmat
- Avoin saatavuus [38865]