Suurten kielimallien turvallisuus kehotehyökkäyksiä vastaan
Jussila, Hanna; Talvensaari, Ronja; Gröndahl, Lauri (2026-05-06)
Jussila, Hanna
Talvensaari, Ronja
Gröndahl, Lauri
H. Jussila; R. Talvensaari; L. Gröndahl
06.05.2026
© 2026, Hanna Jussila, Ronja Talvensaari, Lauri Gröndahl. Tämä Kohde on tekijänoikeuden ja/tai lähioikeuksien suojaama. Voit käyttää Kohdetta käyttöösi sovellettavan tekijänoikeutta ja lähioikeuksia koskevan lainsäädännön sallimilla tavoilla. Muunlaista käyttöä varten tarvitset oikeudenhaltijoiden luvan.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:oulu-202605063016
https://urn.fi/URN:NBN:fi:oulu-202605063016
Tiivistelmä
Tämä kandidaatin tutkielma käsittelee tekoälyn (Artificial Intelligence, AI) haavoittuvuuksia. Työn tavoitteena oli tutkia suurten kielimallien (Large Language Models, LLM) turvallisuutta, erityisesti kehotehyökkäysten näkökulmasta. Tutkimus keskittyi siihen, kuinka erilaiset hyökkäystyypit, kuten suojauksien murtaminen (jailbreaking) ja järjestelmäkehotteen paljastaminen (system prompt extraction), vaikuttavat mallien toimintaan sekä niiden kykyyn noudattaa omia turvallisuusrajoituksia.
Tutkimuksessa hyödynnettiin avoimia kielimalleja, kuten Llama 3.1, Qwen 2.5:7B, Mistral 7B sekä OpenCoder. Mallien vasteita analysoitiin erityyppisten syötteiden perusteella. Testaus toteutettiin käyttäen AVISE- kehystä (AI Vulnerability Identification \& Security Evaluation), jossa on mahdollista tutkia tekoälyjärjestelmien haavoittuvuuksia sekä toteuttaa turvallisuuden arviointia.
Testausvaiheessa malleille syötettiin ennalta suunniteltuja hyökkäyskehotteita. Näiden avulla voitiin vertailla eri mallien haavoittuvuutta ja käyttäytymistä eri hyökkäystilanteissa. Tuloksia arvioitiin sen perusteella, onnistuiko hyökkäys ohittamaan mallin omat turvamekanismit ja millä tavalla malli reagoi eri tilanteisiin. Tuloksissa havaitsimme, että tietyt hyökkäystavat, kuten ohjeiden ylikirjoittaminen (Instruction Override), osoittautui tehokkaaksi kaikissa testatuissa malleissa. Hyökkäyksien onnistumiseen vaikutti kehotteen tarkkuus ja muotoilu, mutta käsiteltävällä aihealueella ei havaittu olevan olennaista vaikutusta.
Tutkimuksessa hyödynnettiin avoimia kielimalleja, kuten Llama 3.1, Qwen 2.5:7B, Mistral 7B sekä OpenCoder. Mallien vasteita analysoitiin erityyppisten syötteiden perusteella. Testaus toteutettiin käyttäen AVISE- kehystä (AI Vulnerability Identification \& Security Evaluation), jossa on mahdollista tutkia tekoälyjärjestelmien haavoittuvuuksia sekä toteuttaa turvallisuuden arviointia.
Testausvaiheessa malleille syötettiin ennalta suunniteltuja hyökkäyskehotteita. Näiden avulla voitiin vertailla eri mallien haavoittuvuutta ja käyttäytymistä eri hyökkäystilanteissa. Tuloksia arvioitiin sen perusteella, onnistuiko hyökkäys ohittamaan mallin omat turvamekanismit ja millä tavalla malli reagoi eri tilanteisiin. Tuloksissa havaitsimme, että tietyt hyökkäystavat, kuten ohjeiden ylikirjoittaminen (Instruction Override), osoittautui tehokkaaksi kaikissa testatuissa malleissa. Hyökkäyksien onnistumiseen vaikutti kehotteen tarkkuus ja muotoilu, mutta käsiteltävällä aihealueella ei havaittu olevan olennaista vaikutusta.
Kokoelmat
- Avoin saatavuus [43138]
