Hyppää sisältöön
    • FI
    • ENG
  • FI
  • /
  • EN
OuluREPO – Oulun yliopiston julkaisuarkisto / University of Oulu repository
Näytä viite 
  •   OuluREPO etusivu
  • Oulun yliopisto
  • Avoin saatavuus
  • Näytä viite
  •   OuluREPO etusivu
  • Oulun yliopisto
  • Avoin saatavuus
  • Näytä viite
JavaScript is disabled for your browser. Some features of this site may not work without it.

Suurten kielimallien turvallisuus kehotehyökkäyksiä vastaan

Jussila, Hanna; Talvensaari, Ronja; Gröndahl, Lauri (2026-05-06)

 
Avaa tiedosto
nbnfioulu-202605063016.pdf (383.2Kt)
nbnfioulu-202605063016_mods.xml (11.78Kt)
nbnfioulu-202605063016_pdfa_report.xml (282.0Kt)
Lataukset: 


Jussila, Hanna
Talvensaari, Ronja
Gröndahl, Lauri
H. Jussila; R. Talvensaari; L. Gröndahl
06.05.2026
© 2026, Hanna Jussila, Ronja Talvensaari, Lauri Gröndahl. Tämä Kohde on tekijänoikeuden ja/tai lähioikeuksien suojaama. Voit käyttää Kohdetta käyttöösi sovellettavan tekijänoikeutta ja lähioikeuksia koskevan lainsäädännön sallimilla tavoilla. Muunlaista käyttöä varten tarvitset oikeudenhaltijoiden luvan.
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:oulu-202605063016
Tiivistelmä
Tämä kandidaatin tutkielma käsittelee tekoälyn (Artificial Intelligence, AI) haavoittuvuuksia. Työn tavoitteena oli tutkia suurten kielimallien (Large Language Models, LLM) turvallisuutta, erityisesti kehotehyökkäysten näkökulmasta. Tutkimus keskittyi siihen, kuinka erilaiset hyökkäystyypit, kuten suojauksien murtaminen (jailbreaking) ja järjestelmäkehotteen paljastaminen (system prompt extraction), vaikuttavat mallien toimintaan sekä niiden kykyyn noudattaa omia turvallisuusrajoituksia.

Tutkimuksessa hyödynnettiin avoimia kielimalleja, kuten Llama 3.1, Qwen 2.5:7B, Mistral 7B sekä OpenCoder. Mallien vasteita analysoitiin erityyppisten syötteiden perusteella. Testaus toteutettiin käyttäen AVISE- kehystä (AI Vulnerability Identification \& Security Evaluation), jossa on mahdollista tutkia tekoälyjärjestelmien haavoittuvuuksia sekä toteuttaa turvallisuuden arviointia.

Testausvaiheessa malleille syötettiin ennalta suunniteltuja hyökkäyskehotteita. Näiden avulla voitiin vertailla eri mallien haavoittuvuutta ja käyttäytymistä eri hyökkäystilanteissa. Tuloksia arvioitiin sen perusteella, onnistuiko hyökkäys ohittamaan mallin omat turvamekanismit ja millä tavalla malli reagoi eri tilanteisiin. Tuloksissa havaitsimme, että tietyt hyökkäystavat, kuten ohjeiden ylikirjoittaminen (Instruction Override), osoittautui tehokkaaksi kaikissa testatuissa malleissa. Hyökkäyksien onnistumiseen vaikutti kehotteen tarkkuus ja muotoilu, mutta käsiteltävällä aihealueella ei havaittu olevan olennaista vaikutusta.
Kokoelmat
  • Avoin saatavuus [43138]
oulurepo@oulu.fiOulun yliopiston kirjastoOuluCRISLaturiMuuntaja
SaavutettavuusselosteTietosuojailmoitusYlläpidon kirjautuminen
 

Selaa kokoelmaa

NimekkeetTekijätJulkaisuajatAsiasanatUusimmatSivukartta

Omat tiedot

Kirjaudu sisäänRekisteröidy
oulurepo@oulu.fiOulun yliopiston kirjastoOuluCRISLaturiMuuntaja
SaavutettavuusselosteTietosuojailmoitusYlläpidon kirjautuminen