Suurten kielimallien fuzz-testaus ja haavoittuvuudet
Kenttälä, Veikka; Poe, Hla Kay (2025-05-02)
Kenttälä, Veikka
Poe, Hla Kay
V. Kenttälä; H. K. Poe
02.05.2025
© 2025, Veikka Kenttälä, Hla Kay Poe. Tämä Kohde on tekijänoikeuden ja/tai lähioikeuksien suojaama. Voit käyttää Kohdetta käyttöösi sovellettavan tekijänoikeutta ja lähioikeuksia koskevan lainsäädännön sallimilla tavoilla. Muunlaista käyttöä varten tarvitset oikeudenhaltijoiden luvan.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:oulu-202505023055
https://urn.fi/URN:NBN:fi:oulu-202505023055
Tiivistelmä
Tässä kandidaatintyössä tarkastellaan fuzz-testausta erityisesti suurten kielimallien (LLM, large language model) näkökulmasta. Työn alkuosassa esitellään fuzz-testauksen periaatteet, käyttökohteet ja tekniikat, minkä jälkeen siirrytään LLM-mallien haavoittuvuuksien tarkasteluun. Teoreettisen osuuden jälkeen suoritetaan pienimuotoinen fuzz-testaus Microsoftin Phi-3-mini -mallille käyttäen Garak-nimistä testaustyökalua.
Testauksen tavoitteena oli arvioida mallin toimintaa kolmesta näkökulmasta: funktionaalisuus, kestävyys ja turvallisuus. Tulokset osoittavat, että malli suoriutuu melko hyvin faktapohjaisista ja monitulkintaisista kysymyksistä sekä kestää useita manipuloituja syötteitä. Turvallisuuden osalta havaittiin kuitenkin merkittäviä puutteita: malli oli altis jailbreak-hyökkäyksille ja antoi vahingollista sisältöä useissa tapauksissa.
Johtopäätöksenä todetaan, että fuzz-testaus on tehokas tapa tunnistaa LLM-mallien heikkouksia, ja Phi-3-mini -mallin turvallisuus vaatii kehittämistä ennen laajamittaista käyttöönottoa.
Testauksen tavoitteena oli arvioida mallin toimintaa kolmesta näkökulmasta: funktionaalisuus, kestävyys ja turvallisuus. Tulokset osoittavat, että malli suoriutuu melko hyvin faktapohjaisista ja monitulkintaisista kysymyksistä sekä kestää useita manipuloituja syötteitä. Turvallisuuden osalta havaittiin kuitenkin merkittäviä puutteita: malli oli altis jailbreak-hyökkäyksille ja antoi vahingollista sisältöä useissa tapauksissa.
Johtopäätöksenä todetaan, että fuzz-testaus on tehokas tapa tunnistaa LLM-mallien heikkouksia, ja Phi-3-mini -mallin turvallisuus vaatii kehittämistä ennen laajamittaista käyttöönottoa.
Kokoelmat
- Avoin saatavuus [37920]