Efficient local inference with small language models in interactive media
Kylmäoja, Jaakko (2025-09-22)
Kylmäoja, Jaakko
J. Kylmäoja
22.09.2025
© 2025 Jaakko Kylmäoja. Ellei toisin mainita, uudelleenkäyttö on sallittu Creative Commons Attribution 4.0 International (CC-BY 4.0) -lisenssillä (https://creativecommons.org/licenses/by/4.0/). Uudelleenkäyttö on sallittua edellyttäen, että lähde mainitaan asianmukaisesti ja mahdolliset muutokset merkitään. Sellaisten osien käyttö tai jäljentäminen, jotka eivät ole tekijän tai tekijöiden omaisuutta, saattaa edellyttää lupaa suoraan asianomaisilta oikeudenhaltijoilta.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:oulu-202509226002
https://urn.fi/URN:NBN:fi:oulu-202509226002
Tiivistelmä
This thesis investigates the potential of Small Language Models (SLMs) for local inference in interactive narrative applications, particularly narrative-driven games. Large Language Models (LLMs) have demonstrated impressive generative and reasoning abilities, but their reliance on cloud-based inference introduces latency, cost, and privacy issues that hinder their use in real-time gameplay. Recent advances in SLMs—such as LLaMA, Phi, TinyLlama, Qwen, Gemma, Mistral, and Falcon—indicate that models below 10 billion parameters can achieve competitive performance when supported by efficient training and high-quality datasets. In parallel, optimization techniques including quantization (GPTQ, ZeroQuant), memory management (vLLM, FlexAttention), and speculative decoding have made it feasible to deploy these models on consumer hardware with acceptable latency.
Through a literature review, this thesis synthesizes recent research on SLMs and evaluates their applicability to narrative-driven media. The findings suggest that SLMs offer a promising trade-off: while they cannot fully match the reasoning and coherence of larger models, they deliver faster responses, offline capability, and greater accessibility. In the context of games, these advantages translate into more immersive non-playable character interactions, where responsiveness often outweighs occasional lapses in narrative depth. The review also highlights remaining challenges, including maintaining long-context coherence and sustaining character consistency.
The thesis concludes that Small Language Models, when combined with modern inference optimizations, represent a viable path toward integrating conversational AI into interactive media. Future work should focus on empirical evaluation of SLMs in gameplay scenarios, long-context optimization, and multimodal extensions to support richer narrative experiences. Tässä kandidaatintutkielmassa tarkastellaan pienten kielimallien (Small Language Models, SLM) soveltuvuutta lokaaliin inferenssiin erityisesti tarinallisten pelisovellusten yhteydessä. Suuret kielimallit (Large Language Models, LLM) ovat osoittaneet merkittäviä kyvykkyyksiä tekstin tuottamisessa ja päättelyssä, mutta niiden käyttö pilvipalveluiden kautta aiheuttaa viivettä, kustannuksia ja tietosuojaongelmia, jotka rajoittavat soveltamista reaaliaikaisissa peleissä. Viime vuosien tutkimus ja kehitys – esimerkiksi LLaMA, Phi, TinyLlama, Qwen, Gemma, Mistral ja Falcon – on osoittanut, että alle 10 miljardin parametrin mallit voivat laadukkailla aineistoilla ja tehokkailla optimoinneilla saavuttaa kilpailukykyisen suorituskyvyn. Lisäksi kvantisointi (GPTQ, ZeroQuant), muistinhallintaratkaisut (vLLM, FlexAttention) ja dekoodausmenetelmät, kuten spekulatiivinen dekoodaus, mahdollistavat mallien ajamisen kuluttajatason laitteilla hyväksyttävällä viiveellä.
Kirjallisuuskatsauksen perusteella voidaan todeta, että SLM:t tarjoavat lupaavan kompromissin: vaikka ne eivät täysin yllä suurten mallien päättelykykyyn tai pitkän kontekstin hallintaan, ne tarjoavat nopeammat vasteajat, offline-toiminnallisuuden ja paremman saavutettavuuden. Pelisovelluksissa nämä ominaisuudet merkitsevät immersiivisempiä vuorovaikutuksia ei-pelattavien hahmojen (NPC) kanssa, joissa pelaajan kokema välittömyys on usein tärkeämpää kuin täydellinen kerronnallinen johdonmukaisuus. Haasteina säilyvät kuitenkin pitkän aikavälin koherenssi ja hahmokonsistenssi, jotka vaativat jatkotutkimusta.
Tutkielman johtopäätöksenä voidaan todeta, että pienet kielimallit yhdessä nykyaikaisten optimointitekniikoiden kanssa muodostavat realistisen vaihtoehdon keskustelevaa tekoälyä hyödyntävien pelien kehittämiseen ilman pilvipalveluriippuvuutta. Tulevassa tutkimuksessa tulisi keskittyä empiirisiin kokeisiin pelitilanteissa, pitkän kontekstin hallinnan kehittämiseen sekä multimodaalisiin laajennuksiin, jotka mahdollistavat entistä rikkaamman tarinankerronnan ja pelihahmokeskustelut.
Through a literature review, this thesis synthesizes recent research on SLMs and evaluates their applicability to narrative-driven media. The findings suggest that SLMs offer a promising trade-off: while they cannot fully match the reasoning and coherence of larger models, they deliver faster responses, offline capability, and greater accessibility. In the context of games, these advantages translate into more immersive non-playable character interactions, where responsiveness often outweighs occasional lapses in narrative depth. The review also highlights remaining challenges, including maintaining long-context coherence and sustaining character consistency.
The thesis concludes that Small Language Models, when combined with modern inference optimizations, represent a viable path toward integrating conversational AI into interactive media. Future work should focus on empirical evaluation of SLMs in gameplay scenarios, long-context optimization, and multimodal extensions to support richer narrative experiences.
Kirjallisuuskatsauksen perusteella voidaan todeta, että SLM:t tarjoavat lupaavan kompromissin: vaikka ne eivät täysin yllä suurten mallien päättelykykyyn tai pitkän kontekstin hallintaan, ne tarjoavat nopeammat vasteajat, offline-toiminnallisuuden ja paremman saavutettavuuden. Pelisovelluksissa nämä ominaisuudet merkitsevät immersiivisempiä vuorovaikutuksia ei-pelattavien hahmojen (NPC) kanssa, joissa pelaajan kokema välittömyys on usein tärkeämpää kuin täydellinen kerronnallinen johdonmukaisuus. Haasteina säilyvät kuitenkin pitkän aikavälin koherenssi ja hahmokonsistenssi, jotka vaativat jatkotutkimusta.
Tutkielman johtopäätöksenä voidaan todeta, että pienet kielimallit yhdessä nykyaikaisten optimointitekniikoiden kanssa muodostavat realistisen vaihtoehdon keskustelevaa tekoälyä hyödyntävien pelien kehittämiseen ilman pilvipalveluriippuvuutta. Tulevassa tutkimuksessa tulisi keskittyä empiirisiin kokeisiin pelitilanteissa, pitkän kontekstin hallinnan kehittämiseen sekä multimodaalisiin laajennuksiin, jotka mahdollistavat entistä rikkaamman tarinankerronnan ja pelihahmokeskustelut.
Kokoelmat
- Avoin saatavuus [42971]

