Utilizing intent classification and context-based large language model in virtual assistance agents
Särkiniemi, Mikael (2024-06-28)
Särkiniemi, Mikael
M. Särkiniemi
28.06.2024
© 2024 Mikael Särkiniemi. Ellei toisin mainita, uudelleenkäyttö on sallittu Creative Commons Attribution 4.0 International (CC-BY 4.0) -lisenssillä (https://creativecommons.org/licenses/by/4.0/). Uudelleenkäyttö on sallittua edellyttäen, että lähde mainitaan asianmukaisesti ja mahdolliset muutokset merkitään. Sellaisten osien käyttö tai jäljentäminen, jotka eivät ole tekijän tai tekijöiden omaisuutta, saattaa edellyttää lupaa suoraan asianomaisilta oikeudenhaltijoilta.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:oulu-202406285040
https://urn.fi/URN:NBN:fi:oulu-202406285040
Tiivistelmä
The recent breakthroughs of deep learning has accelerated the progression of artificial intelligence (AI) by introducing a remarkably effective approach to complex problems like image- and language generation. Especially the latter has received a vast amount of attention after the popularity of large language models (LLM) skyrocketed in late 2022 after the release of OpenAI's ChatGPT. These types of models have the capabilities to generate language, which is fully coherent and indistinguishable from human-produced, creating endless possibilities for use cases across countless professions. The potential is truly astounding in applications such as translation, content creation, text classification, data analysis, question-answering, education, virtual assistance and many more. This study focuses on how virtual assistance could be enhanced by LLMs as they provide an opportunity to move from rigid, pre-determined responses to fluent, human-like interactions.
In this experimental study, the proposed framework provides an approach to virtual assistance by utilizing two neural networks, both language models. The first, considerably smaller language model is able to pre-process the input by recognizing certain elements of the input such as the intent and the named entities. The results of the pre-process alongside the original input is used to guide the larger model to provide useful responses. An additional context prompt is applied to the model to align its behavioural characteristics. The setup is conducted fully locally to test the capabilities of open models and the viability of operating LLMs locally.
To evaluate the solution three distinct elements of the framework were recognized; inquiry scoping, response generation and response moderation. To improve the evaluation, a couple of publicly available datasets and sets of fabricated prompts were utilized. The assessed models include some of the highly recognized open-source models like Mistral 7B, Llama-3 and BERT. Viimeaikaiset syväoppimisen läpimurrot ovat kiihdyttäneet merkittävästi tekoälyn (AI) kehitystä. Syväoppiminen tarjoaa hämmästyttävän tehokkaan lähestymistavan monimutkaisiin tehtäviin, kuten synteettisten kuvien sekä kielen generointiin. Varsinkin jälkimmäinen on herättänyt hyvin paljon huomiota, kun laajojen kielimallien (LLM) suosio harppasi eteenpäin vuoden 2022 lopussa OpenAI:n julkaistua ChatGPT -keskustelubotin. Tämän tyyppiset tekoälymallit kykenevät tuottamaan kieltä, joka on täysin koherenttia ja vaikeasti erotettavissa ihmisen tuottamasta kielestä luoden mahdollisuuksia monille uusille käyttötarkoituksille. Lupaavia kohteita ovat esimerkiksi kielen kääntäminen, sisällön tuottaminen, tekstin luokittelu, data-analyysi, kysymys-vastaaminen, kasvatus sekä virtuaalinen avustaminen. Tässä tutkimuksessa keskityttiin siihen, kuinka virtuaalista avustamista voitaisiin parantaa kielimallien avulla, sillä ne tarjoavat mahdollisuuden siirtyä jäykistä, ennalta määrätyistä vastauksista sujuvaan, ihmismäiseen vuorovaikutukseen.
Tässä kokeellisessa tutkimuksessa ehdotettu viitekehys esittelee lähestymistavan virtuaaliselle avustamiselle hyödyntämällä kahta neuroverkkoa, molemmat kielimalleja. Ensimmäinen, huomattavasti pienempi neuroverkko esikäsittelee syötteen tunnistamalla tiettyjä elementtejä esimerkiksi syötteen intentin ja nimetyt kohteet. Tätä informaatiota, alkuperäisen syötteen ohessa, käytetään suuremman kielimallin ohjaamiseen tuottamaan hyödyllisiä vastauksia. Tämän lisäksi kielimallille asetetaan konteksti, joka linjaa mallin käyttäytymisominaisuudet. Järjestely tehtiin täysin paikallisesti, jotta avoimien mallien kykyjä sekä niiden paikallisen käynnissäpidon kannattavuutta voitaisiin testata.
Tässä tutkimuksessa järjestelmän arvioimiseen eriteltiin kolme eroavaa elementtiä: syötteen esikäsittely, vastauksen generointi sekä moderointi. Arvioinnin avustamiseen käytettiin muutamia julkisesti saatavia tietojoukkoja sekä useampia keinotekoisten kehotteiden joukkoja. Arvioinnin kohteena ovat joukko arvostettuja avoimia kielimalleja, kuten Mistral 7B, Llama-3 sekä BERT.
In this experimental study, the proposed framework provides an approach to virtual assistance by utilizing two neural networks, both language models. The first, considerably smaller language model is able to pre-process the input by recognizing certain elements of the input such as the intent and the named entities. The results of the pre-process alongside the original input is used to guide the larger model to provide useful responses. An additional context prompt is applied to the model to align its behavioural characteristics. The setup is conducted fully locally to test the capabilities of open models and the viability of operating LLMs locally.
To evaluate the solution three distinct elements of the framework were recognized; inquiry scoping, response generation and response moderation. To improve the evaluation, a couple of publicly available datasets and sets of fabricated prompts were utilized. The assessed models include some of the highly recognized open-source models like Mistral 7B, Llama-3 and BERT.
Tässä kokeellisessa tutkimuksessa ehdotettu viitekehys esittelee lähestymistavan virtuaaliselle avustamiselle hyödyntämällä kahta neuroverkkoa, molemmat kielimalleja. Ensimmäinen, huomattavasti pienempi neuroverkko esikäsittelee syötteen tunnistamalla tiettyjä elementtejä esimerkiksi syötteen intentin ja nimetyt kohteet. Tätä informaatiota, alkuperäisen syötteen ohessa, käytetään suuremman kielimallin ohjaamiseen tuottamaan hyödyllisiä vastauksia. Tämän lisäksi kielimallille asetetaan konteksti, joka linjaa mallin käyttäytymisominaisuudet. Järjestely tehtiin täysin paikallisesti, jotta avoimien mallien kykyjä sekä niiden paikallisen käynnissäpidon kannattavuutta voitaisiin testata.
Tässä tutkimuksessa järjestelmän arvioimiseen eriteltiin kolme eroavaa elementtiä: syötteen esikäsittely, vastauksen generointi sekä moderointi. Arvioinnin avustamiseen käytettiin muutamia julkisesti saatavia tietojoukkoja sekä useampia keinotekoisten kehotteiden joukkoja. Arvioinnin kohteena ovat joukko arvostettuja avoimia kielimalleja, kuten Mistral 7B, Llama-3 sekä BERT.
Kokoelmat
- Avoin saatavuus [42076]

