Usability of local large language models and retrieval augmented generation in health care
Puhakka, Olli (2025-05-08)
Puhakka, Olli
O. Puhakka
08.05.2025
© 2025 Olli Puhakka. Ellei toisin mainita, uudelleenkäyttö on sallittu Creative Commons Attribution 4.0 International (CC-BY 4.0) -lisenssillä (https://creativecommons.org/licenses/by/4.0/). Uudelleenkäyttö on sallittua edellyttäen, että lähde mainitaan asianmukaisesti ja mahdolliset muutokset merkitään. Sellaisten osien käyttö tai jäljentäminen, jotka eivät ole tekijän tai tekijöiden omaisuutta, saattaa edellyttää lupaa suoraan asianomaisilta oikeudenhaltijoilta.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:oulu-202505083171
https://urn.fi/URN:NBN:fi:oulu-202505083171
Tiivistelmä
This thesis investigates the feasibility of locally deployed, open-source large language models (LLMs) integrated with retrieval-augmented generation (RAG) to address healthcare challenges such as resource constraints and data privacy risks. Modern healthcare systems face significant barriers due to personnel shortages prompting the exploration of innovative digital solutions. This research work focuses on the development and evaluation of a personal health assistant prototype, which leverages RAG to combine LLMs with dynamic knowledge retrieval from clinical guidelines and synthetic patient records. The system is designed for local on-premise deployment to ensure compliance with stringent data protection regulations, such as the General Data Protection Regulation (GDPR), and to mitigate dependency on cloud-based services. The study evaluates three open-source LLMs, Deepseek-R1-Distill-Llama, Phi-4-mini-instruct, and LlamaMedicine, under a local hardware setup with constrained computational resources. Synthetic FHIR-formatted patient records and curated clinical guidelines were used to evaluate the performance capability of the system to generate accurate personalized responses. Key findings indicate that the Deepseek-R1-Distill-Llama model achieved the highest accuracy but required longer processing times, while LlamaMedicine balanced performance and efficiency effectively. The RAG framework demonstrated technical functionality but revealed limitations in domain-specific semantic retrieval, underscoring the need for specialized embedding models. Challenges in prompt engineering, chunking strategies, and model quantization trade-offs were also identified.
This work contributes a framework for integrating RAG with locally hosted LLMs, empirical insights into model performance, and a critical analysis of system design challenges in healthcare contexts. The results highlight the potential of locally deployed AI to enhance clinical decision support and patient self-management while addressing data privacy concerns. However, the study emphasizes the need for domain-specific adaptations, automated evaluation methodologies, and standardized formats to improve scalability and real-world applicability. The thesis concludes that while open-source LLMs with RAG offer promising tools for privacy-preserving healthcare applications, their deployment requires careful customization to align with clinical workflows and regulatory demands. Tutkielmassa tutkitaan paikallisesti asennettujen avoimen lähdekoodin suurien kielimallien (large language models, LLM) ja takaisinhaulla laajennetun generoinnin (retrieval-augmented generation, RAG) käyttökelpoisuutta terveydenhuollon haasteisiin. Henkilöstöpuutteet ja resurssien epätasainen jakautuminen aiheuttavat haasteita moderneille terveydenhuollon järjestelmille, mutta samaan aikaan kannustaa uusien digitaalisien ratkaisujen etsimiseen ja kehittämiseen. Tutkielma keskittyy henkilökohtaisen terveysavustajan prototyypin kehitykseen ja arviointiin. Avustajan toteutuksessa hyödynnetään RAG-järjestelmää kliinisten ohjeistojen ja potilastietojen hakuun. Järjestelmän on tarkoitus toimia paikallisesti asennettuna, millä varmistetaan yhteensopivuus tiukkojen tietoturvasääntöjen, kuten GDPR:n, kanssa ja poissuljetaan riippuvuus ulkoisista pilvipalveluista.
Tutkielma arvioi kolmea avoimen lähdekoodin LLM-mallia, Deepseek-R1-Distill-Llama, Phi-4-mini-instruct ja LlamaMedicine, paikallisessa laskentaresurssien suhteen rajallisessa ympäristössä. Synteettisiä FHIR-muodossa olevia potilastietoja ja tutkielmaa varten valittuja, kliinisiä ohjeita käytettiin kun arviointiin järjestelmän kyvykkyyttä tuottaa tarkkoja ja henkilökohtaisia vastauksia. Keskeisimmät tulokset ovat, että Deepseek-R1-Distill-Llama -malli saavutti suurimman tarkkuuden, mutta vaati pidempiä käsittelyaikoja, kun taas LlamaMedicine oli tasapainoisin malli tarkkuuden ja suorituskyvyn suhteen. RAG-rakenteen tekninen toimivuus osoitettiin, mutta havaittiin heikkouksia takaisinhaun toimivuudessa kliinisen sanaston kanssa, mikä korostaa tarvetta käyttää tietyn alan sanastoon erikoistunutta upotusmallia. On myös tunnistettu haasteita sopivien kehotteiden suunnittelussa, palastelun strategioissa ja mallin kvantisoinnin vaikutukset on otettava huomioon.
Tämä tutkielma esittelee kehyksen RAG:n integraation paikallisesti käytössä olevaan LLM-malliin, empiirisiä oivalluksia mallien suorituskyvystä ja analyysiä terveydenhuollon tilanteisiin liittyvistä järjestelmäsuunnittelun haasteista. Tulokset korostavat tekoälysovelluksien potentiaalia parantaaa kliinistä päättelyä ja potilaiden itsenäistä hoitoa samalla, kun tietoturva otetaan huomioon. Tutkielma kuitenkin korostaa tarvetta alueellisesti erikoistunneille malleille ja automatisoituille arviointimenetelmille, jotta skaalautuvuus ja käytännön soveltuvuus paranevat. Vaikka avoimen lähdekoodin LLM-mallit yhdessä RAG:n kanssa tarjoavat lupaavia työkaluja tietoturvan huomioon ottaville terveydenhuollon sovelluksille, niiden käyttöönotto edellyttää huolellista mukautusta kliinisiin työprosesseihin ja sääntelyvaatimusten noudattamista.
This work contributes a framework for integrating RAG with locally hosted LLMs, empirical insights into model performance, and a critical analysis of system design challenges in healthcare contexts. The results highlight the potential of locally deployed AI to enhance clinical decision support and patient self-management while addressing data privacy concerns. However, the study emphasizes the need for domain-specific adaptations, automated evaluation methodologies, and standardized formats to improve scalability and real-world applicability. The thesis concludes that while open-source LLMs with RAG offer promising tools for privacy-preserving healthcare applications, their deployment requires careful customization to align with clinical workflows and regulatory demands.
Tutkielma arvioi kolmea avoimen lähdekoodin LLM-mallia, Deepseek-R1-Distill-Llama, Phi-4-mini-instruct ja LlamaMedicine, paikallisessa laskentaresurssien suhteen rajallisessa ympäristössä. Synteettisiä FHIR-muodossa olevia potilastietoja ja tutkielmaa varten valittuja, kliinisiä ohjeita käytettiin kun arviointiin järjestelmän kyvykkyyttä tuottaa tarkkoja ja henkilökohtaisia vastauksia. Keskeisimmät tulokset ovat, että Deepseek-R1-Distill-Llama -malli saavutti suurimman tarkkuuden, mutta vaati pidempiä käsittelyaikoja, kun taas LlamaMedicine oli tasapainoisin malli tarkkuuden ja suorituskyvyn suhteen. RAG-rakenteen tekninen toimivuus osoitettiin, mutta havaittiin heikkouksia takaisinhaun toimivuudessa kliinisen sanaston kanssa, mikä korostaa tarvetta käyttää tietyn alan sanastoon erikoistunutta upotusmallia. On myös tunnistettu haasteita sopivien kehotteiden suunnittelussa, palastelun strategioissa ja mallin kvantisoinnin vaikutukset on otettava huomioon.
Tämä tutkielma esittelee kehyksen RAG:n integraation paikallisesti käytössä olevaan LLM-malliin, empiirisiä oivalluksia mallien suorituskyvystä ja analyysiä terveydenhuollon tilanteisiin liittyvistä järjestelmäsuunnittelun haasteista. Tulokset korostavat tekoälysovelluksien potentiaalia parantaaa kliinistä päättelyä ja potilaiden itsenäistä hoitoa samalla, kun tietoturva otetaan huomioon. Tutkielma kuitenkin korostaa tarvetta alueellisesti erikoistunneille malleille ja automatisoituille arviointimenetelmille, jotta skaalautuvuus ja käytännön soveltuvuus paranevat. Vaikka avoimen lähdekoodin LLM-mallit yhdessä RAG:n kanssa tarjoavat lupaavia työkaluja tietoturvan huomioon ottaville terveydenhuollon sovelluksille, niiden käyttöönotto edellyttää huolellista mukautusta kliinisiin työprosesseihin ja sääntelyvaatimusten noudattamista.
Kokoelmat
- Avoin saatavuus [37689]