Unsupervised multimodal biosignal analysis of student cognitive and physiological responses during VR-based training sessions
Muthukuda Walawwe, Tharindu Upul Ekanayake (2025-05-16)
Muthukuda Walawwe, Tharindu Upul Ekanayake
T. U. E. Muthukuda Walawwe
16.05.2025
© 2025 Tharindu Upul Ekanayake Muthukuda Walawwe. Ellei toisin mainita, uudelleenkäyttö on sallittu Creative Commons Attribution 4.0 International (CC-BY 4.0) -lisenssillä (https://creativecommons.org/licenses/by/4.0/). Uudelleenkäyttö on sallittua edellyttäen, että lähde mainitaan asianmukaisesti ja mahdolliset muutokset merkitään. Sellaisten osien käyttö tai jäljentäminen, jotka eivät ole tekijän tai tekijöiden omaisuutta, saattaa edellyttää lupaa suoraan asianomaisilta oikeudenhaltijoilta.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:oulu-202505163555
https://urn.fi/URN:NBN:fi:oulu-202505163555
Tiivistelmä
The use of Virtual Reality (VR) to enhance educational settings leads to improved student engagement but creates substantial cognitive and emotional challenges for learners. Effectively optimizing VR learning experiences requires monitoring student physiological responses as well as their emotional states including their engagement levels, stress responses and cognitive workloads. Although wearable sensors offer precise biosignal readings they tend to be intrusive which may affect natural behavior of the student. This research investigates video-based techniques to extract physiological and motion information from students in an unobtrusive manner while performing their VR training experiences as an alternative and complementary sensing approach. This contactless approach extracts cardiovascular data using remote photoplethysmography (rPPG) by segmenting skin from face and neck regions, while motion signals are obtained through pose estimation techniques that track body keypoints. The reliability and effectiveness of video-derived biosignals were also evaluated by comparing them with the corresponding data obtained from wearable sensors. Beyond validating signal extraction techniques, this thesis investigates the potential of these contactless biosignals to understand student behavior through unsupervised pattern discovery. The extracted motion and physiological signals were segmented into time windows and transformed into vectors of handcrafted features to represent user behavior over time. These features were used in an unsupervised learning pipeline, including dimensionality reduction and clustering, to discover patterns without relying on predefined labels. Experiments were conducted across different subjects, individual users, and environmental conditions to assess the consistency of the extracted features. Clustering results revealed that body motion signals derived from pose estimation provided clearer structure than physiological signals alone, suggesting their potential to capture distinct behavioral states. The findings indicate that video-based sensing, combined with unsupervised analysis, can support exploratory understanding of user behavior in VR training environments and may serve as a foundation for future systems to infer engagement, stress, or cognitive load in real time. Virtuaalitodellisuuden (VR) käyttö opetusympäristöjen tehostamiseen johtaa opiskelijoiden sitoutumisen paranemiseen, mutta luo myös merkittäviä kognitiivisia ja emotionaalisia haasteita oppijoille. VR-oppimiskokemusten tehokas optimointi edellyttää opiskelijoiden fysiologisten vasteiden sekä heidän emotionaalisten tilojensa, kuten sitoutumistason, stressireaktioiden ja kognitiivisen kuormituksen, seurantaa. Vaikka puettavat anturit tarjoavat tarkkoja biosignaalien mittauksia, ne ovat usein häiritseviä ja voivat vaikuttaa opiskelijan luonnolliseen käyttäytymiseen. Tässä tutkimuksessa tarkastellaan videopohjaisia tekniikoita fysiologisen tiedon ja liiketiedon erottamiseksi opiskelijoista häiritsemättömästi heidän VR-harjoittelunsa aikana, vaihtoehtoisena ja täydentävänä mittausmenetelmänä. Tämä kontaktiton menetelmä erottaa sydän- ja verisuonidataa etäfotopletysmografian (rPPG) avulla segmentoimalla kasvojen ja kaulan ihoalueita, kun taas liikesignaalit hankitaan kehon avainpisteitä seuraavilla asennon estimointitekniikoilla. Videoperäisten biosignaalien luotettavuutta ja tehokkuutta arvioitiin myös vertaamalla niitä puettavista antureista saatuun vastaavaan dataan. Signaalien erottamistekniikoiden validoinnin lisäksi tässä opinnäytetyössä tutkitaan näiden kontaktittomien biosignaalien mahdollisuuksia ymmärtää opiskelijoiden käyttäytymistä ohjaamattoman oppimisen avulla tapahtuvan hahmontunnistuksen kautta. Erotetut liike- ja fysiologiset signaalit segmentoitiin aikaikkunoihin ja muunnettiin käsin määriteltyjen piirteiden vektoreiksi kuvaamaan käyttäjän käyttäytymistä ajan kuluessa. Näitä piirteitä käytettiin ohjaamattoman oppimisen prosessiketjussa, joka sisälsi dimensionaalisuuden vähentämisen ja klusteroinnin, hahmojen löytämiseksi turvautumatta ennalta määriteltyihin luokkiin. Kokeita suoritettiin eri tutkimushenkilöillä, yksittäisillä käyttäjillä ja erilaisissa ympäristöissä erotettujen piirteiden yhdenmukaisuuden arvioimiseksi. Klusterointitulokset paljastivat, että asennon estimoinnista peräisin olevat kehon liikesignaalit muodostivat selkeämmän rakenteen kuin pelkät fysiologiset signaalit, mikä viittaa niiden potentiaaliin tunnistaa erillisiä käyttäytymistiloja. Tulokset osoittavat, että videopohjainen mittaus yhdistettynä ohjaamattomaan analyysiin voi tukea käyttäjän käyttäytymisen eksploratiivista ymmärtämistä VR-harjoitusympäristöissä ja voi luoda perustan tuleville järjestelmille päättelemään sitoutumista, stressiä tai kognitiivista kuormitusta reaaliajassa.
Kokoelmat
- Avoin saatavuus [38320]