Disease state prediction for ALS and FTLD from single-nucleus RNA sequencing data with graph convolutional networks and GraphSAGE
Kupsala, Samuli (2025-06-23)
Kupsala, Samuli
S. Kupsala
23.06.2025
© 2025, Samuli Kupsala. Tämä Kohde on tekijänoikeuden ja/tai lähioikeuksien suojaama. Voit käyttää Kohdetta käyttöösi sovellettavan tekijänoikeutta ja lähioikeuksia koskevan lainsäädännön sallimilla tavoilla. Muunlaista käyttöä varten tarvitset oikeudenhaltijoiden luvan.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:oulu-202506234908
https://urn.fi/URN:NBN:fi:oulu-202506234908
Tiivistelmä
RNA sequencing at the single-cell or nucleus level enables the examination of biological phenomena at the cellular level, offering a unique perspective on the study of biological processes and cellular heterogeneity. Single-cell RNA-sequencing data brings its own challenges to data analysis, being typically sparse, high-dimensional, and sensitive to batch effects.
Amyotrophic lateral sclerosis (ALS) is a severe, rare, and progressive neurodegenerative motor neuron disease. Frontotemporal lobar degeneration (FTLD) is a neurodegenerative disease that damages the frontal and temporal lobes of the brain, often leading to dementia. The mechanisms underlying both ALS and FTLD are not fully understood, and there are currently no available curative or disease-modifying treatments. This thesis aims to develop a multiclass classifier that predicts the disease status of a cell’s donor (ALS, FTLD, or control) based on the gene expression profile of a single cell. Additionally, the thesis investigates the predictive capability of the trained models in different cell subpopulations. The dataset used consists of single-nucleus RNA sequencing data from post-mortem primary motor cortex samples of ALS, FTLD, and control group donors.
Graphs are flexible and natural structures for representing a wide variety of phenomena, from social networks to gene regulatory networks. Graph neural networks are deep learning models designed for graph-structured data. There are studies in which graph neural networks have been successfully utilized in the processing of single-cell RNA sequencing data, such as in cell classification. This thesis explores graph neural networks, framing the cell classification task as a node classification problem in a graph, and employs two well-established models for the task: the graph convolutional network (GCN) and GraphSAGE. Graph convolutional networks are primarily designed for transductive problems, meaning cases where the graph structure, including test nodes, is available during the training. GraphSAGE, on the other hand, extends the concept of graph convolutional networks to inductive problems, where the model must generalize to new nodes or graphs without requiring access to the full graph during training.
In this thesis, graph neural networks did not prove to be clearly superior classifiers compared to the baseline models, meaning the graph structure did not offer significant added value. Models from all model families performed approximately equally well. Classification was not particularly effective across all cell populations, but within excitatory neurons, the results were relatively good for all models, and graph neural networks performed the best within this cell subpopulation. RNA-sekvensointi yksittäisen solun tai tuman tasolla mahdollistaa biologisten ilmiöiden tarkastelua solutasolla tarjoten ainutlaatuisen näkökulman solutasoiseen biologisten prosessien ja solujen heterogeenisuuden tutkimukseen. Solutason RNA-sekvensointidata asettaa omat haasteensa datan analysoinnille, sillä aineisto on tyypillisesti harvaa, hyvin moniulotteista sekä altis erävaikutuksille.
Amyotrofinen lateraaliskleroosi (ALS) on vakava, harvinainen ja etenevä neurodegeneratiivinen liikehermojen sairaus. Frontotemporaalinen lobaarinen degeneraatio (FTLD) on neurodegeneratiivinen sairaus, joka vaurioittaa aivojen otsa- ja ohimolohkoja ja johtaa usein dementiaan. Sekä ALS:n että FTLD:n syntymekanismeja ei täysin tunneta, eikä parantavaa tai pysäyttävää hoitoa ole toistaiseksi saatavilla. Tämän tutkielman tavoitteena on kehittää moniluokkainen luokittelija, joka ennustaa yksittäisen solun geeniekspressioprofiilin perusteella kyseisen solun luovuttajan sairausluokituksen (ALS, FTLD tai kontrolli). Lisäksi tutkielmassa tarkastellaan koulutettujen mallien ennustekykyä erilaisissa solujen alapopulaatioissa. Aineistona toimii yksittäistumien RNA-sekvenssidata primaari motoriselta aivokuorelta ALS-, FTLD- ja kontrolliryhmän luovuttajilta.
Graafit ovat joustavia ja luonnollisia struktuureja kuvaamaan monenlaisia ilmiöitä aina sosiaalisista verkostoista geenien sääntelyverkkoihin. Graafineuroverkot ovat graafimuotoiselle datalle suunniteltuja syväoppivia koneoppimismalleja. Eräissä tutkimuksissa graafineuroverkkoja on onnistuneesti hyödynnetty solutason RNA-sekvenssidatan käsittelyssä kuten solujen luokittelussa. Tässä tutkielmassa perehdytään graafineuroverkkoihin, ja solujen luokittelutehtävää lähestytäänkin solmujen luokittelutehtävänä graafissa. Mallinnusta varten esitellään kaksi tunnettua graafineuroverkkomallia: graafikonvoluutioneuroverkko (GCN) ja GraphSAGE. Graafikonvoluutioneuroverkot ovat lähtökohtaisesti suunnattu transduktiivisiin ongelmiin, eli ongelmiin, joissa graafirakenne on käytettävissä koulutusvaiheessa myös testiaineiston osalta. GraphSAGE puolestaan laajentaa graafikonvoluutioverkkojen käsitettä induktiivisiin ongelmiin, jolloin malli pyrkii yleistymään uusiin solmuihin tai graafeihin ilman, että koko graafi on käytettävissä koulutusvaiheessa.
Tässä tutkielmassa graafineuroverkot eivät osoittautuneet selkeästi vertailumalleja paremmiksi luokittelijoiksi, eli graafirakenne ei tarjonnut merkittävää lisäarvoa. Kaikkien malliperheiden mallit suoriutuivat kutakuinkin samanarvoisesti. Kaikkien solujen populaatiossa luokittelu ei ollut erityisen tehokasta, mutta eksitatoristen neuronien sisällä tulokset ovat suhteellisen hyviä kaikilla malleilla, ja tässä solujen alapopulaatiossa graafineuroverkot suoriutuivat parhaiten.
Amyotrophic lateral sclerosis (ALS) is a severe, rare, and progressive neurodegenerative motor neuron disease. Frontotemporal lobar degeneration (FTLD) is a neurodegenerative disease that damages the frontal and temporal lobes of the brain, often leading to dementia. The mechanisms underlying both ALS and FTLD are not fully understood, and there are currently no available curative or disease-modifying treatments. This thesis aims to develop a multiclass classifier that predicts the disease status of a cell’s donor (ALS, FTLD, or control) based on the gene expression profile of a single cell. Additionally, the thesis investigates the predictive capability of the trained models in different cell subpopulations. The dataset used consists of single-nucleus RNA sequencing data from post-mortem primary motor cortex samples of ALS, FTLD, and control group donors.
Graphs are flexible and natural structures for representing a wide variety of phenomena, from social networks to gene regulatory networks. Graph neural networks are deep learning models designed for graph-structured data. There are studies in which graph neural networks have been successfully utilized in the processing of single-cell RNA sequencing data, such as in cell classification. This thesis explores graph neural networks, framing the cell classification task as a node classification problem in a graph, and employs two well-established models for the task: the graph convolutional network (GCN) and GraphSAGE. Graph convolutional networks are primarily designed for transductive problems, meaning cases where the graph structure, including test nodes, is available during the training. GraphSAGE, on the other hand, extends the concept of graph convolutional networks to inductive problems, where the model must generalize to new nodes or graphs without requiring access to the full graph during training.
In this thesis, graph neural networks did not prove to be clearly superior classifiers compared to the baseline models, meaning the graph structure did not offer significant added value. Models from all model families performed approximately equally well. Classification was not particularly effective across all cell populations, but within excitatory neurons, the results were relatively good for all models, and graph neural networks performed the best within this cell subpopulation.
Amyotrofinen lateraaliskleroosi (ALS) on vakava, harvinainen ja etenevä neurodegeneratiivinen liikehermojen sairaus. Frontotemporaalinen lobaarinen degeneraatio (FTLD) on neurodegeneratiivinen sairaus, joka vaurioittaa aivojen otsa- ja ohimolohkoja ja johtaa usein dementiaan. Sekä ALS:n että FTLD:n syntymekanismeja ei täysin tunneta, eikä parantavaa tai pysäyttävää hoitoa ole toistaiseksi saatavilla. Tämän tutkielman tavoitteena on kehittää moniluokkainen luokittelija, joka ennustaa yksittäisen solun geeniekspressioprofiilin perusteella kyseisen solun luovuttajan sairausluokituksen (ALS, FTLD tai kontrolli). Lisäksi tutkielmassa tarkastellaan koulutettujen mallien ennustekykyä erilaisissa solujen alapopulaatioissa. Aineistona toimii yksittäistumien RNA-sekvenssidata primaari motoriselta aivokuorelta ALS-, FTLD- ja kontrolliryhmän luovuttajilta.
Graafit ovat joustavia ja luonnollisia struktuureja kuvaamaan monenlaisia ilmiöitä aina sosiaalisista verkostoista geenien sääntelyverkkoihin. Graafineuroverkot ovat graafimuotoiselle datalle suunniteltuja syväoppivia koneoppimismalleja. Eräissä tutkimuksissa graafineuroverkkoja on onnistuneesti hyödynnetty solutason RNA-sekvenssidatan käsittelyssä kuten solujen luokittelussa. Tässä tutkielmassa perehdytään graafineuroverkkoihin, ja solujen luokittelutehtävää lähestytäänkin solmujen luokittelutehtävänä graafissa. Mallinnusta varten esitellään kaksi tunnettua graafineuroverkkomallia: graafikonvoluutioneuroverkko (GCN) ja GraphSAGE. Graafikonvoluutioneuroverkot ovat lähtökohtaisesti suunnattu transduktiivisiin ongelmiin, eli ongelmiin, joissa graafirakenne on käytettävissä koulutusvaiheessa myös testiaineiston osalta. GraphSAGE puolestaan laajentaa graafikonvoluutioverkkojen käsitettä induktiivisiin ongelmiin, jolloin malli pyrkii yleistymään uusiin solmuihin tai graafeihin ilman, että koko graafi on käytettävissä koulutusvaiheessa.
Tässä tutkielmassa graafineuroverkot eivät osoittautuneet selkeästi vertailumalleja paremmiksi luokittelijoiksi, eli graafirakenne ei tarjonnut merkittävää lisäarvoa. Kaikkien malliperheiden mallit suoriutuivat kutakuinkin samanarvoisesti. Kaikkien solujen populaatiossa luokittelu ei ollut erityisen tehokasta, mutta eksitatoristen neuronien sisällä tulokset ovat suhteellisen hyviä kaikilla malleilla, ja tässä solujen alapopulaatiossa graafineuroverkot suoriutuivat parhaiten.
Kokoelmat
- Avoin saatavuus [38865]