Hyppää sisältöön
    • FI
    • ENG
  • FI
  • /
  • EN
OuluREPO – Oulun yliopiston julkaisuarkisto / University of Oulu repository
Näytä viite 
  •   OuluREPO etusivu
  • Oulun yliopisto
  • Avoin saatavuus
  • Näytä viite
  •   OuluREPO etusivu
  • Oulun yliopisto
  • Avoin saatavuus
  • Näytä viite
JavaScript is disabled for your browser. Some features of this site may not work without it.

Deep learning-based automatic captioning for medical imaging

Beddiar, Djamila Romaissa (2024-08-30)

 
Avaa tiedosto
nbnfioulu-202406194748.pdf (5.686Mt)
Lataukset: 

URL:
https://urn.fi/URN:NBN:fi:oulu-202406194748

Beddiar, Djamila Romaissa
Oulun yliopisto
30.08.2024
https://rightsstatements.org/vocab/InC/1.0/
© University of Oulu, 2024. This publication is copyrighted. You may download, display and print it for your own personal use. Commercial use is prohibited. © Oulun yliopisto, 2024. Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
https://rightsstatements.org/vocab/InC/1.0/
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:oulu-202406194748

Kuvaus

Academic dissertation to be presented with the assent of the Doctoral Programme Committee of Information Technology and Electrical Engineering of the University of Oulu for public defence in the Arina auditorium (TA105), Linnanmaa, on 6 September 2024, at 12 noon
Tiivistelmä
Abstract

Textual description of image content is an emerging field of AI requiring skills from computer vision and natural language processing (NLP). In this context, image captioning (IC) is the task of automatically understanding, and describing the visual content of images using NLP tools. Across several disciplines, IC has diverse applications including image retrieval, visual-question- answering tasks, medical diagnosis, …etc.

Likewise, medical image captioning (MIC) is the process of describing the obscured content of medical images using NLP by highlighting the most clinically important findings. MIC enables computer-aided diagnosis systems, decision-making, and disease treatments, by releasing workflows and assisting professionals in their daily routines. In addition, MIC bridges perceived complex medical information and natural language expressions. However, it is a tedious and time-consuming task requiring the involvement of medical experts to validate the produced medical captions.

In general, medical images are useful in exploring the inside of the human body without surgery and in exposing potential diseases for medical experts to assess. This property of the medical field is what makes the process of automatic MIC harder than natural IC. In particular, medical images are heterogeneous, complex, and highly specific, and particular medical terminology should be used to describe them. In this challenging field, efforts have been made towards automatic MIC, trying to train machines to fully exploit meaningful information encoded by such images while considering specific aspects of the medical field.

This thesis aims to develop deep-learning explainable methods to build models for the analysis, and description of medical images from visual observations. Specifically, this thesis first focuses on deep-learning-based captioning models where different attention-based encoder–decoder-architectures with various inputs along with retrieval-based methods are adapted. Secondly, the availability of medical data, which is a bottleneck in the implementation of any medical related system, is considered to improve the performance of the captioning process. Thirdly, it provides an explainable module that can provide evidence to support the obtained findings, helping to enrich diagnosis reports. Moreover, it highlights the evaluation and performance estimation issues and contributes to finding appropriate frameworks for explainability purposes, while considering existing bias at different phases of captioning.
 
Tiivistelmä

Kuvan sisällön tekstuaalinen kuvaus on nouseva tekoälyn ala, joka yhdistää tietokonetieteen ja luonnollisen kielen käsittelyn (NLP). Kuvatekstitys (IC) tarkoittaa tehtävää, jossa kuvien visuaalista sisältöä analysoidaan ja kuvataan automaattisesti luonnollisen kielen avulla. Kuvatekstityksellä on monenlaisia sovelluksia, kuten kuvahaku, visuaalinen kysymyksiin vastaaminen, lääketieteellinen diagnoosi … jne.

Lääketieteellinen kuvatekstitys (MIC) puolestaan kuvaa lääketieteellisten kuvien sisältöä keskittyen kliinisesti merkittäviin löydöksiin, toisin kuin tyypillisissä IC-järjestelmissä, joissa painotetaan esineitä ja niiden välisiä suhteita. MIC tukee tietokoneavusteisia diagnoosijärjestelmiä, päätöksentekoprosesseja ja sairauksien hoitoa, mikä vapauttaa työvoimaa ja auttaa ammattilaisia päivittäisessä työssään. MIC yhdistää monimutkaisen lääketieteellisen tiedon luonnollisen kielen ilmaisuun. MIC on kuitenkin vaativa ja aikaa vievä tehtävä, joka vaatii lääketieteellisten asiantuntijoiden osallistumista tuotettujen kuvatekstien arviointiin ja vahvistamiseen.

Lääketieteelliset kuvat tarjoavat mahdollisuuden tutkia ihmiskehoa ilman leikkausta ja paljastavat mahdollisia sairauksia, joita asiantuntijat voivat arvioida. Tämä tekee MIC-prosessista vaikeampaa kuin tavallinen IC, sillä lääketieteelliset kuvat ovat heterogeenisiä, monimutkaisia ja hyvin spesifejä, ja niitä tulee kuvata käyttäen erityistä lääketieteellistä terminologiaa. Tässä haastavassa kentässä on tehty edistysaskeleita kohti automaattista MIC:ä kouluttamalla koneita hyödyntämään kuvien koodaamaa merkityksellistä tietoa lääketieteen erityisnäkökohdat huomioiden.

Tämä väitöskirja pyrkii kehittämään selitettäviä syväoppimismenetelmiä lääketieteellisten kuvien analysointiin, ymmärtämiseen ja kuvaamiseen visuaalisten havaintojen pohjalta. Väitöskirja keskittyy erityisesti syväoppimiseen perustuviin kuvatekstitysmalleihin, joissa hyödynnetään erilaisia huomioihin perustuvia kooderi-dekooderi-arkkitehtuureja ja hakuperusteisia menetelmiä. Toiseksi tarkastellaan lääketieteellisen datan saatavuuden parantamista kuvatekstitysprosessin suorituskyvyn tehostamiseksi. Kolmanneksi kehitetään selitettävä moduuli, joka antaa näyttöön perustuvaa tukea ja auttaa rikastuttamaan diagnoosiraportteja. Lopuksi arvioidaan ja optimoidaan suorituskykyä sekä pyritään löytämään sopiva selitettävyysviitekehys ottaen huomioon kuvatekstityksen eri vaiheiden vinoumat.
 

Original papers

  1. Beddiar, D.-R., Oussalah, M., & Seppänen, T. (2023). Automatic captioning for medical imaging (MIC): A rapid review of literature. Artificial Intelligence Review, 56(5), 4019–4076. https://doi.org/10.1007/s10462-022-10270-w https://doi.org/10.1007/s10462-022-10270-w

    Self-archived version

  2. Beddiar, R., & Oussalah, M. (2023). Explainability in medical image captioning. Advance online publication. https://doi.org/10.1016/B978-0-32-396098-4.00018-1 https://doi.org/10.1016/B978-0-32-396098-4.00018-1

  3. Beddiar, D. R., Oussalah, M., Muhammad, U., & Seppänen, T. (2023). A Deep learning based data augmentation method to improve COVID-19 detection from medical imaging. Knowledge-Based Systems, 280, 110985. https://doi.org/10.1016/j.knosys.2023.110985 https://doi.org/10.1016/j.knosys.2023.110985

    Self-archived version

  4. Beddiar, D. R., Oussalah, M., & Seppänen, T. (2023). Retrieved generative captioning for medical images. 20th International Conference on Content-Based Multimedia Indexing, 48–54. https://doi.org/10.1145/3617233.3617246 https://doi.org/10.1145/3617233.3617246

    Self-archived version

  5. Beddiar D. R., Oussalah M., & Seppänen T. (2023). What bias for medical image captioning? Manuscript in preparation.

  6. Beddiar, D. R., Oussalah, M., Seppänen, T., & Jennane, R. (2022). ACapMed: Automatic captioning for medical imaging. Applied Sciences, 12(21), 11092. https://doi.org/10.3390/app122111092 https://doi.org/10.3390/app122111092

    Self-archived version

  7. Beddiar, D., Oussalah, M., & Seppänen, T. (2022). Explainability for medical image captioning. 2022 Eleventh International Conference on Image Processing Theory, Tools and Applications (IPTA), 1–6. https://doi.org/10.1109/IPTA54936.2022.9784146 https://doi.org/10.1109/IPTA54936.2022.9784146

    Self-archived version

  8. Beddiar, D.-R., Oussalah, M., & Seppänen, T. (2021). Attention-based CNN-GRU model for automatic medical images captioning: ImageCLEF 2021. Proceedings of the Working Notes of CLEF 2021—Conference and Labs of the Evaluation Forum, 1160–1173. https://ceur-ws.org/Vol-2936/#paper-94 https://ceur-ws.org/Vol-2936/#paper-94

    Self-archived version

  9. Beddiar, D. R., Jahan, M. S., & Oussalah, M. (2021). Data expansion using back translation and paraphrasing for hate speech detection. Online Social Networks and Media, 24, 100153. https://doi.org/10.1016/j.osnem.2021.100153 https://doi.org/10.1016/j.osnem.2021.100153

    Self-archived version

 

Osajulkaisut

  1. Beddiar, D.-R., Oussalah, M., & Seppänen, T. (2023). Automatic captioning for medical imaging (MIC): A rapid review of literature. Artificial Intelligence Review, 56(5), 4019–4076. https://doi.org/10.1007/s10462-022-10270-w https://doi.org/10.1007/s10462-022-10270-w

    Rinnakkaistallennettu versio

  2. Beddiar, R., & Oussalah, M. (2023). Explainability in medical image captioning. Advance online publication. https://doi.org/10.1016/B978-0-32-396098-4.00018-1 https://doi.org/10.1016/B978-0-32-396098-4.00018-1

  3. Beddiar, D. R., Oussalah, M., Muhammad, U., & Seppänen, T. (2023). A Deep learning based data augmentation method to improve COVID-19 detection from medical imaging. Knowledge-Based Systems, 280, 110985. https://doi.org/10.1016/j.knosys.2023.110985 https://doi.org/10.1016/j.knosys.2023.110985

    Rinnakkaistallennettu versio

  4. Beddiar, D. R., Oussalah, M., & Seppänen, T. (2023). Retrieved generative captioning for medical images. 20th International Conference on Content-Based Multimedia Indexing, 48–54. https://doi.org/10.1145/3617233.3617246 https://doi.org/10.1145/3617233.3617246

    Rinnakkaistallennettu versio

  5. Beddiar D. R., Oussalah M., & Seppänen T. (2023). What bias for medical image captioning? Manuscript in preparation.

  6. Beddiar, D. R., Oussalah, M., Seppänen, T., & Jennane, R. (2022). ACapMed: Automatic captioning for medical imaging. Applied Sciences, 12(21), 11092. https://doi.org/10.3390/app122111092 https://doi.org/10.3390/app122111092

    Rinnakkaistallennettu versio

  7. Beddiar, D., Oussalah, M., & Seppänen, T. (2022). Explainability for medical image captioning. 2022 Eleventh International Conference on Image Processing Theory, Tools and Applications (IPTA), 1–6. https://doi.org/10.1109/IPTA54936.2022.9784146 https://doi.org/10.1109/IPTA54936.2022.9784146

    Rinnakkaistallennettu versio

  8. Beddiar, D.-R., Oussalah, M., & Seppänen, T. (2021). Attention-based CNN-GRU model for automatic medical images captioning: ImageCLEF 2021. Proceedings of the Working Notes of CLEF 2021—Conference and Labs of the Evaluation Forum, 1160–1173. https://ceur-ws.org/Vol-2936/#paper-94 https://ceur-ws.org/Vol-2936/#paper-94

    Rinnakkaistallennettu versio

  9. Beddiar, D. R., Jahan, M. S., & Oussalah, M. (2021). Data expansion using back translation and paraphrasing for hate speech detection. Online Social Networks and Media, 24, 100153. https://doi.org/10.1016/j.osnem.2021.100153 https://doi.org/10.1016/j.osnem.2021.100153

    Rinnakkaistallennettu versio

 
Kokoelmat
  • Avoin saatavuus [38865]
oulurepo@oulu.fiOulun yliopiston kirjastoOuluCRISLaturiMuuntaja
SaavutettavuusselosteTietosuojailmoitusYlläpidon kirjautuminen
 

Selaa kokoelmaa

NimekkeetTekijätJulkaisuajatAsiasanatUusimmatSivukartta

Omat tiedot

Kirjaudu sisäänRekisteröidy
oulurepo@oulu.fiOulun yliopiston kirjastoOuluCRISLaturiMuuntaja
SaavutettavuusselosteTietosuojailmoitusYlläpidon kirjautuminen