Olemassa olevat menetelmät GPT- tekoälyn tuottaman plagiaatin ja tekstin tunnistamiseen
Alasirniö, Jani (2024-05-03)
Alasirniö, Jani
J. Alasirniö
03.05.2024
© 2024, Jani Alasirniö. Tämä Kohde on tekijänoikeuden ja/tai lähioikeuksien suojaama. Voit käyttää Kohdetta käyttöösi sovellettavan tekijänoikeutta ja lähioikeuksia koskevan lainsäädännön sallimilla tavoilla. Muunlaista käyttöä varten tarvitset oikeudenhaltijoiden luvan.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:oulu-202405033116
https://urn.fi/URN:NBN:fi:oulu-202405033116
Tiivistelmä
Tekoälyn tuottaman tekstin tunnistaminen on tärkeää nykypäivän akateemisessa ympäristössä. Tekoäly on tuonut hyötyjä monille aloille, mutta etenkin akateemiseen ympäristöön se on luonut uudenlaisia haasteita. Tekoälyä voidaan käyttää vilpillisesti esimerkiksi tutkimuksien kirjoittamiseen tai opiskelijoiden toimesta kotitehtävien tekemiseen.
Tekoälyn tuottaman tekstin tunnistamiseksi on olemassa erilaisia lähestymistapoja. Näitä ovat esimerkiksi Crothersin., ym (2023) mukaan neuroverkkoperusteinen lähestymistapa sekä ominaisuusperusteinen lähestymistapa.
Ominaisuusperusteisessa lähestymistavassa tutkitaan esimerkiksi lausepituuksien keskijakaumaa, luettavuutta, erilaisten tukisanojen käyttöä sekä kappalepituuksien vaihtelua (Desaire., ym 2023). Neuroverkkoperusteinen lähestymistapa pyrkii aiemman tekstin perusteella ennustamaan tulevaa tekstiä (Crothers., ym 2023). Heidän mukaansa tämänhetken parhaat kaupalliset mallit perustuvatkin neuroverkkoperusteiseen lähestymistapaan.
Useamman tutkimuksen mukaan (Desaire., ym 2023, Elkhatat., ym 2023, Walters., 2023) mukaan kaupallisten mallien suorituskyky laskee, kun verrataan niiden suorituskykyä ChatGPT:n 3.5 ja 4.0- versioiden välillä. Suorituskyvyn laskeminen voi johtua esimerkiksi siitä, että 4.0- versiossa käytettäisi erilaista dekoodaus algoritmia kuin 3.5- versiossa.
Tekoälymallien kehittyessä tulevaisuudessa onkin tärkeää kiinnittää huomiota siihen, että miten tunnistustyökalut voidaan kehittää siten, että ne niiden suorituskyky ei kärsi olennaisesti tekoälymallien päivittyessä. Näin vältetään urheilusta tuttu doping- testaajien ja dopingia käyttävien urheilijoiden ikuinen jahti.
Tekoälyn tuottaman tekstin tunnistamiseksi on olemassa erilaisia lähestymistapoja. Näitä ovat esimerkiksi Crothersin., ym (2023) mukaan neuroverkkoperusteinen lähestymistapa sekä ominaisuusperusteinen lähestymistapa.
Ominaisuusperusteisessa lähestymistavassa tutkitaan esimerkiksi lausepituuksien keskijakaumaa, luettavuutta, erilaisten tukisanojen käyttöä sekä kappalepituuksien vaihtelua (Desaire., ym 2023). Neuroverkkoperusteinen lähestymistapa pyrkii aiemman tekstin perusteella ennustamaan tulevaa tekstiä (Crothers., ym 2023). Heidän mukaansa tämänhetken parhaat kaupalliset mallit perustuvatkin neuroverkkoperusteiseen lähestymistapaan.
Useamman tutkimuksen mukaan (Desaire., ym 2023, Elkhatat., ym 2023, Walters., 2023) mukaan kaupallisten mallien suorituskyky laskee, kun verrataan niiden suorituskykyä ChatGPT:n 3.5 ja 4.0- versioiden välillä. Suorituskyvyn laskeminen voi johtua esimerkiksi siitä, että 4.0- versiossa käytettäisi erilaista dekoodaus algoritmia kuin 3.5- versiossa.
Tekoälymallien kehittyessä tulevaisuudessa onkin tärkeää kiinnittää huomiota siihen, että miten tunnistustyökalut voidaan kehittää siten, että ne niiden suorituskyky ei kärsi olennaisesti tekoälymallien päivittyessä. Näin vältetään urheilusta tuttu doping- testaajien ja dopingia käyttävien urheilijoiden ikuinen jahti.
Kokoelmat
- Avoin saatavuus [32523]