01/27/2026 | Press release | Distributed by Public on 01/27/2026 00:15
Väitöskirjatutkija FM Liina Revon digitaalisen humanismin tutkimus tarjoaa konkreettisia uusia työkaluja vanhojen tekstien ymmärtämiseen. Koneoppimisen avulla voidaan erottaa toisistaan esimerkiksi kirjeet, oikeustapaukset ja esseet historiallisissa aineistoissa käytännön tutkimustyöhön soveltuvalla tavalla.
Tutkimuksessa selvisi, että koneoppimismallit oppivat tunnistamaan erilaisia tekstilajeja niiden kielellisten piirteiden perusteella. Tekoäly siis löytää järjestyksen historiallisesta kielestä.
Esimerkiksi kirjeiden henkilökohtainen ja puhutteleva sävy erottuu mallille selvästi, kun taas oikeustapaukset tunnistetaan muodollisesta rakenteestaan ja vakiintuneista ilmaisuista.
Erityisen kiinnostavaa Revon mukaan on se, että tekstilajin tunnistamiseen riittää usein vain tekstin alku. Jo ensimmäiset kappaleet voivat paljastaa, onko kyse yksityisestä kirjeestä, virallisesta asiakirjasta vai esseemäisestä tekstistä.
- On yllättävää, kuinka paljon tietoa tekstilajista on luettavissa heti tekstin alusta jopa silloin, kun aineisto on vanhaa ja täynnä digitointivirheitä.
Kaikki tekstit eivät kuitenkaan ole yhtä helppoja. Selkeät tekstilajit tekoäly tunnistaa parhaiten, kun taas eri tekstilajien piirteitä yhdistelevät tekstit tuottavat enemmän virheitä. Näiden tapausten tarkastelu auttaa hahmottamaan mallien toiminnan rajoja ja sitä, millaiset piirteet jäävät koneelle vaikeiksi.
Tutkimuksessa tarkastellaan myös sitä, miksi koneoppimismallit tekevät tiettyjä virheitä. Selitysmenetelmien avulla on mahdollista nähdä, mihin sanoihin ja rakenteisiin mallit todella kiinnittävät huomiota.
- Mallien ymmärtämien on tärkeää, jotta niitä voidaan käyttää luotettavasti myös humanistisessa tutkimuksessa.
Tutkimus tarjoaa konkreettisia uusia työkaluja suurten historiallisten tekstiaineistojen käsittelyyn.
Koneoppimisen avulla tekstikokoelmia voidaan rikastaa automaattisesti tekstilajitiedolla, mikä helpottaa tutkijoiden työtä ja avaa uusia näkökulmia kielen ja tekstien historiaan.
- Tuloksia voidaan hyödyntää esimerkiksi historiallisessa kielentutkimuksessa ja oikeushistorian parissa, joissa tekstilajien tunnistaminen auttaa hahmottamaan, millaisia asiakirjoja eri aikoina on tuotettu ja mihin tarkoitukseen, Repo sanoo.
Tutkimus sijoittuu digitaalisen humanismin kenttään, jossa teknologiaa hyödynnetään ihmistieteellisissä kysymyksissä. Väitöskirja tuo uutta tietoa erityisesti siitä, miten koneoppimisen menetelmät toimivat historiallisissa aineistoissa ja mitä ne pystyvät kertomaan menneisyyden kielestä ja sen vaihtelusta eri tekstiyhteyksissä.
FM Liina Repo esittää väitöskirjansa "Machine Learning in Modeling Historical Registers - A New Perspective to Text Linguistics" julkisesti tarkastettavaksi Turun yliopistossa perjantaina 30.1.2026 klo 12.00 (Turun yliopisto, Publicum, Pub2-luentosali, Assistentinkatu 7, Turku). Vastaväittäjänä toimii apulaisprofessori Daniel Keller (Western Kentucky University, Yhdysvallat) ja kustoksena professori Veronika Laippala (Turun yliopisto). Tilaisuus on englanninkielinen. Väitöksen alana on digitaalinen kielentutkimus.