Erakirjavahetusest masinanalüüsitavaks tekstikorpuseks ehk Johannes Semperi ja Johannes Vares-Barbaruse kirjad kui andmestik uuteks uuringuteks

27.07.2020

Juulis ilmus Eesti Kirjandusmuuseumi teaduskirjastuses mahukas kaheköiteline väljaanne „Euroopa, esteedid ja elulähedus. Semperi ja Barbaruse kirjavahetus 1911–1940“. Tähelepanuväärne on sealjuures, et seesama 675 kirjast ehk umbes 1,8 miljonist tähemärgist koosnev kirjavahetus on pilootprojektina kirjandusteadlaste ja arvutilingivistide koostöös ka masinloetava ja märgendatud tektsikorpusena kõikidele huvilistele KORPi keskkonnas digitaalselt kättesaadavaks tehtud.

Eesti Kirjandusmuuseumi Eesti Kultuuriloolise Arhiivi vanemteaduri, Semperi ja Barbaruse kirjavahetuse peatoimetaja Marin Laagi sõnul on erakirjavahetusel põhinev tekstikorpus esimene omataoline ettevõtmine ning võimaldab tulevikus välja töötada uuenduslikke meetodeid ja uurimissuundi kultuurilooliste andmete analüüsiks.

Eesti Keeleressurside Keskuse juhataja Kadri Videri sõnul on tegemist nii kirjanduslooliselt kui tekstilingvistiliselt huvipakkuva digitaalandmestikuga. „Kirjandusteadlastele avab kaasaegsete digitaalsete meetodite kasutuselevõtt huvitavaid uurimisperspektiive ja vanade uurimistulemuste ülekontrollimise võimalusi arvutuslike meetoditega. Korpuslingvistidele on aga väljakutseks ajaloolise ja isikupärase keelekasutusega, erinevatest keeltest kubiseva ja rohkete koha-, aja- ja isikuviidetega tekstimaterjali ettevalmistamine rikkalikult märgendatud korpuseks,“ selgitas Vider.

Marin Laagi sõnul tuli KORPiga ühitamiseks kirjavahetuse käsikirjalised originaalid teisendada käsitsi masinloetavaks andmestikuks. „Sellele lisasime kirjade meta-andmed, teostasime automatiseeritud vormianalüüsi ja ühestamise Vabamorfi töövahenditega Giellatekno sõnaliikide ja grammatiliste kategooriate süsteemis,“ ütles Laak.

Kadri Videri sõnul on KORP korpuspäringusüsteem, mis võimaldab leida konkordantse ehk teksisiseseid kokkusobivusi või seoseid ning teha eri parameetritel põhinevat statistilist analüüsi eri viisil märgendatud korpustest. „Selleks kasutatakse teksti meta-andmeid (näiteks autor, kuupäev ja aasta, tekstitüüp) ning keelelist märgendust (näiteks lausestamine ja sõnestamine, punktuatsioon, morfoloogia, süntaks ja semantika)“, selgitas Vider.

Semperi ja Vares-Barbaruse kirjavahetus koosneb 310 980 sõnest ja 249 970 lemmast. „Sõne on tekstisõna ja lemma on sõnatüvi, nende eristamine korpuses võimaldab hinnata nii korpuse tekstilist mahtu kui ka sõnavara mitmekesisust selles,“ selgitas Vider.

Tehniliselt on KORP veebiteenus, mis kasutab avatud lähtekoodiga korpuste töötlemise vahendit MS Open Corpus Workbench ja see on loodud Göteborgi Ülikoolis Rootsi Keelepangas (Språkbanken). Videri sõnul arendatakse KORPi lisaks Rootsile veel mitmes riigis: Soomes Kielipankki, Norras Giellatekno taristu saami keelte jaoks, Taanis KORP, Islandil Risamálheildin.

„Eesti KORPi arendab Eesti Keeleressursside Keskus ja selles kättesaadavad korpused koosnevad praegu rohkem kui 850 miljonist tekstiühikust. Lisaks keeleteaduslikel eesmärkidel lisatud korpustele, mis on Eesti KORPis praegu valdavas enamuses, oleme alustanud ka kirjandusteadlaste uurimishuvidele vastavate projektidega.“

Videri sõnul sobib KORPi keskkond hästi nii-öelda tundike materjalidega tööks, kuna KORPi päringuvastuses tsiteeritud tekstilõigud on lause või lõigu pikkused ja nii ei rikuta autoriõigust ning ei ületata lubatud tsitaadi mahtu. „Lisaks sellele on KORP avatud lähtekoodiga, paindlik ja lihtsalt õpitav süsteem, mis võimaldab graafilist ülevaadet alamkorpuste päringutulemustest, hõlpsat liikumist konkordantslausete ja laiema konteksti vahel ning ka statistika tulemuste ja näitelausete vahel, võimalusi grupeerida statistikat kõigi korpuses märgendatud kategooriate alusel, suhtelise esinemis-sageduse automaatarvutusi (miljoni korpusesõne kohta). Näitelauseid ja statistikat saab eksportida.“

Marin Laagi sõnul võimaldavad päringutulemustes väljatoodud meta-andmed väga täpselt määrata näitelause asukohta kirjavahetuses, vajadusel on võimalik tekitada link mujal hoitavatele terviktekstidele, et pöörduda tagasi algallikate juurde. Päringusüsteemi KORP kasutamine võimaldas näiteks reljeefselt välja tuua mõlema kirjaniku tegevuse rahvusvahelises kirjanike võrgustikus PEN International.

Tekstikorpus valmis Haridus- ja Teadusministeerimi institutsionaalse uurimisprojekti „Kirjanduse formaalsed ja informaalsed võrgustikud“ (IUT22-2) ühe oluliseima rakendusväljundina. Eesti Kirjandusmuuseumi poolt aitas seda tööd läbi viia keeletehnoloog Kaarel Veskis, Eesti Keeleresursside Keskuse poolt konsulteerisid projekti Kadri Vider, Neeme Kahusk ja Olga Gerassimenko.

Tutvu Semperi ja Barbaruse kirjavahetuse tekstikorpusega KORPi keskkonnas.

Loe ka Marin Laagi, Kadri Videri, Neeme Kahuski, Kaarel Veskise ja Olga Gerassimenko artiklit „Digidokumendist tekstikorpuseks: Semperi ja Barbaruse kirjavahetuse töötlemine masinanalüüsitavaks päringusüsteemis KORP“ Soome-ugri keeleteaduse ajakirjast (2/2019): https://doi.org/10.12697/jeful.2019.10.2.02

Semperi ja Barbaruse kirjavahetuse tekstikorpuse püsiviide: https://doi.org/10.15155/9-00-0000-0000-0000-00190L

Rohkem väljaande „Euroopa, esteedid ja elulähedus. Semperi ja Barbaruse kirjavahetus 1911–1940“ (EKM Teaduskirjastus, 2020) kohta loe uudistest "Ilmus Johannes Semperi ja Johannes Vares-Barbaruse kirjavahetus aastatest 1911-1940"

Новости

Erakirjavahetusest masinanalüüsitavaks tekstikorpuseks ehk Johannes Semperi ja Johannes Vares-Barbaruse kirjad kui andmestik uuteks uuringuteks