Hegle Pärna: kultuurilembese tehisaru abistamata jätmine kui võimalik oht

Tehisaru treenitakse sadade miljardite sõnadega ning väikese keele osakaal jääb paratamatult väikeseks, kui me ei loo täiendavaid mehhanisme selle suurendamiseks, kirjutab Hegle Pärna.
Märtsi keskpaik pani punkti eestikeelse raamatu 500. aasta juubeli tähistamisele. Ka sel aastal on iseenesest mõistetavalt palju räägitud meie keele- ja kultuuriruumist ning selle hoidmisest. Tegemist oli ka ühe võtmeteemaga raamatuaastat lõpetaval konverentsil "Eesti raamat – kaua võib?".
Väikese keeleruumina oleme alati pidanud oma keelt teadlikult hoidma. Emakeelepäeva aegu leidis Sirbis käsitlust lugemisuuring "Eestlane loeb 2025"1, mis kaardistas ohud, mis võivad eestikeelse raamatu tulevikule ja püsima jäämisele hoobi anda. Ühe ohuna on välja toodud ka, et kirjastajatel on üha raskem majanduslikult toime tulla. Samuti on välja toodud, et üha rohkem hakkab paberraamat konkureerima nii voogedastusplatvormide kui ka tehisaru loodud sisuga.
Mis puudutab just tehisaru loodut, siis näitavad uuringud, et tehisaru kasutamine on nooremate põlvkondade seas paratamatult uus argipäeva osa, mistõttu kerkib esile vajadus kohaneda uute käitumis- ning tarbimisharjumustega. Ka seetõttu tuleb teadlikult tagada, et eestikeelsed raamatud ja muu kultuurisisu oleksid tehisarule motiveeritud ulatuses nähtavad ja leitavad ning on oluline panustada eestikeelse sisu kättesaadavaks tegemisele digimaailmas.
Lisaks eelnevalt viidatud lugemisuuringus käsitletule mõjutab eelneva probleemi lahti harutamist kahtlemata ka meie õiguslik raamistik. Keelelisele aspektile lisaks on ka erinevate autorite huvid mängus.
Tehisaru ja eesti keele säilitamine
Tartu Ülikooli teadlaste tehtud uuringu kohaselt häirib eestlasi kõige rohkem võõrkeelsete sõnade ja väljendite kasutamine.2 Meeldetuletusena, et tehisaru vajab kindlasti kvaliteetseid keeleandmestikke selleks, et tegemist oleks toimiva abivahendiga. Ka eelneval uuringul põhinev seisukoht tekitaks sügavalt vastuolulise olukorra, kui sellele ei ole võimalik lahendust leida.
Kui ühiskond kasutab palju tehisaru, mis ei suuda korrektselt eesti keelt mõista ega väljendada, siis hakkab see paratamatult mõjutama ka inimeste enda keelekasutust.
Suurte keelte puhul tagab olemasolev tohutu andmemaht digimaailmas, et tehisaru õpib neid loomulikult ja täpselt. Väikese keeleruumi puhul ei juhtu see aga ilma täiendavate pingutusteta. Seetõttu on oluline anda tehisarule kvaliteetset eestikeelset sisendit, et tavapäraseks normiks ei kujuneks ebakorrektne eesti keel.
Ka Eesti põhiseaduse preambul ütleb selgelt, et riigi eesmärk on tagada eesti rahvuse, keele ja kultuuri säilimine läbi aegade. Julgen väita, et tegemist on ühe põhiseaduse tõlgendamise alusega. Praeguse teema kontekstis tekitab eelnev ka küsimuse, kas riigil on kohustus tagada, et keel püsiks elujõuline ka digiajastul ning jaatava vastuse korral pakkuda võimalusi selle saavutamiseks.
Sõltumata eelneva küsimuse vastusest on tegelikkuses meil olemas ka (õigus)poliitiline toetus. Nimelt on ka 2025–2027. aasta koalitsioonileppe üks eesmärk tehisaruga seonduva andmeõiguse küsimuste ülevaatamine.3 Täpsemalt on eesmärk tagada, et eesti keel oleks tugevamalt esindatud tehisaru treeningandmestikes ning toetatud piisava eestikeelse andmestikuga.
Selle eesmärgi täitmisel anname kahtlemata selgemad suunised, et avalikud keeleandmed võivad olla osaks tehisaru treeningprotsessist, kui need on seotud teadus- ja arendustegevusega. Seega on ka tegelikkuses riigil olemas tahe toetada just nimelt eestikeelse ning -meelse tehisaru loomist.
Andmepoliitika ja sellega seotud õigusaktide ülevaatamine peab hõlmama ka piiratud ligipääsuga ja litsentsitud andmeid, mis on olulised ka kultuuripärandi seisukohalt, sh eestikeelset kirjandust. Selliste andmestike kasutamine on tehisaru treenimisel praegu aga sageli juriidiliselt keeruline või lausa võimatu.
Eestikeelsuse ja -meelsuse õpetamise võimalustest
Euroopa Liidu, eelkõige praeguse seisuga liikmesriikide, kohtupraktika on viimastel aastatel liikunud suunas, mis on samuti kinnitanud, et tehisaru treenimine võib olla õiguspärane, kui järgitakse teatud tingimusi.
Olen varasemalt arutlenud selle üle, kuidas keelemudelite arendajad saavad õiguspäraselt üleüldse tehisaru arendada. Tagasipõikena olgu öeldud, et keelemudelite arendajatel on teatud tingimustel võimalik kasutada teoseid tehisaru treenimiseks ka ilma eraldi õiguste omaja nõusolekuta, kui nad tuginevad teksti- ja andmekaeve erandile. Samal ajal on õiguste omajatel võimalus sellisest kasutusest keelduda.4
Kuigi Euroopas ei ole veel lõplikult välja kujunenud seisukohta tehisaru treenimise lubatavuse kohta, on senine liikmesriikide kohtupraktika liikunud suunas, mis haakub kaudselt ka Eesti põhiseaduse preambulis sõnastatud eesmärgiga tagada eesti rahvuse, keele ja kultuuri säilimine läbi aegade.
Varasemalt on Saksamaal arutatud teksti- ja andmekaeve erandite kohaldamist just sellest vaatenurgast, kas tehisaru treenimine suunatud uue teadmiste loomisele sõltumata sellest, kas see toimub koheselt või tulevikus.5 Seega võiks ka tehisaru arendamine olla seotud laiemalt ühiskondliku ja tulevaste põlvkondade huvidega.
Teistsuguse rõhuasetusega, kuid samuti tehisaru arendamise teemal, on möödunud aasta sügisel jõudnud kohtuotsuseni ka Saksamaal teine kaasus, milles käsitleti küsimust, millal autoriõigusega kaitstud teoste kasutamine tehisaru treenimiseks võib olla lubatud.6 Kohus leidis, et treenimise käigus toimuv sisemine töötlemine võib kuuluda teksti- ja andmekaeve erandi alla, kuni tehisaru ei suuda taasesitada äratuntavalt autoriõigusega kaitstud teoseid.
Kui kaugel on kultuurilembene tehisaru?
Tehisaru eestikeelsus ja -meelsus kujuneb hetkeseisuga paraku endiselt vastavalt turumehhanismidele. Vaadates otsa küsimusele, kuidas tehisaru saab olla kultuurilembene, on tõenäoliselt paljudele selge, et peame olema ise proaktiivsemad.
Tõsi, praegusel juhul on praktikas rahvusvaheliselt näha selget liikumist selle suunas, et tehisaru arendajad sõlmivad üha enam litsentsilepinguid autorite, kirjastuste ja meediamajadega.
Ühelt poolt annab eelnev autoritele tasu ja suurema kontrolli oma loomingu osas, arendajatele õiguskindluse ning ühiskonnale kvaliteetsema tehisarul põhineva tehnoloogia. Eesti keele puhul on aga selge, et meie keeleressurss ei pruugi olla globaalsele turule sama atraktiivne kui suurte keelte omad.
Sellises olukorras peab looma võimalused, mis tagavad, et eesti keelt kasutatakse ja toetatakse ka siis, kui turumehhanismid seda ise ei tee. Tehisaru treenitakse sadade miljardite sõnadega ning väikese keele osakaal jääb paratamatult väikeseks, kui me ei loo täiendavaid mehhanisme selle suurendamiseks.
Praegune arutelu keskendub suures osas avalikele andmetele, kuid tegelikkuses on suur osa kultuuriliselt väärtuslikust sisust piiratud ligipääsuga või litsentsitud viisil, mis ei võimalda neid lihtsalt tehisaru treeningandmetesse kaasata. Seetõttu peab üleüldine andmepoliitika ja õigusaktide ülevaatamine looma lahendused, mis võimaldavad ka selliste treeningandmete kasutamist turvalisel, õiguspärasel ja autorite õigusi austaval viisil.
Toimetaja: Kaupo Meiel




