Januar 2025
Naredili smo pregled obstoječih orodij za avtomatsko prepoznavo rokopisov. Več smo jih preizkusili in na koncu izbrali Transkribus, ki omogoča enostavno treniranje modelov za vsako roko posebej.
Leto 2026 je razglašeno za Kosovelovo leto – obeležujemo 100 let od smrti enega najpomembnejših slovenskih pesnikov. Kot del aktivnosti ob jubileju smo s pomočjo 101 prostovoljke in prostovoljca izboljšali berljivost in dostopnost rokopisov Srečka Kosovela, ki jih hranimo v Digitalni knjižnici Slovenije tako, da smo jim dodali besedila v strojno berljivi obliki (.txt).
Začetno optično prepoznavo znakov (OCR) je opravilo orodje umetne inteligence Transkribus, ki samodejno prepozna rokopisne zapise. A nobena umetna inteligenca ne razume poezije, niti rokopisa, tako kot človek – zato smo potrebovali pomoč prostovoljcev, da so rokopisi postali iskalni ter širše dostopni.
Besede, ki jih je Kosovel zapisal pred več kot stoletjem, smo tako v okviru projekta občanske znanosti s pomočjo prostovoljcev znova postavili v vrstice, ki so berljive, iskalne in dostopne vsakomur.
Popravljeno besedilo je prosto dostopno v Digitalni knjižnici Slovenije – za raziskovalce, učitelje, dijake in vse ljubitelje poezije. S tem projektom aktivno prispevamo k ohranjanju in soustvarjanju slovenske kulturne in digitalne dediščine.
Vabimo vas k ogledu rezultatov projekta na Digitalni knjižnici Slovenije.
Zaradi kompleksnosti pisave smo izbrali znake za označevanje posebnosti v besedilu.
Naredili smo pregled obstoječih orodij za avtomatsko prepoznavo rokopisov. Več smo jih preizkusili in na koncu izbrali Transkribus, ki omogoča enostavno treniranje modelov za vsako roko posebej.
Ročno smo pripravili učno množico transkripcij rokopisov za treniranje modela umetne inteligence in v večih iteracijah učenja prišli do modela, ki je rokopise prepoznaval s približno tričetrtinsko natančnostjo. Ocenili smo, da zaradi zahtevnosti Kosovelove pisave ne bomo uspeli doseči boljšega rezultata.
Z modelom UI smo obdelali vseh 1044 digitaliziranih Kosovelovih rokopisov.
Pregledali smo rezultate avtomatske prepoznave pisave in ugotovili, da je natančnost v praksi manjša od ocenjene. Rezultati niso bili primerni za objavo, zato smo zasnovali nadaljevanje projekta na podlagi občanske znanosti.
Objavili smo spletno stran z informacijami in vabilom k prijavi za prostovoljce, ki smo jih k sodelovanju povabili tudi prek družabnih omrežij in novičnika. Prostovoljci so imeli en mesec časa, da pregledajo in popravijo 10 naključno izbranih transkripcij.
Prve popravke prostovoljcev smo prejeli 18. 6., vse pa smo zbrali do 16. 9. Rezultate smo uredili in pripravili na ponovni pregled v naslednji fazi projekta.
16. 10. smo zagnali naslednjo fazo projekta, v kateri so prostovoljci pregledovali transkripcije iz prejšnje faze.
Prve končne transkripcije smo prejeli 20. 10., vse pa smo imeli zbrane 16. 12.
Rezultate projekta - besedilne datoteke s transkripcijami rokopisov - smo objavili na portalu dLib.si, kjer so datoteke prosto dostopne in iskalne.