URN_NBN_SI_doc-CKREDCV0
133 Optimalni algoritem kaže najboljše rezultate, oz. se najbolj približa idealnemu rezultatu krnjenja. Generični algoritem se izkaže kot najmanj natančen. Popol- no ujemanje z referenčnim rezultatom najdemo pri Optimalnem algoritmu v 5.563 primerih, pri Popovičevem v 5.016 primerih in pri Generičnem v 3.814 primerih. Ob spremljanju največjega števila krnov za en semantičen pomen, smo ugo- tovili, da se tukaj najbolj izkaže Popovičev algoritem, saj v najslabšem primeru izdela osem krnov za en pomen. Optimalni algoritem jih sicer izdela devet oz. deset, vendar le v dveh primerih (0,032% vseh krnov), kar je zanemarljivo. Si- cer pa je veliko bolj natančen od Popovičevega. Generični algoritem pa v 225 primerih izdela 10 ali več krnov za en semantičem pomen, od tega v dvanajstih več kot 20, v najslabšem primeru pa celo 32. Dejstvo postane razumljivo, če se spomnimo, da je glavna naloga Generičnega algoritma preprečevanje pre- močnega krnjenja (reduciranja besed z različnimi pomeni na enak krn). Sklepali smo, da izvrševanje te naloge rezultira v izrazito premalo natančnem krnjenju, ki je še posebej očitno v jeziku z bogato oblikoslovno strukturo, kot je sloven- ščina. Omeniti je sicer potrebno, da so bili tako izraziti rezultati v prid optimalnega algoritma gotovo tudi posledica omejenega besedilnega korpusa, s katerim smo delali. Res je tudi, da ima intelektualno oblikovan referenčni rezultat krnjenja značilnosti, ki se jih ne da doseči z avtomatskimi metodami krnjenja, saj refe- renčni razredi vsebujejo tudi sinonime in druge oblike semantično povezanih besed, ki jih algoritem brez vgrajenih leksičnih pripomočkov kot npr. slovar ali tezaver ne more doseči. 5 Zaključek Cilj dela, opisanega v prispevku, je bil razvoj in testiranje postopka avtomat- skega krnjenja besedil slovenskega bibliotekarskega podjezika. Ta je potekal v treh fazah. V prvi fazi postopka je šlo za učenje algoritma z imenom Optimal- ni - na besedilnem korpusu iz temeljne slovenske bibliotekarske revije Knjižnica, referatov z nekaterih bibliotekarskih posvetovanj in diplomskih nalog s 790.000 besedami, ki je bil razdeljen na segmente po 15.000 besed. Cilj prve faze je bil zgraditi datoteke z veljavnimi in imenskimi krni, ki izvirajo iz bese- dišča s področja bibliotekarstva, in ki bi jih bilo mogoče uporabiti v nadaljnjih postopkih gradnje orodij za avtomatsko indeksiranje in pri poizvedovanju. Po opravljeni učni fazi je sledila testna faza, v kateri smo testirali delovanje algoritma z vsemi pripadajočimi datotekami (seznami veljavnih in imenskih Vilar, P.; Maver, J. Krnjenje slovenskih besedil s področja bibliotekarstva
RkJQdWJsaXNoZXIy