URN_NBN_SI_doc-CKREDCV0
Knjižnica 46(2002)1-2, 111-136 118 mentov, dosežemo, da se označeni krni iz tega seznama preslikajo v ustreznega izmed prvih dveh. Optimalni krni se vključijo v seznam veljavnih krnov, imen- ski v seznam imenskih krnov, slabe pa zavržemo. Najpomembnejše v celotnem postopku je vzdrževanje seznama veljavnih kr- nov, ki vsebuje nabor besed oz. krnov podjezika, in seznama imenskih krnov. Seznama naraščata z vsakim obdelanim dokumentom in tako se algoritem “uči” podjezika. Dela s seznami je z naraščanjem zbirke dokumentov vedno manj, kajti vse več izrazov se že nahaja v enem izmed njiju, zato jih je vse manj v seznamu novih krnov. Administrator sistema določa najustreznejšo obliko krnov. Ni nujno, da se pri pregledovanju seznama novih krnov odloči za ob- liko krna, ki jo za določeno besedo predlaga algoritem. S pomočjo spiska vseh krnov, ki so nastali v zaporednih stopnjah krnjenja, izbere tistega, ki je po njegovem najustreznejši. Če ima občutek za jezik, obstaja velika verjetnost, da bo tak krn res optimalen. 3 Krnjenje besedil s področja bibliotekarstva 3.1Kratek opis eksperimentov Z eksperimenti smo skušali ugotavljati način in hitrost učenja algoritma na bibliotekarskem podjeziku ter njegovo učinkovitost in posledično uporabnost rezultatov. Zato smo v našem postopku zasnovali tri faze. 1. Učna faza Ker je bil Optimalni algoritem razvit za področje medicine, mi pa smo potrebovali besedišče s področja bibliotekarstva, smo učno fazo pričeli s prazni- ma seznamoma veljavnih in imenskih krnov. Oba smo, skupaj s seznamom blokiranih besed in dopolnjenima seznamoma končnic, zgradili za bibliotekar- ski podjezik. Za to smo uporabili besedilni korpus, obsegajoč 790.000 besed, ki smo ga pred tem morali pripraviti za obdelavo. 2. Testna faza Po končani učni fazi smo testirali izdelani algoritem z dodatno, testno množico besedil. Ta je bila manjša, obsegala je 167.000 besed. V testni fazi smo prever- jali uspešnost delovanja in zmanjševanje besedne mase v posamezni fazi v postopku krnjenja: blokiranju in samem krnjenju.
RkJQdWJsaXNoZXIy