URN_NBN_SI_doc-CKREDCV0

Knjižnica 46(2002)1-2, 111-136 134 krnov, seznamoma blokiranih besed in pravil za popravljanje krnov) na dodat- nem, sicer manjšem besedilnem korpusu. Ta je obsegal 167.000 besed. Ugotovili smo, da se s krnjenjem besedna masa korpusa zmanjša za 92,48% in da je le 349 krnov takih, ki še niso uvrščeni na seznama sprejemljivih krnov. Nato smo izvedli vrednotenje. V tej fazi smo primerjali tri algoritme, Optimal- nega, Generičnega in Popovičevega. Primerjali smo rezultate njihovega delo- vanja z referenčnim rezultatom. To je Optimalni rezultat krnjenja, ki smo ga namenoma izdelali ročno, da bi dosegli njegovo maksimalno pravilnost. Poseb- no pozornost smo posvetili skupinam besed, ki so semantično povezane, zato se lahko zlijejo na določen krn. Za kriterij vrednotenja delovanja algoritmov smo si izbrali premalo natančno krnjenje. Spremljali smo, koliko krnov (oz. skupin besed, zastopanih z določenim krnom) izdela posamezen algoritem za en semantičen pomen v primerjavi z referenčnim rezultatom. Tako skupino besed, ki dajo krn, smo poimenovali ekvivalenčni razred. Možno je bilo popol- no ujemanje z referenčnim rezultatom, torej da algoritem izdela en sam ekvi- valenčni razred ali pa da jih izdela več. Hkrati smo se zavedali, da je mogoče spremljati tudi premočno krnjenje, a smo ugotovili, da se pojavlja manj pogos- to. Zato ga nismo spremljali. Rezultate smo statistično obdelali, za statistično obdelavo pa smo izbrali neparametrični Kruskal-Wallisov test ali krajše H test. Z eksperimenti in vrednotenjem smo prišli do zaključka, da najboljše rezul- tate med omenjenimi tremi algoritmi daje Optimalni algoritem. Največkrat doseže popolno ujemanje z referenčnim rezultatom in hkrati izdela najmanj krnov za en semantičen pomen. Sledi Popovičev algoritem, za tretjega, Generi- čnega, pa se je izkazalo, da je premalo natančno krnjenje njegova izrazita sla- bost. Ko rezultate optimalnega algoritma primerjamo z rezultati krnjenja medicinskega podjezika (Vilar in Dimec, 2001), lahko ugotovimo številne po- dobnosti. Zato lahko sklepamo na možnost uspeha algoritma tudi pri obdelavi besedil z drugih področij, seveda pa tudi za nadaljnje delo na področju obde- lave bibliotekarskih besedil. S pomočjo eksperimentov smo zgradili nabor krnov, ki zastopajo semantično povezane besede iz besedil, s katerimi smo delali. Menimo, da tak nabor lahko predstavlja osnovo za nadaljnjo gradnjo besedišča podjezika s področja biblio- tekarstva. Seveda pa se zavedamo, da je za to potreben dodaten, mnogo večji korpus besedil. Z obdelavo dodatnih besedil lahko zgradimo relativno ažuren besednjak, uporaben v orodjih za avtomatsko indeksiranje, iskalnih orodjih za dokumente v elektronski obliki. Možna je celo uporaba za nekatera druga področja, npr. terminologijo ali vsebinsko obdelavo. V tako zgrajenem naboru besed, pod pogojem, da je ažurno vzdrževan, se odraža dejansko stanje sodobnega znanstvenega in strokovnega jezika, kakršnega najdemo v pisnih virih na področju bibliotekarstva. Tako besedišče

RkJQdWJsaXNoZXIy