URN_NBN_SI_doc-CKREDCV0
Knjižnica 46(2002)1-2, 111-136 126 0 20000 40000 60000 80000 100000 120000 140000 160000 180000 Vse besede Po blokiranju Po krnjenju Skupaj Imenski krni Veljavni krni Slika 3: Zmanjševanje besedne mase Potrebno je opozoriti, da gre v tem primeru za drugačno situacijo kot v fazi učenja. Tam so bili produkt krnjenja le tisti krni, ki jih algoritem ni uspel najti v seznamih veljavnih ali imenskih krnov, in jih je bilo zato potrebno ročno označevati kot veljavne, imenske ali nesprejemljive, s čimer smo dograjevali seznama veljavnih in imenskih krnov. Tu pa ni šlo več za dograjevanje sezna- mov. Teh 12.561 krnov so vsi krni, ki so nastali iz korpusa 166.969 besed. 349 krnov pa je bilo za algoritem novih. Gre za to, da so se besede, ki so ostale po opravljenem postopku blokiranja, “zlile” na krne, ki sedaj zastopajo njihov semantični pomen, in ki bi jih upora- bili v nadaljnjih postopkih gradnje seznamov predstavnikov vsebine in tudi v postopkih poizvedovanja. 4 Vrednotenje Po zaključeni učni fazi je bil Optimalni algoritem izoblikovan in pripravljen za nadaljnje delo. S testnim korpusom smo testirali uspešnost učenja. Na njegovi osnovi smo želeli izvesti tudi vrednotenje. V fazi vrednotenja smo torej na test- nem korpusu primerjali delovanje treh algoritmov za slovenski jezik, Optimal- nega, Generičnega in Popovičevega. 4.1Referenčni rezultat krnjenja Za namene vrednotenja smo najprej oblikovali referenčni rezultat krnjenja, katerega značilnost je bila, da so se v njem nahajali krni, ki so brez napake zastopali besede v testnem korpusu. V testni fazi dobljene sezname končnic
RkJQdWJsaXNoZXIy