URN_NBN_SI_doc-CKREDCV0

125 3.3.2 Testna faza S seznami, pripravljenimi v učni fazi, smo pričeli testno fazo optimalnega al- goritma. V njej smo uporabili dodaten, posebej za to pridobljen korpus besedil iz revije Šolska knjižnica, ki je obsegal 166.969 besed. Želeli smo testirati, kako učinkovita bo obdelava tega korpusa z algoritmom s sestavnimi deli, zgrajeni- mi v učni fazi. Obseg seznamov, s katerimi smo vstopili v testno fazo, je naslednji: - seznam veljavnih krnov: 8.389 krnov; - seznam imenskih krnov: 3.854 krnov; - seznam blokiranih besed: 2.393 besed. Najprej smo želeli testirati učinkovitost blokiranja. Po navedbah nekaterih raziskovalcev (Popovič, 1991b) se pri jezikih z zapleteno oblikoslovno struk- turo besedna masa po opravljenem blokiranju zmanjša celo do 50%. V našem primeru je algoritem na podlagi seznama blokiranih besed izločil 64.626 po- mensko praznih besed, kar predstavlja 38,7% korpusa. V postopek krnjenja je bilo tako uvrščenih 102.343 besed. Drugi del testne faze je predstavljalo krnjenje testnega korpusa. Po končanem krnjenju je algoritem izdelal 8.588 veljavnih in 3.973 imenskih krnov, torej skupaj 12.561 sprejemljivih krnov iz testnega korpusa. V datoteko novih kr- nov, torej takih, ki jih ni našel na nobenem seznamu, pa je uvrstil 5.910 krnov. Po pregledu tega seznama je administratorka ugotovila, da jih je bilo 5.561 sla- bih (94%), 214 imenskih in 135 veljavnih. Vidimo torej, da je bilo le 349 krnov takih, ki še niso bili uvrščeni na sezname sprejemljivih krnov, s katerimi je sicer delal algoritem. Po zaključenem krnjenju je tako od besed, ki so bile po blokiranju uvrščene v krnjenje, ostalo 12,27%. Če gledamo celoten korpus, predstavljajo izdelani krni 7,52% besedila. Tak rezultat predstavlja občutno zmanjšanje obsega datoteke. Slika 3 prikazuje zmanjševanje besedne mase v posamezni fazi postopka. Vilar, P.; Maver, J. Krnjenje slovenskih besedil s področja bibliotekarstva

RkJQdWJsaXNoZXIy