URN_NBN_SI_doc-CKREDCV0

119 3. Faza vrednotenja V tej fazi smo primerjali delovanje “našega” algoritma z dvema drugima algo- ritmoma, izdelanima za slovenščino. Primerjali smo ga z Generičnim algorit- mom (Dimec et al., 2000) ter algoritmom, ki ga je izdelal Popovič (1991a). Rezultate obdelave testnega korpusa z vsemi tremi algoritmi smo statistično obdelali z neparametričnim Kruskal-Wallisovim testom. Ocenjevali smo, ali algoritmi dajo enake rezultate. Poskušali smo tudi ugotoviti, kateri algoritem da najboljše rezultate brez ročnega poseganja, oz. se kar najbolj približa ideal- nemu rezultatu krnjenja. To smo ugotavljali iz izračunanega povprečnega šte- vila krnov, ki jih izdela vsak algoritem v primerjavi z referenčnim rezultatom, standardno deviacijo in kumulativno vsoto krnov. 3.2 Pridobivanje in priprava besedil 3.2.1 Besedila za učno fazo Odločili smo se, da besedila s področja bibliotekarstva poiščemo v temeljni slovenski bibliotekarski reviji “Knjižnica”, ki jo izdaja Zveza bibliotekarskih društev Slovenije. Izbirali smo samo novejše članke v slovenskem jeziku, torej nismo upoštevali objav v drugih jezikih (hrvaščina, angleščina). Po ugotovitvi, da ne obstaja digitalni arhiv revije, smo se odločili za naslednji postopek: procesiranje besedil z optičnim čitalnikom in nato s programom za optično razpoznavanje znakov. Določene napake, ki so se pri tem pojavile, smo popravljali ročno. Izločali smo tudi izvlečke, ključne besede, bibliografijo. Na ta način smo pridobili besedila štirinštiridesetih člankov iz let 1998 in 1999. Drugi obsežni sklop besedil so predstavljala besedila prispevkov v zbornikih s posvetovanj Sekcije za specialne knjižnice pri Zvezi bibliotekarskih društev Slovenije (takih smo pridobili 55) ter besedilo zbornika ob petdeseti obletnici Narodne in univerzitetne knjižnice (10 člankov). Pridobili smo jih v digitalni obliki iz grafičnega studia, zato tu ni bilo potrebe za optično čitanje in razpozna- vanje ter ročno popravljanje. V učno množico smo vključili tudi besedila 28 diplomskih nalog z Oddelka za bibliotekarstvo. Datoteke smo shranjevali v tekstovnem formatu. Besedilo smo nato v procesu leksikalne analize pretvorili v stolpec besed (tokenov), istočasno izločali neka- tere odvečne znake (ločila, oklepaje, narekovaje, znake “*”, “+”, “<“, “>”, “=”) in števke, ter pretvorili vse črke v male. Učni korpus je obsegal preko 790.000 besed, ki smo jih zaradi enostavnejše obdelave razdelili v 53 segmentov po 15.000 besed. Vilar, P.; Maver, J. Krnjenje slovenskih besedil s področja bibliotekarstva