URN_NBN_SI_doc-CKREDCV0
Knjižnica 46(2002)1-2, 111-136 120 3.2.2 Besedila za testno fazo Tudi besedila za testno fazo smo pridobili iz grafičnega studia, zato postopki digitalizacije niso bili potrebni. Odločili smo se za drugo temeljno revijo s pod- ročja bibliotekarstva, “Šolska knjižnica”, ki jo izdaja Zavod Republike Slove- nije za šolstvo. V celoti smo jih pridobili iz grafičnega studia, kjer besedila pripravljajo za tisk, in si s tem prihranili postopke digitalizacije. Testni korpus je bil manjši od učnega, obsegal je 167.000 besed. Tudi to besedilo smo preved- li v ascii format in pretvorili v tokene, a smo ga ohranili kot en korpus v eni datoteki. Ker so bila besedila pripravljena z računalnikom tipa Apple-Macin- tosh, so bili pred uporabo potrebni določeni ročni posegi, npr. pretvarjanje znakov za šumnike. 3.3 Obdelava 3.3.1 Učna faza 3.3.1.1 Krnjenje Tako pripravljene datoteke smo po vrsti procesirali z Optimalnim algoritmom. Rezultat krnjenja je bil na vsakem koraku seznam novih krnov, iz katerega so bile razvidne tudi vse stopnje krnjenja, ki jih je algoritem opravil pri obliko- vanju določenega krna. Ker sta bila v začetku oba seznama, veljavni in imenski krni, prazna, so bili v prvem koraku v datoteko “Novi krni” uvrščeni vsi krni, ki jih je izdelal algo- ritem. Kasneje pa se je z naraščanjem obeh seznamov obseg datoteke “Novi krni” na vsakem koraku zmanjšal, izjemoma pa ne, kadar je v obdelavo prišel nov vir krnjenih besedil. Krnjenju je sledila faza, v kateri je imela ključno vlogo administratorka. Njena naloga je bilo pregledovanje in ročno označevanje predlaganih krnov z ustrez- nimi oznakami “v” za veljavne oziroma optimalne, “n” za imenske in “b” za neustrezne. Pri veljavnih in imenskih krnih je morala biti administratorka poleg dodelje- vanja oznak pozorna tudi na to, da z izbiro prekratkega krna ni povzročila pre- močnega krnjenja. V ta namen ji je bila v pomoč datoteka z izvornimi beseda- mi za vsak predlagan krn “New_stem_origins”. Lahko se je namreč odločila za katero koli izmed stopenj krnjenja, ne nujno zadnjo. S tem se doseže ne- dvoumnost krna (ta bo zastopal vse različice besed za en pomen). Za besede, ki pomensko ne sodijo zraven, pa se lahko oblikuje nov krn, ali jih ne upošte- va. Struktura zapisov v datotekah je naslednja:
RkJQdWJsaXNoZXIy