URN_NBN_SI_doc-CKREDCV0

115 1.3.2 Zlivanje besed Ker bi iskalni algoritmi omenjene oblikoslovne različice prepoznali kot različne besede, je za besedila v naravnem jeziku potrebno procesiranje, katerega končni cilj je odstraniti omenjene oblikoslovne različice iz besedila, oz. jih poenotiti. To najpogosteje storimo tako, da jih zreduciramo na koren, ki je sicer dejanski nosilec pomena besede. Ta potem nastopa namesto vseh različnih oblik. Ve- likokrat pa se zgodi, da preostanek ne ustreza korenu v jezikoslovnem pomenu, zato namesto tega izraza uporabljamo izraz krn, iz česar izvira tudi izraz kr- njenje. “ Krnjenje povzroči “zlivanje” oziroma združevanje pomensko sorodnih, a raz- ličnih besed v enotno obliko. Lahko se izvaja ročno ali avtomatsko. Ročno krnje- nje imenujemo tudi ročni odrez. Navadno se izvaja v fazi iskanja, ponavadi z desnim krnjenjem, ki je lahko nastavljeno kot privzeta vrednost, a ga pogoste- je izvaja iskalec. Za avtomatsko krnjenje pa se uporabljajo algoritmi. V nasprotju z ročnim se avtomatsko krnjenje ne izvaja v fazi iskanja, temveč na besedah, ki sestavljajo iskalne izraze ter na dokumentih, ki sestavljajo podatkovno zbirko” (Vilar in Dimec, 2000, str. 13). Med najpogostejše težave pri krnjenju sodita premočno in prešibko krnjenje. Prvo povzroči zlivanje besed, ki imajo različne pomene, in bi torej ne smele biti zlite na en krn. Zaradi tega pri poizvedovanju trpi natančnost. Prešibko krnje- nje pa se pojavi, kadar algoritem ne uspe zliti vseh različic besed za en pomen na isti krn, zaradi česar ostane za en pomen več različnih krnov, kar zmanjšuje odziv. 1.3.3 Vrste algoritmov za krnjenje Obstaja veliko različnih vrst algoritmov, za katere avtorji predlagajo različne delitve. Vilarjeva in Dimec (2000, str. 14) predlagata delitev na: 1. algoritme, ki zlivajo besede na osnovi soodvisnosti črk v besedi; 2. algoritme, ki združujejo semantično sorodne besede v šope na osnovi nji- hove statistične sorodnosti; 3. algoritme, ki zlivajo besede z odstranjevanjem pon; 4. algoritme, ki pri zlivanju uporabljajo slovarje. Poleg opisov nekaterih algoritmov za tuje jezike natančno predstavita tudi štiri algoritme, ki so bili izdelani za slovenščino (Ibidem, str. 22-26): 1. Preprost algoritem, izdelan na Medicinski fakulteti v Ljubljani; 2. Algoritem Mirka Popoviča; 3. Generični algoritem; 4. Optimalni algoritem. Vilar, P.; Maver, J. Krnjenje slovenskih besedil s področja bibliotekarstva

RkJQdWJsaXNoZXIy