URN_NBN_SI_doc-CKREDCV0

Knjižnica 46(2002)1-2, 111-136 114 1.2 Postopek avtomatskega indeksiranja V procesu avtomatskega indeksiranja je potrebno opraviti nekaj zaporednih postopkov: 1. Leksikalna analiza To je avtomatska analiza besedila dokumenta (naslov, povzetek ali celotno besedilo), v kateri predvsem določamo potencialne kandidate za indeksne izraze. Drugače povedano, gre za pretvarjanje vhodnega besedila v niz posameznih besed v stolpcih, te pa nato obdelamo z avtomatskimi postop- ki. 2. Blokiranje To je primerjava kandidatov za gesla s t. i. seznamom blokiranih besed, ozi- roma negativnim slovarjem, v katerem so besede, ki v besedilu nosijo zelo malo ali nič pomena, in so zato nepotrebne. 3. Izbor izrazov, ki predstavljajo vsebino dokumenta 4. Krnjenje To je poenotenje morfoloških različic izrazov, ki so bili izbrani za gesla, in na ta način zlitje besed v enotno obliko, ki nato zastopa vse različice. Je ključnega pomena za uspeh poizvedovanja. 1.3 Krnjenje 1.3.1 Oblikoslovje in semantika Jezik je živ organizem in nanj vplivajo različne zakonitosti, zato obstajajo za isti semantični pomen različne oblike besed. Mednje sodijo sinonimi, kratice, pa tudi morfološke oziroma oblikoslovne različice, ki nastajajo z dodajanjem najrazličnejših končnic, oz. pon (pripon ali predpon). Te bodisi spreminjajo besedno vrsto, spol, sklon, sklanjatev, spregatev bodisi katero drugo značilnost posamezne besede. Ujemanje iskalnih zahtev in dokumentov v podatkovni zbirki je odvisno od števila in pogostosti izrazov, ki se pojavljajo v obojih. “V nasprotju z jeziko- slovjem, ki različne besedne vrste, izpeljanke, zloženke in podobno obravna- va ločeno, je za proces poizvedovanja bistvenega pomena semantična inter- pretacija besed. Oblikoslovne različice, ki so posledica obnašanja naravnega jezika, zato v procesu poizvedovanja predstavljajo oviro, kajti z vidika seman- tike jih lahko obravnavamo kot sinonime” (Vilar in Dimec, 2000, str. 12).

RkJQdWJsaXNoZXIy