URN_NBN_SI_doc-CKREDCV0

113 Vilar, P.; Maver, J. Krnjenje slovenskih besedil s področja bibliotekarstva Avtomatsko indeksiranje je ena najpogostejših tehnik obdelave dokumentov s polnimi besedili na področju poizvedovanja. Gre za proces algoritmične ob- delave besedil z namenom določanja seznama indeksnih izrazov. Sodi med derivativne metode, saj indeksni izrazi izvirajo iz dokumenta. Prednosti, ki jih ponuja avtomatsko indeksiranje, so odprava nekaterih pomanjkljivosti intelek- tualnega indeksiranja, denimo zmanjševanje stroškov in količine intelektual- nega dela, in predvsem večja hitrost. Poleg tega je bolj izčrpno, ima bolj speci- fično terminologijo, in vsaj teoretično natančno predstavlja vsebino dokumenta. Njegova pomanjkljivost pa je, da je izrazito vezano na besedilo dokumenta (tako glede postopkov indeksiranja kot tudi iskanja), ne uvaja semantičnih povezav med indeksnimi izrazi (kot npr. v tezavru) in proizvede obsežne sezname in- deksnih izrazov. Avtomatsko indeksiranje uporabljamo skoraj izključno za analizo besedil. Avtomatske tehnike na področju analiziranja slik, video in avdio dokumentov so trenutno še v eksperimentalni fazi, čeprav znanstveniki na njih intenzivno delajo. Cilj, h kateremu težijo sistemi za poizvedovanje po polnih besedilih, je doseganje enakih rezultatov tako iskanja kot tudi vsebinske obdelave, kot bi ti bili, če bi se jih lotil človek. Seveda je dejansko stanje še precej oddaljeno od tega cilja. Potrebno je opozoriti, da je moč računalnikov pri konceptualnem indeksiranju zelo omejena, saj so le v redkih primerih sposobni interpretira- nja. To zaenkrat še vedno ostaja domena človeka, prav tako pa tudi prepozna- vanje zatipkanih besed ali oblikoslovnih različic besed, ki so posledica slovnič- nih značilnosti jezika. Za avtomatski izbor vsebinskih predstavnikov besedila obstajata dva osnovna pristopa: jezikoslovni in statistični. Prvi temelji na semantičnih in sintaktičnih metodah, drugi pa na pogostosti pojavljanja besed v besedilu (Popovič, 1990). Pri sodobnih avtomatskih tehnikah za opisovanje vsebine gre navadno za sta- tistično analizo pogostosti pojavljanja besed v tekstu. Včasih so jim dodane še metode za razpoznavanje besednih korenov, fraz ali celo semantičnih pome- nov besed. Sistemi tehtajo pomembnost posameznih izrazov glede na njihovo pozicijo v dokumentu, kontekst, v katerem se pojavljajo, ali glede na njihovo sintaktično pozicijo, mnogi pa tudi glede na vgrajene tezavre (Vilar in Dimec, 2000, str. 11).