untitled
33 zav med podatki, ki še niso poznane. Primeri tega so iskanje povprečne citirano- sti vseh publikacij v neki zbirki glede na zvrst ali področje publikacije, prikaz vsote citatov vseh publikacij po letih objave, prikaz števila publikacij po državah in znanstvenih panogah (Braun et al., 1985; Glaenzel et al., 1999), iskanje množice organizacij, ki sodeč po publikacijah tesno sodelujejo, iskanje množice bibliograf- skih zapisov, ki smiselno povežejo skupine navidez nepovezanih zapisov (Finn, 1998; Swanson in Smalheiser, 1999), in iskanje množice tistih organizacij, ka- terih citiranje pomembno odstopa od povprečja v neki zbirki. Cilj vseh teh pris- topov je odkriti nove informacije iz obstoječih zbirk podatkov. Sistemi za iskanje informacij v bibliografskih zbirkah podatkov, kakršni so danes pretežno v uporabi, niso primerni za interaktivno iskanje omenjenih zvrsti in- formacij (Han in Kamber, 2001; Thomsen, 2002), saj so odzivni časi za praktično uporabo praviloma predolgi. Za rešitev posameznih problemov so bila zato si- cer razvita posebna programska orodja, ki omogočajo izdelavo občasnih vnaprej definiranih poročil, običajno pa ne omogočajo interaktivnega vpogleda v podatke ter spreminjanja iskalnih zahtev. To predstavlja oviro zlasti pri poizvedbah, ki od uporabnika zahtevajo večkratno oblikovanje iskalnih zahtev glede na pred- hodne rezultate, in kjer povečanje števila iskalnih zahtev običajno poveča kako- vost poizvedbe. Pri reševanju teh problemov se vse bolj uveljavljajo pristopi s področja podat- kovnega rudarjenja, skladišč podatkov in sprotne analitske obdelave podatkov. V literaturi s področja bibliotekarstva in informacijskih znanosti je s tem v zvezi poleg termina odkrivanje zakonitosti v podatkih pogosto uporabljen tudi termin odkrivanje zakonitosti iz zbirk podatkov ali KDD (Knowledge Discovery from databases), s tem področjem pa sta povezana tudi termina informetrija (Wormell, 2000, 1998) in bibliomining (Nicholson, 2003a, 2003b; Nicholson in Stanton, 2004). Na sorodnem področju pri odkrivanju informacij iz velikih tekstovnih zbirk podatkov se uporabljajo tudi termini ‘text data mining,’ ‘textual data min- ing’ in ‘KDD in text databases’ (Hearts, 1999; Losiewicz et al., 2000). V nadaljevanju so podani opisi nekaterih zgodnjih praktičnih primerov uporabe in teoretskih razmišljanj pri analizi bibliografskih in sorodnih zbirk podatkov z novejšimi pristopi. Začetki podatkovnega rudarjenja v bibliografskih zbirkah so se pojavili leta 1986, ko je Swanson z iskanjem po zbirki Medline odkril povezavo med Raynaudovo boleznijo in ribjim oljem. Raziskavo je pričel tako, da je iz bibliografskih zapis- ov o izbrani bolezni poiskal njene najpogostejše simptome. Za te simptome je nato v bibliografskih zapisih poiskal učinkovine, ki vplivajo nanje. Izločil je tiste učinkovine, ki so bile v povezavi z izbrano boleznijo že objavljene. Preostale učinkovine so bili kandidati za zdravljenje bolezni in s tem za odkritje novega (še neobjavljenega) znanja. Tako je za Raynaudovo bolezen ugotovil, da je zanjo Hudomalj, E. Odkrivanje novih informacij v bibliografskih zbirkah podatkov
RkJQdWJsaXNoZXIy