URN_NBN_SI_doc-2JVNS2VA

235 Uporabna vrednost podatkov spletnih zajemov: arhiviranje spletnih mest in analiza spletnih vsebin The practical value of web capture data: archiving Web sites and Web content analysis Matjaž Kragelj, Mitja Kovačič Oddano: 29. 3. 2017 – Sprejeto: 5. 6. 2017 1.04 Strokovni članek 1.04 Professional article UDK 005.921.1-022.324:004.738 Izvleček Zakon o obveznem izvodu publikacij (2006) Narodni in univerzitetni knjižnici (NUK) nalaga skrb za zajem, ohranjanje in nudenje dostopa uporabnikom do zajetih spletnih publikacij, spletnih mest in vsebin. Leta 2015 je NUK opravil prvi zajem slovenske do- mene .si, naslove spletnih domen je priskrbel Arnes (Akademska in raziskovalna mre- ža Slovenije). V prispevku se osredotočamo na pomen zajema spletnih vsebin zaradi vsakodnevnega propadanja spletnih domen. Poleg zajema in dejavnosti za zagotavlja- nje ohranjanja zajetih vsebin je v prispevku tematizirano tudi pridobivanje informacij iz nestrukturiranih vsebin (spletnih dokumentov). Omenjeni so primeri in delovanje aplikacij za zajemanje specifičnih informacij iz različnih spletnih dokumentov, npr. zajem cene določenega artikla v določeni trgovini z namenom obveščanja končnega uporabnika o najugodnejši ponudbi na trgu. Večji del prispevka je namenjen analizi zajetih spletnih vsebin in možnosti luščenja ter uteževanja besedišča, pridobljenega iz spletnih dokumentov. Z algoritmi in statistikami za označevanje in razvrščanje termi- nov v množici spletnih vsebin se spletni arhiv iz pasivne podatkovne zbirke spremeni v okolje, ki omogoča dodano vrednost povezovanja podatkov, iskanja sorodnosti znotraj podatkov spletnega arhiva in s podatki zunaj njega. Ključne besede: spletni arhivi, frekvenca pojavljanja, tf-idf, luščenje podatkov, spletni za- jemi, domena .si

RkJQdWJsaXNoZXIy