URN_NBN_SI_DOC-1YZLGG4C

205 JEZIKOSLOVNI VIRI STAREJŠE SLOVENŠČINE Historical Slovenian Language Resources Tomaž Erjavec Oddano: 10. 7. 2012 – Sprejeto: 19. 7. 2012 1.01 Izvirni znanstveni članek 1.01 Original Scientific Article UDK: 027:025.4.036:81'374 Izvleček V prispevku so predstavljeni trije jezikovni viri starejšega slovenskega jezika: zbirka besedil oz. digitalna knjižnica, referenčni jezikoslovno označeni korpus in slovar oz. besedišče. Zbirka besedil vsebuje 158 del, večinoma knjig z redigirano transkripcijo besedila in faksimili, skupaj nekaj več kot 13.000 strani. Korpus sestavlja 1000 strani, vzorčenih iz te zbirke, kjer je vsaki besedni pojavnici pripisana ročno pregledana sodobna ustreznica besedne oblike, njena lema in leksikalna oblikoskladenjska oznaka. Slovar je bil zajet iz razširjenega ročno pregledanega korpusa in ima 25.000 gesel, ki vsebujejo sodobne ustreznice in korpusno atestirane besedne oblike. Vsi trije viri so zapisani skladno s smernicami za zapis besedil TEI (Text Encoding Initiative Guidelines) in dostopni na spletu za pregledovanje in preiskovanje, kot tudi za prenos pod licenco Creative Commons – priznanje avtorstva. Namen virov je po eni strani omogočiti empirično podprte diahrone jezikoslovne raziskave in približati starejša besedila in leksiko sodobnemu bralcu, po drugi pa ti predstavljajo podatkovno infrastrukturo za razvoj jezikovnih tehnologij, ki lahko npr. omogočajo iskanje po polnem besedilu pisne kulturne dediščine. Zbirka besedil, korpus in slovar so dostopni na http://nl.ijs.si/imp/. Ključne besede: digitalne knjižnice, starejša slovenščina, referenčni korpusi, slovarji Extended abstract The paper presents three language resources enabling better full-text access to digitised printed historical Slovenian texts: a hand-annotated corpus, a hand-annotated lexicon of historical words and a collection of transcribed texts. The aim of the resources is twofold: on one hand they support empirical linguistic research (corpus, collection) and represent a reference tool for the research of historical Slovenian (lexicon) while on the other hand they may serve as training

RkJQdWJsaXNoZXIy