<?xml version="1.0"?><rdf:RDF xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:edm="http://www.europeana.eu/schemas/edm/" xmlns:wgs84_pos="http://www.w3.org/2003/01/geo/wgs84_pos" xmlns:foaf="http://xmlns.com/foaf/0.1/" xmlns:rdaGr2="http://rdvocab.info/ElementsGr2" xmlns:oai="http://www.openarchives.org/OAI/2.0/" xmlns:owl="http://www.w3.org/2002/07/owl#" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:ore="http://www.openarchives.org/ore/terms/" xmlns:skos="http://www.w3.org/2004/02/skos/core#" xmlns:dcterms="http://purl.org/dc/terms/"><edm:WebResource rdf:about="http://www.dlib.si/stream/URN:NBN:SI:doc-HQISSFTG/610da3e6-ac01-4e67-8859-111e2c9263ea/HTML"><dcterms:extent>37 KB</dcterms:extent></edm:WebResource><edm:WebResource rdf:about="http://www.dlib.si/stream/URN:NBN:SI:doc-HQISSFTG/16238a20-46da-4825-a375-e951110c7f5e/PDF"><dcterms:extent>366 KB</dcterms:extent></edm:WebResource><edm:WebResource rdf:about="http://www.dlib.si/stream/URN:NBN:SI:doc-HQISSFTG/ae0fc1d2-0bf9-49e0-a53c-811119ee691b/TEXT"><dcterms:extent>32 KB</dcterms:extent></edm:WebResource><edm:TimeSpan rdf:about="1955-2025"><edm:begin xml:lang="en">1955</edm:begin><edm:end xml:lang="en">2025</edm:end></edm:TimeSpan><edm:ProvidedCHO rdf:about="URN:NBN:SI:doc-HQISSFTG"><dcterms:isPartOf rdf:resource="https://www.dlib.si/details/URN:NBN:SI:spr-2SDQL3ET" /><dcterms:issued>2009</dcterms:issued><dc:creator>Arhar Holdt, Špela</dc:creator><dc:format xml:lang="sl">številka:3/4</dc:format><dc:format xml:lang="sl">letnik:54</dc:format><dc:format xml:lang="sl">str. 43-56</dc:format><dc:identifier>ISSN:0021-6933</dc:identifier><dc:identifier>URN:URN:NBN:SI:doc-HQISSFTG</dc:identifier><dc:language>sl</dc:language><dc:publisher xml:lang="sl">Slavistično društvo Slovenije</dc:publisher><dcterms:isPartOf xml:lang="sl">Jezik in slovstvo</dcterms:isPartOf><dc:subject xml:lang="sl">korpusna lingvisitka</dc:subject><dc:subject xml:lang="sl">lastna imena</dc:subject><dc:subject xml:lang="sl">leksikonske enote</dc:subject><dc:subject xml:lang="en">Slovene</dc:subject><dc:subject xml:lang="sl">slovenščina</dc:subject><dc:subject xml:lang="sl">učni korpus</dc:subject><dc:subject rdf:resource="http://www.wikidata.org/entity/Q9063" /><dcterms:temporal rdf:resource="1955-2025" /><dc:title xml:lang="sl">Učni korpus SSJ in leksikon besednih oblik za slovenščino|</dc:title><dc:description xml:lang="sl">The main purpose of the article is the presentation of the preparation of the training corpus and the lexicon of word forms for Slovene. With a scope of 400,000 words, the existing corpus presupposes four-level manually checked annotation: lemmatisation, morphosyntactic and syntactic annotation, and named entity recognition. Together with the JOS100k corpus, the SSJ corpus forms a training corpus of half a million entries for training statistical models, such as for the purposes of morphosyntactic tagging and parsing of Slovene texts. The lexicon will provide approximately 100,000 units, containing morphological paradigms of individual words with a selection of data, in line with the JOS system of morphosyntactic annotation. The inclusion of information about the (derivational) connectedness of lexical units is foreseen, and in the case of observed form variation in language use we will also include information about the frequency of forms and the current definition in normative sources. The inclusion of multiword units is foreseen on the level of multiword proper nouns and forms for which there are variants that are written together and apart</dc:description><dc:description xml:lang="sl">Glavni namen prispevka je predstavitev priprave učnega korpusa ter leksikona besednih oblik za slovenščino. 400.000 besed obsegajoči korpus SSJ predvideva štirinivojsko označenost: lematizacijo, označenost na oblikoskladenjski ter skladenjski ravni ter označenost lastnih imen. Vse oznake bodo ročno pregledane. Skupaj s korpusom JOS100k tvori korpus SSJ polmilijonski učni korpus za učenje statističnih modelov za npr. oblikoskladenjsko označevanje ter skladenjsko razčlenjevanje slovenščine. Leksikon besednih oblik bo prinašal okvirno 100.000 leksikonskih enot, vsebujočih oblikoslovne paradigme posameznih besed z naborom informacij, prekrivnih s sistemom oblikoskladenjskega označevanja JOS. Predvidena je vključitev informacij o (besedotvorni) povezanosti leksikonskih enot, v primeru v jezikovni rabi izpričane oblikovne variantnosti pa bodo vključeni tudi podatki o pogostnosti oblik ter njihovi trenutni opredeljenosti v normativnih virih. Vključitev večbesednih enot je predvidena na ravni večbesednih lastnih imen ter oblik, ki se variantno pišejo skupaj oz. narazen</dc:description><edm:type>TEXT</edm:type><dc:type xml:lang="sl">znanstveno časopisje</dc:type><dc:type xml:lang="en">journals</dc:type><dc:type rdf:resource="http://www.wikidata.org/entity/Q361785" /></edm:ProvidedCHO><ore:Aggregation rdf:about="http://www.dlib.si/?URN=URN:NBN:SI:doc-HQISSFTG"><edm:aggregatedCHO rdf:resource="URN:NBN:SI:doc-HQISSFTG" /><edm:isShownBy rdf:resource="http://www.dlib.si/stream/URN:NBN:SI:doc-HQISSFTG/16238a20-46da-4825-a375-e951110c7f5e/PDF" /><edm:rights rdf:resource="http://rightsstatements.org/vocab/InC/1.0/" /><edm:provider>Slovenian National E-content Aggregator</edm:provider><edm:intermediateProvider xml:lang="en">National and University Library of Slovenia</edm:intermediateProvider><edm:dataProvider xml:lang="sl">Slavistično društvo Slovenije</edm:dataProvider><edm:object rdf:resource="http://www.dlib.si/streamdb/URN:NBN:SI:doc-HQISSFTG/maxi/edm" /><edm:isShownAt rdf:resource="http://www.dlib.si/details/URN:NBN:SI:doc-HQISSFTG" /></ore:Aggregation></rdf:RDF>