Posvet o novem slovarju slovenskega jezika, Ministrstvo za kulturo 12. 2. 2014 Simon Krek Institut "Jožef Stefan" SSKJ v slovarski bazi V okviru slovenskega leksikografskega prostora so na področju opisa splošnega jezika v preteklih letih potekali vzporedni leksikografski projekti, katerih rezultat sta Leksikalna baza za slovenščino (projekt Sporazumevanje v slovenskem jeziku) kot osnova za Predlog za izdelavo Slovarja sodobnega slovenskega jezika (SSSJ) ter Slovar novejšega besedja slovenskega jezika (SNB) kot slovar v tiskani obliki, katerega vsebina dopolnjuje obstoječi Slovar slovenskega knjižnega jezika in bo predvidoma integriran v drugo izdajo SSKJ. Rezultat prvega projekta predstavlja možno osnovo za izdelavo digitalne slovarske baze oz. slovarja, katerega primarna oblika je digitalna (" born digital dictionary"), rezultat drugega pa je knjižno zasnovan slovar, kakršnega poznamo iz evropske leksikografske tradicije 19. in 20. stoletja. V prispevku bomo predstavili nekatere elemente v mikro- in makrostrukturi slovarjev, ki nastajajo primarno v digitalni obliki in se posvetili razmisleku o možni integraciji podatkov iz Slovarja slovenskega knjižnega jezika v večfunkcionalno digitalno slovarsko bazo. Dictionary of Standard Slovenian in a dictionary database In Slovenia, there were two parallel lexicographic projects in recent years, one resulting in the Slovene Lexical Database (project Communication in Slovene) as the basis for the Proposal for the compilation of the Dictionary of modern Slovene and the other in the Dictionary of newer Slovene vocabulary as a printed dictionary whose contents represents an addition to the existing Dictionary of Standard Slovene and will be integrated in its second edition. The result of the first project represents a possible basis for the compilation of a dictionary or a dictionary database whose primary form is digital (born digital dictionary) while the result of the second is a dictionary made for print that is known from the European lexicographic tradition from the 19th and 20th century. The article presents some elements in micro- and macrostructure of the born digital dictionaries and reflects on the possible integration of the data from the Dictionary of Standard Slovene into a multi-purpose digital dictionary database. Ključne besede: slovarska baza, tiskani slovar, retrodigitalizirani slovar, slovar z digitalno zasnovo Posvet o novem slovarju slovenskega jezika, Ministrstvo za kulturo 12. 2. 2014 Keywords: dictionary database, printed dictionary, retrodigitized dictionary, born digital dictionary 1 Uvod Pri razmisleku o tem, kako zastaviti nov slovenski slovarski projekt, se sredi drugega desetletja 21. stoletja kot pomembna strateška odločitev postavlja vprašanje, ali je novi slovar v smislu notranje strukturiranosti še vedno treba zastaviti na podlagi tiskane zasnove SSKJ, ali je bolje zasnovati slovarsko bazo na novo na tak način, da je izvorni tiskani medij v celoti opuščen, kar pomeni, da je struktura baze bolj podobna računalniškim bazam podatkov kot pa linearno potekajočemu besedilu v tiskanem mediju. Ta razmislek ni samo tehnične narave, odločitev je bistveno povezana tako z vsebino slovarja, organizacijo slovarskega dela, predvsem pa s prihodnjo predvideno rabo slovarske baze v najrazličnejše namene. Pomembno je poudariti, da slovenščina ni edini jezik, ki se je na področju leksikografije pri prehodu v digitalno dobo znašel pred omenjeno dilemo, zato si bomo ogledali tudi nekatere rešitve, ki izhajajo iz tujih praks, predvsem Veliki slovar poljskega jezika, Slovar sodobnega nizozemskega jezika ter Danski slovar. 2 Zgodovina na kratko Uporaba računalnikov v leksikografiji ima že dolgo zgodovino, ki se začenja nekje v 60. letih prejšnjega stoletja. V poročilu o prvem večjem računalniškem slovarskem podvigu urednik slovarja The Random House Dictionary of the English Language pravi: "Dobro se spomnim svojega prvega srečanja z računalniki: leta 1959 sem pri založbi Random House delal na novem slovarju in prišlo mi je na misel, da bi bil računalnik idealen za razvrščanje in obdelavo različnih vrst podatkov, za izdelavo katerih sem bil odgovoren" (Urdang 1984: 152).1 Rezultati računalniške vaje so bili uspešni: "Kodiranje informacij na različnih ravneh – geslo, iztočnica, izgovor, razlaga/e, variantne oblike, etimologija, podiztočnice, ilustracije – in več kot 150 področij, katerim so bile lahko pripisane definicije – botanika, kemija, računalništvo itd., so omogočili pripravo podatkov na vseh nivojih in neodvisno za vsako področje, kar je zagotavljalo bolj poenoteno obravnavo in veliko večjo konsistentnost med 1 Za referenco se zahvaljujem dr. Dušanu Gabrovšku z Oddelka za anglistiko in amerikanistiko Filozofske fakultete Univerze v Ljubljani. Posvet o novem slovarju slovenskega jezika, Ministrstvo za kulturo 12. 2. 2014 povezanimi deli podatkov, kot je bilo to mogoče doseči pri drugih slovarjih" (ibid: 155–156). Končni rezultat je bila baza podatkov: "Na kratko, ustvarili smo zmogljivo bazo podatkov, izdelano iz slovarja s približno 260.000 gesli, ki smo jo lahko preiskovali po mili volji" (ibid: 156).2 To je bilo leta 1966, dve leti po tem, ko je bil izdan poskusni snopič Slovarja slovenskega knjižnega jezika in štiri leta pred izidom prve knjige A–H. Drugi slovarski projekt, ki ga je smiselno omeniti v kontekstu vprašanja organiziranosti slovarskih podatkov, je Longman Dictionary of Contemporary English (LDOCE) iz leta 1978. Baza omenjenega slovarja je bila namreč kmalu po izdaji tiskanega slovarja uporabljena za številne sekundarne namene, predvsem za potrebe računalniškega procesiranja angleščine. V obsežni študiji (Boguraev in Briscoe 1984) so tako opisani načini, kako je bila leksikalna baza ( lexical database) LDOCE, kot so jo tudi imenovali, uporabljena za sestavljanje leksikonov besednih oblik in različnih besednih seznamov, gradnjo taksonomij in ontologij, strojno skladenjsko razčlenjevanje, semantično procesiranje, raziskave kolokativnosti, računalniško sintezo govora in druge naloge.3 To je omogočila stukturiranost baze podatkov v leksikalni bazi, ki je bila organizirana po t. i. vozliščih ( nodes) oz. samostojnih strukturiranih delih s specifičnimi podatki: o iztočnici in njenih oblikah, izgovorjavi, naglaševanju, zlogovanju, skladenjskih vzorcih, semantičnih kategorijah, področnih omejitvah, definicijah itd. (glej Sliko 1). Slika 1: Leksikalna baza LDOCE Za angleški jezik bi torej lahko rekli, da sedemdeseta, še bolj pa osemdeseta leta prejšnjega stoletja že zaznamuje prehod slovarjev v digitalno okolje, tako pri uporabi korpusnih virov za 2 Omenjeni slovar oz. slovarska baza je bila kasneje uporabljena tudi za izdelavo črkovalnika The Random House ProofReader, ki je bil izdan leta 1982. 3 Nikakor ni naključje, da sta pri tej publikaciji sodelovala dva pomembna avtorja, ki se ukvarjata s področjem umetne inteligence: Bran Boguraev (IBM, projekt Watson) in Yorick Wilks (University of Sheffield). Posvet o novem slovarju slovenskega jezika, Ministrstvo za kulturo 12. 2. 2014 slovarje (projekt COBUILD),4 urejanju slovarjev in izkoriščanju za namene procesiranja naravnih jezikov ( Natural Language Processing). V tem času v Sloveniji še sestavljamo SSKJ, ki nastaja v klasični obliki: četrta knjiga Preo–Š izide 1985, zadnja knjiga z iztočnicami T–Ž leta 1991. Slovar v tistem času – razen zadnje, pete knjige – ne obstaja v digitalni obliki in ga ni mogoče izkoriščati v drugačne namene, bodisi za računalniško procesiranje ali za kompleksnejše jezikoslovne analize. Ena od sodelujočih pri procesu digitalizacije leta tako 1993 zapiše: "Glede na velik interes vseh, ki se ukvarjajo s pisanjem v slovenščini in z različnimi raziskavami slovenskega jezika ter pri svojem delu uporabljajo računalnike, je izdaja Slovarja v računalniški obliki nujna. /.../ Ko nam je uspelo pritegniti k delu računalniškega strokovnjaka mag. Primoža Jakopina, smo se odločili za optični prenos z bralnikom slike. Ministrstvo za znanost in tehnologijo nam je leta 1992 odobrilo namenska sredstva za nakup računalnika (PC 486) in bralnika slike, Ministrstvo za kulturo pa sredstva za nakup programske opreme za razpoznavanje besedila (Lecturus). Jakopin je svoj računalniški program EVE tako izpopolnil, da se je jeseni 1992 začelo poskusno delo." (Hajnšek Holz 1993: 421) Digitalizacija SSKJ poteka od 1992 do 1994 za potrebe stavljenja in izdaje SSKJ v eni knjigi (izid leta 1994) in za kasnejše izdaje v elektronski obliki na disketah (1997). 3 Retrodigitalizirani slovarji in slovarske baze V prej omenjenih angleških zgledih se zrcali dilema, s katero so se spopadali tako rekoč vsi slovarji v devetdesetih letih prejšnjega stoletja. Oba omenjena angleška slovarja sta že nastajala v digitalni obliki, kar je omogočalo veliko boljši in konsistentnejši nadzor in izkoriščanje vsebine, četudi je bila splošni javnosti ta potem dostopna v tiskani obliki. Precej drugačne pa so dileme pri t. i. retrodigitaliziranih slovarjih, ki izhodiščno niso nastajali v digitalni obliki, temveč so bili naknadno digitalizirani – v angleškem prostoru je najbolj tipičen primer Oxford English Dictionary. Za razliko od angleščine, ki je pri rabi računalnikov v leksikografiji prehitevala za desetletje ali dve, je v devetdesetih letih prejšnjega stoletja potekala množična digitalizacija slovarjev iz tiskane osnove tudi pri drugih jezikih. Kot kaže zgled LDOCE, pri slovarjih gre za močno 4 Slovar COBUILD je bil izdan leta 1987, temeljil pa je na analizi 7,3-milijonskega besedilnega korpusa z istim imenom. Posvet o novem slovarju slovenskega jezika, Ministrstvo za kulturo 12. 2. 2014 strukturirano besedilo, ki ga lahko uporabimo tudi za najrazličnejše druge namene, če je baza konsistentno notranje organizirana. Iz tega izhaja, da je ključna odločitev pri procesu digitalizacije, ali bo nastali retrodigitalizirani slovar upošteval predvsem elemente oblikovanja, torej različnih vrst ali slogov pisav, ali pa bodo v tem procesu upoštevane tudi vsebinske informacije in notranja strukturiranost makrostrukture slovarja (identifikacija geselskih člankov), predvsem pa njegovih mikrostrukturnih delov (npr. identifikacija razlag, oznak, zgledov ...). Ker pri tiskanih slovarjih, ki so bili izdelani brez računalniških urejevalnikov, ni bilo niti možno niti smiselno v celoti slediti strogi notranji strukturiranosti mikrostrukturnih podatkov, je še bolj kritično vprašanje, ali bodo v procesu digitalizacije nekonsistentnosti odpravljene oz. ali se bomo tega vprašanja sploh lotili, ali pa bo uporabljena struktura dovolj ohlapna, da bo dovoljevala nekonsistentnosti, s tem pa bomo potencialno ogrozili ali omejili uporabo baze za druge namene. V času izdelave LDOCE (1978) še ni bilo univerzalnih standardov, s pomočjo katerih bi lahko oblikovanje povezali s strukturo vsebine. Ta potreba je bila na svetovni ravni močno zaznana v osemdesetih letih, ko je najprej nastal standard SGML ( Standard Generalized Markup Language), ki mu je kasneje sledil XML ( eXtended Markup Language). Standard SGML je bil objavljen leta 1986 in je bil torej v času digitalizacije SSKJ že na voljo, žal pa ga Inštitut za slovenski jezik pri procesu digitalizacije ni uporabil za strukturiranje slovarske baze. Sistem, ki je bil uporabljen, je v glavnem upošteval oblikovanje, poleg samih geselskih člankov pa so bili označeni tudi nekateri mikrostrukturni elementi, ki jih je bilo mogoče konsistentno prepoznavati, denimo iztočnice, oznake, zgledi in podobno. Kodiranje SSKJ v takratni obliki je prikazano na Sliki 2 (začetek gesla "maček").5 Slika 2: Struktura v Slovarju slovenskega knjižnega jezika 5 Slika izhaja iz verzije baze SSKJ, ki je bila leta 1998 objavljena na prosto dostopnem delu spletne strani Inštituta za slovenski jezik. Posvet o novem slovarju slovenskega jezika, Ministrstvo za kulturo 12. 2. 2014 Naslednja možnost pretvorbe SSKJ v format SGML/XML je bila na voljo v letih 1998–2000, ko je za slovarje v našem geografskem oz. jezikovnem prostoru potekal projekt CONCEDE ( Consortium for Central European Dictionary Encoding 1998–2000), v okviru katerega je bil izdelan standard SGML/XML za strukturiranje bolgarskih, čeških, estonskih, madžarskih in romunskih enojezičnih slovarjev, ne pa tudi slovenskega. Institutu »Jožef Stefan«, ki je sodeloval pri tem projektu, Inštitut za slovenski jezik Frana Ramovša namreč ni dal na voljo že obstoječe digitalizirane baze SSKJ niti ni želel sodelovati v projektu. Pretvorba SSKJ v format XML je tako potekala šele v letih 2011–2013, torej 20 let po digitalizaciji, in sicer za potrebe uvoza v slovarski urejevalnik iLex in s tem povezane druge izdaje SSKJ oz. izdelave Novega slovarja slovenskega jezika (Ledinek, Perdih 2012a, 2012b). Navedki iz prispevkov sodelavcev Inštituta za slovenski jezik, ki so se ukvarjali s pretvorbo v format XML, kažejo, da se na Inštitutu pravzaprav zavedajo slovarske realnosti v 21. stoletju: »Morda najodločilneje je sodobno leksikografijo zaznamovalo dejstvo, da leksikografi in uporabniki slovarskih priročnikov ne dojemajo več kot (izhodiščno) knjižnih jezikovnih virov, ampak kot večnamenske razširljive strukturirane računalniško berljive podatkovne baze, v katerih so podatki ustrezno hierarhizirani, (standardno) označeni in medsebojno povezani. V letu 2011 je bila oblikovana tudi XML-shema za nastajajoči Novi slovar slovenskega jezika, enojezični razlagalni slovar v obsegu približno 70.000 gesel, ki naj bi bil nekoliko manj ambiciozen naslednik Slovarja slovenskega knjižnega jezika. Pri njeni pripravi smo se srečali z izzivom, kako vzpostaviti XML-shemo, ki bo omogočala ohranjanje leksikografske tradicije predhodnika v segmentih, ki so se izkazali za dobre in ki so jih uporabniki vajeni, in sicer tudi na ravni izmenljivosti podatkov med obema bazama, hkrati pa omogočala vzpostavitev novih leksikografskih praks, ki so se kot ustrezne potrdile v praksi sodobne, tudi tujejezične leksikografije, pri čemer naj bi bila shema oblikovana čim bolj striktno in preudarno, tj. tako, da v čim večji meri preprečuje nesistematično interpretiranje podatkov, hkrati pa njihovo predstavitev na uporabniku čim bolj prijazen način v elektronski obliki.« (Ledinek, Perdih 2012a: 128) Težav pri pretvorbi SSKJ v format XML iz obdobja 2011–2013 je več. Prva je ta, da niti sama shema XML, torej formalni zapis slovarske strukture, niti vzorčna gesla v formatu XML niso bila javno objavljena. Tako pravzaprav ne moremo oceniti, do katere mere držijo trditve, da Posvet o novem slovarju slovenskega jezika, Ministrstvo za kulturo 12. 2. 2014 bo slovarska baza »omogočala vzpostavitev novih leksikografskih praks«. Avtorjema lahko zgolj verjamemo na besedo. Druga težava je, da avtorja omenjata zgolj povezljivost »podatkov med obema bazama«. V času, ko se evropski leksikografi sprašujejo o množičnem povezovanju leksikografskih baz v tako rekoč neskončno mrežo podatkov o različnih jezikih,6 je omenjeni cilj bistveno premalo ambiciozen. Prva stvar, o kateri bi bilo treba razmišljati že na ravni slovenščine, ne glede na univerzalno povezljivost z drugimi jeziki, je konsistentno povezovanje obstoječih in bodočih digitalnih virov za slovenski jezik: korpusov, leksikonov besednih oblik, pravopisnih priročnikov, dvo- ali večjezičnih slovarjev, digitalnih knjižnic itd. Še najbolj pa je pri načrtovanem slovarju oz. slovarjih problematično, da do sedaj edini objavljeni primeri gesel iz Novega slovarja slovenskega jezika (Snoj 2012: 96–101) kažejo, da je zasnova še vedno izrazito knjižna. Slovar bo imel zelo zapleten sistem oznak, kazalk in drugih slovarskih sredstev, ki so znani iz sveta tiskanih slovarjev, njegovo zasnovo bodo v veliki meri določali izračuni velikosti fontov, dolžine vrstic in podobno. V nadaljevanju prikazujemo gesla iz slovarja, kakor so predstavljena v omenjenem prispevku: 6 Primera sta denimo evropski projekt COST European Network of e-Lexicography (http://www.cost.eu/domains_actions/isch/Actions/IS1305) z enim od ciljev, da se razišče »panevropska narava večine besedišča evropskih jezikov«, ter delavnice na konference Euralex 2014 Publishing and consuming lexicographical resources in the linked (open) data cloud – Objava in uporaba leksikografskih virov v povezanem oblaku (odprtih) podatkov. Posvet o novem slovarju slovenskega jezika, Ministrstvo za kulturo 12. 2. 2014 Slika 3: Gesla v Novem slovarju slovenskega jezika Del o vprašanju (retro)digitalizacije in s tem povezanimi načrtovanimi dejavnostmi lahko sklenemo z ugotovitvijo, da je digitalizacija SSKJ potekala sočasno z digitalizacijo slovarjev za druge evropske jezike, da pa je njena nadaljnja usoda vključevala dve izraziti težavi: (a) baza ni bila ustrezno strukturirana, saj se ni nahajala v bazi podatkov s konsistentno notranjo strukturo (primer LDOCE) oz. v formatu SGML/XML, in (b) baza ni bila dana na voljo raziskovalni in širši skupnosti za namene raziskovanja, računalniškega procesiranja itd. Glede na sicer skope podatke Inštituta za slovenski jezik pa lahko sklepamo, da bodo tudi načrtovani slovarji zasnovani za tiskani medij. 4 Slovarji z digitalno zasnovo in Leksikalna baza za slovenščino Slovarja The Random House Dictionary of the English Language in Longman Dictionary of Contemporary English smo izpostavili kot primera slovarjev, ki sta bila za razliko od retrodigitaliziranih slovarjev že zelo zgodaj zasnovana kot slovarski bazi, vendarle pa sta bila tudi tadva primarno izdelana za tiskani medij. V zadnjem desetletju pa so svetovni trendi, kot je širjenje spleta in njegova vsesplošna, tudi mobilna dostopnost, splošni prehod v digitalne medije, tudi z radikalnim opuščanjem tiska, ter hiter razvoj informacijsko-komunikacijskih tehnologij močno posegli tudi na področje tradicionalne leksikografije. Začel se je prehod s Posvet o novem slovarju slovenskega jezika, Ministrstvo za kulturo 12. 2. 2014 slovarjev, izdelanih za tisk, na born digital dictionaries – slovarje, ki so v osnovi zasnovani za digitalni medij in jih ne utesnjujejo tradicionalne omejitve tiskanega medija v smislu prostora ali razporeditve podatkov na (tiskani) strani ter izkoriščajo povezljivost tako na spletu kot tudi med različnimi bazami (npr. korpusi) in znotraj slovarske baze. Na strokovni ravni se indikativni trendi zadnjih let kažejo v nastanku in popularnosti serije konferenc E- lexicography in the 21st century (2009, 2011, 2013) ter vzpostavitvi vseevropskega projekta COST European Network of e-Lexicography (2013–2017), pri katerem denimo sodelujejo predstavniki 25 držav, večinoma z inštitutov za nacionalne jezike. V nadaljevanju bomo izpostavili tri jezike oz. slovarje, ki so značilni za omenjeni trend: danščina z Danskim slovarjem ( Den Danske Ordbog), poljščina z Velikim slovarjem poljskega jezika ( Wielki słownik języka polskiego) ter nizozemščina s slovarjem sodobnega nizozemskega jezika ( Algemeen Nederlands Woordenboek).7 Danski slovar izpostavljamo kot predstavnika linije, ki skuša kombinirati izvorno tiskani slovar z drugimi bazami, pri čemer so različni podatki bodisi vključeni ali povezani s slovarsko bazo. V nadaljevanju prikazujemo del gesla fiktiv (sl. fiktiven, navidezen) iz Danskega slovarja v formatu XML: fiktiv adj. -t 7 Spletne strani: http://ordnet.dk/ddo/, http://www.wsjp.pl/, http://anw.inl.nl/. Posvet o novem slovarju slovenskega jezika, Ministrstvo za kulturo 12. 2. 2014 -e HfigBtiwZ <...> Struktura gesla kaže sestavo, ki je značilna za slovarje, izhajajoče iz tiskanega medija, s številnimi hierarhičnimi nivoji za razmeroma preproste tipe informacij. Poleg tega se tiskana osnova kaže tudi z ohranjanjem okrajšanih delov gesla. Isto geslo je na spletu vizualizirano takole: Slika 4: Danski slovar Posvet o novem slovarju slovenskega jezika, Ministrstvo za kulturo 12. 2. 2014 Kot vidimo, je osnovna besednovrstna opredelitev iztočnice v bazi denimo navedena z okrajšavo, vizualizirana pa je z izpisom, skupaj s povezavo na slovnično pojasnilo. Baza vsebuje tudi podatke, ki spletnim uporabnikom (še) niso dostopni. Tak primer je povezava posameznega pomena v slovarju z bazo danskega WordNeta oz. DanNeta: frit opfundet og uden grund i virkelighedenopfundet <...> Poleg dodanih nevizualiziranih podatkov slovarska baza vsebuje tudi povezave na zunanje baze, na primer na danski korpus. Kot primer navajamo zvezo fiktiv tekst, ki je v strukturi XML zabeležena na naslednji način: fiktiv tekst
fiktiv
¤fiktiv, adj. 11012881
tekst
Posvet o novem slovarju slovenskega jezika, Ministrstvo za kulturo 12. 2. 2014 ¤tekst, sb. 12000522
Spletni uporabniki zgornji slovarski zapis v formatu XML vidijo kot povezavo na korpus (glej sliko zgoraj), ki ob kliku prikaže naslednji rezultat: Slika 5: Danski korpus Na opisani način je torej slovarska baza izvorno tiskanega slovarja nadgrajena in povezana z drugimi digitalnimi bazami. Ostala dva slovarja – poljski in nizozemski – sta bila že na izhodišču zastavljena drugače, in sicer eksplicitno kot slovarja, ki sta primarno namenjena uporabi v digitalnem okolju, zato je tudi njuna zasnova in posledično shema XML povsem drugačna. Najbolj izstopajoča značilnost teh slovarjev je organiziranost podatkov v strogo hierarhično strukturo, kjer uporabnik do podatkov dostopa preko t. i. pomenskega menija, podatki na ostalih nivojih pa so organizirani po posameznih v sebi zaključenih enotah, ki so na podoben način tudi vizualizirani na spletu: Posvet o novem slovarju slovenskega jezika, Ministrstvo za kulturo 12. 2. 2014 Slika 6: Slovar sodobnega nizozemskega jezika (geslo koe, sl. krava) Slika 7: Veliki slovar poljskega jezika (geslo spodenki, sl. spodnjice, kratke hlače) Podatki v omenjenih slovarjih so torej organizirani neobremenjeno z linearno organizacijo besedila v tiskanih slovarjih, vsebujejo pa lahko tudi neomejeno količino informacij in povezav na druge jezikovne vire. Na podoben način kot poljski in nizozemski slovar je organizirana Leksikalna baza za slovenščino (LBS) (Gantar 2009), izdelana v okviru projekta Sporazumevanje v slovenskem jeziku.8 Oblikovana je kot mreža medsebojno povezanih leksikalnogramatičnih podatkov, ki so organizirani v šest nivojev. Notranja hierarhična ureditev temelji na semantičnem izhodišču, kar pomeni, da so podatki na posameznem nivoju podrejeni pomenskim lastnostim 8 Spletna stran: http://www.slovenscina.eu/. Posvet o novem slovarju slovenskega jezika, Ministrstvo za kulturo 12. 2. 2014 besede. Hierarhično najvišja je lema, tj. iztočnica v osnovni obliki, ki zastopa vse pripadajoče leksikalne enote, kamor so všteti posamezni pomeni in podpomeni, stalne besedne zveze in frazeološke enote. Na pomenskem nivoju so zabeleženi osnovni pomeni in podpomeni obravnavane besede v iztočnici, ki so opredeljeni s pomenskimi indikatorji. Indikatorji so primarno namenjeni oblikovanju pomenskega menija, ki služi uporabniku za hitro navigacijo po večpomenskem geslu. Drugi del pomenske informacije predstavlja pomenska shema, ki se teoretično približuje pomenskim shemam, kot jih predvideva projekt FrameNet.9 Čeprav so skladenjski podatki v obliki osnovnega stavčnega vzorca za vsak posamezni pomen vključeni že v pomensko shemo, je eksplicitno skladenjskim podatkom namenjen skladenjski nivo. Na tem nivoju so za vsak registrirani pomen besede v iztočnici zabeležene skladenjske strukture in skladenjske zveze, pri glagolih glede na njihovo vlogo stavčnega organizatorja pa tudi stavčni vzorci. Naslednji nivo je kolokacijski: na primer, skladenjska struktura gbz Inf-GBZ (glagol + nedoločnik) je zapolnjena s kolokacijami kot [uspeti, poskušati, skušati, znati] omrežiti, vzorec kdo omreži koga in omrežiti s čim pa s kolokacijami [ženska] omreži, omrežiti [moškega, srce] in omrežiti s [čari]. Vloga korpusnih zgledov, ki so navedeni na samostojnem nivoju, je ponazoriti in potrditi vse predhodne informacije ter hkrati pokazati obnašanje leksikalne enote v njenem najbolj naravnem in tipičnem okolju. Stalne zveze in frazeološke enote so v LBS obravnavane kot samostojne leksikalne enote. Prve so vključene pod posamezni pomen ali podpomen besede v iztočnici, druge pa na koncu geselskega članka v samostojnem razdelku. Vsaka stalna zveza in frazeološka enota je opredeljena s pomenskim indikatorjem, lahko ima izkazane različne variantne oblike in tipično kolokabilno okolje ter mora biti potrjena z zgledi iz korpusa. Leksikalna baza za slovenščino torej predstavlja osnovo za slovar slovenskega jezika z digitalno zasnovo, kakršen je bil konceptualiziran v Predlogu za izdelavo Slovarja sodobnega slovenskega jezika.10 Za potrebe prispevka je bil izveden tudi poskus vnosa podatkov srednje zahtevnega gesla iz SSKJ (»maček«) v strukturo LBS, z namenom, da preverimo možnost integracije podatkov, 9 Spletna stran: https://framenet.icsi.berkeley.edu/fndrupal/. 10 Spletna stran: http://www.sssj.si/. Posvet o novem slovarju slovenskega jezika, Ministrstvo za kulturo 12. 2. 2014 kakor so organizirani v leksikalni bazi, in podatkov v obstoječem slovarju SSKJ. Poskus je bil izveden v orodju Oxygen, kakor prikazuje slika X: Slika 8: Geslo "maček" v orodju Oxygen Poskus je pokazal, da tehnično vključitev ni problematična, saj je bilo za integracijo vseh podatkov iz SSKJ v vsebinsko smiselne elemente LBS treba dodati zgolj nekaj elementov v zaglavju. Razlog za ta dodatek je v zasnovi LBS, ki predpostavlja, da se podatki o pregibnih oblikah, izgovoru itd. nahajajo v drugih bazah (npr. leksikonu besednih oblik), s katerimi je iztočnica povezana, niso pa del same baze. Poleg tega je bilo treba dodati tudi t. i. terminološko gnezdo, saj zasnova LBS predpostavlja, da so terminološke enote bodisi vključene v pomensko strukturo ali pa so samostojna gesla v bazi. Ostale dele gesla v SSKJ je bilo mogoče vključiti na logična mesta v LBS. To pomeni, da je vsebinsko vključitev podatkov iz SSKJ v LBS načeloma možna, za končno oceno smiselnosti združitve podatkov pa bi bilo treba predvsem poznati obstoječo strukturo XML druge izdaje SSKJ oz. Novega slovarja slovenskega jezika. Posvet o novem slovarju slovenskega jezika, Ministrstvo za kulturo 12. 2. 2014 5 Zaključek Kakšna bo povsem formalna zasnova slovarja, ki ga bomo uporabljali v prihodnje, je odločitev, ki presega zgolj preprosto tehnično vprašanje izdelave sheme XML za obstoječi slovar. Odločitev vključuje niz dilem, katerih narava je v temelju leksikografska. Kolikor predpostavljamo, da bo prihodnji slovar eden od osrednjih virov v mnogo širšem ekosistemu jezikovnih virov za slovenščino, ki je povezljiv in povezan tako z leksikonom besednih oblik, leksikalno bazo, različnimi korpusi (govorjenega, pisnega jezika), bazami posnetega govora, slovarjem znakovnega jezika, slovenskim WordNetom (sloWNet), slovensko Wikipedijo in mnogimi drugimi, tudi dvo- ali večjezičnimi bazami, je smiselno zasnovati novi slovar kot hierarhično in fleksibilno organizirano slovarsko bazo, ne pa kot slovar s knjižno zasnovo. Poskus integracije podatkov iz obstoječega SSKJ v strukturo Leksikalne baze za slovenščino kaže, da je te podatke mogoče vključiti in s tem omogočiti bodisi njihovo vizualizacijo na enotnem slovarskem portalu ali uporabo delov pri sestavljanju novega slovenskega slovarja. Bibliografija BOGURAEV, Bran, BRISCOE, Ted (ur.), 1989. Computational Lexicography for Natural Language Processing. London, New York: Longman. GANTAR, Polona, 2009. "Leksikalna baza: vse, kar ste vedno želeli vedeti o jeziku. " Jezik in slovstvo 54(3/4). 69–94. HAJNŠEK-HOLZ, Milena, 1993. "Leksikografski problemi prenosa knjižne oblike Slovarja slovenskega knjižnega jezika v računalniško". ezik tako in drugače. 420–432. LEDINEK, Nina, PERDIH, Andrej, 2012a. "Izdelava XML-shem za slovarske projekte na primeru nastajajočih tipološko raznovrstnih slovarjev". Zbornik Osme konference Jezikovne tehnologije, 8. do 12. oktober 2012: zbornik 15. mednarodne multikonference Informacijska družba – IS 2012, zvezek C. Institut »Jožef Stefan«, Ljubljana. Str. 123–128. LEDINEK, Nina, PERDIH, Andrej, 2012b. "Uporaba XML-formata v leksikografiji na primeru oblikovanja XML-sheme za Slovar sinonimov slovenskega jezika". Jezikoslovni zapiski: zbornik Inštituta za slovenski jezik Frana Ramovša, 18/1. ZRC SAZU, Ljubljana. Str. 157–176. SNOJ, Marko, 2012. "Podgesla v Novem slovarju slovenskega jezika". Škrabčevi dnevi 7 – Zbornik prispevkov s simpozija 2011. Nova Gorica. URDANG, Laurence, 1984: A lexicographer's adventures in computing . Dictionaries: Journal of the Dictionary Society of North America 6.1. 150–165.