Posvet o novem slovarju slovenskega jezika, Ministrstvo za kulturo 12. 2. 2014 Simona Klemenčič Inštitut za slovenski jezik Frana Ramovša ZRC SAZU Polne etimološke osvetlitve v novem slovarju Etimološke osvetlitve bodo predstavljale pomemben del novega slovarja slovenskega jezika. Na več plasteh besedja je prikazan pomen razvoja jezikovnih tehnologij za raziskave izvora besed, pa tudi njihove trenutne omejitve. Full etymological explanations in the new Dictionary Etymological explanations will constitute an important part of the new dictionary of Slovene language. Importance of development of language technologies for research of word origins is shown on different layers of a language’s lexicon, as well as their present limitations. Ključne besede: etimologija, slovaropisje, slovar, primerjalna metoda, verjetnostna metoda Keywords: etymology, lexicography, dictionary, comparative method, probabilistic method Etimološke osvetlitve v slovarju se delijo na sklicevalne (sklic na besedo, ki je obravnavana na drugem mestu v slovarju) in polne. Polne etimološke osvetlitve zajemajo: a) plast besedja, ki je nastalo v relativno nedavnem razvoju jezika – tvorjenke iz besednih zvez in predložnih zvez, poenobesedene besedne zveze, besede, nastale iz lastnih imen, in razlage kratic, b) etimološke osvetlitve izposojenk in tujk ter c) polne etimološke osvetlitve besed, podedovanih iz starejših jezikovnih plasti. Načela pisanja etimoloških osvetlitev v novem slovarju slovenskega jezika so bila natančneje opredeljena v Snoj 2009 in v SNB ( Slovarju novejšega besedja) 2012: 45–49 ter uporabljena pri pisanju 4670 etimoloških osvetlitev v SNB. V SNB je zaradi specifike slovarja, ki zajema novejše besedje, večji poudarek na pisanju sklicevalnih etimoloških osvetlitev v primerjavi z novim slovarjem slovenskega jezika, ki bo zajel večji del prevzetega in predvsem podedovanega besedja. Pred začetkom pisanja etimoloških osvetlitev za novi slovar bi bilo zato koristno še enkrat soočiti poglede na zapisovanje iz starejših jezikovnih plasti podedovanega besedja. V tem se kot najbolj pereča Posvet o novem slovarju slovenskega jezika, Ministrstvo za kulturo 12. 2. 2014 kažejo vprašanje pogledov na praslovanske jezikovne plasti v diahroni perspektivi, vprašanje zapisovanja laringalov (barvajoči ali nebarvajoči; h1 do h4 ali simbol za laringal, ki pokriva vse štiri?), pogledi na praindoevropski šva ter interdentalni pripornik ter vprašanje zapisa posebnih znakov, kot so palatalizirani, labializirani in pridihnjeni konzonanti, pri čemer predlagam, da ohranimo zapis, ki je v skladu s tradicijo sodobne slovenske in zahodnoevropske indoevropeistike. Ko govorimo o etimoloških osvetlitvah, se poraja vprašanje, v kolikšni meri lahko jezikovne tehnologije pohitrijo delo etimologa. Pomoč jezikovnih tehnologij je seveda dobrodošla in tudi nujna. Primerjalno jezikoslovje je kljub natančnim postopkom induktivna metoda, pri kateri imajo sprejeti argumenti (v tem primeru etimološke osvetlitve) sicer praviloma zelo veliko logično moč, še vedno pa so občutljivi za nove podatke (prim. Klemenčič 2012: 19– 34). Če primerjamo npr. etimologijo slovenske besede kašelj v Snoj 2003: 263 in njene hrvaške sorodnice kašalj v HER ( Hrvatski enciklopedijski rječnik) 2003: 561, vidimo, da se indoevropski rekonstrukciji do neke mere razlikujeta. V prvem slovarju se beseda izvaja iz ṷ ṷ korena * k ās- (* k ah2s-), v drugem pa iz korena * keh2s-. Etimolog se mora odločati med različnimi možnimi etimologijami v skladu s svojim strokovnim znanjem in materialom, ki ga ima na razpolago. Zahteva po upoštevanju celotne evidence je področje, na katerem je računalniška podpora nujna. »Nabiranje češnjic« ni zaželeno pri nobenem sklepanju, jezikovnega materiala za osvetlitev posameznega problema pa je zelo veliko, medtem ko je časa za pregledovanje in ovrednotenje le-tega relativno malo. To je razlog, zaradi katerega je pri etimologovem delu nujno potrebna pomoč tehnologije. Iskanje po digitaliziranih bazah je neprimerljivo hitrejše kot po slovarjih v knjižni obliki. Idealno bi bilo, ko bi digitalizirali vse etimološke, enojezične in historične slovarje, ki so na voljo, predvsem slovanske, in čim večje število ustreznih člankov in monografij. Potrebovali bi aplikacijo, ki bi pregledovala vse te baze in v njih poiskala določen niz znakov v določenem jeziku (ne pa tudi v drugih), in sicer tako, da bi upoštevala le tiste besede, ki so v besedilu posebej obravnavane v kontekstu etimologije (ležeči tisk), ne pa tudi ostalih pojavitev tega niza v besedilu. Težava s tem ni toliko tehnična, saj bi bilo to dokaj preprosto izvedljivo, kot se je pokazalo že pri izdelavi pete knjige Etimološkega slovarja slovenskega jezika. Ideja o takšni aplikaciji se kljub temu ustavi že pri slovenščini, kjer niti digitalizirana različica Etimološkega slovarja slovenskega jezika ni objavljena zaradi težav z avtorskimi pravicami. Poleg besed, za katere lahko iščemo ključ v katerem od obstoječih etimoloških slovarjev, ostaja veliko število slovenskih besed, ki še nimajo etimološke osvetlitve. Te bodo Posvet o novem slovarju slovenskega jezika, Ministrstvo za kulturo 12. 2. 2014 predstavljale največji del etimologovega dela pri novem slovarju. Ali bi si bilo pri tem mogoče pomagati z ustrezno računalniško aplikacijo, ki bi na podlagi ustreznih algoritmov ter slovenskega in tujega besedja v bazi ponudila najboljšo možno etimologijo? Bi, a ne še prav kmalu in zato žal še ne v okviru tega projekta. Prva plast besed, kjer vidimo možnost pomoči tehnologije, so iz praslovanščine podedovane besede. Računalniški programi, ki aplicirajo fonetične zakone na vnesene besede, že obstajajo. Primer takšne aplikacije je The Sound Change Applier. Deluje tako, da v eni datoteki vnesemo besede izvornega jezika in v drugi nabor pravil za delovanje jezikovnih zakonov v razvoju iz izvornega v ciljni jezika. Aplikacija sprocesira obe datoteki in v tretji prikaže, kako se vnesene besede v ciljnem jeziku izoblikujejo v skladu s podatki iz prve in druge datoteke. Takole:1 latin.lex port.sc port.out lector V=aeiou leitor [lector] doctor C=ptcqbdgmnlrhs doutor [doctor] focus F=ie fogo [focus] jocus B=ou jogo [jocus] districtus S=ptc distrito [districtus] civitatem Z=bdg cidade [civitatem] adoptare s//_# adotar [adoptare] opera m//_# obra [opera] secundus e//Vr_# segundo [secundus] v//V_V u/o/_# gn/nh/_ S/Z/V_V c/i/F_t c/u/B_t p//V_t ii/i/_ e//C_rV Prikaza fonetičnega razvoja jezika se uspešno lotevajo tudi aplikacije IpaZounds, Wordcorr in Phonix. Predstavljajo zametek nujno potrebne velike baze za etimologijo in zgodovino 1 Vir: The Sound Change Applier, http://www.zompist.com/sounds.htm, 24. februar 2014. Posvet o novem slovarju slovenskega jezika, Ministrstvo za kulturo 12. 2. 2014 svetovnih jezikov. Za zdaj so v pomoč študentu primerjalnega jezikoslovja, ne pa tudi etimologu, ki jezikovne zakone že pozna. Poleg tega so za prikaz delovanja takšnih aplikacij izbrani neproblematični primeri. V razvoju jezika prihaja do nesistemskih sprememb, kot je denimo delovanje analogije. Take spremembe lahko pojasnimo, ko se zgodijo, ne moremo pa jih predvideti. Druga plast besed, kjer vidimo možnost podpore jezikovnih tehnologij pri ugotavljanju izvora besede, so tvorjenke. Lahko bi napisali program, ki bi tvorjenko povezal z najverjetnejšo motivirajočo besedo. Pustimo ob strani vprašanje, ali bi bilo to smiselno, saj etimolog načeloma pozna slovensko in slovansko besedotvorje. Če pomislimo na težave s povezavami tipa ujeda k jesti, okajen h kaditi ali ogorek h goreti, vidimo, da bi se stvari zapletle. Niso nerešljive, zahtevalo pa bi dosti dela, da bi popisali nabor vseh pravil. Vendar pa se prave težave začnejo drugje. Prva težava je ločevanje med tvorjenko, nastalo v slovenščini, in med praslovansko tvorjenko. Pri prvi iščemo motivirajočo besedo v okviru slovenščine, pri drugi pa ustreznice v drugih slovanskih jezikih in motivirajočo besedo v okviru praslovanščine. Iz tvorbe besede pogosto ni razvidno, za katero plast besedja gre. Bo računalnik besedo ogorek povezal z goreti? Če bo pritegnil material iz drugih slovanskih jezikov, nas bo morda prej napotil na poljski ogórek 'kumarica’. Tu se pokaže druga težava: aplikacija bi bila koristna samo, če bi upoštevala tudi pomene besed. Nesmiselno je namreč, da izdelamo program, ki bi npr. besedo sence povezal s senca ali seno, ne le s sen, in ki bi v šalici videl pomanjševalnico od šala, v vilici pa pomanjševalnico od vila in ne od vile. Pomen besede se po drugi strani lahko iz najrazličnejših razlogov hitro spremeni tudi pri sorodnih besedah, včasih celo v svoje nasprotje. Primer: slovensko zal 'lep, postaven’ je etimološko sorodno z zel 'slab, hudoben’, sladek pa je etimološko sorodno s slan. Uporabiti bi bilo potrebno postopke, ki bi preprečili, da že iz semantičnih razlogov ne bi prihajalo do nesmiselnega povezovanja nesorodnih besed, obenem pa bi program zaznal semantično ustrezanje med besedami, katerih pomeni so le na videz oddaljeni. To je gotovo mogoče, čeprav kompleksno, in gotovo bi zahtevalo veliko časa in ljudi. Nekaj primerov povezav, ki bi jih lahko ponudil računalnik na podlagi pravil za tvorbo besed v slovenščini, če bi upošteval tudi semantično povezljivost: Posvet o novem slovarju slovenskega jezika, Ministrstvo za kulturo 12. 2. 2014 ravnatelj gl. ravnati stranka gl. stran krožek gl. krog bivak gl. bivati Videti je, kot da bi to olajšalo etimologovo delo. Vendar pa so besede ravnatelj, stranka in krožek prevzete iz drugih slovanskih jezikov in niso nastale kot slovenske tvorjenke, bivak pa je iz spodnjenemškega bīwake in nima nobene zveze s slovenskim glagolom bivati. Tu imamo opravka s tretjo plastjo besed – s prevzetimi besedami. Zgornje rešitve bi bile torej povsem napačne. Prav tako ne bi bilo v pomoč, če bi računalnik izvor besede guglati iskal v praslovanski besedi * gug(ъ)la 'storž; pokrivalo’ ali besedo tabela po tvorbi primerjal s tamlada. Če aplikacija ne bi znala ločevati med prevzetimi in podedovanimi besedami in če ne bi upoštevala semantike, bi morala ponuditi prav vse teoretično mogoče možnosti izvora, med temi tudi neizpričane, a mogoče (prim. obvod iz neizpričanega * obvesti iz vesti). To pa pomeni dve stvari: pisanje teh pravil in preverjanje delovanja aplikacije bi predstavljalo projekt zase, ki bi zahteval kar nekaj let dela, in drugič, na koncu bi imeli za etimološko osvetlitev vsake besede na voljo množico strojno generiranih predlogov možnih izhodišč, od tega večino takih, ki bi povzročali le zgago in zastranitev, ker bi bili nesmiselni že iz semantičnih razlogov. Odločitev za najboljšo možno etimološko osvetlitev bi bila odvisna od etimologovega znanja in materiala, ki ga ima na razpolago: z »mukotrpnim ročnim delom« (gl. spodaj) bi moral poiskati, katero izhodišče je pravo. To pa etimolog počne že brez podpore jezikovnih tehnologij. Bližnjice tu za zdaj še ni. Računalniški postopki so znani že dovolj dolgo, da bi primerjalni jezikoslovci takšen program že pred nekaj desetletji izdelali sami, če bi bilo to smiselno. Kratkovidno bi bilo reči, da bo tako tudi ostalo. Pred desetletji smo bili enako skeptični glede strojnega prevajanja. Vendar pa bi bil projekt, ki bi se ustrezno lotil računalniško podprtega pisanja etimoloških osvetlitev, po vloženem delu in številu podatkov primerljiv z gigantskim projektom, kakršen je Google Translate z vsemi vključenimi jeziki. Slovenska beseda knjiga, ki je v slovenščino verjetno prišla iz stare kitajščine, je primer, ki prikaže, kako daleč besede prehajajo iz jezika v jezik – pa ne gre za eno od sodobnih kulturnospecifičnih besed, ki bi jih našli tudi v obstoječih zahodnoevropskih slovarjih. Za potrebe našega jezika bi takšen projekt zahteval sodelovanje diahronih jezikoslovcev za vse slovanske jezike in za vse relevantne Posvet o novem slovarju slovenskega jezika, Ministrstvo za kulturo 12. 2. 2014 indoevropske in sosednje jezike. Za vse te jezike bi bilo treba popisati vse znane zakonitosti fonetičnega in morfološkega razvoja skozi čas,2 vse zabeleženo besedje v sinhronih prerezih in vsa doslej znana rekonstruirana stanja. Šele v okviru tako velike baze in dobro premišljenih algoritmov bi slovenščina lahko črpala relevantne podatke in predloge možnih izvorov posameznih besed, na katere slovenski etimolog morda še ni pomislil. Kolikor mi je znano, se o takšnem projektu nismo še niti začeli pogovarjati, vsekakor pa bi bil nujno potreben. Računalnik bi tako lahko zadostil zahtevi po zadostni evidenci, o logični moči induktivnega argumenta oziroma sklepanju na najboljšo razlago pa za zdaj še ne more presojati. Vprašanje laringala v vzglasju rekonstruiranih praindoevropskih besed ilustrira težave s presojo logične moči argumenta. Hipoteza, da se v indoevropskem prajeziku nobena beseda ni začenjala na vokal, je prepričljiva in danes široko sprejeta. V vzglasju rekonstruiranih besed, ki ne izkazujejo konzonanta pred vokalom, postuliramo laringal, torej glas, za katerega v nobenem jeziku ni videti neposrednega refleksa na tem mestu. Hipoteza je v takih primerih podprta samo s teorijo. Primerjalni jezikoslovec bi v skladu z veljavno teorijo v aplikacijo vnesel * Hes- za indoevropski koren 'biti’, medtem ko bi računalnik v najboljšem primeru ponudil rekonstrukcijo * es-. Od tega, katero obliko vzame za izhodišče, pa je odvisno, katere nize bo iskal v drugih jezikih, da jih poveže z rekonstruiranim korenom. Kaj pa drugi faktorji, ki jih upoštevamo pri določanju sorodnosti dveh jezikov, kot so ujemanja v tipologiji, lastna imena ali morda številski sistem? Kako bi strojno rešili denimo problem substrata v pragermanščini ali v grščini, ko pa o tem substratu ne vemo kaj dosti, poleg tega pa za grščino velja, da izkazuje več substratnih jezikov, ne le enega? Zaradi teh težav je um etimologa, ki k argumentaciji pritegne vedno nova dejstva, še zmeraj bistveno zanesljivejši od računalnikovega. Res pa je, da človek s svojim umom lahko seže le do določene časovne globine, saj postane količina jezikovnih dejstev, ki jih je treba obdelati, za bolj oddaljena časovna obdobja sčasoma neobvladljiva tudi za najboljšega primerjalnega jezikoslovca. Za našo jezikovno družino postanejo dognanja nezanesljiva nekje v petem tisočletju pred našim štetjem, ko moramo k rekonstruiranemu materialu za indoevropski prajezik pritegniti druge rekonstruirane prajezike, predvsem uralskega. Jezikoslovčeve intelektualne sposobnosti tu odpovejo, ker zaradi obsega materiala ni strokovnjakov za primerjalno jezikoslovje več kot ene jezikovne družine. Za osvetlitev jezikovnih stanj, starejših od indoevropskega prajezika, 2 Poskus popisa jezikovnih zakonov, ki nastaja na naših tleh, je Aplikacija za vnos in prikaz glasoslovnih razvojev avtorja Roberta Jakomina (http://lgm.fri.uni-lj.si/hf/). Posvet o novem slovarju slovenskega jezika, Ministrstvo za kulturo 12. 2. 2014 bo dobrodošla pomoč računalnika. Čeravno ji iz zgoraj opisanih razlogov ne bo mogoče povsem zaupati, bo to najboljše, kar bomo kdaj imeli na razpolago. V lanskem letu je bilo primerjalno jezikoslovje za kratek čas deležno pozornosti svetovne javnosti zaradi članka z naslovom Avtomatizirana rekonstrukcija starih jezikov s pomočjo verjetnostnih modelov glasovnih sprememb (Bouchard-Côté idr. 2013). Avtorji so v članku opisali pristop k rekonstrukciji prajezika z verjetnostno metodo, ki naj bi bila uspešnejša pri rekonstrukciji izumrlih jezikov kot »mukotrpna ročna procedura, ki ji pravijo primerjalna metoda« (Bouchard-Côté idr. 2013). Članek je zbudil veliko pozornosti in je v časopisju sprožil val novic z obetajočimi naslovi kot Znanstveniki so ustvarili »časovni stroj« za rekonstrukcijo starih jezikov (Anwar 2013). Avtorji so primerjali besedje 637 avstronezijskih jezikov, da bi ugotovili skupni izvor obravnavanih besed in s tem jezikov. Iz članka je razvidno, da so primerjali majhen nabor besed iz baze Austronesian Basic Vocabulary Database. Gre za osnovne glagole kot 'hoditi’ in 'leteti’, za poimenovanja delov telesa, barv, števnikov in bližnjih sorodnikov. To besedje je praviloma podedovano; le izjemoma se prevzema iz drugih jezikov. Kljub temu da so se avtorji z izborom te plasti besed izognili težavam, ki jih prinaša prevzeto besedje, je ujemanje z izsledki jezikoslovcev glede na navedbe v članku le 85 odstotkov. To je zelo nizka številka, ki pove, kako težavne so računalniške rekonstrukcije celo na majhnem vzorcu izbranih besed, ki bi morale biti dokaj neproblematične. Probabilistična metoda je tako kot Swadeshev seznam (prim. Klemenčič 2013: 15–16) pomembna za ugotavljanje eventualne sorodnosti pri primerjanju velikega števila jezikov, ki so slabo zabeleženi in raziskani. Povsem zavajajoče pa je trditi, da »medtem ko je ročna rekonstrukcija mukotrpen proces, ki traja tudi po več let, lahko ta sistem izvede rekonstrukcijo na veliki količini materiala v nekaj dneh ali celo urah« (Anwar 2013). Avstronezijska jezikovna družina ni primerljiva z indoevropsko po raziskanosti ali izpričanosti vej. Kar je naredil ta program s komaj 85-odstotno natančnostjo na relativno neproblematičnem vzorcu, je za indoevropske jezike narejeno že več kot sto let, in to mnogo bolj natančno in zanesljivo. Verjetnostna metoda nam ne bo dala etimologije besede bivak, zato je nesmiselno govoriti o primerjalni in verjetnostni metodi v istem kontekstu. Gre za različne cilje, ki jih znanstveniki poskušajo doseči z različnimi postopki. Do podpore jezikovnih tehnologij pri izdelavi etimoloških osvetlitev je še dolga pot in v tem trenutku možnosti, ki se kažejo, še niso relevantne za slovenščino in za novi slovar Posvet o novem slovarju slovenskega jezika, Ministrstvo za kulturo 12. 2. 2014 slovenskega jezika. V prihodnosti pa bo nujno razmišljati o mednarodnih interdisciplinarnih projektih za primerjalno jezikoslovje, ki bodo vključevali tudi slovenščino. Literatura ANWAR, Yasmin, 2013: Scientists create automated ‘time machine’ to reconstruct ancient languages. http://newscenter.berkeley.edu/2013/02/11/ancientlanguages. Austronesian Basic Vocabulary Database. http://language.psy.auckland.ac.nz/austronesian/. BOUCHARD-CÔTÉ, Alexandre, idr., 2013: Automated reconstruction of ancient languages using probabilistic models of sound change. Proceedings of the National Academy of Science 110/11. www.pnas.org/cgi/doi/10.1073/pnas.1204678110. HER, 2003: ANIĆ, Vladimir, BROZOVIĆ RONČEVIĆ Dunja, idr.: Hrvatski enciklopedijski rječnik. Zagreb: Novi Liber. IpaZounds. http://zounds.artefact.org.nz/. KLEMENČIČ, Simona, 2011: Spisovnik primerjalnega jezikoslovca. Ljubljana: Znanstvena založba Filozofske fakultete. KLEMENČIČ, Simona, 2013: Pregled indoevropskih jezikov. Drugi natis. Ljubljana: Znanstvena založba Filozofske fakultete. Phonix. https://code.google.com/p/phonix/. SNB 2012: BIZJAK KONČAR, Aleksandra, SNOJ, Marko (ur.): Slovar novejšega besedja slovenskega jezika, Ljubljana: Založba ZRC, ZRC SAZU. SNOJ, Marko, 2003: Slovenski etimološki slovar. Druga, pregledana in dopolnjena izdaja. Ljubljana: Modrijan. SNOJ, Marko, 2009: Etimološke osvetlitve v novem slovarju slovenskega jezika. A. Perdih (ur.): Strokovni posvet o novem slovarju slovenskega jezika, 23. in 24. oktober 2008. Ljubljana: Založba ZRC, ZRC SAZU. 83–93. The Sound Change Applier. http://www.zompist.com/sca2.html. Wordcorr. http://www.wordcorr.org/index.htm.