Miran Željko Mostovi XXXVII, št. i, 2003, 62-72 Miran Željko Evroterm in Evrokorpus - terminološka baza in korpus prevodov Evroterm and Evrokorpus - Terminology Database and Corpus of Translations Povzetek Prevajanje zakonodaje Evropske unije je zelo obsežno delo, zato pri tem sodeluje velika skupina prevajalcev. Da bi omogočili uporabo usklajene terminologije pri vseh prevajalcih in izboljšali kakovost prevodov, smo podatke, ki nastajajo pri prevajanju (terminološka zbirka in pomnilniki prevodov), prenesli na splet (http://www.gov.si/evroterm). Tam so podatki prosto dostopni, na voljo pa so v dveh oblikah: kot slovar in korpus, pri čemer sta slovar in korpus medsebojno povezana. Abstract Translation of European Union legislation is organised by the Translation Unit of the Gov¬ ernment Office for European Affairs (GOEA). Although there are 25 in-house translators em- ployed at the GOEA, the majority of translations are done by translation agencies and freelance translators. The translators at the GOEA Translation Unit have created a terminology database which is continuously maintained and updated. In order to make this database available to translators outside the GOEA we have developed our own software for web access (http:// www.gov.si/evroterm/e/). A concordance function shows the translator how a particular word is used in context. 1. Uvod Preden bo Slovenija postala polnoprav¬ na članica Evropske unije (EU), bodo mora¬ li naši prevajalci prevesti ogromno pravnih dokumentov (Krstič, 1999), večinoma iz an¬ gleščine v slovenščino in v nasprotni smeri. Pri tem nastaja več težav: pojavljajo se novi izrazi, ki jih ni v slovarjih, splošni slovarji, ki so na voljo, so pomanjkljivi in zastareli (npr. Veliki angleško-slovenski slovar je nastajal že pred 30 leti!), v novejših pravnih slovar¬ jih (npr. Pravni terminološki slovar (ur. Hu¬ mar in Torkar), Pravni slovensko-angleški prevajalski slovar (Longyka) in Slovenski pravni leksikon (Apovnik, Primožič, Feri)) terminologija še ni povsem usklajena (Velka¬ verh, 2001), terminologija posameznih strok pa je razdrobljena v množici malih termino¬ loških slovarjev (če ti sploh obstajajo; seznam na internetu je npr. na http://www.gov.si/ slovar.html). Pri tako obsežnem projektu to¬ rej lahko uskladimo terminologijo le tako, da zgradimo svojo terminološko bazo. Zakonodajo EU v slovenščino prevajajo v prevajalskem oddelku Službe Vlade RS za evropske zadeve (SVEŽ - http://www.gov.si/ svež). Tam je zaposlenih 25 prevajalcev, dve terminologinji in tri lektorice, poleg njih pa pri prevajanju pogodbeno (samostojno ali prek prevajalskih agencij) sodeluje še oko¬ li 150 prevajalcev. Povsem razumljivo je to- 62 Mostovi 2003 Evroterm in Evrokorpus rej, da zakonodajo z istega področja preva¬ jajo različni prevajalci - pri tem pa je zelo pomembno, da vsi uporabljajo enotno ter¬ minologijo. Pri prevajalcih, zaposlenih v SVEZ-u, je ugodno to, da so vsi na isti lokaciji in si pri reševanju težav lahko med seboj pomaga¬ jo. Raba enotne terminologije je pri njih za¬ gotovljena z uporabo skupne terminološke baze - v ta namen prevajalci uporabljajo pro¬ gram MultiTerm nemškega podjetja Trados (http://www.trados.com). Drugi pomemben prevajalski pripomoček so pomnilniki pre¬ vodov - v SVEZ-u uporabljajo Tradosov pro¬ gram Translator's WorkBench (TWB). Nakup teh programov je za SVEZ-ove prevajalce fi¬ nancirala služba za tehnično pomoč pri EU (TAIEX). Programi podjetja Trados so bili izbrani, ker jih uporabljajo tudi prevajalske službe v ustanovah EU. Z zunanjimi prevajalci je več težav. Pri pre¬ vajanju zakonodaje EU je poleg pravnega iz¬ razja treba dobro poznati terminologijo ene 2. Zasnova rešitve V uvodu je bila omenjena osnovna nalo¬ ga, ki jo je treba izpolniti pri prevajanju za¬ konodaje EU: zagotoviti uporabo enotne ter¬ minologije pri vseh sodelujočih prevajalcih. Rešitev za prevajalce, zaposlene v SVEZ-u, je opisana v (Krstič, 1999) in (Krstič in Bele, 1999), v tem članku pa so opisane rešitve, ki smo jih razvili za pomoč zunanjim prevajal¬ cem. Prevajalci v SVEZ-u so povezani v lokal¬ no računalniško omrežje, zaradi varnosti pa zunanji prevajalci prek interneta nimajo do¬ stopa v to omrežje; glede na običajno hitrost dostopa tak način dela tudi ne bi bil učinko- vit. Bolj smiselno je podatke preoblikovati in shraniti na spletni strežnik. Leta 2000, ko smo se odločili za prenos ter¬ minologije na splet, je podjetje Trados omogo¬ čalo dostop do terminologije prek interneta, a je njegov program deloval le na strežni¬ kih, temelječih na operacijskem sistemu Win- ali več strok - tovrstno izkušenih prevajalcev pa je malo. Ker na mnogih strokovnih podro¬ čjih nimamo ustreznih slovarjev in podobnih pripomočkov, se novi prevajalci teže uspo¬ sobijo za prevajanje novega področja. Poleg tega so ti prevajalci bistveno slabše povezani med sabo in so praviloma tudi slabše opre¬ mljeni z računalniškimi pripomočki. Za naše razmere so Tradosova orodja še vedno dokaj draga (blizu 150.000 SIT za osnovno verzijo programa), zato lahko nakup teh orodij eko¬ nomsko upraviči le malo prevajalcev. (Res je za 50 evrov možno kupiti program VVordFast (http://www.champollion.net), ki omogoča delo s Tradosovimi bazami in ga marsikate¬ ri prevajalec s pridom uporablja, ima pa tudi ta program svoje omejitve.) V zadnjih letih se je zelo povečala izobraženost prevajalcev pri uporabi interneta, zato smo že leta 2000 zače¬ li prenašati terminologijo na internet (Krstič in Željko, 2000), leta 2002 pa smo terminolo¬ gijo dopolnili še s korpusom prevodov (Želj¬ ko in Krstič, 2002). dows NT (ta omejitev je še vedno veljala tudi v času pisanja članka). V Centru Vlade RS za informatiko (http://www.gov.si/cvi/) smo prvi spletni strežnik pognali leta 1994 (http: //www.matkurja.com/slo/new/1994/12/). Ta¬ krat smo za osnovo izbrali operacijski sistem unix, dosedanje izkušnje pa so pokazale, da je bila to dobra odločitev, saj spletni strežniki na tej osnovi delujejo zanesljivo, stabilno in varno. Dobro utečenega sistema nismo želeli spreminjati samo zaradi terminološke zbirke, ki v celotni ponudbi podatkov državne upra¬ ve zavzema razmeroma majhen delež - to pa je pomenilo, da bomo morali sami razviti re¬ šitev za prevajalce. Naloge smo se lotili v treh korakih: - terminologijo smo prenesli na internet, - pomnilnike prevodov smo preoblikovali v poravnan dvojezični korpus in ga prenesli na internet, - povezali smo terminologijo in korpus. 63 Miran Željko Mostovi XXXVII, št. i, 2003, 64-72 3. Terminologija 3.1 Terminološka baza SVEZ-a Za urejanje in iskanje terminologije SVEZ- ovi prevajalci uporabljajo program Multi- Term. Program ima podatke shranjene v lastni bazi, če želimo te podatke sami ob¬ delovati, jih lahko izvozimo v tekstno ob¬ liko. Ta je že prirejena za nadaljnjo obdela¬ vo: v vsaki vrstici je med znakoma »<« in »>« napisano ime parametra, temu pa sle¬ di vrednost parametra. Različni vpisi ima¬ jo lahko različne parametre, obvezna sta samo dva: zaporedna številka vpisa (to do¬ deli program MultiTerm ob vnosu novega podatka) in beseda ali pojem v enem jeziku (z oznako jezika), seveda pa ima vse skupaj smisel šele, ko je naveden prevod te besede vsaj v enem jeziku. Pri vsakem vpisu je mož¬ no imeti še veliko drugih podatkov; primer vpisa za enega od pojmov iz SVEZ-ove ter¬ minološke zbirke je takle: ** l 6.06.1997 - 11:45:44 super 01.09.1999 -12:46:56 super 1 4 tehnologija terminološka skupina pri Medresorski komisiji za razvrščanje nevarnih snovi Directives 92/32/EEC, 88/ 379/EEC pospeševalnik Term Bela knjiga, Aneks: s. 177 (če je naprava) pospeševalo če je snov pospeševalec čeje oseba accelerator Term Annex: p. 222 Apparatus or instaliation emitting ionizing radiation with an energy higherthan 1 Mev. Amended proposai for a Council Directive laying down the basic safety stan- dardsforthe protection ofthe health of wor- kers and the general public against the dan- gers arising from ionizing radiation, COM(93) 349 final, p. 26 Beschleuniger Term accelerateur Term ** Iz tega zapisa vidimo, da je zasnova baze zelo fleksibilna, saj različni vpisi lahko za¬ jemajo različne podatke (npr. možen je pre¬ vod v enega ali več jezikov, za različne jezike so možni različni komentarji), pri posamez¬ nem vpisu se nekateri podatki lahko ponovi¬ jo (npr. kadar za besedo v enem jeziku obsta¬ ja več različnih prevedkov v drugi jezik) in nekatera polja so medsebojno povezana (npr- komentarjev je lahko več, vsak pa se nanaša na polje pred sabo). Posamezna polja imajo tele pomene: Creation Pate Created by datum vpisa v originalno bazo pri SVEZ-u ' ’ ^znakal^AU SlUŽb3/^ bil Prevod °Pravlj^ (& to ni znano ali je bilo virov Entry number Subiect Subj Project zaporedna številka vpisa v originalno bazo področje (v angleščini - koda’) področje (v slovenščini) proiekt, pri katerem so prevodi nastajali ali so se preverjali izrazi (neobvezen podatek)_ Source naslov dokumenta, ki se je prevajal, ali vir izrazja (neobvezen podatek); iz tega podatka je Doc&Lang mogoče sklepati, ali se je dokument prevajal iz tujega jezika v slovenščino (npr. akti ES kot direktive, uredbe, odločbe, včasih označeni s številko Celex) ali iz slovenščine v tuj jezik _(slovenska zakonodaia, državni program za prevzem pravnega reda ES)___— 64 Mostovi 2003 Evroterm in Evrokorpus Reliability zanesljivost prevoda (od 1 do 5); te podatke imajo vpisi, ki so v bazi od leta 2001. Pomen ocen: 1 - nepreverjeno, nezanesljivo; 2 - preveril samo en strokovnjak; 3 - zanesljiv izraz na posameznem področju, a ni preverjeno na različnih ravneh (npr. v drugi ustanovi morda uporabljajo drug izraz); 4 - preverjeno na različnih ravneh, a še obstajajo manjši pomisleki; 5 - preverjeno na različnih ravneh, doseženo soglasje (strokovnjaki, slovarji) - popolnoma zanesljiv izraz. 3.2 Prenos terminologije na splet Da bi zagotovili dovolj hitro iskanje ob uporabi preproste baze, smo iz osnovne baze odstranili podatke, ki niso nujno potreb¬ ni (npr. nekateri vpisi so v vseh jezikih EU, pri čemer je prevod v italijanščino in špan¬ ščino za nekatere prevajalce verjetno še zani¬ miv, gotovo pa nihče nima potrebe po gršči¬ ni in finščini). Indeksne datoteke so narejene I Slovar izrazov Evropske unije - Mozilla rd.t v.ew Go IBookmarks Tools Wlndow Help za iskanje po štirih najuporabnejših jezikih: slovenščini, angleščini, francoščini in nemšči¬ ni. Program za iskanje po terminološki zbir¬ ki na spletu smo poimenovali Evroterm in je dostopen na naslovu http://www.gov.si/ev- roterm. Uporabniški vmesnik programa je iz treh delov (slika 1): zgoraj so stalno dostopen opis slovarja, navodila za iskanje, preklop med slovenskim in angleškim uporabniškim -|g[xl 4 .. '3 JjJEC---2l-S- Back • ft: ■■■/,,rc’ Reload , I ggjg /A™ gov.si/evroterm/_ 'Hame ^ iBookmarks The Mozilla Organization Latest Builds GoLguSearchj English EVROTERM večjezični slovar izrazov Evropske unije Creation Date Crealed By Change Date Entry Number Subj Subject Project SourceDoc&Lang TMan import evropska razsežnost v izobraževan ju evropska reg ija evropska regija Unesca Evropska skupnost Evropska skupnost Evropska skupnost za atomsko energijo Evropska skupnost za premog in jeklo Evropska socialna listina Evropska socialna listina Evropska tehnična soglasja brez smernic evropska tekmovanja in Izpiti Evropska uni j a; Evropska ustanova za usposabljanje evropska varnostna in obrambna Identiteta gvropska varnostna in obrambna identiteta evropska zavest Evropska zveza"investicijskih skladov jn podjetij Evropska zveza radijskih in jelevizi jskih postaj Evropska zveza za radiodifuzijo CSJ m http://www.gov.sI/cgi-bln/svez/svez_slovarl7528 16.06.1997 super 06.09.2002 528 ES-splošno EU general CE White Paper "Associated Countries EN EN TermRef Definition SL DE DE FR FR European Union EU White Paper: p.3 Slnce the slgnlng of Ihe Maastricht Treaty on 7 Februar/ 1992, the European Community has been generally knovvn as the European Union. Evropska unija Europišische Union EU Union europ^enne UE Slika 1: Spletni uporabniški vmesnik Evroterma 65 Miran Željko I vmesnikom ter preklop med terminologi¬ jo in korpusom; levo vpišemo iskano bese¬ do in označimo jezik, dobimo pa po abece¬ di urejen seznam zadetkov, in ko kliknemo enega od zadetkov, se vsi podatki o tem poj¬ mu izpišejo desno, v osrednjem delu zaslona. Teh podatkov je lahko veliko, zato so prevo¬ di v štirih najpomembnejših jezikih napisani v štirih različnih barvah, da jih prevajalec hi¬ treje najde med drugimi (praviloma manj po¬ membnimi) podatki. Uporabniški vmesnik je za zdaj v slovenščini in angleščini, če bi bilo potrebno, je možno hitro narediti vmesnik še v kakem drugem jeziku. 3.3 Iskanje Pri iskanju program najde vse besede ali nize besed, ki se začnejo z vpisanim nizom znakov. Ni treba napisati celotne besede, saj je to uporabnejše pri iskanju besede z vsemi možnimi obrazili: če želite hkrati dobiti vse oblike besede »evropski« (evropska, evrop¬ ske, ..., evropskega ...), v iskalno polje vpišite: evropsk Uporaba velike ali male začetnice v iskalnem okencu ne vpliva na rezultate iskanja - pro¬ gram vedno izpiše vse, kar najde, ne glede na to, ali je podatek v bazi zapisan z velikimi ali malimi črkami. Z uporabo regularnih izrazov lahko opra¬ vimo kompleksnejša iskanja. Če npr. iščete vse besedne zveze z »energy«, boste v izpi¬ su dobili: energy energy advisory netvvork for households energy advisory netvvork for large energy con- sumers energy cycle itd. Če želite dobiti tudi besedne zveze, pri katerih se »energy« pojavlja na desni (npr. »nuclear energy«), v iskalno okence vpišite: ,|'energy Če je zadetkov preveč in želite najti le pojme, ki se končajo na izbrano besedo, dodajte na konec besede znak $; če želite npr. dobiti vse besedne zveze, ki se konča¬ Mostovi XXXVII, št. i, 2003, 66-72 jo na »energy«, napišite iskalni izraz takole: *energy$ Nekatere besede se v različni delih sveta pišejo različno, npr. »organisation« in »orga- nization«. Če želite vse take zadetke dobiti z enim iskanjem, lahko uporabite znak ».« kot nadomestni znak za katerikoli znak; iskal¬ ni pogoj bi bil v našem primeru torej takle: organi.ation Ta postopek deluje pri dolgih besedah, pri kratkih pa lahko dobite tudi napačne za¬ detke (pojavijo se besede, ki jih ne želimo). Temu se izognete, če med oglatima okle¬ pajema navedete le dovoljene znake; v prej omenjenem primeru bi torej napisali takole: organi[sz]ation Razlika v zapisu nekaterih besed je še več¬ ja; npr. besede, ki se v britanski angleščini končajo na -our, se v ameriški angleščini za¬ pišejo z -or (npr. colour - color). Če želite z: enim iskanjem dobiti vse zadetke tega tipa, za neobveznim znakom dodajte vprašaj, npr.: colou?r Vprašaj v zapisu pomeni, da se črka »u« lah¬ ko pojavi ničkrat (torej iščemo besedo color) ali enkrat (v tem primeru iščemo besedo co¬ lour). Druga možnost, s katero natančno določite število ponovitev, je taka, da za neobveznim znakom med zavitima oklepajema naštejete najmanjše in največje število teh znakov; za besedo colour/color bi torej napisali takole: colou{0,l}r V tem zapisu smo natančno določili, da se črka »u« lahko pojavi ničkrat (iščemo besedo color) ali največ enkrat (v tem primeru išče¬ mo besedo colour). Posamezne iskalne pogoje lahko seveda poljubno kombiniramo. Več o regularnih iz¬ razih najdete npr. na http://www.uga.edu/ 1 ~ucns/tti/Computer_Review/Spring95/ Regular_expressions.html. Program zapisuje vse besede, ki so jih v iskalno okence vpisali uporabniki, in jih 1°" čeno zapiše v dve datoteki - posebej najdene in posebej nenajdene izraze. Iz tega se vidi katera področja prevajalce bolj zanimajo Uj katere besede bi bilo koristno v prihodnosti vključiti v slovar. 66 Mostovi 2003 Evroterm in Evrokorpus 4. Korpus prevodov 4.1 Pomnilnik prevodov Za delo s pomnilnikom prevodov (Vin- tar, 1999) prevajalci v SVEZ-u uporabljajo Tradosov program Translator's WorkBench. Ob namestitvi programa se dopolnijo funk- dje urejevalnika besedil MS Word in potem prevajalec večino dela opravi kar v Wordu: ko začne prevajati, dobi v okvirju prevodno enoto (navadno stavek) izvornega besedila, v okvir pod njim pa napiše prevod. Ko kon¬ ča prevajanje, se izvirnik in prevod shranita v pomnilnik. Pred prevajanjem naslednjega stavka program pregleda svojo bazo, ali je morda v njej enak ali vsaj zelo podoben izvir¬ nik, in ponudi prevajalcu izvirnik in prevod. Prevajalec se potem odloči, ali bo obdržal po¬ nujeni prevod iz baze, ga morda popravil ali začel prevajati povsem od začetka. Pomnil¬ nik prevodov ima dvojno možnost uporabe: če se besedila vsaj delno ponavljajo, gre pre¬ vajanje hitreje (to je uporabno npr. pri spre¬ membah veljavne zakonodaje), poleg tega pa je tudi v pomnilniku prevodov skrite veliko uporabne terminologije, ki je v terminološki zbirki morda ni. 4.2 Pretvorba pomnilnika prevodov v dvojezični korpus Tudi bazo programa Translator's Work- Bench lahko pretvorimo v besedilno obliko. Oblika zapisa je podobna kot prej: jfotpus prevodov zakonodaje Evropske unije - Mozilla Edit Vievv Go Bookmarks Tools VVindovv Help * . -• ”3 'ir ~ “ Back *:>Fbrward Reload Stop 1 ^ http://www.gov.sl/evrokorpus/ dBookmarks -/The Mozilla Organization VLatest Builds Evroterm H [Goj ^.Searchj T g_korpusu Vpišite iskano besedo: Fojnosten Vpisani izrazje v r angleščini p slovenščini ■zberite področje: finance kmetijstvo okolje Pnmarna_rakonodajo Promet zunanja bpls: dvojezičen enojezičen ~3 ^ GSJ m ; Done English EVROKORPUS korpus prevodov zakonodaje Evropske unije iskani izraz: trajnosten število zadetkov: 9 prevod iz Evroterma: 1. sustainable primarna_zakonodaja: to promote economic and social progress vvhich is balanced and sustainable, in particular through the creation of an area vvithout internal frontiers, through the strengthening of economic and social cohesion and through the establishment of economic and monetary union, ultimately Including a single currency in accordance with the provisions of this Treaty; spodbujati uravnotežen in trajnosten gospodarski in socialni razvoj, zlasti z oblikovanjem območja brez notranjih meja, s krepitvijo ekonomske in socialne kohezije ter z vzpostavitvijo ekonomske in monetarne unije, ki bo sčasoma vključevala enotno valuto v skladu z določbami te pogodbe: primama_zakonodaja: to promote economic and social progress and a high level of employment and to achieve balanced and sustainable development, in particular through the creation of an area vvithout internal frontiers, through the strengthening of economic and social cohesion and through the establishment of economic and monetary union, ultimately including a single currency in accordance with the provisions of this Treaty; spodbujati gospodarski in socialni razvoj ter visoko stopnjo zaposlenosti in doseči uravnotežen in trajnosten razvoj, zlasti z oblikovanjem območja brez notranjih meja, s krepitvijo ekonomske in socialne kohezije ter z vzpostavitvijo ekonomske In monetarne unije, ki bo sčasoma vključevala enotno valuto v skladu z določbami Slika 2: Dvojezični izpis v korpusu prevodov 67 Miran Željko Mostovi XXXVII, št. i, 2003, 68-72 BRANKA Prvi prevod KMETIJSTVO varstvo rastlin Directive SVEZ-MKGP 32000L0029 en_sl_KMETIJ- STVO Having regard to the opinion of the Economic and Social Committee, ob upoštevanju mnenja Ekonom- sko-socialnega odbora, Razlika glede na prejšnji zapis je ta, da loč- nik med posameznimi zapisi nista več zvez¬ dici, temveč je vsaka prevodna enota med oznakama »« in »« (»transla- tion unit« - prevodna enota), parametri pa so nekoliko drugačni, a tudi tu predvsem podrobneje opisujejo vir besedila. Za pre¬ delavo pomnilnika prevoda v korpus sta najpomembnejši vrstici z oznakama in : v prvi je prevod¬ na enota v angleščini, v drugi pa njen prevod v slovenščino. Če iz pomnilnika prevodov združimo vse take zapise, dobimo najprepro¬ stejšo obliko poravnanega dvojezičnega kor¬ pusa (več o korpusih najdete npr. v (Erjavec, 2002)). Vsako področje je v posebnem pom¬ nilniku prevodov (shranjeno v posebni dato¬ teki) in enako razdelitev smo uporabili tudi pri pretvorbi pomnilnika v korpus. Avgusta 2003 so bila na voljo tale področja: ekonomi¬ ja, finance, statistika, energetika, industrija, institucije, pravosodje, notranje zadeve, kme¬ tijstvo, ribištvo, veterina, okolje, potrošniki, varovanje zdravja, primarna zakonodaja EU, promet, socialna politika ter zunanja in var¬ nostna politika. V času pisanja članka so bila povsem prečiščena le besedila primarne za¬ konodaje; prevodi z drugih področij so manj zanesljivi, a se stanje postopno izboljšuje. Uporabniški vmesnik programa za iska¬ nje po korpusu je podoben kot prej (slika 2): Zgoraj je stalni del z enako navigacijo kot pri Evrotermu, na levi uporabnik vpiše iskano be¬ sedo (ali niz besed), izbere jezik, v katerem je vpisana iskana beseda, področje iskanja in na¬ čin izpisa (eno- ali dvojezičen), na desni pa se izpišejo rezultati. Če izberete dvojezični izpis, dobite celotno prevodno enoto v izvirniku in prevodu, pri enojezičnem pa se izpiše samo do 50 znakov levo in desno od iskanega poj¬ ma. Dvojezični izpis je koristen predvsem ta¬ krat, ko prevajalec ne pozna prevoda iskane¬ ga pojma v danem kontekstu (npr. te besede ni v slovarju) in ga zanima, kako so ta pojem doslej prevajali drugi prevajalci. Enojezični iz¬ pis (slika 3) je konkordančnik in je koristen, kadar prevajalec sicer pozna pomen pojma, a ga ob tem zanimajo druge posebnosti gle¬ de rabe, ki iz slovarja ali jezikovnih priročni¬ kov niso razvidne - ta podatek je posebej kori¬ sten pri prevajanju v tuj jezik. Kot primer: Tim Johns, veteran v korpusnem jezikoslovju, je v svojem predavanju v Ljubljani, poleti 1999, omenil, da je ugotovil, da se v angleščini izraz »caused by« večinoma uporablja v negativ¬ nem kontekstu (npr. »accident, death, flood, fire, explosion was caused by ...«; praviloma pa ne naletimo na kolokacijske zveze, kot so npr.: »increase of production« ali »health im- provement was caused by ...«; glejte na spletu (Johns, 1997)). Več o praktični rabi korpusov za prevajalce najdete v (Hirci, 2001). Program za iskanje po korpusu na spletu smo poimenovali Evrokorpus. 4.3 Iskanje Pravila za iskanje so podobna kot pri Ev¬ rotermu, upoštevati je treba le, da iščemo po besedilu, ne po seznamu izrazov, torej npr- uporaba znaka * kot okrajšave za različna obrazila nima smisla, zaradi načina zapisa v korpusu tudi $ ni več uporaben. Druga pravi¬ la veljajo enako: pika označuje poljuben znak, vprašaj morebiten dodaten znak, zaviti okle¬ paj označuje število ponovitev znaka, med oglatima oklepajema pa lahko naštejemo al¬ ternativne znake. Možnih je tudi nekaj novih načinov iska¬ nja: če želite z enim iskanjem najti več besed, 68 Mostovi 2003 Evroterm in Evrokorpus jih lahko ločite z znakom »I« (na tipkovnici za PC: AltGr W); če bi npr. želeli dobiti v iz¬ pisu vse zapise, v katerih se pojavlja beseda »zadeva« ali »zadevo«, lahko to napišete kot: zadeva I zadevo Poljubno besedo z regularnim izrazom na¬ pišite: [a-z]* (pojasnilo: beseda lahko vsebu¬ je znake od a do z (s šumniki so lahko teža¬ ve, zato jih bomo tu preskočili) in v eni besedi je lahko poljubno število znakov). Če vas za¬ nima, kateri zadetki tipa »in čase of«, »in re- spect of« ipd. (v splošnem: »in angl. beseda of«) obstajajo v korpusu, napišite iskalni niz kot: in [a-zl* of Če vas zanimajo poljubno dolge fraze, ki imajo na začetku »in«, na koncu pa »of« (med »in« in »of« je torej lahko ena ali več besed), je treba med dovoljene znake za besedo dodati presledek, iskalni niz pa bi bil takle: in [a-z ]* of (Razlika glede na prejšnji primer je le ta, da črki »z« sledi presledek.) V tem primeru se število zadetkov poveča na več tisoč (pazite, kaj in kako iščete, če imate počasno linijo!), ker pa sta »in« in »of« zelo pogosti besedi, je veliko zadetkov neuporab¬ nih (v resnici ne dobimo fraz, saj računal¬ nik ne pozna definicije »fraze«), si je pa na¬ čelo koristno zapomniti, ker nam lahko kdaj koristi. Če želite dobiti besede, ki se končajo na do¬ ločen niz znakov, napišite to npr. takole: [a-z]*aga S tem iskalnim pogojem dobite vse bese¬ de, ki se končajo na »aga«. (Na začetku in na koncu je treba dodati presledek, sicer dobite vse besede, ki vsebujejo niz »aga«.) Evroterm English EVROKORPUS P korpusu korpus prevodov zakonodaje Evropske unije navodila Vpišite iskano besedo: jcoused by iskani izraz: caused by število zadetkov: 58 Vpisani izrazje v angleščini r slovenščini Izberite področje: finance kmetijstvo okolje primarna_rakonodaja promet junaniaJn_varnostna_politika 3 Izpis: r dvojezičen ^ enojezičen m * — :-j m Done providing compensation to victims of accidentscaused by uninsured or unidentified vehicles: a body to compensate the victims of accidents caused by uninsured or unidentified vehicles; VVhereas, hovvever, in the čase of an accident caused by an uninsured vehicle. the victim is required in radiation exposure of the vvorkers and the public caused by the facility shall be kept as low as reasonably (vii) "litipacr means any effect caused by a proposed activity on the environment including vvithin an area under the jurisdiction of a Partycaused by a proposed activity the physical origin of which is introduction ofthe harmful organisms has beencaused by inadequate examinations or inspedions. the harmful organism in the area concerned was caused by the movement into that area of one or more is an exceptional čase of market disturbance caused by serious surpluses and/or problems of quality. introduction ofthe harmful organisms has been caused by inadequate examinations or inspedions. Iaws ofthe Member States, make good any damagecaused by it or its servants in the performance oftheir the protedion of waters against pollution caused by nitrates from agricultural offorest ecosystems In relation to the damage caused by atmospheric pollution and otherfadors influencir the protedion of groundvvater against pollution caused by certain dangerous substancesV-\{3>\chfln\chnn \ the protedion of vvaters against pollution caused by nitrates from agricultural the protedion of groundvvater against pollution caused by certain dangerous substances. the protedion of groundvvater against pollution caused by certain dangerous substances\~)( 1 >\chfln\chfln Contents of plot file with observed damage caused by meteorologic events/phenomena of plots, the recording of observed damage caused by meteorologic phenomena should be executed on C. observation of damage of trees in the plot caused by extreme vveather situations (ali plots) should be comparable), and disturbances caused by the monitoring should be kept to a minimum), Damage caused by: game and grazing (1 = yes) Damage caused by: insects (1 = yes) Damaae caused bv: funai (1 = ves) f Slika 3: Enojezični izpis v Evrokorpusu 69 Miran Željko Mostovi XXXVII, št. i, 2003, 70-72 Če želite poiskati besede, dolge štiri ali več znakov, ki vsebujejo samo soglasnike, napiši¬ te iskalni niz takole: [bcčdfghj klmnprsštvzž]{4,} (Pred iskalnim nizom in za njim mora biti presledek.) Lahko poiščemo besede določene dolži¬ ne; za besede z 20 ali več znaki je iskalni niz npr. takle: [a-z]{20,} 5. Povezava terminologije 5.1. Podatki iz korpusa v terminologiji V nekaterih primerih se v SVEZ-ovi termi¬ nološki zbirki pod enim vpisom pojavlja več besed v enem jeziku - npr. za angleška izraza facility in sustainable so v slovenščini navede¬ ni kar štirje prevodi. Pri takih zapisih pogo¬ sto ne gre za sinonime, temveč je vsak izraz primeren le v določenem sobesedilu. Preva¬ jalec, za katerega je neko področje novo, pa nima občutka za izbiro pravega izraza. V slo¬ varjih v knjižni obliki je ob večpomenskih iz¬ razih navedenih tudi nekaj praktičnih prime¬ rov, v našem slovarju si lahko pomagamo kar s korpusom: pri podrobnem izpisu podatkov o posameznem izrazu v programu Evroterm so besede v angleščini in slovenščini podčr¬ tane, to pomeni, da jih je možno klikniti; pri tem dobimo na zaslon rezultat iskanja te be¬ sede po celotnem korpusu, z navedbo podro¬ čja, na katerem se je pojavila najdena beseda. Povezava posameznega izraza iz terminolo¬ ške zbirke s korpusom se vzpostavi šele ob kliku, zato za nekatere besede ne dobimo za¬ detkov (ali drugače povedano: Evroterm ne 6. Prednosti programa Terminološki podatki se na spletu osveži¬ jo hkrati z ažuriranjem podatkov v MultiTer- movi bazi na SVEZ-ovem lokalnem omrežju - torej imajo zunanji prevajalci dostop do no¬ vih podatkov tako rekoč sočasno z zaposle- Zapis pomeni, da se poljubna črka lahko ponovi 20- ali večkrat; pomembno je, da pred iskalnim nizom in za njim napišemo presle¬ dek. Če bi želeli dobiti samo besede, ki so dolge natančno 20 znakov, bi v zgornjem za¬ pisu odstranili vejico. Če bi želeli dobiti bese¬ de, ki so dolge do 20 znakov ..., tega raje ne počenjajte, sicer vam bo strežnik poslal celo¬ tno vsebino korpusa! in korpusa »ve«, kateri izrazi iz terminološke baze so tudi v korpusu in katerih ni). 5.2. Podatki iz terminologije v korpusu Pri dvojezičnem izpisu iz korpusa je iska¬ na beseda pobarvana in jo zato hitro najde¬ mo na zaslonu, več časa pa porabimo za iska¬ nje ustreznega mesta v drugem jeziku. Pri tern nam program pomaga tako, da uporabi poda¬ tke iz terminološke zbirke: če je iskana beseda v slovarju, je v njem tudi prevod v drug jezik in računalnik pri obdelavi besedila barvno ozna¬ či izvirnik in prevod, prevajalcu pa s tem pre¬ cej olajša iskanje na zaslonu. Če želimo dobiti podatke o besedi iz Evroterma, lahko klikne¬ mo na kazalec na začetku izpisa. Težave lahko nastanejo pri sinonimih in pregibnih besedah: pri sedanji izvedbi korpusa se upošteva le prvi pomen, zapisan v Evrotermu, ker pa v korpu¬ su niso zapisane osnovne oblike besed, pri pre¬ gibnih besedah program ne najde besed, pri ka¬ terih se končnica razlikuje od iskanega izraza (npr. če bi iskali besedo »kri«, program ne bi na¬ šel »krvne skupine«). nimi v SVEZ-u. Pri podatkih za korpus v času pisanja članka še ni bilo take avtomati¬ ke - to je ena od nalog, ki jih bo treba opra¬ viti v bližnji prihodnosti. V terminološki bazi 70 Mostovi 2003 Evroterm in Evrokorpus je bilo avgusta 2003 več kot 40.000 vpisov, v korpusu pa okoli 7 milijonov besed. Naša rešitev ima v primerjavi s Tradoso- vim spletnim programom predvsem tele po¬ membne prednosti: - na splet smo prenesli terminologijo, pom¬ nilnike prevodov smo preuredili v dvojezični korpus ter povezali terminologijo in korpus; - lasten program nam omogoča, da ga po¬ stopno nadgrajujemo, pri čemer skušamo obdržati preprost in usklajen uporabniški vmesnik; hitro lahko naredimo novo jezikov¬ no različico, če bi se pokazala taka potreba; - podatke imamo v dveh ločenih bazah (terminologija in korpus), ki ju lahko neod¬ visno dopolnjujemo, dopolnitve v eni bazi pa koristijo tudi uporabnikom druge baze; - podatki so shranjeni v obliki datotek z oznakami besedila (»tagged text files«), to pomeni, da tu predstavljena rešitev ni ome¬ jena na Tradosove baze, temveč bi kot vir po¬ datkov lahko uporabili katerikoli drug pro¬ gram s podobno funkcijo, ki zna izvoziti 7. Odziv prevajalcev Ob takšnih rešitvah je seveda jasno, da so te vredne toliko, kolikor jih ljudje uporablja¬ jo v praksi. Statistika kaže, da so spletne stra¬ ni Evroterma (med vsemi stranmi državnih ustanov na strežniku www.gov.si) med tisti- uii, pri katerih število obiskov najhitreje ra¬ ste, skupno pa je bilo v zadnjem letu več kot 900.000 poizvedb v slovarju (podrobnosti so na: http://www.gov.si/evroterm/stat.html); na lestvici dostopov do vseh strani na strež¬ niku www.gov.si (podrobnosti so na: http:// Www.gov.si/stat.html) pa je julija 2003 najbolj obiskana stran Evroterma na 2. mestu (pred njo je le vstopna stran www.gov.si; vseh da¬ totek na strežniku pa je več kot 50.000!). K podatke v podobni obliki, kot je prikazano v točkah 3.1 (terminologija) in 4.2 (pomnil¬ nik prevodov). Za prevajalski oddelek SVEZ-a ima prenos podatkov na splet tele koristi: - zunanji prevajalci imajo dostop do istih podatkov kot prevajalci, ki so zaposleni v SVEZ-u; - terminologija v prevodih je bolj usklajena in prevodi zunanjih prevajalcev so boljši; - prevode na internetu vidi več ljudi, zato hitreje najdejo napako in ta se lahko hitreje odpravi; - zaradi boljših prevodov je delo lektor¬ jev, strokovnih in pravnih redaktorjev hitrej¬ še in lažje; - vsi podatki so javno dostopni, in to je naj¬ boljše zagotovilo, da se bo v Sloveniji uporab¬ ljala enotna terminologija v zvezi z zakono¬ dajo EU - pomembno je, da je terminologija na voljo tudi novinarjem, prevajalcem, ki to¬ vrstna besedila prevajajo za druge naročnike, in študentom prevajanja. temu rezultatu je gotovo nekaj prispevalo to, da je DZS leta 2002 umaknil spletno različico Velikega angleško-slovenskega slovarja (ne¬ kateri pač ne razumejo pomena tako prepro¬ ste promocije, čeprav verjetno precej vlagajo v druge oblike oglaševanja) in je zato Evro¬ term postal najobsežnejši prosto dostopen spletni slovar, ki vključuje slovenščino. Ti rezultati ponovno potrjujejo velikokrat na¬ pisano in izrečeno trditev, da ljudje na sple¬ tu iščejo predvsem konkretno uporabno vse¬ bino, take pa na spletnih straneh državnih ustanov, kljub množici podatkov in slik, žal, obupno primanjkuje. 71 Miran Željko Mostovi XXXVII, št. i, 2003, 72-72 8. Sklep V članku je opisan prenos Tradosove ter¬ minološke baze in dvojezičnega korpusa (ki smo ga pripravili iz pomnilnika prevodov) na spletni strežnik, ki teče pod operacijskim sistemom unix. Ker razvijalec in prodajalec programov Trados ni ponudil ustrezne rešit¬ ve, smo jo razvili sami. S prenosom podatkov na splet smo omogočili prost dostop do ter¬ minološke zbirke in korpusa prevodov vsej zainteresirani javnosti. Prevajalski oddelek Službe Vlade RS za evropske zadeve največ¬ je koristi pričakuje pri poenotenju terminolo¬ gije, če bodo te podatke dosledno uporabljali njegovi zunanji sodelavci - prevajalci zako¬ nodaje EU. 9. Opomba za uporabnike Članek opisuje stanje, kakršno je bilo v za¬ četku avgusta 2003. Ker se Evroterm in Evro- korpus stalno razvijata, so morda v času, ko smo Mostove pripravljali za tisk, nastale take 10. Literatura Erjavec, T. (2002). Compilation and Exploita- tion of the IJS-ELAN Parallel Corpus, Zbor¬ nik konference Informacijska družba 2002 - Je¬ zikovne tehnologije, str. 86-93. Hirci, N. (2001). Nov pripomoček pri preva¬ jalskem delu: računalniški korpusi, Mosto¬ vi 2001, str. 46-59. Johns, T. (1997). Kibbitzer 24. Cause v. lead to v. bring about. http://web.bham.ac.uk/ johnstf/revis024.htm Krstič, A. (1999). Prevajanje zakonodaje Ev¬ ropske unije, Mostovi 1999, str. 55-59. Krstič, A., Bele, J. (1999). Prevajanje pravnih aktov Evropske unije. Uporabno jezikoslovje 1999 (7-8), str. 191-205. Krstič, A., Željko, M. (2000). Evroterm - ter¬ minologija EU na internetu, Zbornik refera- spremembe obeh programov, da navedbe v članku ne veljajo več - tedaj velja stanje, kot je opisano na spletnih straneh. tov posvetovanja INDO 2000, str. 112-116. http://www.gov.si/cvi/slo/indo/indo2000/ referati/referatl4.html Velkaverh, G. (2001). Pravni slovensko-an- gleški prevajalski slovar. Mostovi 2001, str. 109-112. Vintar, Š. (1999). Računalniška orodja za pre¬ vajanje, Mostovi 1999, str. 47-54. Željko, M., Krstič, A. (2002). Web-based Tra¬ dos Databases - An Alternative Approach, Translation: Nezv Ideas for a New Century (Proceedings of the XVIFIT World Congress), v str. 303-308. Željko, M. (2000). Pomnilniki prevodov v praksi, Mostovi 2000, str. 75-90. 72