okoli!>
oko
prilika
os=" 1" side="tl" part="oblika"/>
" sid^"tl" part="lema"/>
" part="pomožiii glagol"/>
<^E0S="1' " side="tl" part="oblika">
" side="tr' part="kevilo"/>
<^E0S="2' " si^"«" part="glaviii glagol"/>
" side="tr' part="oblika"/>
(4)
Slika 7: Primer pravila za strukturni prenos. Pravilo opisuje spremembe načina zapisa prihodnjika iz slovenščine v hrvaščino. Posamezne značke so predstavljene v Tabeli 3.
bijelo (osnovnik) - belo (osnovnik) bjelije (primernik) - bolj belo (primernik)
najbjelije (presežnik) - najbolj belo (presežnik)
Na podobno težavo naletimo tudi pri pridevnikih. V enojezičnem slovarju ciljnega jezika hrvaščina so bila prisotna tudi deležja, ki se v slovenskem jeziku prevedejo v načinovne prislove s končnicami -oč/-eč/-e/-aje. Težave smo imeli z glagolskimi prislovi, ki nimajo ustreznega prevoda v slovenskem jeziku, zato jih je bilo treba prevesti v pridevnike (moški spol, ednina, imeno-valnik). Primer (4) kaže glagolske prislove s primernim prevodom ter prevodi v pridevnik
(5)
Glagolski prislovi s primernim prevodom:
viseči ^ viseč, čekajuci ^ čakajoč,
Glagolski prislovi s prevodom v pridevnik :
poštujuči ^ spoštovan. Pravila prenosa
Apertiumov modul strukturnega prenosa {Structural transfer module) uporablja tehnologijo končnih avtomatov za odkrivanje vzorcev fiksne dolžine leksikalnih enot (kosov besedila ali fraz),^" ki zahtevajo posebno obdelavo glede na slovnične razlike med jezikoma (na primer: spremembe v spolu, sklonu ali številu za zagotovitev ujemanja v ciljnem jeziku, sprememba vrstnega reda besed, leksikalne spremembe, kot na primer spremembe v predlogih ...).
Pravila so zgrajena iz dveh delov: končnega števila elementov, ki opisujejo vzorce fiksne dolžine, in dela, ki omogoča opis akcije, ki je potrebna za spremembo vzorca. Vzorec je predstavljen s sekvenco leksikalnih kategorij izvornega jezika poljubne dolžine, ločenih s presledki {b - blank). Na sliki 8 je vzorec oblike: pomožni glagol v pri hod nji ku in glavni glagol poljubne oblike. Ukrep {action) določa akcije, ki naj se izvedejo nad sekvencami vzorca ter izhodni vzorec leksikalnih kategorij ciljnega jezika, ki naj se zgradi. Po detekciji vzorcev se izvedejo spremembe, ki so opisane v telesu pravila (izhod modula so spremenjene leksikalne enote).
Primer pravila je predstavljen na sliki 8. Pravilo je sestavljeno iz dveh delov: vzorec (pattern) in ukrep (action). Opisuje spremembe načina zapisa prihodnjika iz slovenščine v hrvaščino. Vzorec je sestavljen iz dveh leksikalnih
10 Fraza je v tem primeru del besedila (chunk of text), ki nima nujno zaključenega pomena oziroma drugačne jezikoslovne razlage za razdelitev.
Tabela 3: Razlaga oznak in atributov zapisa pravil v formatu Apertium
oznaka Opis
(rule) celotno pravilo
(pattern) vsebuje eno ali več značk (pattern-item), ki definirajo
leksikalne oblike, na katere lahko apliciramo pravilo
(pattern-item) del vzorca, leksikalna enota
(action) del pravila, ki opisuje ukrep, spremembo vzorca
(let) sprememba izvornega dela
(clip) izbere del leksikalne enote, ki ustreza atributom
(lit) generira niz črk
(lit-tag) generira niz črk, ki opisujejo jezikovno oznako
(out) vsebuje vse, kar bo pravilo izpisalo
(lu) definira vsebino celotne leksikalne enote
(b) (blank), ločilo med leksikalnima enotama, pogosto je presledek
(call-macro) klic makra (programske kode)
atribut Opis
side smer, ki jo naslavlja značka (izvorna/ ciljna)
part ime dela, ki ga naslavlja značka
n dejanska vsebina značke apattern-itemn
v dejanska vsebina značk alitn in alit-tagn
pos (position), zaporedna številka leksikalne enote
enot: pomožni glagol biti v prihodnjiku in glagol poljubne oblike, ukrep pa spremeni lemo prvega glagola v hteti, obliko prvega glagola v deležnik ter obliko drugega glagola v nedoločnik; v nadaljevanju so v znački (lexical unit) izpisane leksikalne kategorije za obe besedi.
Posamezne oznake zapisa pravil so predstavljene v Tabeli 3.
Pravila prenosa so skupaj z dvojezičnim slovarjem uporabljena v modulu za strukturni prenos pri dejanskem prevajanju oblikoskladenjsko označenih leksikalnih enot (po navadi besed ali besednih zvez). S pravili poskušamo opisati strukturne razlike med jezikoma, torej potrebne spremembe za pravilne prevode iz izvornega v ciljni jezik. Pravila plitkega prenosa, kot jih uporablja Apertium, naslavljajo le dele besedila končne velikosti; večina pravil naslavlja dele besedila dolžine 1, 2 ali 3 besede. Modul v izvornem besedilu poišče dele besedila, ki jih naslavlja pravilo. Pravilo
na delu besedila, ki ga naslavlja, izvede akcijo in vrne spremenjeno besedilo.
Sama izbira pokritja posameznih izvornih povedi s pravili poteka po principu najdaljšega ujemanja z leve strani (LRLM - Left-to-Right Longest Match). Za poved v izvornem jeziku je izbrana takšna veriga pravil, da je za dele, pri katerih bi lahko uporabili več pravil, izbrano tisto, ki naslavlja daljše besedilo od leve proti desni.
Primer kaže poved »Jutri bom kupil rožo« in njen prevod; del te povedi bom kupil je posebej označen in naslavlja pravilo na sliki 8.
bom kupil
biti-gl pomožni prihod los edn kupiti-gl glavni deležnik edn moški "Jutri bom kupil rožo." (SLO) cu kupiti
hteti-gl pomožni sedanjik los edn kupiti-gl glavni nedoločnik "Sutra cu kupiti cvijet." (HR)
Oglejmo si še delovanje pravila na primeru 4. Prva beseda pokritja, pomožni glagol v prihodnjiku, ustreza besedi bom iz primera, druga beseda, glavni glagol, ustreza besedi kupil. Pred izvajanjem samega izpisa pravilo postavi novo lemo prvi besedi hteti in obliko glagola v deležnik. Obliko drugega glagola spremeni v nedoločnik. Pravilo pri samem izpisu za vsako besedo le izpiše že spremenjene lastnosti v vnaprej pripravljenem vrstnem redu, kot je prikazano na primeru (6).
Ročna izdelava pravil
S pomočjo metode za samodejno izdelavo pravil in izbiro najboljših (Vičič, 2012) smo izdelali veliko število pravil, saj metoda pri tem ni uporabljala nobenih omejitev. Tako so se pravila med seboj tudi izključevala (kar pomeni, da so delovala na istih vhodnih nizih, sistem bi izbral prvo pravilo, vsa ostala pa bi bila neuporabna).
Metoda bi potrebovala še metriko za vrednotenje pravil, sama uporaba ovrednotenih pravil pa bi zahtevala tudi arhitekturno spremembo prevajalnega sistema. Ta del že presega namene tega članka.
Ostala pravila smo izdelali ročno. Pravila strukturnega prenosa so razdeljena v tri nivoje zaradi večje fleksibilnosti pri zaznavanju besed ali stavkov. Omejili smo se le na prvi nivo, saj je struktura obeh jezikov jezikovnega para zelo podobna. Opomba: pravila so napisana za prevajanje iz hrvaškega v slovenski jezik, torej je v opisanih primerih hrvaščina izvorni jezik, slovenščina pa ciljni jezik. Oglejmo si primere osnovnih in specifičnih pravil: • Osnovna pravila, ki so potrebna za pravilno prevajanje posameznih besed ali skupin besed - usklajevanje oblikoskladenjskih oznak, so bila dodana za naslednje besedne vrste ter naslednje skupine besed: samostalnike, pridevnike, svojilne
zaimke, glagole, glagolske prislove, glagol biti, glagol imeti, glagol hoteti, predloge, veznike, števila, pridevnik + samostalnik ter svojilni zaimek + pridevnik + samostalnik itd.
• Nekaj specifičnih pravil, ki so potrebna za pravilno prevajanje skupin besed: je + glagol, se + glagol, se + ne biti (preteklik) + glagol, predlog + samostalnik, ne + glagol biti itd.
Dodanih je bilo 31 pravil prenosa.
Tabela 4: Pokritost slovarjev
Slovar Št. slovarskih gesel (lem)
Enojezični slovar - SLV 25.923 (1.901 paradigem)
Enojezični slovar - HRV 17.330 (1.014 paradigem)
Dvojezični slovar 17.330 (slovarski vnosi)
METODOLOGIJA EVALVACIJE
Naslednji podrazdelki predstavljajo in opisujejo osnovne statistike jezikovnih gradiv, ki so bila ustvarjena v sklopu projekta. Podrobneje opisujejo tudi rezultate vrednotenja prevodov sistema.
Pokritost korpusov
Tabela 4 prikazuje število slovarskih gesel, ki jih vsebuje enojezični slovar izvornega jezika - slovenščine,
Tabela 5: Pokritost korpusov: korpus je bil razdeljen na manjše dele, za vsakega je bila izračunana pokritost, prikazano je povprečje vseh delov korpusa ter standardna deviacija
Korpus Št. besed Povprečje STDEV
MULTEXT-EAST (Orwell) SL 104.482 94,23 % 0,15 %
OPUS (subs) SL 2.562.969 91,72 % 0,21 %
OPUS (subs) HR 307.564 77,34 % 0,31 %
število slovarskih gesel, ki jih vsebuje enojezični slovar ciljnega jezika - hrvaščine in število vnosov v dvojezičnem slovarju, natančneje, koliko slovarskih gesel ima primerne prevode v dvojezičnem slovarju. Poleg naštetih lastnosti tabela prikazuje tudi število vsebovanih paradigem v posameznem enojezičnem slovarju tako izvornega kot ciljnega jezika.
Tabela 5 predstavlja rezultate vrednotenja pokritosti (coverage) korpusov z jezikovnimi gradivi. Metoda je bila izvedena na dveh različnih korpusih, in sicer na korpusu MULTEXT(-East) (Erjavec, 2010a; Dimitrova et al., 1998) ter na delu korpusa OPUS (subs) (Tiedeman, 2012).
Pri korpusu OPUS smo se zaradi časovnih omejitev omejili na del zbirke podnapisov, natančne vrednosti so predstavljene v Tabeli 5. Vsebino omenjenih zbirk smo razdelili na intervale po 10.000 besed in jih posamezno prevedli. Na tak način smo izračunali še povprečje in standardno deviacijo. Ob predpostavki, da uporabljeni korpusi dovolj dobro predstavljajo opazovano jezikov-
Tabela 6: Rezultat testiranja z orodjem testvoc (Smer: hrvaščina - slovenščina)
B. vrsta Skupno Pravilni Z @ Z # %
Pridevniki 1.517.798 1.517.798 0 0 100
Glagoli 1.018.517 1.018.517 0 0 100
Imena 726.576 726.576 0 0 100
Samost. 135.031 135.031 0 0 100
Pom. gl. 35.112 35.112 0 0 100
Zaimki 10.683 10.683 0 0 100
Števniki 10.165 10.165 0 0 100
Prislovi 8.568 8.568 0 0 100
Predlogi 101 101 0 0 100
Kratice 56 56 0 0 100
Medmeti 49 49 0 0 100
Vezniki 71 71 0 0 100
11 Orodje testvoc je del zbirke orodij Apertium: http://wiki.apertium.org/wiki/Testvoc.
Tabela 7: Rezultat testvoc (Smer: slovenščina - hrvaščina)
B. vrsta Skupno Pravilni Z @ Z # %
Pridevniki 749.994 263.260 370.603 116.131 35.2
Glagoli 77.254 58.991 495 17.768 76.4
Imena 437.433 437.433 0 0 100
Samostalniki 72.478 72.478 0 0 100
Pom. glagoli 120 120 0 0 100
Zaimki 3.382 3.382 0 0 100
Števniki 8991 8991 0 0 100
Prislovi 7.388 4.739 1.610 1.039 64.2
Predlogi 84 84 0 0 100
Kratice 56 56 0 0 100
Medmeti 49 49 0 0 100
Vezniki 56 56 0 0 100
no domeno, nam pokritost oceni pričakovani odstotek neznanih besed pri prevodih. Standardna deviacija predstavlja mero razpršenosti podatkov.
Ob izvajanju testiranja korpus MULTEXT-EAST (Orwell) še ni vseboval hrvaškega prevoda romana 1984, tako je bilo preverjanje te prevajalne smeri s korpusom MULTEXT-EAST omejeno na izvorni jezik, slovenščino.
Pokritost slovarjev
Pokritost slovarjev smo testirali z orodjem testvoc.11 Osnovna metoda orodja: razširiti enojezični slovar izvornega jezika, nato pa testirati vsako možno besedno obliko izvornega slovarja skozi vse faze prevajalnega sistema. Na tak način ugotovimo, katera analiza besede ima pravilen prevod v enojezičnem slovarju ciljnega jezika, torej brez simbolov za oznako napak # ali @.
Pomen simbolov, ki označujejo napake:
• @ - beseda ne vsebuje prevoda v dvojezičnem slovarju,
• # - beseda se ne prevede pravilno - oblikoskla-denjske oznake niso pravilno označene.
V Tabeli 6 so predstavljeni rezultati testiranja eno-jezičnega slovarja ciljnega jezika. Rezultati prikazujejo kakovost prevajanja posameznih besed iz hrvaškega v slovenski jezik.
V Tabeli 7 so predstavljeni rezultati testiranja enoje-zičnega slovarja ciljnega jezika z metodo testvoc (Tyers et al., 2010). Rezultati prikazujejo kakovost prevajanja posameznih besed iz hrvaškega v slovenski jezik.
Razlika med obema smerema obstaja, ker je slovenski slovar večji, tako pokriva vse hrvaške besede, druga smer (hrvaški enojezični slovar) pa v tem projektu ni bil dopolnjen.
Vrednotenje kakovosti prevodov
Predstavljeni sistem še ni dokončan; zaradi časovne stiske smo se morali omejiti samo na prvi nivo pravil prenosa. Kljub temu smo se odločili za prvo testiranje sistema na manjšem testnem vzorcu, ki je bil ročno pripravljen: novica iz korpusa SETIMES (Tyers in Alperen, 2010), ki je bila uporabljena v vseh novih sistemih projekta GSOC2011.
Testni primeri so bili izbrani iz korpusa MULTEXT--EAST, in sicer dela, ki ni bil uporabljen kot učna množica pri samodejnih metodah. Vključili smo še skupni testni vzorec projekta Apertium Google Summer Of Code 2011 (Google, 2012b): novica iz korpusa SETIMES (Tyers in Alperen, 2010), ki je bila uporabljena v vseh novih sistemih projekta.
Pri vrednotenju prevodov je bila uporabljena metrika Human-targeted TER (HTER) (Snover et al., 2006), ki temelji na uteženi Levenshteinovi razdalji (weighted Leven-shtein edit-distance) (Fu, 1982). Ta predstavlja razširitev osnovne Levenshteinove razdalje (Levenshtein, 1965), ki šteje najmanjše število sprememb, ki jih moramo opraviti med prevodom sistema za strojno prevajanje in referenčnim prevodom. Število sprememb še utežimo z dolžino povedi. Dovoljene spremembe so vstavitev, brisanje in zamenjava besede. Namesto referenčnih prevodov so bili pri testiranju prevedeni primeri ročno popravljeni, pri popravljanju je bilo upoštevano načelo čim manjšega števila sprememb, ki že omogoči popolnoma pravilno poved v ciljnem jeziku, ki popolnoma odraža izvorni pomen.
Vrednost na poseben način uporabljene metrike HTER je: 13,7 %.
Metrika BLEU (Papineni et al., 2001) je najbolj razširjena metrika za vrednotenje sistemov strojnega prevajanja, vendar mnogi avtorji (prim. Callison-Burch
et al., 2006; Labaka et al., 2007), soglašajo, da BLEU sistematično zapostavlja sisteme RBMT in ni primerna za visoko pregibne jezike. Metrike nismo uporabili pri testiranju predstavljenega sistema.
ZAKLJUČEK IN NADALJNJE DELO
Kakovost predstavljenega prevajalnega sistema presega raven eksperimentalnih in poskusnih storitev. Prevodi predstavljenega sistema že dosegajo kakovost, ki omogoča širšo uporabo kot zgolj le akademsko postavitev v namene preizkusa metod. O tem lahko sklepamo iz vrednotenja z metodo HTER kot tudi iz pričevanja uporabnikov, ki so sistem preizkušali. Jezikovna gradiva so zapisana v (človeku) berljivem formatu, kar omogoča relativno enostaven vnos popravkov in posledično izboljšavo kakovosti prevajanja.
Projekt Apertium je odprtokoden. Vsa izdelana gradiva so prosto dostopna z licenco GNU Lesser General Public License (LGPL) (GNU, 2010) na strežniku projekta.12 Izdelan je bil tudi spletni vmesnik do »živega« prevajalnega sistema. Prevajalnik je na voljo na strežniku jezikovnih tehnologij Univerze na Primorskem.13
Vsi jezikovni viri bodo dostopni prek slovenske raziskovalne infrastrukture CLARIN.14
Za slovenščino obstajata še dva enojezična obliko-skladenjsko označena slovarja, in sicer Multext-East (Erjavec, 2010a) in Sloleks (Arhar, 2009). Z relativno majhnim vložkom bi lahko predvsem slednjega uporabili za širjenje enojezičnega slovarja, ki je bil pripravljen v tem projektu (dodajanje novih lem v primerne paradigme, ustvarjanje novih paradigem). Tehnično bi bilo takšno združevanje leksikonov možno, upoštevati pa moramo neskladne licenčne pogoje gradiv.
Poleg osnovnega namena prevajalnega sistema, prevajanja jezikovnega para, so predstavljena gradiva uporabna tudi pri mnogih drugih jezikoslovnih raziskavah in aplikacijah. Ne nazadnje lahko del gradiv uporabimo pri gradnji prevajalnega sistema za nov jezikovni par. V načrtu imamo izdelavo prevajalnega sistema za jezikovni par slovenščina - italijanščina ter dolgoročni načrt izdelave prevajalnika za sorodne južnoslovanske jezike (slovenščina, hrvaščina, srbščina, bosanščina, makedonščina).
Gradiva pa niso uporabna le v prevajalnem sistemu, oblikoskladenjsko označeni slovar in dvojezični slovar sta uporabno gradivo za jezikoslovne raziskave in tudi za izdelavo jezikoslovno gnanih aplikacij. Način dostopnosti gradiv omogoča relativno prosto uporabo, standardiziran način označevanja pa enostavno uporabo.
12 Projekt Apertium: http://www.apertium.org/.
13 Strojno prevajanje: http://jt.upr.si/mt_slo.html.
14 CLARIN: http://clarin.si.
LINGUISTIC MATERIALS FOR THE MACHINE TRANSLATION SYSTEMS
Jernej VIČIČ
University of Primorska Andrej Marušič Institute, Muzejski trg 2, 6000 Koper, Slovenia e-mail: jernej.vicic@upr.si
SUMMARY
Rule based machine translation systems require quality language resources, such as morphologically enriched dictionaries, bilingual dictionaries and translation rules. Materials are prepared in a standardized format and are also suited for use in a multitude of applications. The article presents the methods that have been used both to build language resources as well as the extent and quality of the produced material and a fully functional machine translation system.
The paper presents linguistic materials used in a machine translation system for the language pair Slovenian -Croatian. It presents the machine translation system with the associated language materials. The presented methods include: automatic production of monolingual morphologies, bilingual translation dictionaries and translation rules.
The paper also presents the manual cleaning for each language material used in the translation system. The evaluation had two main objectives: evaluation the translation quality of the basic translation system and evaluation of the size and quality of the individual language resources. All materials and the entire translation system are freely available.
Keywords: Machine translation of natural languages, morphosyntactic dictionary, translation rule, paradigm,
lemma
LITERATURA
Arhar, Š. (2009): Učni korpus SSJ in leksikon besednih oblik za slovenščino. Jezik in slovstvo, 54, 3-4, 43-56.
Brown, P. F., Della Pietra, S. A., Della Pietra, V. J. & R. L. Mercer (1993): The mathematics of statistical machine translation: parameter estimation. Computational linguistics, 19, 163-311.
Callison-Burch C., Osborne, M. & P. Koehn (2006): Re-evaluating the role of BLEU in machine translation research. Proceedings of EACL, Trento, Association for Computational Linguistics, 249-256.
Calzolari, N. & M. Monachini (1996): Synopsis and comparison of morphosyntactic phenomena encoded in lexicons and corpora: a common proposal and applications to European languages. Eagles report.
Corbi-Bellot, A. M., Forcada, M. L. & S. Ortiz-Rojas (2005): An open-source shallow-transfer machine translation engine for the Romance languages of Spain. Proceedings of the EAMT conference. Budapest, EAMT, 79-86.
Dimitrova, L. et al. (1998): Multext-East: Parallel and Comparable Corpora and Lexicons for Six Central and Eastern European Languages. COLING-ACL, Montreal, Association for Computational Linguistics, 315-319.
Erjavec T., Fišer, D., Krek, S. & N. Ledinek (2010): The JOS Linguistically Tagged Corpus of Slovene. Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC'10). Malta, ELRA.
Erjavec, T. (2010): MULTEXT-East Version 4: Multilingual Morphosyntactic Specifications, Lexicons and Corpora. Proceedings of the Seventh conference on International Language Resources and Evaluation (LREC'10). Malta, ELRA.
Fu, K. S. (1982): Syntactic Pattern Recognition and Applications. Prentice-Hall, Englewood Cliffs, NJ.
GNU (2010): GNU General Public License. http:// www.gnu.org/licenses/index_html#GPL.
Google (2012a): The Google translator. http://www. google.com/translate_t.
Google (2012b): Google Summer of Code 2011. http://www.google-melange.com/gsoc/homepage/goo-gle/gsoc2011.
Hajič, J., Hric, J. & V. Kubon (2000): Machine translation of very close languages. Proceedings of the 6th Applied Natural Language Processing Conference, Hong Kong, Association for Computational Linguistics, 7-12.
Jagland, T. & A. Vassiliou (2011): Skupna izjava Sveta Evrope in Evropske komisije. Evropska komisija, 1-2.
Katz, S. (1987): Estimation of Probabilities from Sparse Data for the Language Model. IEEE Transactions on Acoustics, Speech and Signal Processing, 35, 3, 400-401.
Koehn, P. et al. (2007): Open Source Toolkit for Statistical Machine Translation. Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL'07), ACL, 177-180.
Labaka, G., Stroppa, N., Way, A. & K. Sarasola (2007): Comparing rule-based and data-driven approaches to Spanish-to-Basque machine translation. Proceedings of the Machine Translation Summit XI, EAMT, 41-48.
Levenshtein, V. (1965): Binary codes capable of correcting deletions, insertions and reversals. Doklady Akademii Nauk, 845-848.
Och, F. J. & H. Ney (2003): A Systematic Comparison of Various Statistical Alignment Models. Computational linguistics, 29, 19-51.
Och, F. J. (2006): Challenges in Machine Translation. In: Proceedings of the ISCSLP, Springer, 15.
Orwell, G. (1949): 1984. London, Secker and Warburg.
Papineni, K., Roukos, S., Ward, T. & W.-J. Zhu (2001):
BLEU: a method for automatic evaluation of machine translation. Technical report, IBM.
Romih, M. & P. Holozan (2002): A slovenian-english translation system. V: Proceedings of the 3rd Language Technologies Conference, 167.
Saleh, I. (2009): Automatic extraction of lemma-based bilingual dictionaries for morphologically rich languages. Thesis, Georgetown University.
Sanchez-Martinez, F. & H. Ney (2006): Using Alignment Templates to Infer Shallow-Transfer Machine Translation Rules, Advances in Natural Language Processing, Proceedings of 5th International Conference on Natural Language Processing {FinTAL}, volume 4139 of Lecture Notes in Computer Science, Springer-Verlag, 756-767.
Sanchez-Martinez, F., Perez-Ortiz, J. A. & M. L. Forcada (2007): Integrating corpus-based and rule-based approaches in an open-source machine translation system, Proceedings of METIS-II Workshop: New Approaches to Machine Translation, Leuven, 73-82.
Snover, M., Dorr, B., Schwartz, R., Micciulla, L. & J. Makhoul (2006): A Study of Translation Edit Rate with Targeted Human Annotation. Proceedings of Association for Machine Translation in the Americas, AMTA, 223-231.
Spencer, A. (1991): Morphological Theory. Oxford, Blackwell Publishing.
SVLR - Služba za lokalno samoupravo in regionalno Politiko (2006): Slovenija - Hrvaška Operativni Program.
Tiedeman, J. (2012): Parallel Data, Tools and Interfaces in OPUS, 8th International Conference on Language Resources and Evaluation (LREC'2012). Istanbul, ELRA, 1-8.
Toporišič, J. (2000): Slovenska slovnica. Maribor, Založba Obzorja.
Tyers, F. M. & M. Alperen (2010): A parallel corpus of Balkan languages, MultiLR Workshop at LREC2010, Malta.
Tyers, F. M., Sanchez-Martinez, F., Ortiz-Rojas, S. & M. Forcada (2010): Free/open-source resources in the Apertium platform for machine translation research and development. The Prague Bulletin of Mathematical Linguistics, 93 (93), 67-76.
Vargas-Sierra, C. & D. Lindemann (2013): Bilingual Lexicography and Corpus Methods: The Example of German-Basque as Language Pair. Procedia - Social and Behavioral Sciences, 249-257.
Vičič, J. (2008): Rapid development of data for shallow transfer RBMT translation systems for highly inflective languages. Language technologies: proceedings of the conference, Ljubljana, Institut Jožef Stefan, 98-103.
Vičič, J. (2009): Metode hitre izdelave gradiv za prevajalne sisteme plitkega prenosa za visoko pregibne jezike. V: Mikolič, V. (ur.): Jezikovni korpusi v medkulturni komunikaciji. Koper, Založba Annales, 133-153.
Vičič, J. & P. Homola (2010): Speeding up the Implementation Process of a Shallow Transfer Machine Translation System. In Proceedings of the 14th (EAMT) Conference, Saint Raphael, EAMT, 261-268.
Vičič, J. (2012): Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne naravne jezike. Doktorska disertacija. Ljubljana.
Vičič, J. & V. Kubon (2015): A comparison of MT methods for closely related languages: A case study on Czech - Slovak and Croatian - Slovenian language pairs, Text, Speech, and Dialogue: TSD. Plzen, Springer Verlag, 216-224.
Koše dela; žena dela "žoke" (nogavice), Robidišče (foto: Jernej Šušteršič, 1951; Vir: Slovenski etnografski muzej, http://www.etno-muzej.si/sl
original scientific article DOI 10.19233/ASHS.2016.58
received: 2016-07-05
OBELEŽJI V SPOMIN DEPORTIRANIM IZ JULIJSKE KRAJINE PO DRUGI SVETOVNI VOJNI V GORIŠKEM PARKU SPOMINA
Urška LAMPE
Inštitut Nove revije, zavod za humanistiko, Gospodinjska ulica 8, 1000 Ljubljana e-mail: urskalampe@gmail.com
IZVLEČEK
V goriškem Parku spomina stojita dve obeležji posvečeni spominu na deportacije iz časa po drugi svetovni vojni. Na podlagi krajše zgodovinske analize dogodkov iz maja 1945, ko je prišlo do dogodkov, poznanih kot deportacije iz Julijske krajine, in zgodovinskega trenutka nastanka obeh obeležij (prvo je bilo postavljeno leta 1960, drugo pa leta 1985/86) avtorica opozarja na historično netočnost in zavajajočo sporočilnost spomenikov, predvsem drugega. Namen prispevka je tudi poudariti pomen ne samo zgodovinopisne obravnave komemoracij in spominskih obeležij, temveč predvsem natančnega poznavanja dogodkov, ki jih ti artefakti obeležujejo. Zgodovinarji morajo na s histori-ografskega vidika napačne interpretacije dogodkov opozoriti, saj poleg tega, da vodijo v izkrivljanje zgodovine, tudi neprestano generirajo nacionalne konflikte v obmejnem prostoru.
Ključne besede: deportacije, Gorica, Park spomina, lapidarij, nacionalni konflikti, komemoracije,
1945, 1960, 1985/86
I DUE MONUMENTI IN MEMORIA DEI DEPORTATI DALLA VENEZIA GIULIA DEL SECONDO DOPOGUERRA NEL PARCO DELLA RIMEMBRANZA DI GORIZIA
SINTESI
A Corizia, nel Parco della Rimembranza sono collocati due monumenti lapidari in ricordo alle persone deportate nel secondo dopoguerra da parte delle autoritä jugoslave. Sulla base di una breve analisi degli eventi del maggio 1945, quando si verificarono le deportazioni dalla Venezia Ciulia, e del momento storico nel quale i due monumenti vennero eretti (il primo nel 1960, il secondo nel 1985/86), l'autrice del saggio richiama l'attenzione sulle impreci-sioni storiche e sul messaggio fuorviante dei due monumenti, in particolare del secondo. L'intento e di sottolineare non solo l'importanza dello studio storico delle commemorazioni e dei monumenti, ma in particolare della precisa conoscenza degli eventi che questi artefatti aspirano a ricordare. Risulta dunque necessario che gli storici mettano in discussione le imprecisione delle interpretazioni storiche degli eventi che conducono non solo alla deformazione della storia, ma costantemente generano contrasti nazionali nelle zone di confine.
Parole chiave: deportazioni, Gorizia, Parco della Rimembranza, lapidario, contrasti nazionali, commemorazioni,
1945, 1960, 1985/86