MINISTRSTVO ZA NOTRANJE ZADEVE RS Spletno prevajalsko orodje Google translator toolkit Avtor dr. Karl Petrič V Ljubljani, 2013 Kazalo vsebine 1 Uvod 1.1 Namen in cilj dela 2 Google translator toolkit 2.1 Prijava v sistem in nadzorna plošča Google translator toolkit 2.1.1 Slika 1: Prijava v sistem 2.1.2 Slika 2: Nadzorna plošča 2.1.3 Slika 3: Prevajalsko okno dokumenta 2.1.4 Slika 4: Obrazec za povabilo uporabnikov k sodelovanju 2.1.5 Slika 5: Vmesnik za nalaganje zbirk slovarjev in pomnilnikov prevodov na strežnik 3 Izdelava zbirk pomnilnikov prevodov in slovarjev 3.1.1 Preglednica 1: XML stavki in pomen označb 3.1.2 Slika 6: Del pomnilnika prevoda za menedžment in informatiko 3.2 Izgradnja slovarjev 3.2.1 Slika 7: Del spletnega slovarja s področja analize protestov 4 Zaključek 5 Viri 1 Uvod Spletni prevajalnik Google translator poznajo mnogi uporabniki spleta. Besedilo, ki je namenjeno za prevod, se zgolj preslika v levo okence prevajalnika, nakar se določita izvorni in izhodni oziroma prevedeni jezik. Že po nekaj sekundah se v desnem okencu spletnega prevajalnika prikaže prevedeno besedilo, ki navadno za povsem osnovno razumevanje besedila že zadošča. Po drugi strani so včasih tovrstni strojni prevodi precej zavajajoči in je potrebno biti ob branju prevoda zelo pazljiv. Podobnih spletnih prevajalnikov je na spletu zelo veliko in se od Google translatorja mnogokrat bistveno ne razlikujejo. Znotraj paketa storitev Google labs (npr. Google analytics, Google search, Google history, Google docs) obstaja zanimiva storitev v obliki spletnega prevajalskega orodja, ki omogoča učinkovitejše in kakovostnejše prevajanje v številnih svetovnih jezikih. Omenjeno orodje se imenuje Google translator toolkit, ki poleg strojnega prevajanja omogoča izgradnjo slovarjev, zbirk prevedenih fraz in celo socialno mreženje med različnimi uporabniki tovrstne storitve. Edini pogoj za uporabo tega prevajalskega orodja je v tem, da mora imeti uporabnik Googlov račun oziroma Gmail poštni predal, ki je brezplačen. Še zlasti Gmail poštni predal je zelo pomemben, ker lahko samo tovrstne uporabnike vabimo k sodelovanju v socialnih mrežah profesionalnih in ljubiteljskih prevajalcev. 1.1 Namen in cilj dela Predstavitev spletnega prevajalskega orodja Google translator toolkit in njegovih gradnikov. 2 Google translator toolkit V tem poglavju bo predstavljeno spletno prevajalsko orodje Google translator toolkit vključno z njegovimi gradniki kot so slovarji (angl.: glossaries), pomnilniki prevodov (angl.: translated based memories), statistike in socialno mreženje oziroma povezovanje (angl.: invite people). 2.1 Prijava v sistem in nadzorna plošča Google translator toolkit V primeru, da še nimate Google račun se morate najprej registrirati, pri čemer je potrebno izpolniti obrazec (npr. ime, priimek, e-pošta, uporabniško ime, geslo). Po uspešni registraciji se je možno prijaviti v sistem, kar prikazuje naslednja slika. Translator Toolkit Translate your documents faster Google Translator Toolkit is a powerful and easy-to-use editor that helps translators w&rk faster and better Upload and translate documents Use documents from your desktop or the web. Download and publish translations Publish translations to Wikipedia™ or Knot. Chat and share translations online Collaborate online with other translators. Use advanced tools Use features like translation memories and multilingual glossaries. Take a video tour» Got^kt-'AfttfatHiMAir Com Brm i as i a^m OufinlWit linUtMhiiniitRPHdMriiif ihc«nM>M«ni fkrti'i B.tlfif Itt JUof ernMttftii« lili COSIA1RAVA OnttoiW. .c-tAri^ («tr te nJtc fcr-ipr tea BwOaa u ftj C na Sni »'.i-jv I>Ji I'miJ ih ■ ■»ri sdCtiaQK?. H-M C* at-^nsfta^JwiBflsw-iir^-u*! HtSttttfffl'rftfi.in: II *■ ■ Kaic «1 tamtfr 4»» V » Fipau. <* ve« kmi vflv rMB Afln (iCKfaaf diK I Mtk* »r i*' TtiH M»»IM Tfrfcnto, HflififlB-iB*-«. f -R.T.IWH fctttfKaTBIPMff*«, 2.1.1 Slika 1: Prijava v sistem Slika 1 prikazuje prijavo v sistem, natančneje na spletno prevajalsko orodje Google translator toolkit. Na desni strani okenca vtipkate vaš e-naslov in veljavno geslo, nakar sprožite gumb "Sign in". Po uspešni prijavi se bo prikazala nadzorna plošča. Sign in Email emc2@gov.si Password Can't access your account? Translator Toolkit ; NAME " Translations Š Active » Hidden i Trash T Requests Active Hidden ffi Trash ► Labels ► Shared with... * Toois j Translation memories U Glossaries □ OCR-Kar!2 6% complete OCR-Karl2_slikaprevod 20% complete □ Scan_Review_of_Less_lethal_Tec 100% complete AnalizaZRD_RKK2013 100% complete Analiza publiciranja s pomočjo spletne storitve COBISS 100% complete □ Kalkulacija_stres 100% complete Inovativne ideje -! 100% complete □ White-collar_crime 100% complete I E-publikacije knjižnice 100% complete august riots in england analyses 100% complete WORDS LAST MODIFIESHARING 7363 May 28 me, johnny.modri SS54 May 23 me 16655 May 23 me: johnny.modri 5815 May 23 me: teodor.petric. vladislav.rajkovic 4294 Ma 22 me. inatjaz.mravlja2010, teodor.petric ' vladislav.rajkovic 6802 May 22 me. teodor petric vladislav.rajkovic 7970 May 22 me 2170 May 21 me 360 May 21 me 24575 May 21 me 2.1.2 Slika 2: Nadzorna plošča Slika 2 predstavlja nadzorno ploščo, ki že vsebuje prevedene dokumente, izdelane slovarje, zbirko pomnilnikov prevodov in podatke o sodelujočih uporabnikih. Zaradi večje nazornosti je smiselno po točkah opisati posamezne prvine nadzorne plošče: a. gumb za nalaganje (angl.: upload) dokumentov: po sprožitvi rdečega gumba je možno naložiti naslednje datotečne oblike npr. AdWords Editor Archive (.aea), Android Resource (.xml), Apple iOS Application (.strings), Application Resource Bundle (.arb), Chrome Extension (.json), GNU gettext (.po), HTML (.html), Java Application (.properties), Microsoft Word (.doc), OpenDocument Text (.odt), Plain Text (.txt), Rich Text (.rtf), SubRip,(.srt) in SubViewer (.sub). Datoteke v obliki .pdf ni možno naložiti, ampak jih je potrebno pretvoriti v .txt ali .doc. Pretvorba iz .pdf v .doc ali .txt je možna s pomočjo urejevalnika za .pdf datoteke. Podobno velja tudi za skenirane dokumente, ki jih je možno pretvoriti v besedila samo s pomočjo ustreznih programskih orodij (npr. Abby fine reader 11 -komercialno orodje, ki ga lahko koristimo 30 dni brezplačno, Free Ocr online - brezplačno, FreeOCR - brezplačno programsko orodje). b. prevodi (angl.: translations): ob kliku na ikonco Active se na desni strani okenca prikažejo imena prevedenih dokumentov, število uporabljenih besed, datum nastanka in imena sodelujočih pri določenem prevajalskem projektu). V primeru, da kliknemo na dokument z imenom "Scan_Review_of_Less_lethal_Tec" se odpre naslednje okno: 2.1.3 Slika 3: Prevajalsko okno dokumenta Slika 3 prikazuje prevajalsko okno dokumenta, ki je razdeljeno na dva dela. Prvi del okna na levi strani zaslona prikazuje izvorni dokument, ki je v tem primeru v angleškem jeziku. Drugi del na desni strani zaslona prikazuje izhodni ali prevedeni dokument v slovenskem jeziku (predhodno je bila določena prevajalska relacija angleščina (koda: en - GB) -> slovenščina (koda: sl). Uporabnik lahko desno okno urejuje, kar pomeni, da lahko spremeni besedilo v obliki popravkov, dopolnitev, zamenjav, daje pripombe, barvno označuje dele besedila idr. c. izmenjava prevodov in sodelovanje (angl.: shared with): prevode si lahko izmenjujete z drugimi uporabniki in jih lahko celo povabite k sodelovanju pri prevajanju besedil in izgradnji zbirk slovarjev ter prevedenih fraz. Sicer si lahko prevode izvozite v .rtf (obogateno besedilo -format je podoben .doc) obliki na lokalni disk. Druge uporabnike, ki so lahko iz vrst različnih strok (npr. kriminalist, prevajalec, informatik, menedžer) povabite k sodelovanju tako, da označite ustrezno gradivo npr. "Scan_Review_of_Less_lethal_Tec" in ga klinete. Odprlo se bo novo spletno okno, ki je razdeljeno na dva dela t.j. izvorni in prevedeni dokument. Pod opcijo datoteke (angl.: File) osvetlite "povabi ljudi" (angl.: invite people), nakar kliknete. Na zaslonu se vam bo prikazal naslednji obrazec: 2.1.4 Slika 4: Obrazec za povabilo uporabnikov k sodelovanju Slika 4 prikazuje obrazec za povabilo uporabnikov k sodelovanju pri prevajalskih in svetovalnih dejavnosti. Pri tem lahko glavni upravljavec dokumentov drugim uporabnikom (z Gmail računom) določi privilegij, npr. da lahko ureja (angl.: Can edit). Obstajajo še drugi privilegiji, ki jih v tem delu ni smiselno dodatno izpostaviti. Na koncu je potrebno še klikniti modri gumb "pošlji vabilo" (angl.: Send invitation). Oseba, ki je bila povabljena k sodelovanju pri prevajanju določenega ali določenih dokumentov bo prejela v e-poštnem predalu obvestilo, ki bo poleg besedila vsebovala še spletno povezavo do spletnega prevajalskega orodja. Oseba lahko aktivira spletno povezavo, nakar se s svojim uporabniškim imenom in geslom prijavi v sistem. d. orodja (angl. tools): prevajalsko orodje omogoča tudi izdelavo zbirk pomnilnikov prevodov (angl. translated based memories) in slovarjev (angl.: glossaries). Na strežnik je možno tovrstne zbirke naložiti s pomočjo vmesnika za nalaganje zbirk podatkov. Translator Toolkit Add a translation memory You can create and upload Han elation memories for us« your translations i Bach to Transitu r Toolkit Add a translation memory Select a File: (optional) Prabtska)... Translation memory name Sharing tf a LTartslation memory is shared with everyone its translation; are searchable by all lasers Otherwise its translations are searchable only by you and users with whom you explicitly share access Once you cr«le a transition memory, you cannot change Ite setting Learn more about tiow Google uses yuuitianslation data © Shared wi1 h everyone r (Jot shared with evaryone AddTM | Translator Toolkit Upload a glossary You can create and upload glassies for use wth your t ran sSali oris € Back id Translator Toolkit Upload a glossary Types of files lhat ycu cart upload: {total up to 1MB) Comma Separated Values (,csv) • CSV file should ccnttr translation from one language into anolhei language Tc be accepted CSV files must confosm to Translator Toolkit's glossary formal Types of rites that yon can upload: (total up to 5QMB} Translation Memory exchange ( tmx| • ATMXfile is an XML fie lhat contains translations fioni one language into another language. To be accepted TMX files must conform to the specifications forTMX 1 0 or higher Select a file: Prebrskaj .. What do you want to call it ? I- Upload glossary 2.1.5 Slika 5: Vmesnik za nalaganje zbirk slovarjev in pomnilnikov prevodov na strežnik Slika 5 prikazuje vmesnik za nalaganje zbirk slovarjev in prevedenih fraz na strežnik. Zbirko prevedenih fraz je potrebno pripraviti v obliki .TMX datoteke, ki je ena od številnih različic .XML formata.(vsebuje prevode iz enega v drug jezik). Omejitev pri tem je, da datoteka ne sme biti večja kot 50 MB. Za zbirko slovarjev je potrebno ustrezno konfigurirano .CSV datoteko, kajti sicer jo bo Google translator toolkit zavrnil. Omejitev za obseg slovarjev se giblje okoli 1 MB. Kratka predstavitev nadzorne plošče Google translator toolkit je v bistvu izpostavila najbolj pomembne prvine. Naslednje poglavje bo posvečeno izdelavi zbirke pomnilnika prevodov in slovarjev. 3 Izdelava zbirk pomnilnikov prevodov in slovarjev Glavni namen izdelave zbirke slovarjev in pomnilnikov prevodov je v tem, da s tem prispevamo k dodani vrednosti oziroma kakovosti strojnih prevodov, ki so mnogokrat premalo natančni. Povrhu tega je možno dokaj natančno razlikovati tako med različnimi pomenskimi različicami kot tudi med homonimi. Kot prvo se bo natančneje predstavila izgradnja zbirke prevedenih fraz, nato še slovarjev. 3.1 Izgradnja pomnilnika prevodov Na spletu obstaja izjemno malo brezplačnih .TMX urejevalnikov, ki občutno olajšajo izgradnjo zbirke pomnilnikov prevodov. Brez tovrstnih urejevalnikov je v bistvu potrebno v XML označevalnem jeziku programirati različne relacije med izvornimi in izhodnimi pojmi, kar je lahko precej zamudno. Večina .TMX urejevalnikov je komercialnih kot npr. Heartsome TMX editor, MadCap, SDL Trados, Swordfish, Fluency translation suite 2013, CafeTran Espresso. Kadar je potrebno našteti brezplačna programska orodja, ki zmorejo urejevati, uvoziti in izvoziti .TMX datoteke lahko ugotovimo, da je tovrstnih orodij izjemno malo (npr. Google translate, OmegaT, TMX editor, spletniTrM, TmxPad, Visual localize demo). V danem primeru se je izdelala .TMX datoteka s pomočjo beležnice (angl.: notepad), znotraj katere so se pisali XML stavki. 3.1.1 Preglednica 1: XML stavki in pomen nekaterih označb fisample3 - Beležnica Datoteka -Urejanje:- Oblika Pogled F -urne: -."fi'xrnl vers:i:®rv="l.0" entoding="UTF.-S" ?> rtangedate="20q5O2OSTl75613z;| ,e.n -GB'a^jfite-'IriH'odu eti or® s e:gx/tuv> s 1 :IJSiseg>Uvodi/segSS/tuv> .e.n-GB"> s 1 :"S2a:ključek ' 2005:02 0ST17 5 64SZ' > en-GEV-isegiData mi ni nas/segx/tuui; si ">Odkrivanje zakonitosti v pcjjBtki h ,e.n -GB' xaCgSlT si"xsegjlnformaci jska tehnalogi ja en-GB":^:Se:Informaci jska te rtič logi ja #tu> "2OOS0.2O8T175648Z"" > *on analysis slf|AnaliSl Sublici ranja '2:005020ST17564SZ' > .e.h-GB":^s:eg>Bi bltographi c records slf|Bi bli ograigki zapisi "20050208T175W.8Z" > .en-GB'^SsKgiKnowKSpe discoveryOdkrivanje žhariji "200502 0ST17 5"S4Sz" > ^-GB'tjBBnKnoiindge iiišnagernent slf8Up ravlj.pi j e z znanjsfri :; mšriedžrnerit znanja Vsebuje glavo in telo dokumenta in vsebuje podatek o verziji. Podobno. Vsebuje glavne podatke. Prevajalna enota. Varianta prevajalne enote. Preglednica 1 prikazuje XML stavke pomnilnika prevoda (TMX) in pomen označb. Za namen shranjevanja različnih kosov besedila in prevoda sta zelo pomembna ukaza in . Gre za prevajalni enoti, pri čemer je prva enota izvorna, medtem ko je druga izhodne narave. Primer: angleško besedo data mining nekateri prevedejo kot podatkovno rudarjenje, čemur v zadnjih letih dokaj strogo oporekajo. Pravi prevod po mnenju prevajalske in informacijske stroke je "odkrivanje zakonitosti v podatkih". Pomnilniku prevodov je možno dodati razne opredelitve, opombe idr., ki še osvetlijo pomen določene besedne zveze. Za posameznika izgradnja pomnilnika prevoda pomeni velik vložek, saj se le-ta lahko razvija leta in leta. Izgradnja pomnilnika prevoda s pomočjo skupin ali še bolje organiziranega socialnega strokovnega mreženja se zdi z vidika časovne porabe precej boljša rešitev. Preden se bo izvedel opis izgradnje slovarjev, bo v tem delu še prikazano, kako takšen pomnilnik prevoda z vidika zunanjega uporabnika izgleda. 3.1.2 Slika 6: Del pomnilnika prevoda za menedžment in informatiko Slika 6 zgolj ponazarja možno različico prevajalnika prevoda t.j. del pomnilnika prevoda za menedžment in informatiko. Znotraj prevajalnika prevoda so lahko shranjene tudi večbesedne zveze v številnih svetovnih jezikih. Člani, ki razvijajo takšen spletni pomnilnik prevodov imajo možnost, da ovrednotijo obstoječe prevode. 3.2 Izgradnja slovarjev Podobno kot pri pomnilnikih prevodov je možno izgraditi številne slovarje z različnih področij znanosti in stroke. Zgradbe tovrstnih slovarjev so različne, kajti lahko so enostavnejše ali pa zapletenejše. Slovarji morajo biti izdelani v obliki besedilnega .CSV in opremljene s kodiranjem UTF-8. V nasprotnem primeru ni možno naložiti slovarje na spletno prevajalsko orodje Google translator toolkit. Prva vrstica obvezno vsebuje kodiranje izvornega in izhodnega jezika in označbo besedne kategorije (angl.: part of speech). Opis in beležka glede določene besede sta sicer lahko zelo koristna, vendar nista obvezna. en-GB,sl,pos,description,notes silver commander," drugi poveljnik","person","","" silver suport," sekundarna podpora","service","","" bronze commander," tretji poveljnik","person","","" gold commander," vrhovni poveljnik","Person","","" gold support," glavna podpora","service","","" Z vidika končnega uporabnika je lahko izgled spletnega slovarja naslednji: Translator Toolkit Vsa prevajalska orodja > Glosarjl > Gtosary Comman