MOSTOVI 1/1987/XXII 27 Darko Simeršek Prevajanje z računalniki* Človek si že od nekdaj želi, da bi namesto njega prevajal stroj, ali mu vsaj pomagal pri prevajanju. Prevajanje iz enega jezika v dru¬ gega je poseben proces, kjer se spremeni le zapis pomena, pomen sam pa ostane nespre¬ menjen. Kako človek prevaja, še ni povsem razjasnjeno. Najverjetneje tako, da najprej razbere pomen iz jezika, ki ga prevaja, nato pa poizkuša isti pomen izraziti v drugem jeziku. Računalnik danes sicer uporabljamo za prevajanje besedil, vendar prihaja zaradi za¬ motanosti naravnih jezikov pri tem opravilu do različnih težav. Strokovnjak mora vedno pre¬ gledati prevedeni tekst ter odstraniti morebit¬ ne nejasnosti, preden ga posreduje naprej. Naravni jeziki, ki jih uporabljamo za spo¬ razumevanje, so po večini nastajali v dolgih stoletjih. Zaradi dolgega in neusklajenega razvoja imajo številni jeziki mnogo pomanjklji¬ vosti. Na primer: ista beseda ima vrsto različ¬ nih pomenov; poznamo različne besede, ki pa imajo isti pomen; skladnja besed je zamotana; slovnica je obsežna, ima številna pravila in hkrati izjeme, ki odstopajo od teh pravil. Če želimo, da računalnik opravi pomen¬ sko pravilen prevod, mora upoštevati vse možne pomene določene besede in jih posa¬ mično primerjati z drugimi besedami v stavku. Pri tem mora seveda upoštevati stavčno skladnjo in druge posebnosti jezika, v katere¬ ga prevaja. Tudi če se pri tem opravilu omejimo le na zanesljiv prevod smisla besedila in se odpo¬ vemo leporečju, je naloga, ki naj jo opravi ra¬ čunalnik, tako zahtevna, da postaja izvedljiva šele v zadnjem času. V začetku prejšnjega desetletja so razvili prevajalni sistem Systran, kasneje Euro-Tra, nadaljnje raziskave pa nakazujejo še druge obetavne sisteme za prevajanje Predstavljajmo si, da smo naročeni na pu¬ blikacije, ki jih tiskajo - na primer - založniki držav: Finske, Japonske, Alžirije in Grčije. Ko jih dobimo po pošti, jih vtaknemo v posebno napravo z optičnim čitalnikom in preberemo tekst na zaslonu - v slovenščini. Utopija? Življenje in tehnika, oktober 1986. 28 MOSTOVI 1/1987/XXII Novi sistemi za prevajanje Zgoraj navedeni primer ni tako utopičen, kot je videti na prvi pogled. Izvedba je seveda možna le z uporabo ustrezne tehnologije, ra¬ čunalnika in programske opreme. Če bi želeli uporabiti programe, ki bi bili sposobni prevaja¬ ti iz drugih jezikov (v našem primeru iz finske¬ ga, japonskega, arabskega in grškega jezika), bi najprej naleteli na problem, kje dobiti te pro¬ grame. Zataknilo bi se že pri finskem jeziku, saj doslej ni izšel pri nas niti navadni finsko- slovenski slovar. Zasnova prevajalnega pro¬ grama pa je precej zapletena naloga, še pose¬ bej če upoštevamo, da ima vsak od omenjenih jezikov svojo pisavo. Omenili smo že, da računalnik najlažje razbere tekst, če je ta zapisan v kodirani obli¬ ki. Tekst lahko obdelamo tako, da vsakemu geslu (pojmu, predmetu itd.) ustreza določena mednarodno dogovorjena koda, ter ga zapiše¬ mo v softstripu. Pri prebiranju teksta bomo uporabili le en prevajalni program, ker je tekst v softstripu že zapisan v dogovorjenem jeziku (imenujemo ga univerzalni jezik U). Na sliki 3 vidimo v poenostavljeni obliki, kako poteka tako prevajanje. Črke A, B, C, D in E pomenijo naravne jezike, ki jih govorijo v posameznih državah. V državi, kjer govorijo jezik B, bodo uporabili prevajalni program B—U ter zapisali tekst v dogovorjenem uni¬ verzalnem jeziku U. V državi, kjer govorijo je¬ zik C, bodo uporabili program C-*U itd. Če sami govorimo jezik A, bomo za razumevanje teksta uporabili en sam prevajalni program: U-*A. Tekst bomo prebrali v svojem jeziku, čeprav je bil zapisan v naravnem jeziku B, C, D ali E. Iz slike 4 je razvidno, da zahteva bolj ne¬ posredno prevajanje iz enega v drug naravni jezik več različnih prevajalnih programov (pri petih jezikih jih imamo 20). Prevajanje iz štirih jezikov (B, C, D, E) v našega (A), zahteva štiri različne prevajalne programe. Nekdo, ki govori jezik B, bo potreboval še dodatne štiri progra¬ me (za prevod iz jezikov A, C, D, E) itd. V svetu govorijo danes okoli 3000 jezi¬ kov. Če bi sestavili programe za te jezike v vseh možnih kombinacijah, bi bilo devet milijo¬ nov različnih prevajalnih programov premalo. Za razumevanje teksta pri prevajanju s po¬ srednikom (v našem primeru je to jezik U) pa zadostuje en sam prevajalni program, posred¬ nik bi lahko bil tudi eden od najbolj razširjenih naravnih jezikov, vendar je v tem primeru ve¬ čja nevarnost, da se spremeni smisel sporoči¬ la med prevajanjem. Kode, ki jih ima jezik U, so namreč zelo obsežne in veliko bolj natan¬ čno ponazorijo pravi pomen določenega ges¬ la, kot jih lahko zajame kombinacija črk v na¬ ravnem jeziku. Predstavljajmo si besede v na¬ ravnem jeziku, ki sicer zelo natančno določijo neki pojem, vendar imajo večje število znakov - na primer - 20 ali več črk. Pri sporazumeva¬ nju bi nas tako dolge besede motile, računal¬ nika pa dolge in zapletene kode niti najmanj ne ovirajo. Zasnova novega jezika seveda ne bo po¬ tekala brez težav. Določitev gesel in ustreznih kod bo morala temeljiti na mednarodnem do¬ govoru. Programiranje bo težavno, vendar si lahko pomagamo v našem primeru s simboli. l\s/j i-8)^ 3i to .rt 12 t3 U 0000001000000100 'i 14 8 12 t6 II10001II1000100 A 001II1011II11011 Slika 5: številka 1, črka A in znak so predstavljeni s 16-bitnim zlogom. V spodnji vrsti je zapisano geslo. Enak simbol spredaj in zadaj predstavlja ločnico med gesli, ko si sledijo drugo za drugim MOSTOVI 1/1987/XXII 29 Unikon Idejo programiranja s simboli bomo naj¬ lažje pojasnili, če povzamemo idejo, ki je bila v naši reviji že predstavljena (v št. 11, 12/1983 str. 125). Namesto da bi geslo zapisali z bi¬ narno kodo, jo lahko ponazori 16-segmentni lik unik. Na sliki 5 vidimo, kako tvorijo posa¬ mezni segmenti 16-bitno računalniško bese¬ do ter nato nekaj primerov simbolov, ki skupaj sestavljajo geslo. Vsi dogovorjeni simboli sku¬ paj tvorijo simbolni jezik unikon - ime je izpe¬ ljano iz besede unik - ki je namenjen raču¬ nalniškemu prevajanju iz enega v drug naravni jezik. Simbole uporabljamo predvsem pri za¬ snovi unikona, ker je takšno programiranje enostavnejše. Namesto simbolov bi sicer lah¬ ko zapisali tudi številčno kodo, vendar ima programiranje s simboli nekatere prednosti. Gesla bomo tvorili z enim od 65535 sim¬ bolov oziroma z njihovimi medsebojnimi kom¬ binacijami. Upoštevali bomo tudi različne slovnične oblike posameznih gesel. Zapisali bomo dodatni simbol za ednino, nekoliko dru¬ gačen za množino itd. Pri zapisovanju imen, nazivov in številčnih informacij pa bomo upo¬ rabili simbole, ki ponazarjajo črke in številke (slika 6). Unikon bo nato pridobival nova gesla za predmete in pojme, ki danes še niso poznani. Izpopolnjevali bomo tudi prevajalna programa (A-»U in U-A). Vsak program bo vseboval pravila, ki bodo upoštevala posebnosti vsake¬ ga naravnega jezika posebej. Od zasnove programa bo odvisen prevod, ki naj bi bil kar nalbolj smiselno podoben izvirniku. Tisočletne izkušnje z ideografsko pisavo (kitajsko, ja¬ ponsko in drugo) nam bodo pomagale pri pro¬ gramiranju v unikonu. Danes težko napovemo, v kolikšni meri je sploh izvedljiva ideja prevajanja po sistemu unikon. Pri takem prevajanju gotovo ne bo šlo brez težav. Ne smemo namreč pozabiti na po¬ slika 6: črke, diakritična znamenja in številke so predstavljene s 16-segmentnim likom sebnosti naravnih jezikov, ki bodo trd oreh za vsak računalnik - na primer pri prevajanju fraz. Prevodi leposlovja se bodo verjetno smi¬ selno bolj oddaljili od izvirnika kot prevodi teh¬ nične in znanstvene literature. Dobro zasnovan prevajalni program bo tudi popravljal slovnične napake in pravilno uredil besedni red v stavku. Uporabnik bo le zapisal tekst in uporabil programa A—U in U-i-A. Če se bo pri tem spremenil smisel zapi¬ sa, bo to pomenilo, da prevajalni program še ni dobro zasnovan ali pa geslom še nismo po¬ vsem natančno določili njihovega pravega po¬ mena. 30 MOSTOVI 1! 1987/XXII Pri razvoju sistemov za prevajanje bodo v precejšnjo pomoč tudi raziskave s področja umetne inteligence, ki so se zelo razmahnile predvsem v zadnjem času. Izkušnje na tem področju nam bodo pomagale naučiti računal¬ nik, da bo razumel smisel sporočila, ki ga bo prevajal. Unikon seveda ni edini simbolni jezik za prevajanje naravnih jezikov. Nadaljnji razvoj bo nedvomno prinesel nove izboljšane rešitve. Prenosni prevajalniki Z razvojem novih in racionalnejših metod za zapisovanje podatkov se ponuja možnost izdelave prenosnega prevajalnika (računalni¬ ka za prevajanje iz enega v drug naravni jezik). Danes sicer že lahko kupimo prevajal¬ ne naprave, ki niso dosti večje od žepnega kalkulatorja in imajo vgrajeno tipkovnico in LCD zaslon. Računalniški program nam pre¬ vede nekatere besede (ki jih ima program za¬ pisane v pomnilniku) v enega ali več jezikov. Vendar ima program precejšnje omejitve, saj je računalniški pomnilnik majhnega obsega, poleg tega pa ne zna prevesti pravilno in smi¬ selno prav vsak zapisani stavek. Z zapisom na optično ploščo, ki je enakih oblik in velikosti kot znana CD, pa bo sposob¬ nost računalnika precej večja. Danes že zapi¬ šemo nanjo za 552 Mb podatkov, kar ustreza 270.000 tipkanim stranem teksta formata A4. Pri sistemu CD-ROM DRIVE firme Hitachi je sleherna informacija dosegljiva v sekundi. Najmanjše prenosne naprave za predva¬ janje CD plošč imajo volumen komaj polovico kubičnega decimetra. Novi prevajalnik bo se¬ veda nekoliko večji, saj bo poleg elektronskih in mehanskih delov vseboval ploskovni za¬ slon, mokrofon in mali zvočnik. Prevajanje bo zelo enostavno. Uporabnik bo izrekel nekaj besed v mikrofon, preveril na zaslonu, ali jih je računalnik pravilno zapisal, ter nato izdal ukaz za prevod. Računalnik bo tekst zapisal na zaslonu ali sporočil prevod preko zvočnika. Če bomo potovali po svetu in ne bomo znali jezika države, kjer bomo na obi¬ sku, si bomo pri komuniciranju z domačini po¬ magali s prevajalnikom. Danes težko napovemo, ali lahko pričaku¬ jemo opisani prevajalnik že proti koncu tega stoletja ali šele v naslednjem. Pravzaprav po¬ segamo pri napovedovanju novih naprav in si¬ stemskih rešitev že na področje znanstvene fantastike. Čim dlje segajo naše napovedi v prihodnost, večja je verjetnost, da se bomo zmotili. Kljub temu poskušajmo razmišljati o nadaljnjem razvoju recimo v 21. stoletju ali kasneje. Če bomo takrat že izpopolnili vesoljska vozila ter razvili druge ustrezne tehnologije, potovanja s človeško posadko zunaj sončne¬ ga sistema ne bodo nekaj nemogočega. Mor¬ da se bomo srečali na teh potovanjih s pripad¬ niki druge razumne civilizacije. Novi prevajalni sistemi nam bodo pomagali pri sporazumeva¬ nju. Primerjali bomo naše znanje in izkušnje z njihovimi in pričakujemo lahko, da se bomo pri tem marsikaj novega naučili. Izmenjava infor¬ macij bo potekala seveda postopoma. Civili¬ zaciji si bosta izmenjali pomembnejše podat¬ ke šele takrat, ko si bosta zaupali. Ker pa za¬ upanje lahko nastane le pri komunikaciji, kjer ni pomenskih nesporazumov, si bomo poma¬ gali pri tem z računalniki. Računalniško prevajanje je zanimivo tudi za današnji čas. V svetu, kjer ljudstva govorijo veliko različnih jezikov, si ne želimo le, da bi bila sporočila čim bolj racionalno zapisana; bolj pomembno je, da jih razumemo in da se pri prevajanju v naš jezik ne spremeni smisel informacije. Ali nam bo množična uporaba prevajalni¬ kov v prihodnosti prinesla tudi boljše razume¬ vanje med narodi?