Vojko Gorjanc,1 Simon Krek1 in Polona Gantar2 UDK 811.163.6’374:004.6
1Univerza v Ljubljani, Filozofska fakulteta
2ZRC SAZU, In{titut za slovenski jezik Frana Ramov{a, Ljubljana
vojko.gorjanc@guest.arnes.si
simon.krek@guest.arnes.si
apolonija.gantar@guest.arnes.si
SLOVENSKA LEKSIKALNA
PODATKOVNA ZBIRKA
V ~lanku predstavimo idejo oblikovanja slovenske leksikalne podatkovne zbirke, pripravljene na podlagi
korpusne analize. Predstavljena izhodi{~a gradnje leksikalne podatkovne zbirke temeljijo na izku{njah
poskusne faze izdelave geslovnika za male dvojezi~ne slovarje DZS s sloven{~ino kot izhodi{~nim
jezikom in korpusni analizi v okviru ciljnega raziskovalnega projekta »Zasnova na korpusu temelje~ih
slovarskih in slovni~nih opisov slovenskega jezika«. Oblikovanje leksikalne podatkovne zbirke utemeljujemo
z dejstvom, da obstoje~i slovarji slovenskega jezika ne predstavljajo sodobnega jezika, so tudi
metodolo{ko zastareli in nikoli niso dosledno izpeljali jezikovnega opisovanja brez predpisovanja.
Predlagana zasnova leksikalne podatkovne zbirke omogo~a gradnjo razli~nih tipov slovarjev; gre namre~
za notranje hierarhiziran leksikalni opis sodobnega slovenskega jezika, kakr{nega lahko pridobimo na
podlagi referen~nega Korpusa slovenskega jezika FIDA.
1 Izhodi{~a1
Podatki o leksiki slovenskega jezika, kot jih prina{ajo obstoje~i enojezi~ni slovarji,
ne predstavljajo aktualnega stanja v slovenskem jeziku. V primeru Slovarja
slovenskega knji`nega jezika (SSKJ) je `e zaradi letnice izida (1970–1991) jasno, da
ne more biti ve~ relevanten vir podatkov o sodobnem slovenskem jeziku in normi
sodobnega knji`nega jezika, pri Slovenskem pravopisnem slovarju (SPS 2001) pa
analize ka`ejo, da je glede podatkov o aktualnem stanju v sloven{~ini celo {e manj
zanesljiv.2
Kljub dejstvu, da SSKJ ne more biti nesporen razsodnik o leksikalni normi sodobnega
slovenskega jezika, tako v jezikoslovju kot tudi v slovenski dru`bi deluje kot
nesporna avtoriteta. [ir{e dru`beno je to razumljivo, saj je dejstvo, da se dolo~en
slovar tudi v okoljih, kjer je na voljo ve~ slovarjev istega tipa, pojavlja v ednini, kot
1 Del raziskav, ki so osnova za idejno zasnovo slovenske leksikalne podatkovne zbirke, je potekal v
okviru ciljnega raziskovalnega projekta »Zasnova na korpusu temelje~ih slovarskih in slovni~nih opisov
slovenskega jezika« V6-0122, odgovorni nosilec projekta doc. dr. Vojko Gorjanc.
2 Prim. npr. drugo {tevilko Slavisti~ne revije 2003, ki je v celoti namenjena oceni SPS in prina{a tudi
polemiko med kritiki SPS in njegovim glavnim urednikom Jo`etom Topori{i~em.
Jezik in slovstvo, let. 50 (2005), {t. 2
Vojko Gorjanc, Simon Krek in Polona Gantar
da gre za slovarski unikum (Béjoint 2000: 121–122). Slovar je tako avtoriteta za
informacije o tem, kaj v jeziku obstaja s splo{no formulo Besede X ni v slovarju =
Besede X ni v jeziku (Algeo 1990: 32). Ker pa se slovar ob tem v dru`bi pogosto
do`ivlja, kot da slovarske informacije ne podlegajo ~asu, so ve~ne in nespremenljive,
posledi~no velja tudi obratna formula, ~etudi raba dolo~enega leksikalnega elementa
ne izkazuje ve~, se je njegov pomen bistveno spremenil ali v razmerju do drugega
ne deluje ve~ nevtralno (Béjoint 2000: 122). Nerazumljivo pa je dejstvo, da
SSKJ v slovenisti~nem jezikoslovju prav tako pomeni nesporno avtoriteto tako glede
norme knji`nega jezika kot slovarske metodologije, kot da se tako eno kot drugo v
~asu od nastanka slovarja sploh ni spremenilo, kar ka`e na temeljno nerazumevanje
dinamike razvoja jezikovne norme na eni strani in neume{~enost slovenske leksikografije
pri slovarski metodologiji v sodobne leksikografske tokove na drugi strani.
Obstoje~i leksikalni opisi slovenskega jezika so oblikovani na podlagi jezikovnih
podatkov, zbranih na klasi~en na~in z ro~nim izpisovanjem na kartote~ne listke, ki
so glede na sodobne opise, kakr{ne prina{ajo korpusi, tako kvantitativno kot kvalitativno
`e zdavnaj prese`eni, SPS je nastal celo brez na~rtno zbrane gradivne zbirke,
norma v njem pa je dolo~ena tudi na podlagi jezikovne intuicije ter ideolo{kega
avtorskega intervencionizma. Izhodi{~e za sodobne leksikalne opise je analiza velike
koli~ine na~rtno zbranega avtenti~nega gradiva in empiri~na analiza dejanskih
vzorcev jezikovne rabe; {ele ra~unalni{ka tehnologija in oblikovanje metod zbiranja
ter gradnje korpusov sta omogo~ila pridobiti veliko koli~ino relevantnih aktualnih
jezikovnih podatkov. Tako jezikovni opisi, ki nastajajo na tej podlagi, temeljijo
na empiri~ni analizi zares velike koli~ine avtenti~nih na~rtno zbranih besedil (Biber
et. al. 1998: 5, 9–10). Vse to so zna~ilnosti jezikovnih podatkov, ki jih starej{im
klasi~no zbranim listovnim zbirkam jezikovnih podatkov ne moremo pripisati
(^ermák 2002: 265). Bistveno novo kakovost pa daje jezikovnim podatkom tudi
oblikovanje meril za zajem besedil v korpuse, ki temeljijo na analizi diskurzivnega
prostora. Tako zbrani jezikovni podatki omogo~ajo v jeziku lo~evanje med tipi~nim
in posebnim oz. individualnim, torej prepoznavanje osrednjih in obrobnih jezikovnih
pojavov, hkrati pa tudi opazovanje njihove distribucije glede na posamezni tip
besedila. Tovrstni podatki omogo~ajo res kvalitetno analizo kolokabilnih lastnosti
posameznih jezikovnih enot, njihovo tipi~no ubesediljenje pa razkriva tudi tipi~ne
slovni~ne vzorce analizirane jezikovne enote.
Ker slovarji slovenskega jezika ob jezikovnem opisu nenehno jezik tudi uravnavajo,
so vsaj v enem delu predpisovalni in intervencionisti~ni. Tako stanje je v slovenskem
prostoru sku{al na~rtno prese~i SSKJ:
Slovenci smo navajeni, morda bolj kakor drugi narodi, da zaradi narodnostne ogro`enosti
zelo pazimo, da se v knji`ni jezik ne vna{a preve~ tujega, oz. tega, ~esar ne izkazuje
literarna tradicija. Zdaj bo v slovarju registriranega mnogo ve~: to, kar je bilo priznano
kot dobro, manj dobro in tudi to, kar je veljalo za slabo. Hoteli smo prikazati knji`ni jezik
v naj{ir{em pomenu besede: `iv, poln, z dubletami, notranjimi nasprotji, vzporednimi
isto~asnimi normami, jezik sredi zagona in razvoja. /.../ Slovar bo registriral dejansko
stanje v jeziku, torej osnove njegove norme, s kvalifikatorji in kvalifikatorskimi pojasnili
pa bodo vstavljene v ta okvir posebnosti, dvojnosti in izjeme. (Suhadolnik 1968: 221.)
Slovenska leksikalna podatkovna zbirka
Osredoto~enje na jezikovni opis naj bi presegalo vrednotenje besed »pav{alno po
tem, ali so pravilne ali nepravilne«, novo izhodi{~e sodobnega jezikovnega opisa pa
pripomoglo »k prenehanju preganjanja izoliranih jezikovnih napak in utrdilo zavest
o normalnosti govorjenega oz. pisanega jezika povpre~nega izobra`enca, isto~asno
pa poglobilo resni~no, {iroko in poglobljeno zanimanje za slovensko besedo v celoti
« (Suhadolnik 1968: 221–222). Celostni opisi slovenskega jezika pa v resnici niso
nikoli jasno razmejili jezikovnega opisovanja od predpisovanja in jezikovne intervencije.
3 ^eprav se zavedamo komplementarnosti opisovalnega in predpisovalnega
na~ela v jezikoslovju (Crystal 1997: 2–3), pa je prav tako nesporna potreba po
jasnem metodolo{kem lo~evanju enega in drugega. Metodolo{ko nelo~evanje
namre~ nemalokrat privede do kvazi jezikovnega opisa, prikritega (namernega ali
nenamernega) predpisovanja, ponujenega jezikovni skupnosti kot jezikovni opis.
Namen leksikalne podatkovne zbirke je tako predvsem pridobiti podatke o realnem
jeziku, torej aktualnem leksikalnem naboru v sloven{~ini, o pomenih leksikalnih
enot in njihovem tipi~nem ubesediljenju. Predlog za oblikovanje leksikalne podatkovne
zbirke, ki ga predstavljamo, je nastal na podlagi izku{enj pri pridobivanju leksikalno
relevantnih podatkov za slovenski del splo{nih malih dvojezi~nih slovarjev
DZS s sloven{~ino kot izhodi{~nim jezikom in korpusne analize v okviru ciljnega
raziskovalnega projekta »Zasnova na korpusu temelje~ih slovarskih in slovni~nih
opisov slovenskega jezika«. V poskusni fazi so bile za te namene analizirane
razli~nice ~rke b iz Korpusa slovenskega jezika FIDA (http://www.fida.net), za
razre{itev nekaterih zahtevnej{ih vpra{anj pa so bile dodatno {e problemsko izbrane
in analizirane pogostnej{e korpusne razli~nice.4 Leksikalna podatkovna zbirka ima
torej namen popisati stanje v slovenskem jeziku izklju~no na podlagi podatkov iz
referen~nega korpusa slovenskega jezika. Gradnja take zbirke je neodvisna od morebitnih
kasnej{ih slovarskih realizacij, kjer je potrebno upo{tevati {e npr. tip slovarja,
uporabnika, velikost itd.
2 Pridobivanje jezikovnih podatkov
Izhodi{~e za oblikovanje podatkovne zbirke so korpusni podatki. Pri pridobivanju
podatkov se ne moremo izogniti veliki koli~ini ro~ne analize, predvsem takrat, ko
`elimo pridobiti relevantne podatke o pomenski zgradbi posameznega leksikalnega
elementa. Da pa bi delo leksikografom olaj{ali, so jim bili za vsak analiziran element
na voljo `e predhodno procesirani korpusni podatki, in sicer naklju~ni izbor do
300 konkordanc za posamezno korpusno razli~nico in statisti~na analiza neposrednega
ali definiranega besedilnega okolja.
3 Kako mo~no je (bila) zakoreninjena predpisovalna in intervencionisti~na tradicija v slovenistiki pri
SSKJ, lepo ka`eta posebna normativna kvalifikatorja nepravilno in neustaljeno. Kljub programski usmeritvi
v jezikovni opis in vzpostavitvi vrednotenja knji`nojezikovne norme s pomo~jo {irokega nabora
raznorodnih kvalifikatorjev, je opis v drobnem, a nikakor ne nepomembnem segmentu, pristal tudi v
intervencionisti~nih vodah.
4 Za korpusno analizo je del procesiranih korpusnih podatkov pripravilo podjetje Amebis
(http://www.amebis.si), tudi sicer projektni partner pri izdelavi referen~nega Korpusa slovenskega jezika
FIDA. Podjetju Amebis se za pomo~ lepo zahvaljujemo.
Vojko Gorjanc, Simon Krek in Polona Gantar
2.1 Lista besed
Lista besed, ki so osnova za analizo in potencialne izto~nice leksikalne podatkovne zbirke,
je narejena na podlagi procesiranih podatkov celotnega korpusa FIDA. V poskusni fazi
gradnje podatkovne zbirke je bilo glede na pogostnost v korpusu izlo~enih prvih 25.000
lem. Najpogostej{a je lema biti (7.749.214), zadnja po pogostnosti pa lema acetat (108).
^rka b, ki je bila izbrana za poskusno fazo, zajema 783 lem, od najpogostej{e biti do biskvit
(108). Natan~no {tevilo izto~nic podatkovne zbirke s tem {e ni dolo~eno, saj je potrebno
preveriti, ali ni lema mogo~e precenjena. Ker je bil korpus FIDA avtomatsko lematiziran
brez razdvoumljanja pri lemah s skupnimi oblikami, je korpusnim pojavnicam lahko
pripisanih tudi ve~ lem, kontekstno nedvoumno pa je potrebno {ele ugotoviti.
Nabiramo
zdravilne
rastline
-
hrastovo
in
vrbovo
lubje
,
jegli~
,
koprivo
,
ljubice
,
regrat
,
lapuh
,
popke
breze
in
topola
.
Zgled 1: Del nedvoumno lematiziranega besedila iz korpusa FIDA.
/.../ Za
prilogo
h
krompirju
se
lepo
podajo
kuhani
listi
lapuha /...
/
Zgled 2: Del dvoumno lematiziranega besedila iz korpusa FIDA.
Slovenska leksikalna podatkovna zbirka
Paziti je torej treba pri tistih izto~nicah, kjer je mo`na dvojna lema in je druga
mo`-na lema v korpusu enako pogostna ali pogostnej{a. Lahko se zgodi tudi, da
sta dve lemi v seznam potencialnih izto~nic pri{li z zdru`enimi mo~mi, saj sami
ne bi presegli dogovorjene meje 108 pojavitev. Zna~ilni primeri za to so npr.:
•
izpeljava prislova iz pridevnika – v teh primerih gre pogosto za pridevnik v
to`ilniku, ki mu je pripisana lema prislova: bakren (709), bakreno (133); beseden
(2102), besedno (358);
•
dva mo`na samostalnika: beril (189), berilo (344);
•
homografi: bístro (prislov), bistró (samostalnik).
Kot je obi~ajno pri podatkih iz korpusa, prihaja tudi do korpusnega {uma – ponavljajo~
ih se ko{~kov besedil, ki pridobijo na pogostnosti iz »neupravi~enih« razlogov:
naslovov rubrik v ~asopisih, televizijskih programov itd.; npr. zveza `ametna
vrtnica je v korpusu samo zaradi radijske oddaje, pri lemi odmev je npr. problemati~
na tako dvojna lema odmev : odmevati, hkrati pa mo~an korpusni {um povzro~ata
oddaji Odmevi (TV) in Dogodki in odmevi (RA).
Kadarkoli gre za izto~nico, ki nenavadno izstopa, mora leksikograf pomisliti na
navedene razloge in preveriti, ~e jo upravi~eno obdr`imo v podatkovni zbirki.
Preverjanje gre tudi v smeri ugotavljanja korpusne razpr{enosti – pojavljanje leksikalnega
elementa pri razli~nih avtorjih in v razli~nih tipih besedil, saj je treba izklju~
iti morebitne leksikalne elemente, ki so zna~ilnost npr. enega avtorja. Pri tem
gre v osnovi za subjektivne odlo~itve, ki pa se jim glede na trenutno ozna~enost korpusa
FIDA ne moremo izogniti.
2.1.1 Zgradba izto~nic
Izto~nice v podatkovni zbirki so eno- ali ve~besedne. Tipi~no so ve~besedne
izto~nice s povratnoosebnim glagolom, npr. bati se; briti : briti se, hkrati pa status
ve~besedne izto~nice pridobijo tudi samostalni{ke besedne zveze v primeru, ~e sta
obe sestavini pomensko netransparentni in je zveza kot celota dovolj pogostna (z
enako ali vi{jo pogostnostjo kot v primeru enobesednih izto~nic), npr. bela knjiga,
bela garda, bela pritlikavka, beli ovratnik.
`elezen
vrata, ograja, palica
`elezni pogostnost {tevilo pomenov samostojna izto~nica5
zavesa 315 2 +
doba138 1 +
repertoar 82 1 –
cesta41 1 –
5 Status samostojne izto~nice je odvisen od obsega leksikalne zbirke. Na~elno izhodi{~e je, da mora biti
tudi zveza sama z enako ali vi{jo pogostnostjo kot posamezne za leksikalno zbirko analizirane leme. Ker
gre pri poskusni fazi za zajem lem s pogostnostjo nad 108, je to tudi izhodi{~e za predstavitev zveze na
ravni izto~nice.
Vojko Gorjanc, Simon Krek in Polona Gantar
lady 41 2 –
konji~ek 7 1 –
plju~a 7 1 –
srajca idiom 33 1 –
kri`ec 13 1 –
ka~ica 8 1 –
Zgled 3: Prikaz kolokacij in stalnih besednih zvez s pridevnikoma `elezen in
`elezni.
Kot je razvidno iz zgornjega zgleda, pri pridevnikih razlikujemo lastnostne in
vrstne. Na podlagi tega predvidevamo tri tipe pridevni{kih izto~nic:
(a) ^e sta realni obe vrsti pridevnika – gre predvsem za razlikovanje med pridevniki
na -en in -ni (Vidovi~ Muha 2000) – potem kot izto~nici v istem izto~ni~nem
~lanku navedemo obe obliki, najprej predstavimo lastnostni pridevnik in kot podizto~
nico v posebnem delu izto~ni~nega ~lanka {e vrstni pridevnik, npr. bajen
(zaslu`ek, vsota)/bajni (bitje), bajesloven (zaslu`ek, bogastvo)/bajeslovni (podzemlje,
motiv), bakren (`ica, plo~evina)/bakreni (doba), baro~en (razko{nost)/baro~ni
(doba, umetnost), bel (barva, lisa)/beli (vino, moka), briljanten (nastop,
izvedba)/briljantni (prstan, ogrlica). Pogostne zveze z vrstnim pridevnikom so
tipi~no obravnavane kot stalne besedne zveze, ki pa jih je mogo~e nadalje obravnavati
kot pomensko transparentne na ravni kolokacij, npr. bela (rasa, sorta, priseljenec),
ali kot pomensko netransparentne, npr. bela hi{a, bela tehnika.
(b) ^e je realen samo lastnostni ali samo vrstni pridevnik, posebnosti ni, npr. balisti~
ni, ban~ni, bitni; banalen, be`en, bister, bistven. Pri pridevnikih izberemo tip pridevni{
ke izto~nice izklju~no glede na pomen in nikoli glede na obliko zapisa. To
pomeni, da ima lahko tudi vrstni pridevnik (v dolo~eni skladenjski vlogi, npr. za
vezjo v vlogi povedkovnika) obliko na -en, npr. barvni, bitni: /.../ epilogu, ki ni barven,
ampak ~rno-bel /.../; /.../ Pravi razlog, zakaj je Cardinal 31-biten in ne 32-biten,
je /.../. S tem ne izgubi statusa vrstnega pridevnika, se pa ta podatek vedno upo{teva
pri zajemu zgledov rabe.
(c) Dosledno lo~evanje lastnostnega in vrstnega pridevnika privede do izpostavitve
tudi tistih pridevnikov, kjer gre pri lastnostnem in vrstnem za dva popolnoma
pomensko lo~ena pridevnika, tako v SSKJ kot tudi v SPS sta zaradi nelo~evanja med
oblikama predstavljena kot homonima, npr. bu~en 'zelo glasen' (aplavz, navijanje);
bu~ni 'o bu~i' (olje, seme). V teh primerih pridevnika predstavimo kot dve izto~nici
s svojima izto~ni~nima ~lankoma.
Kot samostojne izto~nice so v podatkovno zbirko lahko sprejete tudi besednovrstno
med seboj povezane besede in besedne oblike, ~e so v korpusu dovolj pogosto izkazane,
npr. izpridevni{ki samostalniki. V primerih, kjer je razmerje med (skladenjsko
in pomensko) povezanima besedama mogo~e vzpostaviti, je smiselna tudi predstavitev
znotraj enega izto~ni~nega ~lanka s podizto~nico, npr. brezposelni (pridevnik)
– brezposelni (samostalnik)
.
Pri drugih besednih vrstah se v poskusni fazi projekta posebnosti niso pokazale.
Slovenska leksikalna podatkovna zbirka
2.2 Pomenska analiza
Za vsak element, ki bo postal izto~nica v podatkovni zbirki, se iz korpusa FIDA
izpi{ejo konkordance. Ker pa jih je pri posameznih korpusnih razli~nicah lahko
izjemno veliko, pri pogostnej{ih naredimo naklju~ni filter, s pomo~jo katerega {tevilo
konkordanc zmanj{amo na 300. Izhajamo iz predpostavke, da bomo iz tako
izlo~enega dela konkordanc lahko razbrali pomensko zgradbo leksikalnega elementa,
ki ga analiziramo. Tako oblikovan konkordan~ni niz je osnova za dolo~anje
pomenov; pri tem si zaradi la`je analize konkordan~ni niz poravnavamo levo/desno,
kar omogo~a na podlagi tipi~nih sopojavnic levo/desno la`je razbiranje pomenov.
sopojavnica izhodi{~e sopojavnica pomen elementa
analize v izhodi{~u analize
belo-, rde~e-, modro~
rn obleka, avto … take barve
~rn gradnja, borza nezakonit
~rn slutnja, misel neprijeten
~rn to~ka, petek tragi~en
~rn lista, seznam nedovoljen,
neza`elen
Zgled 4: Sopojavnice analiziranega elementa in njegovi pomeni.
V nadaljevanju se {tevilo pomenov, razbranih s pomo~jo analize konkordanc, lahko
tudi primerja s pomensko zgradbo posameznega elementa v drugih slovarjih, predvsem
SSKJ, vendar je za kon~no dolo~itev pomenov vedno relevanten le korpus,
obstoje~i slovarji so pri tem lahko le pomo`no sredstvo. Tudi za razporeditev pomenov
je vedno relevanten korpus, tako da pomene v podatkovni zbirki nizamo izklju~
no glede na njihovo pogostnost v korpusu.
Pri posameznih pomenih je v leksikalni zbirki naveden pomenski indikator. Gre za
~im kraj{i pomenski kazalec, ki ima namen le pomene ene izto~nice medsebojno
lo~iti. T. i. posrednih indikatorjev ne uporabljamo, npr. glagolnik od, tudi ne takih, ki
govorijo le o besedotvorni mo`nosti besede; ne navajamo torej pretvorbe tipa kdor,
kar, saj ni~ ne povedo o pomenu, ampak pomen le pove`ejo z drugo izto~nico. ^e kratek
pomenski indikator po leksikografovem mnenju ne zadostuje, se lahko v opombo
zapi{e dalj{a razlaga, pri prenesenih pomenih zadostuje `e indikator figurativno.
Pri vsakem pomenu izto~nice vnesemo tudi zglede rabe, tj. zglede iz konkordanc,
ki morajo biti »slovarski«, tj. kratki in ~imbolj tipi~ni. Pri izboru zgledov upo{tevamo
najbolj pogostne kolokacije in/ali najbolj pogostne skladenjske vzorce (ali vsaj
del vzorca) analizirane besede, ki je zastopana v izto~nici. Zgledi morajo biti vedno
izbrani tako, da ka`ejo pogosto rabo izto~nice v leksikalni zbirki, ne pa morebitnih
frazeolo{kih enot, v katerih nastopa tudi izto~nica. Zgledi so prvotno namenjeni prikazu
kolokabilnosti in skladenjskih vzorcev in ne prikazu dru`benih razmer, zato
morajo leksikografi pri zbiri paziti na nevtralnost zgledov, da se pri tem ~imbolj izognejo
ideolo{kosti skozi preferen~nost pri njihovi izbiri (Béjoint 2000, Gorjanc
2004).
10 Vojko Gorjanc, Simon Krek in Polona Gantar
2.3 Besedne zveze
Osnova za dolo~anje kolokacij in frazeologije so podatki o besedilni okolici analiziranega
elementa z izra~uni vrednosti MI3, in sicer v okolici –1, +1, +/–4.6 Ti podatki
slu`ijo kot osnovni namig o tipi~nem ubesediljenju analiziranega leksikalnega
elementa. Kon~ne odlo~itve o tem pa se vedno sprejemajo na podlagi nadaljnjega
dela s korpusom, predvsem pregledovanja konkordan~nih nizov, zvez in njihove
okolice. Statisti~ne podatke vrednosti vzajemne povezanosti elementov korpusa MI3
kombiniramo s podatki o absolutni pogostnosti, predvsem zaradi funkcijskih besed,
saj se predvsem podatki o predlogih, veznikih in ~lenkih pri vzajemnih vrednostih
izgubijo zaradi izjemno visoke pogostnosti v korpusu (Gorjanc in Krek 2001).
Zgled 5: Statisti~ni podatki o besedilnem okolju za lemo ~akati.
6 Uporabljene so bile statisti~ne vrednosti, ki jih omogo~a spletni konkordan~nik ASP32 pri Korpusu
slovenskega jezika FIDA. Razli~ne statisti~ne analize korpusa, ki se jih najpogosteje uporablja v leksikografiji,
so bile preizku{ene za slovenski jeziki, na koncu pa izbrane tiste, ki dajejo najbolj{e rezultate
(Gorjanc in Krek 2001).
Slovenska leksikalna podatkovna zbirka 11
2.3.1 Kolokacije
S svojim izrazito strukturno-pomenskim izhodi{~em je bila leksika slovenskega jezika
obravnavana predvsem z vidika jezikovnih poimenovalnih enot. Spoznanja o skladi{~
enju slovarja kot komunikacijskih delov jezika, ki niso le leksemi, ampak ve~je
leksikalne enote, so tudi pri opazovanju in opisovanju jezika spro`ila vpra{anja o slovarju
kot zelo razli~nih leksikalnih enotah (Hill 2000: 47, Lewis 2000: 8), hkrati pa je
razvoj korpusnega jezikoslovja {ele zares omogo~il kvalitetno analizo pojavov kolokabilnosti,
saj je {ele velika koli~ina jezkovnih podatkov in njihova avtomatska analiza
omogo~ila pridobivanje relevantnih podatkov o oblikovni in pomenski povezovalni
mo~i posameznih elementov (Sinclair 1991). Opazovanje in opisovanje kolokacij
na ravni enega jezika namre~ temelji na objektivno merljivem parametru, tj. pogostnosti
sopojavljanja. Na podlagi podatkov o pogostnosti sopojavljanja lahko s pomo~jo
statisti~nih metod ugotovimo nize besed, ki se pogosteje kot z ostalimi besedami sopojavljajo
v besedilih obravnavanega jezika, npr. rde~ (lu~, kri`, karton).7
Pri kolokatorjih v leksikalni podatkovni zbirki vedno navajamo vsaj dva; vnos dolo~imo
glede na podatke o vzajemnih vrednostih. Kolokator je lahko tudi lastno ime, vendar nikoli
ne osebno. Navajamo tipi~ne nize kolokatorjev za posamezne besedne vrste, kar pa ne
pomeni, da v primeru, ko se pojavi druga~en korpusni vzorec, tega ne registriramo.
Pri samostalniku so tipi~no kolokatorji tako lahko
•
pridevniki
[
mlad, pozoren, nepou~en]
bralec – pri zgledu rabe v teh primerih
sku{amo zajeti tudi prislov kot modifikator celotnega dela, ~e se ta poka`e kot
relevanten, npr. [skrajno, povsem]
brezupen (primer);
•
samostalniki bralka
[
revije, ~asopisa]
, boj z/s
[
konkurenco, tekmeci, rakom]
;
•
glagoli
[
kotirati, trgovati]
na borzi.
Pri pridevniku tipi~no
•
prislovi
[
neozdravljivo, du{evno, smrtno, kroni~no]
bolan in
•
samostalniki bolan
[
otrok, mati, tkivo, pacient]
.
Pri prislovu tipi~no
•
glagoli bole~e
[
ob~utiti, odjekniti, zarezati]
,
•
pridevniki bistveno
[
druga~en, zmanj{an]
in
•
prislovi bistveno
[
manj, bolj]
.
Pri glagolih kolokatorji zapolnjujejo vezljivostna mesta:
[
veter, burja]
brije; be`ati pred
[
vojno, nacizmom, Turki; resni~nostjo]
; gojiti
[
ljubezen, upanje, ~ustvo, zamero]
; gojiti
[
na balkonu, v rastlinjaku, na prostem]
…
oz. glagol modificirajo:
[
pani~no, brezglavo, mno`i~no]
be`ati.
7 V slovenskem prostoru je bilo vpra{anje kolokabilnosti v glavnem domena anglistike (Jurko 1997 in
Gabrov{ek 1998), manj tudi slovenistike v okviru frazeolo{kega razpravljanja (Kr`i{nik Kol{ek 1987); v
slovenskem prostoru je {ele v zadnjem ~asu postalo del {ir{ega jezikoslovnega zanimanja, slovenisti~nega
v ve~ji meri {ele s pojavom koprusov slovenskega jezika (Gantar 2004, Gorjanc in Jurko 2004, Perko 2004).
12 Vojko Gorjanc, Simon Krek in Polona Gantar
2.3.2 Frazeologija in skladenjski vzorci
Zveze v okviru posameznega pomena lo~ujemo glede na njihovo pomensko zgradbo
in pogostnost, in sicer:
(a) besedne zveze z visoko pogostnostjo, kamor sodijo vsi ponavljajo~i se ko{~ki
besedil, v katerih nastopa izto~nica kot jedro in jih ne pokrijemo z navajanjem kolokatorjev,
npr.: pahniti (koga) v brezno (~esa), bahati se pred (kom), (deskanje,
brskanje, naro~anje) po internetu;
(b) pomensko netransparentne zveze, ki imajo lahko tudi nizko pogostnost. Pri vseh
zvezah, ki imajo vsaj en element pomensko netransparenten (tj. klasi~nih frazemih in
idiomih), dodamo pomenski indikator, npr. barva ko`e 'rasna pripadnost'; zgoraj brez
'brez zgornjega dela obla~ila (kopalk)'. Tako izhodi{~e omogo~a, da v podatkovno
zbirko vklju~ujemo besedne zveze v {ir{em obsegu ne glede na klasi~no delitev na
stalne in nestalne. S tem ko se ne osredoto~amo le na stalne besedne zveze, evidentiramo
v podatkovni zbirki tudi tipi~ne skladenjske vzorce in njihovo vlogo v besedilu;
tako predstavimo vse tiste elemente v korpusu, ki se pojavljajo kot ponavljajo~i se korpusni
vzorec, npr. vse/~edalje/vedno bolj (zapleten, pere~; se pove~evati); neprimerno/
precej bolj ({kodovati) kot (koristiti); (biti) bolj ali manj (jasno, uspe{no; znan).
Namen podatkovne zbirke je pa~ predstaviti leksikalno zgradbo sloven{~ine, kot se
pojavlja v korpusu. Kot je bilo `e re~eno, pa pu{~amo odprto vpra{anje, kako bi se
pri realizaciji slovarja odlo~ali o njihovi slovarski predstavitvi. Izbira osnovne enote
slovarja je glede na mo~ besedne povezovalnosti in posledi~no tvorjenja bolj ali
manj trdnih zgradb vedno dogovorne narave.
Kulturolo{ko vezane besede in besedne zveze imajo obvezno opombo z razlago, npr.
bela garda – kolaboracionisti~na organizacija v Sloveniji med NOB.
Vse zveze zapisujemo v slovarski obliki, zapolnitev potencialnih udele`encev pa navajamo
v oklepaju, npr. bati se (koga/~esa) kot hudi~ kri`a; imeti (kaj) za bregom. Na ta na~in
navajamo tudi besedilno okolje zveze, kadar se to v korpusu izka`e kot tipi~no, npr. (spraviti,
spravljati, pognati, pripeljati) (koga/kaj) na bera{ko palico; (zabrusiti, povedati,
vre~i) (komu) (kaj) v brk; (~lovek, mo{ki, de~ko) na mestu. Idiome navajamo na koncu
izto~ni~nega ~lanka; idiomu dodamo opombo z razlago pomena. V ta razdelek spadajo
tiste zveze, katerih pomen je glede na pomen njihovih sestavnih delov netransparenten in
jih glede na pomen izto~nice ni mogo~e uvrstiti pod posami~en `e obstoje~i pomen.
Posebno pozorni smo na variantnost; v podatkovno zbirko namre~ vna{amo podatke o
realnih pojavitvah in ne idealizirane ene oblike, ki iztrgana iz besedila uporabniku slovarja
ne more ponuditi funkcionalne informacije. Preu~evanje pojava v {tevilnih dejanskih
realizacijah, kot nam jih ponuja korpusno okolje, namre~ omogo~a izlo~itev najbolj
tipi~nih in obenem opustitev individualnih rab, ki so slovarsko manj zanimive.
(povedati, razglasiti) brez dlake na jeziku
(biti brez, ne imeti) dlake na jeziku
iskati dlako v jajcu
dlaka gre pokonci (komu)
volk dlako menja, nravi/narave/zna~aja pa ne/nikoli
Zgled 6: Zajeti podatki o frazeologiji pri izto~nici dlaka.
Slovenska leksikalna podatkovna zbirka 13
3 Format podatkovne zbirke
Vsak leksikograf se danes soo~a z odlo~itvijo, v kak{nem ra~unalni{kem okolju in
v kak{nem formatu bo nastajal njegov slovar, podobno pa velja tudi za leksikalno
podatkovno zbirko, ki jo lahko razumemo tudi kot neke vrste slovar. Izhodi{~a so
dokaj jasna: dose~i je treba, da je vsebina ~im bolj trajno hranljiva, uporabna v ~im
ve~ razli~nih ra~unalni{kih okoljih (programih, operacijskih sistemih) in da je zaradi
mo~ne strukturiranosti izto~ni~nega ~lanka vedno omogo~eno prepoznavanje
posameznih njegovih delov (Krek 2003).
Zaradi splo{ne raz{irjenosti ter prednosti, ki jih prina{a, je bila odlo~itev za urejanje
leksikalne podatkovne zbirke v ra~unalni{kem okolju, ki prepoznava in zna shraniti
vsebino v formatu XML takoreko~ na dlani. Format XML kot naslednik standarda
za zapis besedil SGML (Standard Generalized Markup Language) ter njegove
izvedenke za internet HTML (Hypertext Markup Language) izpolnjuje vse zgoraj
na{tete pogoje, skupaj z veliko raz{irjenostjo. Za urejanje besedila v tem forma-
tu je bil izbran urejevalnik Corel Word Perfect, ki je bil v ~asu priprav na poskusno
fazo projekta ena bolj{ih izbir zaradi la`jega prilagajanja slovarske ekipe na delo,
ker ima urejevalnik veliko skupnih funkcij z najbolj raz{irjenimi klasi~nimi urejevalniki
besedil, predvsem pa zaradi standardnih funkcij, ki jih omogo~a modul za
format XML/SGML, kot so validacija zgradbe dokumenta in mo`nost ve~ razli~nih
izgledov dokumenta ob isti vsebini. V novej{em ~asu je pri{lo na tem podro~ju do
hitrega razvoja, zato bo v prihodnje specializiran urejevalnik za XML najbr` bolj{a
izbira.
Pri vpra{anju slovarskega urejevalnika in kon~nega formata slovarja je sicer potrebno
lo~iti med dvema zelo razli~nima segmentoma. Za leksikografa je pomembno, da
ureja slovar oz. leksikalno zbirko v ~im udobnej{em okolju, ki je prilagojeno njegovim
potrebam pri samem procesu sestavljanja. Klasi~ni urejevalniki besedil pa so za
to delo nezadostni, ker je leksikalna zbirka med drugim tudi vrsta baze podatkov, ki
je mo~no notranje strukturirana. Hkrati pa izkazuje lastnosti besedila, zato mora
izbrana programska oprema upo{tevati elemente splo{nih urejevalnikov besedil ter
programov za delo z bazami podatkov, z nekaterimi slovarskimi specifikami, kot so
hiter dostop do zaklju~enih nizov (kvalifikatorji), vnaprej nastavljive pogoste sheme
geselskih ~lankov, preverjanje predvidene strukture geselskega ~lanka, hiter dostop
do razli~nih delov zbirke, zahtevna iskanja po razli~nih kriterijih ipd. Leksikograf
mora za delo poznati zasnovo slovarja ali zbirke ter delo z izbrano programsko opremo.
Od tega sorazmerno neodvisna, vendar nujna pa je potreba, da izbrana programska
oprema zna hraniti in izvoziti slovarske podatke v strukturiranem formatu
XML. [ele to namre~ omogo~a izmenljivost podatkov in lahek prenos v druga
ra~unalni{ka okolja.
14 Vojko Gorjanc, Simon Krek in Polona Gantar
a
.
blagoslov
blagoslôv
sam.
relig.
(pro{nja za bo`jo naklonjenost)
[pape{ki, apostolski]
nekaj tiso~ ljudi je ~akalo pred gradom na pape{ki
blagoslov
Ob koncu poni`no prosim Va{o svetost za apostolski blagoslov za
to {kofijo, njenega poni`nega pastirja in romarje
Koledniki naj bi prina{ali k hi{i blagoslov za letino, zdravje in
sre~o ljudem ter `ivini
Bo`ji angeli ga spremljajo na njegovih potih. Blagoslov je z
njim
bo`ji blagoslov
Z molitvijo kli~emo Bo`ji blagoslov na vse ljudi
Naj tudi mi povsod prina{amo bo`ji blagoslov in radi pomagamo ljudem
v stiskah
S tako bogato in jedrnato molitvijo ho~emo priklicati bo`ji blagoslov
na vsa podro~ja ~love{kega udejstvovanja
[
prositi, `eleti, biti dele`en]
bo`jega blagoslova
Ako spolnjujemo bo`jo voljo, smo dele`ni bo`jega blagoslova
vsem ljudem dobre volje `elimo ob bo`i~nih praznikih obilo Bo`jega
blagoslova in sre~no ter uspe{no novo leto
pa je z bole~ino v srcu {e dolgo prosila Bo`jega blagoslova za svojega
vnuka
(privolitev)
Slovenska leksikalna podatkovna zbirka 15
[dr`avni, vladni, uradni, o~etov]
pripravili so novo uredbo, po kateri bodo investitorji z dr`avnim
blagoslovom lahko nadaljevali pogubno poseganje v dragocene
vodotoke
Za deset tolarjev pa so cestarji z vladnim blagoslovom podra`ili tudi
smrtno nevarno gradbi{~e, imenovano Slovenika
po dolgih pogajanjih se je z o~etovim blagoslovom in denarjem
odpravila v Kalifornijo {tudirat knji`evnost
darvinisti~ni evolucijski teoriji je pred dvema letoma dal celo svoj
uradni blagoslov
brez blagoslova
prav od ruskih potez bo v mnogo~em odvisna usoda novih posojil, ki
jih Moskva brez ameri{kega blagoslova nikakor ne bo dobila
bi bil Nato pripravljen posredovati na Kosovu tudi brez blagoslova
OZN?
dati blagoslov
Javnost je presene~ena nad tem, kako se je patriarh pred kamerami
dr`avne tv klanjal Milo{evi~u in njegovi `eni, ~eprav je komaj pred nekaj
meseci dvakrat sprejel opozicijske voditelje in jim dal blagoslov za strmoglavljenje
Milo{evi~evega re`ima
Pete Sampras pa je tik preden je odpotoval iz New Yorka dal
blagoslov Leveringovi za McEnroejevo imenovanje
dobiti blagoslov
Ta prizor so morali posneti devetnajstkrat, preden je dobil blagoslov
cenzorjev
Prodajalec da modem XY na atestiranje in dobi blagoslov
[ele ko so na razli~nih uradih preverili in ugotovili, da je pri nas mir,
je le dobil blagoslov za odhod
16 Vojko Gorjanc, Simon Krek in Polona Gantar
(sre~a, korist)
[pravi]
ker ste `ivahne in brezskrbne narave, ste za svoje doma~e pravi
blagoslov
Toplina, ki jo iz`arevate, je pravi blagoslov za tiste, ki nenehno tarnajo
in vidijo vse ~rno
Spoznali boste, da je pravi blagoslov, ~e imate veliko znancev in prijateljev
ZD>
O, zdravje, zdravje! Blagoslov bogatih! Bogastvo revnih!
Razglasitev za lepotno kraljico je bila zame hkrati blagoslov in prekletstvo
ZD>
(obred)
[opraviti]
[konj, ognja cerkve, prostorov]
Na Gomilskem `elijo, da bi blagoslov konj postal spet tradicija
Na veliko soboto je najpomembnej{i blagoslov ognja, vode in
jedi
Ob~inski praznik je bil prilo`nost za sve~ano otvoritev in blagoslov
novih prostorov ob~ine [entjernej
Slovesna ma{a bo ob 11. uri, blagoslov pa dobri dve uri
kasneje
Ma{no daritev in blagoslov je opravil {en~urski `upnik
V Tibetu je v navadi, da vernik po blagoslovu v znak hvale`nosti
izro~i prostovoljno daritev
vsak blagoslov je hvaljenje Boga in pro{nja za dose`enje njegovih
darov
[nesti, nositi]k blagoslovu
na Vipavskem so vsi ~lani dru`ine nesli k blagoslovu vsak svojo olj~no
vejico
V vseh slovenskih pokrajinah nosijo k blagoslovu jajca, ki jih imenujejo
tudi pisanice
`e tiso~letje so domorodci v cerkev nosili k blagoslovu poljsko cvetje
in zeli{~a
Zgled 7: Izto~nica blagoslov v leksikalni podatkovni zbirki.
Slovenska leksikalna podatkovna zbirka 17
5 Sklep
Predstavljena ideja oblikovanja slovenske leksikalne podatkovne zbirke temelji na
izku{njah pri analizi korpusa FIDA za pripravo splo{nih malih dvojezi~nih slovarjev
DZS s slovenskim izhodi{~em in metodologiji korpusne analize ter hranjenja korpusno
induciranih podatkov v leksiklani podatkovni zbirki, oblikovani v okviru ciljnega
raziskovalnega projekta »Zasnova na korpusu temelje~ih slovarskih in slovni~
nih opisov slovenskega jezika«. Oblikovanje take podatkovne zbirke utemeljujemo
z dejstvom, da obstoje~i slovarji slovenskega jezika ne predstavljajo realnega
jezika danes, hkrati pa so tudi metodolo{ko zastareli.
Predlog oblikovanja leksikalne podatkovne zbirke za sloven{~ino temelji na analizi
realnega jezika, kot mu lahko sledimo s pomo~jo referen~nega pisnega Korpusa slovenskega
jezika FIDA. Nabor izto~nic je narejen na podlagi korpusne liste besed, ki
je osnova za nadaljnjo analizo posameznih leksikalnih enot. Izhodi{~no vodilo je v
leksikalni zbirki prikazati aktualno stanje sloven{~ine na leksikalni ravni: obstoj leksikalnih
enot, njihovo dejansko obliko in pomen ter tipi~no ubesediljenje. Poseben
poudarek velja registraciji razli~nih vrst besedne povezovalnosti: kolokacije, skladenjski
vzorci, pomensko netransparentne zveze in idiomi. Ob tem pa v podatkovni
zbirki z zgledi rabe glede na dejansko `ivljenje leksikalne enote v sloven{~ini
nenehno opozarjamo na leksikalno variantnost.
Pri poskusni izdelavi posameznih izto~ni~nih ~lankov podatkovne zbirke so se testirale
tudi razli~ne metode korpusne analize za sloven{~ino. Za hranjenje podatkov se
je oblikoval celovit sistem vklju~evanja leksikalno relevantnih podatkov v podatkovno
zbirko, njihove hierarhiziranosti in medsebojne povezanosti. Vse to omogo~a
odlo~itev, da podatkovna zbirka nastaja v formatu XML/SGML, ki omogo~a tudi
trajno hranljivost, uporabnost v razli~nih okoljih, predvsem pa zaradi velike strukturiranosti
podatkov prepoznavanje posameznih segmentov leksikalne zbirke.
Pri nadgrajevanju na~el oblikovanja leksikalne podatkovne zbirke bodo v prihodnje
uporabljeni novi podatki o slovenskem jeziku, pridobljeni iz korpusa FidaPLUS
(http://www.fidaplus.net), ob tem pa se bodo preizku{ala tudi nova orodja za korpusno
analizo, predvsem orodje, ki ga uporabljajo pri analizi ~e{kega in slova{kega korpusa,
tj. konkordan~nik Bonitio. Glede na razpolo`ljiva finan~na sredstva za tovrstne projekte
bodo preu~ene tudi mo`nosti uporabe komercialnih leksikografskih programov
za hranjenje podatkov v podatkovni zbirki, ki so danes `e zelo zmogljivi, a za manj{e
projekte v slovenskem prostoru zaenkrat pomenijo preveliko finan~no breme.
Korpusa
Korpus slovenskega jezika FIDA. URL:
.
Korpus FidaPLUS (poskusna verzija). URL:
.
Literatura
Algeo, John, 1990: Dictionaries as seen by the educated public in Great Britain and the
USA. Hausmann, F. et al. (ur.): Wörterbücher. Ein internationales Handbuch zur
Lexikographie. Berlin: de Gruyter. 28–34.
18 Vojko Gorjanc, Simon Krek in Polona Gantar
Béjoint, Henri, 2000: Modern Lexicography. An Introduction. Oxford: Oxford University
Press.
Biber, Douglas, Conrad, Susan in Reppen, Randi, 1998: Corpus Linguistics. Investigating
Language Structure in Use. Cambridge: Cambridge University Press.
Crystal, David, 1997: The Cambridge Encyclopedia of Language. 2nd edition. Cambridge:
Cambridge University Press.
^ermák, Franti{ek in Holub, Jan, 1982: Syntagmatika a paradigmatika ~eského slova I.
Valence a kolokabilita. Praha: Statní pedagogické nakladatelství.
^ermák, Franti{ek, Klímová, Jana, Pala, Karel in Petkevi~, Vladimír, 2001: The Design of
Czech Lexical Database. Rayson, P., Wilson, A., McEnery, T., Hardie, A. in Khoja, S. (ur.):
Proceedings of the Corpus Linguistics 2001 conference. Lancaster: Lancaster University.
119–125.
^ermák, Franti{ek, 2002: Today’s corpus linguistics. Some open questions. International
journal of corpus linguistics 7/2. 265–282.
Firth, John Rupert, 1951: Modes of Meaning. Essays and Studies 4. Ponatisnjeno v Firth, J.
R., 1957: Papers in Linguistics 1934–51. London: Oxford University Press.
Fischer, Ute, 1994: Learning Words from Context and Dictionaries: An Experimental
Comparison. Applied Psycholinguistics 15/4. 551–574.
Fontenelle, Thierry, 1997: Turning a Bilingual Dictionary into a Lexical-Semantic Database.
Tübingen: Max Niemeyer Verlag.
Gabrov{ek, Du{an, 1998: Coping with Stubborn Stains and Persistent Headaches – for What
It’s Worth: Word Combinability in Action. Vestnik 32/1–2. 111–154.
Gantar, Polona, 2003: Stalnost in spremenljivost frazema v slovarju. Vidovi~ Muha, Ada in
Gajda, S. (ur.): WspóJczesna polska i sJoweUska sytuacja jbzykowa/Sodobni jezikovni polo`aj
na Poljskem in v Sloveniji. Opole. Uniwersytet Opolski, Instytut Filologii Polskiej in
Univerza v Ljubljani, Filozofska fakulteta. 209–224.
Gantar, Polona, 2004: Frazem in njegovo besedilno okolje. Doktorska disertacija. Ljubljana:
Univerza v Ljubljani, Filozofska fakulteta.
Gorjanc, Vojko in Krek, Simon, 2001: A corpus-based dictionary database as the source for
compiling Slovene-X dictionaries. Proceedings of the COMPLEX 2001 6th Conference on
Computational Lexicography and Corpus Research. Birmingham. 41–47.
Gorjanc, Vojko in @ele, Andreja, 2002: Compound dictionary entries (the case of Slovene
noun phrases). Braasch, A. in Povlsen, P. (ur.): EURALEX 2002: proceedings of the Tenth
EURALEX international congress, Copenhagen, Denmark, August 13–17, 2002.
Copenhagen: Center for Sprogteknologi. 607–614.
Gorjanc, Vojko, 2004: Politi~na korektnost in slovarski opisi sloven{~ine – zgolj modna
muha? Stabej, Marko (ur.): Moderno v slovenskem jeziku, literaturi in kulturi. 40. seminar
slovenskega jezika, literature in kulture. Ljubljana: Center za sloven{~ino kot drugi/tuji jezik
pri Oddelku za slovenistiko Filozofske fakultete. 153–161.
Gorjanc, Vojko in Jurko, Primo`, 2004: Kolokacije in u~enje tujega jezika. Jezik in slovstvo
49/3–4. 49–62.
Hausmann, Franz Josef, 1989: Le dictionaire de collocations. Hausmann, F. J., Reichmann, O.,
Wiegand, H. E., Zgusta, L. (ur.): Wörterbücher (3 zvezki). Berlin: Walter de Gruyter. 1010–1019.
Slovenska leksikalna podatkovna zbirka 19
Hill, Jimmie, 2000: Revising priorities: From grammatical failure to collocational success.
Lewis, Michael (ur.): Teaching Collocation. Further Developments in the Lexical. Hove: LTP.
47–69.
Jurko, Primo`, 1997: Towards a cline of difficulty of lexical collocations: Slovene–English.
Vestnik 31/1–2. 220–237.
Krek, Simon, 2003: Sodobna dvojezi~na leksikografija. Jezik in slovstvo 49/2. 3–16.
Kr`i{nik Kol{ek, Erika, 1987: Prenovitev kot inovacijski postopek. Slava. 49–56.
Lewis, Morgan, 2000: There is nothing as practical as a good theory. Lewis, M. (ur.)
:
Teaching Collocation. Further Developments in the Lexical Approach. Hove: LTP. 10–27.
Manning, Christoper in Schütze, Hinrich, 1999: Foundations of Statistical Natural Language
Processing. Cambridge MA: The MIT Press.
Perko, Gregor, 2004: Razlo~evanje prevodnih ustreznic v dvojezi~nem uvezovalnem slovarju
(predlogi za slovensko-francoski slovar). Doktorska disertacija. Ljubljana: Univerza v
Ljubljani, Filozofska fakulteta.
Sinclair, John, 1991: Corpus, Concordance, Collocation. Oxford: Oxford University Press.
Suhadolnik, Stane, 1968: Koncept novega slovarja slovenskega knji`nega jezika. Jezik in
slovstvo 13/7. 219–224.
Vidovi~ Muha, Ada, 2000: Slovensko leksikalno pomenoslovje. Govorica slovarja. Ljubljana:
Znanstveni in{titut Filozofske fakultete.