Vojko Gorjanc,1 Simon Krek1 in Polona Gantar2 UDK 811.163.6’374:004.6 

1Univerza v Ljubljani, Filozofska fakulteta 
2ZRC SAZU, In{titut za slovenski jezik Frana Ramov{a, Ljubljana 
vojko.gorjanc@guest.arnes.si 
simon.krek@guest.arnes.si 
apolonija.gantar@guest.arnes.si 

SLOVENSKA LEKSIKALNA 
PODATKOVNA ZBIRKA 

V ~lanku predstavimo idejo oblikovanja slovenske leksikalne podatkovne zbirke, pripravljene na podlagi 
korpusne analize. Predstavljena izhodi{~a gradnje leksikalne podatkovne zbirke temeljijo na izku{njah 
poskusne faze izdelave geslovnika za male dvojezi~ne slovarje DZS s sloven{~ino kot izhodi{~nim 
jezikom in korpusni analizi v okviru ciljnega raziskovalnega projekta »Zasnova na korpusu temelje~ih 
slovarskih in slovni~nih opisov slovenskega jezika«. Oblikovanje leksikalne podatkovne zbirke utemeljujemo 
z dejstvom, da obstoje~i slovarji slovenskega jezika ne predstavljajo sodobnega jezika, so tudi 
metodolo{ko zastareli in nikoli niso dosledno izpeljali jezikovnega opisovanja brez predpisovanja. 
Predlagana zasnova leksikalne podatkovne zbirke omogo~a gradnjo razli~nih tipov slovarjev; gre namre~ 
za notranje hierarhiziran leksikalni opis sodobnega slovenskega jezika, kakr{nega lahko pridobimo na 
podlagi referen~nega Korpusa slovenskega jezika FIDA. 

1 Izhodi{~a1 

Podatki o leksiki slovenskega jezika, kot jih prina{ajo obstoje~i enojezi~ni slovarji, 
ne predstavljajo aktualnega stanja v slovenskem jeziku. V primeru Slovarja 
slovenskega knji`nega jezika (SSKJ) je `e zaradi letnice izida (1970–1991) jasno, da 
ne more biti ve~ relevanten vir podatkov o sodobnem slovenskem jeziku in normi 
sodobnega knji`nega jezika, pri Slovenskem pravopisnem slovarju (SPS 2001) pa 
analize ka`ejo, da je glede podatkov o aktualnem stanju v sloven{~ini celo {e manj 
zanesljiv.2 

Kljub dejstvu, da SSKJ ne more biti nesporen razsodnik o leksikalni normi sodobnega 
slovenskega jezika, tako v jezikoslovju kot tudi v slovenski dru`bi deluje kot 
nesporna avtoriteta. [ir{e dru`beno je to razumljivo, saj je dejstvo, da se dolo~en 
slovar tudi v okoljih, kjer je na voljo ve~ slovarjev istega tipa, pojavlja v ednini, kot 

1 Del raziskav, ki so osnova za idejno zasnovo slovenske leksikalne podatkovne zbirke, je potekal v 
okviru ciljnega raziskovalnega projekta »Zasnova na korpusu temelje~ih slovarskih in slovni~nih opisov 
slovenskega jezika« V6-0122, odgovorni nosilec projekta doc. dr. Vojko Gorjanc. 
2 Prim. npr. drugo {tevilko Slavisti~ne revije 2003, ki je v celoti namenjena oceni SPS in prina{a tudi 
polemiko med kritiki SPS in njegovim glavnim urednikom Jo`etom Topori{i~em. 

Jezik in slovstvo, let. 50 (2005), {t. 2 


Vojko Gorjanc, Simon Krek in Polona Gantar 

da gre za slovarski unikum (Béjoint 2000: 121–122). Slovar je tako avtoriteta za 
informacije o tem, kaj v jeziku obstaja s splo{no formulo Besede X ni v slovarju = 
Besede X ni v jeziku (Algeo 1990: 32). Ker pa se slovar ob tem v dru`bi pogosto 
do`ivlja, kot da slovarske informacije ne podlegajo ~asu, so ve~ne in nespremenljive, 
posledi~no velja tudi obratna formula, ~etudi raba dolo~enega leksikalnega elementa 
ne izkazuje ve~, se je njegov pomen bistveno spremenil ali v razmerju do drugega 
ne deluje ve~ nevtralno (Béjoint 2000: 122). Nerazumljivo pa je dejstvo, da 
SSKJ v slovenisti~nem jezikoslovju prav tako pomeni nesporno avtoriteto tako glede 
norme knji`nega jezika kot slovarske metodologije, kot da se tako eno kot drugo v 
~asu od nastanka slovarja sploh ni spremenilo, kar ka`e na temeljno nerazumevanje 
dinamike razvoja jezikovne norme na eni strani in neume{~enost slovenske leksikografije 
pri slovarski metodologiji v sodobne leksikografske tokove na drugi strani. 

Obstoje~i leksikalni opisi slovenskega jezika so oblikovani na podlagi jezikovnih 
podatkov, zbranih na klasi~en na~in z ro~nim izpisovanjem na kartote~ne listke, ki 
so glede na sodobne opise, kakr{ne prina{ajo korpusi, tako kvantitativno kot kvalitativno 
`e zdavnaj prese`eni, SPS je nastal celo brez na~rtno zbrane gradivne zbirke, 
norma v njem pa je dolo~ena tudi na podlagi jezikovne intuicije ter ideolo{kega 
avtorskega intervencionizma. Izhodi{~e za sodobne leksikalne opise je analiza velike 
koli~ine na~rtno zbranega avtenti~nega gradiva in empiri~na analiza dejanskih 
vzorcev jezikovne rabe; {ele ra~unalni{ka tehnologija in oblikovanje metod zbiranja 
ter gradnje korpusov sta omogo~ila pridobiti veliko koli~ino relevantnih aktualnih 
jezikovnih podatkov. Tako jezikovni opisi, ki nastajajo na tej podlagi, temeljijo 
na empiri~ni analizi zares velike koli~ine avtenti~nih na~rtno zbranih besedil (Biber 
et. al. 1998: 5, 9–10). Vse to so zna~ilnosti jezikovnih podatkov, ki jih starej{im 
klasi~no zbranim listovnim zbirkam jezikovnih podatkov ne moremo pripisati 
(^ermák 2002: 265). Bistveno novo kakovost pa daje jezikovnim podatkom tudi 
oblikovanje meril za zajem besedil v korpuse, ki temeljijo na analizi diskurzivnega 
prostora. Tako zbrani jezikovni podatki omogo~ajo v jeziku lo~evanje med tipi~nim 
in posebnim oz. individualnim, torej prepoznavanje osrednjih in obrobnih jezikovnih 
pojavov, hkrati pa tudi opazovanje njihove distribucije glede na posamezni tip 
besedila. Tovrstni podatki omogo~ajo res kvalitetno analizo kolokabilnih lastnosti 
posameznih jezikovnih enot, njihovo tipi~no ubesediljenje pa razkriva tudi tipi~ne 
slovni~ne vzorce analizirane jezikovne enote. 

Ker slovarji slovenskega jezika ob jezikovnem opisu nenehno jezik tudi uravnavajo, 
so vsaj v enem delu predpisovalni in intervencionisti~ni. Tako stanje je v slovenskem 
prostoru sku{al na~rtno prese~i SSKJ: 

Slovenci smo navajeni, morda bolj kakor drugi narodi, da zaradi narodnostne ogro`enosti 
zelo pazimo, da se v knji`ni jezik ne vna{a preve~ tujega, oz. tega, ~esar ne izkazuje 
literarna tradicija. Zdaj bo v slovarju registriranega mnogo ve~: to, kar je bilo priznano 
kot dobro, manj dobro in tudi to, kar je veljalo za slabo. Hoteli smo prikazati knji`ni jezik 
v naj{ir{em pomenu besede: `iv, poln, z dubletami, notranjimi nasprotji, vzporednimi 
isto~asnimi normami, jezik sredi zagona in razvoja. /.../ Slovar bo registriral dejansko 
stanje v jeziku, torej osnove njegove norme, s kvalifikatorji in kvalifikatorskimi pojasnili 
pa bodo vstavljene v ta okvir posebnosti, dvojnosti in izjeme. (Suhadolnik 1968: 221.) 


Slovenska leksikalna podatkovna zbirka 

Osredoto~enje na jezikovni opis naj bi presegalo vrednotenje besed »pav{alno po 
tem, ali so pravilne ali nepravilne«, novo izhodi{~e sodobnega jezikovnega opisa pa 
pripomoglo »k prenehanju preganjanja izoliranih jezikovnih napak in utrdilo zavest 

o normalnosti govorjenega oz. pisanega jezika povpre~nega izobra`enca, isto~asno 
pa poglobilo resni~no, {iroko in poglobljeno zanimanje za slovensko besedo v celoti
« (Suhadolnik 1968: 221–222). Celostni opisi slovenskega jezika pa v resnici niso 
nikoli jasno razmejili jezikovnega opisovanja od predpisovanja in jezikovne intervencije.
3 ^eprav se zavedamo komplementarnosti opisovalnega in predpisovalnega 
na~ela v jezikoslovju (Crystal 1997: 2–3), pa je prav tako nesporna potreba po 
jasnem metodolo{kem lo~evanju enega in drugega. Metodolo{ko nelo~evanje 
namre~ nemalokrat privede do kvazi jezikovnega opisa, prikritega (namernega ali 
nenamernega) predpisovanja, ponujenega jezikovni skupnosti kot jezikovni opis. 
Namen leksikalne podatkovne zbirke je tako predvsem pridobiti podatke o realnem 
jeziku, torej aktualnem leksikalnem naboru v sloven{~ini, o pomenih leksikalnih 
enot in njihovem tipi~nem ubesediljenju. Predlog za oblikovanje leksikalne podatkovne 
zbirke, ki ga predstavljamo, je nastal na podlagi izku{enj pri pridobivanju leksikalno 
relevantnih podatkov za slovenski del splo{nih malih dvojezi~nih slovarjev 
DZS s sloven{~ino kot izhodi{~nim jezikom in korpusne analize v okviru ciljnega 
raziskovalnega projekta »Zasnova na korpusu temelje~ih slovarskih in slovni~nih 
opisov slovenskega jezika«. V poskusni fazi so bile za te namene analizirane 
razli~nice ~rke b iz Korpusa slovenskega jezika FIDA (http://www.fida.net), za 
razre{itev nekaterih zahtevnej{ih vpra{anj pa so bile dodatno {e problemsko izbrane 
in analizirane pogostnej{e korpusne razli~nice.4 Leksikalna podatkovna zbirka ima 
torej namen popisati stanje v slovenskem jeziku izklju~no na podlagi podatkov iz 
referen~nega korpusa slovenskega jezika. Gradnja take zbirke je neodvisna od morebitnih 
kasnej{ih slovarskih realizacij, kjer je potrebno upo{tevati {e npr. tip slovarja, 
uporabnika, velikost itd. 

2 Pridobivanje jezikovnih podatkov 

Izhodi{~e za oblikovanje podatkovne zbirke so korpusni podatki. Pri pridobivanju 
podatkov se ne moremo izogniti veliki koli~ini ro~ne analize, predvsem takrat, ko 
`elimo pridobiti relevantne podatke o pomenski zgradbi posameznega leksikalnega 
elementa. Da pa bi delo leksikografom olaj{ali, so jim bili za vsak analiziran element 
na voljo `e predhodno procesirani korpusni podatki, in sicer naklju~ni izbor do 
300 konkordanc za posamezno korpusno razli~nico in statisti~na analiza neposrednega 
ali definiranega besedilnega okolja. 

3 Kako mo~no je (bila) zakoreninjena predpisovalna in intervencionisti~na tradicija v slovenistiki pri 
SSKJ, lepo ka`eta posebna normativna kvalifikatorja nepravilno in neustaljeno. Kljub programski usmeritvi 
v jezikovni opis in vzpostavitvi vrednotenja knji`nojezikovne norme s pomo~jo {irokega nabora 
raznorodnih kvalifikatorjev, je opis v drobnem, a nikakor ne nepomembnem segmentu, pristal tudi v 
intervencionisti~nih vodah. 
4 Za korpusno analizo je del procesiranih korpusnih podatkov pripravilo podjetje Amebis 
(http://www.amebis.si), tudi sicer projektni partner pri izdelavi referen~nega Korpusa slovenskega jezika 
FIDA. Podjetju Amebis se za pomo~ lepo zahvaljujemo. 


Vojko Gorjanc, Simon Krek in Polona Gantar 

2.1 Lista besed 
Lista besed, ki so osnova za analizo in potencialne izto~nice leksikalne podatkovne zbirke, 
je narejena na podlagi procesiranih podatkov celotnega korpusa FIDA. V poskusni fazi 
gradnje podatkovne zbirke je bilo glede na pogostnost v korpusu izlo~enih prvih 25.000 
lem. Najpogostej{a je lema biti (7.749.214), zadnja po pogostnosti pa lema acetat (108). 
^rka b, ki je bila izbrana za poskusno fazo, zajema 783 lem, od najpogostej{e biti do biskvit 
(108). Natan~no {tevilo izto~nic podatkovne zbirke s tem {e ni dolo~eno, saj je potrebno 
preveriti, ali ni lema mogo~e precenjena. Ker je bil korpus FIDA avtomatsko lematiziran 
brez razdvoumljanja pri lemah s skupnimi oblikami, je korpusnim pojavnicam lahko 
pripisanih tudi ve~ lem, kontekstno nedvoumno pa je potrebno {ele ugotoviti. 

<p ID="F0008210.1482"><s ID="F0008210.1482.1"> 
<w lemma="nabirati">Nabiramo</w> 
<w lemma="zdravilen">zdravilne</w> 
<w lemma="rastlina">rastline</w> 
<c type="PUN">-</c> 
<w lemma="hrastov">hrastovo</w> 
<w lemma="in">in</w> 
<w lemma="vrbov">vrbovo</w> 
<w lemma="lubje">lubje</w> 
<c type="PUN">,</c> 
<w lemma="jegli~">jegli~</w> 
<c type="PUN">,</c> 
<w lemma="kopriva">koprivo</w> 
<c type="PUN">,</c> 
<w lemma="ljubica">ljubice</w> 
<c type="PUN">,</c> 
<w lemma="regrat">regrat</w> 
<c type="PUN">,</c> 
<w lemma="lapuh">lapuh</w> 
<c type="PUN">,</c> 
<w lemma="popek">popke</w> 
<w lemma="breza">breze</w> 
<w lemma="in">in</w> 
<w lemma="topol">topola</w> 
<c type="PUN">.</c></s></p> 

Zgled 1: Del nedvoumno lematiziranega besedila iz korpusa FIDA. 

/.../ <w lemma="za">Za</w> 
<w lemma="priloga">prilogo</w> 
<w lemma="h">h</w> 
<w lemma="krompir">krompirju</w> 
<w lemma="se">se</w> 
<w lemma="lepo lep">lepo</w> 
<w lemma="podaja podati">podajo</w> 
<w lemma="kuhan kuhati">kuhani</w> 

<w lemma="list lista">listi</w> 
<w lemma="lapuh">lapuha</w> /...
/
Zgled 2: Del dvoumno lematiziranega besedila iz korpusa FIDA.



Slovenska leksikalna podatkovna zbirka 

Paziti je torej treba pri tistih izto~nicah, kjer je mo`na dvojna lema in je druga 
mo`-na lema v korpusu enako pogostna ali pogostnej{a. Lahko se zgodi tudi, da 
sta dve lemi v seznam potencialnih izto~nic pri{li z zdru`enimi mo~mi, saj sami 
ne bi presegli dogovorjene meje 108 pojavitev. Zna~ilni primeri za to so npr.: 

• 
izpeljava prislova iz pridevnika – v teh primerih gre pogosto za pridevnik v 
to`ilniku, ki mu je pripisana lema prislova: bakren (709), bakreno (133); beseden 
(2102), besedno (358); 
• 
dva mo`na samostalnika: beril (189), berilo (344); 
• 
homografi: bístro (prislov), bistró (samostalnik). 
Kot je obi~ajno pri podatkih iz korpusa, prihaja tudi do korpusnega {uma – ponavljajo~
ih se ko{~kov besedil, ki pridobijo na pogostnosti iz »neupravi~enih« razlogov: 
naslovov rubrik v ~asopisih, televizijskih programov itd.; npr. zveza `ametna 
vrtnica je v korpusu samo zaradi radijske oddaje, pri lemi odmev je npr. problemati~
na tako dvojna lema odmev : odmevati, hkrati pa mo~an korpusni {um povzro~ata 
oddaji Odmevi (TV) in Dogodki in odmevi (RA). 

Kadarkoli gre za izto~nico, ki nenavadno izstopa, mora leksikograf pomisliti na 
navedene razloge in preveriti, ~e jo upravi~eno obdr`imo v podatkovni zbirki. 
Preverjanje gre tudi v smeri ugotavljanja korpusne razpr{enosti – pojavljanje leksikalnega 
elementa pri razli~nih avtorjih in v razli~nih tipih besedil, saj je treba izklju~
iti morebitne leksikalne elemente, ki so zna~ilnost npr. enega avtorja. Pri tem 
gre v osnovi za subjektivne odlo~itve, ki pa se jim glede na trenutno ozna~enost korpusa 
FIDA ne moremo izogniti. 

2.1.1 Zgradba izto~nic 
Izto~nice v podatkovni zbirki so eno- ali ve~besedne. Tipi~no so ve~besedne 
izto~nice s povratnoosebnim glagolom, npr. bati se; briti : briti se, hkrati pa status 
ve~besedne izto~nice pridobijo tudi samostalni{ke besedne zveze v primeru, ~e sta 
obe sestavini pomensko netransparentni in je zveza kot celota dovolj pogostna (z 
enako ali vi{jo pogostnostjo kot v primeru enobesednih izto~nic), npr. bela knjiga, 
bela garda, bela pritlikavka, beli ovratnik. 

`elezen 

vrata, ograja, palica 

`elezni pogostnost {tevilo pomenov samostojna izto~nica5 

zavesa 315 2 + 
doba138 1 + 
repertoar 82 1 – 
cesta41 1 – 

5 Status samostojne izto~nice je odvisen od obsega leksikalne zbirke. Na~elno izhodi{~e je, da mora biti 
tudi zveza sama z enako ali vi{jo pogostnostjo kot posamezne za leksikalno zbirko analizirane leme. Ker 
gre pri poskusni fazi za zajem lem s pogostnostjo nad 108, je to tudi izhodi{~e za predstavitev zveze na 
ravni izto~nice. 


Vojko Gorjanc, Simon Krek in Polona Gantar 

lady 41 2 – 
konji~ek 7 1 – 
plju~a 7 1 – 
srajca idiom 33 1 – 
kri`ec 13 1 – 
ka~ica 8 1 – 

Zgled 3: Prikaz kolokacij in stalnih besednih zvez s pridevnikoma `elezen in 
`elezni. 

Kot je razvidno iz zgornjega zgleda, pri pridevnikih razlikujemo lastnostne in 
vrstne. Na podlagi tega predvidevamo tri tipe pridevni{kih izto~nic: 

(a) ^e sta realni obe vrsti pridevnika – gre predvsem za razlikovanje med pridevniki 
na -en in -ni (Vidovi~ Muha 2000) – potem kot izto~nici v istem izto~ni~nem 
~lanku navedemo obe obliki, najprej predstavimo lastnostni pridevnik in kot podizto~
nico v posebnem delu izto~ni~nega ~lanka {e vrstni pridevnik, npr. bajen 
(zaslu`ek, vsota)/bajni (bitje), bajesloven (zaslu`ek, bogastvo)/bajeslovni (podzemlje, 
motiv), bakren (`ica, plo~evina)/bakreni (doba), baro~en (razko{nost)/baro~ni 
(doba, umetnost), bel (barva, lisa)/beli (vino, moka), briljanten (nastop, 
izvedba)/briljantni (prstan, ogrlica). Pogostne zveze z vrstnim pridevnikom so 
tipi~no obravnavane kot stalne besedne zveze, ki pa jih je mogo~e nadalje obravnavati 
kot pomensko transparentne na ravni kolokacij, npr. bela (rasa, sorta, priseljenec), 
ali kot pomensko netransparentne, npr. bela hi{a, bela tehnika. 
(b) ^e je realen samo lastnostni ali samo vrstni pridevnik, posebnosti ni, npr. balisti~
ni, ban~ni, bitni; banalen, be`en, bister, bistven. Pri pridevnikih izberemo tip pridevni{
ke izto~nice izklju~no glede na pomen in nikoli glede na obliko zapisa. To 
pomeni, da ima lahko tudi vrstni pridevnik (v dolo~eni skladenjski vlogi, npr. za 
vezjo v vlogi povedkovnika) obliko na -en, npr. barvni, bitni: /.../ epilogu, ki ni barven, 
ampak ~rno-bel /.../; /.../ Pravi razlog, zakaj je Cardinal 31-biten in ne 32-biten, 
je /.../. S tem ne izgubi statusa vrstnega pridevnika, se pa ta podatek vedno upo{teva 
pri zajemu zgledov rabe. 
(c) Dosledno lo~evanje lastnostnega in vrstnega pridevnika privede do izpostavitve 
tudi tistih pridevnikov, kjer gre pri lastnostnem in vrstnem za dva popolnoma 
pomensko lo~ena pridevnika, tako v SSKJ kot tudi v SPS sta zaradi nelo~evanja med 
oblikama predstavljena kot homonima, npr. bu~en 'zelo glasen' (aplavz, navijanje); 
bu~ni 'o bu~i' (olje, seme). V teh primerih pridevnika predstavimo kot dve izto~nici 
s svojima izto~ni~nima ~lankoma. 
Kot samostojne izto~nice so v podatkovno zbirko lahko sprejete tudi besednovrstno 
med seboj povezane besede in besedne oblike, ~e so v korpusu dovolj pogosto izkazane, 
npr. izpridevni{ki samostalniki. V primerih, kjer je razmerje med (skladenjsko 
in pomensko) povezanima besedama mogo~e vzpostaviti, je smiselna tudi predstavitev 
znotraj enega izto~ni~nega ~lanka s podizto~nico, npr. brezposelni (pridevnik) 

– brezposelni (samostalnik)
. 
Pri drugih besednih vrstah se v poskusni fazi projekta posebnosti niso pokazale.

Slovenska leksikalna podatkovna zbirka 

2.2 Pomenska analiza 
Za vsak element, ki bo postal izto~nica v podatkovni zbirki, se iz korpusa FIDA 
izpi{ejo konkordance. Ker pa jih je pri posameznih korpusnih razli~nicah lahko 
izjemno veliko, pri pogostnej{ih naredimo naklju~ni filter, s pomo~jo katerega {tevilo 
konkordanc zmanj{amo na 300. Izhajamo iz predpostavke, da bomo iz tako 
izlo~enega dela konkordanc lahko razbrali pomensko zgradbo leksikalnega elementa, 
ki ga analiziramo. Tako oblikovan konkordan~ni niz je osnova za dolo~anje 
pomenov; pri tem si zaradi la`je analize konkordan~ni niz poravnavamo levo/desno, 
kar omogo~a na podlagi tipi~nih sopojavnic levo/desno la`je razbiranje pomenov. 

sopojavnica izhodi{~e sopojavnica pomen elementa 
analize v izhodi{~u analize 
belo-, rde~e-, modro~
rn obleka, avto … take barve 
~rn gradnja, borza nezakonit 
~rn slutnja, misel neprijeten 
~rn to~ka, petek tragi~en 
~rn lista, seznam nedovoljen, 
neza`elen 

Zgled 4: Sopojavnice analiziranega elementa in njegovi pomeni. 

V nadaljevanju se {tevilo pomenov, razbranih s pomo~jo analize konkordanc, lahko 
tudi primerja s pomensko zgradbo posameznega elementa v drugih slovarjih, predvsem 
SSKJ, vendar je za kon~no dolo~itev pomenov vedno relevanten le korpus, 
obstoje~i slovarji so pri tem lahko le pomo`no sredstvo. Tudi za razporeditev pomenov 
je vedno relevanten korpus, tako da pomene v podatkovni zbirki nizamo izklju~
no glede na njihovo pogostnost v korpusu. 

Pri posameznih pomenih je v leksikalni zbirki naveden pomenski indikator. Gre za 
~im kraj{i pomenski kazalec, ki ima namen le pomene ene izto~nice medsebojno 
lo~iti. T. i. posrednih indikatorjev ne uporabljamo, npr. glagolnik od, tudi ne takih, ki 
govorijo le o besedotvorni mo`nosti besede; ne navajamo torej pretvorbe tipa kdor, 
kar, saj ni~ ne povedo o pomenu, ampak pomen le pove`ejo z drugo izto~nico. ^e kratek 
pomenski indikator po leksikografovem mnenju ne zadostuje, se lahko v opombo 
zapi{e dalj{a razlaga, pri prenesenih pomenih zadostuje `e indikator figurativno. 

Pri vsakem pomenu izto~nice vnesemo tudi zglede rabe, tj. zglede iz konkordanc, 
ki morajo biti »slovarski«, tj. kratki in ~imbolj tipi~ni. Pri izboru zgledov upo{tevamo 
najbolj pogostne kolokacije in/ali najbolj pogostne skladenjske vzorce (ali vsaj 
del vzorca) analizirane besede, ki je zastopana v izto~nici. Zgledi morajo biti vedno 
izbrani tako, da ka`ejo pogosto rabo izto~nice v leksikalni zbirki, ne pa morebitnih 
frazeolo{kih enot, v katerih nastopa tudi izto~nica. Zgledi so prvotno namenjeni prikazu 
kolokabilnosti in skladenjskih vzorcev in ne prikazu dru`benih razmer, zato 
morajo leksikografi pri zbiri paziti na nevtralnost zgledov, da se pri tem ~imbolj izognejo 
ideolo{kosti skozi preferen~nost pri njihovi izbiri (Béjoint 2000, Gorjanc 
2004). 


10 Vojko Gorjanc, Simon Krek in Polona Gantar 

2.3 Besedne zveze 
Osnova za dolo~anje kolokacij in frazeologije so podatki o besedilni okolici analiziranega 
elementa z izra~uni vrednosti MI3, in sicer v okolici –1, +1, +/–4.6 Ti podatki 
slu`ijo kot osnovni namig o tipi~nem ubesediljenju analiziranega leksikalnega 
elementa. Kon~ne odlo~itve o tem pa se vedno sprejemajo na podlagi nadaljnjega 
dela s korpusom, predvsem pregledovanja konkordan~nih nizov, zvez in njihove 
okolice. Statisti~ne podatke vrednosti vzajemne povezanosti elementov korpusa MI3 
kombiniramo s podatki o absolutni pogostnosti, predvsem zaradi funkcijskih besed, 
saj se predvsem podatki o predlogih, veznikih in ~lenkih pri vzajemnih vrednostih 
izgubijo zaradi izjemno visoke pogostnosti v korpusu (Gorjanc in Krek 2001). 


Zgled 5: Statisti~ni podatki o besedilnem okolju za lemo ~akati. 

6 Uporabljene so bile statisti~ne vrednosti, ki jih omogo~a spletni konkordan~nik ASP32 pri Korpusu 
slovenskega jezika FIDA. Razli~ne statisti~ne analize korpusa, ki se jih najpogosteje uporablja v leksikografiji, 
so bile preizku{ene za slovenski jeziki, na koncu pa izbrane tiste, ki dajejo najbolj{e rezultate 
(Gorjanc in Krek 2001). 


Slovenska leksikalna podatkovna zbirka 11 

2.3.1 Kolokacije 
S svojim izrazito strukturno-pomenskim izhodi{~em je bila leksika slovenskega jezika 
obravnavana predvsem z vidika jezikovnih poimenovalnih enot. Spoznanja o skladi{~
enju slovarja kot komunikacijskih delov jezika, ki niso le leksemi, ampak ve~je 
leksikalne enote, so tudi pri opazovanju in opisovanju jezika spro`ila vpra{anja o slovarju 
kot zelo razli~nih leksikalnih enotah (Hill 2000: 47, Lewis 2000: 8), hkrati pa je 
razvoj korpusnega jezikoslovja {ele zares omogo~il kvalitetno analizo pojavov kolokabilnosti, 
saj je {ele velika koli~ina jezkovnih podatkov in njihova avtomatska analiza 
omogo~ila pridobivanje relevantnih podatkov o oblikovni in pomenski povezovalni 
mo~i posameznih elementov (Sinclair 1991). Opazovanje in opisovanje kolokacij 
na ravni enega jezika namre~ temelji na objektivno merljivem parametru, tj. pogostnosti 
sopojavljanja. Na podlagi podatkov o pogostnosti sopojavljanja lahko s pomo~jo 
statisti~nih metod ugotovimo nize besed, ki se pogosteje kot z ostalimi besedami sopojavljajo 
v besedilih obravnavanega jezika, npr. rde~ (lu~, kri`, karton).7 

Pri kolokatorjih v leksikalni podatkovni zbirki vedno navajamo vsaj dva; vnos dolo~imo 
glede na podatke o vzajemnih vrednostih. Kolokator je lahko tudi lastno ime, vendar nikoli 
ne osebno. Navajamo tipi~ne nize kolokatorjev za posamezne besedne vrste, kar pa ne 
pomeni, da v primeru, ko se pojavi druga~en korpusni vzorec, tega ne registriramo. 

Pri samostalniku so tipi~no kolokatorji tako lahko 

• 
pridevniki 
[
mlad, pozoren, nepou~en] 
bralec – pri zgledu rabe v teh primerih 
sku{amo zajeti tudi prislov kot modifikator celotnega dela, ~e se ta poka`e kot 
relevanten, npr. [skrajno, povsem] 
brezupen (primer); 
• 
samostalniki bralka 
[
revije, ~asopisa]
, boj z/s 
[
konkurenco, tekmeci, rakom]
; 
• 
glagoli 
[
kotirati, trgovati] 
na borzi. 
Pri pridevniku tipi~no 

• 
prislovi 
[
neozdravljivo, du{evno, smrtno, kroni~no] 
bolan in 
• 
samostalniki bolan 
[
otrok, mati, tkivo, pacient]
. 
Pri prislovu tipi~no 

• 
glagoli bole~e 
[
ob~utiti, odjekniti, zarezati]
, 
• 
pridevniki bistveno 
[
druga~en, zmanj{an] 
in 
• 
prislovi bistveno 
[
manj, bolj]
. 
Pri glagolih kolokatorji zapolnjujejo vezljivostna mesta: 

[
veter, burja] 
brije; be`ati pred 
[
vojno, nacizmom, Turki; resni~nostjo]
; gojiti 

[
ljubezen, upanje, ~ustvo, zamero]
; gojiti 
[
na balkonu, v rastlinjaku, na prostem] 
… 
oz. glagol modificirajo: 

[
pani~no, brezglavo, mno`i~no] 
be`ati. 

7 V slovenskem prostoru je bilo vpra{anje kolokabilnosti v glavnem domena anglistike (Jurko 1997 in 
Gabrov{ek 1998), manj tudi slovenistike v okviru frazeolo{kega razpravljanja (Kr`i{nik Kol{ek 1987); v 
slovenskem prostoru je {ele v zadnjem ~asu postalo del {ir{ega jezikoslovnega zanimanja, slovenisti~nega 
v ve~ji meri {ele s pojavom koprusov slovenskega jezika (Gantar 2004, Gorjanc in Jurko 2004, Perko 2004). 


12 Vojko Gorjanc, Simon Krek in Polona Gantar 

2.3.2 Frazeologija in skladenjski vzorci 
Zveze v okviru posameznega pomena lo~ujemo glede na njihovo pomensko zgradbo 
in pogostnost, in sicer: 

(a) besedne zveze z visoko pogostnostjo, kamor sodijo vsi ponavljajo~i se ko{~ki 
besedil, v katerih nastopa izto~nica kot jedro in jih ne pokrijemo z navajanjem kolokatorjev, 
npr.: pahniti (koga) v brezno (~esa), bahati se pred (kom), (deskanje, 
brskanje, naro~anje) po internetu; 
(b) pomensko netransparentne zveze, ki imajo lahko tudi nizko pogostnost. Pri vseh 
zvezah, ki imajo vsaj en element pomensko netransparenten (tj. klasi~nih frazemih in 
idiomih), dodamo pomenski indikator, npr. barva ko`e 'rasna pripadnost'; zgoraj brez 
'brez zgornjega dela obla~ila (kopalk)'. Tako izhodi{~e omogo~a, da v podatkovno 
zbirko vklju~ujemo besedne zveze v {ir{em obsegu ne glede na klasi~no delitev na 
stalne in nestalne. S tem ko se ne osredoto~amo le na stalne besedne zveze, evidentiramo 
v podatkovni zbirki tudi tipi~ne skladenjske vzorce in njihovo vlogo v besedilu; 
tako predstavimo vse tiste elemente v korpusu, ki se pojavljajo kot ponavljajo~i se korpusni 
vzorec, npr. vse/~edalje/vedno bolj (zapleten, pere~; se pove~evati); neprimerno/
precej bolj ({kodovati) kot (koristiti); (biti) bolj ali manj (jasno, uspe{no; znan). 
Namen podatkovne zbirke je pa~ predstaviti leksikalno zgradbo sloven{~ine, kot se 
pojavlja v korpusu. Kot je bilo `e re~eno, pa pu{~amo odprto vpra{anje, kako bi se 
pri realizaciji slovarja odlo~ali o njihovi slovarski predstavitvi. Izbira osnovne enote 
slovarja je glede na mo~ besedne povezovalnosti in posledi~no tvorjenja bolj ali 
manj trdnih zgradb vedno dogovorne narave. 

Kulturolo{ko vezane besede in besedne zveze imajo obvezno opombo z razlago, npr. 
bela garda – kolaboracionisti~na organizacija v Sloveniji med NOB. 

Vse zveze zapisujemo v slovarski obliki, zapolnitev potencialnih udele`encev pa navajamo 
v oklepaju, npr. bati se (koga/~esa) kot hudi~ kri`a; imeti (kaj) za bregom. Na ta na~in 
navajamo tudi besedilno okolje zveze, kadar se to v korpusu izka`e kot tipi~no, npr. (spraviti, 
spravljati, pognati, pripeljati) (koga/kaj) na bera{ko palico; (zabrusiti, povedati, 
vre~i) (komu) (kaj) v brk; (~lovek, mo{ki, de~ko) na mestu. Idiome navajamo na koncu 
izto~ni~nega ~lanka; idiomu dodamo opombo z razlago pomena. V ta razdelek spadajo 
tiste zveze, katerih pomen je glede na pomen njihovih sestavnih delov netransparenten in 
jih glede na pomen izto~nice ni mogo~e uvrstiti pod posami~en `e obstoje~i pomen. 
Posebno pozorni smo na variantnost; v podatkovno zbirko namre~ vna{amo podatke o 
realnih pojavitvah in ne idealizirane ene oblike, ki iztrgana iz besedila uporabniku slovarja 
ne more ponuditi funkcionalne informacije. Preu~evanje pojava v {tevilnih dejanskih 
realizacijah, kot nam jih ponuja korpusno okolje, namre~ omogo~a izlo~itev najbolj 
tipi~nih in obenem opustitev individualnih rab, ki so slovarsko manj zanimive. 

(povedati, razglasiti) brez dlake na jeziku 
(biti brez, ne imeti) dlake na jeziku
iskati dlako v jajcu
dlaka gre pokonci (komu)
volk dlako menja, nravi/narave/zna~aja pa ne/nikoli


Zgled 6: Zajeti podatki o frazeologiji pri izto~nici dlaka. 


Slovenska leksikalna podatkovna zbirka 13 

3 Format podatkovne zbirke 

Vsak leksikograf se danes soo~a z odlo~itvijo, v kak{nem ra~unalni{kem okolju in 
v kak{nem formatu bo nastajal njegov slovar, podobno pa velja tudi za leksikalno 
podatkovno zbirko, ki jo lahko razumemo tudi kot neke vrste slovar. Izhodi{~a so 
dokaj jasna: dose~i je treba, da je vsebina ~im bolj trajno hranljiva, uporabna v ~im 
ve~ razli~nih ra~unalni{kih okoljih (programih, operacijskih sistemih) in da je zaradi 
mo~ne strukturiranosti izto~ni~nega ~lanka vedno omogo~eno prepoznavanje 
posameznih njegovih delov (Krek 2003). 

Zaradi splo{ne raz{irjenosti ter prednosti, ki jih prina{a, je bila odlo~itev za urejanje 
leksikalne podatkovne zbirke v ra~unalni{kem okolju, ki prepoznava in zna shraniti 
vsebino v formatu XML takoreko~ na dlani. Format XML kot naslednik standarda 
za zapis besedil SGML (Standard Generalized Markup Language) ter njegove 
izvedenke za internet HTML (Hypertext Markup Language) izpolnjuje vse zgoraj 
na{tete pogoje, skupaj z veliko raz{irjenostjo. Za urejanje besedila v tem forma-
tu je bil izbran urejevalnik Corel Word Perfect, ki je bil v ~asu priprav na poskusno 
fazo projekta ena bolj{ih izbir zaradi la`jega prilagajanja slovarske ekipe na delo, 
ker ima urejevalnik veliko skupnih funkcij z najbolj raz{irjenimi klasi~nimi urejevalniki 
besedil, predvsem pa zaradi standardnih funkcij, ki jih omogo~a modul za 
format XML/SGML, kot so validacija zgradbe dokumenta in mo`nost ve~ razli~nih 
izgledov dokumenta ob isti vsebini. V novej{em ~asu je pri{lo na tem podro~ju do 
hitrega razvoja, zato bo v prihodnje specializiran urejevalnik za XML najbr` bolj{a 
izbira. 

Pri vpra{anju slovarskega urejevalnika in kon~nega formata slovarja je sicer potrebno 
lo~iti med dvema zelo razli~nima segmentoma. Za leksikografa je pomembno, da 
ureja slovar oz. leksikalno zbirko v ~im udobnej{em okolju, ki je prilagojeno njegovim 
potrebam pri samem procesu sestavljanja. Klasi~ni urejevalniki besedil pa so za 
to delo nezadostni, ker je leksikalna zbirka med drugim tudi vrsta baze podatkov, ki 
je mo~no notranje strukturirana. Hkrati pa izkazuje lastnosti besedila, zato mora 
izbrana programska oprema upo{tevati elemente splo{nih urejevalnikov besedil ter 
programov za delo z bazami podatkov, z nekaterimi slovarskimi specifikami, kot so 
hiter dostop do zaklju~enih nizov (kvalifikatorji), vnaprej nastavljive pogoste sheme 
geselskih ~lankov, preverjanje predvidene strukture geselskega ~lanka, hiter dostop 
do razli~nih delov zbirke, zahtevna iskanja po razli~nih kriterijih ipd. Leksikograf 
mora za delo poznati zasnovo slovarja ali zbirke ter delo z izbrano programsko opremo. 
Od tega sorazmerno neodvisna, vendar nujna pa je potreba, da izbrana programska 
oprema zna hraniti in izvoziti slovarske podatke v strukturiranem formatu 
XML. [ele to namre~ omogo~a izmenljivost podatkov in lahek prenos v druga 
ra~unalni{ka okolja. 


14 Vojko Gorjanc, Simon Krek in Polona Gantar 

<GS>a
. 
<IZ> 
<IS>blagoslov</IS> 
<I>blagoslôv</I> 
</IZ> 
<ZG> 
<BV>sam.</BV> 
</ZG> 
<SM> 
<KV>relig.</KV> 
<IN>(pro{nja za bo`jo naklonjenost)</IN> 
<KO>[pape{ki, apostolski]</KO> 

<RA> 
<ZD>nekaj tiso~ ljudi je ~akalo pred gradom na pape{ki 
blagoslov</ZD> 
<ZD>Ob koncu poni`no prosim Va{o svetost za apostolski blagoslov za 
to {kofijo, njenega poni`nega pastirja in romarje</ZD> 
<ZD>Koledniki naj bi prina{ali k hi{i blagoslov za letino, zdravje in 
sre~o ljudem ter `ivini</ZD> 
<ZD>Bo`ji angeli ga spremljajo na njegovih potih. Blagoslov je z 
njim</ZD> 

</RA> 
<FR> 

<ST>
<FI>
<F>bo`ji blagoslov</F>
</FI>


<RA> 
<ZD>Z molitvijo kli~emo Bo`ji blagoslov na vse ljudi</ZD> 
<ZD>Naj tudi mi povsod prina{amo bo`ji blagoslov in radi pomagamo ljudem 
v stiskah</ZD> 
<ZD>S tako bogato in jedrnato molitvijo ho~emo priklicati bo`ji blagoslov 
na vsa podro~ja ~love{kega udejstvovanja</ZD> 

</RA>
</ST>
<ST>


<FI>
<F>
[
prositi, `eleti, biti dele`en] 
bo`jega blagoslova</F>
</FI>


<RA> 
<ZD>Ako spolnjujemo bo`jo voljo, smo dele`ni bo`jega blagoslova</ZD> 
<ZD>vsem ljudem dobre volje `elimo ob bo`i~nih praznikih obilo Bo`jega 
blagoslova in sre~no ter uspe{no novo leto</ZD> 
<ZD>pa je z bole~ino v srcu {e dolgo prosila Bo`jega blagoslova za svojega 
vnuka</ZD> 

</RA> 

</ST> 
</FR> 
</SM> 
<SM> 

<IN>(privolitev)</IN> 


Slovenska leksikalna podatkovna zbirka 15 

<KO>[dr`avni, vladni, uradni, o~etov]</KO> 

<RA> 
<ZD>pripravili so novo uredbo, po kateri bodo investitorji z dr`avnim 
blagoslovom lahko nadaljevali pogubno poseganje v dragocene 
vodotoke</ZD> 
<ZD>Za deset tolarjev pa so cestarji z vladnim blagoslovom podra`ili tudi 
smrtno nevarno gradbi{~e, imenovano Slovenika</ZD> 
<ZD>po dolgih pogajanjih se je z o~etovim blagoslovom in denarjem 
odpravila v Kalifornijo {tudirat knji`evnost</ZD> 
<ZD>darvinisti~ni evolucijski teoriji je pred dvema letoma dal celo svoj 
uradni blagoslov</ZD> 

</RA> 
<FR> 

<ST>
<FI>
<F>brez blagoslova</F>
</FI>


<RA> 
<ZD>prav od ruskih potez bo v mnogo~em odvisna usoda novih posojil, ki 
jih Moskva brez ameri{kega blagoslova nikakor ne bo dobila</ZD> 
<ZD>bi bil Nato pripravljen posredovati na Kosovu tudi brez blagoslova 
OZN?</ZD> 

</RA>
</ST>
<ST>


<FI>
<F>dati blagoslov</F>
</FI>


<RA> 
<ZD>Javnost je presene~ena nad tem, kako se je patriarh pred kamerami 
dr`avne tv klanjal Milo{evi~u in njegovi `eni, ~eprav je komaj pred nekaj 
meseci dvakrat sprejel opozicijske voditelje in jim dal blagoslov za strmoglavljenje 
Milo{evi~evega re`ima</ZD> 
<ZD>Pete Sampras pa je tik preden je odpotoval iz New Yorka dal 
blagoslov Leveringovi za McEnroejevo imenovanje</ZD> 

</RA>
</ST>
<ST>


<FI>
<F>dobiti blagoslov</F>
</FI>


<RA> 
<ZD>Ta prizor so morali posneti devetnajstkrat, preden je dobil blagoslov 
cenzorjev</ZD> 
<ZD>Prodajalec da modem XY na atestiranje in dobi blagoslov</ZD> 
<ZD>[ele ko so na razli~nih uradih preverili in ugotovili, da je pri nas mir, 
je le dobil blagoslov za odhod</ZD> 

</RA> 

</ST> 
</FR> 
</SM> 


16 Vojko Gorjanc, Simon Krek in Polona Gantar 

<SM> 
<IN>(sre~a, korist)</IN> 
<KO>[pravi]</KO> 

<RA> 
<ZD>ker ste `ivahne in brezskrbne narave, ste za svoje doma~e pravi 
blagoslov</ZD> 
<ZD>Toplina, ki jo iz`arevate, je pravi blagoslov za tiste, ki nenehno tarnajo 
in vidijo vse ~rno</ZD> 
<ZD>Spoznali boste, da je pravi blagoslov, ~e imate veliko znancev in prijateljev</
ZD> 
<ZD>O, zdravje, zdravje! Blagoslov bogatih! Bogastvo revnih!</ZD> 
<ZD>Razglasitev za lepotno kraljico je bila zame hkrati blagoslov in prekletstvo</
ZD> 

</RA> 
</SM> 
<SM> 

<IN>(obred)</IN>
<KO>[opraviti]</KO>
<KO>[konj, ognja cerkve, prostorov]</KO>


<RA> 
<ZD>Na Gomilskem `elijo, da bi blagoslov konj postal spet tradicija</ZD> 
<ZD>Na veliko soboto je najpomembnej{i blagoslov ognja, vode in 
jedi</ZD> 
<ZD>Ob~inski praznik je bil prilo`nost za sve~ano otvoritev in blagoslov 
novih prostorov ob~ine [entjernej</ZD> 
<ZD>Slovesna ma{a bo ob 11. uri, blagoslov pa dobri dve uri 
kasneje</ZD> 
<ZD>Ma{no daritev in blagoslov je opravil {en~urski `upnik</ZD> 
<ZD>V Tibetu je v navadi, da vernik po blagoslovu v znak hvale`nosti 
izro~i prostovoljno daritev</ZD> 
<ZD>vsak blagoslov je hvaljenje Boga in pro{nja za dose`enje njegovih 
darov</ZD> 

</RA> 
<FR> 

<ST>
<FI>
<KO>[nesti, nositi]</KO><F>k blagoslovu</F>
</FI>


<RA> 
<ZD>na Vipavskem so vsi ~lani dru`ine nesli k blagoslovu vsak svojo olj~no 
vejico</ZD> 
<ZD>V vseh slovenskih pokrajinah nosijo k blagoslovu jajca, ki jih imenujejo 
tudi pisanice</ZD> 
<ZD>`e tiso~letje so domorodci v cerkev nosili k blagoslovu poljsko cvetje 
in zeli{~a</ZD> 

</RA> 

</ST> 
</FR> 
</SM> 
</GS> 

Zgled 7: Izto~nica blagoslov v leksikalni podatkovni zbirki. 


Slovenska leksikalna podatkovna zbirka 17 

5 Sklep 

Predstavljena ideja oblikovanja slovenske leksikalne podatkovne zbirke temelji na 
izku{njah pri analizi korpusa FIDA za pripravo splo{nih malih dvojezi~nih slovarjev 
DZS s slovenskim izhodi{~em in metodologiji korpusne analize ter hranjenja korpusno 
induciranih podatkov v leksiklani podatkovni zbirki, oblikovani v okviru ciljnega 
raziskovalnega projekta »Zasnova na korpusu temelje~ih slovarskih in slovni~
nih opisov slovenskega jezika«. Oblikovanje take podatkovne zbirke utemeljujemo 
z dejstvom, da obstoje~i slovarji slovenskega jezika ne predstavljajo realnega 
jezika danes, hkrati pa so tudi metodolo{ko zastareli. 

Predlog oblikovanja leksikalne podatkovne zbirke za sloven{~ino temelji na analizi 
realnega jezika, kot mu lahko sledimo s pomo~jo referen~nega pisnega Korpusa slovenskega 
jezika FIDA. Nabor izto~nic je narejen na podlagi korpusne liste besed, ki 
je osnova za nadaljnjo analizo posameznih leksikalnih enot. Izhodi{~no vodilo je v 
leksikalni zbirki prikazati aktualno stanje sloven{~ine na leksikalni ravni: obstoj leksikalnih 
enot, njihovo dejansko obliko in pomen ter tipi~no ubesediljenje. Poseben 
poudarek velja registraciji razli~nih vrst besedne povezovalnosti: kolokacije, skladenjski 
vzorci, pomensko netransparentne zveze in idiomi. Ob tem pa v podatkovni 
zbirki z zgledi rabe glede na dejansko `ivljenje leksikalne enote v sloven{~ini 
nenehno opozarjamo na leksikalno variantnost. 

Pri poskusni izdelavi posameznih izto~ni~nih ~lankov podatkovne zbirke so se testirale 
tudi razli~ne metode korpusne analize za sloven{~ino. Za hranjenje podatkov se 
je oblikoval celovit sistem vklju~evanja leksikalno relevantnih podatkov v podatkovno 
zbirko, njihove hierarhiziranosti in medsebojne povezanosti. Vse to omogo~a 
odlo~itev, da podatkovna zbirka nastaja v formatu XML/SGML, ki omogo~a tudi 
trajno hranljivost, uporabnost v razli~nih okoljih, predvsem pa zaradi velike strukturiranosti 
podatkov prepoznavanje posameznih segmentov leksikalne zbirke. 

Pri nadgrajevanju na~el oblikovanja leksikalne podatkovne zbirke bodo v prihodnje 
uporabljeni novi podatki o slovenskem jeziku, pridobljeni iz korpusa FidaPLUS 
(http://www.fidaplus.net), ob tem pa se bodo preizku{ala tudi nova orodja za korpusno 
analizo, predvsem orodje, ki ga uporabljajo pri analizi ~e{kega in slova{kega korpusa, 
tj. konkordan~nik Bonitio. Glede na razpolo`ljiva finan~na sredstva za tovrstne projekte 
bodo preu~ene tudi mo`nosti uporabe komercialnih leksikografskih programov 
za hranjenje podatkov v podatkovni zbirki, ki so danes `e zelo zmogljivi, a za manj{e 
projekte v slovenskem prostoru zaenkrat pomenijo preveliko finan~no breme. 

Korpusa 

Korpus slovenskega jezika FIDA. URL: <http://www.fida.net>
.
Korpus FidaPLUS (poskusna verzija). URL: <http://www.fidaplus.net>
.


Literatura 

Algeo, John, 1990: Dictionaries as seen by the educated public in Great Britain and the 
USA. Hausmann, F. et al. (ur.): Wörterbücher. Ein internationales Handbuch zur 
Lexikographie. Berlin: de Gruyter. 28–34. 


18 Vojko Gorjanc, Simon Krek in Polona Gantar 

Béjoint, Henri, 2000: Modern Lexicography. An Introduction. Oxford: Oxford University 
Press. 

Biber, Douglas, Conrad, Susan in Reppen, Randi, 1998: Corpus Linguistics. Investigating 
Language Structure in Use. Cambridge: Cambridge University Press. 

Crystal, David, 1997: The Cambridge Encyclopedia of Language. 2nd edition. Cambridge: 
Cambridge University Press. 

^ermák, Franti{ek in Holub, Jan, 1982: Syntagmatika a paradigmatika ~eského slova I. 
Valence a kolokabilita. Praha: Statní pedagogické nakladatelství. 

^ermák, Franti{ek, Klímová, Jana, Pala, Karel in Petkevi~, Vladimír, 2001: The Design of 
Czech Lexical Database. Rayson, P., Wilson, A., McEnery, T., Hardie, A. in Khoja, S. (ur.): 
Proceedings of the Corpus Linguistics 2001 conference. Lancaster: Lancaster University. 
119–125. 

^ermák, Franti{ek, 2002: Today’s corpus linguistics. Some open questions. International 
journal of corpus linguistics 7/2. 265–282. 

Firth, John Rupert, 1951: Modes of Meaning. Essays and Studies 4. Ponatisnjeno v Firth, J. 
R., 1957: Papers in Linguistics 1934–51. London: Oxford University Press. 

Fischer, Ute, 1994: Learning Words from Context and Dictionaries: An Experimental 
Comparison. Applied Psycholinguistics 15/4. 551–574. 

Fontenelle, Thierry, 1997: Turning a Bilingual Dictionary into a Lexical-Semantic Database. 
Tübingen: Max Niemeyer Verlag. 

Gabrov{ek, Du{an, 1998: Coping with Stubborn Stains and Persistent Headaches – for What 
It’s Worth: Word Combinability in Action. Vestnik 32/1–2. 111–154. 

Gantar, Polona, 2003: Stalnost in spremenljivost frazema v slovarju. Vidovi~ Muha, Ada in 
Gajda, S. (ur.): WspóJczesna polska i sJoweUska sytuacja jbzykowa/Sodobni jezikovni polo`aj 
na Poljskem in v Sloveniji. Opole. Uniwersytet Opolski, Instytut Filologii Polskiej in 
Univerza v Ljubljani, Filozofska fakulteta. 209–224. 

Gantar, Polona, 2004: Frazem in njegovo besedilno okolje. Doktorska disertacija. Ljubljana: 
Univerza v Ljubljani, Filozofska fakulteta. 

Gorjanc, Vojko in Krek, Simon, 2001: A corpus-based dictionary database as the source for 
compiling Slovene-X dictionaries. Proceedings of the COMPLEX 2001 6th Conference on 
Computational Lexicography and Corpus Research. Birmingham. 41–47. 

Gorjanc, Vojko in @ele, Andreja, 2002: Compound dictionary entries (the case of Slovene 
noun phrases). Braasch, A. in Povlsen, P. (ur.): EURALEX 2002: proceedings of the Tenth 
EURALEX international congress, Copenhagen, Denmark, August 13–17, 2002. 
Copenhagen: Center for Sprogteknologi. 607–614. 

Gorjanc, Vojko, 2004: Politi~na korektnost in slovarski opisi sloven{~ine – zgolj modna 
muha? Stabej, Marko (ur.): Moderno v slovenskem jeziku, literaturi in kulturi. 40. seminar 
slovenskega jezika, literature in kulture. Ljubljana: Center za sloven{~ino kot drugi/tuji jezik 
pri Oddelku za slovenistiko Filozofske fakultete. 153–161. 

Gorjanc, Vojko in Jurko, Primo`, 2004: Kolokacije in u~enje tujega jezika. Jezik in slovstvo 
49/3–4. 49–62. 

Hausmann, Franz Josef, 1989: Le dictionaire de collocations. Hausmann, F. J., Reichmann, O., 
Wiegand, H. E., Zgusta, L. (ur.): Wörterbücher (3 zvezki). Berlin: Walter de Gruyter. 1010–1019. 


Slovenska leksikalna podatkovna zbirka 19 

Hill, Jimmie, 2000: Revising priorities: From grammatical failure to collocational success. 
Lewis, Michael (ur.): Teaching Collocation. Further Developments in the Lexical. Hove: LTP. 
47–69. 

Jurko, Primo`, 1997: Towards a cline of difficulty of lexical collocations: Slovene–English. 
Vestnik 31/1–2. 220–237. 

Krek, Simon, 2003: Sodobna dvojezi~na leksikografija. Jezik in slovstvo 49/2. 3–16.
Kr`i{nik Kol{ek, Erika, 1987: Prenovitev kot inovacijski postopek. Slava. 49–56.
Lewis, Morgan, 2000: There is nothing as practical as a good theory. Lewis, M. (ur.)
:


Teaching Collocation. Further Developments in the Lexical Approach. Hove: LTP. 10–27. 
Manning, Christoper in Schütze, Hinrich, 1999: Foundations of Statistical Natural Language 
Processing. Cambridge MA: The MIT Press. 

Perko, Gregor, 2004: Razlo~evanje prevodnih ustreznic v dvojezi~nem uvezovalnem slovarju 
(predlogi za slovensko-francoski slovar). Doktorska disertacija. Ljubljana: Univerza v 
Ljubljani, Filozofska fakulteta. 

Sinclair, John, 1991: Corpus, Concordance, Collocation. Oxford: Oxford University Press. 

Suhadolnik, Stane, 1968: Koncept novega slovarja slovenskega knji`nega jezika. Jezik in 
slovstvo 13/7. 219–224. 

Vidovi~ Muha, Ada, 2000: Slovensko leksikalno pomenoslovje. Govorica slovarja. Ljubljana: 
Znanstveni in{titut Filozofske fakultete.