Informatica Medica Slovenica; 2022; 27(1-2) 1 
published by / izdaja SDMI  http://ims.mf.uni-lj.si/ 
 Izvirni znanstveni članek 
Mirza Tupkuši ć, Rok Blagus 
Preoptimisti čne ocene to čnosti napovednih modelov: 
ilustracija na primeru skupne uporabe tehnik 
vzor čenja in navzkrižnega preverjanja 
Povzetek. Napovedni modeli uporabljajo razli čne statisti čne metode za gradnjo pravil za uvrš čanje enot v 
posamezno skupino na podlagi u čnih podatkov. Podatki v praksi obi čajno niso primerni za postopek gradnje 
pravila, pa č pa jih je potrebno predprocesirati. Tak primer so neuravnoteženi podatki, kjer dobimo slabo 
napovedno to čnost za manjši razred, če se razvrš čanja lotimo naivno. Z razli čnimi popravki podatkov se da 
izboljšati to čnost napovednega modela. Toda pri tem je treba paziti, da delovanje razvrš čevalca oziroma njegovo 
točnost pravilno ovrednotimo, saj v primeru napa čnega ovrednotenja lahko pride do preoptimisti čne ocene 
točnosti napovednega modela. Ta problem podrobno razložimo in prikažemo dejavnike, ki vplivajo na 
preoptimizem pri ocenjevanju to čnosti napovednih modelov. Rezultate ilustriramo na razli čnih primerih, kjer 
uporabljamo razli čne mere napovedne to čnosti, razli čne metode za uravnoteženje podatkov ter razli čne načine 
navzkrižnega preverjanja. Rezultati lahko pomagajo razvijalcem napovednih modelov pri pravilnem ovrednotenju 
dejanske napovedne mo či modela oziroma pri razumevanju in kriti čnemu ovrednotenju, ali je bila ocena 
napovedne mo či modela izvedena pravilno ali pa so rezultati zaradi napa čne izvedbe preoptimisti čni. 
Klju čne besede: napovedni model; neuravnoteženi podatki; navzkrižno preverjanje; preprileganje. 
Over-optimistic Assessment of the Performance of 
Prediction Models: An Illustration Based on the Joint 
Use of Sampling Techniques and Cross-Validation 
Abstract. Prediction models use various statistical methods for building classification rules to classify units into 
pre-specified groups based on the learning data. In practice, the data are often not suitable for the chosen procedure 
and they need to be pre-processed before training the classifier. An important example are imbalanced data where 
the naïve approach can lead to poor accuracy for the minority class. Many data augmentation approaches have 
been developed to alleviate this issue. However, when using these techniques, one needs to be careful to correctly 
evaluate the performance of the classifier in terms of its predictive accuracy, because incorrect evaluation can lead 
to an overly optimistic estimate of the classifier’s performance. We explain in detail why this happens and showcase 
the different contributing factors. The results are illustrated using various performance measures, various data 
augmentation techniques, and various cross-validation techniques. Our results can help the developers of 
prediction models to correctly evaluate predictive ability of the derived model, as well as to understand and critically 
appraise whether the predictive ability of the model was correctly estimated or the evaluation was too optimistic. 
Key words: prediction models; cross-validation; rare events; overfitting. 
 Infor Med Slov 2022; 27(1-2): 1-13 
 
Institucije avtorjev / Authors' institutions: Medicinska fakulteta, Univerza v Ljubljani (MT, RB); Fakulteta za šport, Univerza v Ljubljani (RB); 
FAMNIT, Univerza na Primorskem, Koper (RB). 
Kontaktna oseba / Contact person: izr. prof. dr. Rok Blagus, MF, IBMI, Vrazov trg 2, 1000 Ljubljana. E-pošta / E-mail: rok.blagus@mf.uni-lj.si. 
Prispelo / Received: 28. 11. 2022. Sprejeto / Accepted: 24. 12. 2022. 
2 Tupkuši ć et al.: Preoptimisti čne ocene to čnosti napovednih modelov 
izdaja / published by SDMI  http://ims.mf.uni-lj.si/ 
Uvod 
Napovedovanje lahko definiramo kot problem 
ocenjevanja in odlo čanja na podlagi znanih 
podatkov.
1
 V vsakdanjem življenju se vseskozi 
sre čujemo z nalogami ali vprašanji, na katera želimo 
odgovoriti čim bolj pravilno. Človeški odgovori so 
subjektivni, zato so lahko povsem napa čni. Zaradi 
tega postajajo ra čunalniško izdelani napovedni modeli 
(angl. prediction models) vse bolj priljubljeni, še zlasti na 
podro čju medicine,
2-7
 pogosto pa se uporabljajo tudi 
na drugih podro čjih, npr. v trženju in strojništvu.
8
 V 
klini čnih raziskavah nas pogosto zanima verjetnost ali 
napoved, da bo pacient zbolel za dolo čeno boleznijo, 
kako se bo odzval na zdravljenje ipd. Podobno velja 
na drugih podro čjih, npr. za odliv strank iz podjetja ali 
čas do okvare stroja. V medicini so napovedni modeli 
posebej pomembni v okviru presejalnih programov za 
zgodnje odkrivanje dolo čene bolezni,
9
 na primer raka. 
Gradnjo oziroma razvoj napovednih modelov 
razdelimo v tri faze: 
■ faza 1: priprava podatkov; 
■ faza 2: gradnja/u čenje razvrščevalca; 
■ faza 3: preverjanje to čnosti razvrš čevalca. 
V prvi fazi pripravimo podatke za izgradnjo modela 
oziroma za u čenje razvrš čevalca (angl. classifier). 
Gradnjo razvrš čevalca pogosto otežuje narava 
zbranih podatkov: v podatkih se lahko pojavljajo 
manjkajo če vrednosti, napake, osamelci, veliko število 
spremenljivk itd. V tem članku se bomo osredoto čili 
na pogost problem, ko so podatki v dveh razredih 
neuravnoteženi (angl. unbalanced data),
10-12
 se pa 
podobne težave pojavijo tudi v primeru 
nadomeš čanja manjkajo čih podatkov, izlo čanja 
osamelcev iz podatkov, izbire spremenljivk za analizo 
ipd. O neuravnoteženih podatkih govorimo, ko se 
število enot med razredoma razlikuje. Na podro čju 
medicine je obi čajno število pacientov z dolo čeno 
boleznijo veliko manjše kot število zdravih ljudi; 
podobno je število strank, ki ostanejo v podjetju, 
praviloma veliko ve čje od števila strank, ki podjetje 
zapustijo. Razred z ve čjim številom enot imenujemo 
ve činski razred (angl. majority class), razred z manjšim 
številom enot pa manjšinski razred (angl. minority class).  
Gradnja napovednega modela na podlagi 
neuravnoteženih podatkov je problemati čna 
predvsem zaradi slabe napovedne to čnosti v 
manjšinskem razredu.
12
 Preprosto povedano, do tega 
pride, ker se razvrš čevalcu, ki želi minimizirati celotno 
napako, izpla ča osredotočiti na ve činski razred, 
posledica pa je slaba to čnost za manjšinski razred. 
Mogo ča rešitev tega problema, ki dokazano deluje 
dobro, so razli čne metode za uravnoteženje 
razredov.
10,13-17
 Tovrstne metode izboljšajo 
napovedano to čnost modela v manjšinskem razredu 
tako, da zmanjšajo neravnotežje v podatkih ali pa da 
celo izenačijo število enot v ve čjem in manjšem 
razredu.
13
 K temu lahko pristopimo na več na činov. 
Razreda lahko uravnotežimo z ve čanjem števila enot 
v manjšinskem razredu (angl. oversampling), 
zmanjševanjem števila enot v ve činskem razredu 
(angl. undersampling) ali kombinacijo teh dveh 
pristopov.
10,13
 Ko smo kon čali prvo fazo 
uravnoteženja podatkov, lahko pristopimo k fazi 
u čenja. Enote, za katere poznamo pripadnost razredu, 
uporabimo za izgradnjo modela ali razvrš čevalca, na 
podlagi katerega bomo uvrš čali nove enote.
1
 Obstaja 
množica razli čnih razvrš čevalcev.
18
 V ilustraciji bomo 
uporabili grebensko regresijo (angl. ridge regression),
19-23
 
so pa ugotovitve splošne in v podobni meri veljajo 
tudi za druge razvrš čevalce. Ko razvrš čevalec 
izgradimo in s tem kon čamo drugo fazo, bi seveda 
radi ovrednotili njegovo to čnost oziroma ocenili 
njegovo napako. Na voljo so razli čne mere točnosti.
24
 
Pri izbiri ustrezne mere to čnosti moramo biti 
previdni, še posebej, ko imamo opraviti z 
neuravnoteženimi podatki.
25
 V ilustraciji bomo 
uporabljali ploš čino pod krivuljo ROC
26
 (mero 
AUC),
24,27
 točnost za manjšinski in ve činski razred, 
njuno geometrijsko sredino ( 𝐺 -povpre čje)
28
 ter mero 
𝐹 , ki se pogosto uporabljajo v tem kontekstu. Idealno 
bi se to čnost razvrš čevalca ovrednotila na (veliki) 
neodvisni tesni množici,
1,18
 ki pa v praksi pogosto ni 
dostopna. Za preverjanje to čnosti razvrš čevalca se 
zato pogosto uporabi navzkrižno preverjanje s k 
pregibi (angl. k-fold cross-validation – CV) oziroma 
njegova razli čica navzkrižno preverjanje z izpustitvijo 
ene enote (angl. leave-one-out CV – LOOCV), za katero 
velja 𝑘 = 𝑢 , kjer je 𝑢 velikost u čne množice. Pisali 
bomo 𝑢 = 𝑚 + 𝑣 , kjer je 𝑚 število enot v 
manjšinskem razredu, 𝑣 število enot v ve činskem 
razredu in velja 𝑚 < 𝑣 . 
Problem napa čnega ovrednotenja to čnosti 
napovednih modelov v razli čnih kontekstih (npr. v 
kontekstu izbire spremenljivk v prvi fazi) je znan.
29,30
 
Raziskave kažejo na nujnost pravilnega ovrednotenja 
točnosti delovanja razvrš čevalcev: v primeru 
napa čnega ovrednotenja je delovanje napovednega 
modela lahko slabše ali boljše, kot je predstavljeno. V 
članku bomo ilustrirali, kakšen je vpliv napa čne 
uporabe navzkrižnega preverjanja na oceno to čnosti 
napovednega modela ob uporabi razli čnih pristopov 
za uravnoteženje podatkov. Pokazali bomo, da 
napa čna uporaba navzkrižnega preverjanja vodi do 
precenjenih mer to čnosti, in prikazali razli čne 
dejavnike, ki na to vplivajo. Rezultati so pomembni, 
ker je bilo doslej objavljenih precej člankov, kjer je 
Informatica Medica Slovenica; 2022; 27(1-2) 3 
published by / izdaja SDMI  http://ims.mf.uni-lj.si/ 
bilo navzkrižno preverjanje izvedeno napa čno (npr. v 
kombinaciji s prevzor čenjem
31-33)
, objavljene mere 
točnosti pa so posledi čno preoptimisti čne. Podobno 
tematiko smo že obravnavali,
34
 s to razliko, da se 
tokrat bolj osredoto čamo na oris in pomembnost 
posameznih dejavnikov, ki vplivajo na preoptimizem 
zaradi napa čne uporabe navzkrižnega preverjanja, 
manj pa na pojasnjevanje razlogov, zakaj do tega 
pride. V pri čujo čem članku obravnavamo tudi 
razli čne mere to čnosti, ki jih v prvotnem
34
 nismo. 
V nadaljevanju najprej predstavimo uporabljene 
metode, kjer na kratko orišemo razli čne pristope za 
uravnoteženje podatkov, uporabljeni razvrš čevalec in 
mere to čnosti. Sledi ilustracija, kjer prikažemo vpliv 
razli čnih dejavnikov na precenjenost ocene to čnosti 
napovednega modela. Članek zaklju čimo s kratkim 
povzetkom klju čnih ugotovitev. 
Metodologija 
V nadaljevanju bolj podrobno predstavljamo metode, 
ki jih kasneje v ilustraciji uporabljamo v posameznih 
fazah razvoja napovednega modela. 
Metode za uravnoteženje razredov 
V ilustraciji bomo uporabili tri razli čne metode 
uravnoteženja razredov. Pri naklju čnem prevzor čenju 
(angl. random oversampling) naklju čno s ponavljanjem 
izberemo 𝑛≤𝑣−𝑚 e n o t i z m a n j š e g a r a z r e d a , 
izbrane enote kopiramo in jih dodamo v nabor 
podatkov.
35
 Tako se manjšinski razred pove ča za 𝑛 
neinformativnih enot, popolnih kopij prvotnih enot iz 
manjšinskega razreda. Metoda prevzorčenja torej 
uravnoteži razrede z znanimi enotami, zato 
uravnoteženi podatki ne nosijo nobene dodatne 
informacije kot izvorni, so le (umetno) uravnoteženi. 
Posledi čno so lahko ob uporabi napa čnega pristopa 
navzkrižnega preverjanja iste enote uporabljene v fazi 
u čenja in preverjanja točnosti razvrš čevalca in zato 
zaradi problema preprileganja (angl. overfitting
18
) 
dobimo preoptimisti čno oceno točnosti. O 
preprileganju na primer govorimo, ko je v fazi 
preverjanja to čnosti razvrš čevalca vrednost AUC 
velika, a je uspešnost razvrš čevalca na neznanih 
(novih) podatkih mnogo slabša. 
Pri naklju čnem podvzor čenju (angl. random 
undersampling) naklju čno (obi čajno brez ponavljanja) 
izberemo 𝑛≤𝑚 e n o t i z v e činskega razreda.
12
 
Izbrane enote ve činskega razreda združimo z enotami 
manjšinskega razreda v novi podatkovni okvir. Na tak 
na čin ostane število enot v manjšinskem razredu 
nespremenjeno, število enot v ve činskem razredu pa 
je za 𝑣−𝑛 manjše. Posledi čno v fazi u čenja 
razvrš čevalca lahko izpustimo pomembno 
informacijo, ki se nanaša na ve činski razred, kar se 
lahko odrazi v slabši napovedni to čnosti v ve činskem 
razredu. Izgubo informacije se lahko omili z 
ve čkratnim naklju čnim podvzor čenjem, kar lahko 
bistveno pove ča točnost razvrš čevalca,
12
 a za namen 
naše analize to ni zelo pomembno, zato tega ne bomo 
podrobneje obravnavali. Metoda podvzor čenja 
uravnoteži razrede z izgubo informacije, zato so 
uravnoteženi podatki manj informativni kot izvorni. 
Toda ker nobena enota ni podvojena, do problema 
preprileganja, ki nastopi pri naklju čnem prevzor čenju, 
pri naklju čnem podvzor čenju ni. Bi pa do podobnega 
problema vseeno prišlo, če so enote, ki se jih obdrži v 
ve činskem razredu, izbere sistemati čno
36,37
 (s tem se 
podrobneje ne bomo ukvarjali). 
SMOTE (angl. Synthetic Minority Oversampling Technique) 
je metoda kjer se hkrati podvzorči in prevzor či, pri 
čemer se pri prevzor čenju tvorijo sintetični podatki za 
manjšinski razred (v primarni definiciji je metoda 
SMOTE vezana le na sinteti čno prevzor čenje, vendar 
obstaja ve č izvedb, med katerimi se bomo osredoto čili 
na kombinacijo prevzor čenja in podvzor čenja).
13
 S 
tvorjenjem sinteti čnih enot metoda SMOTE pomaga 
pri premagovanju problema preprileganja, a ga ne 
odpravi povsem. V manjšinskem razredu metoda 
naklju čno izbere eno enoto 𝑥 (angl. random minority), 
nato pa poiš če njenih 𝑔 najbližjih sosedov 𝑥 (angl. 
𝑔 -nearest neighbours
38
). Nato izračuna razdaljo med 
izbrano enoto in 𝑔 najbližjimi sosedi, na kateri 
naklju čno tvori eno ali ve č sinteti čnih enot 𝑥 , 
𝑥 = 𝑥 + 𝑟𝑎𝑛𝑑 0,1 𝑥
 −𝑥
 𝑖 =1 ,…, 𝑙 (1) 
kjer 𝑟𝑎𝑛𝑑 (0,1) ozna čuje naklju čno vrednost iz 
enakomerne porazdelitve na intervalu (0,1). Tako 
nove enote niso identi čne obstoje čim, pa č pa so 
njihove linearne kombinacije (slika 1). Med tvorbo 
novih sintetičnih enot metoda SMOTE lahko izvaja 
podvzor čenje.
13
 Postopek se kon ča, ko dosežemo 
želeno (ne)ravnotežje števila enot v manjšem in 
ve čjem razredu (običajno podatke povsem 
uravnotežimo). Ker nove (sinteti čne) enote niso 
popolnoma neodvisne od osnovnih enot (saj so 
tvorjene z uporabo informacij o osnovnih enotah), 
lahko seveda pride do problema preprileganja; o tem 
ve č kasneje. 
4 Tupkuši ć et al.: Preoptimisti čne ocene to čnosti napovednih modelov 
izdaja / published by SDMI  http://ims.mf.uni-lj.si/ 
 
Slika 1 Na čelo delovanja metode SMOTE (angl. Synthetic 
Minority Oversampling Technique). 
Navzkrižno preverjanje s k pregibi 
Navzkrižno preverjanje s k pregibi je ena izmed 
metod, ki jih lahko uporabimo za oceno razvrstitvene 
točnosti.
18
 V navzkrižnem preverjanju s k pregibi je 
podatkovni okvir razdeljen na k podmnožic (angl. 
folds): 𝑘− 1 podmnožic uporabljamo za gradnjo 
razvrš čevalca, eno podmnožica pa za oceno njegove 
točnosti. Podmnožice ustvarimo tako, da je število 
enot v vsaki podmnožici enako in je delež enot 
manjšinskega in ve činskega razreda v vsaki 
podmnožici enak kot v osnovni množici. 
Iterativni postopek ponovimo k-krat, tako je vsaka 
izmed k podmnožic enkrat uporabljena kot testna 
množica (slika 2).
24
 Navzkrižno preverjanje z 
izpustitvijo ene enote je skrajna razli čica navzkrižnega 
preverjanja s k pregibi: 𝑢− 1 enot uporabljamo za 
gradnjo razvrš čevalca, eno enoto pa uporabimo za 
preverjanje njegove to čnosti. Iterativni postopek 
ponovimo 𝑢 -krat, tako je vsaka enota enkrat 
uporabljena kot testna množica. Izvedba z izpustitvijo 
ene enote je seveda ra čunsko in časovno najbolj 
zahtevna. 
 
Slika 2 Navzkrižno preverjanje s k pregibi. 
Pri uporabi navzkrižnega preverjanja imamo dve 
možnosti, kako izračunati neko mero to čnosti. Prva 
možnost je, da to čnost izra čunamo za vsak pregib 
posebej in potem povpre čimo k tako dobljenih ocen. 
Druga možnost je, da vse napovedi združimo in mero 
točnosti izra čunamo zgolj enkrat. Katera izbira je 
pravilna je odvisno med drugim tudi od uporabljene 
mere to čnosti in je še vedno predmet razprave.
39
 
Zaradi primerljivosti med razli čnimi oblikami 
navzkrižnega preverjanja bomo uporabili drugo 
možnost (ki je v primeru LOOCV edina možnost, če 
želimo oceniti AUC), za katero je sicer znano, da vodi 
do pristranske ocene AUC in pravilne ocene mere 
F
1
;
39
 s podrobno primerjavo obeh pristopov se ne 
bomo ukvarjali. 
Pri skupni izvedbi navzkrižnega preverjanja in ene 
izmed metod uravnoteženja razredov moramo paziti, 
da oba postopka izvedemo pravilno. Če najprej 
uravnotežimo podatke, potem pa uporabimo 
navzkrižno preverjanje, smo slednje izvedli napačno 
(slika 3). Navzkrižno preverjanje je pravilno, če proces 
uravnoteženja podatkov izvedemo znotraj postopka 
navzkrižnega preverjanja. V pravilni izvedbi 
navzkrižnega preverjanja metode uravnoteženja 
razredov uporabljamo samo na u čni množici, kar 
pomeni, da moramo uravnoteženje razredov k-krat 
(oziroma v primeru LOOCV 𝑢 -krat) ponoviti 
(slika 3). 
Informatica Medica Slovenica; 2022; 27(1-2) 5 
published by / izdaja SDMI  http://ims.mf.uni-lj.si/ 
 
Slika 3 Napa čna (levo) in pravilna (desno) izvedba navzkrižnega preverjanja s k pregibi in naključnega prevzor čenja.
Razvrš čevalec 
Grebenska regresija
19
 je statistična metoda, s katero 
lahko izboljšamo to čnost napovedi z zmanjšanjem 
ocen parametrov (t. i. kr čenjem, angl. shrinkage).
23
 Z 
dodajanjem penalizacijske funkcije (angl. penalising 
function) spreminja oziroma zmanjša ocenjeno 
vrednost regresijskega koeficienta, s čimer poskušamo 
zmanjšati problem preprileganja. Splošni regresijski 
model lahko zapišemo v matri čni obliki kot 
𝒀 = 𝜷𝑿 + 𝒆 , kjer so 𝒀 izidi, 𝑿 napovedne 
spremenljivke, 𝜷 regresijski koeficienti, 𝒆 pa 
naklju čne napake.
18
 Regresijske koeficiente z 
grebensko regresijo dobimo tako, da rešimo 
optimizacijski problem 
𝛽 = 𝑎𝑟𝑔𝑚𝑖𝑛
 𝑦
 −𝛽
 −𝑥
 𝛽 + 𝜆𝛽
 (2), 
kjer je 𝜆 u g l a š e v a l s k i p a r a m e t e r . O p a z i m o , d a z a 
𝜆 =0 dobimo enako rešitev, kot če uporabljamo 
standardna orodja (denimo metodo najve čjega 
verjeta
40
), medtem ko za 𝜆 = ∞ vse ocene postavimo 
na ni č. Parameter 𝜆 se obi čajno dolo či s navzkrižnim 
preverjanjem.
41
 Če želimo zgornji model uporabiti za 
(binarno) razvrš čanje, moramo enotam dolo čiti 
vrednost izidov, 𝒀 . V našem primeru bomo enotam iz 
manjšinskega razreda določili vrednost 0, enotam iz 
ve činskega razreda pa vrednost 1 (lahko bi uporabili 
tudi obratno definicijo, rezultati pa bili enaki). Ko 
izberemo parameter 𝜆 in pridobimo ocene 
regresijskih koeficientov, lahko na podlagi teh ocen 
izra čunamo verjetnost dogodka, ki jo ozna čimo s 𝑝 ̂ . 
Za izračun nekaterih mer to čnosti (npr. AUC) lahko 
𝑝 ̂ uporabimo neposredno, medtem, ko moramo za 
izra čun drugih mer (npr. napovedne to čnosti) 
verjetnostno napoved spremeniti v napoved vrednosti 
0 ali 1 (ki jo ozna čimo z 𝑦 ), za kar lahko uporabimo 
pravilo 
𝑦 = 1 č𝑒 𝑝 ̂ 𝜏
0 č𝑒 𝑝 ̂ < 𝜏 (3), 
kjer je 𝜏 prag za uvrš čanje. Če velja 𝑝 ̂ = 𝜏 , enoto 
naklju čno uvrstimo v enega izmed razredov. Ker 
(podobno kot v obi čajni logisti čni regresiji) velja, da 
so ocenjene verjetnosti zgoščene okrog neravnotežja 
v učni množici, naivna uporaba 𝜏 =0 , 5 za 
neuravnotežene podatke praviloma ni ustrezna.
12
 V 
ilustraciji bomo zato kot prag za uvrš čanje uporabljali 
delež dogodkov na (uravnoteženi) u čni množici. 
Mere razvrstitvene to čnosti 
Za oceno točnosti razvrš čanja bomo izra čunali 
ploš čino pod krivuljo ROC (angl. area under the curve – 
AUC),
24
 𝐺 -povpre čje (angl. 𝐺 -mean) 
6 Tupkuši ć et al.: Preoptimisti čne ocene to čnosti napovednih modelov 
izdaja / published by SDMI  http://ims.mf.uni-lj.si/ 
𝐺 = 𝑇𝑃
𝑇𝑃 + 𝐹𝑁
 𝑇𝑁
𝑇𝑁 + 𝐹𝑃
 = 𝑃𝐴
 𝑃𝐴
  (4). 
kjer je 𝑇𝑃 število pravilno uvrščenih enot iz 
manjšinskega razreda, 𝐹𝑁 število napa čno uvrš čenih 
enot iz ve činskega razreda, 𝑇𝑁 število pravilno 
uvrš čenih enot iz ve činskega razreda, 𝐹𝑃 število 
napa čno uvrš čenih enot iz manjšinskega razreda, 
𝑃𝐴
 =
 in 𝑃𝐴
 =
 pa sta točnost za 
manjšinski in ve činski razred, ter mero 𝐹  
𝐹 =
2 𝑇𝑃
2 𝑇𝑃 + 𝐹𝑃 + 𝐹𝑁
  (5). 
Pri izra čunu AUC bomo uporabljali verjetnostno 
napoved 𝑝 ̂ , za izra čun ostalih mer pa bomo 
uporabljali 𝑦 , ki ga dobimo, kot je pojasnjeno zgoraj. 
Implementacija metod v programskem 
jeziku R 
Za izvedbo metode naklju čnega prevzor čenja 
uporabljamo funkcijo upSample(x, y, list = FALSE, 
yname = class) iz paketa caret, kjer je x matrika ali 
podatkovni okvir vrednosti enot za vsako 
spremenljivko, y indikatorska spremenljivka, ki dolo či 
pripadnost, in argument yname dolo či ime 
spremenljivke, ki nam pove pripadnost posamezne 
enote v izhodu funkcije. Funkcija dela enako, kot je 
opisano v razdelku o metodah za uravnoteženje 
razredov: razreda uravnotežimo z naklju čnim 
dodajanjem enot manjšinskega razreda s 
ponavljanjem v nabor podatkov. Za izvedbo 
naklju čnega podvzor čenja uporabljamo funkcijo 
downSample(x, y, list = FALSE, yname = class), 
iz paketa caret. Funkcija ima enake argumente kot 
funkcija za naklju čno prevzor čenje. Tudi ta funkcija 
deluje enako, kot je opisano zgoraj. Za izvedbo 
metode SMOTE uporabljamo funkcijo 
SMOTE(formula, data, perc.over = 100, k = 5, 
perc.under = 200, …) iz paketa DMwR. Z 
argumentom formula zapišemo napovedni model, z 
argumentom data podamo orginalni neuravnoteženi 
podatkovni okvir, z argumentom perc.over 
definiramo število dodanih sinteti čnih enot, z 
argumentom k definiramo število najbližjih sosedov, 
z argumentom perc.under pa definiramo število 
izbrisanih enot v ve činskem razredu. Funkcija 
vrednosti perc.over in perc.under deli s 100, 
dobljeni vrednosti pa dolo čita, koliko novih enot v 
vsaki ponovitvi dodamo in odstranimo. Za vpogled v 
ostale parametre, ki jih lahko nastavimo v funkciji, 
priporo čamo pregled dokumentacije paketa DMwR. 
Za ogled izvorne kode priporo čamo ogled funkcije 
SMOTE(form, data, perc.over = 200, k = 5, 
perc.under = 200, learner = NULL, …) in 
smote.exs(data, tgt, N, k) na spletu 
(https://rdrr.io/cran/DMwR/src/R/smote.R). Funkcijo 
smo uporabili na dva na čina: pri prvem na činu smo 
uporabili perc.over = 100, perc.under = 200; pri 
drugem pa perc.over = 400, perc.under = 100. 
Za u čenje razvrš čevalca, ki smo ga predstavili 
istoimenskem razdelku, uporabljamo funkcijo 
glmnet(x, y, alpha = 0, lambda, …) iz paketa 
glmnet. Z argumentom x definiramo matriko 
neodvisnih spremenljivk, z y definiramo odzivno 
(indikatorsko) spremenljivko in z argumentom 
lambda nastavimo vrednost parametra λ. Optimalno 
vrednost parametra λ dolo čimo s pomo čjo funkcije 
cv.glmnet(x, y, alpha = 0, nfolds = 10, …), ki 
dolo či optimalno vrednost na podlagi navzkrižnega 
preverjanja z 10 pregibi; ostali vhodni argumenti, x, y 
in alpha, so enaki kot pri funkciji glmnet. Za izra čun 
napovedi uporabimo funkcijo predict(ovject, s, 
newx, type, …) iz paketa stats. Z argumentom 
object dolo čimo model, za katerega želimo izra čunati 
napovedi, argument s dolo ča optimalno vrednost λ, 
argument newx dolo ča vrednosti napovednih 
spremenljivk in z argumentom type dolo čimo tip 
izhoda, ki ga vrne funkcija (v našem primeru je to 
ocenjena verjetnost dogodka). AUC izra čunamo s 
pomo čjo funkcije auc() iz paketa pROC, meri 𝐺 in 
𝐹 mero pa izra čunamo po zgoraj predstavljeni 
definiciji. Navzkrižno preverjanje s k pregibi in z 
izpustitvijo ene enote smo sprogramirali sami, kot je 
opisano v razdelku o navzkrižnem preverjanju. 
Ilustracija 
Za primer naklju čnega prevzor čenja lahko 
izra čunamo verjetnost, da je enota iz manjšega razreda 
hkrati vklju čena v u čno in testno množico, če 
navzkrižno preverjanje izvedemo napa čno ( če 
navzkrižno preverjanje izvedemo pravilno, je ta 
verjetnost seveda ni č, enako pa velja tudi za primer, 
ko uporabimo naklju čno podvzor čenje, tudi če 
navzkrižno preverjanje izvedemo napa čno, kar smo že 
pojasnili). Verjetnost, da je ista enota vklju čena v u čno 
in testno množico, je odvisna od števila enot v 
podatkovnem okvirju, deleža enot, vklju čenih v testno 
množico 𝑝 , in deleža enot v manjšinski množici 
𝑝 =𝑚𝑢 ⁄ : 
𝑃 =1 −
 𝑢−𝑣 𝑚 ⁄
𝑢𝑝
 −𝑣 𝑚 ⁄
 𝑢− 1
𝑢𝑝
 − 1
 (6). 
Z manjšanjem deleža enot v manjši množici 𝑝 se 
verjetnost pove čuje (slika 4). Če imamo opravka z 
Informatica Medica Slovenica; 2022; 27(1-2) 7 
published by / izdaja SDMI  http://ims.mf.uni-lj.si/ 
neuravnoteženimi podatki (npr. 𝑝 =0 . 1 ), metoda 
prevzor čenja ve čkrat v podatkovni okvir doda veliko 
obstoje čih enot, zaradi česar se bolj pogosto zgodi, da 
imamo pri napa čnem navzkrižnem preverjanju v u čni 
in testni množici vključene iste enote. Če je delež enot 
v manjši množici blizu vrednosti 0,5, metoda 
prevzor čenja v podatkovni okvir doda manjše število 
podvojenih enot, posledično se redkeje zgodi, da je v 
primeru napačnega navzkrižnega preverjanja ena 
enota vklju čena v u čno in testno množico hkrati. Z 
manjšanjem deleža enot v testni množici 𝑝 se 
verjetnost pove čuje (slika 4). To pomeni, da se 
verjetnost pove čuje z ve čanjem števila podmnožic 𝑘 
pri navzkrižnem preverjanju. Posledi čno ima 
navzkrižno preverjanje z izpustitvijo ene enote, ki 
predstavlja skrajni primer navzkrižnega preverjanja s 
𝑘 pregibi ( 𝑘 = 𝑢 ), pri vsakem številu enot 𝑛 in 𝑝 
vedno največjo verjetnost. Na omenjeno verjetnost 
lahko vplivamo tudi s številom enot v podatkih, pri 
čemer se z ve čanjem števila enot se verjetnost 
zmanjšuje. Ko za prevzor čenje uporabljamo metodo 
SMOTE, je verjetnost, da bo ista enota vklju čena v 
testni in u čni množici, seveda enaka ni č, vendar pa so 
lahko v primeru napa čne izvedbe navzkrižnega 
preverjanja v testni množici vključene podobne enote 
kot v u čni. Spomnimo, da z metodo SMOTE ne 
ustvarjamo kopij enot iz manjšinskega razreda, 
temve č njihove linearne kombinacije, te linearne 
kombinacije (novi sinteti čni podatki) pa vsebujejo tudi 
informacijo, ki je vklju čena v osnovnih podatkih, zato 
ti novi podatki nikakor niso neodvisni od prvotnih. 
 
Slika 4 Verjetnost, da je vsaj ena enota vklju čena v u čno 
in testno množico, v odvisnosti od deleža enot v 
manjšinskem razredu ( 𝑝 ). 
Čeprav sinteti čne enote niso identi čne prvotnim, je 
torej v primeru napa čne izvedbe navzkrižnega 
preverjanja v testni množici prisotna informacija, ki 
smo jo dobili neposredno iz u čne množice, kar lahko 
vodi do preprileganja in preoptimisti čne ocene. V 
nadaljevanju podrobneje ilustriramo, kakšen je vpliv 
napa čne izvedbe navzkrižnega preverjanja na 
(pre)optimisti čno oceno razli čnih mer točnosti.  
V ilustraciji uporabljamo podatke, ki smo jih simulirali 
neodvisno iz standardne normalne porazdelitve za vse 
enote iz u čne množice; odlo čitev o uporabi konkretne 
porazdelitve ni bistvena, podobne ugotovitve bi 
veljale tudi za druge porazdelitve. V simulaciji smo 
spreminjali število neodvisno generiranih 
spremenljivk 𝑝 , število enot 𝑁 , delež enot v manjšem 
razredu 𝑝 in delež enot v testni množici 𝑝 
(preko razli čne izbire števila pregibov 𝑘 =2 ,1 0 , 𝑢 v 
navzkrižnem preverjanju); podatke smo simulirali 
stokrat in rezultati, o katerih poro čamo, so povpre čeni 
čez 100 ponovitev. Naj poudarimo, da simuliramo na 
na čin, da med razredoma dejansko ni razlike: to čna 
vrednost AUC je enaka 0,5, 𝑃𝐴
 + 𝑃𝐴
 =1 in zato 
𝐺 = 𝑃𝐴
 (1 −𝑃 𝐴
 ) = 𝑃𝐴
 (1 −𝑃 𝐴
 ) in 
𝐹 =
 =
 ( ) . Če dobimo 
vrednosti, ki odstopajo od pravih, to čnosti 
napovednega modela nismo pravilno ovrednotili: če 
so ocene ve čje od pravih, smo delovanje napovednega 
modela precenili, če so manjše, pa podcenili. Če bi 
med razredoma obstajale razlike, bi bili zaklju čki 
podobni predstavljenim. 
Naj na tem mestu opomnimo, da smo pri izra čunu 
pravih mer to čnosti za našo ilustracijo predpostavljali 
zgolj, da je razvrščevalec neinformativen, torej tak, za 
katerega velja 𝑃𝐴
 + 𝑃𝐴
 =1 . To je (malenkost) bolj 
splošna zahteva, kot če bi bil razvrš čevalec naklju čen, 
torej tak, za katerega velja 𝑃𝐴
 = 𝑃𝐴
 =1 2 ⁄ . 
Opazimo lahko, da je vsak naključen razvrš čevalec 
tudi neinformativen, ni pa vsak neinformativen 
razvrš čevalec tudi naklju čen. Ilustrirajmo to na 
primeru, ko se o razredu odlo čimo glede na met 
kovanca. V prvem primeru denimo, da je kovanec 
pošten (verjetnost grba je 12 ⁄ ), v drugem pa, da je 
verjetnost grba enaka 𝜋≠12 ⁄ . V prvem primeru bo 
seveda v povpre čju (!) veljalo (kot vemo iz osnov 
verjetnosti) 𝑃𝐴
 = 𝑃𝐴
 =1 2 ⁄ , v drugem pa 𝑃𝐴
 =
( 𝜋𝑚 ) 𝑚 ⁄ = 𝜋 in 𝑃𝐴
 = (1 −𝜋 )𝑣𝑣 ⁄ =1−𝜋. V 
obeh primerih gre za neinformativen razvrš čevalec, 
vendar pa je zgolj prvi razvrš čevalec tudi naklju čen. 
Ignoriranje problema neuravnoteženih 
razredov 
Najprej bomo prikazali, kaj se zgodi, ko zanemarimo 
problem neuravnoteženih razredov, torej izpustimo 
prvo fazo gradnje napovednega modela. Ilustracija se 
nanaša na primer, ko spreminjamo delež enot v 
manjšem razredu: 𝑝 = 0,1, 0,2, … , 0,5. Ostali 
8 Tupkuši ć et al.: Preoptimisti čne ocene to čnosti napovednih modelov 
izdaja / published by SDMI  http://ims.mf.uni-lj.si/ 
parametri so nastavljeni na 𝑁 = 300 in 𝑝 = 1000. 
Rezultati so prikazani na sliki 5. 
Vrednosti 𝐺 -povpre čja in mere 𝐹 so enake pravim 
vrednostim, saj v tretji fazi nismo naredili nobene 
napake, zaradi katere bi prišlo do preoptimisti čnih 
ocen. Za razliko od 𝐺 -povpre čja in mere 𝐹 pa so 
ocenjene vrednosti AUC ob uporabi LOOCV 
premajhne, do česar pride zaradi napake, ki smo jo 
naredili, ko smo združevali ocene razli čnih pregibov. 
Ko smo združili napovedane verjetnosti v 
posameznih pregibih, smo namre č združili 
nezdružljive ocene: združili smo ocene, ki so bile 
pridobljene na u čnih množicah z razli čnimi 
neravnotežji (neravnotežje je seveda druga čno, ko 
izpustimo enoto iz manjšinskega oziroma večinskega 
razreda). Ko uporabljamo 𝑘 =2 in 𝑘 =1 0 , do tega 
problema seveda ne pride, ker pregibe ustvarjamo 
tako, da je neravnotežje ves čas enako. Če bi pri 
izra čunu AUC uporabljali napovedani razred ( 𝑦 ) in ne 
ocenjene verjetnosti ( 𝑝 ̂ ), bi bila tudi ob uporabi 
LOOCV za vsak 𝑝 AUC pravilno ovrednotena 
(bila bi enaka 0.5). To je tudi razlog, zakaj sta 𝐺 -
povpre čje in mera 𝐹 pravilno ocenjena tudi, če 
uporabimo LOOCV. 
 
Slika 5 Navzkrižno preverjana to čnost razvrš čevalca za razli čna neravnotežja v podatkih ( 𝑝 ). 
Pojasnimo ta problem bolj podrobno na primeru, ko 
velja 𝜆 = ∞ (dejansko so bile pri nas ocenjene 
vrednosti za 𝜆 zelo velike, kar je pri čakovano, saj to 
pomeni, da model pravilno ugotovi, da spremenljivke 
niso pomembne za pojasnjevanje izida). V tem 
primeru je namre č ocenjena verjetnost to čno enaka 
deležu dogodkov v u čni množici.
23
 To pomeni, da je 
enaka 𝑝 ̂ = 𝑣 (𝑣− 1) ⁄ za vse enote iz manjšinskega 
razreda (ki ga kodiramo z vrednostjo 0 – nedogodek) 
in 𝑝 ̂ = (𝑣− 1)( 𝑢− 1) ⁄ za vse enote iz ve činskega 
razreda (ki ga kodiramo z 1 – dogodek). Opazimo, da 
velja 𝑝 ̂ > 𝑝 ̂ : vse enote iz manjšega razreda so 
rangirane višje od enot iz ve čjega razreda (imajo ve čjo 
verjetnost, da spadajo v ve činski razred), zato je AUC 
enaka ni č (spomnimo se interpretacije AUC: to je 
verjetnost, da bo razvrš čevalec naklju čno izbran 
dogodek rangiral višje kot nedogodek
24
). Če ocenjeno 
verjetnost spremenimo v razred, opazimo, da vsako 
enoto popolnoma naklju čno uvrstimo v enega izmed 
razredov (ena čba 3), posledi čno je AUC (v 
povpre čju!) enaka 0,5 in do problema podcenjene 
AUC ne pride. 
Odvisnost preoptimisti čne ocene od deleža 
enot v manjšem razredu 
Vsi parametri se enaki kot v prejšnjem primeru 
( 𝑁 = 300, 𝑝 = 1000, 𝑝 = 0,1, 0,2, … , 0,5), le 
da tu uporabimo eno od treh predstavljenih metod za 
uravnoteženje podatkov ter primerjamo rezultate 
pravilne in napa čne uporabe navzkrižnega 
preverjanja. Na sliki 6 smo prikazali razliko med 
pravilno in napa čno izvedbo navzkrižnega preverjanja 
s 𝑘 pregibi ( 𝑘 =2 ,1 0 in 𝑢 ), ob uporabi razli čnih 
metod za uravnoteženje podatkov, pri različni 
vrednosti deleža enot v manjšinskem razredu. V 
primeru pravilne izvedbe navzkrižnega preverjanja so 
vse mere pravilno ocenjene. Zanimivo, opazimo, da 
do podcenjenega AUC v primeru uporabe LOOCV v 
tem primeru ne pride. V kolikor uporabimo napa čno 
navzkrižno preverjanje v kombinaciji s 
podvzor čenjem, potem sta AUC in 𝐺 -povpre čje 
ocenjena pravilno; izjema je AUC ob uporabi 
LOOCV, o razlogih za to pa smo govorili že v 
prejšnjem primeru.
Informatica Medica Slovenica; 2022; 27(1-2) 9 
published by / izdaja SDMI  http://ims.mf.uni-lj.si/ 
 
Slika 6 Navzkrižno preverjana to čnost razvrš čevalca v visokorazsežnem prostoru za različne velikosti manjšinskega razreda 
ob skupni uporabi razli čnih metod za uravnoteženje podatkov in razli čnih izvedb navzkrižnega preverjanja.
Spomnimo, s podvzor čenjem v testno množico ne 
uvajamo nobene informacije iz u čne množice, zato je 
ta rezultat popolnoma pri čakovan. Kljub temu, pa je 
𝐹 mera precenjena. Pri vseh ostalih popravkih za 
uravnoteženje podatkov so v primeru napa čne 
uporabe navzkrižnega preverjanja (izrazito) 
precenjene, še posebej, ko je neravnotežje v podatkih 
ve čje. 
Odvisnost preoptimisti čne ocene od števila 
spremenljivk 
V tem delu spreminjamo število spremenljivk 𝑝 =
10, 100, 500, ostali parametri pa so 𝑁 = 500 in 
𝑝 =0 . 1 , rezultati so prikazani na sliki 7. Rezultati 
so zelo podobni kot v prejšnjem primeru, opazimo pa, 
da z ve čanjem števila spremenljivk ocene postajajo 
vedno bolj precenjene. Ko se število spremenljivk 
pove čuje, postaja problem preprileganja bolj izrazit, 
kar se v primeru napa čne izvedbe navzkrižnega 
preverjanja bolj pozna na preoptimisti čnih oceni 
točnosti delovanja razvrš čevalca. 
10 Tupkuši ć et al.: Preoptimisti čne ocene to čnosti napovednih modelov 
izdaja / published by SDMI  http://ims.mf.uni-lj.si/ 
 
Slika 7 Navzkrižno preverjana to čnost razvrš čevalca za razli čne velikosti manjšinskega razreda ob skupni uporabi razli čnih 
metod za uravnoteženje podatkov in različnih izvedb navzkrižnega preverjanja, ko je število enot ve čje od števila spremenljivk. 
Odvisnost preoptimisti čne ocene od števila 
enot 
Tu spreminjamo število 𝑁 = 300, 500, 1000, ostala 
parametra pa sta 𝑝 = 500 in 𝑝 =0 , 1 . Rezultati so 
prikazani na sliki 8. Podobno kot v prejšnjem primeru 
opazimo, da ob manjšanju števila enot v primeru 
napa čne izvedbe navzkrižnega preverjanja ocene 
postajajo vedno bolj precenjene. Razlogi so enaki kot 
v prejšnjem primeru: ko se velikost u čne množice 
zmanjšuje, se problem preprileganja pove čuje, kar 
vodi do precenjenih ocen. 
Informatica Medica Slovenica; 2022; 27(1-2) 11 
published by / izdaja SDMI  http://ims.mf.uni-lj.si/ 
 
Slika 8 Navzkrižno preverjana to čnost razvrščevalca ob skupni uporabi razli čnih metod za uravnoteženje podatkov in 
različnih izvedb navzkrižnega preverjanja pri razli čnem številu enot. 
Zaklju ček 
Ocenjevanje to čnosti napovednih modelov je 
pomemben, če ne kar najpomembnejši korak pri 
razvoju napovednih modelov. Pokazali smo, da v 
primeru napa čne uporabe navzkrižnega preverjanja v 
kombinaciji z uporabo metod za uravnoteženje 
podatkov precenimo to čnost napovednega modela. 
Naše ocene tedaj nakazujejo, da gre za (zelo) dober 
napovedni model, dejansko pa je njegovo delovanje 
zelo slabo. Pojasnili smo razloge za to in predstavili 
dejavnike, ki vplivajo na preoptimizem: delež enot v 
manjšinski množici (preoptimizem se pove čuje, ko se 
delež enot v manjšinski množici zmanjšuje), število 
spremenljivk (z ve čanjem števila spremenljivk se 
preoptimizem pove čuje) in število enot 
(preoptimizem naraš ča z manjšanjem števila enot). 
Prvi dejavnik je neposredna posledica uvajanja 
informacije iz u čne množico v testno: pri naklju čnem 
prevzor čenju v učni in testni množici nastopajo iste 
enote, ki jih je zaradi preprileganja precej lažje 
pravilno uvrstiti kot neke enote, ki jih med u čenjem 
razvrš čevalca nismo vklju čili v u čno množico. 
Problem preprileganja je seveda bolj izrazit, ko je 
12 Tupkuši ć et al.: Preoptimisti čne ocene to čnosti napovednih modelov 
izdaja / published by SDMI  http://ims.mf.uni-lj.si/ 
število spremenljivk veliko in ko je število enot 
majhno, kar pojasnjuje druga dva dejavnika. 
Pravilna izvedba navzkrižnega preverjanja je torej 
klju čna, da se izognemo preoprimisti čnim ocenam in 
pravilno ovrednotimo mo č napovednega modela. 
Zelo pomembno je, da so vse faze izgradnje modela 
(najsi gre za uravnoteženje podatkov, izbiro 
spremenljivk, izbiro najboljšega razvrš čevalca ali 
nadomeš čanje manjkajo čih vrednosti) del 
navzkrižnega preverjanja. V nasprotnem primeru 
lahko v testni množici napačno upoštevamo 
informacijo iz u čne množice in zato preoptimisti čno 
ocenimo to čnost napovednega modela. 
Reference 
1. Bishop CM. Pattern recognition and machine learning 
(information science and statistics). New York 2007: 
Springer. 
2. Ramaswamy S, Ross KN, Lander ES, Golub TR. A 
molecular signature of metastasis in primary solid 
tumors. Nat Genet 2003, 33(1): 49-54. 
https://doi.org/10.1038/ng1060   
3. Shipp MA, Ross KN, Tamayo P, et al. Diffuse large B-
cell lymphoma outcome prediction by gene-expression 
profiling and supervised machine learning. Nat Med 
2002; 8(1): 68-74. 
https://doi.org/10.1038/nm0102-68 (15. 10. 2022) 
4. I i z u k a N , O k a M , Y a m a d a - O k a b e H , e t a l . 
Oligonucleotide microarray for prediction of early 
intrahepatic recurrence of hepatocellular carcinoma 
after curative resection. Lancet 2003; 361(9361): 923-
929. 
https://doi.org/10.1016/S0140-6736(03)12775-4 
(19. 11. 2022) 
5. Sotiriou C, Neo SY, McShane LM, et al. Breast cancer 
classification and prognosis based on gene expression 
profiles from a population-based study. Proc Natl Acad 
Sci USA 2003; 100(18): 10393-10398. 
https://doi.org/10.1073/pnas.1732912100 
(12. 10. 2022) 
6. Wang Y, Klijn JG, Zhang Y, et al. Gene-expression 
profiles to predict distant metastasis of lymph-node-
negative primary breast cancer. Lancet 2005; 365(9460): 
671-679.  
https://doi.org/10.1016/S0140-6736(05)17947-1 
(12. 10. 2022) 
7. Shen R, Ghosh D, Chinnaiyan A, Meng Z. Eigengene-
based linear discriminant model for tumor 
classification using gene expression microarray 
data. Bioinformatics 2006; 22(21): 2635-2642. 
https://doi.org/10.1093/bioinformatics/btl442 
(10. 9. 2022) 
8. Jimeno-Yepes AJ, Plaza L, Mork JG, Aronson AR, 
Díaz A. MeSH indexing based on automatically 
generated summaries. BMC Bioinformatics 2013; 14: 
208. https://doi.org/10.1186/1471-2105-14-208 
(10. 9. 2022) 
9. Štotl I, Blagus R, Urban či č-Rovan V. Individualised 
screening of diabetic foot: creation of a prediction 
model based on penalised regression and assessment 
of theoretical efficacy. Diabetologia 2022; 65(2): 291-
300. https://doi.org/10.1007/s00125-021-05604-2 
(19. 11. 2022) 
10. Tao D, Tang X, Li X, Wu X. Asymmetric bagging and 
random subspace for support vector machines-based 
relevance feedback in image retrieval. IEEE Trans 
Pattern Anal Mach Intell 2006; 28(7): 1088-1099. 
https://doi.org/10.1109/TPAMI.2006.134 
(19. 11. 2022)  
11. He H, Garcia EA. Learning from imbalanced data. 
IEEE Trans Knowl Data Eng 2009; 21(9):, 1263-1284. 
https://doi.org/10.1109/TKDE.2008.239 (5. 9. 2022) 
12. B l a g u s R , L u s a L . C l ass prediction for high-
dimensional class-imbalanced data. BMC Bioinformatics. 
2010; 11: 523. 
https://doi.org/10.1186/1471-2105-11-523 
(13. 8. 2022) 
13. Chawla, N. V., Bowyer, K. W., Hall, L. O., & 
Kegelmeyer, W. P. (2002). SMOTE: synthetic minority 
over-sampling technique. J Artif Intell Res 2002; 16: 
341-378. https://doi.org/10.1613/jair.953 (5. 9. 2022) 
14. Liu XY, Wu J, Zhou ZH. Exploratory undersampling 
for class-imbalance learning. IEEE Trans Syst Man 
Cybern B Cybern 2009; 39(2): 539-550. 
https://doi.org/10.1109/TSMCB.2008.2007853 
(10. 9. 2022) 
15. Lin WJ, Chen JJ. Class-imbalanced classifiers for high-
dimensional data. Brief Bioinform 2013; 14(1): 13-26. 
https://doi.org/10.1093/bib/bbs006 (14. 10. 2022) 
16. Galar M, Fernandez A, Barrenechea E, Bustince, H, 
Herrera F. A review on ensembles for the class 
imbalance problem: bagging-, boosting-, and hybrid-
based approaches. IEEE Trans Syst Man Cybern, Part C 
Appl Rev 2012 42(4): 463-484. 
https://doi.org/10.1109/TSMCC.2011.2161285 
(20. 10. 2022) 
17. Blagus R, Lusa L. SMOTE for high-dimensional class-
imbalanced data. BMC Bioinformatics 2013; 14: 106. 
https://doi.org/10.1186/1471-2105-14-106 
(17. 11. 2022) 
18. Hastie T, Tibshirani R, Friedman J. The elements of 
statistical learning: data mining, inference, and 
prediction. New York 2003: Springer. 
19. Hoerl AE, Kennard RW. Ridge regression: biased 
estimation for nonorthogonal problems. Technometrics 
1970; 12(1): 55-67. 
https://doi.org/10.1080/00401706.1970.10488634 
(20. 10. 2022) 
20. Schaefer RL, Roi LD, Wolfe RA. A ridge logistic 
estimator. Commun Stat Theory Methods 1984; 13(1): 99-
113. https://doi.org/10.1080/03610928408828664 
(3. 11. 2022) 
21. Zhu J, Hastie T. Classification of gene microarrays by 
penalized logistic regression. Biostatistics 2004; 5(3): 
427-443. https://doi.org/10.1093/biostatistics/5.3.427 
(18. 11. 2022) 
22. Goeman J, Meijer R, Chaturvedi N, Lueder M. L1 
(lasso and fused lasso) and L2 (ridge) penalized estimation in 
Informatica Medica Slovenica; 2022; 27(1-2) 13 
published by / izdaja SDMI  http://ims.mf.uni-lj.si/ 
GLMs and in the Cox model. 2014. 
http://CRAN.R-project.org/package=penalized 
(20. 10. 2022) 
23. Blagus R, Goeman JJ. Mean squared error of ridge 
estimators in logistic regression. Stat Neerl 2020; 74(2): 
159-191. https://doi.org/10.1111/stan.12201 
(10. 9. 2022) 
24. Pepe MS. The statistical evaluation of medical tests for 
classification and prediction. New York 2003: Oxford 
University Press. 
25. Blagus R, Goeman JJ. What (not) to expect when 
classifying rare events. Brief Bioinform 2018; 19(2): 341-
349. https://doi.org/10.1093/bib/bbw107 
(20. 10. 2022) 
26. Fawcett T. An introduction to ROC analysis. Pattern 
Recognit Lett 2006; 27(8): 861-874. 
https://doi.org/10.1016/j.patrec.2005.10.010 
(10. 9. 2022) 
27. Perme MP, Manevski D. Confidence intervals for the 
Mann-Whitney test. Stat Methods Med Res 2019; 28(12): 
3755-3768. 
https://doi.org/10.1177/0962280218814556 
(18. 11. 2022) 
28. Blagus R, Lusa L. Improved shrunken centroid 
classifiers for high-dimensional class-imbalanced 
data. BMC Bioinformatics 2013; 14: 64. 
https://doi.org/10.1186/1471-2105-14-64 
(3. 11. 2022) 
29. Simon R, Radmacher MD, Dobbin K, McShane LM. 
Pitfalls in the use of DNA microarray data for 
diagnostic and prognostic classification. J Natl Cancer 
Inst 2003; 95(1): 14-18. 
https://doi.org/10.1093/jnci/95.1.14 (20. 10. 2022) 
30. Ambroise C, McLachlan GJ. Selection bias in gene 
extraction on the basis of microarray gene-expression 
data. Proc Natl Acad Sci U S A 2002; 99(10) :6562-6566. 
https://doi.org/10.1073/pnas.102102699 
(6. 10. 2022) 
31. Taft LM, Evans RS, Shyu CR, et al. Countering 
imbalanced datasets to improve adverse drug event 
predictive models in labor and delivery. J Biomed Inform 
2009; 42(2): 356-364. 
https://doi.org/10.1016/j.jbi.2008.09.001 
(8. 10. 2022) 
32. López-de-Uralde J, Ruiz I, Santos I, et al. Automatic 
morphological categorisation of carbon black nano-
aggregates. In: Bringas PG, Hameurlain A, 
Quirchmayr G (eds). Database and Expert Systems 
Applications. DEXA 2010. Lecture Notes in Computer 
Science, vol 6262. Berlin, Heidelberg 2010: Springer: 
185-193. 
https://doi.org/10.1007/978-3-642-15251-1_15 
(3. 11. 2022) 
33. Naseriparsa M, Kashani MM. Combination of PCA 
with SMOTE resampling to boost the prediction rate 
in lung cancer dataset. Int J Comput Appl 2013; 77(3): 
33-38. https://doi.org/10.5120/13376-0987 
(16. 11. 2022) 
34. B l a g u s R , L u s a L . J o i n t u s e o f o v e r - a n d u n d e r -
sampling techniques and cross-validation for the 
development and assessment of prediction 
models. BMC Bioinformatics 2015; 16: 363. 
https://doi.org/10.1186/s12859-015-0784-9 
(3. 11. 2022) 
35. Japkowicz N. The Class Imbalance Problem: 
Significance and Strategies. In: Proceedings of the 2000 
International Conference on Artificial Intelligence ICAI, 2000. 
36. Rahman MM, Davis D. Cluster based under-sampling 
for unbalanced cardiovascular data. In: Proceedings of the 
World Congress on Engineering, vol. 3, London 2013: 3-5. 
https://www.iaeng.org/publication/WCE2013/WCE20
13_pp1480-1485.pdf (3. 11. 2022) 
37. Zhang JP, Mani I. KNN Approach to unbalanced data 
distributions: a case study involving information 
extraction. In: Proceeding of International Conference on 
Machine Learning (ICML 2003), Workshop on Learning 
from Imbalanced Data Sets. Washington 2003: 1-7. 
38. Cover TM, Hart PE. Nearest neighbor pattern 
classification. IEEE Trans Inf Theory 1967 13(1): 21-27. 
https://doi.org/10.1109/TIT.1967.1053964 
(20. 10. 2022) 
39. Forman G, Scholz M. Apples-to-apples in cross-
validation studies: pitfalls in classifier performance 
measurement. SIGKDD Explor Newsl 2010; 12(1): 49-
57. https://doi.org/10.1145/1882471.1882479 
(10. 9. 2022) 
40. Cox DR, Hinkley DV. Theoretical statistics. New York 
1979: CRC Press. 
41. Le Cessie S, Van Houwelingen JC. Ridge estimators in 
logistic regression. J R Stat Soc Ser C Appl Stat 1992; 
41(1): 191-201. https://doi.org/10.2307/2347628 
(3. 11. 2022)