Informatica Medica Slovenica; 2022; 27(1-2) 1 published by / izdaja SDMI  http://ims.mf.uni-lj.si/  Izvirni znanstveni članek Mirza Tupkuši ć, Rok Blagus Preoptimisti čne ocene to čnosti napovednih modelov: ilustracija na primeru skupne uporabe tehnik vzor čenja in navzkrižnega preverjanja Povzetek. Napovedni modeli uporabljajo razli čne statisti čne metode za gradnjo pravil za uvrš čanje enot v posamezno skupino na podlagi u čnih podatkov. Podatki v praksi obi čajno niso primerni za postopek gradnje pravila, pa č pa jih je potrebno predprocesirati. Tak primer so neuravnoteženi podatki, kjer dobimo slabo napovedno to čnost za manjši razred, če se razvrš čanja lotimo naivno. Z razli čnimi popravki podatkov se da izboljšati to čnost napovednega modela. Toda pri tem je treba paziti, da delovanje razvrš čevalca oziroma njegovo točnost pravilno ovrednotimo, saj v primeru napa čnega ovrednotenja lahko pride do preoptimisti čne ocene točnosti napovednega modela. Ta problem podrobno razložimo in prikažemo dejavnike, ki vplivajo na preoptimizem pri ocenjevanju to čnosti napovednih modelov. Rezultate ilustriramo na razli čnih primerih, kjer uporabljamo razli čne mere napovedne to čnosti, razli čne metode za uravnoteženje podatkov ter razli čne načine navzkrižnega preverjanja. Rezultati lahko pomagajo razvijalcem napovednih modelov pri pravilnem ovrednotenju dejanske napovedne mo či modela oziroma pri razumevanju in kriti čnemu ovrednotenju, ali je bila ocena napovedne mo či modela izvedena pravilno ali pa so rezultati zaradi napa čne izvedbe preoptimisti čni. Klju čne besede: napovedni model; neuravnoteženi podatki; navzkrižno preverjanje; preprileganje. Over-optimistic Assessment of the Performance of Prediction Models: An Illustration Based on the Joint Use of Sampling Techniques and Cross-Validation Abstract. Prediction models use various statistical methods for building classification rules to classify units into pre-specified groups based on the learning data. In practice, the data are often not suitable for the chosen procedure and they need to be pre-processed before training the classifier. An important example are imbalanced data where the naïve approach can lead to poor accuracy for the minority class. Many data augmentation approaches have been developed to alleviate this issue. However, when using these techniques, one needs to be careful to correctly evaluate the performance of the classifier in terms of its predictive accuracy, because incorrect evaluation can lead to an overly optimistic estimate of the classifier’s performance. We explain in detail why this happens and showcase the different contributing factors. The results are illustrated using various performance measures, various data augmentation techniques, and various cross-validation techniques. Our results can help the developers of prediction models to correctly evaluate predictive ability of the derived model, as well as to understand and critically appraise whether the predictive ability of the model was correctly estimated or the evaluation was too optimistic. Key words: prediction models; cross-validation; rare events; overfitting.  Infor Med Slov 2022; 27(1-2): 1-13 Institucije avtorjev / Authors' institutions: Medicinska fakulteta, Univerza v Ljubljani (MT, RB); Fakulteta za šport, Univerza v Ljubljani (RB); FAMNIT, Univerza na Primorskem, Koper (RB). Kontaktna oseba / Contact person: izr. prof. dr. Rok Blagus, MF, IBMI, Vrazov trg 2, 1000 Ljubljana. E-pošta / E-mail: rok.blagus@mf.uni-lj.si. Prispelo / Received: 28. 11. 2022. Sprejeto / Accepted: 24. 12. 2022. 2 Tupkuši ć et al.: Preoptimisti čne ocene to čnosti napovednih modelov izdaja / published by SDMI  http://ims.mf.uni-lj.si/ Uvod Napovedovanje lahko definiramo kot problem ocenjevanja in odlo čanja na podlagi znanih podatkov. 1 V vsakdanjem življenju se vseskozi sre čujemo z nalogami ali vprašanji, na katera želimo odgovoriti čim bolj pravilno. Človeški odgovori so subjektivni, zato so lahko povsem napa čni. Zaradi tega postajajo ra čunalniško izdelani napovedni modeli (angl. prediction models) vse bolj priljubljeni, še zlasti na podro čju medicine, 2-7 pogosto pa se uporabljajo tudi na drugih podro čjih, npr. v trženju in strojništvu. 8 V klini čnih raziskavah nas pogosto zanima verjetnost ali napoved, da bo pacient zbolel za dolo čeno boleznijo, kako se bo odzval na zdravljenje ipd. Podobno velja na drugih podro čjih, npr. za odliv strank iz podjetja ali čas do okvare stroja. V medicini so napovedni modeli posebej pomembni v okviru presejalnih programov za zgodnje odkrivanje dolo čene bolezni, 9 na primer raka. Gradnjo oziroma razvoj napovednih modelov razdelimo v tri faze: ■ faza 1: priprava podatkov; ■ faza 2: gradnja/u čenje razvrščevalca; ■ faza 3: preverjanje to čnosti razvrš čevalca. V prvi fazi pripravimo podatke za izgradnjo modela oziroma za u čenje razvrš čevalca (angl. classifier). Gradnjo razvrš čevalca pogosto otežuje narava zbranih podatkov: v podatkih se lahko pojavljajo manjkajo če vrednosti, napake, osamelci, veliko število spremenljivk itd. V tem članku se bomo osredoto čili na pogost problem, ko so podatki v dveh razredih neuravnoteženi (angl. unbalanced data), 10-12 se pa podobne težave pojavijo tudi v primeru nadomeš čanja manjkajo čih podatkov, izlo čanja osamelcev iz podatkov, izbire spremenljivk za analizo ipd. O neuravnoteženih podatkih govorimo, ko se število enot med razredoma razlikuje. Na podro čju medicine je obi čajno število pacientov z dolo čeno boleznijo veliko manjše kot število zdravih ljudi; podobno je število strank, ki ostanejo v podjetju, praviloma veliko ve čje od števila strank, ki podjetje zapustijo. Razred z ve čjim številom enot imenujemo ve činski razred (angl. majority class), razred z manjšim številom enot pa manjšinski razred (angl. minority class). Gradnja napovednega modela na podlagi neuravnoteženih podatkov je problemati čna predvsem zaradi slabe napovedne to čnosti v manjšinskem razredu. 12 Preprosto povedano, do tega pride, ker se razvrš čevalcu, ki želi minimizirati celotno napako, izpla ča osredotočiti na ve činski razred, posledica pa je slaba to čnost za manjšinski razred. Mogo ča rešitev tega problema, ki dokazano deluje dobro, so razli čne metode za uravnoteženje razredov. 10,13-17 Tovrstne metode izboljšajo napovedano to čnost modela v manjšinskem razredu tako, da zmanjšajo neravnotežje v podatkih ali pa da celo izenačijo število enot v ve čjem in manjšem razredu. 13 K temu lahko pristopimo na več na činov. Razreda lahko uravnotežimo z ve čanjem števila enot v manjšinskem razredu (angl. oversampling), zmanjševanjem števila enot v ve činskem razredu (angl. undersampling) ali kombinacijo teh dveh pristopov. 10,13 Ko smo kon čali prvo fazo uravnoteženja podatkov, lahko pristopimo k fazi u čenja. Enote, za katere poznamo pripadnost razredu, uporabimo za izgradnjo modela ali razvrš čevalca, na podlagi katerega bomo uvrš čali nove enote. 1 Obstaja množica razli čnih razvrš čevalcev. 18 V ilustraciji bomo uporabili grebensko regresijo (angl. ridge regression), 19-23 so pa ugotovitve splošne in v podobni meri veljajo tudi za druge razvrš čevalce. Ko razvrš čevalec izgradimo in s tem kon čamo drugo fazo, bi seveda radi ovrednotili njegovo to čnost oziroma ocenili njegovo napako. Na voljo so razli čne mere točnosti. 24 Pri izbiri ustrezne mere to čnosti moramo biti previdni, še posebej, ko imamo opraviti z neuravnoteženimi podatki. 25 V ilustraciji bomo uporabljali ploš čino pod krivuljo ROC 26 (mero AUC), 24,27 točnost za manjšinski in ve činski razred, njuno geometrijsko sredino ( 𝐺 -povpre čje) 28 ter mero 𝐹 , ki se pogosto uporabljajo v tem kontekstu. Idealno bi se to čnost razvrš čevalca ovrednotila na (veliki) neodvisni tesni množici, 1,18 ki pa v praksi pogosto ni dostopna. Za preverjanje to čnosti razvrš čevalca se zato pogosto uporabi navzkrižno preverjanje s k pregibi (angl. k-fold cross-validation – CV) oziroma njegova razli čica navzkrižno preverjanje z izpustitvijo ene enote (angl. leave-one-out CV – LOOCV), za katero velja 𝑘 = 𝑢 , kjer je 𝑢 velikost u čne množice. Pisali bomo 𝑢 = 𝑚 + 𝑣 , kjer je 𝑚 število enot v manjšinskem razredu, 𝑣 število enot v ve činskem razredu in velja 𝑚 < 𝑣 . Problem napa čnega ovrednotenja to čnosti napovednih modelov v razli čnih kontekstih (npr. v kontekstu izbire spremenljivk v prvi fazi) je znan. 29,30 Raziskave kažejo na nujnost pravilnega ovrednotenja točnosti delovanja razvrš čevalcev: v primeru napa čnega ovrednotenja je delovanje napovednega modela lahko slabše ali boljše, kot je predstavljeno. V članku bomo ilustrirali, kakšen je vpliv napa čne uporabe navzkrižnega preverjanja na oceno to čnosti napovednega modela ob uporabi razli čnih pristopov za uravnoteženje podatkov. Pokazali bomo, da napa čna uporaba navzkrižnega preverjanja vodi do precenjenih mer to čnosti, in prikazali razli čne dejavnike, ki na to vplivajo. Rezultati so pomembni, ker je bilo doslej objavljenih precej člankov, kjer je Informatica Medica Slovenica; 2022; 27(1-2) 3 published by / izdaja SDMI  http://ims.mf.uni-lj.si/ bilo navzkrižno preverjanje izvedeno napa čno (npr. v kombinaciji s prevzor čenjem 31-33) , objavljene mere točnosti pa so posledi čno preoptimisti čne. Podobno tematiko smo že obravnavali, 34 s to razliko, da se tokrat bolj osredoto čamo na oris in pomembnost posameznih dejavnikov, ki vplivajo na preoptimizem zaradi napa čne uporabe navzkrižnega preverjanja, manj pa na pojasnjevanje razlogov, zakaj do tega pride. V pri čujo čem članku obravnavamo tudi razli čne mere to čnosti, ki jih v prvotnem 34 nismo. V nadaljevanju najprej predstavimo uporabljene metode, kjer na kratko orišemo razli čne pristope za uravnoteženje podatkov, uporabljeni razvrš čevalec in mere to čnosti. Sledi ilustracija, kjer prikažemo vpliv razli čnih dejavnikov na precenjenost ocene to čnosti napovednega modela. Članek zaklju čimo s kratkim povzetkom klju čnih ugotovitev. Metodologija V nadaljevanju bolj podrobno predstavljamo metode, ki jih kasneje v ilustraciji uporabljamo v posameznih fazah razvoja napovednega modela. Metode za uravnoteženje razredov V ilustraciji bomo uporabili tri razli čne metode uravnoteženja razredov. Pri naklju čnem prevzor čenju (angl. random oversampling) naklju čno s ponavljanjem izberemo 𝑛≤𝑣−𝑚 e n o t i z m a n j š e g a r a z r e d a , izbrane enote kopiramo in jih dodamo v nabor podatkov. 35 Tako se manjšinski razred pove ča za 𝑛 neinformativnih enot, popolnih kopij prvotnih enot iz manjšinskega razreda. Metoda prevzorčenja torej uravnoteži razrede z znanimi enotami, zato uravnoteženi podatki ne nosijo nobene dodatne informacije kot izvorni, so le (umetno) uravnoteženi. Posledi čno so lahko ob uporabi napa čnega pristopa navzkrižnega preverjanja iste enote uporabljene v fazi u čenja in preverjanja točnosti razvrš čevalca in zato zaradi problema preprileganja (angl. overfitting 18 ) dobimo preoptimisti čno oceno točnosti. O preprileganju na primer govorimo, ko je v fazi preverjanja to čnosti razvrš čevalca vrednost AUC velika, a je uspešnost razvrš čevalca na neznanih (novih) podatkih mnogo slabša. Pri naklju čnem podvzor čenju (angl. random undersampling) naklju čno (obi čajno brez ponavljanja) izberemo 𝑛≤𝑚 e n o t i z v e činskega razreda. 12 Izbrane enote ve činskega razreda združimo z enotami manjšinskega razreda v novi podatkovni okvir. Na tak na čin ostane število enot v manjšinskem razredu nespremenjeno, število enot v ve činskem razredu pa je za 𝑣−𝑛 manjše. Posledi čno v fazi u čenja razvrš čevalca lahko izpustimo pomembno informacijo, ki se nanaša na ve činski razred, kar se lahko odrazi v slabši napovedni to čnosti v ve činskem razredu. Izgubo informacije se lahko omili z ve čkratnim naklju čnim podvzor čenjem, kar lahko bistveno pove ča točnost razvrš čevalca, 12 a za namen naše analize to ni zelo pomembno, zato tega ne bomo podrobneje obravnavali. Metoda podvzor čenja uravnoteži razrede z izgubo informacije, zato so uravnoteženi podatki manj informativni kot izvorni. Toda ker nobena enota ni podvojena, do problema preprileganja, ki nastopi pri naklju čnem prevzor čenju, pri naklju čnem podvzor čenju ni. Bi pa do podobnega problema vseeno prišlo, če so enote, ki se jih obdrži v ve činskem razredu, izbere sistemati čno 36,37 (s tem se podrobneje ne bomo ukvarjali). SMOTE (angl. Synthetic Minority Oversampling Technique) je metoda kjer se hkrati podvzorči in prevzor či, pri čemer se pri prevzor čenju tvorijo sintetični podatki za manjšinski razred (v primarni definiciji je metoda SMOTE vezana le na sinteti čno prevzor čenje, vendar obstaja ve č izvedb, med katerimi se bomo osredoto čili na kombinacijo prevzor čenja in podvzor čenja). 13 S tvorjenjem sinteti čnih enot metoda SMOTE pomaga pri premagovanju problema preprileganja, a ga ne odpravi povsem. V manjšinskem razredu metoda naklju čno izbere eno enoto 𝑥 (angl. random minority), nato pa poiš če njenih 𝑔 najbližjih sosedov 𝑥 (angl. 𝑔 -nearest neighbours 38 ). Nato izračuna razdaljo med izbrano enoto in 𝑔 najbližjimi sosedi, na kateri naklju čno tvori eno ali ve č sinteti čnih enot 𝑥 , 𝑥 = 𝑥 + 𝑟𝑎𝑛𝑑 0,1 𝑥 −𝑥 𝑖 =1 ,…, 𝑙 (1) kjer 𝑟𝑎𝑛𝑑 (0,1) ozna čuje naklju čno vrednost iz enakomerne porazdelitve na intervalu (0,1). Tako nove enote niso identi čne obstoje čim, pa č pa so njihove linearne kombinacije (slika 1). Med tvorbo novih sintetičnih enot metoda SMOTE lahko izvaja podvzor čenje. 13 Postopek se kon ča, ko dosežemo želeno (ne)ravnotežje števila enot v manjšem in ve čjem razredu (običajno podatke povsem uravnotežimo). Ker nove (sinteti čne) enote niso popolnoma neodvisne od osnovnih enot (saj so tvorjene z uporabo informacij o osnovnih enotah), lahko seveda pride do problema preprileganja; o tem ve č kasneje. 4 Tupkuši ć et al.: Preoptimisti čne ocene to čnosti napovednih modelov izdaja / published by SDMI  http://ims.mf.uni-lj.si/ Slika 1 Na čelo delovanja metode SMOTE (angl. Synthetic Minority Oversampling Technique). Navzkrižno preverjanje s k pregibi Navzkrižno preverjanje s k pregibi je ena izmed metod, ki jih lahko uporabimo za oceno razvrstitvene točnosti. 18 V navzkrižnem preverjanju s k pregibi je podatkovni okvir razdeljen na k podmnožic (angl. folds): 𝑘− 1 podmnožic uporabljamo za gradnjo razvrš čevalca, eno podmnožica pa za oceno njegove točnosti. Podmnožice ustvarimo tako, da je število enot v vsaki podmnožici enako in je delež enot manjšinskega in ve činskega razreda v vsaki podmnožici enak kot v osnovni množici. Iterativni postopek ponovimo k-krat, tako je vsaka izmed k podmnožic enkrat uporabljena kot testna množica (slika 2). 24 Navzkrižno preverjanje z izpustitvijo ene enote je skrajna razli čica navzkrižnega preverjanja s k pregibi: 𝑢− 1 enot uporabljamo za gradnjo razvrš čevalca, eno enoto pa uporabimo za preverjanje njegove to čnosti. Iterativni postopek ponovimo 𝑢 -krat, tako je vsaka enota enkrat uporabljena kot testna množica. Izvedba z izpustitvijo ene enote je seveda ra čunsko in časovno najbolj zahtevna. Slika 2 Navzkrižno preverjanje s k pregibi. Pri uporabi navzkrižnega preverjanja imamo dve možnosti, kako izračunati neko mero to čnosti. Prva možnost je, da to čnost izra čunamo za vsak pregib posebej in potem povpre čimo k tako dobljenih ocen. Druga možnost je, da vse napovedi združimo in mero točnosti izra čunamo zgolj enkrat. Katera izbira je pravilna je odvisno med drugim tudi od uporabljene mere to čnosti in je še vedno predmet razprave. 39 Zaradi primerljivosti med razli čnimi oblikami navzkrižnega preverjanja bomo uporabili drugo možnost (ki je v primeru LOOCV edina možnost, če želimo oceniti AUC), za katero je sicer znano, da vodi do pristranske ocene AUC in pravilne ocene mere F 1 ; 39 s podrobno primerjavo obeh pristopov se ne bomo ukvarjali. Pri skupni izvedbi navzkrižnega preverjanja in ene izmed metod uravnoteženja razredov moramo paziti, da oba postopka izvedemo pravilno. Če najprej uravnotežimo podatke, potem pa uporabimo navzkrižno preverjanje, smo slednje izvedli napačno (slika 3). Navzkrižno preverjanje je pravilno, če proces uravnoteženja podatkov izvedemo znotraj postopka navzkrižnega preverjanja. V pravilni izvedbi navzkrižnega preverjanja metode uravnoteženja razredov uporabljamo samo na u čni množici, kar pomeni, da moramo uravnoteženje razredov k-krat (oziroma v primeru LOOCV 𝑢 -krat) ponoviti (slika 3). Informatica Medica Slovenica; 2022; 27(1-2) 5 published by / izdaja SDMI  http://ims.mf.uni-lj.si/ Slika 3 Napa čna (levo) in pravilna (desno) izvedba navzkrižnega preverjanja s k pregibi in naključnega prevzor čenja. Razvrš čevalec Grebenska regresija 19 je statistična metoda, s katero lahko izboljšamo to čnost napovedi z zmanjšanjem ocen parametrov (t. i. kr čenjem, angl. shrinkage). 23 Z dodajanjem penalizacijske funkcije (angl. penalising function) spreminja oziroma zmanjša ocenjeno vrednost regresijskega koeficienta, s čimer poskušamo zmanjšati problem preprileganja. Splošni regresijski model lahko zapišemo v matri čni obliki kot 𝒀 = 𝜷𝑿 + 𝒆 , kjer so 𝒀 izidi, 𝑿 napovedne spremenljivke, 𝜷 regresijski koeficienti, 𝒆 pa naklju čne napake. 18 Regresijske koeficiente z grebensko regresijo dobimo tako, da rešimo optimizacijski problem 𝛽 = 𝑎𝑟𝑔𝑚𝑖𝑛 𝑦 −𝛽 −𝑥 𝛽 + 𝜆𝛽 (2), kjer je 𝜆 u g l a š e v a l s k i p a r a m e t e r . O p a z i m o , d a z a 𝜆 =0 dobimo enako rešitev, kot če uporabljamo standardna orodja (denimo metodo najve čjega verjeta 40 ), medtem ko za 𝜆 = ∞ vse ocene postavimo na ni č. Parameter 𝜆 se obi čajno dolo či s navzkrižnim preverjanjem. 41 Če želimo zgornji model uporabiti za (binarno) razvrš čanje, moramo enotam dolo čiti vrednost izidov, 𝒀 . V našem primeru bomo enotam iz manjšinskega razreda določili vrednost 0, enotam iz ve činskega razreda pa vrednost 1 (lahko bi uporabili tudi obratno definicijo, rezultati pa bili enaki). Ko izberemo parameter 𝜆 in pridobimo ocene regresijskih koeficientov, lahko na podlagi teh ocen izra čunamo verjetnost dogodka, ki jo ozna čimo s 𝑝 ̂ . Za izračun nekaterih mer to čnosti (npr. AUC) lahko 𝑝 ̂ uporabimo neposredno, medtem, ko moramo za izra čun drugih mer (npr. napovedne to čnosti) verjetnostno napoved spremeniti v napoved vrednosti 0 ali 1 (ki jo ozna čimo z 𝑦 ), za kar lahko uporabimo pravilo 𝑦 = 1 č𝑒 𝑝 ̂ 𝜏 0 č𝑒 𝑝 ̂ < 𝜏 (3), kjer je 𝜏 prag za uvrš čanje. Če velja 𝑝 ̂ = 𝜏 , enoto naklju čno uvrstimo v enega izmed razredov. Ker (podobno kot v obi čajni logisti čni regresiji) velja, da so ocenjene verjetnosti zgoščene okrog neravnotežja v učni množici, naivna uporaba 𝜏 =0 , 5 za neuravnotežene podatke praviloma ni ustrezna. 12 V ilustraciji bomo zato kot prag za uvrš čanje uporabljali delež dogodkov na (uravnoteženi) u čni množici. Mere razvrstitvene to čnosti Za oceno točnosti razvrš čanja bomo izra čunali ploš čino pod krivuljo ROC (angl. area under the curve – AUC), 24 𝐺 -povpre čje (angl. 𝐺 -mean) 6 Tupkuši ć et al.: Preoptimisti čne ocene to čnosti napovednih modelov izdaja / published by SDMI  http://ims.mf.uni-lj.si/ 𝐺 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑁 𝑇𝑁 𝑇𝑁 + 𝐹𝑃 = 𝑃𝐴 𝑃𝐴 (4). kjer je 𝑇𝑃 število pravilno uvrščenih enot iz manjšinskega razreda, 𝐹𝑁 število napa čno uvrš čenih enot iz ve činskega razreda, 𝑇𝑁 število pravilno uvrš čenih enot iz ve činskega razreda, 𝐹𝑃 število napa čno uvrš čenih enot iz manjšinskega razreda, 𝑃𝐴 = in 𝑃𝐴 = pa sta točnost za manjšinski in ve činski razred, ter mero 𝐹 𝐹 = 2 𝑇𝑃 2 𝑇𝑃 + 𝐹𝑃 + 𝐹𝑁 (5). Pri izra čunu AUC bomo uporabljali verjetnostno napoved 𝑝 ̂ , za izra čun ostalih mer pa bomo uporabljali 𝑦 , ki ga dobimo, kot je pojasnjeno zgoraj. Implementacija metod v programskem jeziku R Za izvedbo metode naklju čnega prevzor čenja uporabljamo funkcijo upSample(x, y, list = FALSE, yname = class) iz paketa caret, kjer je x matrika ali podatkovni okvir vrednosti enot za vsako spremenljivko, y indikatorska spremenljivka, ki dolo či pripadnost, in argument yname dolo či ime spremenljivke, ki nam pove pripadnost posamezne enote v izhodu funkcije. Funkcija dela enako, kot je opisano v razdelku o metodah za uravnoteženje razredov: razreda uravnotežimo z naklju čnim dodajanjem enot manjšinskega razreda s ponavljanjem v nabor podatkov. Za izvedbo naklju čnega podvzor čenja uporabljamo funkcijo downSample(x, y, list = FALSE, yname = class), iz paketa caret. Funkcija ima enake argumente kot funkcija za naklju čno prevzor čenje. Tudi ta funkcija deluje enako, kot je opisano zgoraj. Za izvedbo metode SMOTE uporabljamo funkcijo SMOTE(formula, data, perc.over = 100, k = 5, perc.under = 200, …) iz paketa DMwR. Z argumentom formula zapišemo napovedni model, z argumentom data podamo orginalni neuravnoteženi podatkovni okvir, z argumentom perc.over definiramo število dodanih sinteti čnih enot, z argumentom k definiramo število najbližjih sosedov, z argumentom perc.under pa definiramo število izbrisanih enot v ve činskem razredu. Funkcija vrednosti perc.over in perc.under deli s 100, dobljeni vrednosti pa dolo čita, koliko novih enot v vsaki ponovitvi dodamo in odstranimo. Za vpogled v ostale parametre, ki jih lahko nastavimo v funkciji, priporo čamo pregled dokumentacije paketa DMwR. Za ogled izvorne kode priporo čamo ogled funkcije SMOTE(form, data, perc.over = 200, k = 5, perc.under = 200, learner = NULL, …) in smote.exs(data, tgt, N, k) na spletu (https://rdrr.io/cran/DMwR/src/R/smote.R). Funkcijo smo uporabili na dva na čina: pri prvem na činu smo uporabili perc.over = 100, perc.under = 200; pri drugem pa perc.over = 400, perc.under = 100. Za u čenje razvrš čevalca, ki smo ga predstavili istoimenskem razdelku, uporabljamo funkcijo glmnet(x, y, alpha = 0, lambda, …) iz paketa glmnet. Z argumentom x definiramo matriko neodvisnih spremenljivk, z y definiramo odzivno (indikatorsko) spremenljivko in z argumentom lambda nastavimo vrednost parametra λ. Optimalno vrednost parametra λ dolo čimo s pomo čjo funkcije cv.glmnet(x, y, alpha = 0, nfolds = 10, …), ki dolo či optimalno vrednost na podlagi navzkrižnega preverjanja z 10 pregibi; ostali vhodni argumenti, x, y in alpha, so enaki kot pri funkciji glmnet. Za izra čun napovedi uporabimo funkcijo predict(ovject, s, newx, type, …) iz paketa stats. Z argumentom object dolo čimo model, za katerega želimo izra čunati napovedi, argument s dolo ča optimalno vrednost λ, argument newx dolo ča vrednosti napovednih spremenljivk in z argumentom type dolo čimo tip izhoda, ki ga vrne funkcija (v našem primeru je to ocenjena verjetnost dogodka). AUC izra čunamo s pomo čjo funkcije auc() iz paketa pROC, meri 𝐺 in 𝐹 mero pa izra čunamo po zgoraj predstavljeni definiciji. Navzkrižno preverjanje s k pregibi in z izpustitvijo ene enote smo sprogramirali sami, kot je opisano v razdelku o navzkrižnem preverjanju. Ilustracija Za primer naklju čnega prevzor čenja lahko izra čunamo verjetnost, da je enota iz manjšega razreda hkrati vklju čena v u čno in testno množico, če navzkrižno preverjanje izvedemo napa čno ( če navzkrižno preverjanje izvedemo pravilno, je ta verjetnost seveda ni č, enako pa velja tudi za primer, ko uporabimo naklju čno podvzor čenje, tudi če navzkrižno preverjanje izvedemo napa čno, kar smo že pojasnili). Verjetnost, da je ista enota vklju čena v u čno in testno množico, je odvisna od števila enot v podatkovnem okvirju, deleža enot, vklju čenih v testno množico 𝑝 , in deleža enot v manjšinski množici 𝑝 =𝑚𝑢 ⁄ : 𝑃 =1 − 𝑢−𝑣 𝑚 ⁄ 𝑢𝑝 −𝑣 𝑚 ⁄ 𝑢− 1 𝑢𝑝 − 1 (6). Z manjšanjem deleža enot v manjši množici 𝑝 se verjetnost pove čuje (slika 4). Če imamo opravka z Informatica Medica Slovenica; 2022; 27(1-2) 7 published by / izdaja SDMI  http://ims.mf.uni-lj.si/ neuravnoteženimi podatki (npr. 𝑝 =0 . 1 ), metoda prevzor čenja ve čkrat v podatkovni okvir doda veliko obstoje čih enot, zaradi česar se bolj pogosto zgodi, da imamo pri napa čnem navzkrižnem preverjanju v u čni in testni množici vključene iste enote. Če je delež enot v manjši množici blizu vrednosti 0,5, metoda prevzor čenja v podatkovni okvir doda manjše število podvojenih enot, posledično se redkeje zgodi, da je v primeru napačnega navzkrižnega preverjanja ena enota vklju čena v u čno in testno množico hkrati. Z manjšanjem deleža enot v testni množici 𝑝 se verjetnost pove čuje (slika 4). To pomeni, da se verjetnost pove čuje z ve čanjem števila podmnožic 𝑘 pri navzkrižnem preverjanju. Posledi čno ima navzkrižno preverjanje z izpustitvijo ene enote, ki predstavlja skrajni primer navzkrižnega preverjanja s 𝑘 pregibi ( 𝑘 = 𝑢 ), pri vsakem številu enot 𝑛 in 𝑝 vedno največjo verjetnost. Na omenjeno verjetnost lahko vplivamo tudi s številom enot v podatkih, pri čemer se z ve čanjem števila enot se verjetnost zmanjšuje. Ko za prevzor čenje uporabljamo metodo SMOTE, je verjetnost, da bo ista enota vklju čena v testni in u čni množici, seveda enaka ni č, vendar pa so lahko v primeru napa čne izvedbe navzkrižnega preverjanja v testni množici vključene podobne enote kot v u čni. Spomnimo, da z metodo SMOTE ne ustvarjamo kopij enot iz manjšinskega razreda, temve č njihove linearne kombinacije, te linearne kombinacije (novi sinteti čni podatki) pa vsebujejo tudi informacijo, ki je vklju čena v osnovnih podatkih, zato ti novi podatki nikakor niso neodvisni od prvotnih. Slika 4 Verjetnost, da je vsaj ena enota vklju čena v u čno in testno množico, v odvisnosti od deleža enot v manjšinskem razredu ( 𝑝 ). Čeprav sinteti čne enote niso identi čne prvotnim, je torej v primeru napa čne izvedbe navzkrižnega preverjanja v testni množici prisotna informacija, ki smo jo dobili neposredno iz u čne množice, kar lahko vodi do preprileganja in preoptimisti čne ocene. V nadaljevanju podrobneje ilustriramo, kakšen je vpliv napa čne izvedbe navzkrižnega preverjanja na (pre)optimisti čno oceno razli čnih mer točnosti. V ilustraciji uporabljamo podatke, ki smo jih simulirali neodvisno iz standardne normalne porazdelitve za vse enote iz u čne množice; odlo čitev o uporabi konkretne porazdelitve ni bistvena, podobne ugotovitve bi veljale tudi za druge porazdelitve. V simulaciji smo spreminjali število neodvisno generiranih spremenljivk 𝑝 , število enot 𝑁 , delež enot v manjšem razredu 𝑝 in delež enot v testni množici 𝑝 (preko razli čne izbire števila pregibov 𝑘 =2 ,1 0 , 𝑢 v navzkrižnem preverjanju); podatke smo simulirali stokrat in rezultati, o katerih poro čamo, so povpre čeni čez 100 ponovitev. Naj poudarimo, da simuliramo na na čin, da med razredoma dejansko ni razlike: to čna vrednost AUC je enaka 0,5, 𝑃𝐴 + 𝑃𝐴 =1 in zato 𝐺 = 𝑃𝐴 (1 −𝑃 𝐴 ) = 𝑃𝐴 (1 −𝑃 𝐴 ) in 𝐹 = = ( ) . Če dobimo vrednosti, ki odstopajo od pravih, to čnosti napovednega modela nismo pravilno ovrednotili: če so ocene ve čje od pravih, smo delovanje napovednega modela precenili, če so manjše, pa podcenili. Če bi med razredoma obstajale razlike, bi bili zaklju čki podobni predstavljenim. Naj na tem mestu opomnimo, da smo pri izra čunu pravih mer to čnosti za našo ilustracijo predpostavljali zgolj, da je razvrščevalec neinformativen, torej tak, za katerega velja 𝑃𝐴 + 𝑃𝐴 =1 . To je (malenkost) bolj splošna zahteva, kot če bi bil razvrš čevalec naklju čen, torej tak, za katerega velja 𝑃𝐴 = 𝑃𝐴 =1 2 ⁄ . Opazimo lahko, da je vsak naključen razvrš čevalec tudi neinformativen, ni pa vsak neinformativen razvrš čevalec tudi naklju čen. Ilustrirajmo to na primeru, ko se o razredu odlo čimo glede na met kovanca. V prvem primeru denimo, da je kovanec pošten (verjetnost grba je 12 ⁄ ), v drugem pa, da je verjetnost grba enaka 𝜋≠12 ⁄ . V prvem primeru bo seveda v povpre čju (!) veljalo (kot vemo iz osnov verjetnosti) 𝑃𝐴 = 𝑃𝐴 =1 2 ⁄ , v drugem pa 𝑃𝐴 = ( 𝜋𝑚 ) 𝑚 ⁄ = 𝜋 in 𝑃𝐴 = (1 −𝜋 )𝑣𝑣 ⁄ =1−𝜋. V obeh primerih gre za neinformativen razvrš čevalec, vendar pa je zgolj prvi razvrš čevalec tudi naklju čen. Ignoriranje problema neuravnoteženih razredov Najprej bomo prikazali, kaj se zgodi, ko zanemarimo problem neuravnoteženih razredov, torej izpustimo prvo fazo gradnje napovednega modela. Ilustracija se nanaša na primer, ko spreminjamo delež enot v manjšem razredu: 𝑝 = 0,1, 0,2, … , 0,5. Ostali 8 Tupkuši ć et al.: Preoptimisti čne ocene to čnosti napovednih modelov izdaja / published by SDMI  http://ims.mf.uni-lj.si/ parametri so nastavljeni na 𝑁 = 300 in 𝑝 = 1000. Rezultati so prikazani na sliki 5. Vrednosti 𝐺 -povpre čja in mere 𝐹 so enake pravim vrednostim, saj v tretji fazi nismo naredili nobene napake, zaradi katere bi prišlo do preoptimisti čnih ocen. Za razliko od 𝐺 -povpre čja in mere 𝐹 pa so ocenjene vrednosti AUC ob uporabi LOOCV premajhne, do česar pride zaradi napake, ki smo jo naredili, ko smo združevali ocene razli čnih pregibov. Ko smo združili napovedane verjetnosti v posameznih pregibih, smo namre č združili nezdružljive ocene: združili smo ocene, ki so bile pridobljene na u čnih množicah z razli čnimi neravnotežji (neravnotežje je seveda druga čno, ko izpustimo enoto iz manjšinskega oziroma večinskega razreda). Ko uporabljamo 𝑘 =2 in 𝑘 =1 0 , do tega problema seveda ne pride, ker pregibe ustvarjamo tako, da je neravnotežje ves čas enako. Če bi pri izra čunu AUC uporabljali napovedani razred ( 𝑦 ) in ne ocenjene verjetnosti ( 𝑝 ̂ ), bi bila tudi ob uporabi LOOCV za vsak 𝑝 AUC pravilno ovrednotena (bila bi enaka 0.5). To je tudi razlog, zakaj sta 𝐺 - povpre čje in mera 𝐹 pravilno ocenjena tudi, če uporabimo LOOCV. Slika 5 Navzkrižno preverjana to čnost razvrš čevalca za razli čna neravnotežja v podatkih ( 𝑝 ). Pojasnimo ta problem bolj podrobno na primeru, ko velja 𝜆 = ∞ (dejansko so bile pri nas ocenjene vrednosti za 𝜆 zelo velike, kar je pri čakovano, saj to pomeni, da model pravilno ugotovi, da spremenljivke niso pomembne za pojasnjevanje izida). V tem primeru je namre č ocenjena verjetnost to čno enaka deležu dogodkov v u čni množici. 23 To pomeni, da je enaka 𝑝 ̂ = 𝑣 (𝑣− 1) ⁄ za vse enote iz manjšinskega razreda (ki ga kodiramo z vrednostjo 0 – nedogodek) in 𝑝 ̂ = (𝑣− 1)( 𝑢− 1) ⁄ za vse enote iz ve činskega razreda (ki ga kodiramo z 1 – dogodek). Opazimo, da velja 𝑝 ̂ > 𝑝 ̂ : vse enote iz manjšega razreda so rangirane višje od enot iz ve čjega razreda (imajo ve čjo verjetnost, da spadajo v ve činski razred), zato je AUC enaka ni č (spomnimo se interpretacije AUC: to je verjetnost, da bo razvrš čevalec naklju čno izbran dogodek rangiral višje kot nedogodek 24 ). Če ocenjeno verjetnost spremenimo v razred, opazimo, da vsako enoto popolnoma naklju čno uvrstimo v enega izmed razredov (ena čba 3), posledi čno je AUC (v povpre čju!) enaka 0,5 in do problema podcenjene AUC ne pride. Odvisnost preoptimisti čne ocene od deleža enot v manjšem razredu Vsi parametri se enaki kot v prejšnjem primeru ( 𝑁 = 300, 𝑝 = 1000, 𝑝 = 0,1, 0,2, … , 0,5), le da tu uporabimo eno od treh predstavljenih metod za uravnoteženje podatkov ter primerjamo rezultate pravilne in napa čne uporabe navzkrižnega preverjanja. Na sliki 6 smo prikazali razliko med pravilno in napa čno izvedbo navzkrižnega preverjanja s 𝑘 pregibi ( 𝑘 =2 ,1 0 in 𝑢 ), ob uporabi razli čnih metod za uravnoteženje podatkov, pri različni vrednosti deleža enot v manjšinskem razredu. V primeru pravilne izvedbe navzkrižnega preverjanja so vse mere pravilno ocenjene. Zanimivo, opazimo, da do podcenjenega AUC v primeru uporabe LOOCV v tem primeru ne pride. V kolikor uporabimo napa čno navzkrižno preverjanje v kombinaciji s podvzor čenjem, potem sta AUC in 𝐺 -povpre čje ocenjena pravilno; izjema je AUC ob uporabi LOOCV, o razlogih za to pa smo govorili že v prejšnjem primeru. Informatica Medica Slovenica; 2022; 27(1-2) 9 published by / izdaja SDMI  http://ims.mf.uni-lj.si/ Slika 6 Navzkrižno preverjana to čnost razvrš čevalca v visokorazsežnem prostoru za različne velikosti manjšinskega razreda ob skupni uporabi razli čnih metod za uravnoteženje podatkov in razli čnih izvedb navzkrižnega preverjanja. Spomnimo, s podvzor čenjem v testno množico ne uvajamo nobene informacije iz u čne množice, zato je ta rezultat popolnoma pri čakovan. Kljub temu, pa je 𝐹 mera precenjena. Pri vseh ostalih popravkih za uravnoteženje podatkov so v primeru napa čne uporabe navzkrižnega preverjanja (izrazito) precenjene, še posebej, ko je neravnotežje v podatkih ve čje. Odvisnost preoptimisti čne ocene od števila spremenljivk V tem delu spreminjamo število spremenljivk 𝑝 = 10, 100, 500, ostali parametri pa so 𝑁 = 500 in 𝑝 =0 . 1 , rezultati so prikazani na sliki 7. Rezultati so zelo podobni kot v prejšnjem primeru, opazimo pa, da z ve čanjem števila spremenljivk ocene postajajo vedno bolj precenjene. Ko se število spremenljivk pove čuje, postaja problem preprileganja bolj izrazit, kar se v primeru napa čne izvedbe navzkrižnega preverjanja bolj pozna na preoptimisti čnih oceni točnosti delovanja razvrš čevalca. 10 Tupkuši ć et al.: Preoptimisti čne ocene to čnosti napovednih modelov izdaja / published by SDMI  http://ims.mf.uni-lj.si/ Slika 7 Navzkrižno preverjana to čnost razvrš čevalca za razli čne velikosti manjšinskega razreda ob skupni uporabi razli čnih metod za uravnoteženje podatkov in različnih izvedb navzkrižnega preverjanja, ko je število enot ve čje od števila spremenljivk. Odvisnost preoptimisti čne ocene od števila enot Tu spreminjamo število 𝑁 = 300, 500, 1000, ostala parametra pa sta 𝑝 = 500 in 𝑝 =0 , 1 . Rezultati so prikazani na sliki 8. Podobno kot v prejšnjem primeru opazimo, da ob manjšanju števila enot v primeru napa čne izvedbe navzkrižnega preverjanja ocene postajajo vedno bolj precenjene. Razlogi so enaki kot v prejšnjem primeru: ko se velikost u čne množice zmanjšuje, se problem preprileganja pove čuje, kar vodi do precenjenih ocen. Informatica Medica Slovenica; 2022; 27(1-2) 11 published by / izdaja SDMI  http://ims.mf.uni-lj.si/ Slika 8 Navzkrižno preverjana to čnost razvrščevalca ob skupni uporabi razli čnih metod za uravnoteženje podatkov in različnih izvedb navzkrižnega preverjanja pri razli čnem številu enot. Zaklju ček Ocenjevanje to čnosti napovednih modelov je pomemben, če ne kar najpomembnejši korak pri razvoju napovednih modelov. Pokazali smo, da v primeru napa čne uporabe navzkrižnega preverjanja v kombinaciji z uporabo metod za uravnoteženje podatkov precenimo to čnost napovednega modela. Naše ocene tedaj nakazujejo, da gre za (zelo) dober napovedni model, dejansko pa je njegovo delovanje zelo slabo. Pojasnili smo razloge za to in predstavili dejavnike, ki vplivajo na preoptimizem: delež enot v manjšinski množici (preoptimizem se pove čuje, ko se delež enot v manjšinski množici zmanjšuje), število spremenljivk (z ve čanjem števila spremenljivk se preoptimizem pove čuje) in število enot (preoptimizem naraš ča z manjšanjem števila enot). Prvi dejavnik je neposredna posledica uvajanja informacije iz u čne množico v testno: pri naklju čnem prevzor čenju v učni in testni množici nastopajo iste enote, ki jih je zaradi preprileganja precej lažje pravilno uvrstiti kot neke enote, ki jih med u čenjem razvrš čevalca nismo vklju čili v u čno množico. Problem preprileganja je seveda bolj izrazit, ko je 12 Tupkuši ć et al.: Preoptimisti čne ocene to čnosti napovednih modelov izdaja / published by SDMI  http://ims.mf.uni-lj.si/ število spremenljivk veliko in ko je število enot majhno, kar pojasnjuje druga dva dejavnika. Pravilna izvedba navzkrižnega preverjanja je torej klju čna, da se izognemo preoprimisti čnim ocenam in pravilno ovrednotimo mo č napovednega modela. Zelo pomembno je, da so vse faze izgradnje modela (najsi gre za uravnoteženje podatkov, izbiro spremenljivk, izbiro najboljšega razvrš čevalca ali nadomeš čanje manjkajo čih vrednosti) del navzkrižnega preverjanja. V nasprotnem primeru lahko v testni množici napačno upoštevamo informacijo iz u čne množice in zato preoptimisti čno ocenimo to čnost napovednega modela. Reference 1. Bishop CM. Pattern recognition and machine learning (information science and statistics). New York 2007: Springer. 2. Ramaswamy S, Ross KN, Lander ES, Golub TR. A molecular signature of metastasis in primary solid tumors. Nat Genet 2003, 33(1): 49-54. https://doi.org/10.1038/ng1060 3. Shipp MA, Ross KN, Tamayo P, et al. Diffuse large B- cell lymphoma outcome prediction by gene-expression profiling and supervised machine learning. Nat Med 2002; 8(1): 68-74. https://doi.org/10.1038/nm0102-68 (15. 10. 2022) 4. I i z u k a N , O k a M , Y a m a d a - O k a b e H , e t a l . Oligonucleotide microarray for prediction of early intrahepatic recurrence of hepatocellular carcinoma after curative resection. Lancet 2003; 361(9361): 923- 929. https://doi.org/10.1016/S0140-6736(03)12775-4 (19. 11. 2022) 5. Sotiriou C, Neo SY, McShane LM, et al. Breast cancer classification and prognosis based on gene expression profiles from a population-based study. Proc Natl Acad Sci USA 2003; 100(18): 10393-10398. https://doi.org/10.1073/pnas.1732912100 (12. 10. 2022) 6. Wang Y, Klijn JG, Zhang Y, et al. Gene-expression profiles to predict distant metastasis of lymph-node- negative primary breast cancer. Lancet 2005; 365(9460): 671-679. https://doi.org/10.1016/S0140-6736(05)17947-1 (12. 10. 2022) 7. Shen R, Ghosh D, Chinnaiyan A, Meng Z. Eigengene- based linear discriminant model for tumor classification using gene expression microarray data. Bioinformatics 2006; 22(21): 2635-2642. https://doi.org/10.1093/bioinformatics/btl442 (10. 9. 2022) 8. Jimeno-Yepes AJ, Plaza L, Mork JG, Aronson AR, Díaz A. MeSH indexing based on automatically generated summaries. BMC Bioinformatics 2013; 14: 208. https://doi.org/10.1186/1471-2105-14-208 (10. 9. 2022) 9. Štotl I, Blagus R, Urban či č-Rovan V. Individualised screening of diabetic foot: creation of a prediction model based on penalised regression and assessment of theoretical efficacy. Diabetologia 2022; 65(2): 291- 300. https://doi.org/10.1007/s00125-021-05604-2 (19. 11. 2022) 10. Tao D, Tang X, Li X, Wu X. Asymmetric bagging and random subspace for support vector machines-based relevance feedback in image retrieval. IEEE Trans Pattern Anal Mach Intell 2006; 28(7): 1088-1099. https://doi.org/10.1109/TPAMI.2006.134 (19. 11. 2022) 11. He H, Garcia EA. Learning from imbalanced data. IEEE Trans Knowl Data Eng 2009; 21(9):, 1263-1284. https://doi.org/10.1109/TKDE.2008.239 (5. 9. 2022) 12. B l a g u s R , L u s a L . C l ass prediction for high- dimensional class-imbalanced data. BMC Bioinformatics. 2010; 11: 523. https://doi.org/10.1186/1471-2105-11-523 (13. 8. 2022) 13. Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: synthetic minority over-sampling technique. J Artif Intell Res 2002; 16: 341-378. https://doi.org/10.1613/jair.953 (5. 9. 2022) 14. Liu XY, Wu J, Zhou ZH. Exploratory undersampling for class-imbalance learning. IEEE Trans Syst Man Cybern B Cybern 2009; 39(2): 539-550. https://doi.org/10.1109/TSMCB.2008.2007853 (10. 9. 2022) 15. Lin WJ, Chen JJ. Class-imbalanced classifiers for high- dimensional data. Brief Bioinform 2013; 14(1): 13-26. https://doi.org/10.1093/bib/bbs006 (14. 10. 2022) 16. Galar M, Fernandez A, Barrenechea E, Bustince, H, Herrera F. A review on ensembles for the class imbalance problem: bagging-, boosting-, and hybrid- based approaches. IEEE Trans Syst Man Cybern, Part C Appl Rev 2012 42(4): 463-484. https://doi.org/10.1109/TSMCC.2011.2161285 (20. 10. 2022) 17. Blagus R, Lusa L. SMOTE for high-dimensional class- imbalanced data. BMC Bioinformatics 2013; 14: 106. https://doi.org/10.1186/1471-2105-14-106 (17. 11. 2022) 18. Hastie T, Tibshirani R, Friedman J. The elements of statistical learning: data mining, inference, and prediction. New York 2003: Springer. 19. Hoerl AE, Kennard RW. Ridge regression: biased estimation for nonorthogonal problems. Technometrics 1970; 12(1): 55-67. https://doi.org/10.1080/00401706.1970.10488634 (20. 10. 2022) 20. Schaefer RL, Roi LD, Wolfe RA. A ridge logistic estimator. Commun Stat Theory Methods 1984; 13(1): 99- 113. https://doi.org/10.1080/03610928408828664 (3. 11. 2022) 21. Zhu J, Hastie T. Classification of gene microarrays by penalized logistic regression. Biostatistics 2004; 5(3): 427-443. https://doi.org/10.1093/biostatistics/5.3.427 (18. 11. 2022) 22. Goeman J, Meijer R, Chaturvedi N, Lueder M. L1 (lasso and fused lasso) and L2 (ridge) penalized estimation in Informatica Medica Slovenica; 2022; 27(1-2) 13 published by / izdaja SDMI  http://ims.mf.uni-lj.si/ GLMs and in the Cox model. 2014. http://CRAN.R-project.org/package=penalized (20. 10. 2022) 23. Blagus R, Goeman JJ. Mean squared error of ridge estimators in logistic regression. Stat Neerl 2020; 74(2): 159-191. https://doi.org/10.1111/stan.12201 (10. 9. 2022) 24. Pepe MS. The statistical evaluation of medical tests for classification and prediction. New York 2003: Oxford University Press. 25. Blagus R, Goeman JJ. What (not) to expect when classifying rare events. Brief Bioinform 2018; 19(2): 341- 349. https://doi.org/10.1093/bib/bbw107 (20. 10. 2022) 26. Fawcett T. An introduction to ROC analysis. Pattern Recognit Lett 2006; 27(8): 861-874. https://doi.org/10.1016/j.patrec.2005.10.010 (10. 9. 2022) 27. Perme MP, Manevski D. Confidence intervals for the Mann-Whitney test. Stat Methods Med Res 2019; 28(12): 3755-3768. https://doi.org/10.1177/0962280218814556 (18. 11. 2022) 28. Blagus R, Lusa L. Improved shrunken centroid classifiers for high-dimensional class-imbalanced data. BMC Bioinformatics 2013; 14: 64. https://doi.org/10.1186/1471-2105-14-64 (3. 11. 2022) 29. Simon R, Radmacher MD, Dobbin K, McShane LM. Pitfalls in the use of DNA microarray data for diagnostic and prognostic classification. J Natl Cancer Inst 2003; 95(1): 14-18. https://doi.org/10.1093/jnci/95.1.14 (20. 10. 2022) 30. Ambroise C, McLachlan GJ. Selection bias in gene extraction on the basis of microarray gene-expression data. Proc Natl Acad Sci U S A 2002; 99(10) :6562-6566. https://doi.org/10.1073/pnas.102102699 (6. 10. 2022) 31. Taft LM, Evans RS, Shyu CR, et al. Countering imbalanced datasets to improve adverse drug event predictive models in labor and delivery. J Biomed Inform 2009; 42(2): 356-364. https://doi.org/10.1016/j.jbi.2008.09.001 (8. 10. 2022) 32. López-de-Uralde J, Ruiz I, Santos I, et al. Automatic morphological categorisation of carbon black nano- aggregates. In: Bringas PG, Hameurlain A, Quirchmayr G (eds). Database and Expert Systems Applications. DEXA 2010. Lecture Notes in Computer Science, vol 6262. Berlin, Heidelberg 2010: Springer: 185-193. https://doi.org/10.1007/978-3-642-15251-1_15 (3. 11. 2022) 33. Naseriparsa M, Kashani MM. Combination of PCA with SMOTE resampling to boost the prediction rate in lung cancer dataset. Int J Comput Appl 2013; 77(3): 33-38. https://doi.org/10.5120/13376-0987 (16. 11. 2022) 34. B l a g u s R , L u s a L . J o i n t u s e o f o v e r - a n d u n d e r - sampling techniques and cross-validation for the development and assessment of prediction models. BMC Bioinformatics 2015; 16: 363. https://doi.org/10.1186/s12859-015-0784-9 (3. 11. 2022) 35. Japkowicz N. The Class Imbalance Problem: Significance and Strategies. In: Proceedings of the 2000 International Conference on Artificial Intelligence ICAI, 2000. 36. Rahman MM, Davis D. Cluster based under-sampling for unbalanced cardiovascular data. In: Proceedings of the World Congress on Engineering, vol. 3, London 2013: 3-5. https://www.iaeng.org/publication/WCE2013/WCE20 13_pp1480-1485.pdf (3. 11. 2022) 37. Zhang JP, Mani I. KNN Approach to unbalanced data distributions: a case study involving information extraction. In: Proceeding of International Conference on Machine Learning (ICML 2003), Workshop on Learning from Imbalanced Data Sets. Washington 2003: 1-7. 38. Cover TM, Hart PE. Nearest neighbor pattern classification. IEEE Trans Inf Theory 1967 13(1): 21-27. https://doi.org/10.1109/TIT.1967.1053964 (20. 10. 2022) 39. Forman G, Scholz M. Apples-to-apples in cross- validation studies: pitfalls in classifier performance measurement. SIGKDD Explor Newsl 2010; 12(1): 49- 57. https://doi.org/10.1145/1882471.1882479 (10. 9. 2022) 40. Cox DR, Hinkley DV. Theoretical statistics. New York 1979: CRC Press. 41. Le Cessie S, Van Houwelingen JC. Ridge estimators in logistic regression. J R Stat Soc Ser C Appl Stat 1992; 41(1): 191-201. https://doi.org/10.2307/2347628 (3. 11. 2022)