URN_NBN_SI_DOC-RKSH48DC
SIR * IUS, september 2020 78 3.3.3. N EUSTREZNA PRIPRAVA PODATKOV Za strojno učenje je zelo pomembno, v kakšni obliki so podatki, ki jih uporabljamo za učenje. Včasih lahko že preprosta normalizacija podatkov ali pretvorba iz numeričnih vrednosti v kategorične omogoči bistveno izboljšanje. Priprava podatkov je seveda zelo odvisna od vrste naloge strojnega učenja, izbranega algoritma in nemalokrat tudi konkretnega uporabljenega orodja. 3.3.4. Č LOVEŠKA PRISTRANSKOST Izbiro algoritmov in ovrednotenje rezultatov opravijo ljudje, ki so lahko (nevede) pristranski. Znano je, da ljudje najraje izbirajo rešitve, ki jih dobro poznajo. Tako bo posameznik, ki je imel v preteklosti dobre izkušnje z nekim algoritmom, le-tega z večjo verjetnostjo izbral tudi za naslednjo nalogo, pa čeprav ne bo optimalen za tako nalogo. Podobno so ljudje, ki morajo ocenjevati kakovost rešitev, h katerim so sami prispevali (z zasnovo procesa strojnega učenja), nagnjeni k pretirano optimističnim ocenam. Prav tako lahko v želji po čim boljšem rezultatu (spet nevede) v postopek gradnje napovednih modelov vnesejo prepovedane informacije (uhajanje podatkov), kar prispeva k bistveno slabšim rezultatom v produkcijskem okolju od predvidenih z opravljenimi testi. Da bi se izognili tovrstnim pastem, je treba dosledno sistematično preverjati pravilnosti opravljenih korakov. 3.3.5. I ZBIRA PRIMERNEGA ALGORITMA Dejansko ne obstaja noben algoritem strojnega učenja, ki bi bil univerzalno najboljši. Zato je izbira ustreznega algoritma glede na izkazane potrebe, zbrane podatke in namen rešitve izredno pomembna. Vsak algoritem ima svoje prednosti in slabosti, zato izbira napačnega kvečjemu poslabša poslovni rezultat. Teoretično bi seveda lahko za vsako nalogo preskusili kopico različnih algoritmov in izbrali najboljšega, vendar v praksi tak pristop ne deluje, saj izredno poveča kompleksnost samega procesa. Za dobro evalvacijo modelov je namreč še zmeraj potrebno človeško posredovanje. Zato je pri izbiri algoritma treba dobro poznati in ustrezno pretehtati lastnosti posameznih algoritmov. Prav posebno tveganje pri izbiri algoritmov je izbira najnovejših in domnevno najuspešnejših algoritmov za vsako ceno. Izkušeni strokovnjaki dobro vedo, da najnovejši in najkompleksnejši algoritmi nikakor niso najboljša izbira v vseh primerih.
RkJQdWJsaXNoZXIy