URN_NBN_SI_DOC-RKSH48DC

SIR * IUS, september 2020 80 Razvoj podatkovnih tehnologij je omogočil, da lahko danes v podjetjih brez večjih težav ohranijo prav vse generirane in zajete podatke. Izkaže se namreč, da lahko podatki, ki trenutno nimajo neposredne uporabne vrednosti, pripomorejo k sprejemanju ključnih odločitev v prihodnosti. S podatkovnimi bazami tipa NoSQL in sistemi, kot je npr. Hadoop, je postalo shranjevanje in obdelava ogromnih količin podatkov zelo preprosto. Na osnovi teh ogromnih količin podatkov lahko algoritmi strojnega učenja nato zelo točno napovedujejo prihodnje rezultate. Podobno kot podatkovne tehnologije eksponentno narašča tudi računska zmogljivost sodobnih računalniških sistemov. S prehodom na uporabo storitev v oblaku pa lahko tudi manjša podjetja uporabljajo zmogljivo infrastrukturo [7] . Izkaže pa se, da tudi izkušeni podatkovni znanstveniki in razvijalci podležejo nesistematičnosti in pomanjkanju organiziranosti, zlasti pri delu na velikih in zapletenih projektih. Tako lahko že globoko v fazi učenja modela ugotovimo, da nam manjkajo ključne informacije, ali da izbrane značilnice vodijo v predčasno konvergenco oz. slabo napovedno učinkovitost. Vse prepogosto se lahko uresniči nočna mora podatkovnih znanstvenikov, ko se nameščen model strojnega učenja v produkcijskem okolju na realnih podatkih odziva bistveno slabše kot na uporabljeni testni množici. 4.1. Proces odkrivanja znanja v podatkih v industriji Mnogo teh potencialnih težav je možno dovolj zgodaj prepoznati ali celo v celoti preprečiti z uporabo ustreznega procesa razvoja tovrstnih rešitev; eden izmed takšnih je odprti standard CRISP-DM (Cross-Industry Standard Process for Data Mining) [8] , diagram katerega je prikazan na sliki 3. CRISP-DM je odprti standardni procesni model, ki zajema in določa ključne pristope, uporabljene s strani strokovnjakov za strojno učenje in podatkovno rudarjenje. Je niz napotkov in smernic, ki pomagajo načrtovati, organizirati in izvesti projekt inteligentne analize podatkov. Razumevanje domene (Business understanding). Neverjetno pogosto se začne proces strojnega učenja brez ustrezne analize problema in opredelitve jasnih ciljev. Težava sicer ni specifična le pri rešitvah umetne inteligence, pač pa pri praktično vseh aktivnostih reševanja problemov. Tako je ključno razumeti namen vpeljave strojnega učenja in jasno opredeliti problem. Praviloma je treba opredeliti dovolj specifična, ozka vprašanja, na katera bomo skušali odgovoriti z razvito rešitvijo. Razumevanje podatkov (Data understanding). Podatki so osnova strojnega učenja. V ta namen je njihovo popolno razumevanje ključno za zagotavljanje uspešnih rešitev umetne inteligence. Praviloma vključuje naslednje korake: