URN_NBN_SI_DOC-RKSH48DC
Tveganja in možnosti kontrol pri rešitvah umetne inteligence 81 • določanje nabora potrebnih podatkov, • zbiranje podatkov, če podatki oz. njihov vir še ni na voljo, • raziskovanje podatkov, • preverjanje kakovosti podatkov. Priprava podatkov (Data preparation). Ko razumemo, s kakšnimi surovimi podatki imamo opravka, jih pripravimo za analizo in modeliranje (učenje modelov znanja). Priprava in predobdelava podatkov je časovno najzahtevnejše opravilo. Običajno je najmanj cenjeno oz. nagrajeno, a hkrati zagotovo najpomembnejše opravilo celotnega procesa. Katerakoli inteligentna rešitev, zgrajena nad neustreznimi ali celo napačnimi podatki, ne more dati dobrega rezultata; šele kakovostni podatki lahko omogočijo potencialno uspešno rešitev. Priprava podatkov praviloma zajema naslednje korake: • čiščenje podatkov, • priprava značilnic (feature engineering), ki vključuje izbiro značilnic (feature selection) in gradnjo značilnic (feature construction), • integracija oz. zlivanje podatkov. Slika 3: Diagram poteka procesa odkrivanja znanja v podatkih CRISP-DM (Cross-Industry Standard Process for Data Mining) [8]
RkJQdWJsaXNoZXIy