URN_NBN_SI_DOC-RKSH48DC

Tveganja in možnosti kontrol pri rešitvah umetne inteligence 77 3.2.3. U STVARJANJE TEHNIČNEGA DOLGA Tehnični dolg se v okviru razvoja programske opreme nanaša na situacije, v katerih se razvijalci odločajo za kodo, ki sicer deluje in jo je mogoče enostavno implementirati v kratkem času, ni pa dolgoročno ustrezna z vidika vzdrževanja. Pri uporabi strojnega učenja je možnosti za ustvarjanje tehničnega dolga zelo veliko – prepletajoči se cevovodi, neupoštevana odvisnost med podatki, skrite povratne zanke ... Problemu tehničnega dolga se lahko izognemo z upoštevanjem inženirskega pristopa pri razvoju. Pomembno se je zavedati, da so podatkovni znanstveniki nagnjeni predvsem k izboljševanju rezultatov in manj h kakovosti same programske kode. 3.3. Izvedbene (operativne) pasti strojnega učenja Izvedbene pasti so vse tiste, v katere se zlahka ujamemo pri sami implementaciji inteligentnih rešitev. Čeprav imajo težave, ki so posledica ujetja v izvedbene pasti, praviloma najbolj omejene posledice in si jih da odpraviti z manj vloženega truda kot taktične ali celo strateške napake, pa lahko vendarle tudi te pripeljejo do nedelujoče rešitve. Izvedbenim pastem se morajo biti sposobni izogniti predvsem sami razvijalci. 3.3.1. N APAČNA IZBIRA ZNAČILNIC Z vidika kakovosti morajo biti podatki po eni strani čim točnejši, zanesljivejši in brez šuma, po drugi pa vsebinsko takšni, da je iz njih sploh mogoče napovedati želeni rezultat. Za vsebinsko ustreznost podatkov je ključnega pomena pravilna izbira značilnic (atributov), ki jih bomo uporabili v fazi učenja napovednih modelov. Izbira ustreznih značilnic ni preprosta naloga, ki je v veliki meri odvisna od poznavanja same domene in konkretnega problema, ki ga skušamo rešiti. V splošnem velja, da je izbira ustreznih značilnic ena najpomembnejših nalog pri strojnem učenju, celo pomembnejša od izbire primernega algoritma. 3.3.2. P REMALO ( USTREZNIH ) PODATKOV Preprosto dejstvo je, da je uspešnost strojnega učenja odvisna od podatkov, na katerih se sistem uči. Pri tem sta pomembna tako kakovost samih podatkov kot njihova količina. Z vidika količine podatkov seveda velja, da lahko boljše rezultate dosežemo s čim večjo količino podatkov. Je pa pri tem zanimivo, da nad manjšo količino podatkov bolje delujejo nekateri klasični učni algoritmi, medtem ko najnaprednejše tehnike globokega učenja dosegajo boljše rezultate šele nad zelo veliko količino podatkov.