U P O R A B N A I N F O R M A T I K A 172017 - πtevilka 1 - letnik XXV 1Mateja Grobelnik, 2Jurij JakliË 1Petrol, d. d., Dunajska cesta 50, 1000 Ljubljana 2Univerza v Ljubljani, Ekonomska fakulteta, Kardeljeva ploπËad 17, 1000 Ljubljana mateja.grobelnik@gmail.com; jurij.jaklic@ef-uni-lj.si 1 UVOD Stroπkovno uËinkovito shranjevanje podatkov, konvergenca pametnih naprav, druæbenih omreæij, πirokopasovnih komuni- kacij in analitike so na novo definirali odnose med proizvajal- ci, distributerji ter potroπniki izdelkov in storitev, hkrati pa ustvarili nove izzive in priloænosti. Olofson in Vesset (2012) to konvergenco imenujeta inteligentna ekonomija. Sama zmoænost shranjevanja in dostop do podatkov namreË nista dovolj, πele ko imamo moænost podatke analizirati in na pod- lagi rezultatov sprejemati boljπe odloËitve, ustvarjamo kon- kurenËno prednost (Olofson in Vesset, 2012). PoveËali smo si moænosti zajema veliko veËje koliËine podatkov razliËnih tipov, ki nastajajo z veliko hitrostjo. Znanja in sposobnosti podatkovnih znanstvenikov: pregled in analiza stanja v Sloveniji IzvleËek Masovne podatke in znanost o podatkih so organizacije prepoznale kot vira novih konkurenËnih prednosti. Z namenom izkoriπËanja tega potenci- ala se je poveËalo povpraπevanje po posameznikih s specifiËnimi znanji in sposobnostmi, ki so sposobni iz mnoæice raznolikih podatkov pridobiti koristne informacije in jih na razumljiv naËin implementirati v obstojeËe procese in aktivnosti v organizaciji, po t. i. podatkovnih znanstvenikih. Z neprestanim razvojem podroËja znanosti o podatkih in ob raznolikih potrebah po analitiËnih znanjih prihaja do razliËnega razumevanja vloge podat- kovnih znanstvenikov, hkrati pa se veËa vrzel med ponudbo in povpraπevanjem po takπnih posameznikih. Namen prispevka je zato prispevati k boljπemu razumevanju ter opredelitvi znanja in sposobnosti podatkovnih znanstvenikov, s pomoËjo raziskave v Sloveniji pa ugotoviti trenutna znanja in sposobnosti ter identificirati segmente podatkovnih znanstvenikov v Sloveniji. Na podlagi razvrπËanja v skupine samoocene znanj je bilo identificiranih in opisanih pet skupin: træenjski raziskovalci analitiki, podatkovni analitiki, raziskovalci, programerji in podatkovni znanstveniki, skupaj s priporoËili za njihov nadaljnji razvoj. KljuËne besede: masovni podatki, znanost o podatkih, podatkovni znanstvenik, sposobnosti, znanja, razvrπËanje v skupine, empiriËna raziskava. Abstract Knowledge and Skills of Data Scientists: Overview and Analysis of Current Situation in Slovenia Big data and data science have been recognized by organizations as sources of a new competitive advantage. In order to exploit theis potential, there has been an increase in demand for individuals with specific knowledge and skills wht are capable of obtaining useful information from a set of diverse data and implement it into existing processes and activities in an organization, that ie so-called data scientists. Due to the continuous development of the data science field and the diverse needs for analytical knowledge, the understanding of the role of data scientists deviates greatly, while the gap between supply and demand for such individuals is also increasing. Therefore, the objective of this paper is to contribute to a better understanding and definition of the knowledge and skills of data scientists, and to identify the current knowledge and skills together with the segments of data scientists through empirical research in Slovenia. Five segments were identified and described: “Marketing researchers ‡ analysts”, “Data analysts”, “Researchers”, “Developers« and “Data Scientists”, together with recommendations for their future development. Keywords: big data, data science, data scientist, skills, knowledge, clustering, empirical research. ZNANSTVENI PRISPEVKI U P O R A B N A I N F O R M A T I K A18 2017 - πtevilka 1 - letnik XXV Mateja Grobelnik, Jurij JakliË: Znanja in sposobnosti podatkovnih znanstvenikov: pregled in analiza stanja v Sloveniji Ti podatki prihajajo iz razliËnih (ne)zaupanja vred nih virov, ki lahko organizaciji prinesejo dodano vrednost. Navedeni koncepti se povezujejo s pojmo­ ma masovni podatki (angl. big data) in znanost o po­ datkih (angl. data science). »e so se na eni strani po­ veËale moænosti zbiranja in shranjevanja podatkov, so se po drugi strani razvile tudi nove tehnologije na podroËju strojne in programske opreme za analizo in obdelavo veËje koliËine podatkov. Skupaj z razvojem tega podroËja se je pojavila potreba po specifiËnih znanjih, s pomoËjo katerih je mogoËe iz velike koliËine razliËnih podatkov prido­ biti uporabne informacije za izboljπanje poslovnih odloËitev. Kot enega glavnih izzivov pri uvajanju strategije masovnih podatkov in znanosti o podatkih navajajo pomanjkanje posameznikov s specifiËnimi znanji in sposobnostmi ustvarjanja dodane vrednosti s pomoËjo manipulacije s podatki (Big Data Execu­ tive Survey, 2012). Na podlagi te potrebe po novih znanjih s podroËja analitike masovnih podatkov se poveËuje povpraπevanje po podatkovnih znanstve­ nikih (angl. data scientists). Raziskava MGI in McKinsey’s Business Technolo­ gy Office (Manyika idr., 2011) napoveduje, da bo do leta 2018 samo v ZDA nastala od 50­ do 60­odstotna vrzel med ponudbo in povpraπevanjem po poglob­ ljenem analitiËnem znanju, torej pomanjkanje od 140.000 do 190.000 posameznikov z naprednimi zna­ nji na podroËju statistike ali strojnega uËenja in 1,5 milijona menedæerjev in analitikov s sposobnostmi uporabe analitike masovnih podatkov za sprejema­ nje uËinkovitih odloËitev. »eprav so analizo opravili v ZDA, menijo, da bo pomanjkanje poglobljenega analitiËnega talenta svetovni trend. Dræave z viπjim πtevilom posameznikov s poglobljenim analitiËnim znanjem na prebivalca bodo v prihodnosti privlaËen vir teh sposobnosti za druga geografska podroËja prek migracije ali prek zaposlitev v organizacijah. Po Gartnerju so napovedali, da bo do leta 2015 4,4 milijona delovnih mest na podroËju informatike po svetu namenjenih podpori delu z masovnimi podat­ ki (Chordas, 2014, str. 23). Povpraπevanje zajema vse od inæenirjev masovnih podatkov (angl. big data en­ gineer), podatkovnih analitikov (angl. data analyst) do poslovnih analitikov (angl. business analyst). Naj­ veËji izziv pa naj bi bilo najti podatkovne znanstveni­ ke, saj gre za posameznike, ki imajo kljuËno vlogo pri uporabi masovnih podatkov: podatke priskrbijo in jih uporabijo za poslovne odloËitve (Chordas, 2014, str. 23). V sklopu raziskave New Vantage Partners Big Data Executive Survey (2012, str. 8) so ugotovili, da ima kar 70 odstotkov vpraπanih odloËevalcev v organizacijah na podroËju masovnih podatkov na­ men zaposliti podatkovne znanstvenike, vendar jih 80 odstotkov meni, da je to zanje velik izziv. Namen prispevka je zato prispevati k razumeva­ nju ter opredelitvi znanja in sposobnosti podatkovnih znanstvenikov, s pomoËjo raziskave med podatkov­ nimi znanstveniki v Sloveniji pa ugotoviti trenut na znanja in sposobnosti ter z uporabo razvrπËanja v skupine identificirati segmente podatkovnih znan­ stvenikov v Sloveniji. Z opredelitvijo masovnih po­ datkov, prek procesa izvajanja znanosti o podatkih ter s pregledom literature in raziskav so bile identificira­ ne razliËne sposobnosti in podroËja znanj podatkov­ nih znanstvenikov. 92 posameznikov v Sloveniji, ki se veËino Ëasa ukvarjajo s podatki, je izpolnilo strukturi­ ran spletni vpraπalnik, ki je vkljuËeval vpraπanja, po­ vezana z dimenzijami masovnih podatkov, samooce­ no znanj, pomembnostjo znanj in sposobnosti, njiho­ vimi dosedanjimi izkuπnjami ter naËini izobraæevanja. Z uporabo razvrπËanja v skupine so bili identificirani segmenti podatkovnih znanstvenikov. V drugem razdelku je predstavljen koncept ma­ sovnih podatkov in znanosti o podatkih. V nada­ ljevanju so opredeljena znanja in sposobnosti po­ datkovnih znanstvenikov, ki so bili uporabljeni pri oblikovanju vpraπalnika. Tretji razdelek vkljuËuje metodologijo empiriËne raziskave o znanjih in spo­ sobnostih podatkovnih znanstvenikov v Sloveniji, znaËilnosti vzorca ter rezultate raziskave. Na koncu so podane sklepne ugotovitve. 2 MASOVNI PODATKI IN ZNANOST O PODATKIH 2.1 Opredelitev masovnih podatkov Posamezniki in organizacije z vsakodnevnim delova­ njem danes ustvarimo veË podatkov kot kadar koli do sedaj. Podatki nastajajo povsod: na druæbenih me­ dijih (angl. social media), kot so Twitter, Facebook, LinkedIn, Instagram itd., spletnih straneh, ob izvedbi nakupnih transakcij, ob aktivaciji GPS signalov mo­ bilnih telefonov, z uporabo RFID znaËk, na mobilnih aplikacijah, in prav vse te podatke je mogoËe shraniti v digitalni obliki. Masovni podatki danes veljajo za popularen trend, ki se v bistvu nanaπa predvsem na problem volumna/hitrosti/raznolikosti podatkov (angl. Volume/Velocety/Variety problem). Glavna U P O R A B N A I N F O R M A T I K A 192017 - πtevilka 1 - letnik XXV Mateja Grobelnik, Jurij JakliË: Znanja in sposobnosti podatkovnih znanstvenikov: pregled in analiza stanja v Sloveniji prednost masovnih podatkov je, da lahko s pomoËjo analize le­teh pridobimo zanimive vzorce in informa­ cije, ki so bili poprej skriti, saj jih zaradi velike koliËine dela in Ëasa ni bilo mogoËe pridobiti. Sedaj pa jih lah­ ko uporabimo za analizo, sprejemanje odloËitev ter razvoj novih produktov, kar pomeni znatno konku­ renËno prednost (Lorica, Howard in Dumbill, 2012). Zaradi dejstva, da pojem masovni podatki in vse, kar dojemamo pod strategijo vpeljave masovnih po­ datkov, vpliva in zajema πirok nabor poslovnih pro­ cesov, tehnologij in strokovnih znanj, lahko na izraz masovni podatki gledamo v oæjem in πirπem smislu. »e na izraz gledamo v oæjem smislu, gre predvsem za opredelitev tega, kakπne znaËilnosti morajo ime­ ti podatki, da jih lahko opredelimo kot masovne. VeËina definicij masovnosti podatkov ne povezuje le s koliËino podatkov (volumen), temveË so enako pomembne tudi druge dimenzije podatkov: hitrost, s katero nastajajo podatki, raznolikost virov/struk­ ture podatkov ter vrednost podatkov (najpogosteje omenjene). Volumen kot dimenzija masovnih podatkov se nanaπa na velike koliËine podatkov, ki se dejansko tudi shranijo, saj so se stroπki shranjevanja podatkov obËutno pocenili (npr. danes lahko shranimo celotno svetovno zalogo glasbe na napravo v vrednosti 500 dolarjev) (Dhar, 2013, str. 67). Glavna prednost je, da lahko s pomoËjo veËjih vzorcev, ki so boljπi pribliæek populaciji, gradimo bolj natanËne napovedne mo­ dele. VeËanje nabora podatkov pomeni izziv ob­ stojeËim tradicionalnim strukturam informacijskih tehnologij, saj masovni podatki zahtevajo razπirljivo skladiπËenje in porazdeljen pristop k poizvedovanju. Reπitve so na voljo v obliki podatkovnih skladiπË ali reπitev, ki izhajajo iz Apache Hadoop (Lorica, Ho­ ward in Dumbill, 2012). Hitrost se nanaπa na vedno veËjo stopnjo hitro­ sti, s katero pridobivamo podatke. Pomembnost di­ menzije hitrosti masovnih podatkov leæi v hitrosti povrat ne zanke. To pomeni, da je treba delovati in ukrepati na podlagi podatkov v realnem Ëasu. Bolj tesna je zanka, veËja je konkurenËna prednost (Lori­ ca, Howard in Dumbill, 2012). Tehnologija dimenzije hitrosti masovnih podatkov sega od paketne obde­ lave (angl. batch processing) ob doloËenih interva­ lih do konstantnega toka podatkov (angl. streaming data) v realnem Ëasu (Olofson in Vesset, 2012, str. 5). Raznolikost podatkov lahko opredelimo z vidika veË razliËnih dimenzij. Podatki so lahko opredelje­ ni z vidika podatkovnega tipa (strukturirani, delno strukturirani in nestrukturirani ipd.), vira pridobitve (notranji, zunanji) ter izvora (generirajo jih naprave ali Ëlovek) (Hayes, 2014a). Bistvo tretje dimenzije ma­ sovnih podatkov, tj. raznolikosti podatkov, je v tem, da lahko kljub razliËnim virom, razliËnemu izvo­ ru in nestrukturiranosti podatkov iz njih izluπËimo Slika 1: Ogrodje za opredelitev raznolikost podatkov Vir: B. E. Hayes, The what and where of big data: A data definition framework, 2014a. U P O R A B N A I N F O R M A T I K A20 2017 - πtevilka 1 - letnik XXV Mateja Grobelnik, Jurij JakliË: Znanja in sposobnosti podatkovnih znanstvenikov: pregled in analiza stanja v Sloveniji urejeno znanje, ki ga lahko uporabi Ëlovek ali pa ga uporabimo kot vhodne podatke v aplikacijo (Lorica, Howard in Dumbill, 2012). Slika 1 prikazuje ogrod­ je za opredelitev raznolikosti podatkov po Hayesu (2014a). Model razloËuje tip podatkov od vira pri­ dobitve podatkov. Stolpca predstavljata tip podat­ kov (strukturirani ali nestrukturirani), vrstice pa vir pridobitve podatkov (zunanji ali notranji). Podatki so tako lahko razporejeni v enega od πtirih kvadran­ tov, pri Ëemer je nadaljnja razdelitev narejena πe na ravni izvora podatkov (ki jih generirajo naprave ali Ëlovek). Vrednost podatkov se nanaπa na stroπke tehnolo­ gije in na vrednost, ki jo lahko pridobimo iz masov­ nih podatkov. Stroπki so pomembni predvsem zato, ker pomenijo kljuËni faktor novosti v masovnih podatkih. Kombinacija razpoloæljive programske opreme in niæanje cen strojne opreme je povzroËi­ la, da so tehnologije laæje dostopne. Vrednost ma­ sovnih podatkov lahko opredelimo z niæjimi stroπki kapitala (programske in strojne opreme ter infra­ strukture), operativno uËinkovitostjo (niæji stroπki dela zaradi uporabe bolj uËinkovitih metod za inte­ gracijo, menedæment, analizo in dostavo podatkov) in izboljπanjem poslovnih procesov (poveËanje pri­ hodkov ali dobiËka na raËun novih ali boljπih naËi­ nov poslovanja, vkljuËujoË izboljπave v komercial­ nih transakcijah, trajnem menedæmentu skupnosti in primerni distribuciji socialnih, zdravstvenih in izobraæevalnih storitev) (Olofson in Vesset, 2012, str. 6). Kako kvantificirano opredeliti volumen, hitrost in raznolikost, povzema klasifikacija po IDC (Vesset idr., 2012, str. 2), prikazana v sliki 2. V sklop trga ma­ sovnih podatkov se vkljuËuje podatkovne baze (ne glede na to, ali gre za relacijske ali ne), ki presegajo 100 TB, ki so implementirane na razπirljivi arhitek­ turi in ki vsebujejo podatke iz dveh ali veË virov/ podatkovnih tipov ali ko je stopnja hitrosti zbiranja podatkov zelo visoka. Podobno lahko za masov­ ne opredelimo podatkovne baze, katerih koliËina je sicer manjπa kot 100 TB, vendar je letna stopnja ra­ sti generiranih podatkov 60­odstotna ali veË, poleg tega so implementirane na razπirljivi infrastrukturi in vkljuËujejo podatke dveh ali veË tipov/virov, ali ko je stopnja hitrosti zbiranja podatkov zelo visoka (Vesset idr., 2012, str. 2). Na podlagi opisanih dimen­ zij lahko ugotovimo, da lahko podatke opredelimo kot masovne v oæjem smislu takrat, ko ustrezajo vsaj dvema od treh dimenzij masovnih podatkov (vo­ lumen, hitrost, raznolikost), vendar vedno z name­ nom prinaπanja vrednosti (Ëetrta dimenzija) organi­ zaciji v obliki niæjih stroπkov, veËje uËinkovitosti ali izboljπanja poslovnih procesov. Iz opisanih znaËilnosti masovnih podatkov lah­ ko ugotovimo tudi, da ni dovolj, da jih le opredeli­ mo. Treba jih je shraniti, imeti moænost dostopa do njih ter znanja, sposobnosti in orodja, da jih lahko Slika 2: Kriteriji za opredelitev masovnih podatkov po IDC Vir: D. Vesset idr., Wordlwide Big Data Technology and Services 2012-2016 Forecast., 2012, str. 2, slika 1. KoliËina zbranih podatkov presega 100 TB Podatke pridobimo preko zelo hitrega toka podatkov Stopnja rasti generiranih podatkov znaša veË kot 60 % letno Implementirano na razπirljivi infrastrukturi Dva ali veË podatkovnih tipov ali virov podatkov Tok podatkov z veliko hitrostjo Tehnologija masovnih podatkov Volumen Hitrost RazliËnost Vrednost U P O R A B N A I N F O R M A T I K A 212017 - πtevilka 1 - letnik XXV Mateja Grobelnik, Jurij JakliË: Znanja in sposobnosti podatkovnih znanstvenikov: pregled in analiza stanja v Sloveniji ustrezno obdelamo in rezultate obdelav uporabimo za sprejemanje boljπih odloËitev. Zaradi omenjene veËdimenzionalnosti podatkov in novega pristopa k obdelavi je oËitno, da masovni podatki potrebu­ jejo nov pristop, novo strojno in programsko opre­ mo ter druge spremembe, povezane z organizacijo, kulturo in sprejemanjem odloËitev. Masovni podatki tako v πirπem smislu po IDC (Vesset idr., 2012, str. 1) flpredstavljajo novo generacijo tehnologij in arhitek­ turnih reπitev, katerih namen je pridobiti ekonomsko vrednost iz velike koliËine razliËnih tipov podatkov s pomoËjo visoko intenzivnega shranjevanja, raz­ iskovanja in analize teh podatkov«. Tudi Boyd in Crawford (2012) v Ëlanku Critical questions for Big Data, objavljenem v Information, Communications and Society Journal, definirata masovne podatke kot kulturni, tehnoloπki in znanstveni fenomen, ki temelji na prepletanju tehnologije (maksimiziranje raËunalniπke moËi in natanËnosti algoritmov za zbi­ ranje, povezovanje in primerjavo velikega nabora podatkov), analize (zmoænost iz velikega nabora po­ datkov identificirati vzorce z namenom, da pridobi­ mo ekonomsko, tehniËno, druæbeno ali pravno pred­ nost/odloËitev) in mitologije (sploπno razπirjenega spoznanja, da veliki nabori podatkov zagotavljajo viπjo stopnjo inteligence in znanja, ki lahko ustvarijo vpoglede, ki so bili prej nemogoËi, v duhu resnice, natanËnosti in objektivnosti). 2.2 Znanost o podatkih Ravno v πirπem smislu razumevanja masovnih po­ datkov so ti tesno povezani s podroËjem znanosti o podatkih. PodroËje znanosti o podatkih predstavlja reπitev, kako odkriti potencialne vpoglede, ki se skri­ vajo v masovnih podatkih, in kako premostiti izziv volumna/hitrosti/raznolikosti/vrednosti masovnih podatkov (Voulgaris, 2014, str. 15). Masovni podatki predstavljajo gonilo sprememb na podroËjih zbiranja, shranjevanja, menedæmenta, analiziranja in vizualiza­ cije podatkov. Vendar pa masovni podatki potrebujejo znanost o podatkih z namenom, da (Somohano, 2013):  na podlagi podatkov odkrijemo, Ëesar ne vemo,  pridobimo napovedni vpogled v podatke, na pod­ lagi katerega lahko sprejemamo boljπe odloËitve,  ustvarimo nove izdelke in storitve na podlagi podatkov (angl. data products), ki imajo takojπen vpliv na poslovanje,  komuniciramo uspeπne poslovne zgodbe na pod­ lagi podatkov,  gradimo zaupanje v sprejemanje odloËitev, ki prinaπajo poslovno vrednost. Definicije znanosti o podatkih danes veËinoma govorijo o interdisciplinarnem podroËju ‡ kombina­ ciji znanj in sposobnosti z razliËnih podroËij za ob­ delavo (masovnih) podatkov. Stanton (2013, str. ii) opredeli znanost o podatkih kot nastajajoËe podroËje delovanja, ki se ukvarja z zbiranjem, pripravo, ana­ lizo, vizualizacijo, menedæmentom in ohranitvijo ve­ likega nabora informacij. »eprav znanost o podatkih najbolj tesno povezujemo s podroËjem baz podatkov in informatiko, je potrebnih πe veliko drugih znanj in sposobnosti. O’Reilly (Lorica, Howard in Dumbill, 2012) definira znanost o podatkih kot disciplino, ki kombinira znanja iz matematike, programiranja in znanosti. Raziskava Big data executive survey (2012, str. 8) pa je znanost o podatkih opredelila kot discipli­ no, ki zdruæuje uporabo razliËnih stopenj statistike, podatkovne vizualizacije, raËunalniπkega programi­ ranja, podatkovnega rudarjenja, strojnega uËenja in arhitekture podatkovnih baz z namenom reπevanja kompleksnih podatkovnih problemov. 3 ZNANJA IN SPOSOBNOSTI PODATKOVNIH ZNANSTVENIKOV 3.1 Podatkovni znanstveniki Vedno veËja vloga informacijsko­komunikacijskih tehnologij in konvergenca razliËnih znanstvenih di­ sciplin, kot so matematika in statistika ter tudi nara­ voslovne in druæbene vede z informatiko, pomenita po Organizaciji za ekonomsko sodelovanje in razvoj (v nadaljevanju OECD) (2015, str. 261) pomemben trend v poklicih, povezanih s podatki. Ta konvergen­ ca je omogoËila tudi pojav novega razreda podatkov­ nega strokovnjaka ‡ podatkovnega znanstvenika ‡, katerega naziv πe ni v celoti sprejet, vendar ga razliËni avtorji uporabljajo za opis flnove« discipline, katego­ rije dela oziroma karierne poti, katere pomembnost raste skupaj z masovnimi podatki (OECD, 2015, str. 261). OECD (2015, str. 254) hkrati opozarja, da trenut­ no tudi πe ne obstaja sploπno sprejeta definicija znanj in sposobnosti podatkovnih znanstvenikov. Rivera in Haverson (2014) prav tako omenjata, da trenutno πe ni standarda glede uporabe nazivov podatkovni znanstvenik in drugih nazivov, povezanih s podatki (podatkovni analitik, podatkovni rudar, podatkovni inæenir, statistik, analitik ipd.), ki bi jasno razloËeval med razliËnimi vlogami. Vzroki za slabo definicijo U P O R A B N A I N F O R M A T I K A22 2017 - πtevilka 1 - letnik XXV Mateja Grobelnik, Jurij JakliË: Znanja in sposobnosti podatkovnih znanstvenikov: pregled in analiza stanja v Sloveniji tega podroËja so povezani s tem, da gre za relativ­ no nova podroËja, ki v literaturi niso πe dobila dovolj pozornosti v primerjavi z drugimi informacijsko­ko­ munikacijskimi znanji in sposobnostmi, ter s tem, da se podroËje πe vedno razvija (OECD, 2015, str. 254). Thomas H. Davenport in D. J. Patil sta v Ëlanku Har­ vard Business Review: Data Scientist: The Sexiest Job of the 21st Century definirala podatkovne znanstve­ nike kot posameznike, ki uporabljajo tako podatke kot znanost, da ustvarijo nekaj novega (Davenport in Patil, 2012). Podobno definicijo je podal Voulga­ ris (2014, str. 18): podatkovni znanstveniki so posa­ mezniki, ki poiπËejo smisel v masovnih podatkih. S pomoËjo uporabe visoko naprednih tehnologij, znanj in sposobnosti izpeljejo uporabne informacije iz ma­ sovnih podatkov, po navadi v obliki novega izdelka ali storitve na podlagi podatkov (angl. data product). Znanja in sposobnosti podatkovnih znanstveni­ kov med drugim izhajajo iz osnovne smeri izobraz­ be, delovnih nalog, znaËilnosti in odgovornosti de­ lovnega mesta, na katerem dela posameznik, ter dru­ gih dejavnikov. Zavedati se je treba, da posamezniki, ki se v veËji meri ukvarjajo z znanostjo o podatkih, lahko opravljajo delo analitika, programerja, vodje, menedæerja, profesorja, svetovalca, podjetnika itd. Za ilustracijo obseænosti podroËja je Granville (2013) zbral 115 razliËnih nazivov delovnih mest, neposre­ dno povezanih z masovnimi podatki ali znanostjo o podatkih na podlagi 7500 kontaktov na LinkedInu. Posamezniki z omenjenimi nazivi se lahko v razliËni meri ukvarjajo z znanostjo o podatkih: od popolno­ ma operativnih nalog v procesu znanosti o podat­ kih do vodstvenih poloæajev, ki zahtevajo dodatna znanja in sposobnosti. Vsem navedenim nazivom strokovnjakov na podroËju podatkov je skupno to, da delo s podatki zavzema veËinski deleæ njihovega dela (OECD, 2015, str. 255). Slika 3 prikazuje, kako lahko naziv podatkovni znanstvenik zajema πirok spekter nazivov in vlog v procesu znanosti o podatkih prek æivljenjskega cikla vrednosti podatkov (angl. data value cycle) (OECD, 2015, str. 255). Nazivi vkljuËujejo vloge, ki zbirajo podatke (skrbniki baz podatkov, skrbniki podatkov, vnosni referenti ali naËrtovalci baz podatkov), ana­ lizirajo podatke s pomoËjo analitike (statistiki, ak­ tuarji, znanstveniki, analitiki), ter do doloËene mere takπni, ki sprejemajo odloËitve na podlagi podatkov (menedæerji, inæenirji) (OECD, 2015, str. 254). Slika 3: Faze v æivljenjskem ciklu vrednosti podatkov v povezavi s kljuËnimi tipi podatkovnih znanstvenikov Vir: OECD, Data-driven innovation: Big Data for Growth and Well-Being, 2015, str. 255, slika 6.5. Zbiranje podatkov Skrbniki in vloge, povezane z zbiranjem podatkov Skrbniki baz podatkov Skrbniki podatkov Vnosni referenti NaËrtovalci baz podatkov Analiza podatkov in programska oprema Podatkovni analitiki Statistiki Aktuarji Znanstveniki Analitiki OdloËanje OdloËevalci Menedæerji Inæenirji Podatkovni znanstveniki U P O R A B N A I N F O R M A T I K A 232017 - πtevilka 1 - letnik XXV Mateja Grobelnik, Jurij JakliË: Znanja in sposobnosti podatkovnih znanstvenikov: pregled in analiza stanja v Sloveniji Podatkovni znanstvenik je zato v tem prispev­ ku opredeljen kot strokovnjak, ki se veËino svojega Ëasa ukvarja s podatki, pri Ëemer uporablja razno­ lika znanja in sposobnosti z veË razliËnih znanstve­ nih podroËij z namenom, da iz surovih (masovnih) podatkov prek znanosti o podatkih pridobi dodano vrednost. Na podlagi napisanega je kljuËno, da ima podatkovni znanstvenik ustrezna znanja in sposob­ nosti, da lahko izpelje vse faze procesa znanosti o podatkih: od pridobivanja podatkov do konËne vi­ zualizacije ali novega izdelka/storitve na podlagi podatkov. Za bolj podroben pregled in razumevanje pod­ roËja dela, ki ga opravlja podatkovni znanstvenik, je v nadaljevanju predstavljen osnovni okvir za proces izvajanja znanosti o podatkih (prirejeno po O’Neill in Schutt, 2013, str. 36‡41; Voulgaris, 2014, str. 133‡149; Somohano, 2013; The field guide to data science, 2015, str. 29‡33), ki je prikazan na sliki 4. Kot je razvidno iz prikaza (slika 4), so faze med seboj cikliËno prepletene. To pomeni, da si osnovne faze sicer sosledno sledijo, hkrati pa nekatere pred­ stavljajo tudi korak, v katerem podatkovni znanstve­ nik sprejme odloËitev, ali naj ponovi kakπno prejπnjo fazo ali nadaljuje z naslednjo. Faza priprave podatkov je verjetno najbolj Ëa­ sovno zahtevna in najmanj zanimiva faza v procesu znanosti o podatkih. Vendar gre za zelo pomemben korak, saj ta faza predstavlja temelj za vse nadaljnje korake v procesu. Faza priprave podatkov vkljuËuje zbiranje, procesiranje in ËiπËenje podatkov. Podatki v osnovi izhajajo iz realnega sveta, v katerem po­ samezniki in organizacije izvajamo svoje aktivnosti (uporabljamo Facebook, Twitter, opravljamo spletne nakupe, poπiljamo elektronsko poπto, pregledujemo spletne strani, opravljamo telefonske pogovore ipd.). S pomoËjo shranjevanja teh aktivnosti v obliki podat­ kov podatkovni znanstvenik pridobi doloËen nabor surovih podatkov (transakcije, kliki na spletne po­ vezave in dnevniπke datoteke, podatki iz senzorjev, mobilnih telefonov, dokumenti, elektronska poπta, zapisi na druæbenih medijih). Te podatke je treba naj­ prej pregledati in preËistiti, da bodo primerni za ana­ lizo. Podatkovni znanstvenik lahko pri pripravi po­ datkov uporabi razliËne naËine procesiranja podat­ kov: Hadoop Definition File System (v nadaljevanju HDFS) za shranjevanje podatkov za nadaljnje anali­ ze, Extract Transform Load (v nadaljevanju ETL) in MapReduce za branje podatkov, redukcijo dimenzij, vzorËenje, zdruæevanje (angl. joining), strganje (angl. Slika 4: Proces izvajanja znanosti o podatkih Vir: C. O’Neill in R. Schutt, Doing Data Science, 2013, str. 41, slika 2-2. Realni svet Faza 1 Zbiranje podatkov Faza 1 Procesiranje podatkov Faza 1 »iπËenje podatkov Faza 2 Raziskovalna analiza podatkov (angl. EDA) Faza 3 Strojno uËenje Algoritmi StatistiËni modeli Faza 4 Izgradnja novega izdelka/storitve na podlagi podatkov Faza 5 Komuniciranje Vizualizacija PoroËila o ugotovitvah U P O R A B N A I N F O R M A T I K A24 2017 - πtevilka 1 - letnik XXV Mateja Grobelnik, Jurij JakliË: Znanja in sposobnosti podatkovnih znanstvenikov: pregled in analiza stanja v Sloveniji scraping) ali meπetarjenje (angl. wrangling). Za pro­ cesiranje podatkov æe obstajajo razliËna programska orodja, kljub temu pa mora podatkovni znanstvenik podatke pripraviti v .JSON ali v katerem drugem po­ dobnem tipu podatkov. »e so podatki v popolnoma unikatnem tipu, mora podatkovni znanstvenik na­ pisati lastni program za dostop in prestrukturiranje podatkov v obliko, ki bo razumljiva sistemom za bra­ nje podatkov. Pri branju velike koliËine podatkov je priporoËljivo, da najprej pripravimo poskusno branje na relativno majhnem naboru podatkov. S tem po­ datkovni znanstvenik zagotovi, da bo konËni nabor podatkov lahko uporaben za naËrtovane analize. V sklopu priprave podatkov podatkovni znanstvenik izvede tudi ËiπËenje podatkov, ki zahteva doloËeno raven razumevanja podatkov. Pri ËiπËenju podatkov zapolni manjkajoËe vrednosti, preveri relevantnost podatkov in izloËi podatke, ki vkljuËujejo napaËne ali problematiËne podatke, izvede normalizacijo po­ datkov ter preveri neodvisnost podatkov. »iπËenje podatkov vkljuËuje tudi obdelavo osamelcev (angl. outliers). Te lahko iz nabora podatkov odstranimo ali pa prilagodimo model, da ustreza obstoju osamel­ cev. OdloËitev temelji na podlagi razliËnih faktorjev, kot so πtevilo osamelcev, podatkovni tip podatkov in obËutljivost modela na njihov obstoj. Za ËiπËenje in transformacijo podatkov podatkovni znanstvenik uporablja razliËna orodja ali programske jezike, kot so Python, R skripte, poizvedbeni jezik SQL ali vse naπtete. PriporoËljivo je, da si podatkovni znanstve­ nik posamezne korake te faze shrani za primer, Ëe jih bo treba ponoviti ali jih opisati v poroËilu. Rezultat faze priprave podatkov je strukturirana oblika po­ datkov, pripravljena za nadaljnje analize. Preden se podatkovni znanstvenik loti modeli­ ranja, je potrebna izvedba t. i. raziskovalne analize podatkov (angl. Exploratory Data Analysis ‡ v na­ daljevanju EDA). Raziskovalna analiza podatkov je kljuËni del procesa izvajanja znanosti o podatkih in je primarno namenjena predvsem samemu podat­ kovnemu znanstveniku. Gre za sistematiËen pre­ gled podatkov s prikazom distribucij spremenljivk, transformacijo podatkov, iskanjem potencialnih po­ vezav med spremenljivkami z uporabo razsevnih grafikonov in z generiranjem opisnih statistik za te spremenljivke (srednje vrednosti, mere razprπenosti, identifikacija osamelcev). Pri raziskovalni analizi ne gre le za uporabo orodij, temveË tudi za razumevanje odnosa podatkovnega znanstvenika do podatkov, ki jih analizira. »e æeli podatke razumeti, mora pridobi­ ti intuicijo, razumeti oblike in povezati razumevanje procesa, kako so bili podatki pridobljeni, s samimi podatki. Na podlagi rezultatov raziskovalne analize podatkov lahko podatkovni znanstvenik ugotovi, da podatki dejansko niso ustrezni zaradi podvojenih, manjkajoËih, neustreznih vrednosti, ali da podatki sploh niso bili zajeti ali pa so bili zajeti napaËno. V tem primeru se mora podatkovni znanstvenik po­ novno vrniti k viru podatkov in zbrati veËjo koliËino podatkov ali veË Ëasa nameniti ËiπËenju podatkov. To je lahko iterativen proces, dokler podatki niso ustrez­ ni in primerni za modeliranje. V fazi uËenja iz podatkov podatkovni znanstve­ nik pripravi model, ki predstavlja poskus razume­ vanja in predstavitve narave realnosti z doloËenega (matematiËnega) vidika. Gre za umetno ustvarjen konstrukt, v katerem so odstranjene vse odveËne podrobnosti. Podatkovni znanstvenik oblikuje mo­ del z uporabo razliËnih orodij s podroËij statistike in strojnega uËenja: opisne statistike in statistiËnega sklepanja, klasifikacije in segmentacije, regresijske analize in napovedovanja. Izbira modela je odvisna od vsebine problema, ki ga obravnava podatkovni znanstvenik. Lahko gre za klasifikacijski problem, napovedni problem ali osnovni opisni problem. Podatkovni znanstvenik v zadnji fazi ugotovitve interpretira, pripravi vizualizacije in poroËila ter re­ zultate na ustrezen naËin predstavi nadrejenim in so­ delavcem ali jih objavi v publikaciji. Namen znanosti o podatkih je namreË doloËiti in razumeti, kaj vse se skriva pod povrπjem in kakπno uporabno vrednost lahko prinese do konËnih uporabnikov. Proces zna­ nosti o podatkih je ponavljajoË se razvojni proces, ki vkljuËuje odkrivanje in uËenje na podlagi podatkov. Vizualizacija vkljuËuje grafiËno predstavo pomena analiziranih podatkov na intuitiven, zanimiv in re­ levanten naËin do konËnega uporabnika, ki je lah­ ko tudi interaktiven. S pomoËjo vizualizacije lahko podatkovni znanstvenik pridobi boljπo predstavo, Ëesa πe ne ve, in lahko tako bolje razume omejitve modelov, vrednost podatkov in bolje obvladuje ne­ gotovost v podatkih. Cilj analize je alternativno lahko tudi izgradnja prototipa na podlagi analizi­ ranih podatkov (angl. data product). Novi izdelek ali storitev, ki temelji na kombinaciji podatkov in algoritmov, je dodana vrednost organizaciji. Primeri takπnih izdelkov ali storitev na podlagi podatkov so klasifikator nezaæelene elektronske poπte, algoritem U P O R A B N A I N F O R M A T I K A 252017 - πtevilka 1 - letnik XXV za rangiranje spletnih strani v spletnih iskalnikih z relevantnimi rezultati na podlagi spletnega iskanja, sistem za priporoËanje (angl. recommendation sy­ stem), mreæna statistika in grafikoni, ki jih LinkedIn prikazuje svojim uporabnikom, ali geografski infor­ macijski sistem, kot je MapQuest, ki potroπnikom daje uporabne geografske informacije o doloËeni lo­ kaciji. Tisto, kar razlikuje znanost o podatkih od sta­ tistike, je, da se takπen flpodatkovni produkt« vgradi nazaj v realni svet, v katerem potroπniki interaktivno uporabljajo produkt, kar poslediËno generira veË po­ datkov, ki podatkovnemu znanstveniku omogoËajo izboljπave tega produkta. 3.2 Znanja in sposobnosti podatkovnih znanstvenikov 3.2.1 Znanja podatkovnih znanstvenikov Veliko razliËnih tehnologij in tehnik je bilo razvitih in prilagojenih z namenom zdruæevanja, manipulira­ nja, analiziranja in vizualizacije masovnih podatkov (Manyika idr., 2011, str. 27). Seznam znanj trenutno ne daje celostnega pogleda na znanja podatkovnih znanstvenikov, saj se metode in orodja neprestano razvijajo z namenom reπevanja vedno novih proble­ mov (Manyika idr., 2011, str. 27). Prav tako razliËni problemi zahtevajo uporabo razliËnih tehnik in teh­ nologij z razliËnih podroËij glede na naravo problema in cilje projekta. Pri opredelitvi znanj podatkovnih znanstvenikov so bila ta na podlagi literature, raz­ iskav in izkuπenj razporejena v skupine po nasled­ njih podroËjih: znanstvena metoda, programiranje, menedæment podatkov, baze podatkov, statistika, ma­ tematika, strojno uËenje ter domenska znanja s pripa­ dajoËimi tehnikami. Iz nabora znanj so bile izkljuËene opredelitev znanj, vezane na specifiËne programske reπitve (SPSS, SAS, Orange, RapidMiner, Weka, Table­ au, Excel itd.), saj so te bolj tehnoloπko orodje, s kate­ rim podatkovni znanstvenik izvede doloËeno fazo v znanosti o podatkih. Poleg tega bi to lahko pristran­ sko vplivalo na rezultate, saj bi bili ti vezani na popu­ larnost in dostopnost posameznega orodja. Znanstvena metoda v najπirπem smislu vkljuËuje vse postopke in tehnike za objektivno raziskovanje pojavov (Toπ in Hafner­Fink, 1998). Hayes (2014b) verjame, da znanstvena metoda predstavlja kljuËno vlogo v razumevanju katerih koli podatkov, ne glede na njihovo velikost, hitrost ali raznolikost. Podatki namreË ne flgovorijo« sami zase, temveË jim pomen dajo ljudje prek ustvarjanja, zbiranja in interpretacije podatkov. Ljudje pa so na æalost tudi vir (namerne ali nenamerne) pristranskosti, ki lahko poslabπa ka­ kovost podatkov (Hayes, 2014b). NaËrtovanje po­ skusov/eksperimentov (angl. experimental design) je raziskovalna tehnika, ki se uporablja v vzroËnem raziskovanju (angl. causal research) za vzposta­ vljanje vzroËno­poslediËnega odnosa med spre­ menljivkami (Malhotra, 2012, str. 221). Podatkovni znanstvenik naj bi v sklopu naËrtovanja poskusov poznal koncepte neodvisnih, odvisnih in zunanjih spremenljivk, testnih enot in nakljuËne razdelitve na poskusno in kontrolno skupino. Pri izvedbi poskusa podatkovni znanstvenik namreË doloËi testne enote in naËin, kako so te enote razdeljene na homogene podskupine, doloËi, katere neodvisne spremenljiv­ ke bo spreminjal, manipulira eno ali veË neodvisnih spremenljivk in nato opazuje in meri uËinke teh spre­ memb na odvisne spremenljivke, ob tem pa preverja vpliv zunanjih ali tujih spremenljivk (Malhotra, 2012, str. 222‡223). Zagotavljanje ponovljivosti raziskav (angl. reproducible resarch) pomeni kljuËni koncept znanstvene metode. VkljuËuje koncepte in orodja, ki jih uporablja podatkovni znanstvenik, da lahko znanstvene ugotovitve objavi skupaj s podatki, viri podatkov, programsko kodo ter podrobnimi navodili za izvedbo analize podatkov z namenom, da je raz­ iskavo mogoËe ponoviti, bolje razumeti ali preveriti njeno veljavnost (Kuhn, 2015). Z znanjem programiranja lahko podatkovni znanstvenik pokrije celotni proces izvajanja znano­ sti o podatkih ‡ kadar koli lahko napiπe program, ki pridobi podatke iz baze podatkov, zaæene algoritme strojnega uËenja na naboru podatkov (Ultimate skills checklist for your first data analyst job, 2015, str. 5), razvije produkt/storitev na podlagi podatkov ali pri­ pravi vizualizacijo podatkov. PriporoËljivo je znanje vsaj enega ali veË programskih jezikov, ki so robustni, popularni in razπirljivi ‡ sploh pri velikem naboru podatkov (Voulgaris, 2014, str. 53). PriporoËljivo je tudi, da ima podatkovni znanstvenik dober pregled nad podroËjem knjiænic in paketov, povezanih s pro­ gramskimi jeziki, ki se najpogosteje uporabljajo za izvajanje znanosti o podatkih (Ultimate skills check­ list for your first data analyst job, 2015, str. 5). Med programske jezike, ki jih najbolj pogosto uporablja veË kot 90 odstotkov podatkovnih znanstvenikov, uvrπËamo R, SAS in Python (Piatetsky, 2014). Voul­ garis (2014, str. 54) omenja tudi Java, C+, C# in Perl, Mateja Grobelnik, Jurij JakliË: Znanja in sposobnosti podatkovnih znanstvenikov: pregled in analiza stanja v Sloveniji U P O R A B N A I N F O R M A T I K A26 2017 - πtevilka 1 - letnik XXV ki so objektno orientirani jeziki (angl. object­oriented languages), katerih prednost je v tem, da omogoËa­ jo enostavno ustvarjanje kompleksne programske kode. Proces znanosti o podatkih je mogoËe izva­ jati tudi v drugih programskih jezikih: Julia, Scala, Stata, Hadoop programski jeziki (Pig Latin, HiveQL idr.), Java, Unix shell/awk/sed, MATLAB, C/C++, Perl, Octave, Ruby, Lisp/Clojure, F# itd. (Piatetsky, 2014). Znanja iz zalednega in Ëelnega programiranja se izkaæejo za koristna predvsem pri implementaciji produkta/storitve na podlagi podatkov v produk­ cijsko okolje ‡ uporabniπko aplikacijo. Podatkovni znanstvenik naj bi predvsem imel osnovna znanja kot podlago za komunikacijo in usklajevanje anali­ tiËne reπitve z zalednim in Ëelnim razvijalcem. Podatkovni znanstvenik ima s svojim delovanjem in izvajanjem procesa znanosti o podatkih pregled, moænost in vpliv na obvladovanje podatkov, arhitek­ turo, varnost, povezovanje, shranjevanje in kakovost podatkov ter druge vidike t. i. menedæmenta podat­ kov. Z ustreznimi znanji s podroËja menedæmenta podatkov lahko podatkovni znanstvenik poveËa uËinkovitost in uspeπnost izvajanja procesa znanosti o podatkih. Menedæment podatkov (angl. data ma­ nagement) vkljuËuje in opisuje procese za naËrtova­ nje, definiranje, kreiranje, pridobivanje, vzdræevanje, uporabo, arhiviranje, nadzor in integracijo podatkov (DAMA, 2014, str. 5). Po definiciji DAMA (2014, str. 10) se menedæment podatkov deli na veË podroËij: obvladovanje podatkov (angl. data governance), menedæment podatkovne arhitekture (angl. data arhitecture management), razvoj in oblikovanje po­ datkov (angl. data modeling and design), shranje­ vanje podatkov (angl. data storage and operations), menedæment varnosti podatkov (angl. data security management), integracija in interoperabilnost po­ datkov (angl. data integration and interoperability), menedæment dokumentov in vsebine (angl. docu­ ment and content management), menedæment ma­ tiËnih in referenËnih podatkov (angl. reference and master data management), menedæment podatkov­ nih skladiπË in poslovne inteligence (angl. data wa­ rehousing and business intelligence management), menedæment metapodatkov (angl. metadata mana­ gement) ter menedæment kakovosti podatkov (angl. data quality management). Oblikovanje informacij (vizualizacija) ‡ v sklopu znanj podatkovnega znan­ stvenika govorimo o podpodroËju vizualizacije po­ datkov, in sicer o podroËju vizualizacije/oblikovanja informacij (angl. information vizualization/design). Znanja iz oblikovanja informacij lahko podatkovni znanstvenik uporablja v veË razliËnih fazah izvajanja procesa znanosti o podatkih. V sklopu raziskovalne analize podatkov uporablja razliËne vizualizacijske tehnike z namenom razumevanja podatkov in njiho­ vih zakonitosti ter identifikacije negotovosti v podat­ kih (npr. gruËe primerov, osamelce, trende in relacije med spremenljivkami) (Leban, 2007, str. 2). Informa­ cije oblikuje tudi z namenom razumevanja reπitev analize, domnev in algoritmov podatkovnega rudar­ jenja (kjer je to mogoËe) ter za predstavitev rezultatov procesa znanosti o podatkih ali za kreiranje izdelka/ storitve, ki temelji na podatkih. flGlavna prednost uporabe vizualizacije je njena interpretabilnost ‡ od­ krite zakonitosti lahko dejansko vidimo, zaradi Ëesar je njihovo razumevanje neprimerno boljπe.« (Leban, 2007, str. 2) Podatkovni znanstvenik naj bi zato imel znanja iz celostnega pristopa k oblikovanju informa­ cij, poznavanja posameznih vizualizacijskih metod in njihovih zakonitosti, izbire ustrezne vizualizacijske metode in znanja iz oblikovanja interaktivnosti (raz­ voj interaktivnih reπitev, produktov in vmesnikov). Prva faza v procesu znanosti o podatkih je roËno pridobivanje, shranjevanje in ËiπËenje podatkov v obliko, ki bo primerna za izvoz ali nadaljnje analize (Ultimate skills checklist for your first data analyst job, 2015, str. 12). Ta proces je v sklopu znanosti o podatkih znan kot meπetarjenje podatkov (angl. data wrangling, data munging, data scraping) (Ultimate skills checklist for your first data analyst job, 2015, str. 12). Gre za nalogo, ki podatkovnemu znanstve­ niku lahko zavzame od 50 do 80 odstotkov njegove­ ga Ëasa (Ultimate skills checklist for your first data analyst job, 2015, str. 12). Zaradi tega je pomembno, da ima podatkovni znanstvenik znanja, kako dosto­ pati do podatkov, jih pridobiti, shraniti ter odpraviti nepopolnosti, za kar potrebuje znanja s podroËja baz podatkov. Med znanja s podroËja baz podatkov spa­ dajo poznavanje sistemov baz podatkov, ki temeljijo na strukturiranih ali delno strukturiranih podatkih (centralni repozitorij za shranjevanje podatkov, kate­ rih osnova je SQL), nestrukturiranih podatkih (baze podatkov, katerih osnova je NoSQL), masovnih in distribuiranih podatkih (Hadoop, MapReduce), po­ izvedbenih programskih jezikov SQL, HiveQL ter osnovna znanja iz sistemske administracije. Podatkovni znanstvenik naj bi imel osnovno znanje iz statistike ter poznavanje doloËenih kon­ Mateja Grobelnik, Jurij JakliË: Znanja in sposobnosti podatkovnih znanstvenikov: pregled in analiza stanja v Sloveniji U P O R A B N A I N F O R M A T I K A 272017 - πtevilka 1 - letnik XXV ceptov in terminologije, ki jo uporabljajo statisti­ ki (Granville, 2014, str. 4): metod vzorËenja, opisne statistike, verjet nostnih porazdelitev, statistiËnega preizkuπanja domnev, redukcije dimenzij, analize Ëa­ sovnih vrst, prostorske statistike ipd. Pri tem je pred­ vsem pomemben vidik znanja in razumevanja, kdaj je doloËena tehnika primeren ali neprimeren pristop k problemu (Ultimate skills checklist for your first data analyst job, 2015, str. 7). Podatkovni znanstvenik naj bi bil sposoben prevesti besedne probleme v matematiËne izraze, reπevati enaËbe, manipulirati algebriËne izraze in imel naj bi osnovno znanje iz teorije matrik (Ultimate skills checklist for your first data analyst job, 2015, str. 9; Granville 2014, str. 4). Prav tako naj bi imel zna­ nja, kako narisati grafikone za razliËne tipe funkcij z razumevanjem odnosa med grafiËno funkcijo in nje­ no enaËbo. PriporoËljiva so tudi znanja odvodov in integralov, optimizacije in linearne algebre. Ta pod­ roËja matematike so osnova za razumevanje strojne­ ga uËenja in efektivnega manipuliranja podatkov v podatkovnih modelih (Ultimate skills checklist for your first data analyst job, 2015, str. 9). Strojno uËenje je poddomena raËunalniπtva (pod­ roËja umetne inteligence), ki se ukvarja z zasnovo in razvojem algoritmov, ki omogoËajo raËunalnikom razvoj akcij na podlagi empiriËnih podatkov (Manyi­ ka idr., 2011, str. 29). Poudarek strojnega uËenja je na avtomatiziranem uËenju in prepoznavi komple­ ksnih vzorcev z namenom sprejemanja inteligentnih odloËitev na podlagi podatkov (Manyika idr., 2011, str. 29). Strojno uËenje je torej podatkovno intenzivni razvoj algoritmov (kot podatkovno rudarjenje) s po­ udarkom na prototipiranju algoritmov za produkcij­ sko okolje, za obdelavo velikih koliËin podatkov, na podlagi katerih je mogoËe narediti napovedi (angl. predict), klasifikacijo (angl. classify), segmentacijo (angl. cluster) in/ali izraËunati predloge za ukrepa­ nje na podlagi obdelanih podatkov (Ultimate skills checklist for your first data analyst job, 2015, str. 10; O’Neill in Schutt, 2013, str. 52). Strojno uËenje se ukvarja tudi z razvojem avtomatiziranih sistemov (prepoznavanje slik, govora, algoritmi za generiranje ponudb, angl. bidding algorithms, algoritmi za tar­ getirano oglaπevanje, angl. ad targeting algorithms), ki se samodejno osveæijo, neprestano preizkuπajo, ponovno uËijo in osveæujejo nabore podatkov za uËe­ nje, preverjajo veljavnost in izboljπujejo ali odkrivajo nova pravila. Poddomena strojnega uËenja, zelo bli­ zu umetni inteligenci (angl. artificial intelligence), je poglobljeno uËenje (angl. deep learning) (Granvil­ le, 2014). Za podatkovnega znanstvenika ni nujno, da ustvarja popolnoma nove algoritme za strojno uËenje, vendar pa mora poznati najbolj pogoste al­ goritme in tehnike za strojno uËenje, od zmanjπanja dimenzij (metoda glavnih komponent) do nadzo­ rovanega (klasifikacija) in nenadzorovanega uËenja (razvrπËanje v skupine). Ni v celoti potrebno pozna­ vanje teorije in podrobnosti implementacij v ozadju teh algoritmov. Je pa potrebno poznavanje prednosti in slabosti teh algoritmov, kot tudi, kdaj jih je smisel­ no uporabiti glede na kontekst problema ter kdaj ne (O’Neill in Schutt, 2013, str. 54; Ultimate skills check­ list for your first data analyst job, 2015, str. 10). Znanja poslovnega podroËja, dejavnosti ali dome­ ne, iz katere izhaja problem, so izjemne vrednosti in zelo nenadomestljiva (The field guide to data scien­ ce, 2015, str. 96). Poslovna oziroma domenska znanja vkljuËujejo poznavanje metod agilnega pristopa, pri­ stopa Waterfall, razvoja izdelkov/storitev, razume­ vanje delovanja organizacije, poznavanje dejavnosti, poznavanje dobrih praks metodologij podatkovnega rudarjenja (CRISP­DM, SEMMA, DMAIC) ter vsa druga poslovna znanja (finance, træenje, træenjsko raziskovanje, logistika, razvoj izdelka itd.), ki so re­ levantna za organizacijo ali dejavnost (Voulgaris, 2014, str. 150). OmogoËajo poglobljeno razumevanje podatkov in dejavnikov, ki vplivajo na analitiËni cilj, velikokrat pa so kljuËni diferenciator uspeha celotne ekipe, ki se ukvarja z znanostjo o podatkih (The fi­ eld guide to data science, 2015, str. 96). Domenska znanja vplivajo na to, kako podatkovni znanstvenik izbira lastnosti, pripisuje podatke, izbira algoritme, in posredno vplivajo tudi na uspeπnost projektov. Posameznik æal ne more biti domenski strokovnjak na vsakem podroËju. Zato se podatkovni znanstve­ niki pogosto obraËajo na druge analitike, domenske strokovnjake ter druge sekundarne vire z namenom izgradnje razumevanja domenskega podroËja pro­ blema (The field guide to data science, 2015, str. 96). 3.2.2 Sposobnosti podatkovnih znanstvenikov Znanja z razliËnih podroËij so pomembna, vendar niso dovolj. Znanost o podatkih zahteva bolj siste­ matiËno razmiπljanje ter kombiniranje kreativnega pristopa k definiranju in reπevanju problemov sku­ paj z obvladovanjem Ëasa. Podatkovni znanstve­ nik je posameznik, ki ga oznaËuje nabor specifiËnih Mateja Grobelnik, Jurij JakliË: Znanja in sposobnosti podatkovnih znanstvenikov: pregled in analiza stanja v Sloveniji U P O R A B N A I N F O R M A T I K A28 2017 - πtevilka 1 - letnik XXV znaËilnosti, sposobnosti in naËina razmiπljanja, ne samo nabor znanj (Voulgaris, 2014, str. 37). Podatkovni zanstvenik naj bi bil predvsem rado­ veden glede stvari, ki jih opazuje, kot so vzorci in od­ nosi ter razmerja med razliËnimi znaËilnostmi (Voul­ garis, 2014, str. 38). Radovednost je kljuËna, da lahko podatkovni znanstvenik razstavi problem in raziπËe odnose med podatki, ki na prvi pogled delujejo ne­ povezani (The field guide to data science, 2015, str. 42). Radovednost dopolnjujejo disciplina, analitiËne sposobnosti in sposobnosti reπevanja problemov. To vkljuËuje vse ‡ od æelje po raziskovanju in razËlenitvi problema do zelo jasno definiranega nabora domnev, ki jih je mogoËe preveriti (Lorica, Howard in Dum­ bill, 2012). Podatkovni znanstveniki reπujejo pro­ bleme uporabnikov podatkov. Vendar preden lahko reπijo problem, ga je treba ustrezno identificirati, kar pa ni vedno lahko (Stanton, 2013, str. 14). Za pristop k problemu in reπevanju problemov sta kljuËni tudi eksperimentiranje in kreativnost ‡ sposobnost pogle­ da na problem na razliËne, kreativne naËine, ki v pre­ teklosti niso πe bili uporabljeni v takπnem kontekstu (angl. thinking outside the box) (Chordas, 2014, str. 24; Lorica, Howard in Dumbill, 2012; The field guide to data science, 2015, str. 42). Pomembna sposobnost sta tudi fleksibilnost in osredotoËenost na cilj, ko je podatkovni znanstvenik sposoben premagati napa­ ke, opustiti idejo, ki ne deluje, se iz tega nekaj nauËiti in poskusiti z novim pristopom. Znanost o podatkih je namreË serija flslepih ulic«, dokler prava pot ni identificirana. To zahteva unikaten set osebnostnih lastnosti ‡ potrpeæljivost in vztrajnost (The field gui­ de to data science, 2015, str. 42). Da podatkovni znanstvenik razume svojo vlogo in pomen, so pomembne tudi sposobnosti, poveza­ ne z njegovo podjetno naravnanostjo, ki vkljuËuje­ jo poslovni Ëut, prebrisanost (angl. cleverness) in vztrajnost (Granville, 2014, str. 3; Chordas, 2014, str. 23; Lorica, Howard in Dumbill, 2012). KljuËna sta tudi sposobnost sprejemanja odloËitev in pogum ‡ sposobnost podatkovnega znanstvenika, da izrazi svoje mnenje, poiπËe reπitev ter prepriËa in motivira menedæerje v smeri prave reπitve, vËasih tudi v na­ sprotju z njihovo voljo, v dobro organizacije, uporab­ nikov ali deleænikov (Granville, 2014, str. 4). Granvil­ le (2014, str. 4) omenja, da bi podatkovni znanstvenik moral biti tudi strateg, tako v poslovnem smislu kot v tem, da je sposoben razviti strategijo zbiranja po­ datkov z namenom pridobiti podlago za odloËitve, ki omogoËajo poslovni uËinek. Ko podatkovni znan­ stvenik razvije razumevanje domenskega znanja, mora imeti sposobnost predstave, kako se podatki prenaπajo preko razliËnih sistemov in uporabnikov. Pri tem, opozarja Stanton (2013, str. 6), je potrebno, da podatkovni znanstvenik dovolj pozornosti name­ ni kakovosti. Ne glede na nabor podatkov, ki jih ima­ mo, ti ne bodo nikoli popolni. Podatkovni znanstve­ niki morajo poznati omejitve podatkov, s katerimi delajo, znati morajo kvantificirati njihovo natanËnost in na podlagi analize podati predloge za izboljπanje kakovosti podatkov v prihodnje (Stanton, 2013, str. 6). Zato je sposobnost naËrtovanja kljuËni vidik zna­ nosti o podatkih, saj obstajajo razliËni naËini, kako se lotiti iste naloge, ki pa lahko imajo obËutno drugaËno porabo virov (Voulgaris, 2014, str. 27). Sposobnosti v povezavi s podroËjem vodenja pro­ jektov in vodenja na sploπno so sposobnosti, ki bi jih posameznik moral imeti zaradi narave dela (predla­ ganje izboljπav, razvijanje strategij, komuniciranje z naroËniki, vodenje projektov ipd.) in dejstva, da po­ datkovni znanstvenik ni le operativni izvajalec, tem­ veË se pojavlja tudi na razliËnih vodstvenih poloæajih ali pa kot vodja oddelka, tima (OECD, 2015, str. 255). Podatkovni znanstvenik po navadi deluje v sklopu raznolike ekipe strokovnjakov z razliËnih podroËij (odvisno od dejavnosti). Zelo redko podatkovni znanstvenik dela popolnoma loËeno in samostoj­ no v daljπem Ëasovnem obdobju, saj se za reπevanje problema poveæe s strokovnjaki, ki so na podroËju, s katerega izhaja problem, bolj izkuπeni oziroma imajo veË znanja. Zato je pomembno, da ima podatkovni znanstvenik sposobnost dela v timu. Podatkovni znanstvenik mora biti fleksibilen in imeti sposobnost hitrega prilagajanja novemu poslovnemu podroËju, novim Ëlanov ekipe ali novim programskim orodjem (Voulgaris, 2014, str. 27). Ker imajo podatkovni znanstveniki po navadi po­ globljena znanja iz vsaj enega znanstvenega podroËja (Lorica, Howard in Dumbill, 2012), kritiËno sposob­ nost podatkovnega znanstvenika predstavlja preva­ janje med tehniËnimi izrazi raËunalniπtva in statisti­ ke ter slovarjem domenskega znanja menedæmenta. Podatkovni znanstvenik mora zato imeti dobre komunikacijske sposobnosti. Pri tem pride do iz­ raza predvsem sposobnost pripovedovanja zgodb (angl. storytelling), tj. sposobnost z uporabo podat­ kov predstaviti zgodbo in jo uËinkovito prenesti razliËnim deleænikom (Lorica, Howard in Dumbill, Mateja Grobelnik, Jurij JakliË: Znanja in sposobnosti podatkovnih znanstvenikov: pregled in analiza stanja v Sloveniji U P O R A B N A I N F O R M A T I K A 292017 - πtevilka 1 - letnik XXV 2012; Stanton, 2013, str. 5). Prednost za podatkovnega znanstvenika je, Ëe ima poleg odliËnih komunikacij­ skih sposobnosti tudi obËutek za umetnost in prakso vizualizacije, kar pomeni, da je sposoben smiselno premostiti prepad med Ëlovekom in raËunalnikom s posredovanjem analitiËnih dognanj (Lorica, Howard in Dumbill, 2012; Stanton, 2013, str. 6). Stanton (2013, str. 6) kot pomembno sposobnost podatkovnega znanstvenika omenja tudi sposobnost biti etiËen oziroma razmiπljati etiËno. »e so podat­ ki dovolj pomembni, da se jih odloËimo zbirati, so po navadi dovolj pomembni, da lahko vplivajo na Ëloveπka æivljenja. Podatkovni znanstveniki mora­ jo razumeti etiËno odgovornost, povezano z zaseb­ nostjo, in morajo biti sposobni ustrezno predstaviti omejitve z namenom prepreËiti zlorabo podatkov ali rezultatov analiz. Za podatkovnega znanstvenika je ne nazadnje pomembno tudi, da goji strast uËenja novih stva­ ri in do dela, ki ga opravlja, ter da ima sposobnost flzaznavanja« podatkov (Granville, 2014, str. 4). Za­ radi hitrega napredka tehnologij na podroËju ma­ sovnih podatkov in znanosti o podatkih mora biti podatkovni znanstvenik sposoben hitrega uËenja ter hitrega sprejetja novih metod in orodij (Voulgaris, 2014, str. 27). Radovednost, æelja po raziskovanju, uËenju, strast in vztrajnost se zrcalijo na vseh vidi­ kih æivljenja podatkovnega znanstvenika (Granville, 2014, str. 4; Lorica, Howard in Dumbill, 2012). 4 RAZISKAVA O ZNANJIH IN SPOSOBNOSTIH PODATKOVNIH ZNANSTVENIKOV V SLOVENIJI 4.1 Metodologija V raziskavi je sodelovalo 92 posameznikov iz Slo­ venije, ki se veËino svojega Ëasa ukvarjajo s podat­ ki. Vpraπalnik, pripravljen na podlagi pregleda teo­ retiËnih izhodiπË ter æe izvedenih raziskav (Harris, Murphy in Vaisman, 2013; Hayes, 2015a; Swan, 2008), je bil sestavljen iz treh skupin vpraπanj, ki se nanaπajo na ugotovitve iz prejπnjih razdelkov. Prva skupina vpraπanj se je nanaπala na posamezne dimenzije ma­ sovnih podatkov: volumen, raznolikost, hitrost in vrednost (Piatetsky, 2015; The Emerging Big Returns on Big Data, 2013; Russom, 2011; Big Data Executive Survey, 2012). Druga skupina vpraπanj se je nanaπala na samooceno znanj ter oceno pomembnosti znanj in sposobnosti, predstavljenih v prejπnjem razdel­ ku, tretja skupina vpraπanj pa na pretekle izkuπnje in pridobivanje znanj in sposobnosti prek razliËnih naËinov izobraæevanja (Harris, Murphy in Vaisman, 2013). Zadnji sklop vpraπanj je vkljuËeval demo­ grafska vpraπanja ‡ spol, starost, stopnja in smer izobrazbe. Za zbiranje podatkov je bila uporabljena metoda spletnega anketiranja s pomoËjo strukturira­ nega vpraπalnika. V vpraπalniku so bile uporabljene razliËne merske lestvice: nominalna, ordinalna in in­ tervalna. Pri vpraπanjih v drugem sklopu je bila upo­ rabljena petstopenjska Likertova lestvica. Pri doloËe­ nih vpraπanjih je bila dodatno omogoËena moænost flne vem«. VzorËni okvir v tem primeru ne obstaja, saj ni popolnega seznama posameznikov, ki se v Sloveni­ ji veËino svojega Ëasa ukvarjajo s podatki oziroma s katerim od naslednjih podroËij: analitika, statistika, matematika, programiranje, menedæment podat­ kov, raziskovanje ali pa so vodje takπnih ekip. K iz­ polnitvi vpraπalnika so na podlagi dostopnih infor­ macij, preteklih izkuπenj, sodelovanj in poznanstev bili povab ljeni posamezniki iz razliËnih organizacij: In516ht, d. o. o., Petrol, d. d., Institut Joæef Stefan, Stu­ dio Moderna, d. o. o., Spar Slovenija, d. o. o., Si.Mobil, d. d., Zavarovalnica Triglav, d. d., ADD, d. o. o., Zavaro­ valnica Maribor, d. d., Mercator, d. d., Kendu, d. o. o., Ekipa2, d. o. o., Javni holding Ljubljana, d. o. o., D.Labs, d. o. o., Adriatic Slovenica, d. d., Nova lju­ bljanska banka, d. d., Zavod za pokojninsko in inva­ lidsko zavarovanje Slovenije, IBM Slovenija, d. o. o., Ektimo, d. o. o., Revelo, d. o. o., Hekovnik, Arhea Solutio, d. o. o., Valicon, d. o. o., Inπtitut za razis­ kovanje trga in medijev Mediana, d. o. o., Droga Kolinska, d. d., itd. Vpraπalnik je bil objavljen tudi na skupini Big Data Developers in Data Science Slo­ venia ter na Facebook strani UdomaËena Statistika. Povabilu k raziskavi je bila dodana tudi proπnja za posredovanje vpraπalnika drugim primernim po­ sameznikom. Metoda vzorËenja je bilo namensko priloænostno vzorËenje, saj so bili k izpolnjevanju vpraπalnika povabljeni le posamezniki iz Slovenije, ki so ustrezali predhodno doloËenim kriterijem (ukvar­ janje s podatki oziroma ukvarjanje z vnaprej doloËe­ nim podroËjem dela). Izpolnjevanje vpraπalnika je potekalo od 26. 4. do 21. 5. 2016. Vpraπalnik je v celoti izpolnilo 94 oseb; 47 oseb pa je vpraπalnik izpolnilo le delno, zato so bili izloËeni iz analize. Rezultati an­ kete so bili ustrezno zakodirani v podatkovno bazo s 94 enotami in 126 spremenljivkami. Pri pregledu po­ datkov se je izkazalo, da dve enoti nista bili primerni Mateja Grobelnik, Jurij JakliË: Znanja in sposobnosti podatkovnih znanstvenikov: pregled in analiza stanja v Sloveniji U P O R A B N A I N F O R M A T I K A30 2017 - πtevilka 1 - letnik XXV za analizo, saj sta vsebovali preveliko πtevilo neod­ govorjenih vpraπanj. KonËni nabor enot za analizo je zajemal 92 enot. Podatki so bili zbrani s pomoËjo spletnega orodja 1ka.si. Za analizo podatkov in vizu­ alizacijo rezultatov sta bila uporabljena SPSS Statisti­ cs, verzija 21, in MS Excel 2010. Pri analizi podatkov so bile uporabljene metode opisnih statistik za prikaz rezultatov in znaËilnosti vzorca, parametriËni in ne­ parametriËni testi za preverjanje domnev ter metode multivariatne analize (razvrπËanje v skupine, algori­ tem K­means) za identifikacijo skupin podatkovnih znanstvenikov glede na samooceno znanj. V raziskavi je sodelovalo 92 anketirancev; 59,8 od­ stotka jih je bilo moπkega, 40,2 odstotka pa æenskega spola. Prevladovali so anketiranci moπkega spola. NajveËji deleæ anketirancev je pripadalo starostni skupini od 26 do 35 let (51,1 odstotka). Mlajπi od 18 let ni bil nihËe, 1,1 odstotka anketirancev je bilo v starostni skupini od 18 do 25 let, 51,1 odstotka v sta­ rostni skupini od 26 do 35 let, 35,9 odstotka v staro­ stni skupin od 36 do 45 let, 10,9 odstotka v sta rostni skupini od 46 do 55 let in 1,1 odstotka v starostni skupini 56 let in veË. NajveËji deleæ anketirancev je imel univerzitetno izobrazbo (50 odstotkov). Sledili so anketiranci z magisterijem, doktoratom ali speci­ alizacijo (28,3 odstotka) ter anketiranci s poklicno ali πtiriletno srednjo πolo (13 odstotkov). Najmanj je bilo anketirancev z viπjo ali visoko πolo (8,7 odstotka). V vzorec niso bili zajeti anketiranci s stopnjo izobrazbe osnovna πola ali manj. NajveËji deleæ anketirancev je kot svojo prevladujoËo smer izobrazbe navedlo raËunalniπtvo (26,1 odstotka), sledita ekonomija in poslovne vede (19,6 odstotka), sploπno druæboslovje (15,2 odstotka), druge naravoslovne ali tehniËne vede (14,1 odstotka), statistika (9,8 odstotka) in ma­ tematika (8,7 odstotka). En anketiranec je kot smer izobrazbe navedel fiziko (1,1 odstotka). Pri razvrπËanju v skupine so bile kot relevantne spremenljivke vzeti odgovori na vpraπanja, pove­ zana s samooceno znanj. Udeleæenci so pri petem vpraπanju ocenjevali svojo stopnjo znanja z razliËnih podroËij znanj. Pri tem je bila uporabljena interval­ na lestvica od 1 ‡ Ne poznam (ne uporabljam/ne ustreza mojemu podroËju dela), 2 ‡ Osnovno pozna­ vanje (osnovno znanje, fokus je na izobraæevanju), 3 ‡ ZaËetnik (znanje pripravnika, fokus je na pridobi­ vanju izkuπenj na praktiËnih primerih), 4 ‡ Srednji nivo (samostojna kompetentna uporaba, fokus je na izboljπanju znanja) do 5 ‡ Napredni nivo (poglobljena znanja in kompetence, fokus je na reπevanju strokov­ nih problemov). Pri preverjanju korelacij med spre­ menljivkami je bilo ugotovljeno, da sta edini spre­ menljivki, ki visoko korelirata med seboj, nadzoro­ vano strojno uËenje in nenadzorovano strojno uËenje (Pearsonov korelacijski koeficient = 0,924). Korelacija med vsemi ostalimi spremenljivkami je bila manjπa kot 0,9. Zaradi navedenega je bila iz nadaljnje anali­ ze izpuπËena spremenljivka nenadzorovano uËenje. Preostale spremenljivke (30) so bile πe vedno dobra podlaga za razvrπËanje v skupine. Cronbach alpha za preverbo notranje konsistentnosti za 30 spremen­ ljivk in velikost vzorca n = 83 (toliko udeleæencev je v celoti odgovorilo na vsa vpraπanja, povezana s sa­ mooceno znanj) je znaπal 0,931, kar pomeni visoko stopnjo notranje konsistentnosti za spremenljivke, merjene na tej lestvici, in za ta specifiËni vzorec. Ker je πlo za majhen vzorec in ker konËno πtevilo skupin ni bilo poznano vnaprej, je bilo najprej izve­ deno hierarhiËno razvrπËanje v skupine. Kot mero podobnosti oziroma razliËnosti med skupinami je bila uporabljena kvadratna evklidska razdalja s standardiziranimi spremenljivkami. Za metodo razvrπËanja v skupine je bila izbrana Wardova meto­ da. Na podlagi hierarhiËnega razvrπËanja v skupine, pregleda dendograma in izraËuna VRC Calinski in Harabasz sta bili za nadaljevanje analize upoπtevani razvrstitvi v πtiri ali pet skupin. V naslednjem ko­ raku je bilo izvedeno nehierarhiËno razvrπËanje v πtiri in pet skupin s K­means algoritmom. Pri upo­ rabi K­means algoritma so bile kot izhodiπËne vred­ nosti upoπtevane povpreËne ocene, pridobljene iz hierarhiËnega razvrπËanja v πtiri in pet skupin. Na podlagi kvalitativne primerjave razvrπËanja v πtiri in pet skupin je bilo ugotovljeno, da je razvrπËanje v pet skupin identificiralo doloËeno podmnoæico enot znotraj skupine C1 pri razvrπËanju v πtiri skupine, ki predstavlja drugaËen in zanimiv nabor znanj, kot skupina C2 pri razvrπËanju v pet skupin. Z razvrstit­ vijo v pet skupin se je tudi zmanjπala variabilnost znotraj skupin, vendar se je na ta raËun poveËalo πtevilo osamelcev v skupini C2. Zaradi vsega nave­ denega je bila kot najbolj primerna izbrana razvrsti­ tev v pet skupin. 4.2 Diskusija Na podlagi vzorËnih podatkov in rezultatov analize podatkov v nadaljevanju predstavljamo ugotovitve po posameznih raziskovalnih vpraπanjih. Mateja Grobelnik, Jurij JakliË: Znanja in sposobnosti podatkovnih znanstvenikov: pregled in analiza stanja v Sloveniji U P O R A B N A I N F O R M A T I K A 312017 - πtevilka 1 - letnik XXV 1. Ali se podatkovni znanstveniki v Sloveniji ukvarjajo z masovnimi podatki in kako se to zrcali skozi razliËne dimenzije masovnih podatkov? Analiza rezultatov v Sloveniji je interpretirana in analizirana prek primerjave z rezultati veË raziskav, ki so se nanaπale na razliËne dimenzije masovnih podatkov. Dimenzija koliËine/volumna podatkov je primerjana z rezultati raziskave Kdnuggets.com (Pi­ atetsky, 2015), dimenzija raznolikosti z rezultati razi­ skave The Emerging Big Returns on Big Data (2013), dimenzija hitrosti z rezultati raziskave TDWI Big Data Analytics (Russom, 2011, str. 19) ter dimenzija vrednosti z rezultati raziskave Big Data Executive Survey (2012, str. 5). Na podlagi rezultatov raziskave KDnuggets. com (Piatetsky, 2015) glede najveËjega obdelanega nabora podatkov po geografskih podroËjih najveËji deleæ posameznikov, ki obdeluje podatke v TB ali PB, prihaja iz Zdruæenih dræav Amerike in Kanade (26,6 odstotka). Evropa je na Ëetrtem mestu z 20,7 od­ stotka posameznikov, ki so obdelali TB podatkov ali veË. V Evropi so drugaËe kot najveËji obdelan nabor podatkov najveËkrat (60 odstotkov) izbrali podatke v velikosti GB, manj kot 20 odstotkov pa jih obdeluje podatke velikosti MB. Rezultati iz raziskave v Sloveniji (slika 5) so po­ kazali, da je pribliæno 25 odstotkov udeleæencev kot najveËji volumen podatkov, s katerim so se ukvar­ jali, izbralo TB ali PB, kar je v primerjavi z raziska­ vo KDnuggets.com (Pieatetsky, 2015) bolj na ravni Zdruæenih dræav Amerike in Kanade. Udeleæenci raziskave v Sloveniji so kot najveËji volumen podat­ kov najveËkrat (44,6 odstotka) izbrali podatke od 1 do 2023 GB. Rezultat je sicer niæji kot deleæ v razi­ skavi Kdnuggets.com, vendar πe vedno lahko sprej­ memo sklep, da se udeleæenci raziskave v Sloveniji najveË ukvarjajo z obdelavo podatkov velikosti GB. V raziskavi The Emerging Big Returns on Big Data (2013, str. 19) so ugotovili, da je v organizaci­ jah v Evropi povpreËno ocenjeni deleæ strukturira­ nih podatkov 50 odstotkov, delno strukturiranih je 25 odstotkov, 25 odstotkov pa je nestrukturiranih podatkov. PovpreËno ocenjeni deleæ nestrukturira­ nih podatkov je najviπji v azijsko­pacifiπki regiji, kjer znaπa 34 odstotkov. PriËakovalo se je, da bo raziska­ va v Sloveniji pokazala podobne rezultate, in sicer da se bo pribliæno 25 odstotkov udeleæencev æe ukvarja­ lo z nestrukturiranimi podatki. Rezultati raziskave v Sloveniji (tabela 1) so poka­ zali, da se je 100 odstotkov udeleæencev æe ukvarjalo s strukturiranimi podatki, kar je priËakovano, saj so v raziskavi sodelovali posamezniki, ki se ukvarjajo s podatki. Bolj zanimiv je podatek, da se je 50 odstot­ kov udeleæencev raziskave æe ukvarjalo z nestruk­ turiranimi podatki, kar je viπje kot priËakovano. Kot nestrukturirani podatki so se upoπtevali vsi nestruk­ turirani podatki (besedilo, avdio, video, slike), gene­ rirani s strani Ëloveka. Slika 5: NajveËja obdelana koliËina/volumen podatkov (n = 92) Mateja Grobelnik, Jurij JakliË: Znanja in sposobnosti podatkovnih znanstvenikov: pregled in analiza stanja v Sloveniji Prosim, oznaËite, kakπna je bila najveËja koliËina/volumen podatkov, s katero ste se vi osebno do sedaj ukvarjali (pridobivanje, obdelava, analiza, odloËanje). (n = 92) do 1023 KB ali manj od 1 MB do 1023 MB od 1 GB do 1023 GB od 1 TB do 1023 TB od 1 PB ali več Ne vem Prosim označite kakšna je bila največja količina/volumen podatkov, s katero ste se vi osebno do sedaj ukvarjali (pridobivanje, obdelava, an liza, dločanj ): (n=92) Do 1923 KB ali manj Od 1 MB do 1023 MB Od 1 GB do 1023 GB Od 1 TB do 1023 TB Od 1 PB ali veË Ne ve 1,1 % 21,7 % 44,6 % 23,9 % 1,1 % 7,6 % U P O R A B N A I N F O R M A T I K A32 2017 - πtevilka 1 - letnik XXV Tabela 1: Raznolikost podatkov glede na dimenzijo (n = 92) Dimenzija Deleæ (v %) Podatki, generirani s strani naprav 96,7 Podatki, generirani s strani Ëloveka 79,3 Notranji viri 97,8 Zunanji viri 47,8 Strukturirani podatki 100,0 Nestrukturirani podatki 50,0 Na podlagi raziskave The Emerging Big Returns on Big Data (2013, str. 20) so ugotovili, da je v organi­ zacijah v Evropi povpreËno ocenjeni deleæ podatkov, pridobljenih iz notranjih virov, 68 odstotkov, iz zuna­ njih virov pa 32 odstotkov. PovpreËno ocenjeni deleæ podatkov, pridobljenih iz zunanjih virov, je najviπji v azijsko­pacifiπki regiji, kjer znaπa 38 odstotkov. Re­ zultati raziskave v Sloveniji so pokazali, da se je 97,8 odstotka udeleæencev æe ukvarjalo s podatki iz no­ tranjih virov, kar je priËakovano, saj so v raziskavi sodelovali posamezniki, ki se ukvarjajo s podatki, ki veËinoma izvirajo iz notranjih virov organizacije. S podatki iz zunanjih virov pa se je sreËalo æe skoraj 48 odstotkov udeleæencev raziskave, kar je viπje kot 32 odstotkov iz raziskave The Emerging Big Returns on Big Data (2013, str. 20). Zanimivo je, da obstaja doloËen deleæ posameznikov (2,2 odstotka), ki se ukvarja s podatki izkljuËno iz zunanjih virov. Kot podatke iz zunanjih virov smo upoπtevali vse struk­ turirane in nestrukturirane podatke (besedilo, avdio, video, slike), generirane s strani Ëloveka ali naprave, ki so pridobljeni iz zunanjih virov organizacije. Rezultati obeh raziskav sicer niso v celoti primer­ ljivi, saj so v raziskavi The Emerging Big Returns on Big Data (2013) spraπevali po stanju tipov/virov podatkov v organizacijah, v raziskavi v Sloveniji pa smo spraπeval posameznike o tem, ali so se æe sreËali z razliËnimi tipi, viri podatkov. Vseeno je bila razi­ skava The Emerging Big Returns on Big Data (2013) uporabljena kot moæna primerjava stanja uporabe razliËnih tipov/virov podatkov. Razlog za razliko v primerjavi z raziskavo, izvedeno v tujini, je lah­ ko tudi izbor (namensko priloænostno vzorËenje) in velikost vzorca (92 enot), vkljuËenega v raziskavo v Sloveniji. Na podlagi raziskave TDWI Big Data Analytics (Russom, 2011, str. 19) πtiri odstotke analiz v orga­ nizacijah opravljajo, izvajajo ali ponovno izvajajo v realnem Ëasu, πtiri odstotke na nivoju ure, pet odstot­ kov vsakih nekaj ur, 24 odstotkov dnevno, 14 odstot­ kov tedensko, 35 odstotkov meseËno in 15 odstotkov letno. Deleæ udeleæencev, ki so v raziskavi v Sloveniji oznaËili, da so se æe ukvarjali s podatki v realnem Ëasu, je bil 47,8 odstotka. Vseeno je pred primerjavo podatkov med raziskavama treba upoπtevati, da je πlo za drugaËen vzorec in da obstaja moænost, da so udeleæenci raziskave v Sloveniji neustrezno razumeli definicijo podatkov v realnem Ëasu, kar predstavlja tudi pomembno omejitev raziskave. Na podlagi raziskave Big Data Executive Survey (2012, str. 5) organizacije uporabljajo masovne po­ datke za πirok nabor namenov. Kot dve najbolj izpo­ stavljeni prednosti uporabe masovnih podatkov so najveËkrat izbrali boljπe odloËanje na podlagi dejstev (22 odstotkov) in izboljπanje izkuπnje potroπnika/ uporabnika (22 odstotkov). Sledi poveËanje prodaje/ prihodkov (15 odstotkov), inovacije na podroËju iz­ delkov in storitev (11 odstotkov), zmanjπanje tveganja (11 odstotkov), boljπa kakovost izdelkov in storitev (10 odstotkov) ter bolj uËinkovito izvajanje procesov (10 odstotkov). Rezultati raziskave v Sloveniji so po­ kazali (slika 6), da so udeleæenci raziskave kot glavno korist, ki jo dosegajo z delom s podatki, prav tako iz­ brali boljπe odloËanje na podlagi dejstev (82,6 odstot­ ka). Sledi izboljπanje izkuπnje potroπnika/uporabnika oziroma boljπe razumevanje potroπnika (72,2 odstot­ ka), kar se ujema z rezultati iz zgornje raziskave. Razlike se pojavijo πele pri drugih koristih, saj so udeleæenci v Sloveniji kot tretjo korist izbrali bolj uËinkovito izvajanje procesov, naËina dela, opera­ cij (66,3 odstotka) in poveËanje prodaje/prihodkov (66,3 odstotka), medtem ko se je moænost bolj uËin­ kovito izvajanje procesov v zgornji raziskavi pojavilo πele na zadnjih mestih. V Sloveniji so najmanjkrat iz­ brali inovacije na podroËju izdelkov in storitev (39,1 odstotka), medtem ko je ta opcija v zgornji raziskavi bila med prvimi πtirimi. Rezultati raziskave so pokazali, da se doloËeni posamezniki v Sloveniji z vidika dimenzije volumna (TB ali veË), raznolikosti (vse dimenzije podatkov) in vrednosti podatkov (boljπe odloËitve na podlagi dejstev) dejansko ukvarjajo z masovnimi podatki v oæjem smislu. Hkrati pa je bilo z analizo samo ocen znanj (v nadaljevanju) ugotovljeno, da so ravno znanja s podroËja tehnologije masovnih podatkov (masovni in distribuirani podatki, sistemi baz podat­ Mateja Grobelnik, Jurij JakliË: Znanja in sposobnosti podatkovnih znanstvenikov: pregled in analiza stanja v Sloveniji U P O R A B N A I N F O R M A T I K A 332017 - πtevilka 1 - letnik XXV kov ‡ baze podatkov NoSQL) v povpreËju najslabπe ocenjena (povpreËna ocena je bila okrog 2 ‡ osnove). Zanimivo je bilo, da so tudi z vidika pomembnosti znanj omenjena znanja iz tehnologije masovnih po­ datkov slabo ocenjena (povpreËna ocena pomemb­ nosti je bila okrog 2). Sklepamo lahko, da se v Slo­ veniji posamezniki ukvarjajo z masovnimi podatki v oæjem smislu, vendar pri tem ne uporabljajo tehnolo­ gij masovnih podatkov oziroma teh tehnologij πe ne uporabljajo v tolikπni meri, kot so æe sprejete v tujini. 2. Kakπna so dejanska znanja podatkovnih znanstvenikov v Sloveniji ter katera znanja in sposobnosti so pomembna pri njihovem delu? Analiza rezultatov v Sloveniji je delno interpretirana in analizirana preko primerjave z rezultati raziskave Hayesa (2015a). Raziskava Hayesa (Hayes, 2015a, str. 2‡4) o znanjih in sposobnostih podatkovnih znan­ stvenikov ter delovanju v timih je pokazala, da so so­ delujoËi v povpreËju izrazili viπjo stopnjo samoocene na naslednjih podroËjih: komunikacija, strukturirani podatki, podatkovno rudarjenje, znanost/znanstve­ na metoda, matematika, menedæment projektov, menedæment podatkov ter statistika in statistiËno modeliranje. V povpreËju pa so niæjo stopnjo samo­ ocene dodelili podroËjem: sistemska administracija, Ëelno in zaledno programiranje, procesiranje narav­ nega jezika (NLP), masovni in distribuirani podatki ter menedæment podatkov v oblaku (Hayes, 2015a, str. 2). Na podlagi podatkov iz raziskave v Sloveniji je bilo ugotovljeno, da so posamezniki v Sloveniji v povpreËju najviπjo samooceno znanj (slika 7) dode­ lili znanjem s podroËij baz podatkov (SQL, relacijske baze podatkov, menedæment podatkov), statistike (opisna statistika in verjetnostne porazdelitve ter regresija), domenskih znanj (poslovna znanja, speci­ fiËna znanja s podroËja, s katerega izhaja problem) ter oblikovanja informacij. Zanimivo je, da so v sklopu posameznikov, ki se veËino svojega Ëasa ukvarjajo s podatki, med najbolj pomembnimi (slika 8) poslovna znanja, oblikovanje informacij in specifiËna znanja s posameznega podroËja. PriËakovati bi bilo, da bodo pomembna predvsem znanja iz statistike, baz podat­ kov ali druga znanja. Razlog verjetno leæi v tem, da je rezultate analiz obdelave podatkov treba predsta­ viti jasno, enostavno in vizualno privlaËno, da bodo razumljivi tudi ostalim deleænikom, in seveda z na­ menom, da prinaπajo poslovno vrednost, za kar pa so potrebna poslovna znanja. V povpreËju pa slabo poznajo (slika 7) podroËja: metodologije strojnega uËenja, nagrajevalno in po­ globljeno uËenje, obdelava naravnega jezika ter tehnologije masovnih podatkov. Razlog je verje­ tno v tem, da ta znanja pri njihovem delu trenutno niso pomembna, saj so ta podroËja znanj dobila tudi najniæjo povpreËno oceno pomembnosti (slika 8). Z namenom pribliæati tehnologijo masovnih podat­ kov (Hadoop, MapReduce, baze podatkov NoSQL) ter napredna podroËja strojnega uËenja posamez­ Slika 6: Vrednost podatkov (n = 92) Mateja Grobelnik, Jurij JakliË: Znanja in sposobnosti podatkovnih znanstvenikov: pregled in analiza stanja v Sloveniji Prosim, oznaËite, s kakπnimi nameni se vi osebno ukvarjate z obdelavo podatkov oziroma katere otipljive koristi menite, da dosegate preko dela s podatki. (n = 92) Drugo: zaznavanje trendov Inovacije na področju izdelkov in storitev. Zmanjšanje tveganja. Boljša kakovost izdelkov ali storitev. Povečanje prodaje/prihodkov. Bolj učinkovito izvajanje procesov, načina dela, operacij. Izboljšanje izkušnje potrošnika/uporabnika oziroma boljše razumevanje potrošnika. Boljše odločanje na podlagi dejstev. 82,6 % 72,8 % 66,3 % 66,3 % 59,8 % 51,1 % 39,1 % 2,2 %02% 39% 51% 60% 66% 66% 73% 83% Drugo: zaznavanje trendov Inovacije na področju izdelkov in storitev. Zmanjšanje tveganja. Boljša kakovost izdelkov ali storitev. Povečanje prodaje/prihodkov. Bolj učinkovito izvajanje procesov, načina dela, operacij. Izboljšanje izkušnje potrošnika/uporabnika oziroma boljše razumevanje potrošnika. Boljše odl čanje n podlagi dejstev. Prosim označite s kakšnimi nameni se vi osebno ukvarjate z obdelavo podatkov oziroma katere otipljive koristi menite, da dosegate preko dela s p atki? (n=92) U P O R A B N A I N F O R M A T I K A34 2017 - πtevilka 1 - letnik XXV nikom in organizacijam v Sloveniji bi bilo pripo­ roËljivo vkljuËiti veË primerov dobrih praks s tega podroËja v sklopu predstavitev na konferencah, po­ vabiti strokovnjake iz tujine, veË razπirjanja znanja v sklopu druæabnih skupin in na sreËanjih ter v sklo­ pu formalnega izobraæevanja spodbujati uporabo tehnologij masovnih podatkov na odprtih podatkih (angl. open data) ali prek vzajemnega sodelovanja z organizacijami. Primeri dobre prakse in prikazani dejanski uËinki uporabe tehnologij masovnih podat­ kov bi tako spodbudili organizacije, da bodo zaËele razmiπljati o uvajanju teh tehnologij. Slika 7: PovpreËne ocene samoocene znanj (n = 87‡91) Mateja Grobelnik, Jurij JakliË: Znanja in sposobnosti podatkovnih znanstvenikov: pregled in analiza stanja v Sloveniji 1 - Ne poznam 2 - Osnove 3 - ZaËetnik 4 - Srednji nivo 5 - Napredni nivo 1 2 3 4 5 Poizvedbeni jezik SQL nPoslovna znanja (finance, trženje, logistika, razvoj izdelka, poznavanje organizacije, trženjsko raziskovanje) 'Oblikovanje informacij (vizualizacija) hSpecifična znanja iz posameznega področja, dejavnosti ali domene iz katere izhaja problem, ki ga rešujem aSistemi baz podatkov - relacijske baze podatkov (RDBMS): DB2, mySQL, SQL Server, PostgreSQL, idr. eOpisna statistika in verjetnostne porazdelitve (Descriptive Statistics and Probability Distributions) %Management podatkov (Data Management) Regresijska analiza (Regression) %Znanstvena metoda (Scientific method) 8Statistično preizkušanje domnev (Inferential Statistics) fLinearna algebra in računstvo, odvodi in inegrali, funkcije in risanje grafikonov, manipulacija matrik @Redukcija dimenzij (Dimension Reduction): PCA, faktorska analiza J Znanje programskih jezikov npr. R, Python, SAS, Julia, Scala, Stata, idr. 0Delo z delno strukturiranimi podatki: XML, .JSON Optimizacija (Optimization) (Metodologije npr. AGILE, LEAN, WATERFALL .Statistika časovnih vrst (Temporal Statistics) SČelno programiranje (Front End Programming): JavaScript/HTML/CSS/jQuery/AJAX, idr. *Simulacije (Simulations), npr. Monte Carlo (Nadzorovano učenje (Supervised Learning) TZaledno programiranje (Back End Programming): Java/Rails/.NET/PHP/Ruby/Go lang,idr. ,Nenadzorovano učenje (Unsupervised Learning) Masovni in distribuirani podatki (Hadoop, MapReduce, Hive QL) WSistemi baz podatkov - NoSQL baze podatkov: Cassandra, Hbase, CouchBase, MongoDB, idr. "Poglobljeno učenje (Deep Learning) ,Nagrajevalno učenje (Reinforcement Learning) 3,7 3,7 3,6 3,5 3,5 3,5 3,3 3,3 3,1 3,1 3,1 2,9 2,9 2,8 2,7 2,6 2,6 2,4 2,4 2,4 2,3 2,2 2,2 2,0 2,0 1,8 1,8 1,8 1,7 1,7 1,7 3.7 3.7 3.6 3.5 3.5 3.5 3.3 3.3 3.1 3.1 3.1 2.9 2.9 2.8 2.7 2.6 2.6 2.4 2.4 2.4 2.3 2.2 2.2 2.0 2.0 1.8 1.8 1.8 1.7 1.7 . 1 2 3 4 5 Poizvedbeni jezik SQL nPoslovna zna ja (fina ce, trženje, logistika, razvoj izdelka, poznav nje organizacije, trženjsko raziskovanje) 'Oblikovanje informacij (vizualizacija) hSpecifična zna ja iz posameznega področja, dejavnosti ali domen iz kater izhaj problem, ki ga rešujem aSistemi baz podatkov - relacijske baze podatkov (RDBMS): DB2, mySQL, SQL Server, PostgreSQL, idr. eOpisna sta istika in verjetnostne porazdelitve (Descriptive Sta istics and Proba ility Distributions) %Man gement podatkov (Dat Man gement) Regresijska n liza (Regression) %Zna stvena metoda (Scientific method) 8Sta istično preizkušanje domnev (Infer ntial Sta istics) fLinearna lgebra in računstvo, odvodi in inegrali, funkcije in risanje grafikonov, manipulacija matrik @Redukcija dimenzij (Dimension Reduction): PCA, faktorska n liza J Zna je programskih jezikov npr. R, Python, SAS, Julia, Scal , Sta , idr. 0Delo z delno strukturiranimi podatki: XML, .JSON Optimizacija (Optimization) (Metodol gije npr. AGILE, LEAN, WATERFAL .Sta istika časovnih vrst (Temporal Sta istics) SČelno programiranje (Front End Program ing): Jav Script/HTML/CSS/jQuery/AJAX, idr. *Simulacije (Simulations), npr. Monte Carlo (Nadzor vano učenje (Supervised Learni g) TZaledno programiranje (Back End Program ing): Jav /Rails/.NET/PHP/Ruby/Go lang,idr. ,Nenadzor vano učenje (Unsupervised Learni g) Masovni in distribuirani podatki (Hadoop, MapReduce, Hive QL) WSistemi baz podatkov - NoSQL baze podatkov: Cassandra, Hbase, CouchBase, MongoDB, idr. "Poglobljeno učenje (Deep Learni g) ,Nagrajevalno učenje (Reinforcement Learni g) U P O R A B N A I N F O R M A T I K A 352017 - πtevilka 1 - letnik XXV Da bi ugotovili, ali obstaja statistiËno znaËilna raz­ lika med samooceno znanj in pomembnostjo znanj, smo primerjali povpreËne samoocene znanja in oce­ ne pomembnosti znanja. Na podlagi statistiËnega preizkusa je bila identificirana vrzel med povpreËno samooceno znanj in povpreËno oceno pomembnosti le pri podroËjih znanj: regresijska analiza (povpreËna samoocena = 3,3; povpreËna pomembnost: 3,0; P = 0,02) ter linearna algebra in raËunstvo, odvodi Slika 8: PovpreËne ocene pomembnosti znanj (n = 84‡91) in integrali, funkcije in risanje grafikonov, manipula­ cija matrik (povpreËna samoocena = 3,1; povpreËna pomembnost: 2,5; P = 0,000). Pri navedenih znanjih lahko torej trdimo, da obstaja vrzel med obstojeËimi znanji (na podlagi samoocene) in pomembnostjo pri njihovem delu. Pri obeh se je izkazalo, da anketiran­ ci menijo, da imajo veË znanj, kot je pomembno pri njihovem delu. Rezultat verjetno izhaja iz tega, da se matematike in delno statistike podrobno uËimo Mateja Grobelnik, Jurij JakliË: Znanja in sposobnosti podatkovnih znanstvenikov: pregled in analiza stanja v Sloveniji 1 - Sploh ni pomembno 2 3 4 5 - Zelo je pomembno 1 2 3 4 5 nPoslovna znanja (finance, trženje, logistika, razvoj izdelka, poznavanje organizacije, trženjsko raziskovanje) 'Oblikovanje informacij (vizualizacija) hSpecifična znanja iz posameznega področja, dejavnosti ali domene iz katere izhaja problem, ki ga rešujem Poizvedbeni jezik SQL aSistemi baz podatkov - relacijske baze podatkov (RDBMS): DB2, mySQL, SQL Server, PostgreSQL, idr. %Management podatkov (Data Management) eOpisna statistika in verjetnostne porazdelitve (Descriptive Statistics and Probability Distributions) %Znanstvena metoda (Scientific method) 8Statistično preizkušanje domnev (Inferential Statistics) Regresijska analiza (Regression) J Znanje programskih jezikov npr. R, Python, SAS, Julia, Scala, Stata, idr. @Redukcija dimenzij (Dimension Reduction): PCA, faktorska analiza 0Delo z delno strukturiranimi podatki: XML, .JSON .Statistika časovnih vrst (Temporal Statistics) Optimizacija (Optimization) (Metodologije npr. AGILE, LEAN, WATERFALL fLinearna algebra in računstvo, odvodi in inegrali, funkcije in risanje grafikonov, manipulacija matrik (Nadzorovano učenje (Supervised Learning) TZaledno programiranje (Back End Programming): Java/Rails/.NET/PHP/Ruby/Go lang,idr. *Simulacije (Simulations), npr. Monte Carlo SČelno programiranje (Front End Programming): JavaScript/HTML/CSS/jQuery/AJAX, idr. Masovni in distribuirani podatki (Hadoop, MapReduce, Hive QL) WSistemi baz podatkov - NoSQL baze podatkov: Cassandra, Hbase, CouchBase, MongoDB, idr. "Poglobljeno učenje (Deep Learning) ,Nagrajevalno učenje (Reinforcement Learning) 3,8 3,7 3,6 3,6 3,5 3,5 3,3 3,1 3,0 3,0 2,9 2,8 2,7 2,6 2,6 2,6 2,5 2,3 2,3 2,3 2,3 2,2 2,1 2,1 2,1 1,9 1,9 1,9 1,8 1,7 1,7 U P O R A B N A I N F O R M A T I K A36 2017 - πtevilka 1 - letnik XXV v sklopu formalne izobrazbe (osnovna πola, srednja πola itd.), v praksi pa s teh podroËij uporabljamo le znanja, ki so pri delu pomembna. Anketiranci na­ mreË opravljajo razliËne funkcije, pri katerih uporab­ ljajo razliËna znanja glede na njihovo podroËje dela, prav vsi pa imajo podobna osnovna izhodiπËa, npr. iz matematike. Pri primerjavi rezultatov med raziskavo v Slove­ niji in raziskavo Hayesa (2015a) je razvidno, da so skupna podroËja viπje samoocenjenih znanj: struk­ turirani podatki/relacijske baze podatkov (SQL), menedæment podatkov ter do doloËene mere stati­ stika (v Sloveniji podroËje regresijske analize, opisne statistike in verjetnostne porazdelitve). V Sloveniji so visoko povpreËno samooceno dobila πe druga, zgoraj omenjena podroËja znanj, ki pa v raziskavi Hayesa niso bila zajeta v vpraπalnik v takπni obliki. V razi­ skavi Hayesa so bila v povpreËju viπje ocenjena zna­ nja iz matematike in znanosti/znanstvene metode, ki sta v Sloveniji dobili v povpreËju oceno 3 ‡ ZaËetnik. Sklepamo lahko, da imajo posamezniki v tujini bolj moËno formalno izobrazbo na teh dveh podroËjih oziroma se veË posameznikov s teh dveh podroËij ukvarja z znanostjo o podatkih ali pa omenjena raz­ lika izhaja le iz drugaËne sestave in velikosti vzorca. Pri pregledu rezultatov raziskave o pomembnosti sposobnosti (slika 9) lahko sklepamo, da so vse spo­ sobnosti, razen flpodjetniπke naravnanosti«, anketi­ ranci ocenili kot pomembne pri njihovem delu in da pomembno vplivajo na uspeπnost njihovega dela. V sklopu pomembnosti sposobnosti so bile kot najbolj pomembne ocenjene postavljanje pravih vpraπanj, sposobnost reπevanja problemov ter analitiËne spo­ sobnosti. To dopolnjuje prejπnjo ugotovitev, da v osno­ vi podatkovni znanstveniki reπujejo poslovne proble­ me, za kar potrebujejo ustrezne sposobnosti, da znajo pravilno opredeliti problem, se ga lotiti na pravi naËin in pri tem ustrezno uporabiti vsa svoja znanja. Slika 9: PovpreËne ocene pomembnosti sposobnosti (n = 90‡92) Mateja Grobelnik, Jurij JakliË: Znanja in sposobnosti podatkovnih znanstvenikov: pregled in analiza stanja v Sloveniji 1 - Sploh ni pomembno 2 3 4 5 - Zelo je pomembno 1 2 3 4 5 0Postavljati prava vprašanja, definirati problem. Sposobnost reševanja problemov. Analitične sposobnosti. Strast do učenja novih stvari. ARadovednost glede opazovanih stvari (vzorcev, odnosov, razmerij). Strast do dela s podatki. Biti potrpežljiv in vztrajen. HImeti sposobnost kreativnega mišljenja (angl. thinking outside the box).