Univerza v Ljubljani Fakulteta za elektrotehniko
Marko Meža
Samodejna interpretacija rezultatov predtransfuzijskih testiranj na slikah
gelskih kartic
DOKTORSKA DISERTACIJA
Mentor: prof. dr. Jurij F. Tasiè
Ljubljana, 2007
Kazalo
Slike                                                                                                                            xi
Tabele                                                                                                                       xvi
Zahvala                                                                                                                    xvii
Povzetek                                                                                                                   xix
Klju¡cne besede                                                                                                       xxv
Abstract                                                                                                                xxvii
Key words                                                                                                           xxxiii
1   Uvod                                                                                                                       1
1.1    Predtransfuzijske preiskave ...........................     1
1.1.1    Razpr¡senost zahtev, malo primerov/center, malo specialistov . . . .     2
1.2    Vpeljava telekonzultacijskega sistema .....................     2
1.3    Samodejna interpretacija preiskav .......................     3
1.3.1    Kratek opis delovanja sistema za samodejno interpretacijo   .....     4
1.3.1.1    Faza u¡cenja ..........................     4
1.3.1.2    Faza interpretacije preiskav   .................     4
1.3.2    Pridobivanje u¡cne in testne mno¡zice ..................     5
1.3.3    Validacija sistema ............................     5
1.3.4    Obstoje¡ci postopki samodejne interpretacije   .............     5
1.4    Kratek pregled vsebine .............................     6
i
ii
KAZALO
2    Opis problema                                                                                                       9
2.1    Predstavitev problema.............................      9
2.2    Cilji raziskav doktorske disertacije.......................    10
2.3    Opis predtransfuzijskih preiskav........................    10
2.3.1     Gelska metoda    .............................    10
2.4    Sistem za samodejno interpretacijo predtransfuzij skih preiskav.......    12
2.4.1     Namen sistema za samodejno interpretacijo predtransfuzij skih prei-
2.4.2     Gradnja modelov sistema z algoritmi strojnega uèenja........    12
2.4.3     Evaluacija posameznih modelov interpretacije............    13
2.4.4     Evaluacija kombinacije modelov interpretacije............    13
2.4.5     Pridobivanje podatkov za uèno in testno množico..........    14
3    Obstojeèe rešitve in orodja                                                                               15
3.1     Obstojeèe stanje transfuzije v RS.......................    15
3.1.1     Organizacija transfuzijske službe, nadgrajene s sistemom za tele-konzultacije...............................    15
3.1.2     Opis gelske metode...........................    17
3.1.2.1     Ugotavljanje stopnje jakosti aglutinacije..........    18
3.1.2.2     Dokonèna interpretacija rezultata preiskave........    19
3.2    Sistem za telekonzultacije    ...........................    19
3.2.1     Namen sistema - problemi, ki jih rešuje................    19
3.2.2     Delovanje sistema za telekonzultacije.................    19
3.2.3     Vzpostavljanje sistema.........................    20
3.2.3.1     Uporabniške zahteve.....................    20
3.2.4     Gradniki sistema............................    22
3.2.4.1     Programska aplikacija na odjemalcu    ............    23
3.2.4.2     Programska aplikacija na strežniku.............    24
3.2.4.3     Programska in strojna oprema za videokonferenèno zvezo .    24
3.2.4.4     Podatkovna baza.......................    24
3.2.4.6     Omrežje z elementi za kriptiranje in varnost........    27
3.2.4.7     Terminali...........................    27
KAZALO
iii
3.2.4.8    Namenska strojna oprema za zajem slik gelskih kartic – Gelscope32   ..........................   28
3.2.4.9    Komunikacijski modul z DATEC obstoje¡cim informacijskim sistemom ........................   31
3.3   Pregled metod strojnega u¡cenja ........................   31
3.3.1    Povzetek osnovne terminologoje ....................   33
3.3.1.1    Koncept (ang. concept)   ...................   33
3.3.1.2    Vzorec (ang. instance, feature, example) ..........   33
3.3.1.3    Atribut (ang. attribute), zna¡cilka, lastnost .........   33
3.3.2    Predstavitev nau¡cenega znanja   ....................   34
3.3.2.1    Pravilnostne tabele ......................   34
3.3.2.2    Odlo¡citvena drevesa   .....................   34
3.3.2.3    Klasifikacijska pravila   ....................   35
3.3.2.4    Asociacijska pravila   .....................   36
3.3.2.5    Roji ..............................   36
3.3.3    Pristopi strojnega u¡cenja ........................   37
3.3.3.1    Klasifikacija ..........................   38
3.3.3.1.1     1R ..........................   39
3.3.3.1.2     Statisti¡cno modeliranje – Naivni Bayes ......   39
3.3.3.2    Klasifikacija: Gradnja odlo¡citvenih dreves   .........   43
3.3.3.2.1     ID3 in izpeljanke ..................   43
3.3.3.3    Klasifikacija: Konstruriranje pravil z algoritmi s pokrivanjem   ..............................   49
3.3.3.3.1     Primerjava pravil in dreves   ............   50
3.3.3.3.2     Preprost algoritem s pokrivanjem – PRISM   . . .   52
3.3.3.4    Asociiranje   ..........................   55
3.3.3.5    Rojenje  ............................   60
3.3.3.5.1     Metode iskanja rojev v mno¡zici vzorcev ......   60
3.3.3.5.2     Tipi algoritmov rojenja ...............   60
3.3.3.5.3     Algoritmi na osnovi grafov .............   61
3.3.3.5.4     Hierarhi¡cni algoritmi ................   61
3.3.3.5.5     Delitveni algoritmi .................   61
3.3.3.5.6     Metoda K-tih povpre¡cij   ..............   61
3.3.3.6    Numeri¡cno napovedovanje ..................   62
iv
KAZALO
3.3.3.6.1     Numeri¡cno napovedovanje: Linearna regresija  . .   62
3.3.4    Ocenjevanje u¡cinkovitosti metod strojnega u¡cenja ..........   63
3.3.4.1    Mere u¡cinkovitosti metod strojnega u¡cenja – razvr¡s¡canja .   64
3.3.4.2    Evaluacija s testnim naborom podatkov   ..........   65
3.3.4.3    Navzkri¡zna validacija .....................   66
3.3.4.4    Validacija izpusti enega   ...................   67
3.3.4.5    Primerjava razli¡cnih metod   .................   67
3.4   Zajem in registracija podatkov .........................   67
3.4.1    Sistem za telekonzultacije v transfuzijski medicini ..........   68
4   Sistemzasamodejno interpretacijo                                                                 69
4.1    Razdrobitev problema na korake ........................   69
4.2    Strojno u¡cenje ..................................   70
4.2.1    Uporabljeni algoritmi strojnega u¡cenja  ................   72
4.2.2    WEKA ..................................   77
4.2.2.1    ARFF format .........................   77
4.2.2.2    Eksperiment   .........................   79
4.2.3    Zajem podatkov iz sistema za telekonzultacije v transfuzijski medicini  80
4.3    Dolo¡canje stopnje jakosti aglutinacije kolon ..................   84
4.3.1    Registracija slikovnih podatkov   ....................   85
4.3.1.1    Identifikacija rotacije slik gelskih kartic z maksimiranjem dinami¡cnosti projekcije robov ................   86
4.3.1.1.1     Robljenje slik ....................   88
4.3.1.2    Iskanje podro¡cij posameznih kolon na gelskih karticah   . .   92
4.3.2    Preslikava slik kolon v vektor porazdelitve eritrocitov ........   96
4.3.2.1    Segmentacija eritrocitov v slikah kolon ...........   97
4.3.2.1.1     Segmentacijski algoritmi ..............   97
4.3.2.2    Preslikava porazdelitve aglutinatov v vektor porazdelitve . 102
4.3.3    Izra¡cun vektorja lastnosti   ....................... 103
4.3.3.1    Izra¡cun vektorja lastnosti z metodo PCA .......... 103
4.3.3.2    Izra¡cun vektorja lastnosti z zrnjenjem – ZRNI ....... 104
4.3.4    Strojno u¡cenje .............................. 104
4.4    Dolo¡canje dokon¡cne interpretacije predtransfuzijske preiskave ........ 105
4.4.1    Zajem podatkov ............................. 106
KAZALO
v
4.4.2    Strojno u¡cenje .............................. 107
4.4.3    Ocenjevanje u¡cinkovitosti modela dokon¡cnega napovedovanja rezultatov ................................... 107
4.5   U¡cinkovitost interpretacije preiskav ...................... 108
4.5.1    Dele¡z uspe¡snosti   ............................ 108
5   Rezultati eksperimentov                                                                                  111
5.1    Ozna¡cevanje kombinacije uporabljenih algoritmov .............. 111
5.2    Sestava u¡cne/testne mno¡zice .......................... 112
5.2.1    Stopnje jakosti aglutinacije uporabljenih kolon u¡cne/testne mno¡zice 112
5.2.2    Dokon¡cna interpretacija – KS  ..................... 112
5.3    Rezultati segmentacijskih algoritmov  ..................... 113
5.3.1    Opis eksperimenta   ........................... 113
5.3.2    Uporabljeni segmentacijski algoritmi   ................. 114
5.3.2.1    Metode za izra¡cun vektorjev lastnosti ............ 115
5.3.2.1.1     Zrnjenje – ZRNI   .................. 115
5.3.2.1.2     PCA ......................... 115
5.3.3    Primerjava metod u¡cinkovitosti segmentacije ............. 116
5.4    Rezultati metod izra¡cuna vektorjev lastnosti ................. 121
5.4.1    Algoritem za izra¡cun vektorjev lastnosti z zrnjenjem ......... 121
5.4.1.1    ZRNI: Vpliv izbranega ¡stevila komponent na uspe¡snost
algoritmov strojnega u¡cenja ................. 121
5.4.2    Algoritem za izra¡cun vektorjev lastnosti z metodo PCA ....... 123
5.4.2.1    Izbira ¡stevila komponent vektorja lastnosti s PCA ..... 123
5.4.3    Primerjava u¡cinkovitosti dolo¡canja stopnje jakosti aglutinacije pri uporabi algoritma za izra¡cuna vektorjev lastnosti z metodo zrnjenja in PCA   ................................. 123
5.5    Rezultati strojnega u¡cenja – aglutinacija  ................... 126
5.5.1    Izbira na¡cina izra¡cuna vektorjev lastnosti ............... 126
5.5.2    Izbira kandidatov za optimalen algoritem strojnega u¡cenja   ..... 129
5.6    Rezultati modelov dokon¡cne interpretacije preiskav   ............. 139
5.6.1    Samodejna interpretacija preiskave KS  ................ 139
5.7    Ocena dele¡za uspe¡snosti in izbira najbolj¡se kombinacije algoritmov ..... 148
vi
KAZALO
5.7.1     Ocena deleža uspešnosti za vektorje stopnje jakosti aglutinacije za doloèanje krvne skupine........................148
5.7.2     Ocena deleža uspešnosti za dokonèen rezultat za doloèanje krvne
6    Zakljuèek                                                                                                            151
6.1    Nadaljnje delo..................................153
6.1.1     Razširjen preizkus............................153
6.1.2     Dinamièno izbiranje modela za interpretacijo.............153
6.1.3     Vpeljava sistema v realno prakso    ...................154
6.2    Prispevki znanosti    ...............................154
7    Izjava                                                                                                                   167 A  Priloge                                                                                                                 169
Slike
1      Fotografija gelske kartice za dolo¡canje krvne skupine z vzorci po kon¡cani reakciji in centrifugiranju.   . ..........................   xx
2      Interpretacija predtransfuzijske preiskave v dveh korakih. V prvem je dolo¡cena stopnja jakosti aglutinacije v vsaki od 6 kolon. V drugem je na podlagi stopenj jakosti aglutinacije in tipa preiskave dolo¡cena dokon¡cna interpretacija preiskave.   . ........................... xxi
3      Image of gel-card for determination of human blood type. The blood samples have been administered, the reaction occurred and the gel-card was centrifuged.   . .................................. xxviii
4      Two step pre-transfusion test interpretation. The first step is the agglutination strength determination for each of six micro-tubes. The second step is the final pre-transfusion test interpretation, based on the agglutination strengths and test type.   . ........................... xxix
2.1   Fotografija prazne gelske kartice (a) in fotografija gelske kartice za dolo¡canje
krvne skupine z vzorci po kon¡cani reakciji in centrifugiranju (b) .......   11
3.1    Organizacija transfuzijske slu¡zbe v Sloveniji [1].   . ..............   16
3.2    Slike kolon gelskih kartic z razli¡cnimi stopnjami jakosti aglutinacije .....   18
3.3    Zasnova sistema za telekonzultacije s konzultantom in dvema de¡zurnima lokacijama. Osebje na lokacijah De¡zurni 1 in De¡zurni 2 s pomo¡cjo sistema zastavlja konzultantu vpra¡sanja, na katera specialist konzultant z uporabo sistema odgovarja.   . ..............................   21
vii
viii
SLIKE
3.4    Uporabni¡ski vmesnik aplikacije za telekonzultacije v transfuzijski medicini. Na sliki vidimo glavno okno aplikacije, ki vsebuje 20x pove¡cano sliko kolon na gelski kartici in osnovne pacientove podatke, pridobljene iz sistema DATEC. Vidimo tudi okno z vzpostavljeno videokonferen¡cno sejo ......   25
3.5    Delovno mesto konzultirajo¡cega v bolni¡sni¡cnem laboratoriju. Konzulti-rajo¡ca je z napravo Gelscope32 ravnokar zajela sliko predtransfuzijskih preiskav na gelski kartici. Slika je takoj vklju¡cena v telekonzultacijski sejo skupaj s podatki o pacientu, pridobljenimi iz DATEC. Konzultirajo¡ci lahko kadarkoli med procesom vzpostavi s konzultantom videokonferen¡cno povezavo in se z njim o problemu posvetuje v realnem ¡casu.   . .......   26
3.6    Shematski prerez naprave Gelscope32: Postavitev svetlobnih teles, gelske
¡ kartice in kamere. Crtkano so ozna¡ceni odboji sevetlobe svetilnih teles od
povr¡sine gelske kartice ..............................   30
3.7    Fotografija izdelane naprave Gelscope32 in rentgenski pogled. . .......   30
3.8    Podatki, pridobljeni iz sistema DATEC, kot so na voljo uporabnikom sistema za telekonzultacije. Zaradi varstva podatkov je na sliki skrito ime obravnavanega pacienta.  . ...........................   32
3.9    Razli¡cni na¡cini predstavitve rojev – znanja, nau¡cenega z metodami rojenja [2] .........................................   37
¡
3.10  Stori dreves za posamezne atribute A1..A4 za podatke iz tabele 3.1. Povzeto
in popravljeno iz [2].   . .............................   45
3.11  Drugi korak v gradnji drevesa za demonstracijski problem. Za osnovno vejo je bil izbran atribut A1. Podane so mo¡zne vejitve za posamezne atribute A2..A4 za podatke iz tabele 3.1. Povzeto in popravljeno iz [2].   . ......   47
3.12  Odlo¡citveno drevo za razvr¡s¡canje podatkov, podanih v tabeli 3.1. Povzeto in popravljeno iz [2].   . .............................   48
3.13  Algoritem s pokrivanjem (a) in odlo¡citveno drevo za isti problem (b). Povzeto in popravljeno iz [2].   . ........................   51
4.1 Interpretacija predtransfuzijske preiskave poteka v dveh korakih. V prvem koraku je dolo¡cena stopnja jakosti aglutinacije za vsako od 6 kolon v obravnavani gelski kartici. V drugem koraku se na podlagi v prvem koraku dolo¡cenih stopenj jakosti aglutinacije in tipa preiskave dolo¡ci dokon¡cna interpretacija preiskave. . .............................   71
SLIKE
ix
4.2    Faza u¡cenja modela – splo¡sno. V postopku u¡cenja je potrebno najprej iz opazovanega sistema pridobiti testno in u¡cno mno¡zico podatkov. Z u¡cno mno¡zico smo z algoritmi strojnega u¡cenja zgradili model, ki smo ga s testno mno¡zico preizkusili ................................   73
4.3    Faza razpoznave – splo¡sno. V fazi razpoznave uporabljamo v fazi u¡cenja pridobljeni model sistema za simuliranje delovanja realnega opazovanega sistema. Za to fazo je potrebno iz obravnavanega sistema zajeti podatke, ki so obi¡cajno brez rezultatov. S preizku¡senim in nau¡cenim modelom, pridobljenim v prvi fazi, fazi u¡cenja, interpretiramo podatke in napovemo rezultat obravnavanega realnega sistema ....................   74
4.4    Z orodjem XMLSPY na¡crtovana podatkovna struktura za izvoz podatkov.     82
4.5    Iz sistema za telekonzultacije zajeti skupini podatkov. Podatki shranjeni v XML datoteki in JPEG slike gelskih kartic. Vsi podatki so z namenom preprostega prena¡sanja zgo¡s¡ceni v eno zip datoteko ..............   82
4.6    Vsebina datoteke XSD: z orodjem XMLSPY na¡crtovana podatkovna struktura za izvoz podatkov. . . ...........................   83
4.7    Postopek registracije slik gelskih kartic in transformacije le-teh v vektorje projekcije .....................................   85
4.8    Ilustracija napake pri zajemu slike gelske kartice. Umetno pretirano rotirana fotografija gelske kartice. . ........................   86
4.9    Algoritem registracije rotacije slik gelskih kartic ................   89
4.10  Se¡stevki absolutnih vrednosti odvodov projekcij – totalne variacije za posamezne kote rotacije od -5? do +5?. Maksimalna totalna variacija projekcij za obravnavano sliko je pri kotu -2,4?.   . ................   90
4.11  Rotirana slika (a) in njena popravljena verzija (b). . .............   91
4.12  Primerjava metod za robljenje. . ........................   93
4.13  Podro¡cje zanimanja na gelski kartici – podro¡cje kolon. . ...........   94
4.14  Dolo¡canje podro¡cij kolon. . ...........................   94
4.15  Opazovani pas slike za dolo¡canje lokacije kolon na osi x je izbran tako, da zagotovo vsebuje slike kolon ...........................   95
4.16  Opazovana podro¡cja slike za dolo¡canje roba y so izbrana tako, da zagotovo vsebujejo spodnje robove kolon. Obravnavana so le podro¡cja predhodno dolo¡cenih polo¡zajev kolon na osi x.   . .....................   96
X
SLIKE
4.17 Vizualna primerjava obetavnih metod segmentacije slik kolon. (a) - Slika kolone; (b) - Rezultat odštevanja komponent SR - SG - SB; (c) - SCr komponenta slike, preslikane v prostor SYcbcr; (d) - Kombinacija upragovljenih slik SB in SCr; (e) - \SR - SG| + \SR - SB\ - \SB - SG|. Prikazani so primeri za razliène barve gela - prozorna, rumena in modra.........101
5.1    Uèinkovitost razliènih algoritmov strojnega uèenja, uporabljenih v raziskavi, ob izbiri razliènih algoritmov segmentacije. Vektorji lastnosti so bili izraèunani z metodo zrnjenja. V napisih nad slikami je podano število komponent, na katere je bila razdeljena projekcija slike posameznih kolon.  V
tem trenutku obravnave so pomembne toèke z najvišjim deležem uspešnosti. 117
5.2    Uèinkovitost razliènih algoritmov strojnega uèenja, uporabljenih v raziskavi, ob izbiri razliènih algoritmov segmentacije. Vektroji lastnosti so bili izraèunani z metodo PCA. V napisih nad slikami je podano število lastnih vektorjev, ki smo jih obdržali.   V tem trenutku obravnave so pomembne
u vJvjJVv^   Zj   -Lid I V J. o I _L _L_L_L   vJ.CJ.t'^CLJ-J-   LLo L* CollUo uJ. •       .     .     .     .     .     .     .     .     .     .     .     .     .     .     .     .     .     .     .     .     ._l__LO
5.3    Uèinkovitost razliènih algoritmov strojnega uèenja, uporabljenih v raziskavi, ob izbiri razliènih segmentacijskih algoritmov. Za izraèun vektorja lastnosti
je izbran algoritem zrnjenja ZRNI6.......................119
5.4    Uèinkovitost razliènih algoritmov strojnega uèenja, uporabljenih v raziskavi, ob izbiri razliènih segmentacijskih algoritmov. Za izraèun vektorja lastnosti je izbran algoritem PCA, ki za preslikavo podatkov v novi prostor uporabi prvih 10 lastnih vektorjev...........................120
5.5    Vpliv izbranega števila komponent vektorja lastnosti izraèunanega z algoritmom za izraèun vektorjev lastnosti z zrnjenjem na uèinkovitost razvršèanja z algoritmi strojnega uèenja.  Analiza je izvedena za število komponent v intervalu [1..15]..................................122
5.6    Vpliv izbranega števila komponent algoritma PCA za izraèun vektorjev lastnosti na uèinkovitost razvršèanja z algoritmi strojnega uèenja. Analiza
je izvedena za število komponent v intervalu [1.. 17]..............124
5.7    Primerjava doseženega deleža uspešnosti pri uporabi razlièno parametri-ziranih metod ZRNI in PCA za izraèun vektorjev lastnosti iz vektorjev projekcij segmentiranih slik kolon. Upoštevani so najvišji doseženi deleži pravilno razvršèenih med rezultati uporabljenih 49 metod strojnega uèenja. 125
SLIKE
xi
5.8    Primerjava posameznih metod strojnega uèenja pri vektorjih lastnosti izraèunanih z metodo PCA glede na maksimalno uspešnost razvršèanja, doseženo z uporabljenimi parametri. Vidimo, da se posamezne metode strojnega uèenja v podroèju izraèuna vektorjev lastnosti obnašajo podobno
5.9    Primerjava posameznih metod strojnega uèenja pri vektorjih lastnosti izraèunanih z metodo ZRNI glede na maksimalno uspešnost razvršèanja, doseženo z uporabljenimi parametri. Vidimo, da se posamezne metode strojnega uèenja v podroèju izraèuna vektorjev lastnosti obnašajo podobno
5.10  Uèinkovitost algoritmov strojnega uèenja na razvršèanje (delež pravilno razvršèenih) pri PCAio S9............................129
5.11   Uèinkovitost algoritmov strojnega uèenja na razvršèanje (delež pravilno razvršèenih) pri ZRNI6 S9............................132
5.12  Uspešnost algoritmov strojnega uèenja za doloèanje krvne skupine na gelski kartici humana.................................140
5.13  Delež uspešnosti vektorjev stopenj jakosti aglutinacije za posamezne rezultate preiskave doloèanje krvne skupine na gelski kartici humana. Rezultati preiskav so doloèeni s pravilnostno tabelo, podano v [3]. Seznam kombinacije metod je naveden v tabeli 5.43. Na sliki so narisani samo deleži vektorjev, ki po pravilnostni tabeli pomenijo doloèitev krvne skupine.   ... 149
xii                                                                                                                          SLIKE
Tabele
3.1    Demonstracijski podatkovni nabor. Povzet in popravljen iz [2] ........   39
3.2    Primer generiranja pravil 1R iz podatkov u¡cne mno¡zice, podane v tabeli 3.1. Povzeto in popravljeno iz [2] ........................   40
3.3    Primer generiranja pravil za statisti¡cno modeliranje iz podatkov u¡cne mno¡zice, podane v tabeli 3.1. Povzeto in popravljeno iz [2]. . . .......   40
3.4    Neznani vzorec. Povzeto in popravljeno iz [2].  . ...............   40
3.5    Demonstracijski podatkovni nabor: podatki o na¡cinu predpisovanja kontaktnih le¡c. Povzeto iz [2]. . ..........................   52
3.6    Delni podatki o na¡cinu predpisovanja kontaktnih le¡c pri izbranem atributu Astigmatizem = da. Povzeto iz [2].   . .....................   53
3.7    Delni podatki o na¡cinu predpisovanja kontaktnih le¡c pri izbranih atributih Astigmatizem = da in Solzenje = normalno. Povzeto iz [2] ..........   54
3.8    Na en element skr¡ceni vektorji za podatkovni nabor, podan v tabeli 3.1. Povzeto in popravljeno iz [2].   . ........................   56
3.9    Na dva elementa skr¡ceni vektorji za podatkovni nabor, podan v tabeli 3.1. Povzeto in popravljeno iz [2].   . ........................   57
3.10  Na tri elemente skr¡ceni vektorji za podatkovni nabor, podan v tabeli 3.1. Povzeto in popravljeno iz [2].   . ........................   57
3.11  Na ¡stiri elemente skr¡ceni vektorji za podatkovni nabor, podan v tabeli 3.1. Povzeto in popravljeno iz [2].   . ........................   57
3.12  Asociacijska pravila, generirana iz skraj¡sanega vektorja 38 iz tabele 3.10. Povzeto in popravljeno iz [2].   . ........................   58
3.13  Asociacijska pravila. Povzeto in popravljeno iz [2]. . . ............   59
3.14  Matrika pravilnih in napa¡cnih razvrstitev (ang. confusion matrix) ......   65
4.1   Preizku¡seni algoritmi strojnega u¡cenja. . ...................   76
xiii
xiv
TABELE
4.2    Verjetnosti, da je posamezna komponenta vektorja pravilna.........  109
5.1     Specifikacija porazdelitve stopnje jakosti aglutinacije 182, v postopek strojnega uèenja zajetih kolon............................  112
5.2    Specifikacija porazdelitve rezultatov krvne skupine v podatkovnem naboru, generiranem na podlagi literature [3]......................  113
5.3    Specifikacija segmentacijskih algoritmov, s katerimi smo segmentirali v postopek strojnega uèenja zajete slike kolon.    Podroben opis se nahaja
v podpoglavju 4.3.2.1..............................  115
5.4    Delež pravilno razvršèenih z modeli zgrajenimi s posameznimi algoritmi strojnega uèenja. Za generiranje vektorja lastnosti smo uporabili prvih 10 komponent, izraèunanih z metodo PCA. Uporabili smo vektorje projekcije, izraèunane iz slik, segmentiranih z metodo 9. (PCA10 S9)..........  131
5.5    Delež pravilno razvršèenih z modeli zgrajenimi s posameznimi algoritmi strojnega uèenja. Za generiranje vektorja lastnosti smo vektor projekcije z metodo ZRNI razdelili na 6 delov. Uporabili smo vektorje projekcije, izraèunane iz slik segmentiranih z metodo 9. (ZRNI6 S9)..........  133
5.6    Matrika pravilno in napaèno razvršèenih ZRNI6 S9 M12............  134
5.7    Delež pravilno razvršèenih za eksperiment ZRNI6 S9 M12...........  134
5.8    Matrika pravilno in napaèno razvršèenih ZRNI6 S9 M17............  134
5.9    Delež pravilno razvršèenih za eksperiment ZRNI6 S9 M17...........  135
5.10  Matrika pravilno in napaèno razvršèenih ZRNI6, S9, M23...........  135
5.11   Delež pravilno razvršèenih za eksperiment ZRNI6, S9, M23..........  135
5.12  Matrika pravilno in napaèno razvršèenih ZRNI6 S9 M37............  135
5.13  Delež pravilno razvršèenih za eksperiment ZRNI6 S9 M37...........  136
5.14  Matrika pravilno in napaèno razvršèenih ZRNI6 S9 M39............  136
5.15  Delež pravilno razvršèenih za eksperiment ZRNI6 S9 M39...........  136
5.16  Matrika pravilno in napaèno razvršèenih PCA10 S9 M12............  136
5.17  Delež pravilno razvršèenih za eksperiment PCA10 S9 M12...........  137
5.18  Matrika pravilno in napaèno razvršèenih PCA10 S9 M17............  137
5.19  Delež pravilno razvršèenih za eksperiment PCA10 S9 M17...........  137
5.20  Matrika pravilno in napaèno razvršèenih PCA10 S9 M23............  137
5.21   Delež pravilno razvršèenih za eksperiment PCA10 S9 M23...........  138
5.22  Matrika pravilno in napaèno razvršèenih PCA10 S9 M37............  138
TABELE
XV
5.23  Delež pravilno razvršèenih za eksperiment PCA10 S9 M37...........138
5.24  Matrika pravilno in napaèno razvršèenih PCA10 S9 M39............138
5.25  Delež pravilno razvršèenih za eksperiment PCA10 S9 M39...........139
5.26  Uspešnost delovanja modelov dokonène interpretacije preiskave “Doloèanje krvne skupine z gelsko kartico humana”. Uporabili smo kolone l-.AntiA, 2:AntiB, b:Ax in 6:5..............................141
5.27  Matrika pravilno in napaèno razvršèenih: strojno uèenje interpretacije na kartici humana. Algoritem strojnega uèenja 16: AttributeSelectedClassifier
5.28  Delež pravilno razvršèenih za eksperiment strojnega uèenja na kartici humana. Algoritem strojnega uèenja 16: AttributeSelectedClassifier [4][5].  .  . 142
5.29  Matrika pravilno in napaèno razvršèenih: strojno uèenje interpretacije na kartici humana. Algoritem strojnega uèenja 20: Decorate [6].........143
5.30  Delež pravilno razvršèenih za eksperiment strojnega uèenja na kartici humana. Algoritem strojnega uèenja 20: Decorate [6]..............143
5.31   Matrika pravilno in napaèno razvršèenih: strojno uèenje interpretacije na kartici humana. Algoritem strojnega uèenja 27: OrdinalClassClassifier [4][5]. 143
5.32  Delež pravilno razvršèenih za eksperiment strojnega uèenja na kartici humana. Algoritem strojnega uèenja 27: OrdinalClassClassifier [4] [5].....144
5.33  Matrika pravilno in napaèno razvršèenih: strojno uèenje interpretacije na kartici humana. Algoritem strojnega uèenja 36: J48 [7]............144
5.34  Delež pravilno razvršèenih za eksperiment strojnega uèenja na kartici humana. Algoritem strojnega uèenja 36: J48 [7].................144
5.35  Matrika pravilno in napaèno razvršèenih: strojno uèenje interpretacije na kartici humana. Algoritem strojnega uèenja 37: LMT [8]...........145
5.36  Delež pravilno razvršèenih za eksperiment strojnega uèenja na kartici humana. Algoritem strojnega uèenja 37: LMT [8]................145
5.37  Matrika pravilno in napaèno razvršèenih: strojno uèenje interpretacije na kartici humana. Algoritem strojnega uèenja 39: RandomForest [9]......145
5.38  Delež pravilno razvršèenih za eksperiment strojnega uèenja na kartici humana. Algoritem strojnega uèenja 39: RandomForest [9]...........146
5.39  Matrika pravilno in napaèno razvršèenih: strojno uèenje interpretacije na kartici humana. Algoritem strojnega uèenja 44: JRip [10]..........146
xvi
TABELE
5.40  Delež pravilno razvršèenih za eksperiment strojnega uèenja na kartici humana. Algoritem strojnega uèenja 44: JRip [10]................146
5.41   Matrika pravilno in napaèno razvršèenih: strojno uèenje interpretacije na kartici humana. Algoritem strojnega uèenja 47: PART [11]..........147
5.42  Delež pravilno razvršèenih za eksperiment strojnega uèenja na kartici humana. Algoritem strojnega uèenja 47: PART [11]...............147
5.43  Srednje vrednosti in standardna deviacija deležev uspešnosti vektorjev doloèene stopnje jakosti aglutinacije v kolonah, relevantnih za doloèitev krvne skupine s kartico humana. Upoštevani so le rezultati, ki pomenijo doloèitev krvne skupine.............................150
5.44  Srednje vrednosti in standardna deviacija deležev uspešnosti dokonènega doloèanja krvne skupine s preiskavo za doloèitev krvne skupine s kartico humana. Upoštevani so le rezultati, ki pomenijo doloèitev krvne skupine. Za gradnjo modela stopnje jakosti aglutinacije je uporabljena kombinacija ZRNI6 S9 M39...................................150
Zahvala
Zahvalil bi se rad vsem, ki so me pri mojem raziskovalnem delu usmerjali in mi pomagali. Posebej bi se rad zahvalil mentorju prof. dr. Juriju Tasi¡cu.
Pomembne nasvete in pomo¡c sem prejel od marsikoga. Za pomo¡c se zahvaljujem doc. dr. Andreju Ko¡sirju in doc. dr. Primo¡zu Ro¡zmanu. Za koristne debate in pomo¡c pri re¡sevanju problemov se zahvaljujem tudi ostalim sodelavcem iz Laboratorija za digitalno obdelavo signalov slik in videa.
Zahvaljujem se osebju Zavoda za transfuzijsko medicino, s katerim smo skupaj razvili in v prakso vpeljali sistem za telekonzultacije v transfuzijski medicini. Z uporabo sistema so mi zagotovili pomembne podatke za izgradnjo u¡cne in testne mno¡zice.
Moje raziskovalno delo je omogo¡cilo Ministrstvo za ¡solstvo znanost in ¡sport RS, ki je financiralo moj podiplomski ¡studij, in Fakulteta za elektrotehniko v Ljubljani, ki mi je nudila primerno okolje za delo.
Posebna zahvala pa velja mojim star¡sem, ki sta me vedno spodbujala in mi bila na voljo, ko sem ju potreboval. Brez njiju te disertacije ne bi bilo.
xvii
xviii
Povzetek
V disertaciji smo raziskali, kako uporabiti algoritme strojnega u¡cenja za samodejno interpretacijo rezultatov predtransfuzijskih preiskav z gelsko metodo. Na¡s cilj je bila izbira kombinacije algoritmov strojnega u¡cenja, s katerimi smo zgradili celoten model interpretacije rezultatov predtransfuzijskih preiskav. Model smo zgradili z algoritmi strojnega u¡cenja na podlagi diagnosti¡cnih podatkov in pripadajo¡cih odlo¡citev specialistov transfuzijske medicine.
Ukvarjali smo se s predtransfuzijskimi preiskavami, ki se izvajajo z gelsko metodo. Gel-ska metoda je osnovana na zaznavanju stopnje jakosti aglutinacije eritrocitov z razli¡cnimi reagenti [12][13]. Aglutinati, nastali pri reakciji, se pri centrifugiranju skozi inerten gel zaustavijo v gelu [13]. Metoda se izvaja z gelskimi karticami; To so plasti¡cne kartice z vdelanimi 6 kolonami z gelom in reagenti. Fotografija gelske kartice je predstavljena na sliki 1. V postopku preiskave specialist vizualno pregleda centrifugirano gelsko kartico s produkti reakcije in interpretira rezultat preiskave. Postopek interpretacije preiskave je sestavljen iz dveh korakov. V prvem koraku specialist za vsako od 6 kolon dolo¡ci stopnjo jakosti aglutinacije. V drugem koraku pa na podlagi kombinacije stopenj jakosti aglutinacije v posameznih kolonah dolo¡ci kon¡cno interpretacijo preiskave.
Zgradili smo sistem, ki posnema postopek interpretacije, ki ga izvajajo specialisti transfuzijske medicine. Sistem za samodejno interpretacijo smo zgradili iz dveh modelov. Prvi model modelira dolo¡canje stopnje jakosti aglutinacije v vsaki od ¡sestih kolon gelskih kartic. Vhodni podatki v ta model so slike posameznih kolon. Drugi model modelira dolo¡canje dokon¡cne interpretacije preiskave. Vhodni podatki v ta model so vektorji, katerih elementi so dolo¡cene stopnje jakosti aglutinacije za vsako od ¡sestih kolon gelske kartice. Postopek, ki ga posnemata modela, je predstavljen na sliki 2.
Za gradnjo modelov s postopki strojnega u¡cenja potrebujemo u¡cno in testno mno¡zico podatkov. Z u¡cno mno¡zico smo modele samodejne interpretacije zgradili, s testno pa preverili njihovo u¡cinkovitost. U¡cno in testno mno¡zico smo zgradili iz podatkov, ki smo
xix
XX
Povzetek
Slika 1: Fotografija gelske kartice za dolo¡canje krvne skupine z vzorci po kon¡cani reakciji in centrifugiranju.
jih pridobili iz sistema za telekonzultacije v transfuzijski medicini. Sistem smo razvili in uvedli v transfuzijsko prakso transfuzijskih oddelkov bolni¡snic v Sloveniji. Specialisti transfuzijske medicine lahko z uporabo sistema na daljavo interpretirajo predtransfuzijske preiskave. Podatki, ki so jih specialisti uporabili za interpretacijo preiskav in pripadajo¡ce interpretacije, se bele¡zijo v podatkovni bazi. Ti podatki so predstavljali osnovo za gradnjo u¡cne in testne mno¡zice podatkov, ki smo ju uporabili za razvoj sistema za samodejno interpretacijo rezultatov predtransfuzijskih preiskav.
V disertaciji smo opisali postopke, s katerimi smo iz delujo¡cega sistema za telekonzul-tacije zajeli podatke. Zajeti podatki so bili v surovi obliki. Preden smo jih lahko obdelali s postopki strojnega u¡cenja, smo jih morali predobdelati. S predobdelavo smo iz njih izlu¡s¡cili za nas koristno informacijo. Rezultat predobdelave podatkov so vektorji lastnosti, ki u¡cinkovito zapi¡sejo za nas koristno informacijo.
Iz sistema zajeti podatki so bile slike gelskih kartic z dolo¡cenimi stopnjami jakosti aglutinacije za vsako od kolon in pripadajo¡cimi interpretacijami. Slike in pripadajo¡ce stopnje jakosti aglutinacije smo uporabili za gradnjo modela dolo¡canja stopnje jakosti aglutinacije. Stopnje jakosti aglutinacije in pripadajo¡ce interpretacije smo uporabili za gradnjo modela za dolo¡canje dokon¡cne interpretacije.
Za dolo¡canje stopnje jakosti aglutinacije je pomembna porazdelitev eritrocitov po vi¡sini posameznih kolon, saj je ta neposredno povezana z iskano stopnjo jakosti aglutinacije [13]. Za ugotovitev porazdelitve v posameznih kolonah smo morali iz slik gelskih kartic najprej razpoznati podro¡cja posameznih kolon. Iz slik kolon smo izlu¡s¡cili zanimiva podro¡cja, ki vsebujejo eritrocite. Izlu¡s¡cili smo jih s segmentacijskimi algoritmi. Uporabljenim algoritmom so za osnovo slu¡zile lastnosti barvnih prostorov, v katere smo preslikali slike. V
Povzetek
xxi
Postopek interpretacije predtransfuzijskega testa
1. korak: Doloèanje stopnje aglutinacije
Gelska kartica z vzorci - 6 kolon
Ugotavljanje stopnje
aglutinacije v vsaki od 6
kolon
Stopnje aglutinacije v kolonah npr: [1+, 1+, 2+, 4+, 0, 3+]
2. korak: Doloèanje interpretacije testiranja
Interpretacija testiranja
Dokonèna
interpretacija
testiranja
Slika 2: Interpretacija predtransfuzijske preiskave v dveh korakih. V prvem je dolo¡cena stopnja jakosti aglutinacije v vsaki od 6 kolon. V drugem je na podlagi stopenj jakosti aglutinacije in tipa preiskave dolo¡cena dokon¡cna interpretacija preiskave.
xxii
Povzetek
okviru raziskav, zajetih v doktorsko disertacijo smo razvili in preizkusili enajst razli¡cnih segmentacijskih algoritmov za segmentacijo eritrocitov v slikah kolon in ugotovili, da smo najbolj¡se rezultate dobili z uporabo nelinearnega filtriranja in kombinacije posameznih komponent RGB slike.
Iz segmentiranih slik kolon smo izra¡cunali vektorje porazdelitve, iz teh pa vektorje lastnosti. Vektorji lastnosti na zgo¡s¡cen na¡cin predstavljajo informacijo o stopnji jakosti aglutinacije v slikah kolon. Vektorji porazdelitve predstavljajo porazdelitev eritrocitov po vi¡sini kolon. Vektorji porazdelitve so dolgi tipi¡cno 400 elementov. Vektorje porazdelitve smo skraj¡sali in iz njih izra¡cunali vektorje lastnosti tako, da smo vektorjem porazdelitve zmanj¡sali dimenzijo s pribli¡zno 400 elementov na 1 do 20 elementov. Za ta izra¡cun smo uporabili in primerjali dve metodi. To sta metodi – metoda analize osnovnih komponent PCA, opisana v literaturi [14], in metoda z zrnjenjem ZRNI, opisana v podpoglavju 4.3.3.2.
Z navedenimi segmentacijskimi algoritmi in razli¡cno parametriziranima metodama izra¡cuna vektorjev lastnosti smo generirali 352 podatkovnih naborov vektorjev lastnosti s pripisanimi stopnjami jakosti aglutinacije za mno¡zico 182 kolon. Te podatkovne nabore smo uporabili za gradnjo modela dolo¡canja stopnje jakosti aglutinacije v kolonah. Za gradnjo modela za dolo¡canje stopnje jakosti aglutinacije smo uporabili in preverili 49 algoritmov strojnega u¡cenja. Uporabljeni algoritmi so na¡steti v tabeli 4.1. Uporabo in preverjanje algoritmov smo izvedli z orodjem WEKA [5]. Delovanje posameznih algoritmov smo primerjali tako, da smo dobljene modele preizkusili z navzkri¡zno validacijo [2][4]. Navzkri¡zno validacijo smo uporabili zato, ker je nabor podatkov, zajetih iz sistema, vseboval premalo vzorcev za u¡cinkovito generiranje lo¡cene testne in u¡cne mno¡zice. Z metodo navzkri¡zne validacije smo iste podatke u¡cinkovito uporabili za gradnjo modelov in njihovo testiranje. Cena, ki smo jo pla¡cali za to, je bil veliko dalj¡si postopek validacije, saj smo vsak model zgradili in preizkusili 10-krat. Pri vsaki gradnji in preizkusu smo uporabili razli¡cne dele mno¡zice vzorcev, ki je bila na voljo. Rezultate posameznih preizkusov posameznega modela smo po navodilih postopka navzkri¡zne validacije [2] povpre¡cili.
Rezultate navzkri¡zne validacije modelov smo zabele¡zili v matriko pravilnih in napa¡cnih razvrstitev. Iz te matrike smo za grobo izbiro posameznih kombinacij segmentacijskih algoritmov, metod za izra¡cun vektorjev lastnosti in algoritmov strojnega u¡cenja izra¡cunali dele¡z pravilno razvr¡s¡cenih. Dele¡z pravilno razvr¡s¡cenih je skalarna vrednost in pove, v kolik¡snem dele¡zu preizkusov s posameznimi vzorci je model deloval pravilno.
Postopek strojnega u¡cenja smo ponovili za gradnjo drugega modela, modela interpretacije stopenj jakosti aglutinacije v dokon¡cno interpretacijo predtransfuzijske preiskave.
Povzetek
xxiii
Uporabili smo prijeme, opisane za gradnjo modelov doloèanja stopnje jakosti aglutinacije. Izgubna predobdelava podatkov za gradnjo tega modela ni bila potrebna, ker so zajeti podatki iz sistema za telekonzultacije že bili nominalni in diskretni. Posamezne vzorce namreè predstavljajo vektorji, dolžine 6. Elementi teh vektorjev so doloèene stopnje jakosti aglutinacije pripadajoèih kolon obravnavane gelske kartice. Razliène modele interpretacije smo zgradili z uporabo 49 algoritmov strojnega uèenja in jih preizkusili z navzkrižno validacijo. Za vsako napoved izbranega modela smo zabeležili delež pravilno razvršèenih.
Model doloèanja stopnje jakosti aglutinacije in model doloèanja dokonène interpretacije rezultata smo združili in izraèunali deleže uspešnosti za posamezne interpretacije, ki sta jih dala združena modela. Na podlagi analize deležev uspešnosti združenih modelov smo podali izbiro najuèinkovitejše kombinacije segmentacijskih algoritmov, metod za izraèun vektorjev lastnosti, algoritmov strojnega uèenja za gradnjo prvega modela in algoritmov strojnega uèenja za gradnjo drugega modela.
xxiv                                                                                                                    Povzetek
Kljuène besede
•  samodejna interpretacija
•  strojno u¡cenje
•  model dolo¡canja stopnje jakosti aglutinacije eritrocitov
•  model interpretacije predtransfuzijske preiskave na osnovi stopenj jakosti aglutinacije eritrocitov
•  gelska metoda
•  telekonzultacije v transfuzijski medicini
xxv
xxvi                                                                                                           Kljuène besede
Abstract
In the following doctoral dissertation we have described our research on the machine learning algorithms for the automatic pre-transfusion test interpretation. Analyzed pre-transfusion tests were carried out by means of a gel-card agglutination detection method. The main goal of the research work was the selection of machine learning algorithms suitable for building a pre-transfusion test interpretation model. We have built that test interpretation model using machine learning algorithms, based on a combination of pre-transfusion test diagnostic data and interpretations of that test, determined by transfusion medicine specialists.
We have focused our research on the area of pre-transfusion tests which are performed using the gel method. The gel method is based on the detection of the agglutination level of red blood cells with different reagents [12][13]. In the proces, the agglutinated red blood cells are separated from the non-agglutinated red blood cells by means of centrifug-ing the reaction products through the inert sephadex gel. The method is performed by using special gel-cards. Gel-cards are plastic cards with six micro-tubes embedded into them. A photo, representing a gel-card is shown on Figure 3. Interpretation of the test involves visual observation and interpretation of the micro-tubes content after reaction and centrifuging procedure. It consists of two steps. In the first step, the transfusion medicine specialist determines the agglutination strength for each of the six micro-tubes. In the second step, based on previously determined agglutination strengths, the specialist determines the final pre-transfusion test interpretation.
We have built a system, which mimics the interpretation process as carried out by blood transfusion specialists. We have used two models for building the system. The first one models the agglutination strength determination in each of the six micro-tubes. It takes pictures of the micro-tubes, containing blood as input. The second model models the final pre-transfusion test interpretation. It takes the vectors of determined agglutination strengths as input. We have illustrated the whole process in Figure 4.
xxvii
xxviii
Abstract
Figure 3: Image of gel-card for determination of human blood type. The blood samples have been administered, the reaction occurred and the gel-card was centrifuged.
Machine learning algorithms require training and test data-sets for the development of the models. Using the training data-set is required for model construction, whereas the test data-set is required for the validation of the model performance. We have captured the training and test data-sets from the blood transfusion teleconsulting system, which we have developed and integrated into the blood transfusion practice of the transfusion wards in the hospitals in Slovenia. Using this system, the transfusion medicine specialists remotely interpret pre-transfusion tests. Data, used for these interpretations is recorded in the system’s database. We have built our training and test data-sets using this data.
In this dissertation we have described the data capture process from the live blood transfusion teleconsulting system. The captured data was in its raw form. We had to preprocess the captured data in order for it to be in a suitable form for processing with the machine learning algorithms. During the preprocessing process, we extracted the information, useful for the interpretation process in the form of feature vectors.
The data, captured from the teleconsulting system consisted of the gel-card images with determined agglutination strengths for each of the six micro-tubes and corresponding final test interpretations. We have used these images and determined agglutination strengths for the construction of the agglutination strength determination model. We have used determined agglutination strengths and final result interpretations for the construction of the final interpretation determination model.
The distribution of red blood cells across the height of the micro-tubes [13] determines the agglutination strength of that micro-tube. To asses the distribution in each micro-tube, we had to extract the image of each micro-tube from the image of the gel-card. To extract the image, we had to determine the exact location of micro-tubes on the gel-card
Abstract
xxix
Pretransfusion test interpretation procedure                 /
/''               1st step: Agglutination strength determination

Gel card with
samples - 6 test
tubes
Determination of the
agglutination strength in
each of 6 testtubes
Determined agglutination strengths in testtubes. Example: [1+, 1+, 2+, 4+, 0, 3+]
2nd step: Final result interpretation
Test type (Blood group determination, ...)
Test result interpretation
Final interpretation
Figure 4: Two step pre-transfusion test interpretation. The first step is the agglutination strength determination for each of six micro-tubes. The second step is the final pre-transfusion test interpretation, based on the agglutination strengths and test type.
xxx
Abstract
images. After we extracted the micro-tube images, we extracted the areas, containing the red blood cells. We accomplished this by means of segmentation algorithms. All used segmentation algorithms were based on different color space features. We developed and evaluated eleven segmentation algorithms and concluded, that we obtain the best results when using non-linear filtering and the combination of different color channels of the image in the RGB color space.
In the next stage of the procedure we computed the distribution vectors from the segmented images. Distribution vectors describe the distribution of blood cells across the micro-tube height. Distribution vectors are typically 400 elements long. We used these distribution vectors to compute feature vectors, which in a condensed manner represent information about agglutination strength of the observed micro-tube. The typical length of feature vectors was 1 to 20 elements. We used and compared two different methods for this purpose. These methods are Principal Component Analysis (PCA), described in [14] and the granulation method – ZRNI, described in chapter 4.3.3.2.
Using the above mentioned segmentation algorithms and feature vector calculation algorithms, we have generated 352 data-sets, containing feature vectors and corresponding agglutination strengths. Each data-set consisted of information, describing 182 micro-tubes. These data-sets were used for the construction of the agglutination strength determination model. We tested 49 different machine learning algorithms for the construction of the model. Algorithms are listed in the table 4.1. The machine learning algorithms were used and tested using the WEKA data-mining suite. We used the 10-fold cross-validation method [2][4] to test and compare the performance of the models. Cross-validation was used, because the available data-set was not large enough to construct suitable training and test data-sets. Using cross-validation, we were able to effectively use available data-sets for both the construction and testing of the models. The price we had to pay, was a longer validation process, because, we had to build each model 10 times (10 folds), using a different part of the available data-set each time. The final result of the model performance was obtained by averaging of the results, obtained in each fold, as prescribed by the author in [2].
The results of each validation were recorded into the confusion matrix. Data recorded in the confusion matrix served for a coarse selection of combination of the segmentation, feature extraction and machine learning algorithms. We made a coarse selection, based on precision parameters, calculated from the confusion matrices. Precision is a scalar, representing the fraction of correctly classified samples among all classifications.
Abstract
xxxi
In the next step, we repeated the use of machine learning algorithms for the construction of the model for the second step – the model of the final pre-transfusion test interpretation determination. We used the same principles as we had for the construction of the agglutination strength determination model. Since the data obtained from the system for teleconsulting was already in a form, suitable for use with machine learning algorithms, there was no need for lossy data preprocessing. Each sample employed in this step is represented by vectors that are six elements long. Each element of this vector represents agglutination strength of the corresponding micro-tube of the observed gel-card. We built 49 models of the final pre-transfusion test interpretation determination, using 49 different machine algorithms. We tested obtained models by using the cross-validation method. We used the cross-validation results to compute the precision for each of the interpretations proposed by the models.
In the final step of the research we combined the agglutination strength determination model and the final pre-transfusion test interpretation determination model. We calculated the precision of interpretations, obtained by the combined models. We used the combinations of coarsely selected agglutination strength determination models and final pre-transfusion test interpretation determination models. Based on this calculation we decided on the selection of the best combination of the segmentation algorithm, feature extraction algorithm, and machine learning algorithms for the construction of the first and second model.
xxxii                                                                                                                   Abstract
Key words
•  automatic interpretation
•  machine learning
•  agglutination strength determination model
•  final test result determination model based on agglutination strength combination
•  gel method
•  pre-transfusion testing
•  teleconsulting in the blood transfusion medicine
xxxiii
xxxiv                                                                                                               Key words
Poglavje 1 Uvod
1.1    Predtransfuzijske preiskave
Pred vsako transfuzijo krvi je potrebno izvesti obvezne predtransfuzijske serolo¡ske preiskave. Preiskave se izvajajo z uporabo serolo¡skih diagnosti¡cnih metod. Za vse potrebne predtransfuzijske preiskave so primerne diagnosti¡cne metode, ki se uvr¡s¡cajo v skupino preiskav z gelsko metodo [12][13]. Najpogosteje je uporabljenih naslednjih pet preiskav:
•  dolo¡canje krvne skupine AB0 in RhD bolnika in dajalca,
•  indirektni Coombsov test bolnika,
•  direktni Coombsov test bolnika,
•  navzkri¡zni preizkus (kri bolnika in dajalca),
•  specifikacija protiteles bolnika.
Osnova za gelsko metodo je zaznavanje imunske reakcije med protitelesi in antigeni, ki se odra¡za kot aglutinacija (zlepljenje) eritrocitov [12]. Postopek izvajanja gelske metode je natan¡cno predpisan [12]. Izvaja se z uporabo standardnih diagnosti¡cnih pripomo¡ckov, kamor spadajo reagenti, gelske kartice, naprave za doziranje krvi in centrifugiranje ter ostali pribor.
Zadnji korak v postopku preiskave je od¡citavanje in interpretacija rezultatov preiskave. Ob predpostavki, da se preiskava izvede v skladu s predpisanimi standardi in z uporabo
1
2
1. Uvod
predpisane opreme, sta od¡citavanje in interpretacija rezultatov klju¡cna za pravilno izvedeno preiskavo. Od¡citavanje in interpretacijo lahko izvedejo ustrezno usposobljeni specialisti transfuzijske medicine.
1.1.1    Razpr¡senost zahtev, malo primerov/center, malo specialistov
Storitve transfuzijske medicine se v Sloveniji opravljajo na desetih oddelkih za transfuzijo krvi pri bolni¡snicah in na Zavodu Republike Slovenije za transfuzijsko medicino (ZTM). Zavod za transfuzijsko medicino predstavlja osrednji laboratorij za podro¡cje predtransfu-zijskih preiskav in je kot tak tudi najbolje opremljen. Dnevno se v Sloveniji za transfuzijo izda nekaj sto enot krvi, od tega polovica na oddelkih za transfuzijo krvi, preostala polovica pa na ZTM. Za vsako izdano enoto krvi se izvedejo predtransfuzijske serolo¡ske preiskave.
Ker na ZTM opravijo ve¡cino predtransfuzijskih preiskav, so zaradi pospe¡sitve in poenostavitve preiskav opremljeni z opremo, ki omogo¡ca delno avtomatizirano izvajanje predtransfuzijskih preiskav, vklju¡cno z od¡citavanjem o¡citnih rezultatov. V primeru, da rezultati preiskave niso jasni, obstoje¡ci sistem zahteva posredovanje specialista transfuzijske medicine.
Za zagotavljanje dejavnosti transfuzijske slu¡zbe je v Sloveniji potrebnih vsaj 11 nenehno de¡zurnih zdravnikov specialistov transfuzijske medicine. Zaradi pomanjkanja kadrov in razli¡cnega ¡stevila obdelanih primerov med posameznimi ustanovami niha tudi kakovost opravljenih storitev [1].
Zato se je pojavila potreba po optimizaciji postopka predtransfuzijskih preiskav. Namen optimizacije postopka je izbolj¡sanje kakovosti izvajanja predtransfuzijskih preiskav. Kakovost predtransfuzijskih preiskav naj bo enako kakovostna na vseh oddelkih, ki nudijo storitve transfuzijske medicine. Zaradi pomanjkanja ustrezno usposobljenega osebja je potrebno optimizirati tudi delo osebja.
1.2    Vpeljava telekonzultacijskega sistema
Do nedavnega so se v mejnih primerih od¡citavanja in interpretacije rezultatov predtransfu-zijskih preiskav z gelsko metodo manj izku¡seni zdravniki s podro¡cja transfuzijske medicine ali medicinsko osebje posvetovali z bolj izku¡senimi na tem podro¡cju s pomo¡cjo telefonske
1.3 Samodejna interpretacija preiskav
3
konzultacije in kurirske izmenjave problemati¡cnih vzorcev krvi.
V slovensko transfuzijsko slu¡zbo smo uvedli pilotni sistem za telekonzultacije v transfuzijski slu¡zbi. Z uporabo sistema je mogo¡ce na daljavo opraviti najzahtevnej¡si korak v postopku predtransfuzijskih preiskav – od¡citavanje in interpretacijo rezultatov preiskave [15]. Na ta na¡cin smo znatno olaj¡sali in pospe¡sili dostop do ekspertize osrednjega laboratorija vsem transfuzijskim oddelkom po dr¡zavi. Sistem omogo¡ca prenos in hrambo vseh podatkov, potrebnih za interpretacijo rezultatov predtransfuzijskih preiskav z gelsko metodo.
V okviru novih konceptov je bila postavljena logisti¡cna zasnova sistema, ki predvideva novo delovno mesto de¡zurnega konzultanta specialista transfuzijske medicine. De¡zurni konzultant bo na voljo 24 ur na dan in bo po potrebi nudil storitve strokovne interpretacije rezultatov preiskav, ki se izvajajo kjerkoli po dr¡zavi. Mo¡znost 24-urne takoj¡snje telekonzultacije z usposobljenim konzultantom in drugimi strokovnjaki s podro¡cja transfuzijske medicine znatno skraj¡sa postopek predtransfuzijskih preiskav. Skraj¡sanje trajanja postopka predstavlja izbolj¡savo kakovosti storitev transfuzijske slu¡zbe, ki je ¡se posebno
o¡citna v primerih, ko na transfuzijskem oddelku ni prisotnega zdravnika specialista
¡ transfuzijske medicine. Ce so obravnavani primeri urgentne narave in je potrebna hitra
interakcija med de¡zurnim konzultantom in konzultirajo¡cim, sistem omogo¡ca vzpostavitev
videokonferen¡cne povezave in delo v realnem ¡casu.
1.3    Samodejna interpretacija rezultatov predtransfu-zijskih preiskav
Z namenom poenostavite dela specialistov transfuzijske medicine smo na¡crtovali sistem za samodejno interpretacijo rezultatov predtransfuzijskih preiskav. Sistem za samodejno interpretacijo specialistu na podlagi analize slik gelskih kartic in na podlagi tipa preiskave dolo¡ci in predlaga stopnje jakosti aglutinacije posameznih kolon in interpretacijo le-teh v dokon¡cno interpretacijo preiskave. Sistem se interpretacije preiskav nau¡ci iz predhodnih odlo¡citev specialistov, zabele¡zenih v sistemu za telekonzultacije v transfuzijski medicini. Pri postopku interpretacije posnema delo specialista, ki dela v dveh korakih. Specialist v prvem koraku oceni stopnjo jakosti aglutinacije v vsaki od ¡sestih kolon gelske kartice. V drugem koraku pa na podlagi kombinacije jakosti stopenj aglutinacije v ¡sestih kolonah gelske kartice dolo¡ci dokon¡cno interpretacijo preiskave.
4
1. Uvod
Razvoj in raziskave sistema za samodejno interpretacijo predtransfuzijskih preiskav, opravljenih z gelsko metodo, predstavljata jedro doktorske disertacije. Sistem se bo kot modul vklju¡cil v obstoje¡ci sistem za telekonzultacije in bo nudil podporo medicinskemu strokovnemu osebju pri interpretaciji preiskav. Na podlagi primerov dolo¡cenih interpretacij predtransfuzijskih preiskav, ki so jih dolo¡cili specialisti transfuzijske medicine z uporabo sistema za telekonzultacije v transfuzijski medicini, bo modul adaptivno izbolj¡seval in popravljal model za samodejno interpretacijo rezultatov predtransfuzijskih preiskav, izpeljanih z gelsko metodo. Sistem bo pri svojem delovanju posnemal postopek, ki ga za interpretacijo izvedejo specialisti transfuzijske medicine.
1.3.1    Kratek opis delovanja sistema za samodejno interpretacijo
Sistem deluje v dveh fazah. V prvi fazi, fazi u¡cenja, sistem na podlagi diagnosti¡cnih podatkov, ki jih med svojim delom kot vpra¡sanja vna¡sajo konzultirajo¡ci, in interpretacij preiskav, ki jih kot odgovore vnesejo specialisti transfuzijske medicine, gradi model interpretacije preiskav. V drugi fazi, fazi interpretacije, sistem na podlagi analize diagnosti¡cnih podatkov in v prvi fazi nau¡cenega modela interpretacije predlaga interpretacije preiskav.
1.3.1.1    Faza u¡cenja Vhodni podatki v prvo fazo, fazo u¡cenja, so:
•  slike gelskih kartic, na katerih je jasno vidna vsebina kolon s centrifugiranimi rezultati reakcije med vzorci in reagenti,
•  dolo¡cene stopnje jakosti aglutinacije kolon gelske kartice,
•  tip preiskav,
•  dokon¡cne interpretacije preiskav.
1.3.1.2    Faza interpretacije preiskav Vhodni podatki v drugo fazo, fazo interpretacije preiskav, so:
•  slike gelskih kartic, na katerih je jasno vidna vsebina kolon s centrifugiranimi rezultati reakcije med vzorci in reagenti,
•  tip preiskave.
1.3 Samodejna interpretacija preiskav
5
1.3.2     Pridobivanje uène in testne množice
Telekonzultacijski sistem predstavlja vir uènih in testnih podatkov za razvoj sistema za samodejno interpretacijo predtransfuzijskih preiskav. Konzultacije se izvajajo v primerih nejasnih in z vidika interpretacije težavnih primerih. Te primere razreši specialist osrednjega laboratorija. Rešitve primerov in njihovi vhodni podatki se shranjujejo v sistemu. Zato smo imeli dostop do vira z vidika strojnega uèenja kakovostnih podatkov za gradnjo uène množice z enega mesta. Ta vir se z uporabo sistema za telekonzultacije nenehno dopolnjuje, kar omogoèa, da lahko gradimo vedno boljšo in popolnejšo uèno množico, ki je osnova za gradnjo uèinkovitih modelov interpretacije rezultatov.
1.3.3     Validacija sistema
Validacija in preizkušanje sistema predstavlja pomemben korak v izdelavi le tega. Da je sistem za samodejno interpretacijo primeren za delo v praksi, potrebujemo podatke o zanesljivosti njegovega delovanja. Potrebno je vedeti, v kolikšni meri lahko zaupamo predlaganim rezultatom. Zanesljivost delovanja je predstavljena kot verjetnost, da je sistem za samodejno interpretacijo rezultat preiskave napovedal pravilno. Poimenovali smo jo delež uspešnosti.
Naš model interpretacije rezultatov predtransfuzijskih preiskav deluje v dveh korakih. Posamezna koraka predstavljata dva samostojna modela. Sistem smo sestavili iz dveh zaporedno vezanih modelov. Prvi model modelira doloèanje stopnje jakosti aglutinacije v kolonah. Drugi model, ki sledi prvemu, doloèi na podlagi doloèenih stopenj jakosti aglutinacije v kolonah dokonèno interpretacijo rezultata predtransfuzijske preiskave. Oba modela smo razvili neodvisno drug od drugega. Za vsakega smo ocenili delež pravilno napovedanih rezultatov. Iz deležev pravilno napovedanih rezultatov posameznih modelov smo ocenili delež pravilnih konènih interpretacij - delež uspešnosti.
1.3.4     Obstojeèi postopki samodejne interpretacije
Trenutna na trgu dostopna oprema DiaMed-ID Maestro, ki jo proizvaja podjetje Di-aMed omogoèa delno samodejno odèitavanje in interpretacijo predtransfuzijskih preiskav. Oprema je sposobna odèitati oèitne rezultate, pri neoèitnih pa je potrebno posredovanje specialistov transfuzijske medicine. Oprema, ki omogoèa omenjeno funkcionalnost, je precej draga in si jo lahko privošèi le osrednji transfuzijski laboratorij, ki dnevno ob-
6
1. Uvod
dela veliko primerov predtransfuzijskih preiskav z gelsko metodo. Ostali laboratoriji pa postopke predtransfuzij skih preiskav še vedno izvajajo roèno.
Napravo za samodejno interpretacijo rezultatov je potrebno ob postavitvi v laboratorij najprej kalibrirati in nastaviti delovne parametre. Naprava je na podlagi nastavitev parametrov kalibracije sposobna doloèati posamezne stopnje jakosti aglutinacije eritrocitov v posameznih kolonah. Za doloèanje stopnje jakosti aglutinacije je podroèje vsake kolone na gelskih karticah razdeljeno na 5 oken. Zgornje okno je za pozitivne rezultate, spodnje za negativne, vmesna za vmesne. Algoritem ugotavlja prisotnost aglutinatov v teh oknih in na podlagi prisotnosti aglutinatov doloèi stopnjo jakosti aglutinacije.
Pri postopku kalibracije naprave je potrebno definirati položaje in velikost treh podroèij kolon gelskih kartic. Ko so v obravnavani gelski kartici doloèene vse kolone, interpretira naprava glede na tip preiskave kombinacijo kolon iz pravilnostne tabele posamezne preiskave v rezultat preiskave.
Podrobnosti o delovanju sistema niso javno dostopne, ker jih podjetje DiaMed-ID skriva kot poslovno skrivnost. Predstavljene podatke smo pridobili iz reklamnega materiala podjetja DiaMed-ID in z razgovori z uporabniki te opreme.
1.4    Kratek pregled vsebine
V 2. poglavju - Opis problema smo podali opis predtransfuzij skih preiskav na podroèju Slovenije. Opisali smo gelsko metodo, na kateri smo osnovali naše delo. Dejstvo, da je rezultate preiskave z gelsko metodo mogoèe zajeti v obliki slike, omogoèa interpretacijo rezultatov na daljavo in tudi izdelavo sistema za samodejno interpretacijo le-teh. Identificirali smo dva osnovna problema, doloèanje stopnje jakosti aglutinacije v kolonah gelskih kartic in dokonèno interpretacijo rezultatov predtransfuzij skih preiskav.
V 3. poglavju - Obstojeèe rešitve smo opisali obstojeèe stanje na podroèju transfuzijske medicine s poudarkom na predtransfuzij skih preiskavah. Podali smo ozadje, ki omogoèa pridobivanje podatkov za gradnjo sistema za samodejno interpretacijo predtransfuzij skih preiskav. Predstavili smo pregled osnov algoritmov strojnega uèenja, ki smo jih uporabili in preizkusili. Podali smo definicijo osnovne terminologije in naèine za predstavitev nauèenega znanja. Pregled osnovnih pristopov strojnega uèenja zajema klasifikacijo, asociiranje, rojenje in numerièno napovedovanje. Za primerjavo delovanja metod strojnega uèenja nujno potrebujemo metode za ocenjevanje njihove uspešnosti. Zato smo predstavili tudi naèine za ocenjevanje uèinkovitosti modelov, zgrajenih z algo-
1.4 Kratek pregled vsebine
7
ritmi strojnega u¡cenja.
V 4. poglavju – Sistem za samodejno interpretacijo smo podrobno razdelali problematiko, povezano z izdelavo sistema za samodejno interpretacijo. Obravnavali smo celotno pot razvoja. Ta pot je sestavljena iz spoznavanja s problemom in pregledom ozadja problema, zajemom in registracijo podatkov, izbiro ustreznih algoritmov strojnega u¡cenja, izdelavo modelov sistema interpretacije preiskav in njihovo validacijo.
V  5. poglavju – Rezultati eksperimentov sledi predstavitev rezultatov eksperimentalnega dela. Eksperimentirali smo s kombinacijo razli¡cnih metod segmentacije, na¡cini izra¡cunov vektorjev lastnosti in metodami strojnega u¡cenja. Predstavili smo rezultate grobe izbire najoptimalnej¡sih kombinacij metod in rezultate izbire kombinacije najopti-malnej¡se kombinacije. Podali smo tudi oceno dele¡za uspe¡snosti celotnega postopka za samodejno intepretacijo preiskav za dolo¡canje krvne skupine.
Sledi zaklju¡cek in diskusija, ki smo ji podali v 6. poglavju – Zaklju¡cek. V zaklju¡cku smo navedli sklepne misli, predstavili pa smo tudi ideje za nadaljnje delo. Podali smo tudi seznam izvirnih prispevkov znanosti.
8                                                                                                                           1. Uvod
Poglavje 2 Opis problema
V tem poglavju smo predstavili ozadje in motivacijo za razvoj sistema za samodejno interpretacijo predtransfuzijskih serolo¡skih preiskav. Podali smo opis gelske metode, uporabljenih diagnosti¡cnih pripomo¡ckov ter sistema, ki omogo¡ca interpretacijo rezultatov pred-transfuzijskih preiskav na daljavo. Razvoj in izdelava sistema za samodejno interpretacijo predstavlja re¡sevanje ve¡c razli¡cnih problemov. Ti problemi zajemajo spoznavanje s po-dro¡cjem dela, pregled ozadja, zajem in registracijo podatkov, izbiro ustreznih algoritmov strojnega u¡cenja, s katerimi smo zgradili modele sistema za samodejno interpretacijo predtransfuzijskih preiskav, in validacijo zgrajenih modelov.
2.1    Predstavitev problema
Kot smo ¡ze predstavili v uvodu, se storitve transfuzijske medicine Sloveniji opravljajo na desetih oddelkih za transfuzijo krvi in na Zavodu Republike Slovenije za transfuzijsko medicino (ZTM). Dnevno se izda nekaj sto enot krvi, od tega polovica na oddelkih za transfuzijo krvi po dr¡zavi, preostala polovica pa na ZTM. Za vsako izdano enoto krvi se izvedejo predtransfuzijske serolo¡ske preiskave. Za zagotavljanje dejavnosti transfuzijske slu¡zbe je potrebnih vsaj enajst nenehno de¡zurnih zdravnikov specialistov transfuzijske medicine. Zaradi pomanjkanja kadrov in razli¡cnega ¡stevila obdelanih primerov med posameznimi ustanovami niha tudi kakovost opravljenih storitev [1].
V slovensko transfuzijsko slu¡zbo smo uvedli pilotni sistem za telekonzultacije v transfuzijski slu¡zbi. Sistem omogo¡ca nudenje ekspertize strokovnjakov transfuzijske medicine na daljavo. Z uporabo sistema je mogo¡ce na daljavo opraviti najzahtevnej¡si korak v postopku predtransfuzijskih preiskav – od¡citavanje in interpretacijo rezultatov preiskave
9
10
2. Opis problema
[15].
Specialisti transfuzijske medicine dnevno rutinsko interpretirajo mnogo predtransfuzij-skih preiskav. Postopek interpretacije lahko poenostavimo z uvedbo sistema za samodejno interpretacijo rezultatov predtransfuzijskih preiskav. Sistem naj se kot modul vgradi v sistem za telekonzultacije v transfuzijski medicini in naj osebju predlaga interpretacije predtransfuzijskih preiskav. Sistem naj se postopka samodejne interpretacije nau¡ci na podlagi analize re¡senih primerov predtransfuzijskih preiskav, ki so jih re¡sili specialisti transfuzijske medicine.
2.2    Cilji raziskav doktorske disertacije
Cilj raziskav, zajetih v doktorsko disertacijo, je bila gradnja sistema za samodejno interpretacijo predtransfuzijskih preiskav, opravljenih z gelsko metodo. Sistem naj posnema postopek interpretacije predtransfuzijskih preiskav, ki ga opravljajo specialisti transfuzijske medicine. Postopek naj posnema z modeli interpretacije preiskav, zgrajenimi z algoritmi strojnega u¡cenja.
Modele naj zgradi na osnovi kombinacije diagnosti¡cnih podatkov in pripadajo¡cih interpretacij preiskav, ki so jih dolo¡cili specialisti transfuzijske medicine.
2.3    Opis predtransfuzijskih preiskav
Najpogostej¡se predtransfuzijske serolo¡ske preiskave v Republiki Sloveniji (RS) zajemajo 5 razli¡cnih preiskav: dolo¡canje krvne skupine AB0 in RhD bolnika in dajalca, indirektni Coombsov test test bolnika, direktni Coombsov test test bolnika, navzkri¡zni preizkus (kri bolnika in dajalca) in specifikacijo protiteles bolnika [16]. Preiskave se izvajajo z gelsko metodo [12][13].
2.3.1    Gelska metoda
Predtransfuzijske serolo¡ske preiskave so osnovane na zaznavanju reakcij med antigeni na eritrocitih s protitelesi. Za podrobnej¡si opis glejte podpoglavje 3.1.2. Pri preiskavah je klju¡cnega pomena natan¡cnost od¡citavanja in interpretiranje reakcije preiskave. Natan¡cnost je ¡se posebej pomembna v primerih, ko je reakcija ¡sibka. Metoda se izvaja z uporabo gel-skih kartic. To so plasti¡cne kartice, v katere je vdelanih ¡sest kolon. Slika 2.1 prikazuje
2.3 Opis predtransfuzijskih preiskav
11
(b)
Slika 2.1: Fotografija prazne gelske kartice (a) in fotografija gelske kartice za dolo¡canje krvne skupine z vzorci po kon¡cani reakciji in centrifugiranju (b).
primer prazne gelske kartice (a) in gelske kartice z vzorci krvi (b).
V primeru, da je v posamezni koloni reakcija potekla, se eritrociti v tej koloni zlepijo v mrežo - aglutinat. Interpretacija preiskave poteka v dveh korakih. V prvem koraku je potrebno za vsako kolono doloèiti stopnjo jakosti aglutinacije. Stopnja jakosti agluti-nacije je povezana s porazdelitvijo aglutinatov po volumnu kolon [12][13]. Ugotavlja se šest razliènih stopenj jakosti aglutinacije, ki se jih oznaèuje z oznakami NEG, 1+, 2+, 3+ 4+, DCP. V naši obravnavi smo dodatno ugotavljali tudi, èe kolona ne vsebuje krvi. Natanènejša razlaga doloèanja stopnje jakosti aglutinacije je podana v podpoglavju 3.1.2.1. V drugem koraku, dokonèni interpretaciji preiskave, specialist interpretira nabor doloèenih stopenj jakosti aglutinacije v posameznih kolonah v konèno interpretacijo preiskave. Za vsako od petih razliènih tipiènih preiskav obstaja konèni nabor možnih rezultatov preiskave in preiskavi lasten naèin doloèanja dokonène interpretacije. Seznam možnih interpretacij za vsako od petih preiskav je podan v podpoglavju 3.1.2.2.
12
2. Opis problema
2.4    Sistem za samodejno interpretacijo predtransfu-zijskih preiskav
Sistem za samodejno interpretacijo smo sestavili iz dveh modelov, ki posnemata prvi in drugi korak interpretacije preiskave z gelsko metodo.
2.4.1    Namen sistema za samodejno interpretacijo predtransfu-zijskih preiskav
Namen sistema za samodejno interpretacijo je podpora strokovnemu osebju s predlaganjem interpretacije predtransfuzijskih preiskav. Dokon¡cno odlo¡citev o interpretaciji in izdaji izvida bo moral kljub predlogu sistema pregledati in odobriti specialist transfuzijske medicine. Pri tem mu bo v pomo¡c predlagana interpretacija z oceno dele¡za uspe¡snosti, s katero bo ocenjena vsaka predlagana interpretacija. Dele¡z uspe¡snosti je ¡stevilo v intervalu [0..1], ki pove, v kolik¡sni meri lahko specialist zaupa predlagani interpretaciji. Za vsako interpretacijo, ki jo bo predlagal sistem za samodejno interpretacijo, bo na podlagi rezultatov validacije v postopku intepretacije uporabljenih modelov ocenjen dele¡z uspe¡snosti. Sistem je poleg predlaganja interpretacij uporaben tudi za kontrolo napak. S spremljanjem dela specialista in vzporednim napovedovanjem interpretacije preiskav le-te primerja z interpretacijami, ki jih je dolo¡cil specialist. V primeru razhajanja bo sistem specialista opozoril, da se je pri interpretaciji preiskave morda zgodila napaka. Specialist bo lahko interpretacijo preiskav po opozorilu podrobneje pregledal in se odlo¡cil o pravilni interpretaciji. Sistem je uporaben tudi kot u¡cni pripomo¡cek v postopku izobra¡zevanja specialistov transfuzijske medicine.
2.4.2    Gradnja modelov sistema z algoritmi strojnega u¡cenja
Sistem smo zgradili iz modelov, ki modelirajo interpretacijo predtransfuzijskih preiskav na na¡cin, kot to po¡cnejo specialisti transfuzijske medicine. Specialisti interpretirajo preiskave v dveh korakih. V prvem koraku dolo¡cijo stopnjo jakosti aglutinacije v posameznih kolonah gelskih kartic. Temu koraku sledi drugi korak, v katerem na podlagi kombinacije stopenj jakosti aglutinacije v posameznih kolonah dolo¡cijo rezultat preiskave. Postopek interpretacije smo posnemali z dvema modeloma. Prvi model, ki modelira prvi korak, je model dolo¡canja stopnje jakosti aglutinacije. Drugi model, ki modelira drugi korak, pa je
2.4 Sistem za samodejno interpretacijo predtransfuzijskih preiskav
13
model doloèanja dokonène interpretacije preiskave.
Za gradnjo obeh modelov smo morali izbrati in uporabiti najprimernejši algoritem strojnega uèenja. Kljub poznavanju podroèja izbira primernega algoritma ni bila oèitna. Zato smo za gradnjo modelov po predlogu avtorjev literature [2] [17] uporabili razliène algoritme strojnega uèenja in nastale modele primerjali med sabo. Algoritem, ki je bil uporabljen za gradnjo najuspešnejšega modela, je najprimernejši.
2.4.3    Evaluacija posameznih modelov interpretacije
Za primerjavo u¡cinkovitosti modelov interpretacije in metod strojnega u¡cenja, ki smo jih uporabili za njihovo gradnjo, smo potrebovali metodo za njihovo primerjavo. Uporabili smo preizkus modela z navzkri¡zno validacijo in zapis rezultatov testa modela v matriko pravilnih in napa¡cnih razvrstitev. Iz matrike pravilnih in napa¡cnih rezultatov smo izra¡cunali ve¡c skalarnih parametrov, ki govore o u¡cinkovitosti obravnavanega modela. Potrebno je bilo izbrati pravi parameter, na podlagi katerega smo med sabo primerjali u¡cinkovitost posameznih modelov.
2.4.4    Evaluacija kombinacije modelov interpretacije
Ko smo imeli na voljo delujoèe modele in smo poznali njihovo uspešnost, smo modele kombinirali med sabo. Za vsako dokonèno interpretacijo smo kombinirali rezultate veèkratne uporabe posameznih modelov. Ker je potrebno v prvem koraku doloèiti stopnjo jakosti aglutinacije v šestih kolonah gelske kartice, smo model doloèanja stopnje jakosti agluti-nacije uporabili šestkrat. Doloèene stopnje jakosti aglutinacije smo kombinirali v vektor, ki je predstavljal vhod v drugi korak interpretacije - model dokonène interpretacije rezultatov. Potrebno je bilo oceniti delež uspešnosti dokonène interpretacije, do katere smo prišli s šestkratno uporabo modela doloèanja stopnje jakosti aglutinacije v kolonah in uporabo modela za doloèanje dokonène interpretacije. Ocenili smo jo iz podatkov o uspešnosti posameznih uporabljenih modelov, pridobljenih v postopkih njihove validacije. Na podalgi deleža uspešnosti posamezne kombinacije modelov, uporabljenih za napovedovanje dokonène interpretacije, smo ugotovili najuèinkovitejšo kombinacijo algoritmov.
14
2. Opis problema
2.4.5     Pridobivanje podatkov za uèno in testno množico
Rezultate preiskave z gelsko metodo je mogo¡ce fotodokumentirati s fotografiranjem gelske kartice [18]. Primerno kvalitetna slika gelske kartice vsebuje dovolj informacij, da lahko specialist transfuzijske medicine dolo¡ci interpretacijo preiskave na osnovi te slike. Ker je slike gelskih kartic mogo¡ce preprosto prena¡sati, je interpretacija preiskave z gelsko metodo izvedljiva tudi na daljavo. To dejstvo nam je omogo¡cilo izdelavo telekonzultacijskega sistema kategorije shrani in obdelaj (ang. store and forward) [19].
Podatke, ki se zbirajo v sistemu za telekonzultacije, smo uporabili za gradnjo in u¡cne in testne mno¡zice, ki smo ju potrebovali za gradnjo modelov interpretacije z algoritmi strojnega u¡cenja. Zakonodaja RS predpisuje varovanje osebnih podatkov. Zato je v praksi delujo¡c sistem za telekonzultacije zaprt in do njega nimamo neposrednega dostopa. Za potrebe dostopa do podatkov iz sistema za telekonzultacije smo razvili modul, ki zajame potrebne podatke iz sistema in jih shrani v datoteko. Podatki so anonimni in vsebujejo le podatke, potrebne za gradnjo modulov za samodejno interpretacijo predtransfuzijskih preiskav. Datoteko s podatki nam je posredovala oseba, ki je poobla¡s¡cena za delo na sistemu za telekonzultacije.
Podatke iz datoteke je bilo potrebno predobdelati, da so bili primerni za obdelavo z algoritmi strojnega u¡cenja. Predobdelava je zajemala razpoznavanje podro¡cij kolon na slikah gelskih kartic in segmentacijo slik posameznih kolon z namenom iskanja slikovnih elementov, ki predstavljajo eritrocite. Iz segmentiranih slik smo izra¡cunali porazdelitve aglutinatov po vi¡sini kolon. Iz porazdelitev smo izra¡cunali vektorje lastnosti, ki smo jih, zapisane v ustrezno urejene podatkovne nabore, uporabili za gradnjo modela dolo¡canja stopnje jakosti aglutinacije. Iz datoteke smo prebrali in v ustrezno obliko zapisali tudi podatke za gradnjo modela dolo¡canja dokon¡cne interpretacije preiskave.
Poglavje 3
Obstoje¡ce re¡sitve in orodja za razvoj sistema za samodejno interpretacijo predtransfuzijskih preiskav
V pri¡cujo¡cem poglavju smo opisali obstoje¡ce stanje na podro¡cju predtransfuzijskih preiskav z gelsko metodo. Pri tem smo se osredoto¡cili na sistem za telekonzultacije v transfuzijski medicini. Ta predstavlja vir podatkov, ki smo jih potrebovali za izdelavo modelov interpretacije preiskav. S sistemom za samodejno interpretacijo rezultatov bomo nadgradili sistem za telekonzultacije. V nadaljevanju poglavja smo predstavili pregled osnovnih pojmov in elementov metod strojnega u¡cenja, ki so primerne za gradnjo modelov interpretacije predtransfuzijskih preiskav. Predstavili smo osnovne ideje, na podlagi katerih delujejo uporabljeni algoritmi strojnega u¡cenja. Za re¡sevanje na¡sega problema je bil pomemben dostop do podatkov, s katerimi smo gradili u¡cne in testne mno¡zice. Dostop do podatkov smo si omogo¡cili z izdelavo sistema za telekonzultacije v transfuzijski medicini.
3.1    Opis obstoje¡cega stanja na transfuziji v RS
3.1.1    Organizacija transfuzijske slu¡zbe, nadgrajene s sistemom za telekonzultacije
Transfuzijske ustanove na podlagi transfuzijske anamneze bolnika in predtransfuzijskih preiskav, opravljenih iz vzorca krvi bolnika, pripravijo ustrezno komponento krvi [20]. Transfuzijske ustanove v Sloveniji so ZTM v Ljubljani (centralna transfuzijska ustanova),
15
16
3. Obstojeèe rešitve in orodja
Slika 3.1: Organizacija transfuzijske slu¡zbe v Sloveniji [1].
Oddelek za transfuziologijo in imunohematologijo v Mariboru (regijska ustanova) in devet bolni¡sni¡cnih oddelkov za transfuziologijo [21]. Predvideno je, da bosta centra v Ljubljani in Mariboru skrbela za storitve telekonzultiranja za bolni¡sni¡cne oddelke. Slika 3.1 prikazuje organizacijo transfuzijske slu¡zbe v Sloveniji. V centrih v Ljubljani in Mariboru so konzultanti, ki svetujejo konzultirajo¡cim. Uporabniki sistema za telekonzultacije so razdeljeni v dve skupini. V prvi so konzultirajo¡ci, v drugi pa konzultanti. Uporabniki lahko med sabo poljubno komunicirajo [18].
Konzultirajo¡ci so de¡zurni zdravniki na transfuzijskih oddelkih, laboratorijski tehniki in medicinske sestre. Konzultanti pa so de¡zurni zdravniki, specialisti transfuzijske medicine [20]. Z vidika sistema za telekonzultacije zajema delo de¡zurnega zdravnika izvajanje laboratorijskih preiskav, zajem in posredovanje laboratorijskih podatkov, oblikovanje vpra¡sanj za konzultanta in kon¡cno opredelitev o izdaji krvi. Delo konzultanta pa zajema nadzor sistema vpra¡sanja/odgovori, sprejem vpra¡sanj in podatkov, strokovno konzultacijo in odgovarjanje de¡zurnim zdravnikom [18].
Predtransfuzijske preiskave se izvajajo z uporabo gelske metode.
3.1 Obstojeèe stanje transfuzije v RS
17
3.1.2    Opis gelske metode
Predtransfuzijske serolo¡ske preiskave so osnovane na zaznavanju reakcij med antigeni na eritrocitih s protitelesi. Te preiskave se obi¡cajno izvajajo s t.i. aglutinacijskimi testi v slanih ali makromolekularnih medijih z nemodificiranimi ali z encimi obdelanimi eritrociti ob uporabi dolo¡cenih potenciatorjev (ang. potentiators) aglutinacije, kot antiglobulinski (Coombsov) serum ali polikationi (ang. polycations)[12]. Pri preiskavah je klju¡cnega pomena natan¡cnost od¡citavanja in interpretiranje reakcije preiskave. Natan¡cnost je ¡se posebej pomembna v primerih, ko je reakcija ¡sibka. Za zagotavljanje dobrih interpretacij mora specialist od¡citati in interpretirati reakcije kmalu (nekaj ur) po kon¡cani reakciji. Gelska metoda preiskave je bila razvita z namenom standardizacije aglutinacije in z namenom fiksiranja aglutinatov, kar omogo¡ca preprostej¡se od¡citavanje. Gelska metoda je ob¡cutljiva, a hkrati preprosta za uporabo [13]. Metoda se izvaja z uporabo t.i. gelskih kartic. Gelske kartice so plasti¡cne kartice, v katere je vdelanih ¡sest kolon, dol¡zine 15 mm in premera 2 mm. Slika 2.1 prikazuje prazno gelsko kartico (a) in gelsko kartico z vzorci krvi (b).
Za vsak tip preiskave se uporablja specifi¡cen tip gelske kartice. V grobem se tipi gelskih kartic delijo na nevtralne in specifi¡cne kartice. Nevtralne kartice vsebujejo le gel brez reagentov, v specifi¡cnih pa je gelu dodan tudi reagent. V nadaljevanju je opisan postopek z nevtralnimi karticami. Z vidika strojne interpretacije rezultatov preiskav je postopek enak tudi pri uporabi specifi¡cnih kartic.
V zgornjem delu kolon v gelskih karticah se s pipeto zme¡sa vzorec preiskovanih eritrocitov in diagnosti¡cnih reagentov. Po dolo¡cenem ¡casu med vzorcem in reagentom reakcija
pote¡ce, delno pote¡ce ali pa ne pote¡ce.  V primeru, da je reakcija potekla, se eritrociti
¡ zlepijo v mre¡zo – aglutinat.  Ce reakcija ni potekla, ostanejo eritrociti nepovezani.  V
nadaljevanju postopka sledi ugotavljanje, ali je reakcija v posameznih kolonah potekla in v kolik¡sni meri je potekla. Mera, ki govori o tem, v kolik¡sni meri je reakcija potekla, je stopnja jakosti aglutinacije, ki se jo dolo¡ca za vsako posamezno kolono posebej. Da dolo¡cimo stopnjo jakosti aglutinacije, je potrebno gelske kartice z vzorci najprej centrifu-girati. Specifi¡cna gostota gela v kolonah je manj¡sa od specifi¡cne gostote eritrocitov, zato med centrifugiranjem prosti eritrociti potonejo skozi gel in se naberejo na dnu kolon (negativen rezultat). Eritrociti, ki so povsem zlepljeni v aglutinat, zaradi velikosti le-tega ne prodrejo skozi gel in ostanejo na vrhu gela (pozitiven rezultat). Delno zlepljene celice pa se glede na velikost aglutinatov porazdelijo po volumnu kolon [12][13].
18
3. Obstojeèe rešitve in orodja
NEG       1+         2+         3+         4+      DCP
Slika 3.2: Slike kolon gelskih kartic z razli¡cnimi stopnjami jakosti aglutinacije.
Interpretacija rezultatov preiskave je sestavljena iz dveh korakov. Prvi korak je ocenjevanje stopnje jakosti aglutinacije v posameznih kolonah. Drugi korak je kon¡cna interpretacija opravljene predtransfuzijske preiskave.
3.1.2.1    Ugotavljanje stopnje jakosti aglutinacije
Specialist transfuzijske medicine oceni stopnjo aglutinacije v vsaki koloni na podlagi porazdelitve eritrocitov po vi¡sini kolone in jo razvrsti v enega od ¡sestih razredov. Ti razredi so [12]:
•  negativno (NEG, 0)
• 1+
•  2+
•  3+
•  4+
•  dvojna celi¡cna populacija (DCP)
Rezultat negativno pomeni popolno odsotnost aglutinacije (vse celice so na dnu kolon), 4+ pa najvi¡sjo stopnjo jakosti aglutinacije (vse celice so na vrhu gela v kolonah). Rezultat DCP pomeni, da je del celic na dnu kolone, del celic pa na vrhu gela. Dopu¡s¡cena je tudi mo¡znost, da v koloni ni vzorca, v tem primeru je kolona ozna¡cena kot prazno. Primeri slik kolon gelskih kartic z razli¡cnimi stopnjami algutinacije so predstavljeni na sliki 3.2.
3.2 Sistem za telekonzultacije
19
3.1.2.2    Dokon¡cna interpretacija rezultata preiskave
V nadaljevanju postopka preiskave specialist interpretira nabor dolo¡cenih stopenj jakosti aglutinacije v posameznih kolonah v kon¡cni rezultat preiskave. Za vsako od petih ra-zli¡cnih tipi¡cnih preiskav obstaja kon¡cni nabor mo¡znih rezultatov preiskave. Za na¡stete tipe preiskav so mo¡zni slede¡ci rezultati:
•  Dolo¡canje krvne skupine AB0 RhD: 0-NEG, 0-NEG Du+, 0-POZ, A-NEG, A-NEG Du+, A-POZ, B-NEG, B-NEG Du+, B-POZ, AB-NEG, AB-NEG Du+, AB-POZ
•  Indirektni Coombsov test (ICT): POZ, NEG
•  Direktni Coombsov test (DCT): POZ, NEG
•  Navzkri¡zni preizkus (NP): POZ, NEG
•  Specifikacija protiteles (PT): anti-D, anti-C, anti-c, anti-E, anti-e, anti-K, anti-k, anti-Fya, anti-Fyb, anti-Jka, anti-Jkb, anti-M, anti-N, anti-Lea, anti-Leb, anti-P1, anti-I, anti-Cw, anti-S, anti-s, anti-i, anti-Lua, anti-Lub, anti-Kpa, anti-Kpb, NI PT
3.2    Sistem za telekonzultacije
3.2.1    Namen sistema – problemi, ki jih re¡suje
Sistem za telekonzultacije v transfuzijski medicini smo vzpostavili z namenom zmanj¡sanja potrebe po velikem ¡stevilu specialistov transfuzijske medicine in z namenom poenotenja kakovosti storitev transfuzijske medicine v vseh ustanovah v dr¡zavi. Sistem omogo¡ca povezavo de¡zurnih zdravnikov in specialistov transfuzijske medicine vseh transfuzijskih ustanov. S tem je omogo¡cena izmenjava podatkov, potrebnih za postavljanje diagnoz. Le-ti so: pacientovi medicinski podatki, podatki, pridobljeni iz predhodnih obravnav, in rezultati preiskav [15][22][23][24][25].
3.2.2    Delovanje sistema za telekonzultacije
Z uporabo sistema za telekonzultacije postavljajo bolni¡sni¡cni zdravniki (konzultirajo¡ci) vpra¡sanja o strokovnih problemih konzultantom v transfuzijskem centru. Pri dvoumnih
20
3. Obstojeèe rešitve in orodja
laboratorijskih rezultatih zdravnik uporabi sistem za telekonzultacije in se o njem posvetuje z de¡zurnim v transfuzijskem centru, konzultantom. Konzultirajo¡ci se na podlagi ur-¡ gence obravnavanega primera odlo¡ci za na¡cin telekonzultacije. Ce primer ni nujen, konzul-tirajo¡ci o primeru sestavi vpra¡sanje iz podatkov o pacientu in diagnosti¡cnih podatkov, pridobljenih z gelsko metodo. Sistem doda podatke o morebitnih pacientovih predhodnih rezultatih, ki jih pridobi iz sistema DATEC. Sistem uvrsti vpra¡sanje na konzultantov seznam odprtih zadev. De¡zurni konzultant v transfuzijskem centru po vrsti obdela in odgovori na vpra¡sanja s seznama, ki so prispela iz razli¡cnih ustanov [15][26].
¡
Ce je obravnavani primer nujen, zahteva konzultirajo¡ci telekonzultacijo z de¡zurnim
konzultantom v ¡zivo. Sistem vzpostavi povezavo s prostim de¡zurnim konzultantom. Ko
konzultant sprejme telekonzultacijsko sejo, se med konzultantom in zdravnikom vzpostavi
videokonferen¡cna zveza, ki omogo¡ca konzultacijo v realnem ¡casu. Konzultantu so tudi v
¡ tem primeru na voljo vsi podatki, potrebni za postavitev diagnoze. Ze obstoje¡ci so zajeti
avtomatsko iz obstoje¡cega informacijskega sistema, diagnosti¡cne podatke pa vnese konzul-tirajo¡ci. Dodatna prednost je mo¡znost sprotnega izvajanja vseh potrebnih aktivnosti po navodilih konzultanta [27].
Slika 3.3 prikazuje idejno zasnovo arhitekture sistema za telekonzultacijo. V transfuzijskem centru je de¡zurni specialist transfuzijske medicine – konzultant, ki odgovarja na vpra¡sanja de¡zurnih zdravnikov ali ostalih konzultirajo¡cih. V transfuzijskem centru je tudi centralni stre¡znik sistema. Zdravniki na oddelkih uporabljajo za telekonzultacijo terminale – osebne ra¡cunalnike z ustrezno dodatno strojno in programsko opremo. Dodatna strojna oprema so naprave za zajem slik gelskih kartic. Slika 3.7 prikazuje napravo za zajem slik gelskih kartic. Poleg omenjenega so vsi terminali opremljeni z opremo, ki omogo¡ca videokonferen¡cno povezavo. Komunikacija med posameznimi terminali in stre¡znikom za telekonzultacijo poteka po javnem omre¡zju internet. Varne povezave med posameznimi elementi sistema so zagotovljene z uporabo prehodov VPN (Virtual Private Network), ki vse elemente pove¡zejo v navidezno zasebno omre¡zje.
3.2.3    Vzpostavljanje sistema
3.2.3.1    Uporabni¡ske zahteve
V RS zagotavlja storitve transfuzije krvi dve veliki transfuzijski ustanovi in devet bolni¡sni¡cnih krvnih bank. Ta mre¡za ustanov zagotavlja krvne produkte in obvezne pred-transfuzijske serolo¡ske preiskave za vse institucije, ki to potrebujejo. Zagotavljanje teh
3.2 Sistem za telekonzultacije
21
Dežurni 1
Konzutant
VPN prehod
DATEC
Internet
Dežurni 2
@
/
VPN prehod
VPN prehod
Strežnik
DATEC
Slika 3.3: Zasnova sistema za telekonzultacije s konzultantom in dvema dežurnima lokacijama. Osebje na lokacijah Dežurni 1 in Dežurni 2 s pomoèjo sistema zastavlja konzultantu vprašanja, na katera specialist konzultant z uporabo sistema odgovarja.
22
3. Obstojeèe rešitve in orodja
storitev zahteva nenehno prisotnost vsaj enega specialista s podro¡cja imunohematologije v vsaki od ustanov [16]. Z namenom racionalizacije zahtev po obveznih predtransfuzijskih serolo¡skih preiskavah smo identificirali uporabni¡ske zahteve sistema za telekonzultacije v transfuzijski medicini, ki bi izbolj¡sal pogoje, na¡cin in u¡cinkovitost dela na tem podro¡cju. Telekonzultacijski sistem naj omogo¡ca:
•  zajem slik gelskih kartic visoke lo¡cljivosti, ki jih je mogo¡ce elektronsko prena¡sati in shranjevati;
•  pove¡cevanje in zmanj¡sevanje slike gelske kartice na zaslonu z namenom podrobnega opazovanja aglutinatov v kolonah gelskih kartic;
•  24-urno dostopnost ekspertize referen¡cnega laboratorija za vse oddaljene bolni¡sni¡cne oddelke, kjer nudijo storitve transfuzije krvi;
•  interakcijo med laboratoriji in referen¡cnimi laboratoriji v realnem ¡casu za urgentne primere;
•  shrani in posreduj na¡cin telemedicinskega sistema za neurgentne primere [19];
•  izmenjavo vseh podatkov o pacientih in krvodajalcih;
•  stalno povezavo z nacionalno podatkovno bazo krvodajalcev in pacientov za zagotavljanje tranfuzijskih in anamnesti¡cnih podatkov;
•  videokonferen¡cno avdio/video povezavo med uporabniki sistema;
•  popolno sledljivost vseh postopkov, izpeljanih s sistemom;
•  zasnovo, ki omogo¡ca raz¡siritve sistema;
•  zanesljivo, varno in kodirano izmenjavo podatkov;
•  izvedbo v skladu z mednarodnimi standardi.
3.2.4    Gradniki sistema
Na podlagi uporabni¡skih zahtev smo razvili in izdeleli sistem za telekonzultacije. Sistem je razdeljen v ve¡c medsebojno povezanih modulov. Zasnova je vidna na sliki 3.3. Osnovni moduli sistema za telekonzultacije v transfuzijski medicini so:
3.2 Sistem za telekonzultacije
23
•  terminali,
•  namenska strojna oprema za zajem slik gelskih kartic – Gelscope32,
•  programska aplikacija na odjemalcu,
•  programska aplikacija na stre¡zniku,
•  programska in strojna oprema za videokonferen¡cno zvezo,
•  podatkovna baza,
•  komunikacijski modul z DATEC obstoje¡cim informacijskim sistemom,
•  stre¡znik,
•  omre¡zje z elementi za kriptiranje in varnost.
V nadaljevanju smo podali osnovne opise posameznih modulov, uporabljenih za gradnjo sistema za telekonzultacije.
3.2.4.1    Programska aplikacija na odjemalcu
Aplikacija na odjemalcu je bila razvita v programskem jeziku Java. Slika uporabni¡skega vmesnika aplikacije je predstavljena na sliki 3.4. Aplikacija skrbi za interakcijo z uporabniki. Na za¡cetku od uporabnika zahteva, da se le-ta indentificira in prijavi v sistem. Aplikacija v nadaljevanju na podlagi tipa prijavljenega uporabnika (konzultant, konzultirajo¡ci, tehnik, administrator) ponudi razli¡cen nabor funkcionalnosti. Konzul-tirajo¡cemu omogo¡ca dodajanje novih sej, pregledovanje sej in vzpostavljanje video-konferen¡cne povezave.
Dodajanje nove seje poteka tako, da uporabnik v napravo Gelscope32 vstavi gelsko kartico. Aplikacija sliko gelske kartice samodejno zajame in prika¡ze na zaslonu. Uporabnik jo lahko pove¡cuje in se premika po njej, kar omogo¡ca natan¡cno opazovanje detajlov na sliki gelske kartice. V nadaljevanju postopka uporabnik s ¡citalcem ¡crtne kode od¡cita ¡stevilko vzorca krvi. Aplikacija s prebrano ¡stevilko ¡crtne kode izvede poizvedbo o pacientovih podatkih v DATEC in jih prika¡ze na zaslonu. Nato uporabnik izbere tip preiskave in s ¡citalcem ¡crtne kode od¡cita ¡crtno kodo gelske kartice. Sledi vnos vpra¡sanja in izbira konzultanta, na katerega bo seja naslovljena. Ko je vnos podatkov zaklju¡cen, po¡slje uporabnik sejo konzultantu.
24
3. Obstojeèe rešitve in orodja
Konzultant prejme sejo z vpra¡sanjem. Na voljo mu je slika gelske kartice, ki jo lahko poljubno pove¡cuje in se po njej pomika, da si lahko podrobno ogleda vsebino kolon v gelski kartici. Na voljo so mu tudi podatki, pridobljeni iz sistema DATEC. Po kon¡cani analizi konzultant dolo¡ci stopnjo jakosti aglutinacije v vsaki od kolon in kon¡cni rezultat preiskave. Lahko vnese tudi tekst odgovora. Ko kon¡ca z vnosom podatkov, sejo zaklju¡ci.
Aplikacija opozarja konzultante in konzultirajo¡ce o prispelih sejah s prikazom opozoril na zaslonih in s po¡siljanjem SMS sporo¡cil na GSM telefone.
3.2.4.2    Programska aplikacija na stre¡zniku
Stre¡zni¡ska komponenta sistema za telekonzultacije je napisana v programskem jeziku Java. Le-ta te¡ce na aplikacijskem stre¡zniku Tomcat [28] kot Java servlet. Odjemalci z njo komunicirajo s sporo¡cili po protokolu http.
3.2.4.3    Programska in strojna oprema za videokonferen¡cno zvezo
Modul za videokonferen¡cno povezavo je v celoti napisan v programskem jeziku Java. Za razvoj je bil uporabljen paket JMF – Java media framework [29]. Videokonferen¡cna povezava se vzpostavi neposredno med komunicirajo¡cima. Stre¡znik pri vzpostavitvi sodeluje le s posredovanjem podatkov o komunicirajo¡cih. Vzpostavi se dvosmerna av-dio/video povezava po protokolu UDP [30]. Za kodiranje povezave je uporabljen standard H.323 [31]. Terminali so za podporo videokonferen¡cne povezave opremeljeni s slu¡salkami z mikrofonom in web kamero. Modul za videokonferenco je integriran v programsko aplikacijo na odjemalcu.
3.2.4.4    Podatkovna baza
Za razvoj sistema za telekonzultacije je bila izbrana odprto-kodna relacijska podatkovna baza MySQL [32]. Podatkovna baza te¡ce na istem stre¡zniku kot stre¡zni¡ska aplikacija. Aplikaciji nudi storitvi hrambe in dostopa do podatkov, ki jih le-ta potrebuje za delovanje. S podatkovno bazo preko vmesnika krmilnikov baze s stre¡zni¡sko aplikacijo komuniciramo z
jezikom SQL (Structured Query Language). SQL je najpogostej¡si standardizirani jezik za
¡ opisovanje poizvedb v podatkovnih bazah. Ze od leta 1986 ga definira standard ANSI/ISO
SQL [32].
Za razvoj in izvedbo stre¡zni¡ske aplikacije je uporabljena tehnologija Java [33], zato so
bili za razvoj komunikacije med bazo in stre¡zni¡sko aplikacijo uporabljeni krmilniki JDBC
3.2 Sistem za telekonzultacije
25
Slika 3.4: Uporabni¡ski vmesnik aplikacije za telekonzultacije v transfuzijski medicini. Na sliki vidimo glavno okno aplikacije, ki vsebuje 20x pove¡cano sliko kolon na gelski kartici in osnovne pacientove podatke, pridobljene iz sistema DATEC. Vidimo tudi okno z vzpostavljeno videokonferen¡cno sejo.
26
3. Obstojeèe rešitve in orodja
Slika 3.5: Delovno mesto konzultirajoèega v bolnišniènem laboratoriju. Konzultirajoèa je z napravo Gelscope32 ravnokar zajela sliko predtransfuzijskih preiskav na gelski kartici. Slika je takoj vkljuèena v telekonzultacijski sejo skupaj s podatki o pacientu, pridobljenimi iz DATEC. Konzultirajoèi lahko kadarkoli med procesom vzpostavi s konzultantom videokonferenèno povezavo in se z njim o problemu posvetuje v realnem èasu.
3.2 Sistem za telekonzultacije
27
(Java Database Connectivity) [34].
V podatkovni bazi so shranjeni avtorizacijski podatki uporabnikov, podatki, potrebni za samo delo sistema, podatki o postavljenih vprašanjih in odgovorih ter podatki o imenih datotek, ki vsebujejo slike gelskih kartic. Posamezne slike gelskih kartic so shranjene vsaka v svoji datoteki z ustreznim imenom. Vsi dogodki v sistemu se beležijo v bazi podatkov. Zapisi so opremljeni s podatkom o èasu nastanka in osebi, ki je dogodek sprožila. Slovenska zakonodaja predpisuje sledljivost postopka transfuzije in arhiviranje dokumentacije, kar je z opisano rešitvijo zagotovljeno.
3.2.4.5     Strežnik
Na strežnikih teèe operacijski sistem Linux s potrebnimi programskimi moduli. Aplikacijski strežnik, ki streže aplikacijo, je web servlet strežnik Tomcat. Na strežniku teèe tudi podatkovna baza MySQL. Na strežnik je prikljuèen GSM modul, za pošiljanje SMS sporoèil. Strežnik je namešèen na Zavodu za transfuzijsko medicino. Namešèen je v strežniški sobi, ki je primerno varovana in klimatizirana. Napajanje strežnika je izvedeno preko sistema za neprekinjeno napajanje. Za izdelavo varnostnih kopij je na strežnik prikljuèena traèna enota, na katero se vsak dan izvede varnostno kopiranje podatkov s strežnika.
3.2.4.6     Omrežje z elementi za kriptiranje in varnost
Omrežje, po katerem komunicira sistem za telekonzultacije v transfuzijski medicini, je javno IP omrežje internet. Dostop do omrežja zagotavljajo komercialni ponudniki dostopa do omrežja internet preko ADSL. Z namenom doseganja veèje zanesljivosti dostop do omrežja internet na vseh lokacijah zagotavljata dva razlièna ponudnika Interneta. Za varno komunikacijo med posameznimi vozlišèi omrežja je poskrbljeno z uporabo tehnologije VPN - navideznih virtualnih omrežij [35], ki poskrbi za ustrezno kriptiranje prometa, ki se izmenjuje med vozlišèi.
3.2.4.7     Terminali
V sistemu so kot terminali uporabljeni osebni raèunalniki. Za namene sistema za telekonzultacije v transfuzijski medicini so izbrani primerno zmogljivi osebni raèunalniki, opremljeni z ustrezno programsko in strojno opremo. Na terminalih teèe operacijski sistem Windows XP, z dodatkom programske tehnologije za poganjanje v Javi napisanih
28
3. Obstojeèe rešitve in orodja
aplikacij JRE – Java run time environment. Pomembno je, da so terminali opremljeni z zmogljivimi monitorji, ki omogo¡cajo primerno kakovosten prikaz slik gelskih kartic. Terminalom je poleg standardne opreme za osebne ra¡cunalnike dodan ¡citalec ¡crtne kode, web kamera, slu¡salke z mikrofonom in naprava za zajem slik gelskih kartic Gelscope32. Terminali so opremljeni tudi s kakovostnim barvnim tiskalnikom.
3.2.4.8    Namenska strojna oprema za zajem slik gelskih kartic – Gelscope32
Ker so za uspe¡sno od¡citavanje rezultatov preiskav potrebne kakovostne barvne fotografije gelskih kartic, smo za zajem slik gelskih kartic izdelali namensko strojno in programsko opremo. Da so rezultati posameznih fotografiranj primerljivi, mora biti postopek fotografiranja gelskih kartic normaliziran in ponovljiv. Fotografije morajo biti brez odbleskov ter brez geometrijskih in barvnih popa¡cenj. Fotografirane kartice morajo biti enakomerno osvetljene, gori¡s¡cna razdalja fotografiranja pa vedno enaka. Za poenostavitev nadaljnje obdelave mora biti pri fotografiranju zagotovljen vedno enak polo¡zaj gelske kartice. Uporaba naprave za zajem slik gelskih kartic mora biti preprosta. Slika 3.7 [18] prikazuje “rentgenski pogled” naprave in fotografijo izdelane naprave za zajem slik gelskih kartic – napravo Gelscope32.
Naprava Gelscope32 je namenjena zajemu slik gelskih kartic na uporabniku prijazen na¡cin. Gelscope32 je preko vmesnika USB in RS232 priklju¡cen na osebni ra¡cunalnik. Ob vstavitvi gelske kartice naprava samodejno zajame sliko le te. Z uporabo naprave je zagotovljena ponovljivost in medsebojna primerljivost zajetih slik. Ponovljivost zagotavljajo vedno enake razmere osvetljevanja kartice, zajem slik gelskih kartic s fiksno postavljenimi parametri optike ter ostalimi parametri zajema.
Za zajem slik gelskih kartic je v napravo Gelscope32 vgrajena komercialna kamera ¡siroke potro¡snje. Na ta na¡cin smo dosegli sprejemljivo nizko ceno naprave, ki kljub nizki ceni omogo¡ca zajem dovolj kakovostnih fotografij. Za uporabljeno kamero proizvajalec ponuja razvojno okolje, ki omogo¡ca razvoj aplikacije na osebnem ra¡cunalniku, ki preko USB vmesnika komunicira s kamero v napravi in nadzoruje njene funkcije. Za namen krmiljenja kamere in prenos zajetih slik na terminal – osebni ra¡cunalnik smo razvili vmesnik, ki komunicira s kamero. Vmesnik smo vklju¡cili v aplikacijo za telekonzultacije.
Za osvetljevanje gelske kartice v napravi smo uporabili svetlobna telesa, izdelana iz belih LED, z difuzorji svetlobe. Ker ohi¡sje naprave onemogo¡ca, da bi zunanja svetloba osvetljevala gelsko kartico, so edini vir osvetlitve svetlobna telesa v napravi. Na ta na¡cin smo dosegli konstantne osvetlitvene razmere za vse slike. Gelska kartica je iz prozorne
3.2 Sistem za telekonzultacije
29
plastike. Sestavljena je iz dveh zanimivih podro¡cij, ki morata biti razlo¡cno zajeti na slikah. Ti podro¡cji sta – podro¡cje s kolonami in podro¡cje nalepke z napisi. Naprava Gelscope32 je zasnovana tako, da osvetli gelsko kartico iz treh smeri. Za opazovanje vsebine kolon je primerna osvetlitev s presvetlitvijo vsebine. Za opazovanje napisov na nalepkah gelskih kartic pa je potrebna tudi osvetlitev od spredaj. Za presvetlitev gelske kartice smo svetlobno telo postavili za gelsko kartico. Vir svetlobe v tem svetlobnem telesu so bele LED, razporejene v matriko 4 x 6. Neposredno pred to matriko je difuzor, sestavljen iz dveh kosov mle¡cno belega 3 mm debelega pleksi stekla. Razdalja med kosoma pleksi stekla je 1 cm. S tak¡sno sestavo svetlobnega telesa dobimo enakomerno ploskovno svetlobno telo, ki enakomerno presvetli gelsko kartico in v gelsko kartico vdelane kolone.
Za osvetlitev od spredaj sta uporabljeni 2 svetlobni telesi. Le-ti sta sestavljeni iz belih LED in difuzorja iz pleksi stekla. Svetlobni telesi morata biti postavljeni tako, da na gladki povr¡sini gelske kartice ne tvorita odbleskov, ki bi bili vidni s kamero. Tej zahtevi je ugodeno, ¡ce svetlobni telesi osvetljujeta gelsko kartico pod dovolj ostrim kotom, da se njuna slika na gladki povr¡sini gelske kartice ne odbije v objektiv kamere. Na sliki 3.6 je narisan shematski prerez naprave Gelscope32 s poudarkom na svetlobnih telesih, gelski kartici in kameri. Na levi strani slike je zadnje svetlobno telo: matrika LED z dvema difuzorjema. Proti desni sledi gelska kartica ter dve sprednji osvetljevali z difuzorjema. Na skrajni desni strani slike je kamera. Sprednji osvetljevali morata biti dovolj odmaknjeni od opti¡cne osi objektiva, da se neposredni odboji osvetljeval ne odbijejo od gladkih povr¡sin gelske kartice v objektiv. Na sliki 3.6 so narisani koti najneugodnej¡sih odbojev s ¡crtkano ¡crto. Vidimo, da je postavitev gelske kartice, sprednjih osvetljeval in kamere taka, da se odboji ne odbijejo v objektiv kamere.
Celotno napravo krmili mikrokrmilnik dru¡zine AVR, ki skrbi za sporo¡canje statusa naprave osebnemu ra¡cunalniku preko vmesnika RS232. Skrbi tudi za obve¡s¡canje uporabnika o poteku zajema slik gelskih kartic preko, statusnih LED, vgrajenih v ohi¡sje naprave. Dodatna podporna vezja v napravi skrbijo za napajanje vseh sklopov naprave ter prilagoditev napetostnih nivojev pri komunikaciji.
Rezultat zajema slik gelskih kartic z napravo Gelscope32 so barvne digitalne JPEG stisnjene fotografije v velikosti 2048 x 1536 slikovnih elementov. Po ustrezni digitalni obdelavi so zajete fotografije dovolj kakovostne za postavljanje diagnoz.
30
3. Obstojeèe rešitve in orodja
D D D D
V7--'
U-
Slika 3.6: Shematski prerez naprave Gelscope32: Postavitev svetlobnih teles, gelske kartice
¡ in kamere. Crtkano so ozna¡ceni odboji sevetlobe svetilnih teles od povr¡sine gelske kartice.
Slika 3.7: Fotografija izdelane naprave Gelscope32 in rentgenski pogled.
3.3 Pregled metod strojnega uèenja
31
3.2.4.9    Komunikacijski modul z DATEC obstoje¡cim informacijskim sistemom
Trenutno je transfuzijska slu¡zba v Sloveniji ¡ze podprta z informacijskim sistemom DATEC, ki je bil leta 1990 razvit na Zavodu Republike Slovenije za transfuzijsko medicino [36][37]. Informacijski sistem DATEC je kombinacija baze podatkov, ki vsebuje osebne in medicinske podatke pacientov, in tekstovno-grafi¡cnega vmesnika VT100 [38] za dostop do teh podatkov. DATEC te¡ce na samostojnih stre¡znikih v vseh laboratorijih, v katerih se nudijo storitve transfuzije krvi. Sistem te¡ce na operacijskem sistemu UNIX. Dostop do vmesnika za dostop do podatkov je omogo¡cen preko protokola Telnet.
Sistem za telekonzultacije omogo¡ca, da se v telekonzultacijsko sejo na transparenten na¡cin vklju¡cijo ¡ze obstoje¡ci pacientovi mati¡cni, medicinski podatki in podatki o zgodovini transfuzijskih posegov iz sistema DATEC. Ti podatki so na voljo konzultantu, ki obdeluje dano sejo. Konzultant potrebuje dostop do teh podatkov, da lahko pravilno ukrepa v mejnih primerih.
Komunikacijski modul je del aplikacije na odjemalcu in ustrezne konfiguracije omre¡zja, ki omogo¡ca promet med terminali in stre¡zniki sistema DATEC. Modul s sistemom DATEC komunicira preko protokola Telnet in FTP. Komunikacija zajema po¡siljanje zahteve po podatkih za posameznega pacienta po protokolu Telnet. Stre¡znik zahtevo obdela in zahtevane podatke shrani v datoteko. To datoteko modul z uporabo protokola FTP prenese in iz nje prebere podatke o pacientu in njegovi transfuzijski zgodovini. Na sliki 3.8 je vidno okno aplikacije na odjemalcu, ki vsebuje podatke o pacientu, pridobljene iz sistema DATEC.
V pravkar opisanem sistemu za telekonzultacije v transfuzijski medicini se zbirajo podatki, ki jih uporabimo za gradnjo modela interpretacije rezultatov, ki predstavlja osnovo sistema za samodejno interpretacijo rezultatov predtransfuzijskih preiskav. Podatke obdelamo z metodami strojnega u¡cenja, kot je predstavljeno v nadaljevanju.
3.3    Pregled metod strojnega u¡cenja, primernih za gradnjo modelov samodejne interpretacije
Metode strojnega u¡cenja predstavljajo posebno tehniko analize podatkov. Podro¡cja, ki vklju¡cujejo strojno u¡cenje, so poleg mnogih drugih tudi rudarjenje podatkov, prepoznavanje vzorcev, analiza slik in bioinformatika [39][40].
32
3. Obstoje¡ce re¡sitve in orodja
Slika 3.8: Podatki, pridobljeni iz sistema DATEC, kot so na voljo uporabnikom sistema za telekonzultacije. Zaradi varstva podatkov je na sliki skrito ime obravnavanega pacienta.
3.3 Pregled metod strojnega uèenja
33
Za u¡cinkovito obravnavo algoritmov strojnega u¡cenja smo povzeli definicijo osnovne terminologije, ki opisuje osnovne gradnike metod. Definirali smo pomen konceptov, vzorcev in atributov. Podali smo tudi na¡cine predstavitve nau¡cenega znanja. Obstaja nekaj glavnih podatkovnih struktur, ki jih lahko uporabimo, da predstavimo nau¡ceno znanje.
V besedilu smo predstavili pravilnostne tabele, odlo¡citvena drevesa, klasifikacijska pravila, asociacijska pravila, in roje. Opisu podatkovnih struktur sledi opis ¡stirih glavnih skupin metod strojnega u¡cenja.
3.3.1    Povzetek osnovne terminologoje
V pri¡cujo¡cem podpoglavju smo povzeli pregled osnovne terminologije, ki je potrebna za razpravo o metodah strojnega u¡cenja.
3.3.1.1    Koncept (ang. concept)
Koncepti predstavljajo dele znanja, ki sestavljajo model delovanja danega opazovanega sistema. Z modelom poizku¡samo ¡cim bolje posnemati delovanje opazovanega sistema.
Postopki strojnega u¡cenja se v grobem delijo na naslednje pristope: klasificiranje, asociiranje, rojenje in numeri¡cno napovedovanje. Neodvisno od uporabljenega pristopa strojnega u¡cenja poizku¡samo pri vsakem postopku na razli¡cne na¡cine izlu¡s¡citi in spoznati koncepte opazovanega sistema. Rezultati postopkov strojnega u¡cenja so opisi konceptov (ang. concept description) [2]. Skupek opisov konceptov predstavlja model opazovanega sistema.
3.3.1.2    Vzorec (ang. instance, feature, example)
Vzorec je osnovna samostojna entiteta iz nabora podatkov. Vhod v postopek strojnega u¡cenja je nabor vzorcev. Vsak vzorec predstavlja individualen neodvisen primer koncepta, ki se ga ¡zelimo nau¡citi. Vsak, posamezen vzorec je sestavljen iz vrednosti dolo¡cenih atributov. Vzorec lahko predstavimo kot vektor atributov. V matriko urejeni vektorji atributov – vzorci predstavljajo nabor podatkov [2].
3.3.1.3    Atribut (ang. attribute), zna¡cilka, lastnost
Atribut predstavlja element vzorca, ki nosi o njem dolo¡ceno informacijo [2][39]. Vsak vzorec, ki predstavlja vhod v postopek strojnega u¡cenja je, definiran z vrednostmi na
34
3. Obstojeèe rešitve in orodja
fiksiranem in preddefiniranem naboru atributov. Vrednosti atributov doloèenega vzorca so lahko numeriène ali nominalne. Nominalni atributi lahko zavzamejo le vrednosti iz konènega nabora vrednosti.
3.3.2    Predstavitev nauèenega znanja
Z metodami strojnega uèenja je potrebno nauèeno znanje pravilno predstaviti za nadaljnjo uporabo. To storimo z ustrezno izbrano podatkovno strukturo, ki predstavlja nauèeno znanje. Obièajno so podatkovne strukture za predstavitev nauèenega znanja implicitno definirane z izbiro metode strojnega uèenja. V nadaljevanju so predstavljene razliène podatkovne strukture, s katerimi se sreèujemo pri strojnem uèenju [2]. Te podatkovne strukture so pravilnostne tabele, odloèitvena drevesa, klasifikacijska pravila, asociativna pravila in roji. V literaturi o metodah strojnega uèenja avtorji navajajo tudi strukture za numerièno napovedovanje, vendar ti postopki pri reševanju naših problemov niso uporabni, zato jih v nadaljevanju teksta ne bomo omenjali.
3.3.2.1     Pravilnostne tabele
Pravilnostne tabele (ang. truth table), vèasih poimenovane tudi odloèitvene tabele, so najosnovnejši naèin predstavitve rezultatov metod strojnega uèenja. V pravilnostnih tabelah je znanje predstavljeno tako, da so v njih našteti vsi možni vzorci - kombinacije možnih vrednosti posameznih atributov s pripadajoèimi rezultati. Vsaki kombinaciji atributov -vzorcu je dodana vrednost tega vzorca (razvrstitev vzorca v razred). Ko poizkušamo ugotoviti vrednost neznanega vzorca, v odloèitveni tabeli poišèemo vzorec, katerega kombinacija vrednosti atributov je enaka vrednostim atributov opazovanega vzorca, in odèitamo pripadajoèo vrednost [2].
3.3.2.2     Odloèitvena drevesa
Odloèitvena drevesa (ang. decision tree) so podatkovne strukture v obliki dreves z vozlišèi in listi. Listi predstavljajo konèno odloèitev - razvrstitev vzorca v razred [41]. Odloèitvena drevesa so uèinkovit naèin predstavitve nauèenega znanja. Primer vizualiza-cije odloèitvenega drevesa je predstavljen na sliki 3.12.
Vozlišèa v odloèitvenih drevesih predstavljajo razvejišèa v strukturi drevesa. Vozlišèa predstavljajo testiranje vrednosti doloèenega atributa vzorca in odloèanje o nadaljnji poti po drevesu na podlagi te vrednosti.   Opazovanju vrednosti v vozlišèu sledi premik po
3.3 Pregled metod strojnega uèenja
35
drevesu do naslednjega vozlišèa ali lista. Obièajno je vrednost atributa primerjana s konstantno vrednostjo. Pri doloèenem tipu dreves vozlišèa lahko predstavljajo tudi primerjanje vrednosti veè kot enega atributa, kot tudi uporabo doloèene funkcije nad vrednostmi enega ali veè atributov opazovanega vzorca. Listi drevesa predstavljajo dokonène klasifikacije vzorcev ali nabor klasifikacij vzorcev, ki so uspeli z vrednostmi atributov po drevesu priplezati do lista. Neznani vzorec se klasificira tako, da se z vrednostmi njegovih atributov spustimo po drevesu. Zaènemo v korenskem vozlišèu in na podlagi rezultata testiranja v vozlišèu predpisanega atributa pot nadaljujemo po veji, ki jo doloèa rezultat testa. Na podlagi kriterija v posameznem doseženem vozlišèu nadaljujemo pot po drevesu. Ko z vzorcem priplezamo do konca drevesa - do lista, mu pripišemo razred - rezultat, ki je pripisan temu listu [17].
Èe ima testiram atribut nominalno vrednost, je število vej, ki izhajajo iz tega vozlišèa, obièajno enako številu možnih vrednosti tega atributa. V tem primeru ta atribut vzorca v nadaljnjih vozlišèih ne bo veè obravnavan. Vèasih je v vozlišèu vrednost opazovanega atributa razdeljena v podmnožice, katerih velikost je veèja kot ena. Drevo se potem v tem vozlišèu deli na toliko vej, kolikor podmnožic vrednosti atributa obstaja. V tem primeru bo vrednost obravnavanega atributa v nadaljnjih vozlišèih verjetno še testirana [17].
Èe je obravnavani atribut numerièna vrednost, potem do odloèitve za eno od dveh možnosti vozlišèa obièajno pride na podlagi tega, èe je vrednost atributa veèja ali manjša od predhodno definirane konstante. Alternativna možnost je vejenje v tri veje. Možnih naèinov za vejenje je veè. Èe je nabor vrednosti atributa iz množice celih števil, potem se lahko za eno od treh možnosti odloèimo na podlagi primerjave je manjše, je veèje, je enako. Èe so vrednosti atributa iz množice realnih števil, potem je namesto primerjave je enako boljša definicija intervala in primerjava vrednosti atributa je manjše od intervala, je znotraj intervala, je veèje od intervala. Numeriène vrednosti atributov so na poti drevesa od korenin do lista veèkrat testirane. Obièajno vsakiè z drugo konstanto [17].
3.3.2.3    Klasifikacijska pravila
Klasifikacijska pravila (ang. classification rule) so popularna alternativa odloèitvenim drevesom. Klasifikacijska pravila so sestavljena iz nabora testov, primerljivih s testi v vozlišèih odloèitvenih dreves. Vsako pravilo je sestavljeno iz doloèenega nabora testov. Ko za dani vzorec ugotavljamo, èe zanj velja doloèeno klasifikacijsko pravilo, izvedemo zanj vse teste, ki jih predpisuje to pravilo. Rezultate teh testov združimo z logiènim operatorjem IN. Èe so bili vsi testi pravila pravilni, potem je zakljuèek testiranja, da ta
36
3. Obstojeèe rešitve in orodja
testirani vzorec spada v razred, definiran z ravnokar uporabljenim pravilom. Klasifikacijska pravila je mogoèe preprosto prebrati iz odloèitvenih dreves tako, da se sprehodimo do vseh listov po drevesu in zapisujemo posamezne teste v prehojenih vozlišèih [2].
3.3.2.4     Asociacijska pravila
Asociacijska pravila (ang. association rule) se bistveno ne razlikujejo od klasifikacijskih pravil. Lahko pa, za razliko od klasifikacijskih pravil, napovedo tudi atribute vzorcev in ne samo njihovih dokonènih razvrstitev v razrede. Asociacijska pravila opisujejo poljubne povezave med atributi vzorcev in rezultati. Možnih kombinacij asociacijskih pravil je veliko. Razlièna asociacijska pravila opisujejo razliène zakonitosti, ki jim je podvržen obravnavani nabor podatkov in v generalnem napovedujejo razliène stvari. Ker je lahko tudi iz zelo malega nabora podatkov izpeljanih mnogo razliènih asociacijskih pravil, se je dobro omejiti na tista, ki se nanašajo na razumno velik del obravnavanih vzorcev in imajo razumno visoko stopnjo pravilnosti v napovedih za obravnavane vzorce. Pri obravnavi asociacijskih pravil se ukvarjamo z dvema kazalnikoma njihove uporabnosti - pokritjem in natanènostjo. Pokritje asociacijskega pravila je število vzorcev, ki jih asociacijsko pravilo napoveduje pravilno. Natanènost tega pokritja pa je izražena kot delež vseh pravilno napovedanih vzorcev med vsemi, na katere se doloèeno pravilo nanaša.
3.3.2.5     Roji
V primerih, ko so za namene strojnega uèenja uporabljeni algoritmi rojenja (ang. clustering) se sistem uèi rojev namesto klasifikacije. Roji so podatkovna struktura v obliki diagrama, ki opisuje nauèeno znanje na naèin, kako posamezni vzorci pripadajo doloèenim rojem. V najpreprostejšem primeru predstavitve to predstavlja slikanje vzorcev na 2-dimenzionalno ravnino in delitev te ravnine na podroèja, ki so jim pripisane oznake posameznih rojev. Za primer glejte sliko 3.9 a. Kompleksnejša je razdelitev N-dimenzionalnega prostora v podroèja, katerim pripadejo vzorci. V prièujoèem delu je znanje v primeru uporabe algoritmov rojenja predstavljeno na ta naèin. Obstajajo tudi druge metode predstavitve nauèenega. Doloèeni algoritmi rojenja dopušèajo možnost, da vzorci pripadajo veè kot enemu roju. V tem primeru je znanje podano z medsebojno se pokrivajoèimi podroèji v prostoru. Primer je predstavljen na sliki 3.9 b. Doloèeni algoritmi rojenja pripišejo posameznim vzorcem verjetnosti, da le-ti spadajo v doloèen razred. Te vrednosti so za vsak vzorec podane tabelarièno. Primer je predstavljen na sliki 3.9 c. V skupino algorit-
3.3 Pregled metod strojnega uèenja
37
mov rojenja spadajo tudi algoritmi, katerih izvajanje da hierarhi¡cno podatkovno strukturo razredov. Ta je zgrajena tako, da v vsaki globini opazovanja razdeli prostor vzorcev na podprostore. Ta metoda predstavitve je podana na sliki 3.9 d. Posamezni vzorci so v najglobljem nivoju povsem razdrobljeni, ko pa se pomikamo vi¡sje po strukturi, so posamezni vzorci in razredi zdru¡zeni skupaj.
(a)
	1	2	3
a	0.4	0.1	0.5
b	0.1	0.8	0.1
C	0.3	0.3	0.4
d	0.1	0.1	0.8
e	0.4	0.2	0.4
f	0.1	0.4	0.5
g	0.7	0.2	0.1
h	0.5	0.4	0.1
(b)
fl
I
Ti
n
gaciedkbjfh
(c)
(d)
Slika 3.9: Razlièni naèini predstavitve rojev - znanja, nauèenega z metodami rojenja [2].
3.3.3    Pristopi strojnega uèenja
V literaturi zasledimo štiri osnovne pristope k strojnemu uèenju. Avtorji [2] svetujejo, da se za postopke strojnega uèenja najprej preizkusi najpreprostejše algoritme posameznih pristopov, ker z uporabo le-teh obièajno dobimo presenetljivo dobre rezultate. Teh rezultatov z uporabo veliko kompleksnejših algoritmov ne izboljšamo bistveno [2]. Posamezni pristopi strojnega uèenja za doloèen nabor podatkov delujejo razlièno dobro. Obièajno je nemogoèe napovedati, kateri pristop bo za dani nabor podatkov najuèinkovitejši. Zato
38
3. Obstojeèe rešitve in orodja
je najuèinkovitejši pristop za gradnjo uèinkovitega modela, ki je pogojen z izbiro za dani problem optimalnega algoritma strojnega uèenja, povezan z empiriènim izbiranjem najbolje delujoèega algoritma iz danega nabora metod strojnega uèenja. V osnovi se pristopi strojnega uèenja delijo na naslednje skupine:
1.  Klasifikacija (ang. classification): Z uporabo pristopov iz te skupine metod strojnega uèenja se nauèi konceptov razvršèanja vzorcev v predifinirane razrede.
2.  Asociiranje (ang. association): Z uporabo pristopov iz te skupine metod strojnega uèenja išèemo vse povezave med atributi vzorcev. Pri tem niso izvzete povezave, ki niso neposredno potrebne za razvršèanje.
3.  Rojenje (ang. clustering): Pri teh metodah poizkušamo vzorce združevati v skupine na podlagi doloèenih podobnosti in razlik teh vzorcev.
4.  Numerièno napovedovanje (ang. numeric prediction): Model, generiran s temi metodami, poizkuša napovedati numerièno vrednost in ne razreda, kateremu pripada obravnavani vzorec.
V nadaljevanju so predstavljene posamezne skupine pristopov strojnega uèenja. Pristopom so dodani primeri algoritmov strojnega uèenja, razloženi na vzorènem naboru podatkov.
3.3.3.1     Klasifikacija
Pri uporabi metod strojnega uèenja iz te skupine predpostavimo, da imamo na voljo preddefiniran nabor razredov, v katere moramo razvrstiti naše neznane vzorce. Metode so primerne za oba koraka našega problema. Primerne so za doloèanje stopnje jakosti aglutinacije v kolonah na naèin, da posamezne kolone gelskih kartic razvršèajo v razrede, opisane s stopnjo jakosti aglutinacije. Vsi možni razredi kolon glede na stopnjo jakosti aglutinacije eritrocitov v njih so namreè znani vnaprej. Prav tako so metode iz te skupine primerne za razvršèanje nabora razvršèenih kolon v dokonèno interpretacijo preiskave. Za vsako skupino testov namreè obstaja konèen in vnaprej znan nabor interpretacij.
Delovanje metod bomo ilustrirali na demonstracijskem podatkovnem naboru, ki je predstavljen v tabeli 3.1.
3.3 Pregled metod strojnega uèenja
39
A1	A2	A3	A4	Rezultat
1	1	1	2	B
1	1	1	1	B
2	1	1	2	A
3	2	1	2	A
3	3	2	2	A
3	3	2	1	B
2	3	2	1	A
1	2	1	2	B
1	3	2	2	A
3	2	2	2	A
1	2	2	1	A
2	2	1	1	A
2	1	2	2	A
3	2	1	1	B
Tabela 3.1: Demonstracijski podatkovni nabor. Povzet in popravljen iz [2].
3.3.3.1.1     1R Najpreprostejša metoda za ugotavljanje klasifikacijskega pravila iz nabora vzorcev je imenovana 1R. Metoda generira enostopenjsko odloèitveno drevo, ki je izraženo v obliki nabora pravil, ki testirajo le en atribut vzorca. Metoda 1R je preprosta in hitra, ki pogosto daje presenetljivo dobre rezultate. Osnovna ideja metode je sledeèa: zgradimo pravila, ki testirajo samo en atribut vzorcev in razvršèajo vzorce v razrede samo na podlagi rezultata tega testa. Vsaka razvejitev pripade razlièni vrednosti atributa.
Algoritem 1R izbere pravila za razvršèanje na sledeèi naèin: za razvršèanje uporabi razred, ki se v uènem naboru podatkov pojavi najveèkrat. Ko so izbrana pravila, je potrebno za vsako pravilo ugotoviti, kako dobro deluje za vsako pravilo izraèuna delež napaènih (ang. error rate). Izvajanje nad vsakim atributom generira razlièen nabor pravil, in sicer po eno pravilo za vsako možno vrednost atributa. V nadaljevanju izvajanja algoritem med sabo primerja dobljene deleže napaènih za vsak nabor pravil za vsak atribut in izbere najboljšega. V tabeli 3.2 je ilustriran postopek izbire atributa, primernega za klasifikacijo. Vidimo, da doseže metoda najboljše rezultate takrat, ko se odloèi za razvršèanje na podlagi atributov A1 ali A3.
3.3.3.1.2     Statistièno modeliranje - Naivni Bayes Metoda 1R za odloèanje o razvršèanju uporabi le en atribut vzorca. Izbere tistega, s katerim deluje razvršèanje najbolje. Druga, tudi preprosta metoda za izraèun odloèitve, v kateri razred spada obravnavani vzorec za razvršèanje, uporabi vse atribute vzorca. V tabeli 3.3 je prikazano, kolikokrat se v naboru podatkov, podanih v tabeli 3.1, za vsako vrednost posameznega
40
3. Obstojeèe rešitve in orodja
	Atribut	Pravila	Napake	Skupaj napake
1	A1	1 -^B 2->A 3->A	2/5 0/4 2/5	4/14
2	A2	1 -> B 2->A 3->A	2/4 2/6 1/4	5/14
3	A3	1 -> B 2->A	3/7 1/7	4/14
3	A4	2->A 1 -> B	2/8 3/6	5/14
Tabela 3.2: Primer generiranja pravil 1R iz podatkov u¡cne mno¡zice, podane v tabeli 3.1. Povzeto in popravljeno iz [2].
atributa (A1, ..A4) pojavi posamezna vrednost rezultata. Iz zgornje polovice tabele lahko preberemo, da se rezultat A pri vrednosti atributa A1 = 1 pojavi dvakrat, rezultat B pa se pri vrednosti atributa A1 = 1 pojavi trikrat. Iz spodnje polovice tabele pa lahko preberemo dele¡z pojavljanja posameznega rezultata v vseh vzorcih pri dani vrednosti opazovanega atributa. V vseh vzorcih se rezultat A pojavi 9-krat, rezultat B pa 5-krat.
A1	A2	A3	A4	Rez
A       B	A       B	A       B	A       B	A         B
1   2         3 2   4         0 3   3         2	1   2         2 2   4         2 3   3         1	1   3         4 2   6         1	2       6         2 1       3         3	9           5
1  2/9     3/5 2  4/9     0/5 3  3/9     2/5	1  2/9     2/5 2  4/9     2/5 3  3/9     1/5	1  3/9     4/5 2  6/9     1/5	2     6/9     2/5 1     3/9     3/5	9/14     5/14
Tabela 3.3: Primer generiranja pravil za statistièno modeliranje iz podatkov uène množice, podane v tabeli 3.1. Povzeto in popravljeno iz [2].
A1	A2	A3	A4	Rezultat
1	3	1	1	?
Tabela 3.4: Neznani vzorec. Povzeto in popravljeno iz [2].
Za neznani vzorec, podan v tabeli 3.4, izra¡cuna metoda verjetnost za rezultat A, kot je zapisano v ena¡cbah 3.1. Najprej izra¡cuna verjetnosti za pojav vsakega od mo¡znih rezultatov. Za vsak rezultat iz tabele 3.3 prebere dele¡z pojavljanja rezultata pri dani vrednosti opazovanega atributa. Za neznani vzorec iz tabele 3.4 v primeru atributa A1 = 1 metoda ugotovi, da se rezultat A pojavi v 2/9 primerov. Vse dele¡ze mno¡zi med sabo in
3.3 Pregled metod strojnega uèenja
41
dobi verjetnost za rezultat A. To stori tudi za ostale možne rezultate. Neznanemu vzorcu pripiše rezultat, ki ima najveèjo verjetnost. V našem primeru je to rezultat B. Dobljene verjetnosti normalizira, tako da vsota vseh znaša 1, kot je ilustrirano v 3. in 4. vrstici enaèbe 3.1. Vidimo, da je verjetnost, da je pravi rezultat rezultat B, skoraj štirikrat tolikšna, kot verjetnost, da je pravi rezultat A.
P (A) = 2/9 x 3/9 x 3/9 x 3/9 x 9/14 = 0.0053 P{B) = 3/5 x 1/5 x 4/5 x 3/5 x 5/14 = 0.0206
Pr(A) =         °-°053         = 20.5%                                             ^
 0.0053 + 0.0206
Fr<B» = 0.00^0206 = 7a5%
Ta preprosta in intuitivna metoda je osnovana na Bayesovem izreku pogojne verjetnosti [42]. Verjetnosti dogodka H ob pogoju, da se je dogodek E zgodil, pravimo pogojna verjetnost dogodka H ob pogoju E in jo oznaèimo s P(H/E). Verjetnost, da sta se hkrati zgodila dogodka A in B, oznaèimo s P(EH). Pogojno verjetnost dogodka H ob pogoju E izraèunamo, kot je zapisano v enaèbi 3.2.
P(H/E) = Pif(p} , P(E) ^ 0.                                      (3.2)
Bayesov izrek trdi:
PiE/H) = P<™g>.                                         (3.3)
Èe upoštevamo zapis v enaèbi, reèemo, da s H oznaèen dogodek daje pravilen rezultat A. Dogodek E pa je posebna kombinacija vrednosti atributov, kot je podana v tabeli 3.4. Dogodke, da se v vzorcu pojavi posamezna vrednost posameznega objekta, oznaèimo z El} E2, E3, E4. Pogojne verjetnosti, da se zgodi dogodek Ex ob pogoju H, pa P{EX/H). Opazujmo pogoj H = A. Ker predvidevamo, da so posamezni atributi vzorca med sabo neodvisni, je njihova kombinirana verjetnost pridobljena s produktom pogojnih verjetnosti posameznih atributov za opazovani rezultat. V enaèbi 3.4 je zapisana splošna enaèba za P(A/E) in enaèba, v kateri so vrednosti P(EX/A) nadomešèene z vrednostmi, ugotovljenimi iz podatkov tabele 3.1 ter podani v tabeli 3.3.
42
3. Obstojeèe rešitve in orodja
t?,*,^     P{Ei/A)P{E2/A)P{Ez/A)P{EA/A)P{A)
(   '   ] =-------------------------P(E)-------------------------                       (* A,
n,               2/9 x 3/9 x 3/9 x 3/9 x 9/14                                          ^^
P{A/E) =-----------------P{E)-----------------
Ko bomo izraèunali še vrednosti za ostale možne rezultate in jih normirali, tako da bo vsota vseh verjetnosti ena, bodo imenovalci izginili.
Opisana metoda se imenuje Naivni Bayes (ang. Naive Bayes), ker je osnovana na Bayesovem pravilu in naivno privzema medsebojno neodvisnost posameznih atributov vzorca. Naivni Bayes obièajno deluje zelo dobro, še posebej v primerih, ko so za sestavo vzorcev izbrani atributi, ki nosijo veliko informacije in posledièno doprinašajo k veliki loèljivosti posameznih vzorcev.
Problem z zgoraj opisano metodo se pojavi, èe v uèni množici podatkov manjka doloèena vrednost doloèenega atributa. Èe se pojavi vzorec s to v uèni množici manjkajoèo vrednostjo, bo èlen, ki opisuje verjetnost tega dogodka, 0. Ker so s to vrednostjo množene vse ostale vrednosti, bo na koncu verjetnost za ta dogodek enaka 0. In to ne glede na to, da so lahko ostale vrednosti zelo velike. Problem demonstriramo v predstavljenem vzorènem problemu tako, da opazujemo rezultat B pri vrednosti atributa Ax = 2. Glejte tabelo 3.3. V tem primeru bo verjetnost vedno 0. Dotièno slabost metode se odpravi na preprost naèin. Najpreprostejša rešitev je prištevanje vrednosti 1 številu pojavov doloèenega rezultata za doloèeno vrednost doloèenega atributa. Ta popravek povzroèi, da tudi v primeru, ko se v uèni množici doloèena vrednost doloèenega atributa ni nikoli pojavila, se tej vrednosti atributa za doloèen rezultat pripiše mala, od niè razlièna verjetnost. V našem primeru bi bile tako upoštevane vrednosti v zgornjem delu tabele 3.3 atributa A1 za rezultat B (4,1, 3), namesto (3, 0, 2). Pripadajoèe preraèunane verjetnosti v spodnjem delu tabele pa (4/8,1/8, 3/8), namesto (3/5, 0/5, 2/5).
Tehnika prištevanja 1 vsakemu štetju je standarden prijem in se v literaturi pojavlja pod imenom Laplaceov estimator. Po navedbah v literaturi [2] deluje izredno dobro. Ne obstaja pa noben poseben razlog, da bi rezultatom prištevali natanèno 1. Namesto 1 lahko prištejemo poljubno malo konstanto /i. V našem primeru bi izraèun posameznih verjetnosti izgledal takole:
3 + /x/3  0 + /1/3  2 + /1/3 5 + (j,  '   5 + (j,  '   5 + (j,  ' Z velikostjo /i definiramo pomembnost zaèetnih vrednosti posameznih možnih vrednosti atributov pri izraèunu verjetnosti.  V našem primeru je število razliènih vrednosti
3.3 Pregled metod strojnega uèenja
43
atributa A1 3. Ko smo prišteli številu preštetih pojavov vrednost 1, smo izbrali vrednost ii = 1/3. Torej je pomembnost zaèetnih vrednosti vsake možne vrednosti sledeèa: A1 = l,pi = 1/3; Ax = 2,pi = 1/3; mAl = 3,Pi= 1/3. Èe je izbran velik /i, je pomembnost velika in v uèno množico dodani vzorci poèasi spreminjajo znanje sistema, èe pa je vrednost /i mala, pa je predhodna pomembnost mala. Prav tako ni nujno, da razdelimo li na enake dele. Lahko uporabimo sledeèo formulacijo:
3 + /ipi  0 + /ip2  2 + /ips 5 + (i  '   5 + (i '   5 + (i '
pri èemer velja
Pl+P2+P3 = l-                                                 (3.7)
3.3.3.2    Klasifikacija:  Gradnja odloèitvenih dreves
Metode tega tipa so v literaturi navedene kot topdown metode [17]. Te metode zaèno obdelavo s celo množico podatkov in jo postopno delijo, dokler delitev ni tako fina, da so rezultati deljenja posamezni razredi.
Problem gradnje odloèitvenih dreves je mogoèe predstaviti rekurzivno. Najprej je potrebno izbrati enega od atributov in z njim zaèeti testiranje v korenskem vozlišèu (ang. root node). Iz korenskega vozlišèa so izpeljane veje za vsak možen rezultat testiranja v tem vozlišèu. Testiranje v vozlišèu razdeli množico vzorcev v podmnožice - za vsak rezultat testa z opazovanim atributom eno. V nadaljevanju se ta postopek v vsaki veji rekurzivno ponavlja. Obravnava se samo tiste vzorce, ki z vrednostmi priplezajo do trenutno opazovanega vozlišèa. V trenutku, ko je vsem vzorcem, ki priplezajo do opazovanega vozlišèa, pripisan isti rezultat, se postopek razvijanja tega dela drevesa ustavi. Potrebno se je odloèiti za naèin, kako za doloèen nabor podatkov v doloèenem koraku rekurzivnega postopka izbrati atribut, ki bo testiran v doloèenem vozlišèu in uporabljen za nadaljnje vejenje drevesa.
3.3.3.2.1 ID3 in izpeljanke V nadaljevanju je opisan postopek, ki ga za gradnjo dreves uporablja algoritem ID3 in njegove izpeljanke [2]. Po ogledu demonstracijske uène množice, podane v tabeli 3.1, ugotovimo, da lahko gradnjo drevesa priènemo na štiri razliène naèine. Na voljo imamo namreè štiri atribute. Možne delitve po prvi iteraciji so predstavljene na sliki 3.10 a - d. Potrebno se je odloèiti, katera možnost je najboljša.
44
3. Obstojeèe rešitve in orodja
Za vsako vejo je prikazano število vzorcev s pripadajoèimi rezultati a in b. Vsaka veja, do katere priplezajo vzorci z istimi pripadajoèimi rezultati (vsi a ali vsi b), predstavlja konèni list drevesa. Od tu dalje drevesa ni potrebno veè vejiti. Z razliènim zaporedjem izbiranja atributov za posamezna vozlišèa vplivamo na potrebno število vozlišè drevesa za doseganje konènih listov drevesa. Za opis našega sistema želimo dobiti èim manjša drevesa, zato želimo, da po drevesu z vzorci hitro priplezamo do konènih listov. Da lahko dosežemo ta kriterij, je potrebno definirati mero èistosti vsakega vozlišèa. V nadaljevanju na podlagi te mere izbiramo atribute, ki dajo najbolj èista hèerinska vozlišèa. Mera èistosti (ang. measure of purity), ki jo predlaga avtor literature [2] je informacija in se meri v bitih. V povezavi z vozlišèem drevesa predstavlja prièakovano kolièino informacije, ki bi bila potrebna, da se vzorec, ki je prišel do tega vozlišèa klasificira v rezultat a ali b. Izraèunamo jo na osnovi števila rezultatov a in b v vozlišèu. Postopek izraèuna informacije je podan v podpoglavju 3.3.3.2.1 - Izraèun informacije.
Èe si kot primer ogledamo drevo na sliki 3.10 a, ugotovimo, da je število rezultatov a in b naslednje: [2, 3], [4, 0], [3, 2]. Informacija teh vozlišè je sledeèa:
/([2,3])   =   0,971 bit
/([4,0])   =   Obit                                                   (3.8)
/([3,2])   =   0,971 bit
Lahko izraèunamo povpreèno informacijo teh vrednosti, pri èemer upoštevamo število vzorcev, ki dosežejo vsako vejo - prvo in tretjo vejo doseže pet vzorcev, drugo štirje vzorci:
/([2, 3], [4, 0], [3, 2]) = (5/14) x 0.971 + (4/14) x 0 + (5/14) x 0.971 = 0.693 bit.     (3.9)
Ta številka predstavlja prièakovano kolièino informacije, ki je potrebna, da se vzorec razvrsti v razred, èe je uporabljena drevesna struktura, podana v sliki 3.10 a.
Preden smo generirali drevesne strukture, predstavljene na sliki 3.10, smo imeli na voljo uèno množico, ki je bila sestavljena iz 9 rezultatov a in 5 rezultatov b. Informacija te odloèitve je:
/([5,9]) = 0,940 6it.                                            (3.10)
Zato je drevo na sliki 3.10 a odgovorno za doprinos informacije (ang. information gain) G:
3.3 Pregled metod strojnega u¡cenja
45
a		a		a
a		a		a
b		a		a
b		a		b
b				b
(a)
		a a
a		
a		a
a		a
a		a
a		a
a		b
b		b
(b)
R
(c)
(d)
¡ Slika 3.10: Stori dreves za posamezne atribute A1..A4 za podatke iz tabele 3.1. Povzeto
in popravljeno iz [2].
46
3. Obstojeèe rešitve in orodja
G(Al) = /([9, 5]) - /([2, 3], [4, 0], [3, 2]) = 0, 940 - 0, 693 = 0, 247 bit.            (3.11)
To lahko interpretiramo kot informacijsko vrednost, èe se odloèimo in v vozlišèu vejimo po atributu Ax.
V nadaljevanju izraèunamo doprinos informacije za preostale atribute in se odloèimo, da drevo razvejimo po tistem, ki ima najveèji G:
G(AX)    =   0,247 bit,
G(A2)    =   0,029 bit,
G(A3)    =   0,152 bit,
G(Ai)    =   0,048 bit.
Ugotovimo, daje pri izbiri vejenja po atributu A1 vrednost najveèja. Druga najboljša izbira je vejenje po atributu A3. Ko se odloèimo za atribut, s postopkom rekurzivno nadaljujemo. Na sliki 3.11 a - c so prikazane možnosti vejenja za atribut Ax = 1. Ker smo atribut Ax že porabili, nam ostanejo le še trije, ki jih lahko uporabimo za vejenje. Doprinos informacije za te atribute je sledeè:
G(A2) = 0,571 bit, G (A3) = 0,971 bit, G(AA)   =   0,020 bit.
Zato za vozlišèe izberemo vejenje po atributu A3. S tem smo v tej veji dosegli konèni list in s tem je ta veja drevesa zakljuèena. Z uporabo pravkar opisanega postopka za ostale vrednosti in atribute pridemo do odloèitvenega drevesa, predstavljenega na sliki 3.12.
Izraèun informacije Informacija je mera èistosti posameznih dreves [2]. Zahteve za to mero so sledeèe:
•  Ko je število rezultatov a ali b enako niè, je velikost informacije 0.
•  Ko je število rezultatov a ali b enako, je velikost informacije najveèja.
3.3 Pregled metod strojnega u¡cenja
47
(c)
Slika 3.11: Drugi korak v gradnji drevesa za demonstracijski problem. Za osnovno vejo je bil izbran atribut A1. Podane so mo¡zne vejitve za posamezne atribute A2..A4 za podatke iz tabele 3.1. Povzeto in popravljeno iz [2].
48
3. Obstojeèe rešitve in orodja
Slika 3.12: Odloèitveno drevo za razvršèanje podatkov, podanih v tabeli 3.1. Povzeto in popravljeno iz [2].
• Mera za informacijo odloèitve mora upoštevati možnost, da doloèeno odloèitev naredimo v enem ali veè korakih. V obeh primerih mora biti vrednost velikosti informacije enaka.
Mera mora biti uporabna tudi v primerih, ko je število možnih rezultatov - razredov veèje od 2. Mera se nanaša na kolièino informacije, ki je pridobljena z opravljeno odloèitvijo. Odloèitve so lahko storjene v enem koraku ali pa v veè korakih. Kolièina informacije, vkljuèene v odloèitve, pa je v obeh primerih enaka. Tako je lahko odloèitev, povezana z izraèunom informacije
I([2,3,4]),                                                    (3.12)
narejena v dveh korakih. Najprej se odloèimo, ali je ta odloèitev prvi primer ali eden od preostalih dveh primerov:
I([2,7]).                                                     (3.13)
V nadaljevanju izraèunamo mero informacije za ostali dve odloèitvi:
I[3,4])
(3.14)
3.3 Pregled metod strojnega uèenja
49
V doloèenih primerih druga odloèitev ne bo potrebna - to je v primerih, ko se izkaže, da je bila storjena prva odloèitev. Èe to upoštevamo, sledi
/([2, 3,4]) = /([2, 7]) + (7/9) x /([3, 4]).                             (3.15)
Mera za informacijo je informacijska entropija H[43]. Podana je s sledeèo enaèbo:
H(Pl,p2, ...,Pn) = -Pilog2Pi -p2log2p2 • • • -p„log2pra                (3.16)
Ker je uporabljen logaritem z osnovo 2, je enota bit. Argumenti Pl,...pnv enaèbi 3.16 so normirani, da njihova vsota znaša ena. Primer:
/([2, 3, 4]) = #(2/9, 3/9, 4/9)                                     (3.17)
Veèstopenjske odloèitve lahko v splošnem zapišemo kot:
H(p, q, r) = H(p, q + r) + (q + r) • H (^—, -?—)                    (3.18)
 q + r  q + r
pri èemer velja:
p + q + r = l                                                  (3.19)
3.3.3.3    Klasifikacija: Konstruriranje pravil z algoritmi s pokrivanjem
Ravnokar opisani algoritmi za generiranje dreves so osnovani na ideji deli in vladaj. Delujejo od zgoraj navzdol - na celem naboru podatkov poizkušajo najti naèin, kako posamezne vzorce najbolje razdeliti v posamezne razrede. Alternativen pristop je pristop, pri katerem se za vsak razred vprašamo, kateri od vzorcev v dani razred spadajo in kateri ne. S tem postopkom v vsakem koraku izvajanja zgradimo pravilo, ki pokrije del vzorcev. Izvajanje algoritmov, osnovanih na tem pristopu algoritmov, zaradi njihove narave ne vodi do odloèitvenih dreves, marveè do nabora pravil. Ker se z dodajanjem pravil trudimo èim bolje pokriti vzorce z istim rezultatom oznaèimo te algoritme z imenom algoritmi s pokrivanjem [2] [17] [44].
Algoritmi s pokrivanjem delujejo tako, da pravilu dodajajo teste, s katerimi izboljšujejo natanènost pravila. Algoritem deli in vladaj dodaja pravila drevesu, ki ga gradi z namenom maksimiranja loèljivosti med razredi. Vsak od teh algoritmov temelji na iskanju atributa, po katerem se izvaja deljenje.   Algoritmi s pokrivanjem pa izbirajo test - par
50
3. Obstojeèe rešitve in orodja
(atribut, vrednost) na tak naèin, da maksimirajo verjetnost želene klasifikacije. Želimo, da vsak dodaten test popravi pravilo tako, da z njim pokrijemo èim veè vzorcev pravega razreda in izkljuèimo èim veè vzorcev ostalih razredov. Èe novo pravilo pokrije t vzorcev, od katerih p pripada pravemu razredu, jih t-p pripada ostalim razredom in predstavljajo napake. Nove teste je potrebno izbirati na tak naèin, da z njihovo izbiro maksimiziramo razmerje p/t.
Postopek lahko vizualiziramo v 2-D prostoru, v katerem so predstavljeni posamezni vzorci. Preprost primer je predstavljen na sliki 3.13 a. Najprej zgradimo pravilo, ki pokriva vzorce iz razreda a. Za prvi test v pravilu razdelimo prostor vzorcev vertikalno, kot je prikazano na sliki 3.13 (a) - srednja. Pravilo je torej sledeèe:
Èe x > 1.2 potem razred = a
Èe na množici vzorcev uporabimo to pravilo, le-to ne deluje zadovoljivo, saj zajame tudi precej vzorcev, ki pripadajo razredu b. Zato dodamo temu pravilu nov test, ki že razdeljen prostor vzorcev ponovno razdeli na naèin, kot je prikazano na sliki 3.13 (a) -desna. Popravljeno pravilo se glasi:
Èex> 1.2 iny > 2.6 potem razred = a
Tako sestavljeno pravilo pokriva vse vzorce, ki pripadajo razredu a. Z istim postopkom pridemo do dveh pravil, ki pokrivata vzorce iz razreda b:
Èe x <  1.2 potem razred = b
Èe x > 1.2 in y <    potem razred = b
Na sliki 3.13 (b) je za primerjavo predstavljeno odloèitveno drevo, ki opiše isto razvršèanje vzorcev, podanih na sliki 3.13 (a) - levo.
3.3.3.3.1 Primerjava pravil in dreves Algoritem deli in vladaj, ki deluje na istem podatkovnem naboru kot algoritem s pokrivanjem, bo zelo verjetno delal na precej podoben naèin. Verjetno bo podatkovni prostor razdelil po atributu x na mestu x = 1.2. Razlika med algoritmom deli in vladaj in algoritmom s pokrivanjem v tej toèki je v tem, da se bo algoritem s pokrivanjem ukvarjal le s pokrivanjem enega razreda, algoritem deli in vladaj pa bo zgradil drevo, ki se nanaša na vse razrede. Druga delitev pri algoritmu deli in vladaj bo verjetno izvedena po atributu y y = 2.6. Izvajanje algoritma deli in vladaj za dani primer je odloèitveno drevo, ki je predstavljeno na sliki 3.13 (b).
3.3 Pregled metod strojnega u¡cenja
51
yA
2.6
1.2
(a)
i	
( b b b b     b    bK	a^~\ a    a\ a     a  a\
	b    b      b\
	
1.2
(b)
Slika 3.13: Algoritem s pokrivanjem (a) in odlo¡citveno drevo za isti problem (b). Povzeto in popravljeno iz [2].
52
3. Obstojeèe rešitve in orodja
3.3.3.3.2 Preprost algoritem s pokrivanjem - PRISM V nadaljevanju je na primeru opisano delovanje preprostega algoritma PRISM [2]. Na voljo imamo nabor podatkov o naèinu predpisovanja kontaktnih leè. Možni so trije izidi: priporoèene so mehke leèe, priporoèene so trde leèe, nošenje leè se odsvetuje. Leèe se predpiše na podlagi opazovanja štirih parametrov: starosti pacienta, kratkovidnosti/daljnovidnosti, prisotnosti astigmatizma ter solzenja oèi. Podatki so predstavljeni v tabeli 3.5.
Starost	Daljnovidnost/ Kratkovidnost	Astigmatizem	Solzenje	Priporoèene leèe
nizka	kratkovidnost	ne	zmanjšano	nobene
nizka	kratkovidnost	ne	normalno	mehke
nizka	kratkovidnost	da	zmanjšano	nobene
nizka	kratkovidnost	da	normalno	trde
nizka	daljnovidnost	ne	zmanjšano	nobene
nizka	daljnovidnost	ne	normalno	mehke
nizka	daljnovidnost	da	zmanjšano	nobene
nizka	daljnovidnost	da	normalno	trde
srednja	kratkovidnost	ne	zmanjšano	nobene
srednja	kratkovidnost	ne	normalno	mehke
srednja	kratkovidnost	da	zmanjšano	nobene
srednja	kratkovidnost	da	normalno	trde
srednja	daljnovidnost	ne	zmanjšano	nobene
srednja	daljnovidnost	ne	normalno	mehke
srednja	daljnovidnost	da	zmanjšano	nobene
srednja	daljnovidnost	da	normalno	nobene
visoka	kratkovidnost	ne	zmanjšano	nobene
visoka	kratkovidnost	ne	normalno	nobene
visoka	kratkovidnost	da	zmanjšano	nobene
visoka	kratkovidnost	da	normalno	trde
visoka	daljnovidnost	ne	zmanjšano	nobene
visoka	daljnovidnost	ne	normalno	mehke
visoka	daljnovidnost	da	zmanjšano	nobene
visoka	daljnovidnost	da	normalno	nobene
Tabela 3.5: Demonstracijski podatkovni nabor: podatki o naèinu predpisovanja kontaktnih leè. Povzeto iz [2].
Za zaèetek si oglejmo generiranje pravila, ki bo pokrilo sledeèe:
Èe ? potem priporoèene = trde Za neznani test ? imamo na voljo 9 možnosti:
Starost = mlada                                                           2/8
3.3 Pregled metod strojnega uèenja
53
Starost = srednja                                                       1/8
Starost = visoka                                                         1/8
Daljnovidnost/Kratkovidnost = kratkovidnost 3/12 Daljnovidnost/Kratkovidnost = daljnovidnost 1/12 Astigmatizem = ne                                                       0/12
Astigmatizem = da                                                      4/12
Solzenje = zmanjšano                                                 0/12
Solzenje = normalno                                                   4/12
Deleži, pripisani testu, povedo število pravilnih napovedi tega testa. Ker opazujemo priporoèilo za trde leèe, je pravilen rezultat trde. V prvi iteraciji izberemo za generacijo pravila test, ki napove pravilni rezultat v najveèjem deležu napovedi. V našem primeru se to zgodi v dveh primerih. Odloèimo se za sledeèe pravilo:
èe Astigmatizem = da
potem Priporoèene leèe = trde
To pravilo ni posebno natanèno, saj pravilno razvrsti le 4 od 12 vzorcev. V tabeli 3.6 so prikazani vzorci, ki jih pokrije to pravilo.
Starost	Daljnovidnost/ Kratkovidnost	Astigmatizem	Solzenje	Priporoèene leèe
nizka	kratkovidnost	da	zmanjšano	nobene
nizka	kratkovidnost	da	normalno	trde
nizka	daljnovidnost	da	zmanjšano	nobene
nizka	daljnovidnost	da	normalno	trde
srednja	kratkovidnost	da	zmanjšano	nobene
srednja	kratkovidnost	da	normalno	trde
srednja	daljnovidnost	da	zmanjšano	nobene
srednja	daljnovidnost	da	normalno	nobene
visoka	kratkovidnost	da	zmanjšano	nobene
visoka	kratkovidnost	da	normalno	trde
visoka	daljnovidnost	da	zmanjšano	nobene
visoka	daljnovidnost	da	normalno	nobene
Tabela 3.6:  Delni podatki o naèinu predpisovanja kontaktnih leè pri izbranem atributu Astigmatizem = da. Povzeto iz [2].
Pravilo izboljšamo na sledeèi naèin: èe Astigmatizem = da in
54
3. Obstojeèe rešitve in orodja
?
potem Priporoèene leèe = trde
Za neznani test ? imamo po pregledu tabele 3.6 na voljo 7 možnosti:
Starost = mlada                                                           2/4
Starost = srednja                                                       1/4
Starost = visoka                                                         1/4
Daljnovidnost/Kratkovidnost   = kratkovidnost 3/6
Daljnovidnost/Kratkovidnost   = daljnovidnost 1/12
Solzenje = zmanjšano                                                 0/6
Solzenje = normalno                                                   4/6
Oèitno je, da bomo v nadaljevanju gradnje pravila izbrali test Solzenje = normalno. Rezultat je pravilo:
èe Astigmatizem = da in
Solzenje = normalno
potem Priporoèene leèe = trde
Starost	Daljnovidnost/ Kratkovidnost	Astigmatizem	Solzenje	Priporoèene leèe
nizka	kratkovidnost	da	normalno	trde
nizka	daljnovidnost	da	normalno	trde
srednja	kratkovidnost	da	normalno	trde
srednja	daljnovidnost	da	normalno	nobene
visoka	kratkovidnost	da	normalno	trde
visoka	daljnovidnost	da	normalno	nobene
Tabela 3.7:  Delni podatki o naèinu predpisovanja kontaktnih leè pri izbranih atributih Astigmatizem = da in Solzenje = normalno. Povzeto iz [2].
Tabela 3.7 prikazuje vzorce, ki jih pokriva do sedaj zgrajeno pravilo. Deleži za naslednji test so sledeèi:
Starost = mlada                                                           2/2
Starost = srednja                                                       1/2
Starost = visoka                                                         1/2
Daljnovidnost/Kratkovidnost = kratkovidnost 3/3 Daljnovidnost/Kratkovidnost = daljnovidnost 1/3
3.3 Pregled metod strojnega uèenja
55
Do sedaj smo med sabo primerjali le deleže pravilnih napovedi, ki jih izbira doloèenega testa uvede v pravilo. Pri izbiri testa pa je pomembno tudi pokritje dela množice, ki ga pokrije pravilo z izbranim testom. Zato v nadaljevanju izberemo test, ki pokrije 3 vzorce Daljnovidnost/Kratkovidnost = kratkovidnost. Pravilo je torej sledeèe:
èe Astigmatizem = da in Solzenje = normalno in
Daljnovidnost/Kratkovidnost = kratkovidnost potem Priporoèene leèe = trde
Pravilo pokriva le tri od štirih primerov, v katerih so priporoèene trde kontaktne leèe. Zato v nadaljevanju postopka iz tabele 3.5 izbrišemo te tri primere in ponovimo postopek z zaèetnim pravilom.
Èe ? potem Priporoèene leèe = trde
Po izvajanju postopka pridemo do pravila:
Èe Starost = nizka in Astigmatizem = da in Solzenje = normalno potem Priporoèene leèe = trde
S kombinacijo pravkar definiranih pravil so pokriti vsi vzorci za priporoèene trde leèe. V nadaljevanju postopka je potrebno definirati še pravila za priporoèilo mehkih leè in priporoèilo nobenih leè.
3.3.3.4    Asociiranje
Asociacijska pravila so podobna klasifikacijskim pravilom. Od klasifikacijskih pravil se razlikujejo v tem, da ne podajajo strogo povezave med vrednostmi atributov posameznega vzorca in njegovim rezultatom, marveè govore o poljubni povezavi med vrednostmi atributov in njegovih rezultatov. Do njih lahko pridemo z uporabo že opisanih algoritmov za gradnjo dreves in z algoritmi za konstruiranje pravil s pokrivanjem. Algoritmi za izraèun pravil delujejo tako, da zgradijo pravila, ki za dan nabor atributov napovedo rezultat. Za izraèun asociacijskih pravil je potrebno pognati omenjene algoritme z vsemi kombinacijami atributov in rezultatov vzorcev tako, da se vsi atributi in rezultati vzorcev pojavijo
56
3. Obstojeèe rešitve in orodja
	Skrèeni vektorji dolžine ena	Število pojavov
1	Ai=l	5
2	Ai=2	4
3	Ai=3	5
4	A2=2,	4
5	A2=2	6
6	A2=l	4
7	A3=l	7
8	A3=l	7
9	A4=l	6
10	A4=2	8
11	Rez=A	9
12	Rez=B	5
Tabela 3.8: Na en element skrèeni vektorji za podatkovni nabor, podan v tabeli 3.1. Povzeto in popravljeno iz [2].
kot atributi in kot rezultati. Kombinacija poljubne kombinacije atributov in rezultatov lahko napoveduje vrednosti poljubne kombinacije atributov in rezultatov. Tako na primer pravilo 1 v tabeli 3.12 napoveduje Rez = A v èe A3 = 2 in A4 = 2; pravilo 5 pa napoveduje A4 = 2 in Rez = A èe A3 = 2. Iskanje vseh asociacijskih pravil je zelo obširen postopek, ki da zelo obširno množico asociacijskih pravil. Zato je potrebno to množico zožiti na podlagi pokrivanja in natanènosti posameznih pravil.
Èe se odloèimo, da nas zanimajo pravila z veliko stopnjo pokrivanja, se lahko lotimo iskanja pravil na sledeèi naèin: Najprej zapišemo vse vzorce in vzorcem pripadajoèe rezultate kot posamezne vektorje. Rezultate posameznih vzorcev obravnavamo kot dodatni atribut vzorca. V nadaljevanju iz nabora vzorcev generiramo posamezne skrèene vektorje tako, da za kombinacijo posameznih atributov in njihovih vrednosti zapišemo, kolikokrat se pojavijo v originalnem naboru podatkov. Pri tem se omejimo na kombinacije, ki se pojavijo v vsaj vnaprej izbranem številu vzorcev. V demonstracijskem primeru se odloèimo za 2 vzorca. Primer na en element skrèenih vektorjev za podatkovni nabor, podan v tabeli 3.1, je predstavljen v tabeli 3.8. Primeri na dva, tri in štiri elemente skrèenih vektorjev so predstavljeni v tabelah 3.9, 3.10 in 3.11.
Ko imamo na voljo skrèene vektorje z zahtevanim pokritjem, sledi pretvorba skrèenih vektorjev v pravila. Pri pretvorbi v pravila obdržimo le tista, ki dosegajo doloèeno stopnjo natanènosti. Na osnovi doloèenih skrèenih vektorjev bodo generirali veè pravil, na osnovi doloèenih pa nobenega. Tako na primer na podlagi skrèenega vektorja številka 38 iz tabele 3.10 generiramo sedem pravil, ki jih podamo v tabeli 3.12.
Vrednosti na desni strani tabele govore o številu skrèenih podatkovnih naborov za
3.3 Pregled metod strojnega uèenja
57
	Skrèeni vektorji dolžine dve	Število pojavov
1	Ai=l, A2=2	2
2	Ai=l, A2=l	2
3	Ai=l, A3=2	2
4	Ai=l, A3=l	3
5	Ai=l, A4=l	2
6	Ai=l, A4=2	3
7	Ai=l, Rez=A	2
12	Ai=2, A4=l	2
47	AA=2, Rez=B	2
Tabela 3.9: Na dva elementa skr¡ceni vektorji za podatkovni nabor, podan v tabeli 3.1. Povzeto in popravljeno iz [2].
	Skrèeni vektorji dolžine tri	Število pojavov
1	Ai=l, A2=2, A3=l	2
2	Ai=l, A2=l, Rez=B	2
3	Ai=l, A3=2, Rez=A	2
4	Ai=l, A3=l, A4=2	2
5	Ai=l, A3=l, Rez=B	3
6	Ai=l, A4=2, Rez=B	2
7	Ai=2, A2=l, A4=2	2
12	Ai=2, A4=2, Rez=A	2
38	A3=2, A4=2, Rez=A	4
39	A3=l, A4=2, Rez=B	2
Tabela 3.10: Na tri elemente skr¡ceni vektorji za podatkovni nabor, podan v tabeli 3.1. Povzeto in popravljeno iz [2].
	Skrèeni vektorji dolžine štiri	Število pojavov
1	Ai=l, A2=2, A3=l, Rez=B	2
2	Ai=l, A3=l, A4=2, Rez=B	2
3	Ai=2, A2=l, A4=2, Rez=A	2
4	Ai=3, A2=2, A4=2, Rez=A	2
5	Ai=3, A3=l, A4=2, Rez=A	2
6	A2=3, A3=l, A4=2, Rez=A	2
Tabela 3.11: Na ¡stiri elemente skr¡ceni vektorji za podatkovni nabor, podan v tabeli 3.1. Povzeto in popravljeno iz [2].
58
3. Obstojeèe rešitve in orodja
	Pravilo	Natanènost
1	Ce A3=2 in A4=2 potem Rez=A	4/4
2	Ce A3=2 in Rez=A potem A4=2	4/6
3	Ce A4=2 in Rez=A potem A3=2	4/6
4	Ce A3=2 potem A4=2 in Rez=A	4/7
5	Ce A4=2 potem A3=2 in Rez=A	4/8
6	Ce Rez=A Potem A3=2 in A4=2	4/9
7	Ce - potem A3=2 in A4=2 in Rez=A	4/12
Tabela 3.12: Asociacijska pravila, generirana iz skrajšanega vektorja 38 iz tabele 3.10. Povzeto in popravljeno iz [2].
katere držijo vsi trije pogoji, deljeno s številom podatkovnih naborov, za katere drži napovedani rezultat ali kombinacija rezultatov. Ta vrednost predstavlja delež vseh skrèenih podatkovnih naborov, za katere pravilo drži - natanènost pravila. Ker se odloèimo, da želimo, da pravila dosegajo 100 % natanènost, je primerno samo pravilo 1. V tabeli 3.13 je predstavljenih nekaj asociacijskih pravil za podatkovni nabor, podan v tabeli 3.1. Predstavljena so pravila, ki pokrijejo najmanj dva vzorca in dosegajo 100 % natanènost. Logièni operator v predstavljenih pravilih je IN. V literaturi [2] je podan uèinkovit naèin generiranja asociacijskih pravil.
3.3 Pregled metod strojnega u¡cenja
59
	Pravilo	Rezultat	Pokritje	Natanènost
1	A3 = 2, A4 = 2	Rez = A	4	100 %
2	A2 =3,	A3 = 2	4	100 %
3	A1 =2,	Rez = A	4	100 %
4	A2 = 3, Rez = A	A3 = 2	3	100 %
5	A1 = 3, A4 = 2	Rez = A	3	100 %
6	A1 = 3, Rez = A	A4 = 2	3	100 %
7	A1 = 1, A3 = 1	Rez = B	3	100 %
8	A1 = 1, Rez = B	A3 = 1	3	100 %
9	A2 = 3, A4 = 2	A3 = 2, Rez = A	2	100 %
10	A2 = 3, A3 = 2, A4 = 2	Rez = A	2	100 %
11	A2 = 3, A4 = 2, Rez = A	A3 = 2	2	100 %
12	A1 = 3, A3 = 2 A4 = 2	Rez = A	2	100 %
13	A1 = 3, A3 = 2, Rez = A	A4 = 2	2	100 %
14	A1 = 3, A2 = 2, A4 = 2	Rez = A	2	100 %
15	A1 = 3, A2 = 2, Rez = A	A4 = 2	2	100 %
16	A2 = 2, A4 = 2, Rez = A	A1 =3	2	100 %
17	A1 = 2, A2 = 1	A4 = 2, Rez = A	2	100 %
18	A1 = 2, A4 = 2	A2 = 1, Rez = A	2	100 %
19	A2 = 1, Rez = A	A1 = 2, A4 = 2	2	100 %
20	A1 = 2, A2 = 1, A4 = 2	Rez = A	2	100 %
21	A1 = 2, A2 = 1, Rez = A	A4 = 2	2	100 %
22	A1 = 2, A4 = 2, Rez = A	A2 = 1	2	100 %
23	A2 = 1, A4 = 2, Rez = A	A1 =2	2	100 %
24	A4 = 2, Rez = B	A1 = 1, A3 = 1	2	100 %
25	A1 = 1, A3 = 1, A4 = 2	Rez = B	2	100 %
26	A1 = 1, A4 = 2, Rez = B	A3 = 1	2	100 %
27	A3 = 1, A4 = 2, Rez = B	A1 = 1	2	100 %
28	A1 = 1, A2 = 1	A3 = 1, Rez = B	2	100 %
29	A2 = 1, Rez = B	A1 = 1, A3 = 1	2	100 %
30	A1 = 1, A2 = 1, A3 = 1	Rez = B	2	100 %
31	A1 = 1, A2 = 1, Rez = B	A3 = 1	2	100 %
58	A1 = 1, A2 = 1	A3 = 1	2	100 %
Tabela 3.13: Asociacijska pravila. Povzeto in popravljeno iz [2].
60
3. Obstojeèe rešitve in orodja
3.3.3.5    Rojenje
Metode rojenja spadajo v t.i. nenadzorovane metode strojnega uèenja. To so metode, pri katerih se model prilagaja opazovanim vzorcem. Od nadzorovanih metod se loèijo po dejstvu, da od njih ni prièakovanega a priori rezultata, ampak nabor vhodnih podatkov razdelijo v podatkom lastne skupine - roje. Metode nenadzorovanega uèenja obravnavajo nabor vhodnih podatkov kot nabor nakljuènih spremenljivk, na katerem se potem med postopkom zgradi model, ki opisuje, na kakšen naèin posamezni vzorci spadajo skupaj [45]. Med metode nenadzorovanega strojnega uèenja spadajo tudi metode iskanja rojev v množici vzorcev.
3.3.3.5.1     Metode iskanja rojev v mno¡zici vzorcev Metode rojenja so algoritmi za klasifikacijo neoznaèenega nabora podatkov v razliène podmnožice - roje. Postopki obravnavani nabor podatkov razdelijo na roje na tak naèin, da so si elementi v posameznih podmnožicah med sabo na nek predefiniran naèin èim bolj podobni, elementi, ki pa pripadajo razliènim rojem, pa se med sabo na isti naèin kar najbolj razlikujejo [40] [46] [44]. Mehka definicija metod rojenja je: “Proces organizacije objektov v skupine, katerih èlani so si podobni na nek naèin” [46]. Za ugotavljanje podobnosti med elementi se pogosto uporablja razdalja med elementi množice. Ko v prostoru definiramo razdaljo med elementi prostora, postane ta prostor prostor z metriko. Razdalja med elementi množice X je preslikava, definirana v enaèbi 3.20, ki za dani par elementov te množice x in y množice da realno, nenegativno število.
Definicija preslikave razdalje je sledeèa:
d : X x X -> R                                                    (3.20)
Pri èemer je R nabor realnih števil. Za preslikavo razdalje za spremenljive x, y, z velja sledeèe:
1 :    d(x, y)>0                            Nenegativnost
2:    d(x,y) = 0^x = 0
3:    d(x,y) = d(y,x)                   Simetrija
4 :    d(x, z) < d(x, y) + d(y, z)    Trikotniška neenakost
3.3.3.5.2     Tipi algoritmov rojenja Algoritmi rojenja se delijo na algoritme, osnovane na teoriji grafov, na hierarhiène algoritme, na delitvene algoritme in na algoritme z nevronskimi omrežji [39].
3.3 Pregled metod strojnega uèenja
61
3.3.3.5.3     Algoritmi na osnovi grafov Algoritmi temeljijo na predstavitvi vzorcev z minimalnim vpetim drevesom in na iskanju loèenih poddreves [39].
3.3.3.5.4     Hierarhièni algoritmi Algoritmi išèejo roje na zaporeden naèin, in sicer tako, da pri postopku uporabljajo predhodno definirane roje, ki jih glede na medsebojno podobnost postopno združujejo ali razdružujejo med sabo. Delijo se v dve skupini glede na naèin iskanja rojev: združevalni (ang. bottom up) ali delilni (ang. top down) [40].
Pri hierarhiènih združevalnih algoritmih predstavlja na zaèetku izvajanja algoritma vsak posamezen vzorec en roj. V vsakem koraku algoritmi združijo dva roja, ki sta najbolj podobna, v novi, veèji roj. Ko je doseženo želeno število rojev, se postopek združevanja ustavi [39].
Pri hierarhiènih razdruževalnih algoritmih se postopek zaène z enim rojem, ki vsebuje vse vzorce. Algoritem postopno deli roj na veè manjših rojev na tak naèin, da se vzorci v posameznih novo definiranih rojih med sabo kar najbolj razlikujejo [47].
3.3.3.5.5     Delitveni algoritmi Delitveni algoritmi iskanja rojev temeljijo na razbitju množice vzorcev v podmnožice - roje na tak naèin, da doseže izbrana kriterijska funkcija optimalno vrednost [39]. Algoritmi temeljijo na zaèetnem razbitju množice vzorcev v roje in na prestavljanju vzorcev iz enega roja v drugega, èe to prispeva k izboljšanju vrednosti kriterijske funkcije. Pogosto uporabljan algoritem, ki pripada tej skupini, je algoritem K-Means.
3.3.3.5.6     Metoda K-tih povpreèij Algoritem metode K-tih povpreèij (ang. K-Means) je preprost in raèunsko nezahteven algoritem. Algoritem metode K-tih povpreèij pripiše roju vzorec, katerega centroid je najbližje vzorcu. Bližino ocenimo z uporabo Evklidove razdalje (ang. Euclidian distance) [17]. Centroid je toèka, katere koordinate so izraèunane kot aritmetièna sredina koordinat vseh vzorcev v obravnavanem roju. Algoritem deluje na sledeèi naèin [48]:
1.   Izberi število rojev K.
2.   Nakljuèno generiraj K rojev, izraèunaj centroide ali neposredno generiraj K toèk, ki služijo kot zaèetni centroidi rojev.
3.   Pripiši vse vzorce najbližjemu centroidu.
62
3. Obstojeèe rešitve in orodja
4.  Ponovno izraèunaj nove centroide.
5.  Ponavljaj koraka 3 in 4, dokler se centroidi ne spreminjajo veè bistveno.
Slabost algoritma metode K-tih povpreèij je v tem, da je potrebno vnaprej poznati število iskanih rojev in da razlièna izbira zaèetnih toèk centroidov pripelje do razliènih rezultatov, kar pa za reševanje našega problema ne predstavlja ovire, saj poznamo število rojev [44]. Poznamo namreè število stopenj jakosti aglutinacije in tudi število dokonènih interpretacij za posamezne predtransfuzijske preiskave.
3.3.3.6    Numerièno napovedovanje
Do sedaj opisane metode delujejo z nominalnimi atributi. V primeru, da imamo na voljo vzorce, katerih atributi so numeriène vrednosti, lahko do sedaj opisane metode uporabimo tako, da teste metod prilagodimo, da le-ti izvajajo teste na numeriènih vrednostih, ali pa numeriène vrednosti diskretiziramo in jim pripišemo nominalne vrednosti. Obstajajo pa tudi metode strojnega uèenja, ki delujejo neposredno z numeriènimi vrednostmi atributov.
3.3.3.6.1 Numerièno napovedovanje: Linearna regresija Ko je rezultat vzorca ali razred, ki mu vzorec pripada, numerièen in so vsi atributi vzorca numerièni, je linearna regresija prva metoda, ki jo je vredno preiskusiti. Osnovna ideja linearne regresije je v tem, da se rezultat vzorca izrazi kot linearna kombinacija atributov vzorca, uteženih z utežmi:
x = wq + W\a\ + W2CI2 + ... + WkCik                                       (3.22)
Pri èemer je x razred ali rezultat, au a2,..., ak so vrednosti atributov, Wl,w2,...,wk pa so uteži.
Uteži so izraèunane iz uènega nabora podatkov. Za vsak vzorec iz uène množice zapišemo svojo linearno kombinacijo uteži in vrednosti atributov. Kot primer za 1. vzorec uène množice zapišemo sledeèo enaèbo:
k
w0 + wia[l) + w2a2l) + • • • + wka^ = ^ Wjd^                        (3.23)
i=o
Zapisana vrednost predstavlja napovedano in ne resniène vrednosti prvega vzorca.
Zanima nas razlika med resnièno in napovedano vrednostjo opazovanega vzorca. Postopek
3.3 Pregled metod strojnega uèenja
63
linearne regresije predstavlja izbiranje k + 1 uteži Wj na tak naèin, da je vsota kvadratov razlike med napovedanimi in resniènimi vrednostmi za uèno množico najmanjša. Èe imamo v uèni množici n vzorcev, je vsota kvadratov razlik sledeèa:
(2 xV-^WjaV j                                   (3.24)
3=0            J
S postopkom optimizacije izberemo uteži na tak naèin, da je vsota kvadratov razlik, podana v enaèbi 3.23, najmanjša. Po postopku optimizacije imamo na voljo nabor uteži, s katerimi znamo oceniti vrednost novih vzorcev.
Linearna regresija je preprosta metoda numeriène predikcije, vendar v primeru, ko podatki izražajo nelinerne lastnosti, ne deluje najbolje.
3.3.4    Ocenjevanje uèinkovitosti metod strojnega uèenja
Za razvoj uèinkovitega postopka strojnega uèenja potrebujemo metode za evaluacijo modelov, ki jih dobimo z uporabo algoritmov strojnega uèenja. Na ta naèin lahko med sabo primerjamo razliène metode strojnega uèenja in izberemo najboljšo. Za primerjavo posameznih metod strojnega uèenja potrebujemo sistematièen naèin za oceno delovanja in primerjavo posameznih metod.
Rezultat izvajanja algoritma strojnega uèenja je nauèeni model obravnavanega sistema. Med sabo primerjamo uèinkovitost delovanja razliènih modelov in s tem algoritmov strojnega uèenja, ki smo jih uporabili za gradnjo teh modelov. Za uèenje in testiranje modela sistema imamo v veèini primerov omejen podatkovni nabor - nabor vzorcev z rezultati. Ta nabor podatkov moramo uporabiti za uèenje in testiranje modela. Za uèinkovito uèenje moramo model nauèiti s kar najveè uènimi vzorci. Skupek uènih vzorcev imenujemo uèna množica. Fazi uèenja modela sledi faza testiranja le-tega. Model testiramo s testno množico podatkov. Testna množica podatkov je sestavljena iz vzorcev podatkov, opremljenih s pripadajoèimi rezultati. Pri testiranju modela z modelom izraèunamo rezultate vzorcev iz testne množice. Dobljene rezultate primerjamo z znanimi rezultati. Za uèinkovit test je potrebno model strojnega uèenja preizkusiti s kar najveè testnimi vzorci. Pri testiranju je potrebno uporabiti podatke, ki niso bili uporabljeni za gradnjo modela. Na ta naèin dobimo rezultate, ki realno napovedujejo obnašanje modela na neznanih podatkih [2].
64
3. Obstojeèe rešitve in orodja
3.3.4.1     Mere uèinkovitosti metod strojnega uèenja - razvršèanja
Ker je nabor rezultatov, ki jih v našem primeru napovedujejo modeli strojnega uèenja, konèen in diskreten, lahko delo modelov obravnavamo kot razvršèanje vektorjev lastnosti v razrede C*. Razredi so oznaèeni z oznakami ut. Posamezni vzorec - vektor atributov oznaèimo z x. Dejstvo, da vzorec x pripada razredu d, zapišemo kot:
xeCt                                                 (3.25)
Dogodek razvršèanja posameznega vzorca oznaèimo z 5{x). Pri dogodku razvršèanja pripišemo vzorcu X oznako razreda ut. Definicija je podana v enaèbi 3.26:
8{x) = ujt\Leck                                                     (3.26)
Pravilno razvršèanje oznaèimo:
5(x)=Ui\geCk   t = k                                               (3.27)
Ker v našem modulu prièakujemo neidealnosti, je mogoèe, da naš model napaèno razvrsti vzorec x. Dogodek napaènega razvršèanja oznaèimo kot:
6(x)=ui\geCk   i^k                                               (3.28)
Rezultati zanesljivosti modela razvršèanja vektorjev lastnosti v posamezne razrede so predstavljeni v matriki pravilnih in napaènih razvrstitev (ang. confussion matrix). Matrika je podana v tabeli 3.14. Njene dimenzije so M x M, pri èemer je M število razredov. Posamezna mesta v matriki predstavljajo število dogodkov razvrstitev posameznega vzorca v posamezen razred [49] [4]. V matriki je na mestih (i, k) zapisano število dogodkov razvrstitve vzorcev v posamezne razrede pri preverjanju metode. Dogodki so definirani z enaèbo 3.26. Dogodek pravilne razvrstitve se zgodi v primeru i = k. Število teh dogodkov je zabeleženo v diagonalnih elementih. Vsota vseh diagonalnih elementov matrike predstavlja število vseh pravilnih razvrstitev, vsota vseh ostalih elementov pa predstavlja število vseh napaènih razvrstitev.
Za vsak razred iz matrike pravilnih in napaènih razvrstitev izraèunamo sledeèe parametre [4] [49]:
• Delež vektorjev lastnosti x G d, razvršèenih v uiy S(x) = Ui\geCi med vsemi vzorci ki res pripadajo ut (ang.   true positive, recall).   Izraèunamo ga tako, da ustrezen
3.3 Pregled metod strojnega uèenja
65
pripada:                 Cx                             C2                 ...                CM
C\           / (t [S(x)
= w2|xgCi]      tt [^(^O = w2Uec2]     •••     tt [^(^) = w2UecM]
:                               :                                :                  •.                    :
Cm         \«[<5(x>^m|xLCi]    8[^) = wm|ž€C2]    •••    tt [S(L) = wM\gLCM]
Tabela 3.14: Matrika pravilnih in napaènih razvrstitev (ang. confusion matrix).
diagonalen element matrike pravilnih in napaènih razvrstitev delimo z vsoto cele vrstice, kateri pripada element.
•   Delež vektorjev lastnosti, razvršèenih v razred uiy ki pripadajo drugemu razredu uk, S(x = Uilzeckk ^ i, med vsemi vzorci, ki ne pripadajo ut (ang. false positive). Izraèunamo ga tako, da od vsote vseh elementov v matriki pravilnih in napaènih razvrstitev v obravnavanem stolpcu odštejemo diagonalen element in dobljeno delimo z vsoto elementov v vseh ostalih vrsticah.
•   Delež pravilno razvršèenih vektorjev lastnosti. To so razvrstitve, ki res spadajo v Ui,S(x) = Ui\geCi, med vsemi vektorji lastnosti, ki so bili razvršèeni uj% (ang. precission). Izraèunamo ga tako, da se opazovani diagonalni element deli z vsoto vseh elementov v pripadajoèem stolpcu.
Za vsako razvršèanje izraèunamo sledeèe parametre:
•   Delež pravilno razvršèenih S. Število predstavlja delež pravilno razvršèenih vzorcev med vsemi vzorci, ki so bili razvršèeni. Izraèunamo ga na sledeè naèin: Vsoto diagonalnih elementov matrike pravilno in napaèno razvršèenih delimo z vsoto vseh elementov te matrike.
•   Delež napaèno razvršèenih. Število predstavlja delež napaèno razvršèenih vzorcev med vsemi razvršèenimi vzorci. Izraèunamo ga na sledeè naèin: Vsoto vseh nedia-gonalnih elementov matrike pravilno in napaèno razvršèenih delimo z vsoto vseh elementov te matrike.
3.3.4.2    Evaluacija s testnim naborom podatkov
Preizkus uèinkovitosti razliènih modelov razvršèanja vektorjev lastnosti v razrede je mogoèe opraviti na veè naèinov.   Pri najpreprostejšem se model razvršèanja preizkusi
66
3. Obstojeèe rešitve in orodja
s testnim naborom podatkov. Ker je v našem primeru kolièina podatkov, namenjenih uèenju in testiranju sistema, dokaj omejena, je uporabnejša bolj dovršena metoda navzkrižne validacije (ang. cross-validation) [4] [50].
3.3.4.3    Navzkrižna validacija
Navzkrižna validacija je statistièna metoda za preizkušanje uèinkovitosti modelov, zgrajenih z metodami strojnega uèenja [2]. Metoda se uporablja v primerih, ko ni na voljo dovolj velikega podatkovnega nabora za uèenje in testiranje nauèenih modelov. V postopku navzkrižne validacije se za uèenje modela in njegovo validacijo uporabi iste podatke. Cena, ki jo plaèamo za to, je velika raèunska zahtevnost postopka. V zaèetku postopka doloèimo število pregibov danega podatkovnega nabora m. Število pregibov pomeni število delitev podatkovnega nabora na podmnožice. V nadaljevanju postopka vzorce v podatkovnem naboru nakljuèno premešamo in razdelimo v m enako velikih podmnožic. Po opravljeni razdelitvi se postopek uèenja požene m-krat. Pri vsaki iteraciji se m - 1 podmnožic podatkovnega nabora uporabi za uèenje modela, preostanek pa za testiranje modela. Rezultat vsakega testiranja modela se zabeleži v matriko pravilnih in napaènih razvrstitev. Ob koncu postopka navzkrižne validacije rezultate posameznih testiranj zberemo in povpreèimo. Dobljeni rezultat je dober približek zanesljivosti metode. Glede na število delitev dane uène množice poimenujemo metodo validacije m pregibna navzkrižna validacija [2].
Mešanje uène množice pri deljenju na podmnožice je lahko povsem nakljuèno. Boljše rezultate dobimo, èe uporabimo delno nakljuèno mešanje. Mešanje izvedemo na tak naèin, da so porazdelitve števila posameznih razredov v vseh m podmnožicah,L uporabljenih za uèenje in preizkušanje, enake porazdelitvi v celotnem podatkovnem naboru. Èe je za mešanje uporabljen ravnokar opisani naèin, govorimo o m-pregibni stratified navzkrižni validaciji.
V literaturi [2] avtorji navajajo, da je standarden naèin statistiènega ocenjevanja uèinkovitosti metode strojnega uèenja pri danem fiksnem naboru podatkov uporaba 10-pregibne stratified navzkrižne validacije. Obširni testi na razliènih metodah strojnega uèenja so pokazali, da je 10 pravo število pregibov za realno in pravilno oceno pravilnosti delovanja modela, nauèenega z metodami strojnega uèenja. 10-pregibna stratified navzkrižna validacija je de facto standard na podroèju strojnega uèenja. V literaturi [2] navedeni testi so pokazali, da ni velike razlike med 10-pregibno stratified navzkrižno validacijo in 10-pregibno navzkrižno validacijo.  Stratified navzkrižno validacijo je potrebno
3.4 Zajem in registracija podatkov
67
uporabiti samo v primerih, ko je na voljo zelo omejen nabor podatkov [2].
3.3.4.4     Validacija izpusti enega
Pri validaciji izpusti enega (ang. leave one out) [2] je za m izbrano kar število vzorcev uène množice. Ker pri tem naèinu validacije modela testni nabor podatkov nima enake porazdelitve razredov kot uèna množica, je dobljeni podatek o zanesljivosti modela manj zanesljiv, ampak še vedno uporaben. Metodo uporabimo v primerih, ko imamo na voljo male podatkovne nabore. V tem primeru lahko za uèenje modela uporabimo kar najveèji del uène množice.
3.3.4.5     Primerjava razli¡cnih metod
Na podlagi primerjave razliènih metod strojnega uèenja se odloèimo, katera metoda strojnega uèenja je najprimernejša za reševanje danega problema. Postopek primerjave je preprost. Za vsako od obravnavanih metod strojnega uèenja izvedemo postopek validacije metode - navzkrižno validacijo. Za vsako izvedeno validacijo izraèunamo delež uspešnosti S. Delež uspešnosti S je delež pravilno razvršèenih med vsemi razvršèenimi [2]. Izraèunamo ga iz matrike pravilnih in napaènih razvrstitev tako, da delimo vsoto vseh diagonalnih elementov matrike pravilnih in napaènih razvrstitev z vsoto vseh elementov, kot je zapisano v enaèbi 3.29:
jj [5{x) = tJi\x&ck] Obièajno izberemo metodo strojnega uèenja, pri uporabi katere dobimo model, ki za dani nabor testnih/uènih podatkov z izbranimi parametri pravilno razvrsti najveèji delež vzorcev.
3.4    Zajem in registracija podatkov
Zajem in registracija podatkov obravnava pridobivanje vzorcev za izdelavo uènih in testnih množic. Obravnava tudi pridobivanje vzorcev za analizo in razpoznavanje v delujoèem sistemu za samodejno interpretacijo rezultatov predtransfuzijskih testiranj. Podatki, ki jih bomo obravnavali, se nahajajo v sistemu za telekonzultacije. Podatki so kompleksne podatkovne strukture, sestavljene iz datotek, ki vsebujejo slike gelskih kartic, doloèenih
68
3. Obstojeèe rešitve in orodja
stopenj jakosti aglutinacije za posamezne kolone, tipe testiranja izvajanega z gelsko kartico in dokon¡cne interpretacije predtransfuzijskega testiranja.
Ker obravnavamo re¡sevanje problema v dveh korakih, bomo podatke, iz katerih bomo tvorili nabore u¡cnih, testnih in neznanih mno¡zic, obravnavali v dveh korakih. Tako bomo lo¡cili pridobivanje vzorcev za prvi in drugi korak. Vzorci za prvi korak, korak dolo¡canja stopnje jakosti aglutinacije v posameznih kolonah, predstavljajo slike posameznih kolon in v primeru u¡cne in testne mno¡zice pripadajo¡ce stopnje jakosti aglutinacije iz mno¡zice 7 mo¡znosti – prazno, NEG, 1+, 2+, 3+, 4+, DCP. Vzorci za drugi korak, korak razvr¡s¡canja vektorjev nabora stopnje jakosti aglutinacije eritrocitov v kon¡cni rezultat preiskave, predstavljajo v primeru u¡cne in testne mno¡zice tip preiskave, vektor z dolo¡cenimi stopnjami jakosti aglutinacije za vsako od 6 kolon, vsebovanih na obravnavani gelski kartici, in dokon¡cno interpretacijo predtransfuzijske preiskave.
Vzorci, ki jih ¡zelimo analizirati ali razpoznavati, so pogosto slab¡se kakovosti [39]. Prav tako ti vzorci obi¡cajno ¡se niso na voljo v primerni obliki za namene analize in razpoznavanja. Zato je potrebno te vzorce najprej na ustrezen na¡cin zajeti iz okolja, v katerem so nastali. Po zajemu jih je potrebno ustrezno ozna¡citi in izbolj¡sati. Za namene izbolj¡save vzorcev moramo poznati modele virov popa¡cenj, ki so pokvarili vzorce. V na¡sem primeru je glavni vir popa¡cenj slikovnih vzorcev rotacija in translacija slik. Odpravljanje teh dveh virov popa¡cenja podatkov je opisano v nadaljnjem tekstu.
3.4.1    Sistem za telekonzultacije v transfuzijski medicini
Kot smo ¡ze omenili, smo sistem za telekonzultacije v transfuzijski medicini zgradili in uvedli v prakso transfuzijske slu¡zbe v Sloveniji. Sistem omogo¡ca prenos vseh podatkov, potrebnih za izvajanje transfuzijskih storitev. Sistem poleg prenosa podatkov omogo¡ca tudi hrambo laboratorijskih rezultatov. V sistemu se zbirajo podatki o telekonzultacijskih sejah, ki zajemajo vse za dokon¡cno interpretacijo predtransfuzijskih preiskav potrebne diagnosti¡cne podatke in s strani specialistov dolo¡cene interpretacije teh testov. Podatke iz sistema zajamemo in iz njih zgradimo nabor podatkov, ki ga uporabimo za razvoj sistema samodejne interpretacije predtransfuzijskih preiskav.
Predstavljene re¡sitve in orodja so slu¡zile pri razvoju sistema samodejne interpretacije predtransfuzijskih preiskav. Razvoj sistema smo opisali v slede¡cem poglavju.
Poglavje 4
Razvoj sistema za samodejno interpretacijo
Z uporabo obstoje¡cih re¡sitev in orodij, opisanih v prej¡snjem poglavju in z razvojem novih, smo izdelali osnovo sistema za samodejno interpretacijo predtransfuzijskih preiskav. V okviru raziskav smo izbrali optimalno kombinacijo in parametrizacijo posameznih algoritmov, primernih za gradnjo sistema za samodejno interpretacijo predtransfuzijskih preiskav.
4.1    Razdrobitev problema na korake, ki posnemajo delo specialista transfuzijske medicine
Od postopka samodejne interpretacije rezultatov preiskav pri¡cakujemo, da se bo na podlagi zabele¡zenih odlo¡citev specialistov transfuzijske medicine nau¡cil ekspertize teh specialistov in bo znal to ekspertizo ponoviti na neznanih primerih.
Problem samodejne interpretacije rezultatov preiskav je mogo¡ce razdeliti na ve¡c pod-problemov. Razdelitev na podprobleme je sorodna razdelitvi, ki jo opravijo specialisti transfuzijske medicine. S sistemom za samodejno interpretacijo rezultatov smo posnemali delo specialista transfuzijske medicine. Specialist interpretira predtransfuzijsko preiskavo v dveh korakih. V prvem koraku dolo¡ci za vsako kolono gelske kartice uporabljene v preiskavi stopnjo jakosti aglutinacije. Glede na stopnjo jakosti aglutinacije razvrsti vsako kolono v enega od 7 razredov (Prazno, NEG, 1+, 2+, 3+, 4+, DCP). V drugem koraku na podlagi kombinacije dolo¡cenih stopenj jakosti aglutinacije kolon dolo¡ci dokon¡cno inter-
69
70
4. Sistem za samodejno interpretacijo
pretacijo preiskave. Postopek interpretacije v dveh korakih je ilustriran na sliki 4.1. Za vsako od preiskav, ki jih opravljajo v postopku predtransfuzijskih preiskav obstaja konèni nabor možnih interpretacij. V nadaljevanju smo problem samodejne interpretacije predtransfuzijskih preiskav obravnavali kot dva loèena problema. Sam postopek reševanja obeh problemov je med seboj neodvisen. Pri skupni obravnavi pa je od rezultatov reševanja prvega problema odvisno reševanje drugega, saj so vhodni podatki drugega problema rezultati prvega.
Za vsakega od problemov smo zgradili loèen model. Prvi modelira doloèanje stopnje jakosti aglutinacije, drugi pa doloèanje dokonène interpretacije preiskave.
Gradnjo obeh modelov smo obravnavali loèeno s postopki strojnega uèenja. Za vsakega od problemov smo izbrali optimalen algoritem strojnega uèenja, z njim zgradili model interpretacije in ga preizkusili. Na koncu smo rezultate združili in sicer zaradi ugotavljanja stopnje zaupanja dobljenih konènih rezultatov evaluacije. Stopnja zaupanja zajema evaluacijo obeh korakov strojnega uèenja za vsak posamezen rezultat, izraèunan s sistemom.
4.2     Strojno uèenje
Postopki strojnega uèenja spadajo v podroèje umetne inteligence. Metode in tehnike strojnega uèenja omogoèajo strojem, da se na podlagi kombinacije znanih vzrokov (vhodov) in posledic (rezultatov) nauèe napovedovanja neznanih posledic iz danih vzrokov. Cilj postopkov strojnega uèenja je izdelava modela sistema, ki na podlagi danih vhodov v opazovani realni sistem napove rezultat sistema [17] [39] [44].
Celoten postopek obravnave in dela realnega sistema je sestavljen iz dveh faz. V prvi fazi, fazi uèenja, smo z algoritmi strojnega uèenja zgradili in preizkusili model obravnavanega sistema. Ta model smo v drugi fazi, fazi razpoznavanja, uporabili za napovedovanje delovanja obravnavanega sistema. Prvo fazo, fazo uèenja, smo predstavili na sliki 4.2. Drugo fazo, faza razpoznavanja, pa na sliki 4.3. V sistemu za samodejno interpretacijo preiskav je obema fazama skupen naèin pridobivanja podatkov iz sistema. Tako smo morali podatke, ki smo jih obravnavali v našem postopku, iz obravnavanega sistema najprej zajeti in jih po zajemu obdelati, da so bili primerni za obdelavo z algoritmi strojnega uèenja. To obdelavo avtorji v literaturi imenujejo predobdelava vzorcev in registracija podatkov [39].
Za fazo uèenja so pridobljeni podatki kombinacija vhodnih podatkov v realnem obravnavanem sistemu ter pripadajoèih rezultatov.   V našem primeru so to bile slike gelskih
4.2 Strojno uèenje
71
Postopek interpretacije predtransfuzijskega testa
'''                    1. korak: Doloèanje stopnje aglutinacije
Gelska kartica z vzorci - 6 kolon
Ugotavljanje stopnje
aglutinacije v vsaki od 6
kolon
Stopnje aglutinacije v kolonah npr: [1+, 1+, 2+, 4+, 0, 3+]
2. korak: Doloèanje interpretacije testiranja
Tip preiskave (Krvna skupina, ...)
Interpretacija testiranja
Dokonèna
interpretacija
testiranja
Slika 4.1: Interpretacija predtransfuzijske preiskave poteka v dveh korakih. V prvem koraku je dolo¡cena stopnja jakosti aglutinacije za vsako od 6 kolon v obravnavani gel-ski kartici. V drugem koraku se na podlagi v prvem koraku dolo¡cenih stopenj jakosti aglutinacije in tipa preiskave dolo¡ci dokon¡cna interpretacija preiskave.
72
4. Sistem za samodejno interpretacijo
kartic, tipi preiskav, doloèene stopnje jakosti aglutinacije za posamezne kolone in dokonène interpretacije preiskav. Zajemu in obdelavi podatkov je sledilo deljenje podatkov na uèno in testno množico podatkov. Z uèno množico smo z algoritmi strojnega uèenja zgradili model, ki smo ga s testno množico podatkov preverili in ocenili njegovo uèinkovitost. Podatek o uèinkovitosti modela smo potrebovali iz veè razlogov. Za našo obravnavo so bili najpomembnejši trije:
•  Primerjava uèinkovitosti modelov, nauèenih na razliène naèine, in s tem izbira najboljšega.
•  Ugotavljanje, ali dodatni elementi v uèni množici prispevajo k izboljšanju uèinkovitosti modela.
•  Izraèun zanesljivosti napovedi, na podlagi katere se odloèimo, ali bomo rezultatu verjeli ali ga bomo iz danih podatkov ocenili sami.
Pri našem delu smo preizkusili in med sabo primerjali veè metod strojnega uèenja in izbrali za dani problem najboljšo. Rezultat postopka je bil testiran, z naj optimalnejšim algoritmom strojnega uèenja nauèeni model.
Drugo fazo, fazo razpoznavanja, smo predstavili na sliki 4.3. Prvi del faze (zajem podatkov in registracija) je enak kot pri fazi uèenja. V drugem delu faze smo na zajetih registriranih podatkih uporabili v prvi fazi nauèeni model interpretacije teh podatkov.
4.2.1     Uporabljeni algoritmi strojnega uèenja
Pri naši raziskavi smo preizkusili algoritme strojnega uèenja, podane v tabeli 4.1. Tako veliko množico algoritmov strojnega uèenja smo preizkusili zato, ker smo želeli ugotoviti, kateri algoritem deluje najbolje. V poglavju 3.3.3 smo predstavili osnovne ideje in prijeme, na katerih so osnovani uporabljeni algoritmi strojnega uèenja. Podrobna obravnava vseh uporabljenih algoritmov bi bila preobsežna, zato smo jo izpustili in navedli samo vire literature, kjer so posamezni algoritmi opisani. Izbira algoritmov je zajela vse glavne pristope strojnega uèenja. Na podlagi primerjave s podobnimi orodji menimo, da je bila v raziskavo zajeta glavnina trenutno obstojeèih uporabnih algoritmov strojnega uèenja. Uporabili smo metode na osnovi statistiènega modeliranja podatkov. To so metode tipa bayes. Uporabili smo metode, ki se modelov opazovanega sistema uèijo tako, da gradijo drevesa.   To so metode tipa trees.   Uporabili smo metode, ki se modelov opazovanega
4.2 Strojno uèenje
73
Postopek uèenja
Sistem
Zajem podatkov iz sistema
^r
Zajeti podatki (z rezultati)
C
Registracija podatkov
Uèna množica
Uèenje modela
Nauèeni model
3
Registrirani podatki
Izdelava uène/testne množice
Testna množica
	Testiranje modela		
	\	1	
	Testirani nauèeni model		
			
Slika 4.2: Faza uèenja modela - splošno. V postopku uèenja je potrebno najprej iz opazovanega sistema pridobiti testno in uèno množico podatkov. Z uèno množico smo z algoritmi strojnega uèenja zgradili model, ki smo ga s testno množico preizkusili.
74
4. Sistem za samodejno interpretacijo
Postopek razpoznave
Sistem
Zajem podatkov iz sistema
Zajeti podatki
Registracija podatkov
Registrirani podatki
Testirani nauèeni model
Interpretacija
Rezultati
Slika 4.3: Faza razpoznave – splo¡sno. V fazi razpoznave uporabljamo v fazi u¡cenja pridobljeni model sistema za simuliranje delovanja realnega opazovanega sistema. Za to fazo je potrebno iz obravnavanega sistema zajeti podatke, ki so obi¡cajno brez rezultatov. S preizku¡senim in nau¡cenim modelom, pridobljenim v prvi fazi, fazi u¡cenja, interpretiramo podatke in napovemo rezultat obravnavanega realnega sistema.
4.2 Strojno uèenje
75
sistema nauèijo z generiranjem pravil. To so metode tipa rules. V teoriji strojnega uèenja so se pred nedavnim pojavili razlièni prijemi izboljšav delovanja osnovnih metod. Metode, ki uporabljajo te prijeme, so znane pod imenom meta.
76                                                                           4.Sistemzasamodejno interpretacijo
Številka	Tip metode	Ime metode
me-		
tode		
1	bayes	BayesNet [2]
2	bayes	ComplementNaiveBayes [51]
3	bayes	NaiveBayes [2]
4	bayes	NaiveBayesMultinomial [52]
5	bayes	NaiveBayesUpdateable [53]
6	functions	Logistic [54]
7	functions	MultilayerPerceptron [55]
8	functions	RBFNetwork [56]
9	functions	SimpleLogistic [57]
10	functions	SMO [58]
11	lazy	IB1 [59]
12	lazy	IBk [59]
13	lazy	KStar [60]
14	lazy	LWL [61]
15	meta	AdaBoostMl [62]
16	meta	AttributeSelectedClassifier [4] [5]
17	meta	Bagging [63]
18	meta	ClassificationViaRegression [64]
19	meta	CVParameterSelection [65]
20	meta	Decorate [6]
21	meta	FilteredClassifier [4] [5]
22	meta	Grading [66]
23	meta	LogitBoost [67]
24	meta	MultiBoostAB [68]
25	meta	MultiClassClassifier [4] [5]
26	meta	MultiScheme [4] [5]
27	meta	OrdinalClassClassifier [4] [5]
28	meta	RacedlncrementalLogitBoost [4] [5]
29	meta	RandomCommittee [4] [5]
30	meta	Stacking [69]
31	meta	StackingC [70]
32	meta	Vote [4][5]
33	misc	HyperPipes [4] [5]
34	misc	VFI [71]
35	trees	DecisionStump [72]
36	trees	J48 [7]
37	trees	LMT [8]
38	trees	NBTree [73]
39	trees	RandomForest [9]
40	trees	RandomTree [4] [5]
41	trees	REPTree [4] [5]
42	rules	ConjunctiveRule [4] [5]
43	rules	DecisionTable [74]
44	rules	JRip [10]
45	rules	NNge [75]
46	rules	OneR [76][2]
47	rules	PART [11]
48	rules	Ridor [4] [5]
49	rules	ZeroR[2][4][5]
Tabela 4.1: Preizkušeni algoritmi strojnega uèenja.
4.2 Strojno uèenje
77
4.2.2    WEKA
Za izvedbo eksperimentov, s katerimi smo ugotavljali primernost algoritmov strojnega uèenja za izdelavo modelov interpretacije rezultatov predtransfuzijskih preiskav, smo uporabili programski paket WEKA [5] [4] [72]. Pregled uporabljenih algoritmov strojnega uèenja je podan v tabeli 4.1
Algoritmi so implementirani v programskem jeziku Java in so vkljuèeni v okolje, ki omogoèa njihovo poganjanje. WEKA je opremljen z orodji, ki omogoèajo nalaganje in shranjevanje podatkovnih struktur, ter z orodji za delo s podatkovnimi nabori in zgrajenimi modeli. Vsebuje tudi orodja za evaluacijo modelov. WEKA vsebuje tudi okolje, ki omogoèa gradnjo in poganjanje kompleksnih in obširnih eksperimentov. Eksperiment v WEKA-i predstavlja opis preizkusa metod strojnega uèenja na doloèenem naboru podatkov. V eksperiment je vkljuèen tudi postopek validacije nauèenih modelov. Posamezen eksperiment je sestavljen iz poti do ARFF datotek, ki vsebujejo podatke testne in uène množice, izbire v eksperiment vkljuèenih algoritmov strojnega uèenja in algoritmom pripadajoèe parametrizacije. Eksperiment vsebuje tudi opis metode validacije dobljenih modelov. Opis eksperimenta se zapiše v XML datoteko. XML datoteke z opisi eksperimentov smo za vse eksperimente zgradili roèno s tekstovnim urejevalnikom.
Da smo podatke lahko uporabili v WEKA-i, smo jih zapisali v ustreznem podatkovnem formatu. Format datotek je bil ARFF format. Format je opisan v nadaljevanju teksta.
4.2.2.1     ARFF format
ARFF format je razviden iz vzorène datoteke. Vzorèni podatki v predstavljeni datoteki so povzeti iz [2] in ustrezno popravljeni. Datoteka vsebuje odloèitve, ali gremo na sprehod. Odloèitev predstavlja rezultat sistema. Osnovane so na podlagi vremenskih razmer. Te vremenske razmere so posamezni atributi. Posamezni atributi govore o stanju neba, temperaturi ozraèja, vlažnosti ozraèja in vetrovnosti.
'/.
'/. ARFF datoteka, ki opisuje odloèitev ali iti na sprehod
'/.
©relation vreme
©attribute nebo { sonèno, oblaèno, dež }
©attribute temperatura numeric
©attribute vlaga numeric
78
4. Sistem za samodejno interpretacijo
@attribute veter { da, ne } @attribute sprehod { da, ne } @data %
% 14 vzorcev				
%				
son¡cno,	29,	85,	ne,	ne
son¡cno,	26,	90,	da,	ne
obla¡cno,	28,	86,	ne,	da
de¡z,	21,	96,	ne,	da
de¡z,	20,	80,	ne,	da
de¡z,	18,	70,	da,	ne
obla¡cno,	17,	65,	da,	da
son¡cno,	22,	95,	ne,	ne
son¡cno,	20,	70,	ne,	da
de¡z,	24,	80,	ne,	da
son¡cno,	24,	70,	da,	da
obla¡cno,	22,	90,	da,	da
obla¡cno,	27,	75,	da,	da
de¡z,	21,	91,	da,	ne
Datoteka se priène z opisom vsebine. V datoteko je zapisano ime obravnavane relacije. V našem primeru je to vreme. Opis relacije se zaène z rezervirano besedo @relation, kateri sledi ime relacije. Sledi naštevanje vseh atributov in definicija njihovih tipov. Opis posameznih atributov se zaène z rezervirano besedo @attribute, nadaljuje z imenom ter opisom tipa. Atributi so lahko numerièni ali nominalni. V našem primeru so atributi nebo, veter in sprehod nominalni atributi, atributa temperatura in vlaga pa sta nu-merièna. Èe je atribut numerièen, je to oznaèeno z rezervirano besedo numeric, ki sledi imenu atributa. V primeru nominalnih atributov je znotraj zavitih oklepajev podan nabor možnih vrednosti. Za naš primer so za atribut nebo možne vrednosti son¡cno, obla¡cno in de¡z. Opisu atributov sledijo podatki za posamezne vzorce. Zaèetek bloka podatkov je oznaèen z rezervirano besedo @data. Vsak vzorec je zapisan v svoji vrstici. Atributi vzorca so navedeni v enakem vrstnem redu, kot so bili našteti v glavi datoteke. Med sabo so loèeni z vejico. Èe so atributi nominalni, potem je na mestu atributa napisana vrednost iz zaloge vrednosti, podane v opisu atributa. Èe je atribut numerièen, je podana njegova
4.2 Strojno uèenje
79
vrednost.
4.2.2.2    Eksperiment
WEKA omogo¡ca zapis eksperimenta v XML datoteko. Vsak ekperiment smo zapisali v XML datoteko. V datoteki, ki opisuje eksperiment, je definirana pot do ARFF datoteke, ki vsebuje nabor podatkov. Podroben opis formata datoteke za opis eksperimenta, ki je potreben za gradnjo datotek z eksperimenti, je podan v [4], [72] in [2]. V tekstu disertacije smo ta opis izpustili in povzeli le osnovne zna¡cilnosti. V opisu eksperimenta je podana pot do javanskega razreda, v katerem je implementacija algoritma strojnega u¡cenja. Za npr. algoritem Naivni Bayes je pot podana kot class = ”weka.classifiers.bayes.NaiveBayes”. V eksperimentu je definiran tip eksperimenta in metoda validacije. Tako npr. izberemo navzkri¡zno validacijo z 10 pregibi. V opisu eksperimenta sledi definicija poti do datoteke, kamor se naj shranijo rezultati posameznega eksperimenta. Opis formata datotek s podatki je podan v [4], [72] in [2]. Posamezen eksperiment lahko predpisuje testiranje ve¡c razli¡cnih algoritmov strojnega u¡cenja. V na¡sem primeru smo z vsakim eksperimentom preizkusili 49 algoritmov strojnega u¡cenja.
Eksperimente smo poganjali iz ukazne vrstice s slede¡cim ukazom:
\java weka.experiment.Experiment -l c:\experiment.xml -r
Izvajanje posameznega eksperimenta na zmogljivem osebnem ra¡cunalniku je trajalo razmeroma dolgo ¡casa. Eksperiment, s katerim smo preverili 49 metod strojnega u¡cenja na osebnem ra¡cunalniku s procesorjem Intel Core DUO 6420 s frekvenco delovanja 2,13 GHz, s 3,25 GB RAM, in operacijskim sistemom Windows XP SP2, je trajal v povpre¡cju 20 minut. Pri tem velja poudariti, da je bilo potrebnih 20 minut za gradnjo modelov z 49 algoritmi strojnega u¡cenja in preverjanje delovanja teh modelov. Ker smo za preverjanje uporabili metodo navzkri¡zne validacije z desetimi pregibi, je bilo potrebno vsak model zgraditi desetkrat. Ko imamo na voljo zgrajen in preizku¡sen model interpretacije, interpretiramo z njim neznani vzorec v zanemarljivem ¡casu.
Ker smo generirali veliko mno¡zico eksperimentov (352 za dolo¡canje stopenj jakosti aglutinacije), s katerimi smo podrobno preu¡cili in preizkusili delovanje kombinacije ra-zli¡cnih metod strojnega u¡cenja s segmentacijskimi metodami in izra¡cunom vektorjev lastnosti, smo izvajanje eksperimentov razdelili med ve¡c ra¡cunalnikov. Posamezne eksperimente smo zdru¡zili v pakete tako, da smo izdelali datoteke tipa .bat, s katerimi smo po vrsti poganjali posamezne eksperimente iz mno¡zice eksperimentov.
80
4. Sistem za samodejno interpretacijo
4.2.3    Zajem podatkov iz sistema za telekonzultacije v transfuzijski medicini
Ker smo sami zasnovali, razvili in izdelali sistem za telekonzultacije, imamo nadzor nad programsko kodo sistema in strukturo ter zasnovo podatkovnih baz, v katerih so shranjeni podatki o telekonzultacijskih sejah. Te podatke smo potrebovali za gradnjo u¡cne in testne mno¡zice, ki smo ju potrebovali za gradnjo modelov interpretacije predtransfuzijskih preiskav. Ob upo¡stevanju ustreznih pogojev za varstvo osebnih podatkov je bil iz delujo¡cega sistema mo¡zen zajem delovnih podatkov v ¡zeleni obliki. Zajem podatkov smo sestavili iz:
•  definicije potrebnih podatkov za izdelavo sistema za samodejno interpretacijo pred-transfuzijskih preiskav,
•  definicije podatkovnih struktur, ki te podatke vsebujejo,
•  izdelave programskega modula v aplikaciji sistema za telekonzultacije ter zajema realnih diagnosti¡cnih podatkov.
V kon¡cni izvedbi modula za samodejno interpretacijo se bo zajem podatkov in popravljanje modelov na podlagi teh podatkov vr¡sil sproti med delovanjem sistema. V praksi delujo¡ci sistem za telekonzultacije je zaradi varnosti zaprt in omogo¡ca dostop samo iz vozli¡s¡c, ki sestavljajo transfuzijsko mre¡zo. Zaradi ob¡cutljivosti podatkov in zakonskih predpisov o varovanju le-teh razvijalci sistema za samodejno interpretacijo predtransfu-zijskih preiskav nimamo neposrednega dostopa do delujo¡cega sistema za telekonzultacije. Ker smo za razvoj modelov sistema za samodejno interpretacijo potrebovali realne diag-nosti¡cne podatke in interpretirane rezultate, smo morali poskrbeti za zajem realnih diag-nosti¡cnih podatkov in pripadajo¡cih interpretacij iz delujo¡cega sistema. V ta namen smo razvili in v aplikacijo sistema za telekonzultacije vgradili modul, ki skrbi za zajem potrebnih podatkov iz delujo¡cega sistema. Modul shrani podatke v datoteko, ki jo poobla¡s¡ceni operater posreduje nam. Ker so podatki v sistemu strukturirani hierarhi¡cno, smo za zajem in hrambo uporabili sistem, ki omogo¡ca repliciranje teh podatkovnih struktur. Za izvedbo modula za hrambo podatkov smo uporabili odprto-kodni Java projekt Castor [77]. Castor omogo¡ca preprosto izvedbo preslikave med Java objekti in XML [78] dokumenti. Izvedbo modula za zajem podatkov z uporabo sistema Castor smo izvedli v ve¡c korakih. V prvem koraku je bilo potrebno na¡crtovati podatkovno strukturo, ki vsebuje na pravi na¡cin strukturirane podatke. Podatkovno strukturo smo predstavili na sliki 4.4. Njena
4.2 Strojno u¡cenje
81
definicija je podana z uporabo XML sheme. V posebni datoteki so definirani posamezni podatkovni objekti, njihovi tipi in medsebojne povezave. Nabor podatkovnih objektov osnovnih tipov je povezan v kompleksnej¡se objekte. Kompleksni objekti lahko vsebujejo tudi sezname objektov. Na tak na¡cin zgrajena hierarhi¡cna struktura je sposobna hraniti vse potrebne podatke. Rezultat na¡crtovanja podatkovne strukture je bila XML shema, shranjena v datoteki XSD. Vsebino datoteke smo predstavili na sliki 4.6. Na¡crtovanje podatkovne strukture in generacijo datoteke XSD smo izvedli s programskim orodjem Altova XMLSpy [79].
V  na¡sem primeru je osnovni podatkovni element gelska kartica gelcard. Ta podatkovni element vsebuje ime datoteke, ki vsebuje sliko obravnavane gelske kartice, podatke o stopnji jakosti aglutinacije vsake od ¡sestih kolon te gelske kartice, podatke o interpretaciji preiskave in podatke o tipu gelske kartice, uporabljene za preiskavo.
XML dokument, ki ga je generiral modul za zajem podatkov iz sistema za telekonzul-tacije na podlagi te sheme, vsebuje podatke, potrebne za gradnjo u¡cne in testne mno¡zice sistema. Osnovni element tega dokumenta je seznam elementov gelcard. Vsak od teh elementov vsebuje podatke o eni zaklju¡ceni preiskavi z uporabo ene gelske kartice. Poleg tega dokumenta smo potrebovali ¡se vse datoteke, ki vsebujejo slike gelskih kartic. Oris podatkov, zajetih iz sistema, je predstavljen na sliki 4.5.
Ko smo kon¡cali proces na¡crtovanja podatkovne strukture, smo na podlagi datoteke XSD z orodjem Castor [77] zgenerirali javanske razrede, ki podatke hranijo, omogo¡cajo njihovo dodajanje, brisanje in iskanje. Ti razredi omogo¡cajo tudi izvoz podatkovne strukture v XML dokument.
V nadaljevanju je bilo potrebno javanskim razredom dodati logiko, ki podatke pridobi in jih na koncu postopka pridobivanja tudi shrani. Opisana celota predstavlja modul za zajem podatkov. Ta modul smo integrirali v aplikacijo za telekonzultacije na odjemalcu.
Ob zagonu modula na odjemalcu, povezanem v sistem za telekonzultacije, je modul od stre¡znika zahteval pregled vseh zaklju¡cenih telekonzultacijskih sej. Stre¡znik je odgovoril z vsemi znanimi podatki o sejah. Za razvoj sistema za samodejno interpretacijo rezultatov so zanimivi podatki slike gelskih kartic, tip preiskave, klasifikacija posameznih kolon glede na stopnjo jakosti aglutinacije eritrocitov in kon¡cna interpretacija preiskave. Slike gelskih kartic je modul shranil v posamezne datoteke. Imena teh datotek je modul dodal v podatkovno strukturo k ostalim podatkom seje. Ko je bil postopek zajema podatkov iz stre¡znika kon¡can, je modul iz celotne strukture ustvaril XML dokument, ki ga je prav tako shranil v datoteko. Vse datoteke slik in XML dokument je modul za la¡zje manipuliranje
82
4. Sistem za samodejno interpretacijo
GelcardData
MBH
>.-_-_-_¦'./
Gelcard
is*

FileName
TubelClassification
Tube2Classification
Tube3Classification
Tube4Classification
Tube5Classification
Tube6Classification
—    Diagnose
GelcardType
Slika 4.4: Z orodjem XMLSPY na¡crtovana podatkovna struktura za izvoz podatkov.
Podatki za uèno množico iz sistema
XML dokument
Datoteke slik gelskih kartic
Združevanje
v eno
datoteko
Iz sistema zajeti podatki
Slika 4.5: Iz sistema za telekonzultacije zajeti skupini podatkov. Podatki shranjeni v XML datoteki in JPEG slike gelskih kartic. Vsi podatki so z namenom preprostega prena¡sanja zgo¡s¡ceni v eno zip datoteko.
4.2 Strojno uèenje
83
<?xml version="1.0" encoding="UTF-8"?> <xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema"
elementFormDefault="qualified" attributeFormDefault="unqualified"> <xs:element name="Glecard_data"> <xs:complexType>
<xs:sequence minOccurs="0" maxOccurs="unbounded"> <xs:element name="gelcard"> <xs:complexType> <xs:sequence>
<xs:element name="file_name"/> <xs:element name="tube1_classification"/> <xs:element name="tube2_classification"/> <xs:element name="tube3_classification"/> <xs:element name="tube4_classification"/> <xs:element name="tube5_classification"/> <xs:element name="tube6_classification"/> <xs:element name="diganose"/> <xs:element name="gelcard_type"/> </xs:sequence> </xs:complexType> </xs:element> </xs:sequence> </xs:complexType> </xs:element> </xs:schema>
Slika 4.6: Vsebina datoteke XSD: z orodjem XMLSPY na¡crtovana podatkovna struktura za izvoz podatkov.
84
4. Sistem za samodejno interpretacijo
stisnil v eno samo datoteko .zip. Glejte sliko 4.5. To datoteko je operater shranil na prenosni medij in nam jo posredoval. To datoteko smo posneli na raèunalnik, kjer je potekal razvoj sistema za samodejno interpretacijo rezultatov predtransfuzijskih preiskav.
Javanske razrede, generirane na osnovi XSD sheme, ki opisuje podatkovno strukturo, smo uporabili za pretvarjanje podatkov v obliko, ki je primerna za obravnavo z algoritmi strojnega uèenja na raèunalniku pri razvoju sistema za samodejno interpretacijo. Za pretvarjanje smo dodali logiko, ki je te podatke ustrezno pretvorila in shranila.
Postopkom zajema podatkov iz sistema je sledila izboljšava in registracija zajetih podatkov. Ker poteka samodejna interpretacija v dveh korakih - doloèanje jakosti agluti-nacije (razvršèanje kolon) in doloèanje dokonène intepretacije, smo registracijo podatkov obravnavali loèeno za vsak korak.
4.3    Doloèanje stopnje jakosti aglutinacije kolon
Doloèanje stopnje jakosti aglutinacije kolon je prvi korak v posnemanju interpretacije predtransfuzij skih preiskav, ki ga izvajajo specialisti transfuzijske medicine. Oba koraka smo ilustrirali na sliki 4.1. V tem koraku smo za vsako kolono obravnavane gelske kartice doloèili stopnjo jakosti aglutinacije eritrocitov. Vektor, sestavljen iz doloèenih stopenj jakosti aglutinacije v vsaki od šestih kolon gelske kartice, smo uporabili v drugem koraku, koraku dokonène interpretacije predtransfuzijske preiskave.
Za doloèanje stopenj jakosti aglutinacije v kolonah z metodami strojnega uèenja smo zgradili model, ki modelira doloèanje stopnje jakosti aglutinacije. Kot smo že povedali, smo potrebovali za gradnjo modela z metodami strojnega uèenja nabor podatkov, ki smo ga razdelili v uèno in testno množico. Nabor podatkov je bil sestavljen iz slik kolon gelskih kartic z vzorci krvi in pripadajoèimi stopnjami jakosti aglutinacije, ki so jih doloèili specialisti transfuzijske medicine. Podatke smo zajeli iz sistema za telekonzultacije v transfuzijski medicini, kot je opisano v podpoglavju 4.2.3.
Za uspešno delovanje algoritmov strojnega uèenja smo morali podatke, zajete iz sistema primerno obdelati. Ker so podatki, namenjeni doloèanju stopnje jakosti aglutinacije kolon, slikovni podatki, je bilo potrebno te slikovne podatke registrirati. Postopek registracije je vse slikovne podatke transformiral v isti koordinatni sistem. Na ta naèin smo lahko iz slik uèinkovito izlušèili podatke, potrebne za nadaljnjo obdelavo [80].
V nadaljevanju postopka predobdelave smo iz podatkov izlušèili lastnosti. To smo storili tako, da smo podatke ustrezno transformirali, izèistili in diskretizirali [39].   Slika
4.3 Dolo¡canje stopnje jakosti aglutinacije kolon
85
r ^0
Kolona S
^fiiEiEh
c)
M
«,


Gelska kartica Snr

«,
Vstopi

<y \_/ v<
k1     L"k2     L"k3     L«k4     L°k5     L"k6
b)
Višina          200
d)
Slika 4.7: Postopek registracije slik gelskih kartic in transformacije le-teh v vektorje projekcije.
4.7 (a – d) prikazuje celoten postopek registracije vhodnih podatkov in njihovo preslikavo v vektor projekcij. Ko smo imeli na voljo obdelane podatke, zapisane v obliki vektorjev lastnosti, smo te podatke obdelali z metodami strojnega u¡cenja. V nadaljnjem besedilu smo opisali postopke registracije podatkov, pridobivanje vektorjev lastnosti in njihovo obdelavo z metodami strojnega u¡cenja.
4.3.1    Registracija slikovnih podatkov
Registracija vhodnih slikovnih podatkov je v na¡sem primeru predstavljala razpoznavanje podro¡cij posameznih kolon na slikah gelskih kartic in pripravo le-teh v obliko, primerno za nadaljnjo obdelavo. Pri registraciji smo re¡sevali dva problema. Prvi je bila identifikacija rotacije slik gelskih kartic, drugi pa je bilo dolo¡canje podro¡cij posameznih kolon na slikah gelskih kartic.

x
f
proj
proj
S
0
86
4. Sistem za samodejno interpretacijo
Slika 4.8: Ilustracija napake pri zajemu slike gelske kartice. Umetno pretirano rotirana fotografija gelske kartice.
Sliko vsake gelske kartice smo ozna¡cili z Sgc (Slika 4.7 – a). Postopek dolo¡canja podro¡cij posameznih kolon pa kot freg(Sgc) (Slika 4.7). Preslikava freg(Sgc) je iz slik gelskih kartic izlo¡cila slike posameznih kolon (Slika 4.7 – b). Slike posameznih kolon smo ozna¡cili z Sk (Slika 4.7 – c).
4.3.1.1    Identifikacija rotacije slik gelskih kartic z maksimiranjem dinami¡cnosti projekcije robov
Slike gelskih kartic se zajemajo s posebej za ta namen razvito strojno opremo, z napravo Gelscope32. Naprava je predstavljena na sliki 3.7.
Gelske kartice je mogo¡ce v napravo Gelscope32 vstaviti postrani. Zato so zajete slike gelskih kartic lahko rotirane, kar predstavlja napako. Obmo¡cje napake kota rotacije gelske kartice je nekaj kotnih stopinj v pozitivno in negativno smer. Slika 4.8 prikazuje primer napa¡cno zajete slike gelske kartice. Napaka je vidna kot rotacija okoli osi, ki prebada najve¡cjo povr¡sino gelske kartice. Idealna slika gelske kartice je slika, na kateri je gel-ska kartica povsem vodoravna – stranice gelske kartice so vzporedne z osmi slike. Za odpravo rotacijske napake je potrebno za vsako obravnavano sliko ugotoviti kot rotacije glede na vodoravno lego in sliko ustrezno popraviti. Za ugotavljanje kota rotacije smo razvili metodo z maksimiranjem dinami¡cnosti projekcije robov. Metodo smo preizkusili in ugotovili, da dani problem re¡suje zadovoljivo.
Metoda, ki smo jo prvi¡c predstavili v objavi [81], temelji na dejstvu, da je ve¡cina elementov na slikah gelskih kartic preprosta in omejena z ostro definirani horizontalnimi in vertikalnimi robovi. Objekti na obravnavanih slikah so kolone in nalepke, na katerih
4.3 Doloèanje stopnje jakosti aglutinacije kolon
87
je precej horizontalnih in vertikalnih èrt. Veèina robov objektov na slikah je vzporedna z robovi gelske kartice. Z metodo iskanja kota odmika od idelanega položaja kartice smo vrteli sliko po vnaprej definiranih korakih znotraj prièakovanega intervala napake kota. Za vsako vrtenje smo izraèunali parametre, ki so se spreminjali v odvisnosti od vzporednosti elementov na sliki z robovi slike. Te parametre smo reducirali v enoštevilsko vrednost. Ko je bila slika rotirana za tak kot, da je bila veèina robov elementov slike vzporednih z robovi slike, je bil opazovani parameter najveèji. Z opazovanjem tega parametra znotraj prièakovanega intervala napake kota smo lahko ugotovili kot rotacije, s katerim je bila popaèena slika gelske kartice. V nadaljevanju smo podrobneje opisali podani povzetek delovanja metode. Podani so posamezni koraki: iskanje robov v sliki, rotacija slike, izraèun parametrov, ki govore o vzporednosti elementov na sliki z robovi slike, in iskanje najbolj vzporedne rotacije.
Sivinska slika gelske kartice vsebuje dovolj informacije za iskanje robov v tej sliki. Zato smo v postopku najprej pretvorili sliko gelske gartice v sivinsko sliko. V nadaljevanju pa smo sivinsko sliko zavrteli po definiranih korakih kota znotraj definiranega obmoèja prièakovane maksimalne napake kota rotacije.
Za vse rotirane slike smo poiskali robove na tej sliki. Rezultat iskanja robov je bila robljena slika, na kateri so bili poudarjeni robovi. Primeri originalne in robljene slike, so predstavljeni na sliki 4.12. Postopke iskanja robov na sliki smo opisali v podpoglavju 4.3.1.1.1.
Vsako dobljeno robljeno sliko smo projicirali na navpièno os in vodoravno os. Projekcijo na navpièno os smo izvedli kot vsoto vrednosti vseh slikovnih elementov robljene slike po posameznih stolpcih slike. Projekcija na vodoravno os pa smo izvedli kot vsoto vrednosti vseh slikovnih elementov po posameznih vrsticah slike. Rezultat združenih projekcij na navpièno in vodoravno os je vektor projekcije v^oj. Komponente v^oj predstavljajo vsote po posameznih vrsticah in stolpcih.
Èe opazujemo rob enega objekta na sliki in je ta rob vzporeden z navpièno osjo, bo projekcija tega roba na vodoravno os v vektorju projekcije vp7oj povzroèila veliko konico. Èe rob ni povsem vzporeden z osjo, bo njegova projekcija razmazana èez veèje podroèje in bo posledièno manj prispevala k razgibanosti vektorja projekcije.
Za ugotavljanje kota rotacije smo morali najprej ugotoviti, pri katerem kotu rotacije je vektor projekcije najbolj razgiban. Za vsak opazovani kot rotacije smo v ta namen izraèunali skalarno vrednost Tv = /r(vOJ), ki je povezana z razgibanostjo tega vektorja. Za izraèun razgibanosti vektorja projekcije smo uporabili preslikavo, imenovano totalna
88
4. Sistem za samodejno interpretacijo
variacija vektorja projekcije [82]. Preslikava je zapisana v ena¡cbi 4.1. Za izra¡cun preslikave totalne variacije smo najprej izra¡cunali odvod vektorja v^oj in se¡steli absolutne vrednosti posameznih komponent odvoda.
Vproj     =
(vUV2,...,Vn)
ra-1
Tv
J>H-i-t*|
(4.1)
i=\
Dobljene rezultate Tv za vsak kot rotacije smo primerjali med sabo in poiskali najve¡cjega. Na sliki 4.10 smo predstavili velikost totalne variacije vektorja projekcije v odvisnosti od kota rotacije slike gelske kartice za eno od obravnavanih slik gelskih kartic.
Celoten algoritem registracije rotacije slik gelskih kartic je ilustriran na sliki 4.9.
4.3.1.1.1 Robljenje slik Za delovanje metode z maksimiranjem dinami¡cnosti projekcije robov smo potrebovali algoritem za robljenje slik. Robovi v slikah so podro¡cja z velikimi kontrasti v intenziteti - skoki v intenziteti med posameznimi sosednjimi slikovnimi elementi. S postopki zaznavanja robov v slikah lahko zelo zmanj¡samo koli¡cino potrebnih podatkov in ohranimo pomembne strukturne lastnosti na slikah. Osnovne metode za robljenje se v grobem delijo v dve veliki skupini: gradientne in Laplaceove [83]. V nadaljevanju teksta smo predstavili obe metodi.
Gradientne metode zaznavajo robove na osnovi opazovanja vrednosti maksimumov in minimumov odvodov prvega reda obravnavane slike. Tipi¡cen primer zaznavanja robov z gradientno metodo je zaznavanje robov z uporabo Sobelovega operatorja [83]. Z uporabo Sobelovega operatorja izra¡cunamo dvodimenzionalni prostorski gradient obravnavane slike. Za izra¡cun gradienta se uporabi par matrik velikosti 3x3, navedenih v ena¡cbi 4.2. Ti matriki predstavljata konvulucijsko masko. Za oceno gradienta v smeri x se uporabi matriko Grx, za oceno gradienta v smeri y pa Gry. Velikost gradienta se izra¡cuna z uporabo ena¡cbe 4.3. Pribli¡zna ocena se lahko izra¡cuna tudi z uporabo ena¡cbe
4.4.
 -1   0   +1
-2   0   +2
-1   0   +1
Grx
 +1   +2   +1
0      0      0
-1     -2     -1
Gry
(4.2)
_
4.3 Dolo¡canje stopnje jakosti aglutinacije kolon
89
Registracija rotacije slik gelskih kartic
Slika gelske kartice
Pretvorba v sivinsko sliko
Sivinska slika gelske kartice
Zmanjšanje
loèljivosti
slike
Slika
HI
Rotiraj sliko
>
Robljena slika
Projeciraj na osi x, y
Vektor projekcije robov
Izraèunaj totalno
variacijo vektorja
projekcije
Totalna variacija vektorja projekcije
MAX
___,___
Kot rotacije
Obmoèje
rotacije, korak
rotacije
Slika 4.9: Algoritem registracije rotacije slik gelskih kartic.
Rotirana slika
Robi sliko
90
4. Sistem za samodejno interpretacijo

12 11 10 9 8  7 6 5
Totalna variacija vektorja projekcij	
	
	
	
	
	
	
	
	
0 Kot rotacije v stopinjah
Slika 4.10: Se¡stevki absolutnih vrednosti odvodov projekcij – totalne variacije za posamezne kote rotacije od -5? do +5?. Maksimalna totalna variacija projekcij za obravnavano sliko je pri kotu -2,4?.
\Z
|Gr| =     Grx2 + Gry2
(4.3)
|Gr| = |Grx| + |Gry|
(4.4)
Laplaceova metoda zaznava robove z opazovanjem prehajanja vrednosti drugega reda odvodov slike preko vrednosti 0. Konvulucijska matrika, uporabljena pri metodi, je dimenzije 5 × 5 in je navedena v ena¡cbi 4.5. Algoritem, ki uporablja Laplaceovo metodo, je zelo ob¡cutljiv na ¡sum v sliki.
 -1    -1    -1    -1    -1
-1    -1    -1    -1    -1
-1    -1    24    -1    -1
-1    -1    -1    -1    -1
-1    -1    -1    -1    -1
(4.5)
5
4.3 Dolo¡canje stopnje jakosti aglutinacije kolon
91
(a)
(b)
Slika 4.11: Rotirana slika (a) in njena popravljena verzija (b).
92
4. Sistem za samodejno interpretacijo
Cannyeva metoda   zaznavanja robov velja za optimalen na¡cin zaznavanja robov. [84][85]. Zasnovana je bila na podlagi slede¡cih zahtev:
•  Od algoritma za zaznavanje robov je zahtevan nizek nivo napak. Nizek nivo napak pomeni, da algoritem najde vse robove v sliki in da se ne odziva na objekte, ki niso robovi.
•  Od algoritma je zahtevana dobra definicija lokacije robov. To pomeni, da je razdalja med slikovnim elementom, ki ga je predlagal za rob algoritem, in med resni¡cnim robom, minimalna.
•  Od algoritma je zahtevan le enkraten odziv za vsak rob na sliki.
Algoritem Cannyeve metode ugodi vsem tem zahtevam. Deluje na slede¡c na¡cin: Najprej zgladi sliko in na ta na¡cin izlo¡ci ¡sum. Glajenje slike je izvedeno z uporabo Gausovega filtriranja. Algoritem v nadaljevanju izra¡cuna gradient slike. Na podlagi izra¡cunanega gradienta ozna¡ci podro¡cja slike, ki vsebujejo robove. Gradient slike izra¡cuna algoritem z uporabo Sobelovega operatorja za obe smeri na sliki. Sobelov operator je opisan v ena¡cbah 4.2 in 4.3. V nadaljevanju pregleda dobljena podro¡cja in potla¡ci slikovne elemente, ki nimajo maksimalne vrednosti. Nad dobljenimi podatki izvede operacijo his-¡ tereze. Operacija histereze uporablja dve mejni vrednosti. Ce je vrednost obravnavanega
slikovnega elementa pod spodnjo vrednostjo T1, mu priredi vrednost 0. C¡e je nad zgornjo
¡ vrednostjo T2, potem vrednost prepozna kot rob. Ce pa je vrednost med T1 in T2, potem
¡ slikovnemu elementu algoritem priredi vrednost ni¡c, ¡ce je le-ta osamljen. Ce pa se kje
v okolici slikovnega elementa nahaja slikovni element z vrednostjo ve¡cjo od T2, potem
algoritem tudi ta slikovni element prepozna kot rob.
Na sliki 4.12 je prikazana primerjava posameznih opisanih metod zaznavanja robov na
sliki gelske kartice. Opazimo, da za na¡s problem najbolje deluje Cannyeva metoda.
4.3.1.2    Iskanje podro¡cij posameznih kolon na gelskih karticah
Za nadaljevanje postopka samodejne interpretacije (prvega koraka – ugotavljanje stopnje jakosti aglutinacije v kolonah) smo potrebovali slike posameznih kolon. Vsaka slika gelske kartice vsebuje 6 kolon. Na slikah so poleg za nas zanimivih kolon tudi nezanimivi objekti. Zato je bilo potrebno v nadaljevanju postopka registracije slik gelskih kartic natan¡cno dolo¡citi podro¡cja posameznih kolon, jih izrezati in shraniti. Izkazalo se je, da je med posameznimi zajemi slik gelskih kartic z napravo Gelscope32 mo¡zno odstopanje polo¡zaja
4.3 Doloèanje stopnje jakosti aglutinacije kolon
93
Original                                                     Sobel
Laplace                                                     Canny
Slika 4.12: Primerjava metod za robljenje.
gelske kartice za nekaj milimetrov po oseh x in y. Vzrok za te razlike je uporaba razli¡cnih naprav Gelscope32. Naprave Gelscope32 smo namre¡c izdelali v mali seriji. Zaradi uporabljene prototipne tehnologije in ro¡cnega na¡cina izdelave naprave Gelscope32 mehansko niso povsem enake. Ker so posamezne kolone ¡siroke po 3 milimetre, predstavljajo omenjena odstopanja oviro za uporabo izlo¡canja kolon z metodo fiksno dolo¡cenih podro¡cij. Torej je bilo potrebno podro¡cja kolon dolo¡citi za vsako sliko gelske kartice posebej.
Ker smo na slikah gelskih kartic ¡ze odpravili rotacijo, je bilo potrebno dolo¡citi pra-vokotnike, ki vsebujejo slike posameznih kolon. Ti pravokotniki imajo stranice vzporedne z robovi slike. Na sliki 4.13 smo ilustrirali podro¡cje na sliki gelske kartice, ki nas je zanimalo. Pravokotnike, ki opisujejo to podro¡cje, smo definirali z dvema vektorjema. V prvem so koordinate stranic pravokotnikov na osi x, v drugem pa koordinate stranic na osi y. Ker se vse kolone za¡cnejo na isti vi¡sini, sta v vektorju za os y le dve vrednosti.
Postopek iskanja pravokotnikov, ki opisujejo podro¡cje zanimanja, smo sestavili iz dveh korakov. V prvem smo dolo¡cili lokacije kolon na osi x, v drugem lokacije na osi y. Kolone je bilo razmeroma preprosto najti, ker so preprostih oblik na skoraj povsem uniformnem ozadju. V idelanem primeru bi bilo za dolo¡canje lokacij kolon dovolj, da bi na sliki izbrali
94
4. Sistem za samodejno interpretacijo
Slika 4.13: Podroèje zanimanja na gelski kartici - podroèje kolon.
Slika 4.14: Doloèanje podroèij kolon.
4.3 Doloèanje stopnje jakosti aglutinacije kolon
95
Slika 4.15: Opazovani pas slike za doloèanje lokacije kolon na osi x je izbran tako, da zagotovo vsebuje slike kolon.
eno horizontalno vrstico in v njej poiskali skoke, ki predstavljajo robove kolon. Zaradi šuma in morebitnih madežev smo postopek doloèanja lokacije kolon izboljšali tako, da smo za izraèun lokacije robov izbrali veè vrstic, ki smo jih povpreèili. Ker smo poznali približno lokacijo kolon na sliki, smo najprej iz te izrezali pas, ki je zagotovo vseboval kolone. Pas smo izbrali tako, daje prerezal epruvete približno na sredini. Pas smo doloèili empirièno z opazovanjem veèjega nabora slik gelskih kartic. Glejte sliko 4.15. Vse stolpce izrezanega pasu smo povpreèili in dobili en vektor. V nadaljevanju smo iskali robove kolon iz tega vektorja. Robove smo poiskali tako, da smo dani vektor najprej odvajali. Vsak rob na sliki se je v odvodu manifestiral kot konica. Ker je stena kolon na sliki debelejša kot en slikovni element, sta se za vsako kolono na vsaki strani kolone pojavila dva robova. Za ugotavljanje podroèja kolone je potrebno izbrati zunanjega. To smo storili tako, da smo se s kazalcem postavili na sredino med dve koloni. Lokacijo kazalca smo premikali v levo ali v desno in se približevali posameznim kolonam z leve ali desne strani. Ko smo naleteli na konico (vrednost v izbrani toèki je za izbrani faktor veèja od povpreène vrednosti celega vektorja), smo si njeno lokacijo zabeležili - našli smo zunanji rob kolone. Ta postopek ni našel levega roba skrajno leve kolone in desnega roba skrajno desne kolone. Položaj teh dveh robov smo doloèili na sledeèi naèin: Iz predhodno doloèenih robov 4 kolon na sredini smo izraèunali povpreèno širino kolone na opazovani gelski kartici. Na gelskih karticah so namreè vse kolone enako široke. Ker je algoritem poznal notranje robove skrajnih kolon (desni rob leve kolone in levi rob desne kolone), smo lahko zunanja robova (levi rob leve kolone in desni rob desne kolone) doloèili tako, da smo lokaciji desnega roba leve kolone odšteli širino kolone, levemu robu desne kolone pa to širino prišteli. Iz lokacij zunanjih robov kolon smo sestavili vektor, ki je opisoval lokacije kolon na osi x.
96
4. Sistem za samodejno interpretacijo
Slika 4.16: Opazovana podroèja slike za doloèanje roba y so izbrana tako, da zagotovo vsebujejo spodnje robove kolon. Obravnavana so le podroèja predhodno doloèenih položajev kolon na osi x.
Lokacije kolon na osi y smo doloèili na podoben naèin kot lokacije na osi y. Iskali smo le spodnji del kolon. Iz slike smo izrezali pas, ki je zagotovo vseboval spodnji rob kolon. Pas smo izrezali le iz tistih podroèij slike, ki so bila doloèena kot kolone in ne iz celega podroèja slike. Pas smo doloèili empirièno z opazovanjem veèjega nabora slik gelskih kartic. Glejte sliko 4.16. V dobljenem pasu smo sešteli posamezne vrstice in dobili vektor. Podroèje med spodnjimi robovi kolon in med robom nalepke na gelski kartici ne vsebuje nobenega objekta in je zato bilo najsvetlejše. Potrebno je bilo poiskati zgornji rob tega podroèja. Rob podroèja smo doloèili z upragovljanjem. Prag smo doloèili empirièno z opazovanjem veèjega nabora slik gelskih kartic. Zgornji rob kolone smo doloèili empirièno s konstanto.
Vse vrednosti, doloèene iz slike gelske kartice, smo primerjali z mejnimi vrednostmi, ki smo jih doloèili empirièno. Èe so lokacije kolon odstopale od mejnih vrednosti, smo javili napako.
Ko smo doloèili podroèja kolon na sliki gelske kartice, smo iz slike izrezali slike kolon in vsako shranili v svojo datoteko.
4.3.2    Preslikava slik kolon v vektor porazdelitve eritrocitov
Postopku registracije slik je sledil postopek lušèenja informacije v slikah kolon gelskih kartic, ki je bila potrebna za doloèanje stopnje jakosti aglutinacije. Lušèenje smo sestavili iz dveh korakov. V prvem koraku smo segmentirali slike glede na slikovne elemente, ki predstavljajo aglutinate in na elemente, ki aglutinatov ne predstavljajo.   V drugem
4.3 Doloèanje stopnje jakosti aglutinacije kolon
97
koraku lušèenja smo iz segmentiranih slik izlušèili informacijo o porazdelitvi eritrocitov po višini kolone. Porazdelitev eritrocitov po višini kolone namreè neposredno govori o stopnji jakosti aglutinacije v koloni. Glejte sliko 4.7 d. V nadaljevanju smo predstavili oba koraka lušèenja podatkov.
4.3.2.1     Segmentacija eritrocitov v slikah kolon
Za preslikavo slike posamezne kolone gelske kartice v vektor gostote eritrocitov po višini smo morali iz slike izloèiti in poudariti slikovne elemente, ki predstavljajo eritrocite. Le-ti so rdeèe barve, ki pa je žal od primera do primera razlièna.
Vzroki za razlièno rdeèo barvo so razliène barve gela: prozorna, rumena, modra. Razliène barve gela v kolonah smo predstavili na sliki 4.17. Na razlièno barvo vplivajo tudi razliène gostote skupkov aglutinatov in s tem povezana prosojnost za svetlobo z zadnje strani gelske kartice. Na razlièno barvo vpliva tudi spremenljiva svetilnost uporabljenih osvetljevalnih belih LED v napravah Gelscope32. Po približno pol leta uporabe naprave Gelscope32 smo ugotovili, da se LED starajo in se jim spreminja spekter izsevane svetlobe. Težavo s staranjem LED smo odpravili v naslednji verziji naprave Gelscope80. V napravi Gelscope80 LED ne svetijo veè ves èas, ko je naprava vkljuèena, marveè samo po potrebi, in sicer takrat, ko naprava zajema sliko. S tem ukrepom je drastièno skrajšan èas obratovanja LED, ki se je s 24 ur/dan skrajšal na nekaj minut/dan.
4.3.2.1.1 Segmentacijski algoritmi Potreben je bil razvoj metode, ki kar naj uèinkoviteje loèi slikovne elemente z iskano vsebino od preostanka slike. Za izloèanje slikovnih elementov, ki predstavljajo eritrocite, smo razvili, uporabili in primerjali veè segmentacijskih algoritmov. Vsi algoritmi delujejo v osnovnem prostoru slike [86] in so bili osnovani ne podlagi kombinacije posameznih komponent slikovnih elementov slik v razliènih barvnih prostorih.
Slike gelskih kartic so predstavljene v barvnem prostoru RGB. Barvni prostor je abstrakten matematièni model, ki opisuje naèin, na katerega so predstavljene posamezne barve kot kombinacija razliènega števila številènih vrednosti - komponent [87]. Tipièno število komponent za posamezne prostore je tri ali štiri.
Slike so sestavljene iz množice slikovnih elementov, urejenih v matrike. Posamezno matriko, ki predstavlja sliko, smo oznaèili z S. Vsak element matrike predstavlja en slikovni element te slike. Število komponent elementa je doloèeno s številom kanalov, s katerimi je podana slika. Posamezni kanali slike so predstavljeni kot matrike skalarjev. Tako
98
4. Sistem za samodejno interpretacijo
npr. rdeèi kanal slike SRGB oznaèimo z SR. Slika SRGB v prostoru RGB je sestavljena iz rdeèega, zelenega in modrega kanala, kar smo zapisali kot SRGB = (SR, SG, SB).
Predstavljene segmentacijske algoritme smo razvili na empirièen naèin. Med sabo smo jih primerjali tako, da smo rezultate segmentacije eritrocitov primerjali vizualno in glede na uèinkovitost razvršèanja. Segmentirali smo slike iz nabora uène množice. Vizualna metoda primerjave uèinkovitosti je zajemala primerjavo originalnih slik kolon s segmen-tiraninimi. Kot kriterij za izbor metode smo uporabili najuèinkovitejše loèevanje podroèja z eritrociti od podroèij brez eritrocitov. Glejte sliko 4.17. Pri primerjavi na osnovi uèinkovitosti razvršèanja smo z vsakim opazovanim segmentacijskim algoritmom izvedli segmentacijo, rezultate segmentacije pa smo uporabili kot vhod v postopke strojnega uèenja. Kriterij za izbor je bilo najuèinkovitejše razvršèanje. Kot kriterij za uèinkovitost razvršèanja smo pri vsakem obravnavanem algoritmu opazovali delež pravilno razvršèenih vzorcev. Deleže smo izraèunali iz matrik pravilno in napaèno razvršèenih.
V nadaljevanju smo opisali posamezne razvite segment aci j ske algoritme. Razvili smo 11 metod. Povzetek metod smo podali v tabeli 5.3. Rezultate delovanja algoritmov smo predstavili v podpoglavju 5.3.
R. Od vsake slike kolon gelskih kartic smo za izloèanje in poudarjanje iskanih slikovnih elementov uporabili le rdeèi kanal.
S i—> SR.                                                                    (4.6)
Sivinska slika. Iz osnovne slike SRGB smo za izloèanje in poudarjanje iskanih slikovnih elementov uporabili izraèunano sivinsko sliko - vse kanale slike smo združili v enega.
S^I(S* + S G + S B).                                 (4.7)
Rdeèa krominanèna komponenta prostora YCbCr. Za izloèanje in poudarjanje iskanih slikovnih elementov smo uporabili rdeèo krominanèno komponento SGr slike SYGbCr- Sliko SYGbCr dobimo iz slike SRGB s preslikavo iz prostora RGB v prostor YCbCr.
S i—> SGr.                                                          (4.8)
Iz prostora RGB v YCbCr smo uporabili preiskavo povzeto po viru [88]:
SRGB =   SR, SG, SB   ^ SYGbGr =   SY, SCb, SCr   .                      (4.9)
4.3 Doloèanje stopnje jakosti aglutinacije kolon
99
Posamezne komponente preslikave 4.9 so podane kot:
SY
Cb
S
KrSR + (l-Kr-Kb)SG + KbSB,
i—>
1
2(1 - Kb)
1
SCr   -›
Kb    =
Kr    =    0,299.
(&B

SY
2(1 - Kr) 0,114,
SR - SY
(4.10)
Cr komponenta preslikave je predstavljena na sliki 4.17 (c). Cr kompomenta slike kolone gelske kartice ima na podroèju, ki predstavlja eritrocite dokaj visoke, od niè veliko veèje vrednosti. Ostala podroèja opazovane komponente imajo vrednost skoraj niè v primeru, ko opazovana kolona vsebuje brezbarvni gel in reagente. Glejte sliko 4.17 (c), Prozoren. V primeru, ko je opazovana kolona vsebovala modro obarvan gel, so podroèja, ki niso predstavljala eritrocitov, ampak gel, bila veèja od niè. Glejte sliko 4.17 (c), Moder.
R-G-B. Za izloèanje iskanih slikovnih elementov smo uporabili sledeèi postopek: Najprej smo podroèja poizkusili izloèiti z metodo odštevanja barvnih komponent v RGB barvnem prostoru. Od rdeèe komponente smo odšteli zeleni in modri kanal.
S i—>
(<iR — sG — Ss")
(4.11)
Rezultat operacije smo kot sivinsko sliko predstavili na sliki 4.17. Slika 4.17 (a) predstavlja originalno sliko, slika 4.17 (b) pa rezultat preslikave. Rezultat operacije ima na podroèjih, ki predstavljajo podroèja eritrocitov dokaj visoke od niè razliène vrednosti. Vmesna podroèja imajo vrednosti skoraj enake niè. S to metodo smo zanesljivo doloèili podroèja, ki vsebujejo eritrocite, vendar je metoda poleg teh podroèij vkljuèila v rezultat tudi nezaželena podroèja, predvsem robove kolon.
1-R. Od vsake slike kolon gelskih kartic smo za izlo¡canje in poudarjanje iskanih slikovnih elementov uporabili le inverzni rde¡ci kanal. Vrednosti vseh kanalov slike se nahajajo v intervalu [0..1]
Si—> 1 - SR.
(4.12)

100
4. Sistem za samodejno interpretacijo
Kombinacija upragovljenih metod R-G-B in Cr. Uporaba samo ene metode od dosedaj opisanih ni dala zadovoljivih rezultatov, ker se med razliènimi slikami precej spreminja tako barva slikovnih elementov, ki predstavljajo kri, kot tudi slikovnih elementov, ki eritrocitov ne predstavljajo.
Na rezultatih z obema metodama segmentiranih slik so dobro doloèena podroèja, ki vsebujejo eritrocite. Na obeh rezultatih pa so prisotne tudi napake. Napake so od niè razlièna podroèja rezultatov, na delih, ki ne vsebujejo eritrocitov. Ker so podroèja napak razlièna, podroèja iskanega pa ista, lahko iskano podroèje doloèimo tako, da izraèunamo presek obeh rezultatov. Presek smo izraèunali tako, da smo rezultata med sabo množili. Pred množenjem smo oba rezultata še upragovili in se s tem znebili vrednosti, ki so se od niè malo razlikovale. Rezultat smo predstavili na sliki 4.17 (d).
SR - SG - SB,   SR - SG - SB > 0, lmax (SR - SG - SB) ;
0,                        SR - SG - SB < 0,1 max (SR - SG - SB) ,
SCr,   SCp>0,lmax(SCp);                                                          (4.13)
0,        SCp<0,lmax(SCp),
Sb.
Nelinearno filtriranje 1. Z metodami, ki smo jih poimenovali s skupnim imenom nelinearno filtriranje, smo poizkušali z linearnim kombiniranjem absolutnih vrednosti razlik med posameznimi kanali izloèiti slikovne elemente, ki vsebujejo krvne celice. Metode smo razvili empirièno. Metode so se v postopku analize izkazale kot najuèinkovitejše in so zadovoljivo reševale dani problem.
S,-^|sfl-SB| + |Sfl-SG|.                            (4.14)
Nelinearno filtriranje 2. Metodo nelinearnega filtriranja 1 smo izboljšali z dodatnim èlenom.
S ^ \S R - S G| + \S R - S B\ - |S G - S B\ .                             (4.15)
Nelinearno filtriranje 3. Opazili smo, da metoda nelinearnega filtriranja 2 ne deluje zadovoljivo v primerih, ko so na sliki kolone eritrociti skoraj èrne barve. Zato smo metodo razširili z zaznavanjem eritrocitov èrne barve. Slike kolon s èrnimi eritrociti
Sa   -›
Sb   -› S    -›
4.3 Doloèanje stopnje jakosti aglutinacije kolon
101
Prozoren :
Rumen :
Moder
(a)      (b)      (c)      (d)      (e)
Slika 4.17: Vizualna primerjava obetavnih metod segmentacije slik kolon. (a) – Slika kolone; (b) – Rezultat od¡stevanja komponent SR - SG - SB; (c) – SCr komponenta slike, preslikane v prostor SY CbCr; (d) – Kombinacija upragovljenih slik SB in SCr; (e) –
R
G\
R
B\
B
G



Su . Prikazani so primeri za razliène barve gela - prozorna,
rumena in modra.
smo zaznali s primerjavo razlike vrednosti posameznih barvnih komponent posameznih
¡ slikovnih elementov. Ce se ve¡cina vrednosti slikovnih elementov ni bistveno razlikovala,
je algoritem domneval, da obravnava sliko kolone s ¡crnimi eritrociti.   V tem primeru
je algoritem rezultat segmentacije izra¡cunal s preslikavo na kanalu 1 - SR.  Preslikava
je slikovne elemente z upragovljanjem preslikala v vrednosti 1 ali 0. Prag smo dolo¡cili
¡ eksperimentalno.  Ce algoritem ni zaznal ¡crnih eritrocitov, je za segmentacijo uporabil
metodo nelinearnega filtriranja 2.
S i—>
{Ic-R     cGl — 1-S*
+ Is^-s5! - |sG -sB|
ni èrna, je èrna.
(4.16)
102
4. Sistem za samodejno interpretacijo
Nelinearno filtriranje 4. Najprej smo na slikah izvedli zaznavanje èrne barve eritrocitov na isti naèin, kot je opisano v metodi nelinearnega filtriranja 3. Èe smo zaznali èrne eritrocite, smo sliko obravnavali na enak naèin, kot je opisano v metodi nelinearnega filtriranja 3 za primer èrnih eritrocitov. V nasprotnem primeru pa smo za vsak slikovni element poiskali razliko \SR - SG| in \SR - SB\ ter od veèje odšteli |SG - SB\.

|SB-SG| in |Sfl-SB|
\    i                                  i\        i
max (|SB - SG| , |SB - Ss|   - |SG - Ss| - |SG - Ss| ,   ni èrna, 1 - SR,                                                                             je èrna.
LAB a*. Za izloèanje in poudarjanje iskanih slikovnih elementov smo uporabili Sa* komponento slike SRGB, preslikane v barvni prostor CIE L*a*b* [89]. Barvni prostor CIE L*a*b* je barvni prostor, s katerim najuèinkoviteje opišemo barve, ki jih zaznava zdravo èloveško oko.
S^Sa*.                                                    (4.18)
Prostor LAB je osnovan na komplementarnih barvnih komponentah [90] z dimenzijami SL za luminanco, in S" in Sb za komplementarni barvi. Komplementarne barve so definirane glede na odziv èloveškega oèesa. Komponenta Sa* predstavlja razliko med zeleno in škrlatno, pri èemer negativna vrednost predstavlja zeleno, S6* pa razliko med modro in rumeno, pri èemer negativna predstavlja modro.
Navedbe razvitih in uporabljenih postopkov segnemtacije so zbrane v tabeli 5.3.
4.3.2.2    Preslikava porazdelitve aglutinatov v vektor porazdelitve
Ker poznamo postopek doloèanja stopnje jakosti aglutinacije, ki ga izvajajo specialisti, smo lahko podatke ustrezno obdelali in zadržali le informacijo, ki je bila pomembna za doloèanje stopnje jakosti aglutinacije [39]. Za doloèanje stopnje jakosti aglutinacije je pomembna le porazdelitev eritrocitov po višini gela v koloni [12]. Ob upoštevanju tega dejstva, je projekcija vseh vrednosti slikovnih elementov posamezne kolone na os y primerna metoda lušèenja informacije, ki govori o stopnji jakosti aglutinacije v posamezni koloni. Rezultat projekcije je vektor dimenzije n. Dimenzija n je enaka višini slike kolone izraženi v slikovnih elementih - tipièno 200 (Slika 4.7 - d). Ta vektor smo imenovali vektor projekcije na y in ga oznaèili z xproj. Preslikavo iz slike Sk v vektor projekcije vp7oj smo oznaèili kot fproj(Sk). Vsaka gelska kartica vsebuje šest kolon, zato smo iz vsake gelske kartice dobili šest vektorjev projekcij xproj.
4.3 Doloèanje stopnje jakosti aglutinacije kolon
103
4.3.3    Izraèun vektorja lastnosti
Pri izbiri lastnosti je bilo potrebno izbrati le tiste podatke, ki so pomembni za razvršèanje. Ker smo vedeli, da je za doloèanje stopnje jakosti aglutinacije pomembna porazdelitev aglutinatov po višini kolone, smo v našem primeru to storili v doloèeni meri s preslikavo projekcije slik kolon gelskih kartic in s projekcijo vsebine po višini v en vektor. Dobljeni vektor projekcij za vsako kolono je dolg tipièno 200 elementov.
Pri nadaljnji obdelavi smo iz vektorja projekcij izraèunali nov vektor, ki smo ga imenovali vektor lastnosti xeX. Vektor lastnosti naj bi s èim manj elementi èim bolje loèeval kolone glede na njihovo razlièno stopnjo jakosti aglutinacije, obenem pa naj bi èim bolje združeval kolone glede na isto stopnjo jakosti aglutinacije.
V literaturi smo zasledili veè pristopov za izraèun vektorjev lastnosti [2]. Ugotovitev, kateri od pristopov je za dani problem najuèinkovitejši, ni bila trivialna. Do tega spoznanja smo se dokopali na empirièen naèin. V naši raziskavi smo za izraèun vektorjev lastnosti iz vektorjev projekcij uporabili dva pristopa - metodo PCA in metodo zrnjenja. Za obe metodi smo izbrali število komponent vektorjev lastnosti tako, da smo dobili najboljše rezultate. Kot mero za ugotavljanje najboljših rezultatov smo uporabili uèinkovitost delovanja modela, zgrajenega z metodami strojnega uèenja z uporabo podatkov, ki so smo jih dobili z metodami za izraèun vektorjev lastnosti.
4.3.3.1     Izraèun vektorja lastnosti z metodo PCA
Za izvedbo preslikave vektorjev projekcij xLoj v vektorje lastnosti x G X, ki smo jo oznaèili z f(xLoj),je primerna metoda, imenovana analiza glavnih komponent (ang. principle component analysis) - metoda PCA. Metoda PCA je primerna za iskanje vzorcev v naboru podatkov in za prikaz teh podatkov v taki obliki, da so poudarjene podobnosti in razlike med temi nabori podatkov [14]. Metoda PCA je uporabna pri analizi naborov podatkov velikih dimenzij, saj je možno z njeno uporabo izraèunati preslikavo podatkov v prostor z manj dimenzijami na tak naèin, da se ohrani veèina informacije vhodnih podatkov. Pogosto se jo uporablja v analizi biomedicinskih signalov in podatkov [91] [92] [50]. Rezultat obdelave podatkov z metodo PCA je linearna transformacija koordinatnega sistema, v katerem so predstavljeni obravnavani nabori podatkov v novem koordinatnem sistemu. V njem smeri posameznih osi sovpadajo s smermi, v katerih se obravnavani podatki med sabo najbolj razlikujejo. Smeri novega koordinatnega sistema so med sabo nekorelirane, dobljene komponente pa imajo maksimalno varianco med vsemi
104
4. Sistem za samodejno interpretacijo
nekoreliranimi linearnimi kombinacijam vhodnih podatkov [93].
Metodo PCA smo izvajali nad naborom obravnavanih vhodnih podatkov urejenimi v matrièno obliko. Vhodni podatki metode PCA so bili v matriko urejeni vektorji [xpZji,xProj2, ¦ ¦ ¦, xpZjL], ki so vsebovali posamezne vzorce podatkov. L je število vzorcev uène množice. Rezultat metode PCA je bil sistem lastnih vektorjev te matrike. Z linearno transformacijo smo te podatke preslikali v nov prostor, ki je bil definiran z izraèunanimi lastnimi vektorji. To je bila naša iskana preslikava f(xLoj) za metodo PCA. Kolièina informacije, vsebovana v posamezni komponenti preslikave, je povezana z velikostjo lastne vrednosti komponenti pripadajoèega lastnega vektorja. Ker je veèina informacije tipièno zajeta v prvih n, po velikosti lastnih vrednosti urejenih komponentah celotnega sistema lastnih vektorjev, smo pri nadaljnji obravnavi uporabili le-te komponente. Odloèili smo se za uporabo n lastnih vektorjev, ki nosijo najveè informacije, ostale pa smo zavrgli. Na ta naèin smo zmanjšali dimenzijo vhodnih podatkov in poenostavili nadaljnjo obravnavo. S postopkom optimizacije smo poiskali optimalno število uporabljenih lastnih vektorjev n. Postopek in rezultati optimizacije parametra so opisani v podpoglavju 5.4.2.
4.3.3.2    Izraèun vektorja lastnosti z zrnjenjem - ZRNI
Ker je kriterij za doloèanje stopnje jakosti aglutinacije kolon odvisen od vertikalne porazdelitve eritrocitov v kolonah, stopenj jakosti aglutinacije pa je razmeroma malo, lahko informacijo, potrebno za doloèanje stopnje jakosti aglutinacije, obdržimo tudi v vektorjih, ki imajo moèno zmanjšano število dimenzij. S postopkom ZRNI smo število dimenzij vektorja zmanjšali na n. Vektor porazdelitve smo razdelili na n enako dolgih odsekov. Za vsakega od odsekov smo izraèunali povpreèno vrednost komponent tega odseka. Iz teh povpreènih vrednosti smo sestavili nov vektor lastnosti. To je bila naša iskana preiskava f(xLoj) za metodo ZRNI. Med sabo smo primerjali uèinkovitost delovanja algoritmov strojnega uèenja, ki so uporabljali te vektorje lastnosti v odvisnosti od na razliène dolžine skrajšanih vektorjev lastnosti. Postopek izbire parametra n za metodo ZRNI smo opisali v podpoglavju 5.4.1.
4.3.4    Strojno uèenje
Vektorje lastnosti, ki smo jih izraèunali iz vektorjev projekcij segmentiranih slik kolon gel-skih kartic, smo uporabili za gradnjo in testiranje modelov z metodami strojnega uèenja. Metode smo izvajali z okoljem WEKA. Vektorje lastnosti smo zapisali v ARFF datoteke.
4.4 Doloèanje dokonène interpretacije predtransfuzijske preiskave__________________105
V ARFF datoteke smo dodali pripadajoèe stopnje jakosti aglutinacije. Na ta naèin smo generirali uène in testne nabore podatkov. Generirali smo obširno množico naborov podatkov. Opis generirane množice naborov podatkov je opisan v poglavju 5. V nadaljevanju smo generirali eksperimente za okolje WEKA. Eksperimenti so zajemali test metod strojnega uèenja, navedenih v tabeli 4.1. Za metodo testiranja smo izbrali postopke 10-pregibne navzkrižne validacije. Avtor literature [2] navaja, da s takim pristopom realno ocenimo delovanje modela, nauèenega s sistemom strojnega uèenja.
Grobo primerjavo delovanja metod strojnega uèenja nad razliènimi nabori podatkov iz množice naborov podatkov smo izvedli tako, da smo med sabo primerjali skupne deleže pravilno razvršèenih, doseženih v eksperimentih. Na podlagi grobe primerjave smo izbrali najboljše kandidate in jim namenili podrobnejšo obravnavo. Podrobnejša obravnava je zajemala primerjavo deležev pravilno razvršèenih posameznih razredov doseženih.
Dokonèna odloèitev za najprimernejšo kombinacijo metod je sledila na podlagi izraèuna povpreènega kombiniranega deleža uspešnosti kombinacije kolon za doloèanje rezultata doloèene predtransfuzijske preiskave z gelsko metodo. Za izraèun povpreènega deleža so bile izbrane vse kombinacije stopenj jakosti aglutinacije, ki dajo dokonèen rezultat doloèene preiskave. Kombinacije, ki dajo dokonèen rezultat preiskave, smo odèitali iz pravilnostne tabele, podane v literaturi [3].
4.4    Doloèanje dokonène interpretacije predtransfuzijske preiskave
Za vsako gelsko kartico doloèeni nabor stopenj jakosti aglutinacije kolon predstavlja vmesni rezultat interpretacije predtransfuzijskega testa. Za doloèitev konène interpretacije je potrebno ta vmesni rezultat dokonèno interpretirati. Za vsako predtrans-fuzijsko preiskavo obstaja konèen nabor možnih konènih interpretacij. Podrobnosti so opisane v podpoglavju 3.1.2.2.
Vsak vmesni rezultat interpretacije predtransfuzijske preiskave predstavimo kot n di-menzionalni vektor stopenj jakosti aglutinacije kolon. Vrednosti posameznih elementov tega vektorja so diskretne vrednosti. Vse možne vrednosti, ki jih lahko zavzamejo elementi tega vektorja, so predstavljene v podpoglavju 3.1.2.1. Ker v disertaciji obravnavamo le preiskave, ki zahtevajo za izvedbo le eno gelsko kartico, in ker ima gelska kartica 6 kolon, so ti vektorji najveè 6-dimenzionalni.
106
4. Sistem za samodejno interpretacijo
Posplošitev metode doloèanja dokonènega rezultata preiskave je možna tudi na kompleksnejše predtransfuzijske preiskave. Te preiskave se izvajajo z veè kot le eno gelsko kartico. Kolone teh gelskih kartic razvrstimo v vektor stopnje jakosti aglutinacije, ki ima dimenzijo Mx6, pri èemer je M število v preiskavi uporabljenih gelskih kartic. Pri interpretaciji predtransfuzijske preiskave, ki zajema veè kot eno gelsko kartico, se je potrebno dogovoriti za vrstni red posameznih gelskih kartic, uporabljenih v preiskavi, in ga upoštevati pri generaciji uène množice in pri strojni interpretaciji preiskav.
4.4.1     Zajem podatkov
Zajem podatkov, ki jih potrebujemo za razvoj modela za doloèanje dokonène interpretacije predtransfuzijskih preiskav, smo opisali v podpoglavju 4.2.3. Na sliki 4.6 vidimo, da smo imeli na voljo podatkovno strukturo, ki je vsebovala doloèene stopnje jakosti aglutinacije za v obravnavani gelski kartici vsebovane kolone, tip gelske kartice in rezultat preiskave. Doloène stopnje jakosti aglutinacije za kolone vsebujejo elementi XML dokumenta z imeni tubel-classification do tube6-dassiftcation. Tip gelske kartice vsebuje element z imenom gelcarxLtype. Iz tipa gelske kartice smo ugotovili tip preiskave. Element z imenom diganose vsebuje dokonèno interpretacijo predtransfuzijske preiskave. V programskem jeziku Java smo napisali program, ki iz dokumentov z opisano vsebino generira podatkovne nabore in jih zapiše v ARFF datoteke, ki jih uporabimo v okolju WEKA.
Ker pa je nabor podatkov, ki smo ga zajeli iz sistema za telekonzultacije, vseboval premalo podatkov za uèinkovito gradnjo modela intepretacije za katerokoli od obravnavanih preiskav, smo se odloèili, da nabor generiramo sami iz pravilnostne tabele. Za osnovne predtransfuzijske preiskave namreè obstajajo pravilnostne tabele. V pravilnostnih tabelah so navedene kombinacije stopenj jakosti aglutinacije za posamezne kolone in pripadajoèe interpretacije preiskave.
Poleg osnovnih predtransfuzijskih preiskav obstajajo tudi kompleksnejše predtransfuzijske preiskave, katerih interpretacije ne obstajajo v pravilnostnih tabelah. Z eksperimentom, pri katerem smo podatke generirali iz pravilnostnih tabel, smo dokazali, da je mogoèe za gradnjo modela intepretacije teh preiskav uporabiti metode strojnega uèenja.
Odloèili smo se za obravnavo preiskave: “Doloèanje krvne skupine na gelski kartici humana”. Gelska kartica humana je posebna gelska kartica za doloèanje krvne skupine.
4.4 Doloèanje dokonène interpretacije predtransfuzijske preiskave
107
4.4.2     Strojno uèenje
Za postopek gradnje modelov doloèanja dokonène interpretacije preiskav smo izvedli enak postopek kot pri gradnji modelov za doloèanje stopnje jakosti aglutinacije kolon. V okolju WEKA smo zgradili eksperiment, s katerim smo preizkusili uèinkovitost modelov interpretacije, zgrajenih z algoritmi strojnega uèenja, navedenimi v tabeli 4.1.
Grobo primerjavo delovanja metod strojnega uèenja nad razliènimi nabori podatkov iz množice naborov podatkov smo izvedli tako, da smo med sabo primerjali skupne deleže pravilno razvršèenih, doseženih v posameznih eksperimentih. Na podlagi grobe primerjave smo izbrali najboljše kandidate in jim namenili podrobnejšo obravnavo. Podrobnejša obravnava je zajemala primerjavo posameznih interpretacij in njihove dosežene deleže pravilno doloèenih.
Dokonèno odloèitev za najprimernejšo kombinacijo metod smo podali na podlagi izraèuna povpreènega kombiniranega deleža uspešnosti, doseženega s kombinacijo deleža uspešnosti doloèanja vektorjev z doloèenimi stopnjami jakosti aglutinacije ter pripadajoèo dokonèno intepretacijo rezultata preiskave.
4.4.3    Ocenjevanje uèinkovitosti modela dokonènega napovedovanja rezultatov
Validacijo modela interpretacije vektorjev z doloèenimi stopnjami jakosti aglutinacije v kolonah v konène rezultate posameznih preiskav smo izvedli na podoben naèin kot validacijo modela doloèanja stopnje jakosti aglutinacije v kolonah, ki smo jo predstavili v poglavju 3.3.4. Rezultate navzkrižne validacije posameznih modelov smo zapisali v matriko pravilnih in napaènih razvrstitev. Metodo navzkrižne validacije smo opisali v podpoglavju 3.3.4.3. Metodo navzkrižne validacije smo uporabili zato, ker je nabor podatkov, ki smo ga zbrali za gradnjo in testiranje modelov vseboval premalo vzorcev.
Iz matrike pravilnih in napaènih razvrstitev smo izraèunali skupni delež pravilno razvršèenih, kot tudi delež pravilno razvršèenih za vsakega od posameznih razredov. Delež pravilno razvršèenih za vsakega od posameznih razredov smo v nadaljevanju kombinirali z deležem uspešnosti, ki smo ga izraèunali za uporabljeni vektor z doloèenimi stopnjami jakosti aglutinacije.
108
4. Sistem za samodejno interpretacijo
4.5    Uèinkovitost interpretacije predtransfuzijskih preiskav - kombinacija modela doloèanja stopnje jakosti aglutinacije in modela dokonène interpretacije
Rezultate meritev uèinkovitosti samodejne interpretacije predtransfuzijskih preiskav smo izraèunali iz združenih rezultatov meritev uèinkovitosti modela za doloèanje stopnje jakosti aglutinacije in modela za dokonèno interpretacijo preiskav. Rezultat smo predstavili kot delež uspešnosti za vsak posamezen možen rezultat, ki ga je napovedala kombinirana uporaba modela za doloèanje stopnje jakosti aglutinacije in modela za dokonèno interpretacijo preiskav. Na podlagi najvišjega povpreènega rezultata deleža uspešnosti izbrane kombinacije postopkov smo se odloèili za kombinacijo postopkov, ki je pripeljala do tega rezultata.
4.5.1    Delež uspešnosti
Za vsak dokonèen strojno predlagan rezultat preiskave želimo poznati delež uspešnosti. Delež uspešnosti je normirana vrednost, ki pove, v kolikšni meri lahko zaupamo rezultatu modela strojne interpretacije. Z deležem uspešnosti smo opremili vsak samodejno interpretirani rezultat. Vrednost deleža uspešnosti se nahaja v intervalu med 0 in 1. Vrednost 0 pomeni, daje rezultat zagotovo napaèen, vrednost 1 pa pomeni, daje rezultat zagotovo pravilen. Realno je prièakovati, da vrednost deleža uspešnosti ne bo nikoli zavzela vrednosti natanèno 1 ali 0. Ob izraèunu deleža uspešnosti smo privzeli, daje bila uèna množica pravilna in smiselna. Izraèun deleža uspešnosti za posamezno interpretacijo rezultata preiskave smo izvedli za vsak opravljen in konèan postopek interpretacije. Izraèunali smo ga iz podatkov o deležu pravilno doloèenih rezultatov (ang. precission) posameznih, v seriji uporabljenih modelov za vsak možen rezultat. Z uporabo deleža uspešnosti smo lahko med sabo primerjali posamezne rezultate interpretacije preiskav. Ker je pravilnost delovanja sistema odvisna od posameznih modelov in uènih množic, ki smo jih uporabili za gradnjo teh modelov, smo lahko s spremljanjem pravilnosti delovanja sistema identificirali slabo delujoèe modele sistema. Modeli so lahko slabi zato, ker so bile za njihovo gradnjo uporabljene neprimerne metode strojnega uèenja ali pa zato, ker je bila za njihovo gradnjo uporabljena neprimerna uèna množica. Slabe modele lahko popravimo tako, da popravimo uèno množico za gradnjo teh modelov in jih z metodami strojnega uèenja ponovno zgradimo ali pa izberemo druge, uèinkovitejše metode strojnega uèenja.   Na ta naèin
4.5 Uèinkovitost interpretacije preiskav
109
smo lahko s spreminjanjem posameznih parametrov sistema eksperimentalno izboljševali celotno delovanje sistema.
Za oceno deleža uspešnosti smo za prvi korak - doloèanje stopnje jakosti aglutinacije z modelom, dobljenim s postopkom strojnega uèenja v posameznih kolonah za vsako od doloèenih stopenj jakosti aglutinacije, zapisali verjetnost, da je le-ta pravilna. Model je namreè ugotavljal razliène stopnje jakosti aglutinacije razlièno dobro.
Model je stopnjo jakosti aglutinacije v koloni doloèil tako, da je kolono razvrstil v enega od razredov. Verjetnost, da je bila stopnja jakosti aglutinacije, ki jo je predlagal model, pravilna, smo izraèunali iz matrike pravilnih in napaènih razvrstitev modela. Posamezne razrede so predstavljale posamezne stopnje jakosti aglutinacije. Verjetnost, da je bila doloèena stopnja jakosti aglutinacije prava, je bila enaka deležu pravilno razvršèenih vzorcev v doloèen razred med vsemi vzorci, razvršèenimi v ta razred. Ta delež smo izraèunamo iz matrike pravilno in napaèno razvršèenih, ki smo jo ocenili v postopku evaluacije modela sistema.
Ker se vsaka preiskava opravi z uporabo ene gelske kartice, na kateri je 6 kolon, smo morali v prvem koraku za vsako preiskavo šestkrat uporabiti model doloèanja stopnje jakosti aglutinacije. Rezultat prvega koraka, doloèanja stopnje jakosti aglutinacije, je bil vektor, ki smo ga oznaèili z dg, s šestimi komponentami, ki smo jih oznaèili z an. Vsaka komponenta predstavlja doloèeno stopnjo jakosti aglutinacije za posamezno kolono gelske kartice. Vektor je pravilen, èe so pravilne vse komponente tega vektorja. Privzeli smo, da so dogodki, da so stopnje jakosti aglutinacije v posameznih kolonah doloèene pravilno, neodvisni. Zato je ocenjena verjetnost, daje pravilen cel vektor, enaka produktu verjetnosti p([an G OK]), da so posamezne kolone razvršèene pravilno. Verjetnost, da je celoten vektor pravilen, smo oznaèili s p([dg G OK]).
Komponenta dg	Verjetnost, da je pravilna
Cti	p([ai e OK])
(12	p([a2 G OK])
a3	p([a3 G OK])
a4	p([a4 G OK])
a5	p([a5 G OK])
de	p([a6 G OK])
Tabela 4.2: Verjetnosti, da je posamezna komponenta vektorja pravilna.
110
4. Sistem za samodejno interpretacijo
p{ [dg G OK]) = U6n=1p( [an G OK])                                       (4.19)
V  drugem koraku smo na podlagi vektorja stopenj jakosti aglutinacije, doloèenega v prvem koraku, z modelom dokonène interpretacije doloèili dokonèno interpretacijo preiskave, ki smo jo oznaèili z r. Ta model ni deloval idealno in je v doloèenih primerih naredil napako. Za vsako posamezno interpretacijo, ki jo je napovedal, smo iz matrike pravilno in napaèno razvršèenih, ki smo jo izmerili v postopku validacije modela, ocenili verjetnost, daje rezultat r pravilen. Verjetnost ocene pravilnosti delovanja drugega koraka smo oznaèili z p([r2 G OK]). Ocenili smo jo kot delež pravilno razvršèenih vzorcev v doloèen razred.
Ker je konèna interpretacija odvisna od pravilnosti prvega in drugega koraka, smo najslabšo oceno verjetnosti p([r G OK]), da je konèna interpretacija pravilna, izraèunali tako, da smo množili verjetnosti p([dg G OK]) in p([r2 G OK])
p{[r G OK]) = p([dg G OK]) p([r2 G OK]).                            (4.20)
Prièakujemo, da je bila verjetnost, da je interpretacija pravilna, višja od ocenjene, saj smo upoštevali najslabši možni primer: že ena napaèna vrednost v vektorju lastnosti x je pomenila napaènost celega vektorja lastnosti. Znano je, da razlika med doloèenimi stopnjami jakosti aglutinacije ni velika. Zato lahko v mnogih primerih razliène stopnje jakosti aglutinacije v doloèenih kolonah pripeljejo do iste konène interpretacije preiskav.
V  nadaljevanju smo predstavili eksperimentalno ugotovljene rezultate kombinacije posameznih opisanih pristopov za reševanje posameznih problemov.
Poglavje 5
Rezultati eksperimentov
V prièujoèem poglavju smo predstavili rezultate eksperimentov uporabe razliènih metod za reševanje posameznih problemov pri gradnji sistema za samodejno interpretacijo pred-transfuzijskih preiskav. Opazovali smo vpliv izbire metod in parametrizacijo teh metod na konèno uèinkovitost sistema. Mera za konèno uèinkovitost je bila delež uspešnosti pri interpretaciji predtransfuzijskih preiskav. Loèeno smo obravnavali vpliv segmentacijskih metod, vpliv izbire in parametrizacije metod izraèuna vektorjev lastnosti, izbire algoritma strojnega uèenja za gradnjo modela doloèanja stopnje jakosti aglutinacije in izbire algoritma strojnega uèenja za doloèanje dokonène interpretacije preiskave.
5.1     Oznaèevanje kombinacije uporabljenih algoritmov
Za lažjo in preglednejšo predstavitev rezultatov smo za oznaèevanje kombinacije uporabljenih algoritmov za izraèun stopnje jakosti aglutinacije izbrali sledeèi naèin:
[PCA/ZRNI] {pammeter} S {naèm segmentacije] M {metoda stwjnega uèenja}
Primer imenovanja metode, pri kateri smo vektorje lastnosti raèunali z zrnjenjem, pri kateri izraèunali vektorje lastnosti s šestimi komponentami iz vektorjev projekcij, katere smo izraèunali iz slik, segmentiranih z metodo nelinearnega filtriranja 1 in smo nabor teh vektorjev lastnosti uporabili za gradnjo modela z metodo strojnega uèenja drevesa, J84 je “ZRNI6 S7M36”.
111
112
5. Rezultati eksperimentov
5.2     Sestava uène/testne množice
5.2.1     Stopnje jakosti aglutinacije uporabljenih kolon uène/testne množice
V množici slik kolon slik gelskih kartic smo imeli na voljo 182 slik kolon. Vse slike so bile opremljene s pripadajoèo stopnjo jakosti aglutinacije. Povzetek vsebine uène/testne množice kolon s pripadajoèimi stopnjami jakosti aglutinacije smo predstavili v tabeli 5.1. Obstaja še stopnja jakosti aglutinacije DCP - dvojna celièna populacija, ki se zaradi redkosti pojavljanja v èasu trajanja zbiranja podatkov v okviru naše raziskave v sistemu za telekonzultacije ni pojavila. Zato je manjkala v našem naboru testnih/uènih podatkov in je v raziskavi nismo obravnavali.
¡ tevil¡cna    oznaka	Stopnja jakosti aglutinacije	¡ tevilo kolon
stopnje		
1	Prazno	21
2	NEG	74
3	1+	9
4	2+	14
5	3+	11
6	4+	53
Tabela 5.1: Specifikacija porazdelitve stopnje jakosti aglutinacije 182, v postopek strojnega u¡cenja zajetih kolon.
5.2.2    Dokonèna interpretacija - KS
V splošni transfuzijski praksi se izvaja veè razliènih tipov preiskav z gelsko metodo. Vsem preiskavam je skupno, da uporabljajo isti diagnostièni pripomoèek: gelske kartice. Posamezne preiskave se med sabo razlikujejo po protokolu ravnanja z vzorci, vzorcih in reagentih, uporabljenimi za obdelavo vzorcev, in reagentih v posameznih kolonah gelskih kartic. Glede na v gelski kartici uporabljene reagente se le-te razlikujejo med sabo in so specifiène za posamezne preiskave.
Zaèetni del postopka interpretacije rezultatov preiskav je za vse preiskave enak. Najprej se v kolone gelske kartice s pipeto nakaplja vzorce krvi. Vzorci krvi v kolonah razlièno reagirajo - aglutinirajo. Gelske kartice se po konèani reakciji centrifugira. V nadaljevanju postopka sledi odèitavanje stopnje jakosti aglutinacije za vsako od šestih kolon.
5.3 Rezultati segmentacijskih algoritmov
113
Dolo¡canju stopnje jakosti aglutinacije v vsaki od ¡sestih kolon sledi za vsak tip preiskave specifi¡cna interpretacija kombinacije dolo¡cenih stopenj jakosti aglutinacije. Najpogosteje uporabljene preiskave so na¡stete v podpoglavju 1.1.
Ker smo imeli v ¡casu nastajanja tega dela na voljo premajhno u¡cno mno¡zico za ustrezno testiranje, smo mno¡zico za simulacijo in preizkus delovanja ro¡cno generirali iz pravilnostne tabele. Odlo¡cili smo se za preiskavo: dolo¡canje krvne skupine. Ostale, pogosto uporabljene preiskave so podane v podpoglavju 3.1.2.2.
Postopek dolo¡canja krvne skupine poteka z gelsko kartico humana [3]. Z gelsko kartico humana se dolo¡ci krvna skupina krvi. Rezultati dolo¡canja krvne skupine z gelsko kartico humana, povzeti po literaturi [3], so: A, B, AB, AB ot ali 0.
Generiran podatkovni nabor je vseboval 1.296 vzorcev, ki so bili sestavljeni iz stopenj jakosti aglutinacije v kolonah 1:AntiA, 2:AntiB, 5:A1 in 6:B in pripadajo¡ce interpretacije rezultatov. Specifikacijo smo podali v tabeli 5.2.
Rezultat	Število rezultatov
A	20
B	16
AB	6
ABot	10
0	23
/	1221
Tabela 5.2: Specifikacija porazdelitve rezultatov krvne skupine v podatkovnem naboru, generiranem na podlagi literature [3].
5.3    Rezultati analize izbire za dani problem optimalnih segmentacijskih algoritmov
Med sabo smo primerjali u¡cinkovitost uporabe razli¡cnih segmentacijskih algoritmov na razvr¡s¡canje slik kolon gelskih kartic v enega od ¡sestih razredov. Za gradnjo u¡cne/testne mno¡zice smo imeli na voljo 182 slik kolon gelskih kartic z dolo¡ceno stopnjo jakosti agluti-nacije. Specifikacijo podatkov u¡cne mno¡zice smo podali v tabeli 5.1.
5.3.1    Opis eksperimenta
Z obravnavanimi segmentacijskimi algoritmi smo dani nabor slik kolon gelskih kartic seg-mentirali in iz segmentiranih slik izra¡cunali vektorje lastnosti. Obravnavane segmentacij-
114
5. Rezultati eksperimentov
ske algoritme smo podali v tabeli 5.3.
Za izra¡cun vektorjev lastnosti smo uporabili dve metodi. To sta metoda zrnjenja – ZRNI in metoda analize glavnih komponent – PCA. Metodi sta opisani v podpoglavju 4.3.3. Pri obeh metodah smo spreminjali ¡stevilo komponent vektorja lastnosti, v katerega sta ti metodi preslikali vektor projekcij.
Dobljene vektorje lastnosti smo opremili s pripadajo¡cimi stopnjami jakosti agluti-nacije in na ta na¡cin dobljene podatkovne nabore zapisali v datoteko v podatkovnem formatu ARFF. Te podatkovne nabore smo uporabili kot u¡cno in testno mno¡zico v metodah strojnega u¡cenja. Z vsakim od podatkovnih naborov smo zgradili in preizkusili model dolo¡canja stopnje jakosti aglutinacije z 49 metodami strojnega u¡cenja. Seznam uporabljenih metod smo predstavili v tabeli 4.1. Ker so bili posamezni nabori podatkov omejeni, smo za preizkus delovanja dobljenih modelov uporabili metodo navzkri¡zne validacije in na ta na¡cin u¡cinkovito preizkusili obna¡sanje posameznih algoritmov na danem naboru podatkov. Gradnja in preizku¡sanje 49 modelov na vsakem od podatkovnih naborov so predstavljali en eksperiment, ki smo ga pognali v okolju WEKA. Eksperiment je vseboval zagonske parametre za posamezne algoritme strojnega u¡cenja, zajete v raziskavo. Za celoten postopek smo generirali zbirko 352 eksperimentov. Z na¡cinom poganjanja eksperimentov, opisanem v podpoglavju 4.2.2.2, smo za izvajanje eksperimentov porabili 11 dni.
Segmentacijske algoritme za segmentacijo slik kolon gelskih kartic smo napisali v programskem okolju Matlab. Predhodno smo pripravili datoteke, ki so vsebovale posamezne slike kolon gelskih kartic in datoteke z meta-podatki, ki so zajemali imena datotek s slikami in pripadajo¡ce oznake razredov. Z algoritmom v Matlabu smo prebrali meta-podatke iz datotek, nalo¡zili slike, izvedli segmentacijske algoritme in postopke za izra¡cun vektorjev lastnosti. V nadaljevanje smo podatke za vsako kombinacijo segmentacijskega algoritma in postopka za izra¡cun vektorjev lastnosti zapisali v ARFF datoteko. Imena ARFF datotek smo izbrali tako, da so opisovala izbrani segmentacijski algoritem in postopek za izra¡cun vektorjev lastnosti.
5.3.2    Uporabljeni segmentacijski algoritmi
Segmentacijske algoritme, uporabljene za segmentacijo slikovnih elementov, ki predstavljajo eritrocite v slikah kolon gelskih kartic, smo predstavili v tabeli 5.3. Obravnavali smo 11 razli¡cnih segmentacijskih algoritmov. Algoritmi so opisani v podpoglavju 4.3.2.1. Ker
5.3 Rezultati segmentacijskih algoritmov
115
v tem trenutku raziskave ¡se ni bilo znano, kako bo izbira posamezne segmentacijskega algoritma vplivala na nadaljnje postopke, smo opazovali rezultate pri uporabi vseh seg-mentacijskih algoritmov v kombinaciji z vsemi metodami za izra¡cun vektorjev lastnosti in algoritmi strojnega u¡cenja. V nadaljevanju smo predstavili na¡cin kombiniranja teh metod.
Številèna    oznaka	Ime algoritma
algoritma	
1	R
2	Sivinska
3	Cr
4	R-G-B
5	1 - R
6	prag(R-G-B)*prag(Cr))
7	Nelinearno filtriranje 1
8	Nelinearno filtriranje 2
9	Nelinearno filtriranje 3
10	Nelinearno filtriranje 4
11	LAB a*
Tabela 5.3: Specifikacija segmentacijskih algoritmov, s katerimi smo segmentirali v postopek strojnega u¡cenja zajete slike kolon. Podroben opis se nahaja v podpoglavju 4.3.2.1.
5.3.2.1    Metode za izra¡cun vektorjev lastnosti
V raziskavi smo uporabili ve¡c razli¡cnih metod za izra¡cun vektorjev lastnosti kolon. Uporabili smo metodo zrnjenja in metodo PCA. Vektorje lastnosti s pripadajo¡cimi rezultati za posamezen nabor podatkov smo zapisali v ARFF datoteke. Te datoteke smo uporabili v WEKA-i.
5.3.2.1.1    Zrnjenje – ZRNI   Spreminjali smo ¡stevilo komponent vektorja lastnosti,
ki smo ga izra¡cunali z metodo zrnjenja iz vektorjev projekcije slik kolon gelske kartice na
¡ os y. Stevilo komponent smo spreminjali v intervalu [1..15]. Na ta na¡cin smo za vsak tip
segmentacije izdelali 15 naborov podatkov. Za testiranje u¡cinkovitosti razvr¡s¡canja kolon
glede na uporabljen segmentacijski algoritem pri izra¡cunu vektorja lastnosti z zrnjenjem
smo pripravili skupaj 11 × 15 = 165 naborov podatkov.
5.3.2.1.2    PCA   Spreminjali smo ¡stevilo komponent, ki smo jih obdr¡zali in iz njih
¡ tvorili vektorje lastnosti.   Stevilo obdr¡zanih komponent smo ozna¡cili z n.   Raziskavo
116
5. Rezultati eksperimentov
smo izvedli za obdržano število komponent v intervalu [L.17]. Za vsak tip segmentacije smo izdelali 17 naborov podatkov. Za testiranje uèinkovitosti razvršèanja kolon glede na uporabljen segmentacijski algoritem pri izraèunu vektorja lastnosti s PCA smo pripravili skupaj 11 x 17 = 187 naborov podatkov.
5.3.3    Primerjava metod uèinkovitosti segmentacije
Ko smo zakljuèili z izvajanjem 352 eksperimentov za preizkus in parametrizacijo metod ZRNI in PCA, smo imeli na voljo podrobne rezultate delovanja vseh 49 metod strojnega uèenja za vsak podatkovni nabor. Iz datotek z rezultati eksperimentov smo izbrali parameter deleža pravilno doloèenih stopenj jakosti aglutinacije za vsak algoritem strojnega uèenja in te rezultate primerjali med sabo. Za grobo izbiro najbolje delujoèih algoritmov segmentacije smo narisali potek deleža pravilno razvršèenih za posamezne algoritme strojnega uèenja za posamezne eksperimente. Empirièno smo izbrali tiste eksperimente, pri katerih je bil dosežen najvišji delež pravilno doloèenih stopenj jakosti aglutinacije.
Iz slike 5.1 lahko razberemo, kako uporaba posameznih segmentacijskih algoritmov pri uporabi metode izraèuna vektorjev lastnosti ZRNI vpliva na uèinkovitost delovanja algoritmov strojnega uèenja. Ker smo se v tej toèki raziskave ukvarjali z izbiro za dani problem najboljšega segment acij skega algoritma, so nas zanimali le najboljši rezultati deleža pravilno razvršèenih. Najboljši rezultati so deleži pravilno razvršèenih, ki so najbližje 100 %. Na sliki 5.1 smo narisali poteke deleža uspešnosti doloèanja stopnje jakosti aglutinacije slik kolon s posameznimi algoritmi strojnega uèenja, uporabljenimi v raziskavi. Na osi x smo navedli številène oznake segmentacijskih algoritmov, na osi y pa deleže uspešnosti razvršèanja. Za vsakega od enajstih segmentacijskih algoritmov smo dobili 49 rezultatov deležev uspešnosti 49 modelov doloèanja stopnje jakosti aglutinacije, ki smo jih kot toèke vrisali v graf. Narisali smo veè grafov - vsak predstavlja uporabo doloèenega, v glavi grafa navedenega števila komponent vektorja lastnosti, izraèunanega z metodo zrnjenja. Na sliki 5.2 smo na enak naèin predstavili podatke pri uporabi metode PCA za izraèun vektorjev lastnosti. Narisanih je veè grafov, vsak za svoje število obdržanih komponent.
Z opazovanjem slik 5.1 in 5.2 smo ugotovili, da je vzorec uspešnosti algoritmov strojnega uèenja v odvisnosti od izbranega segment acij skega algoritma podoben za razliène naèine pridobivanja vektorjev lastnosti. To pomeni, da uporaba segment acij skega algoritma daje podobne rezultate pri uporabi razlièno parametriziranih algoritmov za izraèun vektorjev lastnosti.   Èe npr.   segment acij ski algoritem 9 deluje dobro pri ZRNI2, deluje
5.3 Rezultati segmentacijskih algoritmov
117
Uèinkovitost segmentacije. Zrnjenje. Število komponent = 1
Uèinkovitost segmentacije. Zrnjenje. Število komponent = 2
					
					
					
					
	».......			......'......i	N .......1.......
1       i		i	j	1 i :	
'......1.......	«	!	H.		
					
si		.......iS.......		.......x.......	
					
Algoritem segmentacije
Jèinkoviiosi segmeniacije. Zrnjenje. Število komponent = 4
Algoritem segmentacije
Jèinkoviiosi segmeniacije. Zrnjenje. Šievilo komponeni = 13
		
	......¦.......;..............j..............I......!......,	1
	i i   '     :   '	
.....................i..................i......,......i......:.......		*
..........«.j......i.........L.....L,......		.......iS.......
x          :                      :          i          :          jj          : i  i  :  ; m !  i  ,		
	:           N           :           g           :	
		
		
		
::.......t-l......!¦¦¦¦
.....i.......«.......I.......!.......!.......I.......t...............!.......:
-......i.......!.......;.......I.......i.......j...............!.......k......i.......;
¦¦:      i-« i-i
_..............t.......«.......".......„.......;.......*.......t..............!.......*
*      :              :      x      :      x      :              :
-......*.......i.......x.......\.......iS.......\...............;................;.........
„......%.......X.......X.......X.......!Š.......X.......X.......X.......X......X.......X
x              :                               '¦              x              '¦
*                                     i       'i       i                         i                         i
Algoritem segmentacije
Jèinkoviiosi segmeniacije. Zrnjenje. Šievilo komponeni = 6
!                           !                           !                           ! ¦     i     i           i           i     i	
t       •       i       i       t       *       «       *       *	.......iS......-Si
i   f       :   M   M	Si
"......i.......\.......».......\.......:.......i.......*.......i................	
.....\...............j.......i.......j........!.....	
¦             ¦      x      ¦	
;            ;            ;	
	
	
Algoritem segmentacije
Jèinkoviiosi segmeniacije. Zrnjenje. Šievilo komponeni = 15
-i.......i.......*.......i..............i.......!.......t.......*......i.......!
i     i      >     M      :     «     '            ' -......*.......:.......x.......*.......*.......;.......s.......:................:.........
i                             x      i      *      i      x      ;                              ;
-......X.......X.......X.......X.......X.......X.......X-.......X.......X......X.......X
"..............:...............i................:...............................
Algoritem segmentacije
Algoritem segmentacije
Slika 5.1: Uèinkovitost razliènih algoritmov strojnega uèenja, uporabljenih v raziskavi, ob izbiri razliènih algoritmov segmentacije. Vektorji lastnosti so bili izraèunani z metodo zrnjenja. V napisih nad slikami je podano število komponent, na katere je bila razdeljena projekcija slike posameznih kolon. V tem trenutku obravnave so pomembne toèke z najvišjim deležem uspešnosti.
























118
5. Rezultati eksperimentov
Uèinkovitost segmentacije. PCA. Število komponent = 1
Uèinkovitost segmentacije. PCA. Število komponent = 2
			
			
		...............:..............!......!......,	
		..............i..............'............	
		1        *   * ...............8...............:................	S
.....! i.......j........i I.......f			K
-......9.......		|           :	x
			
		x	
			
Algoritem segmentacije
Jèinkoviiosi segmeniacije. PCA. Število komponent = 10
		X	
•   '   i   i		s	
1 ! ¦ i ! ? i			X
"......i.......	i      *      *      i      ¦,		.......a......
	x          :          x          :          N		
			
x	:		
			
			
			
Algoritem segmentacije
Jèinkoviiosi segmeniacije. PCA. Šievilo komponeni = 14
	.......i.......i...............8...............	
i         i    i		J     |      j
rili!		"                   «                   X x          x
-.............	x          %          %           :           ^	.......X......|.......K......
x	x          :                     ¦         *	
		
	:	
		
		
		
				
			..............J......!.......	1
	X	............... 1	i   x ¦	s
1	.,	I	i X                    X .......i.......;...............	x x
x			.....L;.........	x
	x			
x			.......x.......x.......x.......	
				
				
				
Algoritem segmentacije
Jèinkoviiosi segmeniacije. PCA. Šievilo komponeni = 12
_..............I.......i.......i...............i...............i...................... t,
i     i     i            lil                  I
_......i.......l.......x.......1.......i.......I.......I.......'.......I.......I...... I
l**       ¦       škilil
-......x.......1.......x.......*.......*.......Š...............*.......i.......x...... x
$       \       *       *       $       *       n       \       *       x
Algoritem segmentacije
Jèinkoviiosi segmeniacije. PCA. Šievilo komponeni = 17
!                          !                          !                          !                          ! i   i   i       i       i   i   :   ,			
i e! I i 11 ¦ i p i			
!   =   !   i   !   i   i   '			K
	.......i.......!.......i.......¦..............'		K
X	y  x  :   i  i		
......X.......	.......x.......*.......x.......%.......x......¦>		......x            _
			
			
	1                      1		
Algoritem segmentacije
Algoritem segmentacije
Slika 5.2: Uèinkovitost razliènih algoritmov strojnega uèenja, uporabljenih v raziskavi, ob izbiri razliènih algoritmov segmentacije. Vektroji lastnosti so bili izraèunani z metodo PCA. V napisih nad slikami je podano število lastnih vektorjev, ki smo jih obdržali. V tem trenutku obravnave so pomembne toèke z najvišjim deležem uspešnosti.
























5.3 Rezultati segmentacijskih algoritmov
119
Uèinkovitost segmentacije. Zrnjenje. Število komponent = 6 1001----------------------------1----------------------------1----------------------------1----------------------------1----------------------
0                     2                     4                     6                     8                    10                   12
Algoritem segmentacije
Slika 5.3: Uèinkovitost razliènih algoritmov strojnega uèenja, uporabljenih v raziskavi, ob izbiri razliènih segmentacijskih algoritmov. Za izraèun vektorja lastnosti je izbran algoritem zrnjenja ZRNI6.
dobro tudi pri ZRNI15.
Ob podrobnejšem ogledu slike 5.3 smo ugotovili, da smo najboljše rezultate dosegli pri uporabi segmentacijskega algoritma številka 9. V vrh najuspešnejših pa so se se uvrstili tudi segmentacijski algoritmi 2, 3, 4, 6 in 8. Zrnjenje ZRNI6 je bilo izbrano zato, ker smo pri analizi, opisani v podpoglavju 5.4, ugotovili, da smo z na ta naèin pridobljenimi vektorji lastnosti dosegli najvišje deleže pravilno doloèenih stopenj jakosti aglutinacije.
Èe smo za izraèun vektorja lastnosti izbrali metodo PCA, smo ugotovili, da so algoritmi strojnega uèenja najuspešnejši, èe smo obdržali prvih 10 komponent. Natanènejšo analiza števila obdržanih komponent smo podali v podpoglavju 5.4. Uspešnost doloèanja stopnje jakosti aglutinacije smo predstavili na sliki 5.4. Ugotovili smo, da najboljše rezultate dosežemo pri uporabi segment aci j skega algoritma številka 9. V vrh uspešnosti pa so se uvrstili tudi segmentacijski algoritmi 2, 3, 4, 6 in 8.
120
5. Rezultati eksperimentov
Uèinkovitost segmentacije. PCA. Število komponent = 10
100
90 -
80 -


70
60
50
40
30
20
10
				! X					X		
		1	.. M.. . X	¦1...........		¦j.......r		i l	X		¦ ¦ X......" y
	%		X	!     ,		!   1			H		s N X
	"""¦""	¦ ¦ x- ¦		¦ ¦ N.......I- ¦							
	1	x K	x	!   1		X		%	X	1	X X X
	.. .x... X X <	¦¦¦&¦¦¦	X	i   i		'"!		X	X	X X	N
							X				
	X X		X		X X		M				
											
	X		X		s                           X		i                   X		X	X	X
	X				X		...............................:...............-				
I							i                        i				
6 Algoritem segmentacije
10
12
Slika 5.4: Uèinkovitost razliènih algoritmov strojnega uèenja, uporabljenih v raziskavi, ob izbiri razliènih segmentacijskih algoritmov. Za izraèun vektorja lastnosti je izbran algoritem PCA, ki za preslikavo podatkov v novi prostor uporabi prvih 10 lastnih vektorjev.

5.4 Rezultati metod izraèuna vektorjev lastnosti
121
5.4    Rezultati analize optimalne metode za izraèun vektorjev lastnosti
V predstavljeni analizi smo izbirali optimalno metodo za izraèun vektorjev lastnosti. Op-timalnost metode smo merili glede na uèinkovitost doloèanja stopnje jakosti aglutinacije z modeli, zgrajenimi z algoritmi strojnega uèenja. Algoritmi strojnega uèenja so za gradnjo teh modelov uporabili vektorje lastnosti, ki smo jih izraèunali z obravnavanimi metodami. Za merilo uèinkovitosti razvršèanja smo izbrali delež pravilno razvršèenih vzorcev za posamezni podatkovni nabor. Eksperiment je podoben eksperimentu, ki smo ga opisali v podpoglavju 5.3.1. Obravnavali smo dva algoritma. Prvi je algoritem zrnjenja - ZRNI, drugi pa je algoritem analize glavnih komponent - PCA. Za oba algoritma smo spreminjali število komponent izraèunanih vektorjev lastnosti in opazovali delovanje modelov. V nadaljevanju smo za oba algoritma predstavili loèeno obravnavo izbire števila komponent.
5.4.1     Algoritem za izraèun vektorjev lastnosti z zrnjenjem
V prièujoèem podpoglavju smo predstavili obravnavo rezultatov algoritma za izraèun vektorjev lastnosti z zrnjenjem. Podroben opis algoritma smo podali v podpoglavju 4.3.3.2.
5.4.1.1     ZRNI: Vpliv izbranega števila komponent na uspešnost algoritmov strojnega uèenja
Raziskali smo vpliv algoritma za izraèun vektorja lastnosti z zrnjenjem na uèinkovitost razvršèanja. Algoritem vektor projekcije razdeli na enako dolge odseke in za vsakega izraèuna njegovo srednjo vrednost. Na ta naèin smo opazovano kolono razdelili na segmente in ugotavljali, v katerih segmentih se nahajajo eritrociti. Dobljene srednje vrednosti smo zapisali v vektor lastnosti. V eksperimentu smo spreminjali število komponent, na katere je algoritem razdelil vektor projekcije segmentirane slike gelske kartice in opazovali uèinkovitost delovanja algoritmov strojnega uèenja pri uporabi podatkovnih naborov, sestavljenih iz teh vektorjev lastnosti.
Iz nabora slik registriranih slik kolon gelskih kartic, opremljenih z doloèitvami stopenj jakosti aglutinacije smo z razliènimi segmentacijskimi algoritmi in projekcijo segmenti-ranih slik na os y generirali vektorje projekcij, iz katerih smo z algoritmom zrnjenja generirali posamezne vektorje lastnosti. Iz vektorjev lastnosti s pripadajoèimi klasifikacijami smo generirali posamezne podatkovne nabore.  Za vsako opazovano število kompo-
122
5. Rezultati eksperimentov
Uèinkovitost razvršèanja od števila komponent
100---------------------------------------------------------------------------------------------------------
95-----------------------------------------                                   .                        ^------------^
90---------------------------------------------------------------------------------------------------------
 85---------------------------------------------------------------------------------------------------------
 80---------------------------------------------------------------------------------------------------------
 75-------------------
 70---------------------------------------------------------------------------------------------------------
 65---------------------------------------------------------------------------------------------------------
60        *------------------------------------------------------------------------------------------------
55-------------------
50---------------------------------------------------------------------------------------------------------
0      1      2      3      4      5      6      7      8      9     10    11     12    13    14    15
Število komponent
Slika 5.5: Vpliv izbranega števila komponent vektorja lastnosti izraèunanega z algoritmom za izraèun vektorjev lastnosti z zrnjenjem na uèinkovitost razvršèanja z algoritmi strojnega uèenja. Analiza je izvedena za število komponent v intervalu [L.15].
nent vektorjev lastnosti smo generirali svoj podatkovni nabor. Analizo smo izvedli za število komponent v intervalu [L. 15]. Podatkovne nabore smo zapisali v ARFF datoteko in generirali eksperiment, kot je opisano v podpoglavju 4.2.2. Za vsak nabor podatkov smo izvedli eksperiment, ki je zajemal preizkus delovanja postopka posameznih algoritmov strojnega uèenja z metodo navzkrižne validacije. V rezultatih eksperimentov smo poiskali maksimalno doseženo uspešnost strojnega uèenja, doseženo nad podatkovnimi nabori, generiranimi z vsemi kombinacijami enajstih segmentacijskih algoritmov in 49 algoritmov strojnega uèenja. Maksimalno uspešnost smo ocenili iz deleža pravilno razvršèenih vzorcev posameznega podatkovnega nabora. Rezultate smo predstavili na sliki 5.5. Ugotovili smo, da se delež pravilno razvršèenih strmo poveèuje do števila komponent n = 4, po tem pa delež pravilno razvršèenih ne narašèa veè bistveno. Kot optimalno izbiro števila komponent smo izbrali n = 6.
5.4 Rezultati metod izraèuna vektorjev lastnosti
123
5.4.2     Algoritem za izraèun vektorjev lastnosti z metodo PCA
Raziskali smo vpliv algoritma za izraèun vektorja lastnosti z metodo PCA na uèinkovitost razvršèanja. Podrobnejši opis algoritma smo podali v podpoglavju 4.3.3.1. Metoda PCA je primerna za iskanje vzorcev v naboru podatkov in za prikaz teh podatkov v taki obliki, da so poudarjene podobnosti in razlike med temi nabori podatkov [14]. Metoda PCA je posebej uporabna pri analizi naborov podatkov velikih dimenzij, saj je možno z njeno uporabo izraèunati preslikavo podatkov v prostor z manj dimenzijami na tak naèin, da se ohrani veèina informacije vhodnih podatkov.
5.4.2.1     Izbira števila komponent vektorja lastnosti s PCA
V naši raziskavi smo spreminjali število uporabljenih komponent, dobljenih z metodo PCA, za izraèun vektorjev lastnosti. Pri raziskavi smo preizkusili, kako dodajanje posameznih komponent vpliva na uèinkovitost algoritmov strojnega uèenja. Eksperiment smo zaèeli z uporabo le prve komponente za vektor lastnosti in nadaljevali tako, da smo dodajali naslednje. To smo ponavljali do sedemnajste komponente.
Ob pregledu slike 5.6 ugotovimo, da dokaj visok delež pravilno razvršèenih dosežemo že z uporabo samo prve komponente. Uporaba nadaljnjih dveh (skupaj 3) še bistveno doprinese k deležu pravilno razvršèenih, po tem pa se doseženi maksimalni delež uspešnosti ne spreminja veè bistveno. Opazimo, da je dosežen najvišji delež uspešnosti pri desetih uporabljenih komponentah. Ker je graf deleža pravilno razvršèenih v odvisnosti od izbranega števila komponent narašèajoèa funkcija, predvidevamo, da z uporabo v literaturi pogosto predlagane metode, ki svetuje izpušèanje prvih nekaj komponent, ne bi izboljšali uspešnosti.
5.4.3     Primerjava uèinkovitosti doloèanja stopnje jakosti agluti-nacije pri uporabi algoritma za izraèuna vektorjev lastnosti z metodo zrnjenja in PCA
Med sabo smo primerjali uèinkovitost uporabe algoritmov za izraèun vektorjev lastnosti z metodo zrnjenja in PCA na uspešnost razvršèanja vzorcev z algoritmi strojnega uèenja. Analizirali smo uèinkovitost razvršèanja podatkovnih naborov, katerih vektorji lastnosti so bili generirani z metodo zrnjenja in metodo PCA. Eksperimenta smo opisali v podpoglavjih 5.4.1 in 5.4.2.
124
5. Rezultati eksperimentov

100 95 90 85 80 75 70 65 60 55 50
Uèinkovitost razvršèanja od števila komponent
^        ^        ^        ^        ^L                   &.        -K
0    1     2     3     4     5     6     7     8     9    1011   1213141516   17
Število komponent
Slika 5.6: Vpliv izbranega števila komponent algoritma PCA za izraèun vektorjev lastnosti na uèinkovitost razvršèanja z algoritmi strojnega uèenja. Analiza je izvedena za število komponent v intervalu [L. 17].
5.4 Rezultati metod izraèuna vektorjev lastnosti
125

100
95 90 85 80 75 70 65 60 55 50
Primerjava algoritmov PCA in ZRNI
O
9   o   $   °
o
 iJ: -Q   ®= * ^ ~G   cr
o     PCA *     ZRNI
max(ZRNI) max(PCA)
Slika 5.7: Primerjava doseženega deleža uspešnosti pri uporabi razlièno parametriziranih metod ZRNI in PCA za izraèun vektorjev lastnosti iz vektorjev projekcij segmentiranih slik kolon. Upoštevani so najvišji doseženi deleži pravilno razvršèenih med rezultati uporabljenih 49 metod strojnega uèenja.
Rezultat primerjave smo predstavili na sliki 5.7. Na sliki smo predstavili dosežene uspešnosti doloèanja stopnje jakosti aglutinacije z modeli, zgrajenimi z algoritmi strojnega uèenja. S èrtkanimi èrtami smo oznaèili dosežena maksimuma za vsakega od uporabljenih algoritmov. Ugotovili smo, da smo z uporabo metod PCA in ZRNI dosegli primerljive rezultate. V poglavju 5.4.2 smo ugotovili, da je metoda PCA najuèinkovitejša ko se odloèimo za 10 lastnih vektorjev, v podpoglavju 5.4.1 pa smo ugotovili, da je metoda ZRNI najuèinkovitejša, ko se odloèimo za 6 komponent.
126
5. Rezultati eksperimentov
5.5    Rezultati  analize  primernosti  metod  strojnega uèenja za doloèanje stopnje jakosti aglutinacije
Raziskali smo uèinkovitost metod strojnega uèenja za doloèanje stopnje jakosti aglutinacije slik kolon gelskih kartic. Preizkusili in med sabo smo primerjali uèinkovitost 49 razliènih metod. V raziskavo vkljuèene metode smo navedli v tabeli 4.1.
5.5.1    Izbira naèina izraèuna vektorjev lastnosti
Podrobno analizo naèinov izraèuna vektorjev lastnosti smo podali v podpoglavju 5.4. Na slikah 5.8 in 5.9 smo predstavili relativno uèinkovitost delovanja algoritmov strojnega uèenja pri posameznem naèinu izraèuna vektorjev lastnosti. Uèinkovitost je predstavljena relativno glede na najuspešnejši algoritem za dani naèin izraèuna vektorjev lastnosti. Prikazali smo po dva primera uporabljenih, najbolje delujoèih segmentacijskih algoritmov s kompletnim, v eksperiment zajetim podroèjem izraèuna. Primera sta prikazana za oba algoritma izraèuna vektorjev lastnosti (PCA in ZRNI).
Posamezne toèke v grafu smo izraèunali tako, da smo od deleža uspešnosti za opazovani algoritem odšteli delež uspešnosti najuspešnejšega algoritma za doloèen naèin izraèuna vektorjev lastnosti.
Za najuspešnejši algoritem je bil rezultat odštevanja 0, za vse ostale pa manj kot 0. Na slikah 5.8 in 5.9 opazimo, da vsi uporabljeni algoritmi strojnega uèenja po celotnem podroèju naèina izraèuna vektorjev lastnosti dosegajo primerljive deleže uspešnosti. Zato lahko na slikah opazimo konstantne doline in grebene v smeri podroèja izraèuna vektorjev lastnosti. Èe je npr. algoritem strojnega uèenja 12 uspešenejši od algoritma 37 pri izraèunu vektorjev lastnosti z npr. ZRNI6 S9, bo algoritem 12 verjetno uspešnejši od algoritma 37 tudi pri izraèunu vektorjev lastnosti z npr. ZRNI10 S4. Èe bi se relativna uèinkovitost metod med sabo zelo spreminjala v odvisnosti od izbranega naèina izraèuna vektorjev lastnosti, na slikah ne bi opazili posameznih grebenov in dolin, marveè bi opazili le nakljuèno razporejene konièaste vrhove.
Zato smo lahko izbrali najboljši segment aci j ski algoritem in ustrezno parametrizirali metodo izraèuna vektorjev lastnosti in pri izbranem med sabo primerjali in podrobno analizirali uèinkovitost posameznih algoritmov strojnega uèenja.
S predhodno opisanimi eksperimenti smo ugotovili, da smo najboljše rezultate doloèanja stopnje jakosti aglutinacije slik gelskih kartic dosegli v primeru, ko smo vektorje lastnosti
5.5 Rezultati strojnega uèenja - aglutinacija
127
Primerjava uèinkovitosti metod. PCA, Segmentacija = 4
0
-10 -20 --30 --40 --50
-60
0
-20 -
-40 -
-60
-80
30                                       ~~T                  n vektorjev
40                50     20
Metoda Primerjava uèinkovitosti metod. PCA, Segmentacija = 9
30
40
50
20             n vektorjev
Metoda
Slika 5.8: Primerjava posameznih metod strojnega uèenja pri vektorjih lastnosti izraèunanih z metodo PCA glede na maksimalno uspešnost razvršèanja, doseženo z uporabljenimi parametri. Vidimo, da se posamezne metode strojnega uèenja v podroèju izraèuna vektorjev lastnosti obnašajo podobno uèinkovito.
0
0
0
128
5. Rezultati eksperimentov
Primerjava uèinkovitosti metod. ZRNI, Segmentacija = 2
Metoda Primerjava uèinkovitosti metod. ZRNI, Segmentacija = 9
Metoda
Slika 5.9: Primerjava posameznih metod strojnega uèenja pri vektorjih lastnosti izraèunanih z metodo ZRNI glede na maksimalno uspešnost razvršèanja, doseženo z uporabljenimi parametri. Vidimo, da se posamezne metode strojnega uèenja v podroèju izraèuna vektorjev lastnosti obnašajo podobno uèinkovito.
5.5 Rezultati strojnega uèenja - aglutinacija
129
100 95 90 85  80  75  70  65  60 55 50 45 40	Uèinkovitost razvršèanja. PCA. Segmentacija = 9																									
																										
				*	*	*													*							
		*	*				*						*	*	*											
																										
																										
																										
																										
																										
																										
																										
																										
																										
0     2     4     6     8    10   12   14   16   18   20   22   24   26   28   30   32   34   36   38   40   42   44   46   48   50
Metoda
Slika 5.10: Uèinkovitost algoritmov strojnega uèenja na razvršèanje (delež pravilno razvršèenih) pri PCA10 S9.
izraèunali z metodo PCA, pri kateri smo obdržali prvih 10 lastnih vektorjev. Najboljše rezultati smo dosegli, ko smo za izraèun vektorjev lastnosti uporabili vektorje projekcij segmentiranih slik, segmentiranih z metodo 9 (PCA10 S9). Primerljive rezultate smo dosegli z uporabo metode ZRNI, pri kateri smo vektorje projekcije razdelili na 6 delov in za segmentacijo uporabili segmentacijski algoritem 9 (ZRNI6 S9).
5.5.2    Izbira kandidatov za optimalen algoritem strojnega uèenja
Analizirali smo izbiro najbolje delujoèih algoritmov strojnega uèenja. Analizo smo izvedli na modelih doloèanja stopnje jakosti aglutinacije, zgrajenimi z 49 razliènimi algoritmi strojnega uèenja. Za analizo smo pripravili dva podatkovna nabora. Za izraèun vektorjev lastnosti za uporabljena nabora smo uporabili najbolje delujoèi kombinaciji metod PCA10
130
5. Rezultati eksperimentov
S9 in ZRNI6 S9.
V  analizi delovanja modelov zgrajenih, z algoritmi strojnega u¡cenja z uporabo podatkovnega nabora, pridobljenega z metodo PCA10 S9 smo ugotovili, da se je najbolje obnesel algoritem strojnega u¡cenja 12: IBk [59] z dele¡zem pravilno razvr¡s¡cenih 93.52 %. Po uspe¡snosti za njim ni veliko zaostajal algoritem 37: LMT [8]. Rezultate vseh 49 algoritmov smo predstavili v tabeli 5.4 in ilustrirali na sliki 5.10.
V  analizi delovanja modelov, zgrajenih z algoritmi strojnega u¡cenja z uporabo podatkovnega nabora, pridobljenega z metodo ZRNI6 S9 smo ugotovili, da so se najbolje obnesli algoritmi 39: RandomForest [9] (93,62 %), 23: LogitBoost [67] (93,79 %), 12: IBk [59] (91,44 %) in 16: AttributeSelectedClassifier [4][5] (92,7 %). Rezultate vseh 49 algoritmov smo predstavili v tabeli 5.5 in ilustrirali na sliki 5.11.
5.5 Rezultati strojnega uèenja - aglutinacija
131
Oznaka	Tip metode	Ime metode	Delež pravilno razvršèenih
1	bayes	BayesNet [2]	86,09 %
2	bayes	ComplementNaiveBayes [51]	74,18 %
3	bayes	NaiveBayes [2]	88,07 %
4	bayes	NaiveBayesMultinomial [52]	80,8 %
5	bayes	NaiveBayesUpdateable [53]	88,07 %
6	functions	Logistic [54]	86,98 %
7	functions	MultilayerPerceptron [55]	91,47 %
8	functions	RBFNetwork [56]	88,4 %
9	functions	SimpleLogistic [57]	91,68 %
10	functions	SMO [58]	87,86 %
11	lazy	IB1 [59]	91,66 %
12	lazy	IBk [59]	93,52 %
13	lazy	KStar [60]	88,19 %
14	lazy	LWL [61]	69,24 %
15	meta	AdaBoostMl [62]	69,24 %
16	meta	AttributeSelectedClassifier [4] [5]	85,5 %
17	meta	Bagging [63]	85,99 %
18	meta	ClassificationViaRegression [64]	87,91 %
19	meta	CVParameterSelection [65]	40,68 %
20	meta	Decorate [6]	88,29 %
21	meta	FilteredClassifier [4] [5]	84,29 %
22	meta	Grading [66]	40,68 %
23	meta	LogitBoost [67]	89,29 %
24	meta	MultiBoostAB [68]	69,24 %
25	meta	MultiClassClassifier [4] [5]	87,85 %
26	meta	MultiScheme [4] [5]	40,68 %
27	meta	OrdinalClassClassifier [4] [5]	86,65 %
28	meta	RacedlncrementalLogitBoost [4] [5]	40,68 %
29	meta	RandomCommittee [4] [5]	88,45 %
30	meta	Stacking [69]	40,68 %
31	meta	StackingC [70]	40,68 %
32	meta	Vote [4][5]	40,68 %
33	misc	HyperPipes [4] [5]	84,17 %
34	misc	VFI [71]	79,27 %
35	trees	DecisionStump [72]	69,24 %
36	trees	J48 [7]	84,33 %
37	trees	LMT [8]	91,74 %
38	trees	NBTree [73]	86,35 %
39	trees	RandomForest [9]	89,55 %
40	trees	RandomTree [4] [5]	78,24 %
41	trees	REPTree [4] [5]	84,72 %
42	rules	ConjunctiveRule [4] [5]	69,24 %
43	rules	DecisionTable [74]	85,55 %
44	rules	JRip [10]	85,88 %
45	rules	NNge [75]	89,61 %
46	rules	OneR [76][2]	77,14 %
47	rules	PART [11]	85,01 %
48	rules	Ridor [4] [5]	86,7 %
49	rules	ZeroR[2][4][5]	40,68 %
Tabela 5.4: Delež pravilno razvršèenih z modeli zgrajenimi s posameznimi algoritmi strojnega uèenja. Za generiranje vektorja lastnosti smo uporabili prvih 10 komponent, izraèunanih z metodo PCA. Uporabili smo vektorje projekcije, izraèunane iz slik, segmen-tiranih z metodo 9. (PCA10 S9)
132
5. Rezultati eksperimentov
100 95 90 85  80  75  70  65  60 55 50 45							Uèinkovitost razvršèanja. ZRNI.								Segmentacija = 9.										
																									
	*								*   *			*								*	*		*		
		( *	* >				*																		
																									
																									
																									
																									
																									
																									
																									
																									
																									
0     2     4     6     8    10   12   14   16   18   20   22   24   26   28   30   32   34   36   38   40   42   44   46   48   50
Metoda
Slika 5.11:    Uèinkovitost  algoritmov strojnega uèenja na razvršèanje  (delež  pravilno razvršèenih) pri ZRNI6 S9.
5.5 Rezultati strojnega uèenja - aglutinacija
133
Oznaka	Tip metode	Ime metode	Delež pravilno razvršèenih
1	bayes	BayesNet [2]	91,48 %
2	bayes	ComplementNaiveBayes [51]	86,82 %
3	bayes	NaiveBayes [2]	87,68 %
4	bayes	NaiveBayesMultinomial [52]	70,89 %
5	bayes	NaiveBayesUpdateable [53]	87,68 %
6	functions	Logistic [54]	88,34 %
7	functions	MultilayerPerceptron [55]	91,05 %
8	functions	RBFNetwork [56]	89,66 %
9	functions	SimpleLogistic [57]	90,76 %
10	functions	SMO [58]	87,15 %
11	lazy	IB1 [59]	89,59 %
12	lazy	IBk [59]	91,44 %
13	lazy	KStar [60]	88,95 %
14	lazy	LWL [61]	70,56 %
15	meta	AdaBoostMl [62]	69,79 %
16	meta	AttributeSelectedClassifier [4] [5]	92,7 %
17	meta	Bagging [63]	93,5 %
18	meta	ClassificationViaRegression [64]	91,15 %
19	meta	CVParameterSelection [65]	40,68 %
20	meta	Decorate [6]	91,26 %
21	meta	FilteredClassifier [4] [5]	90,38 %
22	meta	Grading [66]	40,68 %
23	meta	LogitBoost [67]	93,79 %
24	meta	MultiBoostAB [68]	69,79 %
25	meta	MultiClassClassifier [4] [5]	90,28 %
26	meta	MultiScheme [4] [5]	40,68 %
27	meta	OrdinalClassClassifier [4] [5]	89,38 %
28	meta	RacedlncrementalLogitBoost [4] [5]	40,68 %
29	meta	RandomCommittee [4] [5]	91,09 %
30	meta	Stacking [69]	40,68 %
31	meta	StackingC [70]	40,68 %
32	meta	Vote [4][5]	40,68 %
33	misc	HyperPipes [4] [5]	88,92 %
34	misc	VFI [71]	78,4 %
35	trees	DecisionStump [72]	69,79 %
36	trees	J48 [7]	90,82 %
37	trees	LMT [8]	90,99 %
38	trees	NBTree [73]	90,06 %
39	trees	RandomForest [9]	93,62 %
40	trees	RandomTree [4] [5]	84,8 %
41	trees	REPTree [4] [5]	91,86 %
42	rules	ConjunctiveRule [4] [5]	69,79 %
43	rules	DecisionTable [74]	85,89 %
44	rules	JRip [10]	90,7 %
45	rules	NNge [75]	91,31 %
46	rules	OneR [76][2]	73,4 %
47	rules	PART [11]	89,45 %
48	rules	Ridor [4] [5]	90,06 %
49	rules	ZeroR[2][4][5]	40,68 %
Tabela 5.5: Delež pravilno razvršèenih z modeli zgrajenimi s posameznimi algoritmi strojnega uèenja. Za generiranje vektorja lastnosti smo vektor projekcije z metodo ZRNI razdelili na 6 delov. Uporabili smo vektorje projekcije, izraèunane iz slik segmentiranih z metodo 9. (ZRNI6 S9)
134
5. Rezultati eksperimentov
V nadaljevanju analize postopkov strojnega uèenja smo podrobneje raziskali dosežene rezultate delovanja modelov doloèanja stopnje jakosti aglutinacije. Izraèunali smo deleže pravilno razvršèenih za vsak posamezen razred - stopnjo jakosti aglutinacije, v katerega so modeli razvršèali vzorce. Deleže smo izraèunali iz matrik pravilno in napaèno razvršèenih, ki smo jih dobili v postopku validacije modelov. Analizo smo opravili za kombinacijo dveh metod izraèuna vektorjev lastnosti PCA10 S9 in ZRNI6 S9 z algoritmi strojnega uèenja 12: IBk [59], 17: Bagging [63], 23: LogitBoost [67], 37: LMT [8] in 39: RandomForest [9].
Razvr¡s¡ceno:     Prazno    NEG    1+    2+    3+    4+
Prazno
NEG
1+
2+
3+
4+
 21
0
0       0
0
0

0	74	0	0	0	0
0	4	4	1	0	0
0	1	0	11	1	1
0	0	0	0	8	3
3	0	0	0	1	49
Tabela 5.6: Matrika pravilno in napaèno razvršèenih ZRNI6 S9 M12.
Iz dane matrike pravilnih in napaènih razvrstitev, podane v tabeli 5.6, smo izraèunali sledeèe deleže pravilno razvršèenih in jih podali v tabeli 5.7:
Razred	Dele¡z pravilno razvr¡s¡cenih
Prazno	87,5 %
NEG	93,7 %
1+	100 %
2+	91,7 %
3+	80%
4+	92,5 %
Tabela 5.7: Delež pravilno razvršèenih za eksperiment ZRNI6 S9 M12.
Razvr¡s¡ceno:     Prazno    NEG    1+    2+    3+    4+
Prazno		21	0	0	0	0	0
NEG		0	72	2	0	0	0
1+		0	3	6	0	0	0
2+		0	0	0	14	0	0
3+		0	0	0	0	10	1
4+		4	0	0	0	1	48
Tabela 5.8: Matrika pravilno in napaèno razvršèenih ZRNI6 S9 M17.
5.5 Rezultati strojnega uèenja - aglutinacija
135
Iz dane matrike pravilnih in napaènih razvrstitev, podane v tabeli 5.8, smo izraèunali sledeèe deleže pravilno razvršèenih in jih podali v tabeli 5.9:
Razred	Dele¡z pravilno razvr¡s¡cenih
Prazno	84%
NEG	96%
1+	75%
2+	100 %
3+	90,9 %
4+	98%
Tabela 5.9: Delež pravilno razvršèenih za eksperiment ZRNI6 S9 M17.
Razvr¡s¡ceno:     Prazno    NEG    1+    2+    3+    4+
Prazno
NEG
1+
2+
3+
4+
 21
0
0       0
0
0

0	73	1	0	0	0
0	4	5	0	0	0
0	0	1	13	0	0
0	0	0	1	10	0
3	0	0	0	1	49
Tabela 5.10: Matrika pravilno in napaèno razvršèenih ZRNI6, S9, M23.
Iz dane matrike pravilnih in napaènih razvrstitev, podane v tabeli 5.10, smo izraèunali sledeèe deleže pravilno razvršèenih in jih podali v tabeli 5.11:
Razred	Dele¡z pravilno razvr¡s¡cenih
Prazno	87,5 %
NEG	94,8 %
1+	71,4 %
2+	92,9 %
3+	90,9 %
4+	100 %
Tabela 5.11: Delež pravilno razvršèenih za eksperiment ZRNI6, S9, M23.
Razvr¡s¡ceno:     Prazno    NEG    1+    2+    3+    4+
Prazno		21	0	0	0	0	0
NEG		0	71	3	0	0	0
1+		0	3	6	0	0	0
2+		0	0	0	13	1	0
3+		0	0	0	1	8	2
4+		3	0	0	0	2	48
Tabela 5.12: Matrika pravilno in napaèno razvršèenih ZRNI6 S9 M37-
136
5. Rezultati eksperimentov
Iz dane matrike pravilnih in napaènih razvrstitev, podane v tabeli 5.12, smo izraèunali sledeèe deleže pravilno razvršèenih in jih podali v tabeli 5.13:
Razred	Dele¡z pravilno razvr¡s¡cenih
Prazno	87,5 %
NEG	95,9 %
1+	66,7 %
2+	92,9 %
3+	72,7 %
4+	96%
Tabela 5.13: Delež pravilno razvršèenih za eksperiment ZRNI6 S9 M37-
Razvr¡s¡ceno:     Prazno    NEG    1+    2+    3+    4+
Prazno
NEG
1+
2+
3+
4+
 21
0
0       0
0
0

0	73	0	1	0	0
0	3	5	1	0	0
0	0	0	14	0	0
0	0	0	0	9	2
3	0	0	0	1	49
Tabela 5.14: Matrika pravilno in napaèno razvršèenih ZRNI6 S9 M39.
Iz dane matrike pravilnih in napaènih razvrstitev, podane v tabeli 5.14, smo izraèunali sledeèe deleže pravilno razvršèenih in jih podali v tabeli 5.15:
Razred	Dele¡z pravilno razvr¡s¡cenih
Prazno	87,5 %
NEG	96,1 %
1+	100 %
2+	87,5 %
3+	90%
4+	96,1 %
Tabela 5.15: Delež pravilno razvršèenih za eksperiment ZRNI6 S9 M39.
Razvr¡s¡ceno:     Prazno    NEG    1+    2+    3+    4+
Prazno		21	0	0	0	0	0
NEG		0	74	0	0	0	0
1+		0	1	6	2	0	0
2+		0	0	0	13	1	0
3+		0	0	0	0	9	2
4+		4	0	0	0	2	47
Tabela 5.16: Matrika pravilno in napaèno razvršèenih PCA10 S9 M12.
5.5 Rezultati strojnega uèenja - aglutinacija
137
Iz dane matrike pravilnih in napaènih razvrstitev, podane v tabeli 5.16, smo izraèunali sledeèe deleže pravilno razvršèenih in jih podali v tabeli 5.17:
Razred	Dele¡z pravilno razvr¡s¡cenih
Prazno	84%
NEG	98,7 %
1+	100 %
2+	86,7 %
3+	75%
4+	95,9 %
Tabela 5.17: Delež pravilno razvršèenih za eksperiment PCA10 S9 M12.
Razvr¡s¡ceno:     Prazno    NEG    1+    2+    3+    4+
Prazno
NEG
1+
2+
3+
4+
 21
0
0       0
0
0

1	72	1	0	0	0
0	5	1	3	0	0
0	0	1	12	0	1
0	0	0	0	4	7
3	0	0	0	1	49
Tabela 5.18: Matrika pravilno in napaèno razvršèenih PCA10 S9 M17.
Iz dane matrike pravilnih in napaènih razvrstitev, podane v tabeli 5.18, smo izraèunali sledeèe deleže pravilno razvršèenih in jih podali v tabeli 5.19:
Razred	Dele¡z pravilno razvr¡s¡cenih
Prazno	84%
NEG	93,5 %
1+	33,3 %
2+	80%
3+	80%
4+	86%
Tabela 5.19: Delež pravilno razvršèenih za eksperiment PCA10 S9 M17.
Razvr¡s¡ceno:     Prazno    NEG    1+    2+    3+    4+
Prazno		21	0	0	0	0	0
NEG		1	71	2	0	0	0
1+		0	4	5	0	0	0
2+		0	1	0	11	2	0
3+		0	0	0	1	6	4
4+		3	0	0	0	3	47
Tabela 5.20: Matrika pravilno in napaèno razvršèenih PCA10 S9 M23.
138
5. Rezultati eksperimentov
Iz dane matrike pravilnih in napaènih razvrstitev, podane v tabeli 5.20, smo izraèunali sledeèe deleže pravilno razvršèenih in jih podali v tabeli 5.21:
Razred	Dele¡z pravilno razvr¡s¡cenih
Prazno	84%
NEG	93,4 %
1+	71,4 %
2+	91,7 %
3+	54,5 %
4+	92,2 %
Tabela 5.21: Delež pravilno razvršèenih za eksperiment PCA10 S9 M23.
Razvr¡s¡ceno:     Prazno    NEG    1+    2+    3+    4+
Prazno
NEG
1+
2+
3+
4+
 21
0
0       0
0
0

0	74	0	0	0	0
0	2	6	1	0	0
0	0	0	13	1	0
0	1	0	0	6	4
3	0	0	0	2	48
Tabela 5.22: Matrika pravilno in napaèno razvršèenih PCA10 S9 M37.
Iz dane matrike pravilnih in napaènih razvrstitev, podane v tabeli 5.22, smo izraèunali sledeèe deleže pravilno razvršèenih in jih podali v tabeli 5.23:
Razred	Dele¡z pravilno razvr¡s¡cenih
Prazno	87,5 %
NEG	96,1 %
1+	100 %
2+	92,9 %
3+	66,7 %
4+	92,3 %
Tabela 5.23: Delež pravilno razvršèenih za eksperiment PCA10 S9 M37.
Razvr¡s¡ceno:     Prazno    NEG    1+    2+    3+    4+
Prazno		21	0	0	0	0	0
NEG		1	73	0	0	0	0
1+		0	1	7	1	0	0
2+		0	0	1	12	1	0
3+		0	0	0	0	8	3
4+		3	0	0	0	3	47
Tabela 5.24: Matrika pravilno in napaèno razvršèenih PCA10 S9 M39.
5.6 Rezultati modelov dokon¡cne interpretacije preiskav
139
Iz dane matrike pravilnih in napaènih razvrstitev, podane v tabeli 5.24, smo izraèunali sledeèe deleže pravilno razvršèenih in jih podali v tabeli 5.25:
Razred	Delež pravilno razvršèenih
Prazno	84%
NEG	98,6 %
1+	87,5 %
2+	92,3 %
3+	66,7 %
4+	94%
Tabela 5.25: Dele¡z pravilno razvr¡s¡cenih za eksperiment PCA10 S9 M39.
Podatke, ki smo jih predstavili v tem podpoglavju, smo uporabili v analizi najbolj¡se kombinacije algoritmov za celoten sistem za samodejno interpretacijo rezultatov pred-transfuzijskih preiskav. Analizo smo podali v podpoglavju 5.7. V slede¡cem poglavju pa smo podali analizo izbire algoritmov strojnega u¡cenja za izvedbo drugega koraka samodejne interpretacije predtransfuzijskih preiskav: dolo¡canja dokon¡cne interpretacije rezultatov preiskav.
5.6    Rezultati modelov dokon¡cne interpretacije preiskav
V drugem koraku samodejne interpretacije predtransfuzijskih preiskav je potrebno na podlagi dolo¡cenih stopenj jakosti aglutinacije v posameznih kolonah gelskih kartic, pridobljenih v prvem koraku, dolo¡citi dokon¡cno interpretacijo preiskave.
5.6.1    Samodejna interpretacija preiskave KS
Izvedeli smo ob¡siren eksperiment, v katerem smo preizkusili u¡cinkovitost modelov dolo¡canja dokon¡cne interpretacije preiskave “Dolo¡canje krvne skupine z gelsko kartico humana”. V sklopu interpretacije preiskave se na podlagi klasifikacije kolon 1:AntiA, 2:AntiB, 5:A1 in 6:B dolo¡ci krvno skupino.
Za gradnjo modela dolo¡canja krvne skupine smo preizkusili v tabeli 4.1 na¡stete algoritme strojnega u¡cenja in med sabo primerjali njihovo uspe¡snost. Ker nismo imeli na voljo dovolj ob¡sirne mno¡zice testnih/u¡cnih podatkov, smo podatkovni nabor generirali iz pravilnostnih tabel. Pravilnostne tabele so izdelali specialisti transfuzijske medicine na ZTM. Povzeli smo jih po literaturi [3].
140
5. Rezultati eksperimentov
100 95 90			Uspešnost algoritmov strojnega uèenja - krvna skupina na gelski																	kartici humana					
		*	*	*)					f*			*			3K							*    *		*X	
																									
 85  80  75  70  65 60 55																									
																									
																	^^								
0    2    4    6    8   10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50
Metoda
Slika 5.12: Uspešnost algoritmov strojnega uèenja za doloèanje krvne skupine na gelski kartici humana
Rezultate uspe¡snosti modelov, zgrajenih z algoritmi strojnega u¡cenja, smo navedli v tabeli 5.26. Rezultate smo ilustrirali tudi na grafu na sliki 5.12.
5.6 Rezultati modelov dokon¡cne interpretacije preiskav
141
Oznaka	Tip metode	Ime metode	Delež pravilno razvršèenih
1	bayes	BayesNet [2]	94,22 %
2	bayes	ComplementNaiveBayes [51]	50,8 %
3	bayes	NaiveBayes [2]	97,22 %
4	bayes	NaiveBayesMultinomial [52]	94,21 %
5	bayes	NaiveBayesUpdateable [53]	97,22 %
6	functions	Logistic [54]	95,69 %
7	functions	MultilayerPerceptron [55]	96,95 %
8	functions	RBFNetwork [56]	96,8 %
9	functions	SimpleLogistic [57]	95,7 %
10	functions	SMO [58]	94,21 %
11	lazy	IB1 [59]	95,81 %
12	lazy	IBk [59]	96,49 %
13	lazy	KStar [60]	94,21 %
14	lazy	LWL [61]	94,21 %
15	meta	AdaBoostMl [62]	94,21 %
16	meta	AttributeSelectedClassifier [4] [5]	98,93 %
17	meta	Bagging [63]	98,17 %
18	meta	ClassificationViaRegression [64]	96,28 %
19	meta	CVParameterSelection [65]	94,21 %
20	meta	Decorate [6]	98,99 %
21	meta	FilteredClassifier [4] [5]	94,81 %
22	meta	Grading [66]	94,21 %
23	meta	LogitBoost [67]	98,56 %
24	meta	MultiBoostAB [68]	94,21 %
25	meta	MultiClassClassifier [4] [5]	95,13 %
26	meta	MultiScheme [4] [5]	94,21 %
27	meta	OrdinalClassClassifier [4] [5]	99,17 %
28	meta	RacedlncrementalLogitBoost [4] [5]	94,21 %
29	meta	RandomCommittee [4] [5]	98,82 %
30	meta	Stacking [69]	94,21 %
31	meta	StackingC [70]	94,21 %
32	meta	Vote [4][5]	94,21 %
33	misc	HyperPipes [4] [5]	88,5 %
34	misc	VFI [71]	52,42 %
35	trees	DecisionStump [72]	94,21 %
36	trees	J48 [7]	98,93 %
37	trees	LMT [8]	99,09 %
38	trees	NBTree [73]	96,86 %
39	trees	RandomForest [9]	99,3 %
40	trees	RandomTree [4] [5]	97,74 %
41	trees	REPTree [4] [5]	97,69 %
42	rules	ConjunctiveRule [4] [5]	94,21 %
43	rules	DecisionTable [74]	98,48 %
44	rules	JRip [10]	99,04 %
45	rules	NNge [75]	98,19 %
46	rules	OneR [76][2]	94,21 %
47	rules	PART [11]	99,15 %
48	rules	Ridor [4] [5]	98,6 %
49	rules	ZeroR[2][4][5]	94,21 %
Tabela 5.26: Uspešnost delovanja modelov dokonène interpretacije preiskave “Doloèanje krvne skupine z gelsko kartico humana”. Uporabili smo kolone hAntiA, 2:AntiB, 5:Al in 6:5
142
5. Rezultati eksperimentov
Ugotovili smo, da smo uèinkovite modele za dokonèno interpretacijo predtransfuzij-ske preiskave: “Doloèanje krvne skupine z gelsko kartico humana” zgradili s sledeèimi algoritmi strojnega uèenja 16: AttributeSelectedClassifier [4] (94,21 %), 20: Decorate [6] (98,99 %), 27: OrdinalClassClassifier [4][5] (99,17 %), 36: J48 [7] (98,93 %), 37: LMT [8] (99,09 %), 39: RandomForest [9] (99,3 %), 44: JRip [10] (99,04 %) in 47: PART [11] (99,15 %). V nadaljnjem tekstu smo za naštete algoritme strojnega uèenja podali matrike pravilnih in napaènih razvrstitev in deleže pravilno razvršèenih za vsako posamezno dokonèno interpretacijo preiskave.
Razvršèeno:	0	/	A	B
0	20	3	0	0
/	1	1214	0	0
A	0	4	16	0
B	0	0	0	16
AB	0	0	0	0
ABot	 °	0	0	0
Tabela 5.27:  Matrika pravilno in napaèno razvršèenih:  strojno uèenje interpretacije na kartici humana. Algoritem strojnega uèenja 16: AttributeSelectedClassifier [4][5].
Iz dane matrike pravilnih in napaènih razvrstitev, podane v tabeli 5.27, smo izraèunali sledeèe deleže pravilno razvršèenih 5.28:
Razred	Delež pravilno razvršèenih
0	95,2 %
/	99,4 %
A	100 %
B	100 %
AB	54,5 %
ABot	72,7 %
Tabela 5.28:  Delež pravilno razvršèenih za eksperiment strojnega uèenja na kartici humana. Algoritem strojnega uèenja 16: AttributeSelectedClassifier [4] [5].
5.6 Rezultati modelov dokon¡cne interpretacije preiskav
143
Razvršèeno:	0	/	A	B	AB	AB
0	20	3	0	0	0	0
/	1	1215	0	0	3	2
A	0	4	16	0	0	0
B	0	0	0	16	0	0
AB	0	0	0	0	5	1
ABot	 °	0	0	0	1	9
Tabela 5.29:  Matrika pravilno in napaèno razvršèenih:   strojno uèenje interpretacije na kartici humana. Algoritem strojnega uèenja 20: Decorate [6].
Iz dane matrike pravilnih in napaènih razvrstitev, podane v tabeli 5.29, smo izraèunali sledeèe deleže pravilno razvršèenih 5.30:
Razred	Delež pravilno razvršèenih
0	95,2 %
/	99,4 %
A	100 %
B	100 %
AB	83,3 %
ABot	90%
Tabela 5.30:  Delež pravilno razvršèenih za eksperiment strojnega uèenja na kartici humana. Algoritem strojnega uèenja 20: Decorate [6].
Razvršèeno:	0	/	A	B	AB	AB
0	20	3	0	0	0	0
/	1	1220	0	0	0	0
A	0	4	16	0	0	0
B	0	0	0	16	0	0
AB	0	0	0	0	6	0
ABot	 °	0	0	0	2	8
Tabela 5.31:  Matrika pravilno in napaèno razvršèenih:   strojno uèenje interpretacije na kartici humana. Algoritem strojnega uèenja 27: OrdinalClassClassifier [4][5].
144
5. Rezultati eksperimentov
Iz dane matrike pravilnih in napaènih razvrstitev, podane v tabeli 5.31, smo izraèunali sledeèe deleže pravilno razvršèenih 5.32:
Razred	Delež pravilno razvršèenih
0	95,2 %
/	99,4 %
A	100 %
B	100 %
AB	75%
ABot	100 %
Tabela 5.32:  Delež pravilno razvršèenih za eksperiment strojnega uèenja na kartici humana. Algoritem strojnega uèenja 27: OrdinalClassClassifier [4][5].
Razvršèeno:	0	/	A	B	AB	AB
0	20	3	0	0	0	0
/	1	1214	0	0	3	3
A	0	4	16	0	0	0
B	0	0	0	16	0	0
AB	0	0	0	0	6	0
ABot	 °	0	0	0	2	8
Tabela 5.33:  Matrika pravilno in napaèno razvršèenih:  strojno uèenje interpretacije na kartici humana. Algoritem strojnega uèenja 36: J48 [7].
Iz dane matrike pravilnih in napaènih razvrstitev, podane v tabeli 5.33, smo izraèunali sledeèe deleže pravilno razvršèenih 5.34:
Razred	Delež pravilno razvršèenih
0	95,2 %
/	99,4 %
A	100 %
B	100 %
AB	54,5 %
ABot	72,7 %
Tabela 5.34:  Delež pravilno razvršèenih za eksperiment strojnega uèenja na kartici humana. Algoritem strojnega uèenja 36: J48 [7].
5.6 Rezultati modelov dokon¡cne interpretacije preiskav
145
Razvršèeno:	0	/	A	B	AB	ABo
0	20	2	1	0	0	0
/	3	1216	0	0	1	1
A	0	0	20	0	0	0
B	0	0	0	16	0	0
AB	0	0	0	0	5	1
ABot	 °	0	0	0	0	10
Tabela 5.35:  Matrika pravilno in napaèno razvršèenih:   strojno uèenje interpretacije na kartici humana. Algoritem strojnega uèenja 37: LMT [8].
Iz dane matrike pravilnih in napaènih razvrstitev, podane v tabeli 5.35, smo izraèunali sledeèe deleže pravilno razvršèenih 5.36:
Razred	Delež pravilno razvršèenih
0	87%
/	99,8 %
A	95,2 %
B	100 %
AB	83,3 %
ABot	83,3 %
Tabela 5.36:  Delež pravilno razvršèenih za eksperiment strojnega uèenja na kartici humana. Algoritem strojnega uèenja 37: LMT [8].
Razvršèeno:	0	/	A	B	AB	AB
0	20	2	1	0	0	0
/	4	1213	0	0	3	1
A	0	0	20	0	0	0
B	0	0	0	16	0	0
AB	0	0	0	0	6	0
ABot	 °	1	0	0	0	9
Tabela 5.37:  Matrika pravilno in napaèno razvršèenih:   strojno uèenje interpretacije na kartici humana. Algoritem strojnega uèenja 39: RandomForest [9].
146
5. Rezultati eksperimentov
Iz dane matrike pravilnih in napaènih razvrstitev, podane v tabeli 5.37, smo izraèunali sledeèe deleže pravilno razvršèenih 5.38:
Razred	Delež pravilno razvršèenih
0	83,3 %
/	99,8 %
A	95,2 %
B	100 %
AB	66,7 %
ABot	90%
Tabela 5.38:  Delež pravilno razvršèenih za eksperiment strojnega uèenja na kartici humana. Algoritem strojnega uèenja 39: RandomForest [9].
Razvršèeno:	0	/	A	B	AB
0	20	1	2	0	0
/	0	1217	0	0	2
A	0	0	18	0	0
B	0	0	0	16	0
AB	0	0	0	0	6
ABot	 °	2	0	0	0
Tabela 5.39:  Matrika pravilno in napaèno razvršèenih:  strojno uèenje interpretacije na kartici humana. Algoritem strojnega uèenja 44: JRip [10].
Iz dane matrike pravilnih in napaènih razvrstitev dane v tabeli 5.39 smo izraèunali sledeèe deleže pravilno razvršèenih 5.40:
Razred	Delež pravilno razvršèenih
0	100 %
/	99,8 %
A	90%
B	100 %
AB	75%
ABot	66,7 %
Tabela 5.40:  Delež pravilno razvršèenih za eksperiment strojnega uèenja na kartici humana. Algoritem strojnega uèenja 44: JRip [10].
5.6 Rezultati modelov dokon¡cne interpretacije preiskav                                               147
Razvršèeno:	0	/	A	B
0	21	1	1	0
/	1	1217	0	0
A	0	0	20	0
B	0	0	0	16
AB	0	0	0	0
ABot	 °	1	0	0
Tabela 5.41:  Matrika pravilno in napaèno razvršèenih:   strojno uèenje interpretacije na kartici humana. Algoritem strojnega uèenja 47: PART [11].
Iz dane matrike pravilnih in napaènih razvrstitev, podane v tabeli 5.41, smo izraèunali sledeèe deleže pravilno razvršèenih 5.42:
Razred	Delež pravilno razvršèenih
0	95,5 %
/	99,8 %
A	95,2 %
B	100 %
AB	75%
ABot	80%
Tabela 5.42:  Delež pravilno razvršèenih za eksperiment strojnega uèenja na kartici humana. Algoritem strojnega uèenja 47: PART [11].
Predstavljene deleže pravilno razvršèenih modelov dokonène interpretacije preiskav smo v nadaljevanju postopka izbire najboljše kombinacije algoritmov sistema za samodejno interpretacijo predtransfuzijskih preiskav združili z deleži pravilno razvršèenih z modeli za doloèanje stopnje jakosti aglutinacije in izbrali najboljšo kombinacijo algoritmov. Rezultate te obravnave smo predstavili v sledeèem podpoglavju.
148
5. Rezultati eksperimentov
5.7    Ocena deleža uspešnosti in izbira najboljše kombinacije algoritmov
Delež uspešnosti je podatek, s katerim smo opremili vsako odloèitev sistema za samodejno interpretacijo rezultatov predtransfuzijskih preiskav. Vrednost predstavlja ocenjeno verjetnost, daje rezultat, ki ga predlaga sistem za samodejno interpretacijo predtransfuzij skih preiskav, pravilen.
5.7.1     Ocena deleža uspešnosti za vektorje stopnje jakosti agluti-nacije za doloèanje krvne skupine
Na podlagi popolne pravilnostne tabele za doloèanje krvne skupine z uporabo kartice humana smo za vsak rezultat zapisali ustrezne vektorje stopenj jakosti aglutinacije. V analizo smo vkljuèili samo kolone na lokacijah, ki so relevantne za doloèanje krvne skupine. To so kolone na lokacijah AntiA, AntiB, Ax in B.
Za vsak posamezen vektor smo delež uspešnosti doloèili tako, da smo med sabo zmnožili posamezne deleže uspešnosti za stopnjo jakosti aglutinacije kolone. Potem smo izraèunali povpreèno vrednost dobljenih deležev uspešnosti. Izraèun smo opravili za posamezne, v ožji izbor uvršèene kombinacije segmentacije slik kolon, metod izraèuna vektorjev lastnosti in metod strojnega uèenja. Seznam obravnavanih metod z rezultati je v podan tabeli 5.43 in na sliki 5.13.
Ugotovimo, da najboljše rezultate dosežemo z metodo 5 - ZRNI6 S9 M39 kar pomeni: segmentacija z uporabo metode nelinearnega filtriranja 3, izraèun vektorja lastnosti z metodo ZRNI, ki razdeli vektor projekcij na 6 delov, in gradnja modela z algoritmom strojnega uèenja RandomForest [9]. Do ugotovitve pridemo tako, da poišèemo maksimalno vrednost povpreènega kombiniranega deleža uspešnosti za nabore stopenj jakosti aglutinacije, ki dajo za preiskavo doloèanje krvne skupine na kartici humana smiselen rezultat.
5.7.2     Ocena deleža uspešnosti za dokonèen rezultat za doloèanje krvne skupine
Izbrali smo najbolj obetavne algoritme strojnega uèenja, ki smo jih preizkusili za izdelavo modela interpretacije in deleže pravilno razvršèenih za vsako dokonèno interpretacijo, ter
5.7 Ocena deleža uspešnosti in izbira najboljše kombinacije algoritmov                       149
Delež uspešnosti: KS na kartici humana
1
0.9 -
0.8
0.7 [
0.6 [
0.5
0.4
0.3
0.2
0.1
10
Kombinacija metod
Slika 5.13: Dele¡z uspe¡snosti vektorjev stopenj jakosti aglutinacije za posamezne rezultate preiskave dolo¡canje krvne skupine na gelski kartici humana. Rezultati preiskav so dolo¡ceni s pravilnostno tabelo, podano v [3]. Seznam kombinacije metod je naveden v tabeli 5.43. Na sliki so narisani samo dele¡zi vektorjev, ki po pravilnostni tabeli pomenijo dolo¡citev krvne skupine.
0
9
150
5. Rezultati eksperimentov
	Metoda	Povpre¡cna vrednost	Standardna deviacija
1	ZRNI6 S9 M12	73%	7,83 %
2	ZRNI6 S9 M17	77,1 %	11,49 %
3	ZRNI6 S9 M23	71,9 %	12,02 %
4	ZRNI6 S9 M37	63,8 %	13,98 %
5	ZRNI6 S9 M39	80,8 %	5,87 %
6	PCA10 S9 M12	78,9 %	11,87 %
7	PCA10 S9 M17	45%	19,37 %
8	PCA10 S9 M23	54,3 %	15,52 %
9	PCA10 S9 M37	72,4 %	14,34 %
10	PCA10 S9 M39	72,1 %	13,21 %
Tabela 5.43: Srednje vrednosti in standardna deviacija deležev uspešnosti vektorjev doloèene stopnje jakosti aglutinacije v kolonah, relevantnih za doloèitev krvne skupine s kartico humana. Upoštevani so le rezultati, ki pomenijo doloèitev krvne skupine.
jih množili s pripadajoèim deležem uspešnosti vektorja doloèenih stopenj jakosti aglutinacije, ki je pripeljal do opazovane dokonène interpretacije. Izbrali smo nabor vektorjev, ki smo jih dobili z uporabo ZRNI6 S9 M39. Povpreène vrednosti deležev uspešnosti za posamezne modele smo predstavili v tabeli 5.44. Najvišji rezultat deleža uspešnosti smo dosegli s kombinacijo sledeèih metod: za gradnjo modela doloèanja stopnje jakosti aglutinacije uporabimo segmentacijo nelinearnega filtriranja 3, za izraèun vektorja lastnosti metodo ZRNI, ki razdeli vektor projekcij na 6 delov, te vektorje uporabimo za gradnjo modela z algoritmom strojnega uèenja RandomForest [9]; za gradnjo modela dokonène interpretacije pa uporabimo metodo strojnega uèenja OrdinalClassClassifier [4] [5].
Algoritem strojnega u¡cenja	Povpre¡cna vrednost	Standardna deviacija
M20	77,5 %	7,13 %
M27	78 %	8,28 %
M36	73,8 %	12,74 %
M37	73,7 %	7,41 %
M39	72,4 %	9,46 %
M44	73,4 %	11,04 %
M47	74,9 %	8,51 %
Tabela 5.44: Srednje vrednosti in standardna deviacija deležev uspešnosti dokonènega doloèanja krvne skupine s preiskavo za doloèitev krvne skupine s kartico humana. Upoštevani so le rezultati, ki pomenijo doloèitev krvne skupine. Za gradnjo modela stopnje jakosti aglutinacije je uporabljena kombinacija ZRNI6 S9 M39.
Poglavje 6 Zakljuèek
V disertaciji smo predstavili razvoj sistema za samodejno interpretacijo rezultatov pred-transfuzijskih preiskav. Obdelali smo celotno pot razvoja, ki zajema spoznavanje s problemom, zajem in registracijo podatkov, izdelavo modelov sistema ter njihovo testiranje.
Obravnavane predtransfuzijske preiskave se izvajajo z gelsko metodo, ki je osnovana na zaznavanju aglutinacije eritrocitov. Gelska metoda se izvaja z gelskimi karticami. Interpretacijo specialisti transfuzijske medicine opravljajo z vizualnim pregledom gelskih kartic. Pri gradnji modelov sistema za samodejno interpretacijo smo posnemali delo specialistov transfuzijske medicine. Zato smo model samodejne interpretacije izdelali v obliki dveh v serijo povezanih modelov. Prvi model dolo¡ci stopnjo jakosti aglutinacije v vsaki od kolon gelske kartice. Drugi model na podlagi teh dolo¡cenih stopenj jakosti aglutinacije dolo¡ci dokon¡cno interpretacijo preiskave.
Podatke za gradnjo sistema za samodejno interpretacijo preiskav smo pridobili iz sistema za telekonzultacije v transfuzijski medicini. Ta sistem smo vpeljali v transfuzijsko prakso v oddelke za transfuzijski medicino po Sloveniji. Z uporabo sistema specialisti transfuzijske medicine na daljavo interpretirajo predtransfuzijske preiskave. Podatki, potrebni za interpretacijo preiskav in pripadajo¡ce interpretacije, se bele¡zijo v sistemu. Iz sistema zajeti podatki predstavljajo u¡cno in testno mno¡zico za razvoj modelov interpretacije preiskav.
Za gradnjo posameznih modelov interpretacije preiskav smo uporabili metode strojnega u¡cenja. Med sabo smo primerjali delovanje 49 razli¡cnih metod strojnega u¡cenja. Primerjavo smo izvedli z okoljem WEKA.
Primerjali smo tudi vpliv razli¡cnih na¡cinov predobdelave podatkov na delovanje algoritmov strojnega u¡cenja. Tako smo raziskovali vpliv razli¡cnih segmentacijskih postopkov,
151
152
6. Zakljuèek
s katerimi smo iz slik gelskih kartic izloèili zanimiva podroèja. V ta namen smo razvili in preizkusili vpliv enajst razliènih postopkov segmentacije. Raziskovali smo tudi vpliv razliènih metod za izraèun vektorjev lastnosti. V ta namen smo implementirali dve razlièni metodi izraèuna vektorjev lastnosti. Prva je bila na podroèju koncentriranja informacije v èim manj podatkov splošno znana metoda PCA, druga, ki smo jo razvili sami, pa metoda ZRNI. Za metode izraèuna vektorjev lastnosti smo na empirièen naèin doloèili parametre, pri katerih smo dobili najboljše rezultate. Metode smo izbirali v veè korakih. Najprej smo naredili zelo obširen eksperiment, v katerem smo preizkusili vse kombinacije postopkov segmentacije, razlièno prametriziranih postopkov izraèuna vektorjev lastnosti in metod strojnega uèenja. Eksperiment je zajemal izdelavo in testiranje modelov strojnega uèenja s podatki, izraèunanimi na opisani naèin. Zaradi razmeroma male množice podatkov, ki so bili na voljo, smo za izdelavo in testiranje modelov uporabili metodo navzkrižne vali-dacije, ki je opisana v [2]. Med sabo smo primerjali skupne deleže pravilno razvršèenih vzorcev z nauèenim modelom. V nadaljevanju smo kandidate, ki so se obnesli najbolje, med sabo primerjali glede na vpliv na dokonèno interpretacijo preiskav. Vpliv smo preverili z uporabo deleža uspešnosti za pravilno celotno kombinacijo vektorjev doloèenih stopenj jakosti aglutinacije. Postopek je opisan v podpoglavju 4.5.1.
Ugotovili smo, da najboljše rezultate modela za doloèanje stopnje jakosti aglutinacije dobimo, èe uporabimo metodo, ki smo jo poimenovali metoda nelinearnega filtriranja. Metoda je opisana v podpoglavju 4.3.2.1.1. Ugotovili smo, da je rezultate vektorjev porazdelitve eritrocitov po višini kolone, ki jih izraèunamo tako, da posamezne segmentirane slike kolon projeciramo na os y, z vidika uèinkovitosti grajenja modela z algoritmi strojnega uèenja najbolje preraèunati v vektor lastnosti z metodo ZRNI z uporabo 6 razdelkov. Metoda je opisana v podpoglavju 4.3.3.2. Ko imamo na voljo na opisani naèin izraèunane vektorje lastnosti, je za izgradnjo modela doloèanja stopnje jakosti aglutinacije v kolonah najbolje uporabiti metodo strojnega uèenja iz skupine gradnje dreves - RandomForest [9]. Za uporabo omenjene metode smo za doloèanje rezultata krvne skupine na kartici humana ocenili povpreèni delež kombinirane uspešnosti za preiskavo relevantnih stopenj jakosti aglutinacije vektorja na 80,8 %, s standardno deviacijo a = 5,87 %.
V nadaljevanju smo za model interpretacije stopenj jakosti aglutinacije v dokonèno interpretacijo preiskave izbrali algoritme strojnega uèenja, ki so primerni za reševanje tega problema. Za eksperimentiranje smo si izbrali doloèanje krvne skupine z gelsko kartico humana. Testno in uèno množico smo generirali sami iz pravilnostne tabele, ki je podana v [3]. Na podatkih smo izvedli obširen eksperiment, v katerega smo vkljuèili 49 razliènih
6.1 Nadaljnje delo
153
algoritmov strojnega uèenja. Ugotovili smo, da najboljše rezultate dobimo z uporabo metode OrdinalClassClassifier [94]. Z metodo razviti model je pravilno razvršèal v 99,17 %. Kombinirani delež uspešnosti za napovedovanje interpretacij preiskave krvne skupine na gelski kartici humana z deležem kombinirane uspešnosti za preiskavo relevantnimi stopnjami jakosti aglutinacije vektorja v povpreèju znaša 78 %, s standardno deviacijo a = 8, 28 %.
Rezultati kažejo, daje izdelava sistema za samodejno interpretacijo z uporabo izbranih algoritmov smiselna. Sistem za samodejno interpretacijo bo predstavljal pomembno podporno orodje osebju, ki dela na podroèju transfuzije krvi. S predlaganjem interpretacij bo olajšal delo specialistom, služil pa bo lahko tudi kot sistem za kontrolo napak. Dokonèno interpretacijo pa mora še vedno potrditi specialist transfuzijske medicine.
6.1    Nadaljnje delo
Ob razvoju sistema se nam je porodila kopica idej, s katerimi bi lahko izboljšali delovanje sistema. Idej zaradi pomanjkanja razliènih virov (èasa, podatkov) še nismo izpeljali. V nadaljevanju smo podali oris teh idej.
6.1.1     Razširjen preizkus
Sistem za samodejno interpretacijo rezultatov predtransfuzijskih preiskav je potrebno preizkusiti tudi z ostalimi preiskavami in rezultati ostalih preiskav. Te preiskave zajemajo indirektni Coombsov test, direktni Coombsov test, navzkrižni preizkus in specifikacijo protiteles. Za te preizkuse je potrebno zbrati dovolj rezultatov, doloèenih s strani specialistov transfuzijske medicine. Rezultati se zbirajo v sistemu za telekonzultacije v transfuzijski medicini.
6.1.2     Dinamièno izbiranje modela za interpretacijo
Ker poznamo delež uspešnosti za posamezen rezultat, napovedan s kombinacijo posameznih metod, lahko izdelamo kompleksnejši sistem, ki bo združeval rezultate, napovedane z uporabo razliènih metod. Verjetno je, da bo ta kompleksnejši sistem izboljšal pravilnost napovedovanja rezultatov.
V predstavljenem delu je uporabljen pristop, pri katerem se odloèimo za eno kombinacijo algoritma za segmentacijo, izraèun vektorjev lastnosti in algoritma strojnega
154
6. Zakljuèek
uèenja. Izbrali smo tisto kombinacijo, ki je bila v povpreèju najuspešnejša. To kombinacijo algoritmov uporabljamo za napovedovaje vseh rezultatov.
V predlaganem sistemu z dinamiènim izbiranjem modela interpretacije naj se rezultati preiskav izraèunavajo loèeno z vsemi razvitimi metodami. Na koncu se rezultate metod združi z upoštevanjem deleža uspešnosti posameznega rezultata. Predlagamo veè naèinov za upoštevanje deleža uspešnosti:
Lahko se odloèimo za preprost algoritem, ki bo izbral tisti rezultat, pri katerem bo ocenjeni delež uspešnosti najveèji.
Lahko pa rezultate kombiniramo na tak naèin, da jih otežimo z utežmi, ki predstavljajo pri razvoju modelov ocenjene deleže uspešnosti.
6.1.3    Vpeljava sistema v realno prakso
Rezultat doktorske disertacije so izbrani parametrizirani algoritmi za izdelavo sistema za samodjeno interpretacijo rezultatov. Del teh algoritmov je napisan v programskem okolju Matlab, del je napisan v Javi, del algoritmov pa obstaja kot paket v okolju WEKA. Ker je WEKA odprto-kodni projekt, imamo dostop do izvorne kode vseh algoritmov strojnega uèenja. Celotno okolje WEKA je napisano v programskem jeziku Java.
Za vpeljavo sistema v realno prakso je potrebno vso kodo združiti v programski modul in ga vkljuèiti v sistem za telekonzultacije v transfuzijski medicini. Del kode, ki predstavlja algoritme, napisane v programskem okolju Matlab, je potrebno prevesti v programski jezik Java.
6.2     Prispevki znanosti
1.  Modeliranje postopka interpretacije predtransfuzijskih testiranj z gelsko metodo v dveh korakih. Z modelom smo posnemali postopek interpretacije predtransfuzijskih testiranj, kot ga opravljajo specialisti transfuzijske medicine. V prvem koraku smo doloèili stopnjo jakosti aglutinacije posameznih kolon slike gelske kartice. Doloèene stopnje jakosti aglutinacije predstavljajo vmesni rezultat postopka. V drugem koraku smo na podlagi doloèenih stopenj jakosti aglutinacije in tipa preiskave doloèili dokonèno interpretacijo predtransfuzijskega testiranja.
2.  Izbira najprimernej¡sih algoritmov strojnega u¡cenja za modeliranje obeh korakov interpretacije predtransfuzijskih testiranj z gelsko metodo.    Z
6.2 Prispevki znanosti
155
metodami strojnega u¡cenja smo zgradili modele, ki modelirajo posamezna koraka interpretacije predtransfuzijskih testiranj. Za gradnjo modelov smo za vsak korak preizkusili 49 razli¡cnih algoritmov strojnega u¡cenja. Modele z algoritmi strojnega u¡cenja smo zgradili na osnovi podatkovne zbirke, pridobljene iz sistema za tele-konzultacije, v katerem se bele¡zijo interpretacije predtransfuzijskih testiranj, ki so jih opravili specialisti transfuzijske medicine. Na podlagi analize dele¡za uspe¡snosti modela postopka interpretacije smo izbrali najprimernej¡so kombinacijo algoritmov za gradnjo modela postopka interpretacije.
3.  Gradnja podatkovne zbirke slikovnih diagnosti¡cnih podatkov predtransfu-zijskih testiranj z gelsko metodo s pripadajo¡cimi interpretacijami. Podatkovno zbirko slikovnih diagnosti¡cnih podatkov predtransfuzijskih testiranj z gel-sko metodo, opremljenih z interpretacijami preiskav, ki so jih dolo¡cili specialisti transfuzijske medicine, potrebujemo za gradnjo u¡cne in testne mno¡zice. Z u¡cno in testno mno¡zico z uporabo algoritmov strojnega u¡cenja zgradimo in preizkusimo modele za modeliranje interpretacije predtransfuzijskih testiranj. Podatkovno zbirko smo zbrali z uvedbo sistema za telekonzultacije v transfuzijski medicini, s katerim specialisti transfuzijske medicine na daljavo interpretirajo predtransfuzijska testiranja.
4.  Razvoj in analiza uspe¡snosti algoritmov za segmentacijo slik kolon gel-skih kartic. Razvili in preizkusili smo 11 segmentacijskih algoritmov, ki delujejo v osnovnem prostoru slike. Algoritmi lo¡cijo slikovne elemente na podlagi razli¡cnih lastnosti posameznih komponent barvnih prostorov, v katere smo preslikali opazovane slike kolon. Algoritmi delujejo tako, da kombinirajo posamezne komponente barvnih prostorov na tak na¡cin, da med slikovnimi elementi poudarijo razlike, na podlagi katerih lahko lo¡cimo zanimive slikovne elemente od nezanimivih. Algoritme smo razvili na empiri¡cen na¡cin. Kriterij uspe¡snosti posameznega algoritma je bil vpliv le-tega na uspe¡snost delovanja modela za dolo¡canje stopnje jakosti agluti-nacije v kolonah, kateri je bil zgrajen z algoritmi strojnega u¡cenja s podatki, ki smo jih obdelali z opazovanim segmentacijskim algoritmom.
156                                                                                                                6. Zaklju¡cek
Literatura
[1] Marko Breskvar, Irena Bricl, Jurij F. Tasi¡c, Marko Me¡za, and Primo¡z Ro¡zman. Zagotavljanje kakovosti v transfuzijski slu¡zbi z uporabo telekonzultacij. In E-zdravje v e-Sloveniji : zbornik kongresa Slovenskega dru¡stva za medicinsko informatiko, pages 241–250, Bled, Dec 2004. Slovensko dru¡stvo za medicinsko informatiko.
[2] Ian Witten and Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques, Second Edition. Morgan Kaufmann Publishers Elsevier, 2005.
[3] Polonca Stopar.  Avtomatizacija aglutinacijskih imunohematolo¡skih preiskav, Maj
2006.     Diplomsko delo na visoko¡solskem  strokovnem  programu laboratorijske biomedicine na Fakulteti za farmacijo.
[4] WekaDoc.           The    documentation    project    for    weka.           Dostopno    na
http://weka.sourceforge.net/wekadoc/index.php/en:Primer.        Zadnji   dostop   6. april 2006.
[5] Weka machine learning project.   Dostopno na http://www.cs.waikato.ac.nz/ ml/,
2007.  Zadnji dostop 23. 3. 2007.
[6] Prem Melville and Ray Mooney. Constructing diverse classifier ensembles using artificial training examples. In In Proc. of 18th Intl. Joint Conf. on Artificial Intelligence IJCAI 2003, pages 505–510, Acapulco, Mexico, Avg 2003.
[7] Ross Quinlan. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, San Mateo, CA., 1993.
[8] Niels Landwehr, Mark Hall, and Eibe Frank. Logistic model trees. In Ljupco Todor-ovski Hendrik Blockeel Nada Lavrac, Dragan Gamberger, editor, Machine Learning: ECML 2003, 14th European Conference on Machine Learning, pages 241–252, Cavtat-Dubrovnik, Croatia, September 2003.
157
158
LITERATURA
[9] Leo Breiman. Random forests. Machine Learning, 45(1):5-32, Okt 2001.
[10] William W. Cohen. Fast effective rule induction. In Stuart Russell Armand Prieditis, editor, Proc. of the 12th International Conference on Machine Learning, pages 115-123, Tahoe City, CA, Jul 1995. Morgan Kaufmann.
[11] Eibe Frank and Ian H. Witten. Generating accurate rule sets without global optimization. In Shavlik J., editor, Machine Learning: Proceedings of the Fifteenth International Conference. Morgan Kaufmann Publishers, 1998.
[12] Y. Lapierre, D. Rigal, J. Adam, D. Josef, F. Meyer, S. Greber, and C. Drot. The gel test: a new way to detect red cell antigen-antibody reactions. Transfusion, 30(2): 109-13, Feb 1990.
[13] M. M. Langston, J. L. Procter, K. M. Cipolone, and D. F. Stroncek. Evaluation of the gel system for abo grouping and d typing.  Transfusion, 39(3):300-5, Mar 1999.
[14] Lindsay I. Smith. A tutorial on principal components analysis. Dostopno na http:// csnet.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf, Feb 2002. Zadnji dostop 24. april 2006.
[15] Marko Me¡za, Marko Breskvar, Andrej Ko¡sir, Irena Bricl, Jurij F. Tasi¡c, and Primo¡z Rozman. Telemedicine in the blood transfusion laboratory - remote interpretation of pre-transfusion tests. Journal of telemedicine and telecare, 13(7):357-362, Okt 2007.
[16] Primo¡z Rozman and Dragoslav Domanovic. Transfusion medicine in slovenia - current status and future challenges. Transfusion medicine and haemotherapy, 33:420-426, 2006.
[17] Trevor Hastie, Robert Tibshirani, and Jerome Friedman. The Elements of Statistical Learning - Data Mining, Inference and Prediction. Springer, 2001.
[18] Marko Me¡za, Marko Breskvar, and Jurij F. Tasi¡c. Arhitektura sistema za telekonzul-tacije v transfuzijski medicini. Elektrotehni¡ski vestnik, 72(2/3): 145-151, 2005.
[19] Bret Harnett. Telemedicine systems and telecommunications. Journal of telemedicina and telecare, 12(1):4-15, Jan 2006.
[20] Marko Breskvar, Irena Bricl, Jurij F. Tasi¡c, Marko Me¡za, and Primo¡z Rozman. Tele-konzultacije v transfuzijski slu¡zbi. Zdravni¡ski vestnik, 73:105-108, 2004.
LITERATURA
159
[21] Marko Breskvar, Irena Bricl, Jurij F. Tasiè, Marko Meža, and Primož Rozman. Telemedicine in the blood transfusion service.  Vox Sanguinus, 87(3): 142, Jul 2004.
[22] Marko Meža, Matevž Pogaènik, Marko Tkalèiè, Andraž Jere, Marko Breskvar, Primož Rozman, Irena Bricl, Jurij F. Tasiè, and Marijan Leban. Description of pilot implementation of telemedicine system in blood transfusion practice. In Mezaris Vasileios Strintzis Michael, Kompatsiaris Ioannis, editor, Proceedings of the COST. Thessaloniki: Informatics and Telematics Institute, Centre for Research and Technology, pages 61-65, Thessaloniki, 2004.
[23] Marko Meža. Support of the blood transfusion diagnostic process with telemedicine. In Milic Ljiljana, editor, Proceedings EUROCON 2005 - The International Conference on Computer as a Tool, pages 195-198. University of Belgrade, School of Electrical Engineering: Institute of Electrical and Electronics Engineers, Nov 2005.
[24] Primož Rozman, Marko Meža, Marko Breskvar, Irena Bricl, Božidar Voljè, and Jurij F. Tasiè. Closing the information loops in the algorhitms of transfusion medicine. part 1: teleconsultation. Maked. med. pregl, 58(63):33-37, 2004.
[25] Primož Rozman, Irena Bricl, Matjaž Urbajs, Marjeta Maèek, Marko Breskvar, Marko Meža, and Jurij F. Tasiè. A new teleconsultation system for pretransfusion testing. Vox Sanguinus, 91(3):311-312, 2006.
[26] Marko Meža, Jurij F. Tasiè, Tomaž Finkšt, Marko Breskvar, Primož Rozman, and Irena Bricl. Pilotni sistem telemedicine v transfuzijski službi republike slovenije. In Trost Andrej Zaje Baldomir, editor, Zbornik ¡stirinajste mednarodne Elektrotehni¡ske in ra¡cunalni¡ske konference ERK 2005, volume B, pages 322-325, Portorož, Slovenija, Sept 2005. IEEE Region 8, Slovenska sekcija IEEE.
[27] Marko Breskvar, Irena Bricl, Polonca Stopar, Jurij F. Tasiè, Marko Meža, and Primož Rozman. Pilotna uvedba telekonzultacij v transfuzijsko službo. In Zdravje na informacijski poti: zbornik kongresa Slovenskega dru¡stva za medicinsko informatiko, Zreèe, Slovenija, Apr 2006. Slovensko društvo za medicinsko informatiko.
[28] Apache tomcat. Dostopno na http://tomcat.apache.org/, 2007. Zadnji dostop 15. 6. 2007.
160
LITERATURA
[29] Java media framework api (jmf). Dostopno na http://java.sun.com/products/java-media/jmf/, 2007. Zadnji dostop 15. 6. 2007.
[30] RFC.               Rfc      768      user      datagram      protocol.               Dostopno      na
http://www.faqs.org/rfcs/rfc768.html, 2007. Zadnji dostop 15. 6. 2007.
[31] H.323 standard. Dostopno na http://www.packetizer.com/voip/h323/standards.html, 2007. Zadnji dostop 15. 6. 2007.
[32] Mysql manual. Dostopno na http://dev.mysql.com/doc/mysql/en/index.html. Zadnji dostop 6. 3. 2007.
[33] Java technology. Dostopno na http://java.sun.com/, 2007. Zadnji dostop 15. 6. 2007.
[34] Java se - java db and java database connectivity (jdbc). Dostopno na http://java.sun.com/javase/technologies/database/, 2007. Zadnji dostop 15. 6. 2007.
[35] Wikipedia. Virtual private network. Dostopno na http://en.wikipedia.org/wiki/Vpn, 2007. Zadnji dostop 15. 6. 2007.
[36] Marko Breskvar and Ljubi¡sa Lukic. Datec - informacijski sistem v transfuziologiji. Bilt.-ekon. organ. inform. zdrav., 11(2):39-42, Feb 1995.
[37] Marko Breskvar and Ljubi¡sa Lukic. Deset let informacijskega sistema v slovenski trnasfuziologiji = [ten years of information systems in slovenian transfusiology]. Bilt.-ekon. organ. inform. zdrav., 16(4):100-103, 2000.
[38] Wikipedia. Vt 100 video terminal. Dostopno na http://en.wikipedia.org/wiki/VT100, Mar 2007. Zadnji dostop 5. 3. 2007.
[39] Nikola Pave¡sic. Razpoznavanje vzorcev, Uvod v analizo in razumevanje vidnih in slu¡snih signalov 2. raz¡sirjena izdaja. Univerza v Ljubljani, Fakulteta za elektrotehniko, 2. raz¡sirjena izdaja edition, 2000.
[40] Wikipedia.                          Data         clustering.                          Dostopno         na
http://en.wikipedia.org/wiki/Data_clustering, Jan 2007. Zadnji dostop 8.1.2007.
[41] Matev¡z Poga¡cnik. Uporabniku prilagojeno iskanje multimedijskih vsebin. PhD thesis, Univerza v Ljubljani, Fakulteta za elektrotehniko, 2004.
LITERATURA
161
[42] I.N. Bron¡stejn, K.A. Semendjajev, G. Musiol, and H. Muhlig. Matematièni priroènik Tehni¡ska zalo¡zba Slovenije, 1977.
[43] Wikipedia.                          Information         entropy.                          Dostopno         na
http://en.wikipedia.org/wiki/Information_entropy. Zadnji dostop 15. 4. 2007.
[44] Margaret H. Dunham. Data Mining - Introductory and Advanced Topics. Prentice Hall, 2003.
[45] Wikipedia.                        Unsupervised         learning.                        Dostopno         na
http://en.wikipedia.org/wiki/Unsupervised_learning,   Jan   2007.       Zadnji   dostop 8.1.2007.
[46] A        tutorial        on        clustering        algorithms.                        Dostopno        na
http://www.elet.polimi.it/upload/matteucc/Clustering/tutorial_html/.            Zadnji
dostop 8.1.2007.
[47] Brian       T.       Luke.                    Divisive       clustering.                    Dostopno       na
http://ncisgi.ncifcrf.gov/   lukeb/diclust.html,    Jan   2007.      Zadnji   dostop   15.   1. 2007.
[48] Wikipedia. K-means algorithm. Dostopno na http://en.wikipedia.org/wiki/K-means, Jan 2007. Zadnji dostop 8.1.2007.
[49] Andrej Ko¡sir and Tilen Mlakar. Optimal image and video feature selection procedure. 2006.
[50] Gregory M. Palmer, Changfang Zhu, Tara M. Breslin, Fushen Xu, Kennedy W. Gilchrist, and Nirmala Ramanjujam. Comparison of multiexcitation fluorescence and diffuse reflectance spectroscopy for the diagnosis of breast cancer. IEEE Transactions on biomedical engineering, 50(11):1233-1242, Nov 2003.
[51] Jason D. M. Rennie, Lawrence Shih, Jaime Teevan, and David R. Karger. Tackling the poor assumptions of naive bayes text classifiers. In Mishra N. In Fawcett, T., editor, Proceedings of the Twentieth International Conference on Machine Learning (ICML-2003), pages 616-623, Washington, D.C., 2003. Artificial Intelligence Laboratory; Massachusetts Institute of Technology; Cambridge, MA 02139, AAAI Press (2003).
162
LITERATURA
[52] A. McCallum and K. Nigam. A comparison of event models for naive bayes text classification. In AAAI-98 Workshop on Learning for Text Categorization, 1998.
[53] George H. John and Pat Langley. Estimating continuous distributions in bayesian classifiers. In San Mateo Morgan Kaufmann, editor, Proceedings of the Eleventh Conference on Uncertainty in Artificial Intelligence, pages 338–345, 1995.
[54] S. le Cessie and J. C. van Houwelingen. Ridge estimators in logistic regression. Applied Statistics, 41(1):191–201, 1992.
[55] Wikipedia. Perceptron. Dostopno na http://en.wikipedia.org/wiki/Perceptron, Avg 2006. Zadnji dostop 24. avgust 2006.
[56] E. P. Maillard and D. Gueriot. Rbf neural network, basis functions and genetic algorithm. In International Conference on Neural Networks, volume 4, pages 2187 – 2192. GESMA, Brest-Naval, Jun 1997.
[57] Niels Landwehr, Mark Hall, and Eibe Frank. Logistic model trees. Machine Learning, 59(1-2):161 – 205, May 2005.
[58] B. Schoelkopf, C. Burges, and A. Smola. Fast training of support vector machines using sequential minimal optimization. In Advances in Kernel Methods - Support Vector Learning. MIT Press, 1998.
[59] D. Aha and D. Kibler. Instance-based learning algorithms. Machine Learning, 6:37– 66, 1991.
[60] John, G. Cleary, Leonard, and E. Trigg. Kstar: An instance-based learner using an entropic distance measure. In Proceedings of the 12th International Conference on Machine learning, pages 108–114, 1995.
[61] Eibe Frank, Mark Hall, and Bernhard Pfahringer. Locally weighted naive bayes. In Conference on Uncertainty in AI, 2003.
[62] Yoav Freund and Robert E. Schapire. Experiments with a new boosting algorithm. In San Francisco Morgan Kaufmann, editor, Proc International Conference on Machine Learning, pages 148–156, 1996.
[63] Leo Breiman. Bagging predictors. Machine Learning, 24(2):123–140, 1996.
LITERATURA
163
[64] E. Frank, Y. Wang, S. Inglis, G. Holmes, , and I.H. Witten. Using model trees for classification. Machine Learning, 32(1):63–76, 1998.
[65] R. Kohavi. Wrappers for Performance Enhancement and Oblivious Decision Graphs. PhD thesis, Department of Computer Science, Stanford University, 1995.
[66] A.K. Seewald and J. Fuernkranz. An evaluation of grading classifiers, in hoffmann f. et al. (eds.). In Advances in Intelligent Data Analysis, 4th International Conference, IDA 2001, Proceedings, pages 115–124. Springer Berlin/Heidelberg/New York/Tokyo, 2001.
[67] J. Friedman, T. Hastie, and R. Tibshiran. Additive logistic regression: a statistical view of boosting. Technical report, Stanford University, 1998.
[68] Geoffrey I. Webb. Multiboosting: A technique for combining boosting and wagging. Machine Learning, 40(2):159–196, 2000.
[69] David H. Wolpert. Stacked generalization. Neural Networks, 5:241–259, 1992.
[70] A.K. Seewald. How to make stacking better and faster while also taking care of an unknown weakness. In Hoffmann A. Sammut C., editor, roceedings of the Nineteenth International Conference on Machine Learning (ICML 2002), pages 554–561. Morgan Kaufmann Publishers, 2002.
[71] Gulsen Demiroz and H. Altay Guvenir. Classification by voting feature intervals. In European Conference on Machine Learning ECML-97, pages 85–92, 1997.
[72] Len Trigg Mark Hall Geoffrey Holmes Ian H. Witten, Eibe Frank and Sally Jo Cunningham. Weka: Practical machine learning tools and techniques with java implementations. Dostopno na http://www.cs.waikato.ac.nz/ eibe/pubs/99IHW-EF-LT-MH-GH-SJC-Tools-Java.ps.gz. Zadnji dostop 18.6.2007.
[73] Ron Kohavi. Scaling up the accuracy of naive-bayes classifiers: a decision tree hybrid. In Procedings of the Second Internaltional Conference on Knoledge Discovery and Data Mining, 1996.
[74] Ron Kohavi. The power of decision tables. In Wrobel Stefan Lavrac Nada, editor, Proceedings of the European Conference on Machine Learning, Lecture Notes in Artificial Intelligence 914, pages 174–189, Berlin, Heidelberg, New York, 1995. Springer Verlag.
164
LITERATURA
[75] Martin Brent. Instance-based learning : Nearest neighbor with generalization. Master’s thesis, University of Waikato, Hamilton, New Zealand, 1995.
[76] R.C. Holte. Very simple classification rules perform well on most commonly used datasets. Machine Learning, 11:63-91, 1993.
[77] The castor project homepage. Dostopno na http://www.castor.org/, Jan 2007. Zadnji dostop 25. 1. 2007.
[78] Xml homepage. Dostopno na http://www.xml.com/. Zadnji dostop 25. 1. 2007.
[79] Altova         xmlspy         product         homepage.                          Dostopno         na
http://www.altova.com/products/xmlspy/xml_editor.html,     Jan    2007.        Zadnji
dostop 25. 1. 2007.
[80] Wikipedia. Image registration. Dostopno na http://en.wikipedia.org/wiki/Image registration, 2007. Zadnji dostop 15. 6. 2007.
[81] Marko Me¡za, Marko Tkal¡ci¡c, Marko Breskvar, Irena Bricl, Primo¡z Rozman, and Jurij F. Tasi¡c. Registracija rotacije slik gelskih kartic. In Zajc Baldomir and Trost Andrej, editors, Zbornik petnajste mednarodne Elektrotehniške m raèunalniškekonference ERK 2006, volume B, pages 209-212, Portoro¡z, Slovenija, Sept 2006. IEEE Region 8, Slovenska sekcija IEEE.
[82] Wikipedia. Total variation. Dostopno na http://en.wikipedia.org/wiki/Statistical distance, 2007. Zadnji dostop 15. 6. 2007.
[83] Bill       Green.                  Edge       detection       tutorial.                  Dostopno       na
http://www.pages.drexel.edu/ weg22/edge.html, 2002. Zadnji dostop 20.10.2006.
[84] Bill      Green.              Canny     edge     detection     tutorial.              Dostopno     na
http://www.pages.drexel.edu/ weg22/can_tut.html, 2002. Zadnji dostop 20.10.2006.
[85] John Canny. A computational approach to edge detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 8(6):679 - 698, Nov 1986.
[86] Toma¡z Fink¡st, Marko Me¡za, and Jurij F. Tasi¡c. Raz¡clenjevanje barvnih slik z upo¡stevanjem percepcije vizualne informacije. In Trost Andrej Zajc Baldomir, editor, Zbornik štirinajste mednarodne Elektrotehniške m raèunalniške konference ERK
LITERATURA
165
2005, volume B, pages 183-186, Portoro¡z, Slovenija, Sept 2005. IEEE Region 8, Slovenska sekcija IEEE.
[87] Wikipedia. Color space. Dostopno na http://en.wikipedia.org/wiki/Color_space. Zadnji dostop 20. september 2006.
[88] Wikipedia. Ycbcr. Dostopno na http://en.wikipedia.org/wiki/YCbCr. Zadnji dostop 29. avgust 2006.
[89] Wikipedia.                        Lab         color         space.                        Dostopno         na
http://en.wikipedia.org/wiki/Lab_color_space, 2007. Zadnji dostop 4. jun. 2007.
[90] Wikipedia.                         Opponent         process.                         Dostopno         na
http://en.wikipedia.org/wiki/Opponent_process,    2007.        Zadnji   dostop   15.   6. 2007.
[91] Ronney B. Panerai, Ana Luisa A. S. Ferreira, and Orlando F. Brum. Principal component analysis of multiple blood flow derived signals. IEEE Transactions on biomedical engineering, 35(7):533-538, Jul 1988.
[92] Paolo Ravazzani, Gabriella Tognola, Marta Parazzini, and Ferdinando Grandori. Principal component analysis as a method to facilitate fast detection of transient-evoked octoacoustic emissions. IEEE Transactions on biomedical engineering, 50(2):249-252, Feb 2003.
[93] M. Petrou and P. Bosdogianni. Image Processing: The Fundamentals. John Wiley and Sons Ltd, West Sussex, West Sussex, 1999.
[94] Eibe Frank and Mark Hall. A simple approach to ordinal prediction. In 12th European Conference on Machine Learning, Freiburg, Germany.
[95] Branko Kav¡sek. Odkrivanje podskupin z uporabo algoritmov za u¡cenje pravil. PhD thesis, Univerza v Ljubljani, Fakulteta za racunalni¡stvo in informatiko, 2004.
166                                                                                                           LITERATURA
Poglavje 7 Izjava
Izjavljam, da sem doktorsko disertacijo izdelal samostojno v Laboratoriju za digitalno obdelavo signalov slik in videa na Fakulteti za elektrotehniko Univerza v Ljubljani pod vodstvom mentorja prof. dr. Jurija Tasi¡ca. Izkazano pomo¡c drugih sodelavcev sem v celoti izrekel v zahvali.
Marko Me¡za
167
168                                                                                                                      7. Izjava
169
170
A. Priloge
Dodatek A
Priloge
A.l     Terminološki slovarèek
Agglutinate
Agglutination
Antigen-antibody reactions
Association
Association rule
Attribute
Classification
Classification rule
Classifier
Clustering
Concept description
Confussion matrix
Covering algorithms
Cross validation
Decision tree Error Rate Euclidian distance Example
Aglutinat, strdek Aglutinacija Reakcije protiteles Asociiranje Asociacijsko pravilo Znaèilka, lastnost, atribut Klasifikacija, razvršèanje Klasifikacijsko pravilo Razrvšèevalnik Rojenje Opis koncepta
Matrika    pravilno     in     napaèno razvršèenih;   matrika pravilnih in napaènih razvrstitev Algoritmi s pokrivanjem; konstruiranje pravil
Navzkrižna validacija; preèno preverjanje [95] Odloèitveno drevo Delež napaènih Evklidova razdalja Vzorec
A.l Terminološki slovarèek
171
False negative = type II error
False positive = type I error
Fold
Feature vector
Gel card
Information gain
Instance
K-Means
Leaf
Leave one out validation
N-fold cross validation
Measure of purity
Naive Bayes
Node
Numeric prediction
Polycation
Potentiator
Precision
Principle component analysis
Recall, true positive
Root node
Success rate
Total variance
Tresholding
Truth table
Delež zgrešenih
Delež napaèno razvršèenih
Pregib
Vektor lastnosti (znaèilk)
Gelska kartica
Doprinos informacije
Vzorec
Metoda K-tih povpreèij
List v odloèitvenem drevesu
Validacija izpusti enega
N-pregibna navzkrižna validacija
Mera èistosti
Naivni Bayes
Vozlišèe v odloèitvenem drevesu
Numerièno napovedovanje
Polikation
Potenciator
Delež pravilno razvršèenih
Analiza glavnih komponent
Delež pravilno najdenih
Korensko vozlišèe
Delež uspešnosti
Totalna variacija
Upragovljanje
Pravilnostna tabela