ERK'2019, Portorož, 252-255 252 Semantiˇ cna segmentacija za detekcijo kompaktnih povrˇ sinskih anomalij z deflektometrijo Lojze ˇ Zust, Alan Lukeˇ ziˇ c, Matej Kristan Fakulteta za raˇ cunalniˇ stvo in informatiko, Univerza v Ljubljani lz7966@student.uni-lj.si,fmatej.kristan, alan.lukezicg@fri.uni-lj.si Povzetek Standardni pristopi za detekcijo povrˇ sinskih anomalij in poˇ skodb na odbojnih povrˇ sinah temeljijo na tridimenzio- nalni rekonstrukciji objekta in primerjavo z referenˇ cnim modelom nepoˇ skodovanega objekta. To pa zahteva na- tanˇ cno kalibracijo, poravnavo z referenˇ cnim modelom in analizo 3D rekonstrukcije, kar zmanjˇ sa uporabno vrednost metode in uvaja omejitve na hitrost premikanja objekta. V ˇ clanku predlagamo nov pristop za detekcijo preko se- mantiˇ cne segmentacije – SADNet. Metodo sestavljata dve stopnji: prva stopnja je semantiˇ cna segmentacija anoma- lij, druga pa interpretacija detekcij iz segmentacijske ma- ske. Zasnova SADNet omogoˇ ca detekcijo tudi delno pre- krivajoˇ cih se anomalij. Metodo smo ovrednotili na domeni detekcije udrtin v ploˇ cevini avtomobila in jo primerjali z dvema izmed trenutno najboljˇ sih metod s podroˇ cja de- tekcije objektov: Faster R-CNN [11] in Mask R-CNN [5]. Metoda SADNet zanesljivo prekaˇ sa obstojeˇ ci metodi. Na testni mnoˇ zici dosega F-mero 0.86, kar predstavlja 5% izboljˇ savo v primerjavi z drugo najboljˇ so metodo. 1 Uvod Detekcija anomalij je kljuˇ cen del ˇ stevilnih industrijskih procesov. Z njo lahko pravoˇ casno zaznamo poˇ skodbe in napake, ki nastanejo med proizvodnim procesom. V tem delu se osredotoˇ camo na detekcijo anomalij v obliki 3D ugrezov in izboklin na odbojni povrˇ sini (npr. udarci med proizvodnim procesom). Napake te oblike lahko mi- nimalno spremenijo videz povrˇ sine objekta, zato jih je teˇ zko detektirati na podlagi posnetkov kamere. S takimi problemi se ukvarjajo metode deflektometrije, ki na opa- zovano odbojno povrˇ sino projicirajo doloˇ cen svetlobni vzorec in s kamero pod drugim kotom opazujejo odboj. Na podlagi odbitega vzorca lahko sklepamo na oblikovne karakteristike povrˇ sine. Pristope za detekcijo anomalij z uporabo deflektome- trije lahko v grobem razdelimo na dva dela. Prvi naˇ cin de- luje na podlagi 3D rekonstrukcije povrˇ sine. Ta na podlagi deformacij vzorca oceni 3D model opazovane povrˇ sine in detektira anomalije s primerjavo z referenˇ cnim modelom nepoˇ skodovanega objekta. Tak pristop zahteva komple- ksen in natanˇ cen sistem zajema. Obiˇ cajno je potrebno veˇ cje ˇ stevilo slik in natanˇ cna kalibracija. Rekonstrukcija ni popolna in pojavi se ˇ sum, ki ga je vˇ casih teˇ zko loˇ citi (a) Vhodna slika (b) Segmentacijska maska (c) Detekcije Slika 1: Metoda deluje v dveh korakih. V prvem koraku model na podlagi vhodne slike izraˇ cuna segmentacijsko masko anomalij. V drugem koraku se iz segmentacijske maske izloˇ cijo lokacije in velikosti detekcij. od majhnih anomalij. Teˇ zavna je tudi poravnava z refe- renˇ cnim objektom. Drugi naˇ cin je detekcija anomalij na podlagi slike od- boja vzorca. Tu anomalije iˇ sˇ cemo na podlagi njihovih skupnih vizualnih lastnosti. Glavna prednost tega pristopa je prenosljivost. Metodo lahko uporabljamo tudi na objek- tih, ki niso bili v uˇ cni mnoˇ zici. Poleg tega za delovanje ne potrebuje zahtevnega sistema zajema in kalibracije. Ta naˇ cin je ˇ se posebej primeren za kompaktne anomalije v obliki ugrezov oz. izboklin. Take anomalije se odraˇ zajo v znaˇ cilnih ukrivitvah sicer ravnega vzorca (Slika 1), ki so neodvisne od objekta. Krivine pa nastanejo tudi na pregi- bih in utorih, ki ne predstavljajo anomalij, zato osnovna detekcija krivin ni dovolj. Potrebujemo uˇ cljivo metodo, 253 ki se je sposobna nauˇ citi razlikovati med njimi. Problem lahko obravnavamo kot detekcijo objektov. Sodobne metode za detekcijo objektov ([11], [5]) do- segajo dosegajo odliˇ cne rezultate in so sposobne zaznati in natanˇ cno lokalizirati vizualno zelo raznolike in kom- pleksne objekte. Zaradi arhitekturnih omejitev (omejeno ˇ stevilo predlaganih regij, zdruˇ zevanje prekrivajoˇ cih se re- gij), pa ti pristopi niso primerni za detekcijo objektov z visoko gostoto in prekrivanjem. Omejitve standardnih metod naslavljamo z uvedbo novega pristopa za detekcijo kompaktnih anomalij prek semantiˇ cne segmentacije SADNet (angl. Segmentation for Anomaly Detection). Ta za vsak piksel napove prisotnost anomalije. SADNet deluje dvostopenjsko (Slika 1). V pr- vem koraku model napove segmentacijsko masko anomalij na vhodni sliki. V drugem koraku se iz segmentacijske ma- ske izluˇ sˇ cijo lokacije in velikosti detekcij. Povezava med obema korakoma omogoˇ ca robustno detekcijo, ki zane- sljivo deluje tudi v primeru delnega prekrivanja anomalij. Eksperimentalni rezultati kaˇ zejo, da SADNet bistveno prekaˇ sa klasiˇ cne metode za detekcijo objektov. Na pod- lagi razvite metode je bila vloˇ zena tudi patentna prijava na slovenskem patentnem uradu. 2 Sorodna dela Detekcijo anomalij na podlagi videza lahko umestimo v podroˇ cje detekcije objektov. Cilj detekcije objektov je kla- sifikacija in doloˇ canje oˇ crtanega okvirja (angl. bounding box, BB) razliˇ cnih objektov na sliki. Veˇ cina metod deluje v dveh delih. Prvi del predlaga fiksno ˇ stevilo interesnih regij, drugi del pa izloˇ ci regije, jih klasificira in izboljˇ sa lokalizacijo. R-CNN [4] s selektivnim iskanjem doloˇ ci 2000 zanimivih regij. Iz vsake izmed predlaganih regij izluˇ sˇ cimo znaˇ cilke z uporabo CNN. Na podlagi znaˇ cilk se izvede klasifikacija in regresijsko popravljanje okvirja re- gije. Metoda Fast R-CNN [3] znaˇ cilke izraˇ cuna na celotni sliki zgolj enkrat, ˇ se pred izloˇ canjem regij in tako pospeˇ si metodo. Metoda Faster R-CNN [11] postopek ˇ se pospeˇ si in poˇ casno selektivno iskanje nadomesti z uˇ cljivo mreˇ zo, ki generira predloge zanimivih regij. Dodatne izboljˇ save z arhitekturo R-FCN [2], ki odloˇ citveni nivo prestavijo pred izloˇ canje regij, ˇ se pospeˇ sijo delovanje metode. Vmes se je pojavila ˇ se druga vrsta metod (YOLO [10], SSD [8], Re- tinaNet [7]), ki ne uporabljajo dvostopenjske arhitekture. Namesto tega izvedejo klasifikacijo in lokalizacijo v enem samem koraku z enotno mreˇ zo. Tak pristop je ˇ se hitrejˇ si. Pri SADNet smo se detekcije objektov lotili na drug naˇ cin. Osnovo metode predstavlja semantiˇ cna segmen- tacija. Cilj semantiˇ cne segmentacije je klasifikacija na nivoju pikslov. Nekatere metode detekcije objektov napo- vedujejo tudi segmentacijo detektiranega objekta. Metoda Mask R-CNN [5] gradi na arhitekturi Faster R-CNN, le da iz znaˇ cilk napoveduje ˇ se segmentacijsko masko objekta. Naˇ s pristop pa temelji na segmentaciji celotne slike. Tre- nutno najuspeˇ snejˇ se metode za semantiˇ cno segmentacijo temeljijo na konvolucijskih nevronskih mreˇ zah (CNN). Razdelimo jih lahko v dva glavna pristopa. Najveˇ c mreˇ z deluje na principu enkoder-dekoder (FCN [9], SegNet [1], U-Net [12]). Enkoder iz slike izluˇ sˇ ci znaˇ cilnice, dekoder pa iz znaˇ cilnic generira segmentacijsko masko. Obiˇ cajno med enkoder in dekoder delom potekajo ˇ se dodatne po- vezave (bliˇ znjice), ki izboljˇ sajo natanˇ cnost segmentacije. Drugi pristop je z uporabo t. i. razˇ sirjene (angl. dilated) konvolucije [14]. Ta nadomesti sloje zdruˇ zevanja, tako da se velikost slike skozi mreˇ zo ne spreminja. Doseg mreˇ ze namesto tega poveˇ ca z razˇ siritvijo konvolucijskih filtrov, tako da med uˇ cljive elemente vstavi fiksne niˇ celne elemente. 3 Metoda SADNet Metoda SADNet je sestavljena iz dveh delov (Slika 1). V prvem delu se izvede napoved prisotnosti anomalije na vsakem pikslu (Poglavje 3.1). V drugem delu pa se z in- terpretacijo napovedane segmentacije izraˇ cunajo pozicije in velikosti anomalij (Poglavje 3.2). 3.1 Prisotnost anomalije na pikslu Za napovedovanje prisotnosti anomalije na pikslu upora- bimo CNN za semantiˇ cno segmentacijo. Segmentacijska mreˇ za je sestavljena iz 12 konvolucijskih slojev (Slika 2). V mreˇ zi se prostorska dimenzija reprezentacij trikrat pre- polovi. Zdruˇ zevanje v teh slojih je implementirano z upo- rabo koraka (angl. stride) na konvolucijskih slojih. Izhod (verjetnostna mapa) je tako po obeh dimenzijah osemkrat manjˇ si od originalne slike. Rezultat z bikubiˇ cno interpo- lacijo razˇ sirimo na velikost vhoda. V preliminarni eval- vaciji smo ugotovili, da uporaba uˇ cljivega dekoderja za poveˇ cevanje izhoda ne izboljˇ sa uspeˇ snosti metode. Anomalije so v segmentacijski maski v uˇ cnih prime- rih predstavljene s krogi (Slika 1). Ta pristop omogoˇ ca loˇ cevanje delno prekrivajoˇ cih se anomalij v postopku in- terpretacije maske (Poglavje 3.2). V postopku uˇ cenja za cenilno funkcijo uporabljamo binarno kriˇ zno entropijo. Mreˇ zo optimiziramo z metodo ADAM [6]. Slika 2: Arhitektura mreˇ ze za semantiˇ cno segmentacijo. Mreˇ za je sestavljena iz dvanajstih konvolucijskih slojev. Na sliki so prikazani izhodi posameznih konvolucijskih slojev. ˇ Stevilke oznaˇ cujejo ˇ stevilo kanalov izhoda. 3.2 Interpretacija segmentacije Rezultat prvega koraka metode (Poglavje 3.1) je verjetno- stna mapa anomalij. V koraku interpretacije metoda iz verjetnostne mape izluˇ sˇ ci detekcije (lokacije centrov in velikosti). Verjetnostno mapo metoda najprej upraguje z vrednostjo . Rezultat je binarna segmentacijska ma- ska anomalij. ˇ Ce so anomalije dovolj narazen, lahko v njej enostavno poiˇ sˇ cemo detekcije z metodo povezanih 254 komponent. V primerih z visoko gostoto in prekrivanjem anomalij pa pride do zdruˇ zevanja veˇ cih anomalij v eno povezano komponento (Slika 3). SADNet za loˇ cevanje takih skupkov izkoriˇ sˇ ca kroˇ zno predstavitev anomalij. Razdalja toˇ cke znotraj kroga do najbliˇ zje toˇ cke, ki ne pripada krogu, doseˇ ze najviˇ sjo vrednost v srediˇ sˇ cu kroga. Ko zdruˇ zimo dva ali veˇ c krogov, tako da je prekrivanje posameznega kroga manj kot poloviˇ cno, se ta lastnost lokalno ohranja. Srediˇ sˇ ca krogov, ki predstavljajo skupek, tvorijo lokalne maksimume razdalj do zunanjosti (Slika 3). Ta princip uporabimo za doloˇ canje centrov anomalij. (a) Segmentacijska maska (b) Slika oddaljenosti (c) Lokalni maksimumi (d) Ocenjena velikost Slika 3: Postopek izloˇ canja detekcij iz segmentacijske maske (a). Nad segmentacijsko masko izvedemo postopek raˇ cunanja razdalj do najbliˇ zjega roba (b). Lokalni maksi- mumi predstavljajo srediˇ sˇ ca detekcij (c), razdalja v teh toˇ ckah pa velikost detekcij (d). Na segmentacijski maski apliciramo algoritem raˇ cu- nanja oddaljenosti [13] (angl. distance transform), ki za vsako pozitivno toˇ cko v sliki poiˇ sˇ ce razdaljo do najbliˇ zje negativne toˇ cke. V tej matriki razdalj poiˇ sˇ cemo lokalne maksimume, ki predstavljajo pribliˇ zne centre anomalij. Zaradi ˇ suma in nizke loˇ cljivosti se lahko v bliˇ zini pravil- nega lokalnega maksimuma pojavi veˇ c lokalnih maksi- mumov. Ta ˇ sum odpravimo z morfoloˇ sko dilatacijo [13], ki poveˇ ze bliˇ znje ˇ sumne vrhove v enega. Iz rezultata izloˇ cimo vrhove z metodo povezanih komponent in za vsako komponento izraˇ cunamo masni center. Ta pred- stavlja center anomalije. Njeno velikost pa dobimo kot razdaljo od centra do najbliˇ zjega roba. Preberemo jo iz prej izraˇ cunane matrike razdalj. 4 Eksperimentalna evalvacija SADNet smo evalvirali na domeni detekcije udrtin v ploˇ ce- vini avtomobila z deflektometrijo in jo primerjali z me- todama za detekcijo objektov Faster R-CNN in Mask R- CNN. Za uˇ cenje in evalvacijo metod smo pripravili zbirko slik, ki smo jih zajeli z namenskim svetlobnim tunelom. Ta vsebuje projektor, ki na avtomobil projicira ˇ crtast vzo- rec in kamero, ki zajema slike odbitega vzorca. Sistem zajema slike v loˇ cljivosti 2048 1088. Zbirka vsebuje 83 slik, zajetih na 13 razliˇ cnih avtomobilih. Anotacije vsebujejo informacijo o poziciji srediˇ sˇ ca anomalije (x;y) in velikosti anomalije r. Anotiranje je potekalo roˇ cno. Zbirko sestavlja skupno 2847 anomalij (povpreˇ cno 34.3 anomalije na sliko), povpreˇ cna velikost (radij) anomalije pa je 13.15 piksla. Zbirko smo razdelili na uˇ cno in testno mnoˇ zico. Uˇ cna mnoˇ zica vsebuje 42 slik, testna pa 41. Vse slike zajete na enem avtomobilu se pojavljajo izkljuˇ cno v eni izmed mnoˇ zic. Iz anotacij uˇ cne mnoˇ zice se generira segmen- tacijska maska, ki jo dobimo tako, da anotacije v maski predstavimo z ujemajoˇ cimi krogi. Anotacije oˇ crtanega okvirja za uˇ cenje obeh standardnih metod pa dobimo kot oˇ crtan kvadrat kroˇ znih anotacij v zbirki. SADNet smo uˇ cili z nakljuˇ cno inicializiranimi uteˇ zmi, metodi Faster R-CNN in Mask R-CNN pa smo inicializirali z uteˇ zmi, prednauˇ cenimi na zbirki ImageNet. Za parameter uprago- vanja smo uporabli = 0 :5. Pri ocenjevanju in primerjavi metod smo uporabili na- slednje metrike. Natanˇ cnost (angl. precision, Pr) oznaˇ cuje deleˇ z detekcij, ki so pravilne. Priklic (angl. recall, Re) oznaˇ cuje deleˇ z anotacij, ki jih je metoda detektirala. F- mera zdruˇ zuje natanˇ cnost in priklic v enotno metriko po enaˇ cbi F 1 = ( P 1 +R 1 2 ) 1 = 2 P R P +R : (1) Ocenjevali smo tudi natanˇ cnost ocene velikosti detekcije. Velikost detekcije pri standardnih metodah smo dobili kot radij kroga, ki ga lahko vˇ crtamo v oˇ crtan okvir detekcije. Merili smo povpreˇ cno absolutno napako velikosti (ASE) v pikslih in povpreˇ cno relativno napako velikosti (RSE). Izmerili smo tudi povpreˇ cen ˇ cas izvajanja metode (T) za posamezno sliko. Rezultati so prikazani v Tabeli 1. Tabela 1: Rezultati evalvacije posameznih metod. Naj- boljˇ si rezultati v posameznem stolpcu so odebeljeni. Me- toda SADNet dosega najboljˇ se rezultate v vseh merah, razen v hitrosti in natanˇ cnosti. Metoda F1 P R ASE RSE T [s] SADNet 0.86 0.86 0.86 2.48 0.40 0.095 Mask R-CNN 0.82 0.89 0.76 3.23 0.47 0.211 Faster R-CNN 0.79 0.91 0.69 3.08 0.43 0.061 Metoda SADNet prekaˇ sa obe obstojeˇ ci metodi in de- tektira 13% veˇ c anomalij od druge najboljˇ se metode (Mask R-CNN). Po natanˇ cnosti sta standardni metodi nekoliko boljˇ si, po F-meri, ki zdruˇ zuje obe metriki, pa je SADNet pribliˇ zno 5% boljˇ si od Mask R-CNN. V ocenjevanju veli- kosti detekcij SADNet predstavlja 7% izboljˇ savo v primer- javi s Faster R-CNN, ki je na drugem mestu. Razlika v delovanju metod je ˇ se posebej oˇ citna na primerih z visoko gostoto in prekrivanjem anomalij (Slika 4). V tem primeru 255 (a) Detekcije metode Mask R-CNN (b) Detekcije metode SADNet Slika 4: Primerjava detekcij na primeru z velikim ˇ stevilom anomalij. Prikazana je tudi poveˇ cava dela slike. Na gostih podroˇ cjih metoda SADNet detektira bistveno veˇ cje ˇ stevilo anomalij. Tudi velikosti so bolje ocenjene. obstojeˇ ci metodi po veˇ c anomalij zdruˇ zujeta v posamiˇ cne detekcije, velik del pa jih tudi izpustita. Metoda SADNet sliko obdela povpreˇ cno v ˇ casu 0.095s (10.5 slik na sekundo), kar je pribliˇ zno 55% poˇ casneje od Faster R-CNN in 55% hitreje od Mask R-CNN. Obˇ cutna razlika je tudi v prostorski kompleksnosti modela. Uteˇ zi obeh modelov standardnih metod na disku zasedejo ne- kaj veˇ c kot 500 MB prostora, medtem ko uteˇ zi SADNet zasedejo manj kot 0.5 MB prostora. 5 Zakljuˇ cek V ˇ clanku smo predstavili metodo SADNet za vizualno detekcijo kompaktnih anomalij z deflektometrijo. Metoda izvaja detekcijo prek semantiˇ cne segmentacije in deluje v dveh stopnjah. V prvi stopnji konvolucijska nevronska mreˇ za napove segmentacijsko masko anomalij, v drugi stopnji pa se iz nje izloˇ cijo lokacije in velikosti detekcij. Metoda SADNet je zaradi svoje zasnove sposobna zaznati tudi delno prekrivajoˇ ce anomalije. Metodo smo ovredno- tili na domeni detekcije udrtin na ploˇ cevini avtomobila in jo primerjali z dvema trenutno najboljˇ sima metodama detekcije objektov. Eksperimentalni rezultati kaˇ zejo, da je metoda SADNet zelo uspeˇ sna in prekaˇ sa obe stari metodi. Izredno natanˇ cna je tudi na slikah z visoko gostoto anoma- lij, kjer klasiˇ cne metode za detekcijo objektov odpovejo. Prednosti razvite metode odpirajo zanimive moˇ znosti za nadaljnje delo. SADNet bi bilo zanimivo testirati tudi na drugih domenah izven detekcije anomalij, kjer se po- javlja visoka gostota kompaktnih objektov (npr. ˇ stetje). Potencialne izboljˇ save vidimo tudi v nadgradnji segmen- tacijskega dela metode, tako da segmentacija centrov in velikosti anomalij potekata loˇ ceno. V eni segmentacij- ski maski nato preprosto najdemo centre anomalij (brez problemov prekrivanja), iz druge pa razberemo velikost. Literatura [1] Vijay Badrinarayanan, Alex Kendall, and Roberto Cipolla. Segnet: A deep convolutional encoder-decoder architecture for image segmentation. CoRR, abs/1511.00561, 2015. [2] Jifeng Dai, Yi Li, Kaiming He, and Jian Sun. R-FCN: object detection via region-based fully convolutional ne- tworks. CoRR, abs/1605.06409, 2016. [3] Ross B. Girshick. Fast R-CNN. CoRR, abs/1504.08083, 2015. [4] Ross B. Girshick, Jeff Donahue, Trevor Darrell, and Jiten- dra Malik. Rich feature hierarchies for accurate object de- tection and semantic segmentation. CoRR, abs/1311.2524, 2013. [5] Kaiming He, Georgia Gkioxari, Piotr Doll´ ar, and Ross B. Girshick. Mask R-CNN. CoRR, abs/1703.06870, 2017. [6] Diederik P. Kingma and Jimmy Ba. Adam: A method for stochastic optimization. In 3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, May 7-9, 2015, Conference Track Proceedings, 2015. [7] Tsung-Yi Lin, Priya Goyal, Ross B. Girshick, Kaiming He, and Piotr Doll´ ar. Focal loss for dense object detection. CoRR, abs/1708.02002, 2017. [8] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott E. Reed, Cheng-Yang Fu, and Alexan- der C. Berg. SSD: single shot multibox detector. CoRR, abs/1512.02325, 2015. [9] Jonathan Long, Evan Shelhamer, and Trevor Darrell. Fully convolutional networks for semantic segmentation. CoRR, abs/1411.4038, 2014. [10] Joseph Redmon, Santosh Kumar Divvala, Ross B. Girshick, and Ali Farhadi. You only look once: Unified, real-time object detection. CoRR, abs/1506.02640, 2015. [11] Shaoqing Ren, Kaiming He, Ross B. Girshick, and Jian Sun. Faster R-CNN: towards real-time object detection with region proposal networks. CoRR, abs/1506.01497, 2015. [12] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U- net: Convolutional networks for biomedical image segmen- tation. CoRR, abs/1505.04597, 2015. [13] Milan Sonka, Vaclav Hlavac, and Roger Boyle. Image pro- cessing, analysis, and machine vision. Cengage Learning, 2014. [14] F. Yu and V . Koltun. Multi-Scale Context Aggregation by Dilated Convolutions. arXiv e-prints, November 2015.