Elektrotehniški vestnik 87(3): 75-86, 2020 Izvirni znanstveni članek
Načrtovanje najboljšega naslednjega pogleda za gradnjo 3D-modelov predmetov iz barvnih slik
Kristian Žarn, Danijel Skočaj
Univerza v Ljubljani, Fakulteta za računalništvo in informatiko, Večna pot 113, 1000 Ljubljana, Slovenija E-pošta: kristian.zarn@gmail.čom, danijel.skočaj@fri.uni-lj.si
Povzetek. Kakovost pridobljenega 3D-modela je mocno odvisna od zajetih slik. Rocno zajemanje je lahko dolgotrajno opravilo, pri katerem Želimo s slikami doseci ustrezno natančnost in pokritost modela. Uporabnik, ki med zajemanjem nima povratne informacije o ustreznosti slik, s težavo upošteva vse predpostavke algoritmov, kar je lahko vzrok za neuspešno rekonstrukcijo, ponovno zajemanje pa je lahko zelo drago ali celo nemogoče. V tem delu predstavimo novo metodo za nacrtovanje najboljšega naslednjega pogleda, ki temelji na novi meri za oceno kakovosti 3D-modela. Na ta nacin uporabnik dobi namig, iz katerih pogledov naj zajame slike, da zagotovi smiselno gradnjo 3D-modela. Predlagano metodo smo preizkusili s pomocjo razvitega sistema za rekonstrukcijo, ki omogoca sprotno gradnjo modela in odziv o primernosti zajetih slik. Z evalvacijo pokazemo, da je rekonstrukcija z našo metodo nacrtovanja naslednjega pogleda v vecini primerov boljša od rekonstrukcije iz slik zajetih s po navidezni polkrogli enakomerno razporejenimi kamerami.
Ključne besede: racunalniški vid, 3D-rekonstrukcija, struktura iz gibanja, najboljši naslednji pogled
Next best view planning for building a 3D model of objects from color images
The quality of a reconstructed 3D model heavily depends on the input images. The manual image acquisition to obtain the desired accuracy and completeness of the model can be a lengthy process. A user with no feedback about the image suitability may find it hard to comply with the assumptions of the algorithms, which can result in an unsuccessful model reconstruction. An additional image acquisition can be expensive or even impossible. In this work we introduce a new method for the next best view planning. The method is based on a new quality measure giving the user a hint from which view to capture the image to ensure a sensible reconstruction. The proposed method is tested with a system that allows an online reconstruction and immediate feedback about the image adequacy. We show that the reconstruction obtained by the next best view planning is generally better than the reconstruction from images captured from evenly-spaced view points in the shape of a hemisphere.
Keywords: computer vision, 3D reconstruction, next best view
1 Uvod
Pri rekonstrukciji želimo na podlagi zajetih slik pridobiti 3D-obliko, ki se predmetu najbolj prilega. Razviti postopki in algoritmi se uspešno uporabljajo v industriji, npr. za 3D-kartiranje, spletne trgovine, 3D-tisk, posebne ucinke v filmih, računalniške igre in arhiviranje kulturne dediščine. Sodobne digitalne kamere lahko zaradi visoke locljivosti in kakovosti slik ob ustrezni uporabi proizvedejo 3D-modele visoke kakovosti, ki je v dolocšenih pogojih primerljiva z laserskim skeniranjem [15].
Prejet 19. december, 2019 Odobren 26. februar, 2020
Kakovost rekonstrukcije je mocno odvisna od zajetih slik. Algoritmi za rekonstrukcijo imajo nekatere predpostavke in omejitve, npr: kot in translacija med pari sosednjih pogledov morata biti primerna, rekonstruirani predmeti pa morajo imeti dovolj dobro teksturo. Uporabnik, ki med zajemanjem nima povratne informacije o ustreznosti slik, tezko upošteva omenjene predpostavke. Lahko se zgodi, da zaradi neustreznih slik nekateri deli predmeta ne morejo biti rekonstruirani ali pa ni dosezena zelena natancnost modelov. Ponovno zajemanje slik je lahko zelo drago ali celo nemogocše, kot npr. pri rekonstrukciji iz zracnih posnetkov in arhiviranju arheoloških najdb. Poleg tega se pri nenadzorovanemu zajemanju slik pogosto zajamejo tudi redundantne slike, ki povecajo cas procesiranja brez pomembnega prispevka h kakovosti modela.
Omenjene tezave so pogoste v klasicnih pristopih, kjer je gradna 3D-modela izvedena loceno, po zajemanju slik. V tem delu se osredotocamo na razvoj nove metode za nacrtovanje naslednjih pogledov (angl. next best view planning), ki sistematicno izboljšajo kakovost rekonstrukcije. Z uporabo sodobnejših algoritmov smo razvili tudi programsko opremo, ki omogocša sprotno gradnjo grobega 3D-modela ze med zajemanjem slik. Uporabili smo jo pri evalvaciji predlagane metode za nacrtovanje pogledov.
Oris naše programske rešitve je prikazan na sliki 1. Diagram prikazuje odvisnost med funkcionalnostmi ter vhodnimi in izhodnimi podatki. Postopek se zacšne z zajemanjem slik, ki so pridobljene z IP-kamero. V našem primeru je kot IP-kamera uporabljen mobilni telefon, kar je mogoce s pomocjo dodatne mobilne aplikacije.
76
ŽARN, SKOCAJ
Iz zajetih slik se postopoma gradi redka rekonstrukcija, ki vraca lego kamer in grob 3D-model, predstavljen s trikotnisko mreZo. Na podlagi te predstavitve so predlagani tudi naslednji pogledi. Ko je zajetih dovolj slik, lahko uporabnik z algoritmi goste rekonstrukcije pridobi koncni 3D-model.
Zajem vhodnih slik
Predlog naslednjega
> *	Vhodne slike		
			
			
Redka rekonstrukcija
Načrtovanje naslednjega pogleda
Končni 3D model
			
l.	Lega kamer in		
r	grob 3D model		
			
Gosta rekonstrukcija
Slika 1: Oris programske rešitve. Sivi okvirji predstavljajo funkcionalnosti programa, beli pa njihove vhode in izhode.
V naslednjem poglavju predstavimo nekaj najbolj relevantnih sorodnih del. Kratek opis naše programske rešitve je podan v poglavju 3, podrobnejši opis naše metode za načrtovanje pogledov pa v poglavju 4. V poglavjih 5 in 6 predstavimo metodologijo evalvacije in nekaj rezultatov. Prispevek zaključimo s sklepnimi ugotovitvami ter smernicami za nadaljnje delo.
2 Sorodna dela
Celoten postopek gradnje 3D-modelov iz barvnih slik v grobem delimo na redko in gosto rekonstrukcijo. Najbolj popularen postopek za prvo je imenovan struktura iz gibanja (angl. structure from motion), označen je s kratico SfM [1]. Sestavljen je lahko iz razlicnih algoritmov in na splošno deluje tako, da se na slikah poišcejo znacilnice, nato pa se na podlagi ujemanj med slikami izracunajo njihove 3D-koordinate. Rezultat so redek oblak 3D-tock ter pozicija in orientacija kamer, ki pripadajo vhodnim slikam. Wu je v svojem delu [6] z izvirno strategijo uporabe algoritmov pokazal, da je lahko casovna zahtevnost postopka SfM skoraj linearna tudi pri rekonstrukciji z vec tisoc slikami. Na takšnem postopku temeljijo številni sodobni pristopi za redko rekonstrukcijo, uporabljamo pa ga tudi v našem delu.
Ce zelimo na podlagi slik pridobiti 3D-model visoke locljivosti, ki se bolj natancno prilega obliki dejanskega predmeta, potem lahko redek oblak tocšk nadgradimo z gosto rekonstrukcijo. V nasprotju z redko rekonstrukcijo je v tem primeru cilj pridobiti globino (in posledicšno 3D-lokacijo) vsakega slikovnega elementa na vsaki sliki. To storimo z algoritmi s podrocja vecpoglednega sterea (angl. multi-view stereo), ki za vhod vzamejo rezultate
redke rekonstrukcije in proizvedejo gost 3D-model. Opis in primerjava razlicnih pristopov rekonstrukcije na tem podrocju sta na voljo v preglednem clanku [2].
V literaturi so s pojmom nacšrtovanje naslednjega pogleda oznacšeni zelo razlicšni pristopi. V tem delu problem obravnavamo kot inkrementalni proces siste-maticšne izboljsšave natancšnosti in pokritosti 3D-modela. Kriegel in drugi [3] so za gradnjo 3D-modela uporabili industrijski robotski manipulator z laserskim skener-jem. Naslednji pogledi so izbrani na podlagi robov v modelu in cenovne funkcije, ki stremi k raziskovanju. Na podrocju rekonstrukcije iz barvnih slik sta problem naslovila Dunn in Frahm [4]. Predlagala sta cenovno funkcijo, ki zdruzuje negotovost v oceni strukture, projekcijo modela in videz teksture. Naslednji pogled je dolocen z optimizacijo te funkcije. Sproten odziv pri rekonstrukciji so naslovili tudi Hoppe in drugi [5]. V svojem delu so razvili rešitev, ki s sprotno informacijo o ustreznosti slik in kakovosti modela pomaga uporabniku pri rekonstrukciji.
3 Gradnja 3D-modela
Kot prikazuje slika 1, je postopek gradnje 3D-modelov predmetov razdeljen na redko in gosto rekonstrukcijo. Ti komponenti naše programske opreme sta opisani v tem poglavju.
3.1 Redka rekonstrukcija
Za redko rekonstrukcijo smo uporabili postopek, imenovan inkrementalna struktura iz gibanja [6]. Rekonstrukcija je inicializirana na podlagi prvih dveh slik. Na slikah poišcemo znacilnice SIFT [7] in njihova ujemanja. Na podlagi ujemanj izracunamo tako imenovano osnovno matriko (angl. essential matrix). Iz nje pridobimo relativno lego prvih dveh kamer [8]. Magnituda translacije iz osnovne matrike ne more biti dolocšena, zato pravimo, da je rekonstrukcija dolocšena do velikosti natancšno. Oblak 3D-tocšk inicializiramo s triangulacijo [10] ujemajocih znacilnic. Rekonstrukcijo nato postopoma nadgrajujemo z dodajanjem novih slik. Iz nove vhodne slike najprej pridobimo znacilnice. Naslednji korak je kriticen za hitro razširitev. Namesto iskanja ujemanj z vsemi predhodnimi slikami išcemo ujemanja samo s petimi najbolj podobnimi slikami. Te kandidate za ujemanje pridobimo z uporabo tako imenovanega vizualnega slovarja [11]. Znacilnice nove slike, za katere smo našli ujemanje, lahko zdaj razdelimo v dve mnozici.
V	prvi mnozici so tiste, ki so ze del rekonstrukcije. Uporabimo jih za dolocanje absolutne lege kamere [9].
V	drugi mnozici so tiste, ki še niso del rekonstrukcije. Dodamo jih s triangulacijo. Pomembno je, da po vsaki dodani sliki minimiziramo reprojekcijsko napako. S tem izboljšamo natancnost in omilimo akumulacijo napake. Na podlagi oblaka tock in lege kamer lahko rekonstruiramo površino predmeta [12]. Ker gre za hitro operacijo, jo lahko izvedemo po vsaki dodani sliki. Tako pridobimo
NAČRTOVANJE NAJBOLJŠEGA NASLEDNJEGA POGLEDA ZA GRADNJO 3D-MODELOV PREDMETOV IZ BARVNIH SLIK
77
Slika 2: Prikazani so rezultati korakov gradnje 3D-modela. Od leve proti desni si sledijo, redka rekonstrukcija z metodo Struktura iz gibanja, rekonstrukcija površine, izboljšava ločljivosti in natančnosti ter teksturiranje.
grob 3D-model, predstavljen s trikotniško mrežo. Na sliki 2 so prikazani vmesni rezultati gradnje 3D-modela. Opisani postopek zajema prva dva koraka.
Kot osnovo pri implementaciji redke rekonstrukcije smo uporabili knjiznico TheiaSfM [17]. Ta vsebuje številne algoritme s področja strukture iz gibanja. Za hitrejše iskanje značilnic smo uporabili implementacijo na graficni kartici iz knjiznice SiftGPU [18]. Implementacijo vizualnega slovarja smo pridobili iz knjiznice ČOLMAP [19].
3.2 Gosta rekonstrukcija
Za ceno dodatnega procesiranja lahko redko rekonstrukcijo izboljšamo z algoritmi goste rekonstrukcije. Knjiznica OpenMVS [20] ponuja implementacijo algoritmov za rekonstrukcijo površine, izboljšavo locljivosti in generiranje teksture. Te algoritme smo integrirali v našo rešitev.
Izboljšava locljivosti 3D-modela [13] je casovno zahtevna operacija, ki jo izvedemo, ko so zajete vse slike. Locljivost grobega modela je z delitvijo trikotnikov prilagojena locljivosti vhodnih slik. Nad vozlišci gostejšega modela je definirana energijska funkcija. Z minimizacijo te funkcije dolocimo natancnejšo pozicijo vozlišc.
Koncni model pridobimo s teksturiranjem [14], ki je kljucnega pomena za dosego realisticnega videza. Algoritem deluje v dveh korakih. V prvem koraku vsakemu trikotniku pripisšemo oznako, ki dolocša en pogled, ki bo uporabljen za njegovo teksturiranje. Drugi korak algoritma pa je globalna uskladitev barv, tako da med trikotniki ni vidnih prehodov. Opisana algoritma zajemata zadnja dva koraka slike 2.
4 Načrtovanje naslednjega pogleda
V tem poglavju opisšemo predlagano metodo za nacšrtovanje naslednjega pogleda, ki je glavni prispevek tega dela. Najprej predstavimo še oceno kakovosti 3D-modela, ki je temelj za delovanje naše metode.
4.1 Ocena kakovosti 3D-modela
Za predstavitev 3D-modelov v nasšem delu uporabljamo trikotniško mrezo. To je seznam tock Mi in trikotnikov Ti. Tako kot v [5], kakovost 3D-modela
definiramo s funkcijo Q, ki vsakemu trikotniku Ti = {Mi ,M2 ,M3} priredi realno vrednost. Takšno preslikavo lahko zapišemo z enacbo
Q : {R3, R3, R3} ^ R Ti ^ Q(Ti).
(1)
Želimo si, da prirejena vrednost čim bolje predstavlja kakovost končnega modela, ki je merjena z natančnostjo in pokritostjo. Tako imamo Ze med rekonstrukcijo na voljo informacije o tem, kateri deli modela so bolj oz. manj natančni. Tako lahko sprejmemo informirano odločitev o postavitvi naslednje kamere. Ta ideja je osnova za delovanje nase metode načrtovanja naslednjih pogledov. Hoppe in drugi v svojem delu [5] predlagajo mero GSD (angl. ground sampling distanče). V našem delu predlagamo podobno, vendar nekoliko spremenjeno mero, imenovano PPA (angl. pixels per area), ki se je izkazala za bolj robustno.
Mera GSD se izračuna na naslednji način. Posamezni trikotnik Ti preslikamo nazaj na kamere C j. Ploščino trikotnika nato delimo z maksimalno ločljivostjo preslikave in rezultat korenimo. Mero zapišemo z enačbo
Qgsd (Ti) = min
I A (Ti) P (Ti, C j).
(2)
V zgornji enacbi funkcija P vrne število slikovnih elementov, ki jih trikotnik Ti pokrije na sliki kamere C j, funkcija A pa vrne plošcino trikotnika v 3D-prostoru. Manjša vrednost funkcije Qgsd pomeni vecjo kakovost modela. Zaradi majhnih in manj vidnih trikotnikov ta mera proizvede tudi nekatere zelo izstopajoce vrednosti, zato odrezemo a = 10 % najbolj izstopajocih, tako kot v originalnem delu [5].
Mero PPA izracunamo na podoben nacin. Trikotnik Ti je ponovno preslikan nazaj na kamere C j. Stevilo slikovnih elementov preslikav tokrat seštejemo in delimo s plošcino trikotnika v 3D-prostoru. Da omilimo vpliv vecjih vrednosti, koncni rezultat korenimo. Mero zapisšemo z enacšbo
qppa (Ti) =
YjC. P (Ti, C j)
A(Ti)
(3)
78
ŽARN, SKOCAJ
V tem primeru vecja vrednost funkcije QPPA pomeni vecjo kakovost modela. Posebna normalizacija kot pri meri GSD tu ni potrebna. V zgornjih enačbah je računsko najzahtevnejša funkcija P, pri kateri moramo upoštevati medsebojno prekrivanje trikotnikov celotnega modela. Za ucinkovito implementacijo smo uporabili graficno kartico.
Na sliki 3 sta obe meri kakovosti vizualizirani na konkretnem primeru. Za primerjavo smo na sliki 4 prikazali tudi dejansko natancšnost modela. Postopek izracšuna natancnosti je opisan v podpoglavju 5.2. Opazimo lahko, da se v tem primeru mera PPA vizualno bolje ujema z dejansko natancnostjo. Obseznejša evalvacija je predstavljena v podpoglavju 6.1.
Slika 3: Vizualizacija kakovosti za konkreten 3D-model. Na levi strani je prikazana mera GSD, na desni pa PPA. Meri sta normalizirani tako, da zavzameta vrednosti na intervalu [0,1], kjer 1 predstavlja največjo in 0 najmanjšo kakovost. Opazimo lahko, da je blizjim trikotnikom in tistim z boljšo vidnostjo na kamerah pripisana večja kakovost.
i:
I
Slika 4: Vizualizacija dejanske natančnosti modela za primerjavo z merama GSD in PPA. Leva stran prikazuje nespremenjeno natančnost. Na desni strani smo za potrebe vizualizacije odstranili 10 % največjih vrednosti. Tako omilimo vpliv velikih odstopanj in zmanjšamo razpon med vrednostmi. Rdeča barva predstavlja dobro natančnost, modra pa slabo.
Obe meri predpostavljata, da boljša vidnost trikotnikov proizvede boljšo kakovost modela. Razlikujeta se v tem, da mera PPA upošteva vidnost trikotnika na vseh kamerah, medtem ko je pri meri GSD pomembna le čim večja ločljivost na eni izmed kamer. Omenjena predpostavka drži v primerih, ko ima rekonstruirani predmet dobro teksturo in je pridobljenih dovolj značšilnič. V določenih primerih lahko model zaradi lukenj, odsevnih materialov, slabe teksture in šuma vsebuje trikotnike, ki se dejanski površini predmeta ne prilegajo, vendar so kljub temu dobro vidni na kamerah. V takšnih primerih opisani meri proizvedeta slabše rezultate.
4.2 Najboljši naslednji pogled
Problem načrtovanja naslednjega pogleda (angl. next best view planning) je definiran kot iskanje nove oz. dodatne postavitve senzorja z namenom izboljšave obstoječe rekonstrukcije oz. predstavitve prostora. Namesto barvne kamere so na splošno lahko uporabljeni tudi drugi senzorji (npr. globinske kamere, laserski skenerji itd.). Odvisno od konteksta lahko na načrtovanje pogledov gledamo kot na strategijo za avtonomno raziskovanje ali izbiro najboljših vhodnih slik pri rekonstrukciji iz velike mnozice podatkov. Tako kot v [4] v tem delu problem obravnavamo kot inkrementalni pročes sistematične izboljšave natančnosti in pokritosti 3D-modela.
Naš pristop za načrtovanje naslednjega pogleda temelji na očeni kakovosti 3D-modela. Najprej definiramo čenovno funkčijo, ki za podano lego kamere očeni, kako dobra je njena postavitev. Funkčijo zapišemo z enačbo
fNBV : R4x4 - R
fNBV(C) = a * ^(Qppa(v(C)))	(4)
- P * <T(Qppa(V(C))).
Spremenljivka C je 4 x 4 matrika lege kamere, ki vsebuje njeno pozičijo in orientačijo. Funkčija v za postavitev kamere C vrne vse vidne trikotnike, ki jih označimo s T. Funkčijo Q, ki za podano mnozičo T vrne pripadajoče kakovosti, smo definirali v prejšnjem podpoglavju. V našem primeru smo uporabili mero PPA. Na podlagi pridobljenih vrednosti izračunamo dva podatka, in sičer njihovo povprečje ^ (prvi člen enačbe) in standardni odklon o (drugi člen enačbe). Utemeljitev takšne definičije je naslednja. Za novo kamero si zelimo, da izboljša območja slabe kakovosti (nizka vrednost po drugi strani pa je kamera lahko pravilno lokalizirana oz. dodana k rekonstrukčiji samo, če so vidni tudi bolj kakovostni deli modela (visoka vrednost o). Zelimo si torej čim večji razpon med vrednostmi. Ta kompromis med vidnostjo trikotnikov z dobro in slabo kakovostjo uravnavamo s parametroma a = 1 in P = 5. Vrednost funkčije poskušamo minimizirati.
Hitrost izračuna funkčije fNBV omejuje iskanje vidnih trikotnikov, pri katerem moramo upoštevati njihovo medsebojno prekrivanje. Čeprav je implementačija na grafičšni kartiči sorazmerno hitra, je to sše vedno najpočasnejši del izračuna, zato postopek načrtovanja naslednjega pogleda začšnemo z gručšenjem trikotnikov modela, ki opravlja dve nalogi. Na podlagi gruč ge-neriramo bolj obvladljivo število postavitev kamere. Te postavitve predstavljajo kandidate za naslednji pogled. Pri velikih modelih je število gruč (in posledično kandidatov) lahko še vedno preveliko, zato so kandidati dodatno filtrirani na podlagi lokalne očene za funkčijo fNBV, ki je izračunana na podlagi trikotnikov v posamezni gruči. Na konču funkčijo fNBV izračunamo le za mnozičo najboljših kandidatov, ki je dovolj majhna za hiter izračun.
NAČRTOVANJE NAJBOLJŠEGA NASLEDNJEGA POGLEDA ZA GRADNJO 3D-MODELOV PREDMETOV IZ BARVNIH SLIK
79
Podrobnejši opis korakov je naslednji. Na začetku model naključno razdelimo na povezane gruče, ki vsebujejo med cmin in cmax trikotnikov. Normala posameznega trikotnika v gručši od povprečšja ne sme odstopati za večš kot ^ stopinj. Primer gručenja je prikazan na sliki 5. Za vsako gručo ovrednotimo lokalno oceno funkcije Inbv tako, da namesto trikotnikov, vidnih na kameri, uporabimo trikotnike v gruči. Ker za lokalno očeno ne potrebujemo informačije o vidnosti, je ta izračšun lahko zelo hiter.
Algoritem 1 Načrtovanje naslednjega pogleda Vhod: 3D-model, predstavljen s trikotniško mrezo MT Izhod: Lega predlaganega pogleda Cnbv 1: Mq ^ Izračun kakovosti za trikotniško mrezo
Qppa(Mt )
2: G 1... Gn ^ Delitev modela na gruče (cmin = 100,
Cmax = 300, ^ = 100) 3: ¡log(Gi) ^ Lokalna očena funkčije fNBV za vse posamezne gručše Gi na podlagi trikotnikov znotraj gruče (a = 1, p = 5) 4: C1.. .Cn ^ Za vsako gručo Gi je generirana postavitev kamere Ci (kandidati za naslednji pogled) 5: fNBV (Ci) ^ Ovrednotenje čenovne funkčije fNBV (Ci) za najboljših n = 20 kandidatov z najboljšo lokalno očeno fLOG (Gi) (a = 1, p = 5) ^ Izbira najboljšega kandidata
Slika 5: Primer gručenja na konkretnem primeru. Prikazana sta dva pogleda istega modela. Trikotniki iste gruče so obarvani z isto barvo. Barva predstavlja tudi lokalno očeno čenovne funkčije. Gruče na robu modela z nizko čeno (modra barva) predstavljajo dobre kandidate za postavitev kamere. Nekateri trikotniki niso del gruče (bela barva), saj njihova očena kakovosti presega trenutno čiljno vrednost.
Za vsako gručšo generiramo eno postavitev kamere, ki predstavlja kandidata za naslednji pogled. Kamera je postavljena od sredisščša gručše G v smeri povprečšja normal trikotnikov znotraj gruče. Usmerjena je proti čentru gruče, oddaljenost d pa je določena z enačbo
d = y VAG).	(5)
Funkčija A vrne ploščino gruče v 3D-prostoru, korenska funkčija pa prepreči, da bi bila pri velikih gručah kamera preveč oddaljena. Dodaten parameter y je odvisen od goriščne razdalje kamere. V tem delu smo uporabili le dve različni kameri (virtualno in resnično), zato smo v obeh primerih ta parameter določšili empiričšno. V podpoglavju 6.2 uporabljamo vrednost 7 = 4.0, v podpoglavju 6.3 pa vrednost 7 = 3.0. Za najboljših n kandidatov (v smislu lokalne očene) nato izračšunamo čenovno funkčijo fNBV in za najboljši naslednji pogled predlagamo tistega z najmanjšo čeno. Opisano načrtovanje naslednjega pogleda je povzeto v algoritmu 1. Podane so tudi konkretne vrednosti parametrov, ki smo jih določšili empiričšno.
Izboljsšava kakovosti modela je postopna. Na začšetku rekonstrukčije postavimo čiljno kakovost qt = 1500. Vsakič ko qp = 85 % odstotkov trikotnikov doseze čiljno kakovost, parameter qt povečamo za qinc = 500. Parameter qt se torej postopoma povečšuje in zasede vrednosti 1500, 2000, 2500 itd. Tako še dodatno spodbudimo raziskovanje in preprečšimo morebitno kopičšenje pogledov na enem območju.
Izračun čenovne funkčije fNBV na konkretnem primeru je prikazan na sliki 6. Ponovno je uporabljen isti model kot na sliki 3, le da kamere rekonstrukčije tokrat niso prikazane. Na desni strani je prikazan najboljši predlagani pogled, na levi pa šesti najboljši. Prikazana je tudi upodobitev modela z mero PPA na obeh kamerah. Vrednost čenovne funkčije fNBV za levi pogled znaša 30,3, za desni pogled pa -111,9. Desni pogled ima nizjo čeno zaradi večjega razpona vrednosti mere PPA, kar je razvidno tudi iz upodobitve modela. Ta pogled je boljša izbira, saj z njim zajamemo večje število slabše očenjenih trikotnikov in s tem spodbujamo širitev rekonstrukčije, obenem pa z vidnostjo dobro očenjenih trikotnikov omogočšimo njegovo uspesšno lokalizačijo. Levi pogled je postavljen blizu obstoječih kamer in ima manjši prispevek k izboljšavi rekonstrukčije.
W * 1
Slika 6: Upodobitev modela z mero PPA za dva predlagana pogleda. Vrednost čenovne funkčije fNBV za levi pogled znaša 30,3, za desni primer pa -111,9. Desni pogled je bolje očenjen zaradi manjšega povprečja in večjega standardnega odklona mere PPA na vidnih trikotnikih.
80
ŽARN, SKOCAJ
5 Metodologija evalvacije
5.2 Izračun natančnosti in pokritosti modela
V tem poglavju predstavimo metodologijo evalvacije načrtovanja pogledov. Kvantitativno evalvacijo opravimo v simuliranem okolju, in sicer z rekonstrukcijo računalniško zgeneriranih 3D-modelov. Na ta nacin lahko rekonstrukcije primerjamo z referencnimi 3D-modeli, poleg tega pa je poznana tudi natancšna lega kamer pri zajemanju slik. Uporabljeni referencni 3D-modeli so prosto dostopni na spletnem portalu Sket-chfab* in so objavljeni pod licenco CC. Rezultati so predstavljeni v poglavju 6, kjer podamo tudi nekaj primerov rekonstrukcij resnicšnih predmetov.
5.1 Enakomerna postavitev kamer
Rezultate nacšrtovanja naslednjega pogleda smo primerjali s t. i. osnovno rekonstrukcijo. Ta je pridobljena iz enakomerne postavitve kamer. Kamere so razporejene enakomerno po navidezni polkrogli in usmerjene proti njenemu središcu. Stevilo kamer na prvem (spodnjem) obrocu doloca parameter p, kamere na preostalih obrocih pa so postavljene z enakim medsebojnim razmikom.
Primer enakomerne postavitve kamer je prikazan na sliki 7. V tem primeru sta prikazani dve postavitvi kamer, in sicer za gostoti p = {20,60}, ki na vseh nivojih skupaj proizvedeta 72 oz. 596 kamer. Pri evalvaciji je bila uporabljena še vmesna gostota kamer, in sicer p = 40. Slike locljivosti 2048 x 1536 upodabljamo z virtualno kamero, za katero poznamo notranje parametre. Najprej so dodane slike na spodnjem obrocšu, nato nadaljujemo z naslednjimi obroci proti vrhu.
Na splosšno je taksšna postavitev kamer zelo ugodna pri rekonstrukciji predmetov z vecinoma konveksno obliko, ki jih lahko postavimo v sredisšcše polkrogle. Med drugim je takšna postavitev uporabljena tudi pri gradnji testnih mnozic za evalvacijo rekonstrukcijskih algoritmov [15], [16]. Za bolj pošteno primerjavo z nacšrtovanjem pogledov smo referencšne modele izbrali tako, da je enakomerna postavitev kamer sorazmerno ugodna za njihovo rekonstrukcijo.
p = 20
p= 60
Slika 7: Prikazana je enakomerna postavitev kamer za gostoti p = {20,60}. Skupno število kamer je 72 (levo) in 596 (desno). V sredini polkrogel je eden izmed referencnih modelov. Rezultat rekonstrukcije referencšnega modela s taksšno postavitvijo kamer je t. i. osnovna rekonstrukcija, ki jo v nadaljevanju uporabimo pri evalvaciji.
Za primerjavo rekonstrukcije z referencšnim modelom je v literaturi uveljavljen pristop prvotno predstavljen v delu [15]. Omenili smo ze, da kakovost rekonstrukcije merimo z natancnostjo in pokritostjo modela. Tu predstavimo natancnejšo definicijo obeh pojmov. Referencni model oznacimo z G, rezultat rekonstrukcije pa z R. Na-tancšnost in pokritost sta izracšunana na podlagi razdalje med R in G. Pomen te razdalje je graficšno prikazan na sliki 8.
* https://sketchfab.com
Slika 8: Leva stran prikazuje razdaljo od rekonstrukcije R do referenčnega modela G. Za vsako tocko v R poiščemo najbliZjo točko v G. Na podlagi teh razdalj je izračunana natančnost. Desna stran prikazuje izračun razdalje v drugo smer (od G do R) na podlagi katere izračunamo pokritost. Na skiči je razdalja za rdeče točke prevelika, zato jih R ne pokrije. Skiča je povzeta po [15].
Pri izračunu natančnosti moramo za vsako točko v R poiskati najblizjo točko v G. Modeli so v našem delu predstavljeni s trikotniško mrezo. Pri takšni predstavitvi so velikosti trikotnikov lahko zelo neenakomerne. Pri računanju razdalje zato predhodno iz originalnega modela z enakomernim vzorčenjem pridelamo oblak točk, ki je nato uporabljen za primerjavo. S tem izničimo učšinek različšnih velikosti trikotnikov. Mero natančšnosti predstavlja tista razdalja Ad, za katero je 90 % točk v R, do pripadajočih najblizjih točk v G, oddaljenih za največ Ad. To mero poimenujemo nenatančnost in si zelimo, da je pri rekonstrukčiji čim manjša.
Pri izračšunu pokritosti isščšemo razdaljo v drugi smeri, in sičer za točke v G poiščemo najblizje točke v R. Za posamezne točške referenčšnega modela pravimo, da so pokrite, če je njihova razdalja do rekonstrukčije dovolj majhna. Tukaj je treba uvesti še dodatno mejno vrednost Ct, ki določa, kdaj je razdalja še sprejemljiva. Ker absolutna velikost referenčšnih modelov ni znana, je to mejno vrednost treba določiti za vsak model posebej. Pri tem si pomagamo z algoritmom PCA (angl. prinčipal čomponent analysis). Gre za splošen algoritem, ki za vhodni oblak točk poišče novo ortogonalno bazo, tako da bazni vektorji zajemajo čim več varianče v podatkih. Pri evalvačiji smo za mejno vrednost Ct izbrali 1 % dolzine najdaljšega baznega vektorja, torej mero pokritosti predstavlja delez točk G, za katere je razdalja do R manjša od Ct.
R
G
NAČRTOVANJE NAJBOLJŠEGA NASLEDNJEGA POGLEDA ZA GRADNJO 3D-MODELOV PREDMETOV IZ BARVNIH SLIK
81
6 Rezultati
Rezultati evalvacije našega dela so razdeljeni v tri večje sklope. Predlagano mero PPA najprej primerjamo z obstoječo mero. Nato predstavimo rezultate evalvacije načrtovanja naslednjega pogleda v simuliranem okolju, poglavje pa zaključimo z nekaj primeri rekonstrukcij resničnih predmetov.
6.1 Evalvacija mere za kakovost
Za meri PPA in GSD smo preverili, kako dobro odrazšata dejansko natancšnost rekonstrukcije. To smo storili z izračunom Pearsonovega koeficienta korelacije, ki je definiran z enacšbo
EIU (x¿- x) - v)
(6)
EIU (xi- x) v Er=i (vi- v)
<
0 0 1
Gre za najpogosteje uporabljeno mero linearne povezanosti dveh sštevilskih spremenljivk. Koeficient lahko zavzame vrednosti na intervalu [-1,1], kjer vrednosti ±1 predstavljata popolno linearno odvisnost, vrednost 0 pa pomeni, da spremenljivki nista odvisni.
Pri evalvaciji smo uporabili 4 referenčne modele, in sicer fontano, nagrobnik, hidrant in kip. Za vsak model smo gradili rekonstrukcijo z enakomerno postavitvijo kamer gostote p = 20. Po vsaki dodani sliki smo za vmesni model izracšunali razdalje od tocšk rekonstrukcije do najblizjih točk referenčnega modela (razdalja R do G) ter obe meri kakovosti. Na sliki 9 je prikazan primer korelacije med natančnostjo in oceno kakovosti za meri PPA in GSD. Primer prikazuje vmesni model rekonstrukcije. Vsaka točka na grafu sovpada z eno izmed tocšk modela ter prikazuje njeno razdaljo do reference (os y) in oceno kakovosti (os x). Na obeh grafih je razvidno, da je napaka večja pri točkah s slabše ocenjeno kakovostjo. V tem primeru je vrednost koeficienta korelacije za mero PPA -0,52, za mero GSD pa 0,44. Predznak se razlikuje, ker pri meri PPA večja vrednost ponazarja manjšo razdaljo do reference (pri meri GSD pa obratno). Za primerjavo nas zanima le njegova absolutna vrednost.
Za vsak testni model smo med gradnjo izračunali 69 koeficientov korelacije (od 72 slik so 3 uporabljene za inicializacijo) in na koncu njihove vrednosti povprecšili. Rezultati so zbrani v tabeli 1. Prikazane so absolutne vrednosti. Koeficient korelacije je za mero PPA v povprečju 1,6-krat večji od mere GSD. (Čeprav dejanske vrednosti predstavljajo nizko do srednjo linearno odvisnost spremenljivk, so rezultati nove mere obcšutno boljši od obstoječe. Pri interpretaciji rezultatov moramo upoštevati še, da odvisnost spremenljivk v resnici ni povsem linearna. Na neki tocški namrecš novi pogledi ne prispevajo pomembno k izboljsšavi natancšnosti in jo lahko v določenih primerih celo poslabšajo. Naj še omenimo, da je v tem primeru ocena kakovosti izračunana zgolj na podlagi vidnosti trikotnikov. Z vpeljavo dodatnih informacij (npr. videz teksture, postavitev kamer itd.) je tu še nekaj prostora za izboljšave.
Ocena kakovosti
Slika 9: Grafa prikazujeta natančnost v odvisnosti od ocene kakovosti za meri PPA (zgoraj) in GSD (spodaj). (Črna premica predstavlja linearni model, ki se podatkom najbolje prilega (minimizira vsoto kvadratov napake). Grafa sta ustvarjena na podlagi prikazanih vmesnih modelov rekonstrukcije.
	Fontana	Nagrobnik	Hidrant	Kip
PPA	0,265	0,321	0,407	0,336
GSD	0,144	0,240	0,246	0,218
Tabela 1: Absolutne vrednosti koeficientov korelacije med oceno kakovosti in razdaljo do referenčnega modela. Posamezna vrednost predstavlja povprečje koeficientov za vse vmesne modele med rekonstrukcijo.
6.2 Evalvacija načrtovanja pogledov
V tem poglavju predstavimo rezultate evalvacije nacšrtovanja naslednjega pogleda. Gradnjo modela z nacšrtovanjem pogledov (v nadaljevanju rekonstrukcija NBV) primerjamo z osnovno rekonstrukcijo pri razlicšnih vrednostih parametra p. Poleg tega smo preverili tudi delovanje kombiniranega pristopa, pri katerem smo za prvih 20 slik uporabili enakomerno postavitev kamer (gostote p = 20), nadaljnje slike pa smo zajeli z
Mera PPA
r
xy
82
ŽARN, SKOCAJ
20	40	60
Število pogledov
0.2 0
80
20
40
Število pogledov
60
80
Slika 10: Evalvacija rekonstrukcije modela kamna. Na zgornjem delu slike si od leve proti desni sledijo referenčni model, postavitev kamer pri rekonstrukciji NBV ter končni rekonstruirani model brez teksture in z njo. Spodnja grafa prikazujeta nenatančnost in pokritost v odvisnosti od števila dodanih pogledov (enako strukturo imajo tudi preostale slike tega podpoglavja).
načrtovanjem pogledov (označeno kot rekonstrukcija KOMB). Žanima nas predvsem, kako se med gradnjo spreminjata nenatančnost in pokritost modela. Ža primerjavo zgradimo 3 osnovne rekonstrukcije modelov z gostotami postavitve p = 20,40,60, ki predstavljajo redko, srednje gosto in gosto enakomerno postavitev kamer. V nekaterih primerih je vrednost p = 20 premajhna za uspešno rekonstrukcijo, zato jo v takšnih primerih povečamo na p = 25. Ža inicializacijo rekonstrukcije NBV smo uporabili prve tri poglede enakomerne postavitve, vsi naslednji pogledi pa so bili izbrani z nasšim algoritmom za nacšrtovanje naslednjega pogleda. V primeru, da najbolje ocenjeni pogled ni uspesšno dodan (npr. neuspesšna lokalizacija), se poskusša dodati pogled z drugo najboljšo oceno itd. V rezultatih poročamo o povprecšnem indeksu izbranega pogleda, kjer indeks 0 pomeni, da so bile ustrezne vse slike, indeks 1 pa, da je bila za vsako izbrano sliko ena izpusšcšena itn.
Ža začetek si poglejmo primer, ki je prikazan na sliki 10. Ž njim zelimo prikazati večjo fleksibilnost uporabe načrtovanja pogledov v primerjavi s fiksno postavitvijo. Čeprav gre za sorazmerno preprost model z večinoma konveksno obliko, enakomerna postavitev ne more dosecši polne pokritosti, saj spodnji del modela na kamerah ni viden v celoti. Najmanjša gostota, za katero je osnovna rekonstrukcija v tem primeru uspešna, je 25, poleg tega pa smo uporabili še gostoti 40 in 60. Nenatancšnost je majhna pri vseh nacšinih rekonstrukcije (nekoliko slabša je p = 25, vendar ne bistveno), bolj
zanimiva je pokritost. Najprej lahko opazimo, da gostota kamer vpliva na hitrost narasšcšanja pokritosti, kar je v skladu s pričakovanji. Pri gostejši postavitvi moramo namreč dodati več pogledov, da pokrijemo model. Pokritost rekonstrukcije NBV na intervalu med 5. in 20. pogledom sicer narašča nekoliko počasneje (primerljivo z p = 60), pozneje pa se pribliza polni pokritosti, saj so z uporabo načrtovanja pogledov kamere dodane tudi na spodnji strani modela. Povprečni indeks izbranega naslednjega pogleda je 0,15, kar pomeni, da je bil v veliki večini uspešno dodan prvi predlagani pogled. Rekonstrukcija KOMB v tem primeru zdruzuje prednosti obeh pristopov in daje najboljše rezultate. Pokritost je skoraj celoten čas rekonstrukcije boljša kot pri preostalih pristopih. Izjema je vmesni del okoli 40. pogleda, kar je verjetno posledica naključnosti gručenja pri določanju naslednjega pogleda.
Naslednja modela sta bila izbrana zaradi njune nekoliko bolj kompleksne oblike. Ž njima zšelimo prikazati robustnost naše metode za načrtovanje naslednjega pogleda. Kljub kompleksnejsšim oblikam je enakomerna postavitev v teh primerih precej ugodna, saj so vidni vsi deli modelov na vsaj eni izmed kamer, poleg tega so vsi pogledi uspesšno dodani tudi pri redki postavitvi kamer. Referenčna modela s pripadajočimi rezultati sta prikazana na slikah 11 in 12. Rezultati evalvacije so v teh dveh primerih podobni. Nekoliko bolj izstopa model kipa, pri katerem je končna nenatančnost rekonstrukcije NBV boljša od osnovne rekonstrukcije, čeprav je za
NAČRTOVANJE NAJBOLJŠEGA NASLEDNJEGA POGLEDA ZA GRADNJO 3D-MODELOV PREDMETOV IZ BARVNIH SLIK
83
10 20 30 40 50 60 70 80 Število pogledov
10 20 30 40 50 60 70 80 Število pogledov
Slika 11: Evalvacija rekonstrukcije modela fontane.
20	40	60	80
Število pogledov
20	40	60	80
Število pogledov
Slika 12: Evalvacija rekonstrukcije modela kipa.
prvih 40 pogledov slabša. Enako situacijo opazimo tudi pri pokritosti, ki se v tem primeru približa 99 %. Obema primeroma je skupno, da pokritost med 10. in 40. pogledom nekoliko zaostaja za redkejšo osnovno rekonstrukcijo p = 20 in je bolj primerljiva z gostejšo p = 60. Z uporabo kombiniranega pristopa je ta zaostanek izničen, koncna pokritost pa je v obeh primerih (NBV in KOMB) boljša od osnovne rekonstrukcije. Povprečni indeks izbranega naslednjega pogleda je 1,87 pri fontani
in 1,48 pri kipu. Vrednosti so zaradi kompleksnejših modelov nekoliko večje kot v prejšnjem primeru.
Naslednji primer je prikazan na sliki 13. Kljub sorazmerno kompleksni geometriji modela je rekonstrukcija NBV bolj ucšinkovita od osnovne. Nenatancšnost je na začetku sicer večja, vendar okoli 30. pogleda vrednost pade in postane primerljiva z osnovno rekonstrukcijo. Pokritost je od 20. pogleda dalje precej boljša in na koncu preseze 99 %. Pri kombiniranem pristopu začne
84
ŽARN, SKOCAJ
Slika 13: Evalvacija rekonstrukcije modela hidranta.
M,
10 20 30 40 50 60 Število pogledov
70
10 20 30 40 50 Število pogledov
-20 -40 -60 NBV KOMB
60 70
Slika 14: Evalvacija rekonstrukcije modela storža.
ob preklopu na načrtovanje pogledov pokritost hitro naraščati. To naraščanje je sicer počasnejše od NBV. Predvidevamo, da do te razlike pride zaradi naslednjega razloga: Ob preklopu so novi pogledi lahko pravilno lokalizirani le v okolici prvega obroča kamer, kar ima v tem primeru vidne poslediče. Končna pokritost je kljub temu primerljiva. Povprečni indeks izbranega naslednjega pogleda je v tem primeru dober in znaša 0,1.
Za koneč si poglejmo še primer, ki je za našo metodo načrtovanja pogledov zelo neugoden. Gre za kompleksen model s tanko geometrijo in majhnimi ravnimi površinami. Prikazan je na sliki 14. Čeprav je pokritost NBV primerljiva z osnovno, ta narašča počasi in pri 80. pogledu ne preseze 60 %. Nenatančnost je med rekonstrukčijo NBV ves čas prečej večja od osnovne. Tudi kombiniran pristop v tem primeru ne izboljša
NAČRTOVANJE NAJBOLJŠEGA NASLEDNJEGA POGLEDA ZA GRADNJO 3D-MODELOV PREDMETOV IZ BARVNIH SLIK
85
rezultatov. Povprečni indeks izbranega naslednjega pogleda je visok in znaša 3,48. Razlog za to sta ponovno velika kompleksnost modela in posledično neuspešna lokalizacija nekaterih kamer.
6.3 Primeri rekonstrukcij resničnih predmetov
V tem poglavju predstavimo še nekaj rekonstrukcij resničnih predmetov. Za inicializacijo rekonstrukcije smo po lastni presoji izbrali nekaj pogledov in s pomocjo programske opreme oznacili obmocje interesa. Pri dodajanju novih slik smo uposštevali predlagane poglede. Lokalizacija predlaganega pogleda je vcasih neuspešna ali pa natancna postavitev kamere zaradi fizicnih omejitev prostora ni mogoca. V takšnih primerih smo izbrali naslednji predlagani pogled, v rezultatih pa porocamo o povprecnem indeksu izbranega pogleda (Inbv). Poleg tega porocamo še o absolutni (eabs) in relativni (ere/) napaki, ki jo naredimo pri postavitvi kamere. Absolutna napaka polozaja kamere je izracunana na podlagi meritev resnicnega predmeta, relativno napako pa izracunamo glede na razdaljo dveh najbolj oddaljenih kamer. Napako orientacije (eor) predstavlja kot med opticnima osema predlagane in resnicne postavitve kamere. Locljivost zajetih slik znaša 2560 x 1440, kamera pa je predhodno kalibrirana. Ker referencni modeli tokrat niso na voljo, lahko kakovost rekonstrukcije ocenimo zgolj vizualno.
Prvi primer prikazuje rekonstrukcijo debla drevesa, za katero smo uporabili 57 slik. Na zgornjem delu slike 15 so prikazani postavitev kamer in nekaj primerov zajetih slik. Podatki o napakah pri postavitvi kamere so naslednji: Inbv = 0,8, eabs = 20 cm, ere/ = 6,5 % in eor = 13,6 °C. Koncni 3D-model, ki je rezultat goste rekonstrukcije po odstranitvi odvecšnih trikotnikov, je prikazan na spodnjem delu slike 15. Geometrija debla se vizualno dobro ujema z njegovim resnicnim videzom. Rekonstrukcija travnate površine in preostalih rastlin v okolici sicer ni naš cilj, opazimo pa lahko, da so ta podrocja bolj problematicna in manj natancno rekonstruirana.
Za naslednji primer smo izbrali nekoliko manjši predmet, in sicer gorske cevlje. Pri zajemanju slik je bila rekonstrukcija površine 4-krat neuspešna. Ker je nacrtovanje pogledov v takšnem primeru nemogoce, smo 4 slike dodali po lastni presoji. Skupno smo zajeli 31 slik. Podatki o napakah pri postavitvi kamere so naslednji: Inbv = 0,48, eabs = 18 cm, ere/ = 12,8 % in eor = 15,3 °C. Koncni 3D-model je prikazan na sliki 16. Na slabše teksturiranih predelih cevlja sicer lahko opazimo nekaj nepravilnosti, na splošno pa se geometrija vizualno dobro ujema z resnicnim predmetom.
Rezultati rekonstrukcije zadnjega primera so prikazani na sliki 17. Čeprav je oblika predmeta navidezno preprosta, je zaradi ostrih robov in nekoliko manj ugodne teksture zoge ta primer bolj tezaven za rekonstrukcijo. Zajeli smo 43 slik, od tega smo 3 slike morali dodati po lastni presoji, saj predlagani pogledi niso bili uspešno lokalizirani. Podatki o napakah pri postavitvi kamere so
Slika 15: Nekaj primerov slik, uporabljenih pri rekonstrukciji (levo zgoraj), postavitev kamer (desno zgoraj) in rezultat goste rekonstrukcije debla (spodaj).
Slika 16: Nekaj primerov slik, uporabljenih pri rekonstrukciji (levo zgoraj), postavitev kamer (desno zgoraj) in rezultat goste rekonstrukcije gorskih cevljev (spodaj).
naslednji: Inbv = 1,1, eabs = 15 cm, ere/ = 7,7 % in eor = 15,7 °C. Rekonstrukcija spodnjega dela (lonec) je zelo uspešna in se vizualno dobro ujema z resnicnim predmetom. Vec nepravilnosti lahko opazimo na zogi. Rekonstruirana povrsšina je pregroba, oblika pa ni povsem sfericna, kar je najbolj razvidno na zgornjem delu. Razlog za te nepravilnosti je manj ugodna tekstura.
86
ŽARN, SKOCAJ
Slika 17: Primer slike, uporabljene pri rekonstrukciji (levo zgoraj), postavitev kamer (desno zgoraj) ter rezultat goste rekonstrukcije lonca in Zoge (spodaj).
7 Zaključek
Prispevek našega dela sta zasnova in implementacija nove metode za nacrtovanje najboljšega naslednjega pogleda, ki temelji na lastni meri za oceno kakovosti 3D-modela. Za delovanje potrebuje le trenutni 3D-model, predstavljen s trikotniško mrezo, in informacije o legi obstojecih kamer, zato je metoda dovolj splošna in je lahko uporabljena tudi kot gradnik pri avtonomni rekonstrukciji z razlicnimi roboti (npr. kvadrokopter, robotski manipulator itd.). Programska oprema, razvita v sklopu tega dela, je prosto dostopna*. V delu [21] je na voljo še podrobnejši opis programske opreme in uporabljenih metod za rekonstrukcijo.
Rezultati evalvacije so pokazali uspešno delovanje našega sistema. Predlagana mera za oceno kakovosti na testiranih modelih deluje bolje od obstojece mere. Pokazali smo tudi, da je kakovost rekonstrukcije z nacrtovanjem naslednjega pogleda v vecini primerov boljša od rekonstrukcije z enakomerno postavljenimi kamerami. V nasprotju s fiksno postavitvijo kamer naša metoda nima posebnih predpostavk o obliki in velikosti predmeta. Uspešno delovanje rekonstrukcije smo prikazali tudi na resnicnih predmetih.
V nadaljnjem delu se bomo posvetili še nekaterim izboljšavam. Oceno kakovosti bi lahko izboljšali s pomocjo strojnega ucenja. Pri nacrtovanju naslednjih pogledov pa bi bilo v cenovno funkcijo smiselno vpeljati dodatne informacije o videzu teksture in vidnosti rekonstruiranih znacilnic. Tako bi bil proces gradnje 3D-modelov še bolj zanesljiv.
[2 [3
[4 [5
[6 [7 [8
[9
[10 [11
[12
[13
[14
[15
[16 [17 [18
[19 [20 [21
Literatura
M. Pollefeys, L. Van Gool, M. Vergauwen, F. Verbiest, K. Cornelis, J. Tops, R. Koch, Visual modeling with a hand-held camera, in: IJCV 59 (3) (2004) 207-232. Y. Furukawa, C. Hernandez, Multi-view stereo: A tutorial, Foundations and Trends® in CGV 9 (1-2) (2015) 1-148. S. Kriegel, C. Rink, T. Bodenmüller, M. Suppa, Efficient next-best-scan planning for autonomous 3D surface reconstruction of unknown objects, Journal of Real-Time Image Processing 10 (4) (2015) 611-631.
E. Dunn, J.-M. Frahm, Next best view planning for active model improvement, in: BMVC, 2009, pp. 1-11. C. Hoppe, M. Klopschitz, M. Rumpler, A. Wendel, S. Kluckner, H. Bischof, G. Reitmayr, Online feedback for structure-from-motion image acquisition, in: BMVC, Vol. 2, 2012, p. 6.
C.	Wu, Towards linear-time incremental structure from motion, in: 3D Vision-3DV 2013, IEEE, 2013, pp. 127-134.
D.	G. Lowe, Distinctive image features from scale-invariant keypoints, in: IJCV 60 (2) (2004) 91-110.
H. Stewenius, C. Engels, D. Nister, Recent developments on direct relative orientation, ISPRS Journal of Photogrammetry and Remote Sensing 60 (4) (2006) 284-294. L. Kneip, D. Scaramuzza, R. Siegwart, A novel parametrization of the perspective-three-point problem for a direct computation of absolute camera position and orientation, CVPR 2011, pp. 2969-2976.
R. Szeliski, Computer vision: algorithms and applications, Springer Science & Business Media, 2010.
R. Arandjelovic, A. Žisserman, Dislocation: Scalable descriptor distinctiveness for location recognition, in: ACCV, Springer, 2014, pp. 188-204.
M. Jancosek, T. Pajdla, Exploiting visibility information in surface reconstruction to preserve weakly supported surfaces, International scholarly research notices 2014. H.-H. Vu, P. Labatut, J.-P. Pons, R. Keriven, High accuracy and visibility-consistent dense multiview stereo, IEEE transactions on pattern analysis and machine intelligence 34 (5) (2012) 889-901. M. Waechter, N. Moehrle, M. Goesele, Let there be color! large-scale texturing of 3D reconstructions, in: ECCV, Springer, 2014, pp. 836-850.
S. M. Seitz, B. Curless, J. Diebel, D. Scharstein, R. Szeliski, A comparison and evaluation of multi-view stereo reconstruction algorithms, IEEE, 2006, pp. 519-528.
R. Jensen, et al. Large scale multi-view stereopsis evaluation, in: CVPR, 2014.
C. Sweeney, Theia multiview geometry library: Tutorial & reference, http://theia-sfm.org.
W. Changchang, SiftGPU: a GPU implementation of scale invariant feature transform (SIFT), https://github.com/pitzer/SiftGPU (2007).
J. L. Schönberger, J.-M. Frahm, Structure-from-motion revisited, in: CVPR, 2016.
Openmvs: open multi-view stereo reconstruction library, ht-tps://github.com/cdcseacave/openMVS.
Kristian Žarn, Gradnja 3D modelov predmetov iz barvnih slik z nacrtovanjem najboljšega naslednjega pogleda, magistrsko delo, Univerza v Ljubljani, Fakulteta za računalništvo in informatiko, 2019.
* Dostopno na: https://github.com/KristianŽarn/Reconstruction
Kristian Zarn je leta 2015 diplomiral in leta 2019 magistriral na Fakulteti za računalništvo in informatiko Univerze v Ljubljani. Trenutno je zaposlen v slovenskem IT-podjetju v raziskovalnem oddelku.
Danijel Skocaj je izredni profesor na Fakulteti za racunalništvo in informatiko Univerze v Ljubljani. Je predstojnik Laboratorija za umetne vizualne spoznavne sisteme. Njegovi glavni raziskovalni interesi segajo na podrocja racunalniškega vida, razpoznavanja vzorcev, strojnega ucenja in spoznavne robotike.
[1