ERK'2019, Portorož, 248-251 248 Katastrofalno pozabljanje pri inkrementalnem uˇ cenju konvolucijske nevronske mreže Jakob Božiˇ c, Danijel Skoˇ caj Fakulteta za raˇ cunalništvo in informatiko, Univerza v Ljubljani E-pošta: jakob.bozic@gmail.com, danijel.skocaj@fri.uni-lj.si Catastrophic forgetting during incremental learning of convolutional neural network Catastrophic forgetting is a well-documented phenomenon which occurs during incremental learning of artificial neu- ral networks. When trained on a new task, the network very rapidly and almost completely forgets how to per- form previously learned tasks. We investigate the main causes of catastrophic forgetting in a deep convolutional neural network for image classification, how fast it oc- curs and how intensive it is. Different approaches to updating network parameters, aimed at preventing or at least alleviating the catastrophic forgetting are proposed and evaluated. 1 Uvod V zadnjih letih so glavni akter na podroˇ cju raˇ cunalni- škega vida postale (globoke) umetne nevronske mreže, ki na doloˇ cenih problemih že dosegajo ali celo presegajo ˇ cloveške zmožnosti. Obsežne podatkovne zbirke so delno rešile problem potrebe po velikih uˇ cnih množicah, razne regularizacijske tehnike dobro prepreˇ cujejo preveliko pri- lagajanje uˇ cnim podatkom, katastrofalno pozabljanje oz. inkrementalno uˇ cenje pa ostaja eden izmed odprtih pro- blemov. Do katastrofalnega pozabljanja pride, ko želimo ob- stojeˇ co nevronsko mrežo, ki rešuje doloˇ cen problem, na- uˇ citi reševanja novega problema. Mreža ob uˇ cenju no- vega problema zelo hitro in skoraj popolnoma pozabi, kako se rešuje prejšnji problem. Na primer, ˇ ce lahko z obstojeˇ co mrežo prepoznavamo števila, želeli bi pa jo uborabiti tudi za prepoznavanje ˇ crk, bi mreža ob uˇ cenju prepoznave ˇ crk pozabila, kako se prepozna števila. V tem prispevku se bomo posvetili prouˇ cevanju tega problema. Podrobno analizo katastrofalnega pozablja- nja v globokih konvolucijskih nevronskih mrežah bomo opravili skozi razliˇ cne eksperimente, ugotovitve pa bomo uporabili za razvoj razliˇ cnih pristopov k osveževanju pa- rametrov mreže, s katerimi želimo katastrofalno poza- bljanje prepreˇ citi ali vsaj omiliti. Katastrofalno pozabljanje je bilo opisano že v 80. le- tih prejšnjega stoletja [9, 10], sicer na zelo plitvih polno povezanih nevronskih mrežah in preprostih problemih. Prvi pristopi k zmanjševanju so se pojavili relativno kmalu. Tako v [3] kot v [4] problem rešujejo z ortogonalizacijo vhodnih podatkov. Nedavno so se pojavile nove metode, ki bolj ali manj uspešno naslavljajo katastrofalno pozabljanje v globokih konvolucijskih nevronskih mrežah. Nekatere se zanašajo na spreminjanje kriterijske funkcije, da kaznuje spremi- njanje parametrov, ki so ocenjeni kot pomembni za prej nauˇ cene naloge, npr. [5, 2, 1] . V [8] avtorji za vsak pro- blem nauˇ cijo binarno masko vseh parametrov, ki doloˇ ca, ali se parameter pri uporabi upošteva ali ne. Naši pristopi temeljijo na manipuliranju gradienta med vzvratnim raz- širjanjem. 2 Katastrofalno pozabljanje Inkrementalno uˇ cenje bi nam omogoˇ calo, da bi lahko ob- stojeˇ co nevronsko mrežo uporabili tudi za nove naloge, ne da bi morali ob tem mrežo ponovno nauˇ citi tudi že do tedaj osvojenih nalog. Ponovno uˇ cenje je lahko zelo dol- gotrajno, v kolikor pa iz kateregakoli razloga starih uˇ cnih podatkov nimamo veˇ c na voljo, sploh ni mogoˇ ce. Že- leli bi, da bi ob inkrementalnem uˇ cenju na dveh loˇ cenih podmnožicah dosegli enako ali vsaj približno tako dobre rezultate, kot ˇ ce bi imeli že na zaˇ cetku na voljo vse po- datke. Slika 1: Klasifikacijske toˇ cnosti ob uˇ cenju na celotni zbirki CIFAR-100 ter ob uˇ cenju na dveh podmnožicah. Na sliki 1 so predstavljene klasifikacijske toˇ cnosti, ki jih dobimo ob uˇ cenju na celotni podatkovni zbirki CIFAR- 100 (svetlo modra prekinjena) ter ob uˇ cenju na dveh pod- množicah te zbirke (temno modra in zelena). Podmnožici 249 dobimo tako, da zbirko razbijemo na dva dela, vsak del vsebuje polovico razredov in vse njim pripadajoˇ ce pri- mere. Rdeˇ ca ˇ crta predstavlja povpreˇ cje klasifikacijskih toˇ cnosti obeh podmnožic. V idealnem scenariju bi se po 40. epohi, ko se zaˇ cne uˇ cenje na drugi podmnožici, rdeˇ ca ˇ crta zaˇ cela približevati svetlo modri, vendar zaradi ka- tastrofalnega pozabljanja klasifikacijska toˇ cnost na prvi uˇ cni podmnožici strmoglavi in se poslediˇ cno to niti pri- bližno ne zgodi. 3 Zasnova eksperimentov Za analizo katastrofalnega pozabljanja smo zasnovali glo- boko konvolucijsko nevronsko mrežo. Osnovni gradnik mreže je sestavljen iz konvolucije + ELU + paketne nor- malizacije (angl. Batch Normalization) + konvolucije + ELU + paketne normalizacije + združevanja z maksimi- zacijo (angl. Max Pooling) + izpadne plasti (angl. Dro- pout). Osnovni gradnik se ponovi trikrat, na koncu je dodana še polno povezana plast. Mrežo tako skupno se- stavlja 25 plasti. Za evalvacijo pristopov smo uporabili podatkovno zbi- rko CIFAR-100 [6], zanjo smo se odloˇ cili, ker ima rela- tivno veliko primerov (60.000), dimenzije (32 32) pa niso prevelike in smo zato lahko izvedli veliko eksperi- mentov. Ta mreža sicer ne dosega tako dobrih rezultatov kot trenutno najboljše arhitekture, kar pa za to raziskavo ne predstavlja problema. Želimo namreˇ c spoznati razloge za katastrofalno pozabljanje, zaradi splošnosti arhitekture pa lahko domnevamo, da se naše ugotovitve prenesejo tudi na preostale nevronske mreže. V vseh eksperimentih uˇ cenje poteka v dveh fazah, z dvema uˇ cnima podmnožicama, ki nimata nobenih sku- pnih primerov. Mrežo najprej 40 epoh uˇ cimo na prvi pod- množici, nato pa zaˇ cnemo z drugo fazo uˇ cenja, v kateri uˇ cimo na drugi podmnožici. V obeh fazah uporabimo op- timizacijsko metodo Adam, zaˇ cetna stopnja uˇ cenja znaša 0,001 in se zmanjša za faktor 10 vsakih 10 epoh. Za krite- rijsko funkcijo uporabljamo križno entropijo (angl. Cross Entropy). 4 Eksperimenti Zgornjo mejo za klasifikacijsko toˇ cnost, ki jo lahko do- sežemo, predstavlja klasifikacijska toˇ cnost, ki jo dobimo, ˇ ce mrežo uˇ cimo na celotni uˇ cni množici (svetlo modra prekinjena ˇ crta na sliki 1), znaša pa 56.7%. Tej vrednosti bi se želeli ˇ cim bolj približati. 4.1 Osnovni pristop Na sliki 1 vidimo, kako moˇ cno je katastrofalno pozablja- nje, ˇ ce v drugi fazi uˇ cenja ne spreminjamo stanja mreže. Zato smo najprej preverili, ali lahko katastrofalno poza- bljanje zmanjšamo z zamrznitvijo vseh razen zadnje pla- sti v drugi fazi uˇ cenja. Ugotovili smo, da ima to na kata- strofalno pozabljanje zanemarljiv vpliv, saj mreža že zno- traj ene epohe druge faze uˇ cenja pozabi praktiˇ cno vse prej nauˇ ceno. Shema levo na sliki 2 prikazuje, kateri parametri so zamrznjeni (rdeˇ ca) in kateri ne (zelena) v drugi fazi uˇ ce- nja. Slika 2 prikazuje, kaj se dogaja s klasifikacijskimi Slika 2: Shema in klasifikacijske toˇ cnosti znotraj prve epohe druge faze. (a) Uteži (b) Odmiki Slika 3: Spreminjanje parametrov v zadnji plasti mreže znotraj prve epohe druge faze uˇ cenja. toˇ cnostmi v prvi epohi druge faze uˇ cenja. Skupna klasifi- kacijska toˇ cnost ob koncu prve epohe znaša 29,3% in se nato le še zmanjšuje, zgornji meji, ki znaša 56,7% in je predstavljena tudi v tabeli 1, se niti najmanj ne približa. Matrike zamenjav na sliki 4 prikazujejo, kako mreža uvršˇ ca primere v razrede znotraj prve epohe druge faze uˇ cenja. Vidimo, da mreža zaˇ cne zelo hitro prepozna- vati vse primere, kot da pripadajo razredom iz druge uˇ cne podmnožice, kar je glavni razlog za padec klasifikacijske toˇ cnosti na prvi podmnožici. Da bi bolje razumeli, zakaj pride do tega, smo pre- verili, kako se spreminjajo parametri (uteži in odmiki) v zadnji plasti nevronske mreže. Na sliki 3a je prikazano, kako se spreminjajo vredno- sti uteži v zadnji plasti mreže znotraj prve epohe druge faze uˇ cenja. Rdeˇ ca barva oznaˇ cuje zmanjšanje, modra pa poveˇ canje vrednosti, intenziteta barve pa oznaˇ cuje veli- kost spremembe. Posamezna vrstica prikazuje uteži od enega nevrona v predzadnji plasti do vseh nevronov v za- dnji plasti, posamezen stolpec pa uteži od vseh nevro- nov v predzadnji plasti do enega v zadnji. Vseh vrstic je dejansko 2048, kolikor je nevronov v predzadnji plasti, vendar je prikazanih le prvih 25, saj za ostale veljajo po- dobne zakonitosti. Opazimo, da se uteži do nevronov, ki predstavljajo razrede iz prve uˇ cne množice zelo izrazito zmanjšujejo, preostale pa zvišujejo. Podobno kot za uteži velja tudi za odmike v zadnji plasti, kar je prikazano na sliki 3b. Vsak stolpec predsta- vlja odmik enega izmed 100 nevronov v zadnji plasti. 250 Slika 4: Matrike zamenjav v prvi epohi druge faze uˇ cenja. Vrstica predstavlja napovedan razred, stolpec pa dejanski. 4.2 Zamrznitev zadnje plasti Zaradi izrazitega zmanjševanja vrednosti parametrov ne- vronov v zadnji plasti, ki predstavljajo razrede iz prve uˇ cne podmnožice, smo se odloˇ cili, da bomo v drugi fazi uˇ cenja zamrznili te parametre. Zamrznitev izvedemo tako, da vse gradiente iz zamrznjenih nevronov nastavimo na 0 med vzvratnim razširjanjem. Slika 5: Zamrznitev dela zadnje plasti. Na sliki 5 vidimo, da zamrznitev dela zadnje plasti katastrofalno pozabljanje sicer rahlo upoˇ casni, vendar je to še vedno moˇ cno prisotno. Skupna klasifikacijska toˇ c- nost doseže 36,4%, kar je še vedno daleˇ c od zgornje meje. Nadalje smo zamrznili tudi vse ostale plasti, tako da je uˇ cenje potekalo le na delu nevronov v zadnji plasti, ki predstavljajo razrede iz druge uˇ cne podmnožice. Slika 6: Zamrznitev dela zadnje plasti in vseh ostalih. Na sliki 6 vidimo, da se ob zamrznitvi tudi vseh preo- stalih plasti katastrofalno pozabljanje zelo upoˇ casni, sku- pna klasifikacijska toˇ cnost v drugi fazi uˇ cenja se obˇ cutno poveˇ ca in doseže 47,5%, s ˇ cimer smo mnogo bližje zgor- nji meji. (a) Zmanjšanje za faktor10 8 (b) Zmanjšanje za faktor10 7 Slika 7: Variabilna stopnja uˇ cenja. 4.3 Variabilna stopnja uˇ cenja Kombinacijo obeh verzij zamrznitve zadnje plasti pred- stavlja uporaba variabilne stopnje uˇ cenja. V drugi fazi uˇ cenja v zadnji plasti zamrznemo parametre nevronov, ki predstavljajo razrede iz prve uˇ cne množice, za vse preo- stale plasti pa uporabimo zmanjšano stopnjo uˇ cenja. Ugo- tovili smo, da je za izogib katastrofalnemu pozabljanju potrebno ogromno zmanjšanje, vsaj za faktor 10 7 . Na slikah 7a in 7b je prikazano spreminjanje klasifikacijskih toˇ cnosti ob uporabi variabilne stopnje uˇ cenja. Rumena barva na shemah na sliki 7 oznaˇ cuje parametre, za ka- tere velja zmanjšana stopnja uˇ cenja v drugi fazi uˇ cenja. S faktorjem zmanjšanja 10 8 se katastrofalno pozablja- nje moˇ cno upoˇ casni in dosežemo klasifikacijsko toˇ cnost 50,3%. Najvišjo klasifikacijsko toˇ cnost dosežemo s fak- torjem zmanjšanja 10 7 in sicer 50,7%, s ˇ cimer smo od zgornje meje oddaljeni le 6 odstotnih toˇ ck. Previdni mo- ramo sicer biti, da uˇ cenje v drugi fazi ustavimo dovolj zgodaj. 251 4.4 Metoda MAS Memory Aware Synapses (MAS) [1] je ena izmed obsto- jeˇ cih metod za odpravljanje katastrofalnega pozabljanja. V drugi fazi uˇ cenja v kriterijsko funkcijo doda regula- rizacijski del, s katerim se kaznuje spremembe parame- trov, ki so ocenjeni kot bolj pomembni za delovanje na prvi podmnožici. Oceno pomembnosti parametra izraˇ cu- namo na prvi uˇ cni podmnožici. Avtorji predvidijo, da za vsako podmnožico nauˇ cimo loˇ ceno zadnjo plast mreže, ki jo moramo ob uporabi ustrezno nastaviti, kar poslediˇ cno pomeni, da moramo za vsak testni primer vedeti, ali pri- pada razredu iz prve ali druge podmnožice, kar v praksi zelo omejuje uporabo. Metodo smo priredili tako, da de- luje tudi z enotno zadnjo plastjo, s ˇ cimer smo odstranili to omejitev. Pri izraˇ cunu ocen pomembnosti parametrov tako upoštevamo samo izhode nevronov v zadnji plasti, ki predstavljajo razrede iz trenutne podmnožice, ko mrežo uˇ cimo na drugi podmnožici pa zamrznemo parametre ne- vronov, ki predstavljajo razrede iz prve uˇ cne množice. Slika 8: Prilagojena metoda MAS. Rdeˇ ce-zelen gradient na shemi na sliki 8 oznaˇ cuje pa- rametre, za katere velja regularizacija v drugi fazi uˇ cenja. Slika 8 prikazuje tudi dobljene klasifikacijske toˇ cnosti; z nje je razvidno, da tudi ta metoda moˇ cno zmanjša kata- strofalno pozabljanje, skupna klasifikacijska toˇ cnost do- seže 49,2 %. Vrednost regularizacijskega hiperparametra znaša 1, kot predlagajo avtorji. Povzetek vseh dobljenih klasifikacijskih toˇ cnosti je predstavljen v tabeli 1. Referenˇ cna skupna klasifikacij- ska toˇ cnost, ki jo dobimo ob uˇ cenju na celotni množici znaša 56,7%. V tabeli so tako predstavljena odstopanja od te maksimalne vrednosti. Tabela 1: Rezultati eksperimentov. Stolpca PM 1 in PM 2 prikazujeta klasifikacijske toˇ cnosti na prvi in drugi pod- množici ob najvišji skupni. Odstopanje je izraženo v od- stotnih toˇ ckah od zgornje meje, ki znaša 56.7%. Pristop PM 1 PM 2 Skupna Odst. Naivni pristop 0,1 65,7 32,9 23,8 Osnovni pristop 2,8 55,7 29.3 27,4 Zamrznitev zadnje plasti 28,6 44,2 36,4 20,3 Zamrznitev vseh plasti 49,2 45,8 47,5 9,2 Variabilna stopnja uˇ cenja 10 8 52,5 48,2 50.3 6,4 10 7 55,0 46,4 50,7 6,0 Prilagojeni MAS 52,0 46,3 49,2 7,5 5 Zakljuˇ cek V ˇ clanku smo predstavili, kateri so glavni vzroki za ka- tastrofalno pozabljanje. Na podlagi teh ugotovitev smo zasnovali razliˇ cne pristope k osveževanju parametrov ne- vronske mreže, ki katastrofalno pozabljanje omejujejo. Obstojeˇ co metodo MAS smo prilagodili, da je uporabna tudi v realnem scenariju, kjer ne vemo, kateri podmnožici pripada posamezen primer. Uporaba variabilne stopnje uˇ cenja nam omogoˇ ca, da ob inkrementalnem uˇ cenju do- sežemo klasifikacijsko toˇ cnost, ki je le za 6 odstotnih toˇ ck oz. 10.6% nižja, kot ˇ ce model uˇ cimo na celotni množici (padec z 56,7% na 50.7%). Avtorji v [11] v podobnem scenariju, ob uporabi zmo- gljivejše mreže, dosežejo padec z 68,6% na približno 62%, kar predstavlja le rahlo manjše znižanje, kot ga dobimo mi. V istem ˇ clanku poroˇ cajo tudi o rezultatih, ki jih na CIFAR-100 doseže metoda predlagana v [7], padec je tam iz 68,8% na približno 53%, kar je obˇ cutno veˇ c, kot smo dosegli z evalviranim pristopom. Katastrofalno pozablja- nje torej ostaja eden izmed odprtih problemov na podro- ˇ cju globokih konvolucijskih nevronskih mrež. Literatura [1] Rahaf Aljundi et al. Memory aware synapses: Learning what (not) to forget. ECCV, pages 144–161, 2018. [2] Francisco M. Castro et al. End-to-end incremental lear- ning. ECCV, pages 2935–2947, 2018. [3] Robert French. Dynamically constraining connectionist networks to produce distributed, orthogonal representati- ons to reduce catastrophic interference. Proceedings of the 16th Annual Cognitive Science Society Conference, pages 335–340, 1994. [4] Robert M. French. Using semi-distributed representati- ons to overcome catastrophic forgetting in connectionist networks. In Proceedings of the 13th Annual Cognitive Science Society Conference, pages 173–178, 1991. [5] James Kirkpatrick et al. Overcoming catastrophic for- getting in neural networks. Proceedings of the National Academy of Sciences of the United States of America, 114 13:3521–3526, 2016. [6] Alex Krizhevsky. Learning multiple layers of features from tiny images. University of Toronto, 05 2012. [7] Zhizhong Li and Derek Hoiem. Learning without forget- ting. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40:2935–2947, 2016. [8] Arun Mallya, Dillon Davis, and Svetlana Lazebnik. Pi- ggyback: Adapting a single network to multiple tasks by learning to mask weights. ECCV, pages 2935–2947, 2018. [9] Michael McCloskey and Neal J. Cohen. Catastrophic in- terference in connectionist networks: The sequential lear- ning problem. In Psychology of Learning and Motivation, volume 24, pages 109 – 165. 1989. [10] Roger Ratcliff. Connectionist models of recognition me- mory: Constraints imposed by learning and forgetting functions. Psychological review, 97:285–308, 05 1990. [11] Sylvestre-Alvise Rebuffi, Alexander Kolesnikov, Georg Sperl, and Christoph H. Lampert. iCaRL: Incremental Classifier and Representation Learning. CVPR, pages 5533–5542, 2017.