ERK'2019, Portorož, 248-251 248
Katastrofalno pozabljanje pri inkrementalnem uˇ cenju
konvolucijske nevronske mreže
Jakob Božiˇ c, Danijel Skoˇ caj
Fakulteta za raˇ cunalništvo in informatiko, Univerza v Ljubljani
E-pošta: jakob.bozic@gmail.com, danijel.skocaj@fri.uni-lj.si
Catastrophic forgetting during incremental
learning of convolutional neural network
Catastrophic forgetting is a well-documented phenomenon
which occurs during incremental learning of artiﬁcial neu-
ral networks. When trained on a new task, the network
very rapidly and almost completely forgets how to per-
form previously learned tasks. We investigate the main
causes of catastrophic forgetting in a deep convolutional
neural network for image classiﬁcation, how fast it oc-
curs and how intensive it is. Different approaches to
updating network parameters, aimed at preventing or at
least alleviating the catastrophic forgetting are proposed
and evaluated.
1 Uvod
V zadnjih letih so glavni akter na podroˇ cju raˇ cunalni-
škega vida postale (globoke) umetne nevronske mreže,
ki na doloˇ cenih problemih že dosegajo ali celo presegajo
ˇ cloveške zmožnosti. Obsežne podatkovne zbirke so delno
rešile problem potrebe po velikih uˇ cnih množicah, razne
regularizacijske tehnike dobro prepreˇ cujejo preveliko pri-
lagajanje uˇ cnim podatkom, katastrofalno pozabljanje oz.
inkrementalno uˇ cenje pa ostaja eden izmed odprtih pro-
blemov.
Do katastrofalnega pozabljanja pride, ko želimo ob-
stojeˇ co nevronsko mrežo, ki rešuje doloˇ cen problem, na-
uˇ citi reševanja novega problema. Mreža ob uˇ cenju no-
vega problema zelo hitro in skoraj popolnoma pozabi,
kako se rešuje prejšnji problem. Na primer, ˇ ce lahko
z obstojeˇ co mrežo prepoznavamo števila, želeli bi pa jo
uborabiti tudi za prepoznavanje ˇ crk, bi mreža ob uˇ cenju
prepoznave ˇ crk pozabila, kako se prepozna števila.
V tem prispevku se bomo posvetili prouˇ cevanju tega
problema. Podrobno analizo katastrofalnega pozablja-
nja v globokih konvolucijskih nevronskih mrežah bomo
opravili skozi razliˇ cne eksperimente, ugotovitve pa bomo
uporabili za razvoj razliˇ cnih pristopov k osveževanju pa-
rametrov mreže, s katerimi želimo katastrofalno poza-
bljanje prepreˇ citi ali vsaj omiliti.
Katastrofalno pozabljanje je bilo opisano že v 80. le-
tih prejšnjega stoletja [9, 10], sicer na zelo plitvih polno
povezanih nevronskih mrežah in preprostih problemih.
Prvi pristopi k zmanjševanju so se pojavili relativno kmalu.
Tako v [3] kot v [4] problem rešujejo z ortogonalizacijo
vhodnih podatkov.
Nedavno so se pojavile nove metode, ki bolj ali manj
uspešno naslavljajo katastrofalno pozabljanje v globokih
konvolucijskih nevronskih mrežah. Nekatere se zanašajo
na spreminjanje kriterijske funkcije, da kaznuje spremi-
njanje parametrov, ki so ocenjeni kot pomembni za prej
nauˇ cene naloge, npr. [5, 2, 1] . V [8] avtorji za vsak pro-
blem nauˇ cijo binarno masko vseh parametrov, ki doloˇ ca,
ali se parameter pri uporabi upošteva ali ne. Naši pristopi
temeljijo na manipuliranju gradienta med vzvratnim raz-
širjanjem.
2 Katastrofalno pozabljanje
Inkrementalno uˇ cenje bi nam omogoˇ calo, da bi lahko ob-
stojeˇ co nevronsko mrežo uporabili tudi za nove naloge,
ne da bi morali ob tem mrežo ponovno nauˇ citi tudi že do
tedaj osvojenih nalog. Ponovno uˇ cenje je lahko zelo dol-
gotrajno, v kolikor pa iz kateregakoli razloga starih uˇ cnih
podatkov nimamo veˇ c na voljo, sploh ni mogoˇ ce. Že-
leli bi, da bi ob inkrementalnem uˇ cenju na dveh loˇ cenih
podmnožicah dosegli enako ali vsaj približno tako dobre
rezultate, kot ˇ ce bi imeli že na zaˇ cetku na voljo vse po-
datke.
Slika 1: Klasiﬁkacijske toˇ cnosti ob uˇ cenju na celotni
zbirki CIFAR-100 ter ob uˇ cenju na dveh podmnožicah.
Na sliki 1 so predstavljene klasiﬁkacijske toˇ cnosti, ki
jih dobimo ob uˇ cenju na celotni podatkovni zbirki CIFAR-
100 (svetlo modra prekinjena) ter ob uˇ cenju na dveh pod-
množicah te zbirke (temno modra in zelena). Podmnožici
249
dobimo tako, da zbirko razbijemo na dva dela, vsak del
vsebuje polovico razredov in vse njim pripadajoˇ ce pri-
mere. Rdeˇ ca ˇ crta predstavlja povpreˇ cje klasiﬁkacijskih
toˇ cnosti obeh podmnožic. V idealnem scenariju bi se po
40. epohi, ko se zaˇ cne uˇ cenje na drugi podmnožici, rdeˇ ca
ˇ crta zaˇ cela približevati svetlo modri, vendar zaradi ka-
tastrofalnega pozabljanja klasiﬁkacijska toˇ cnost na prvi
uˇ cni podmnožici strmoglavi in se poslediˇ cno to niti pri-
bližno ne zgodi.
3 Zasnova eksperimentov
Za analizo katastrofalnega pozabljanja smo zasnovali glo-
boko konvolucijsko nevronsko mrežo. Osnovni gradnik
mreže je sestavljen iz konvolucije + ELU + paketne nor-
malizacije (angl. Batch Normalization) + konvolucije +
ELU + paketne normalizacije + združevanja z maksimi-
zacijo (angl. Max Pooling) + izpadne plasti (angl. Dro-
pout). Osnovni gradnik se ponovi trikrat, na koncu je
dodana še polno povezana plast. Mrežo tako skupno se-
stavlja 25 plasti.
Za evalvacijo pristopov smo uporabili podatkovno zbi-
rko CIFAR-100 [6], zanjo smo se odloˇ cili, ker ima rela-
tivno veliko primerov (60.000), dimenzije (32  32) pa
niso prevelike in smo zato lahko izvedli veliko eksperi-
mentov. Ta mreža sicer ne dosega tako dobrih rezultatov
kot trenutno najboljše arhitekture, kar pa za to raziskavo
ne predstavlja problema. Želimo namreˇ c spoznati razloge
za katastrofalno pozabljanje, zaradi splošnosti arhitekture
pa lahko domnevamo, da se naše ugotovitve prenesejo
tudi na preostale nevronske mreže.
V vseh eksperimentih uˇ cenje poteka v dveh fazah, z
dvema uˇ cnima podmnožicama, ki nimata nobenih sku-
pnih primerov. Mrežo najprej 40 epoh uˇ cimo na prvi pod-
množici, nato pa zaˇ cnemo z drugo fazo uˇ cenja, v kateri
uˇ cimo na drugi podmnožici. V obeh fazah uporabimo op-
timizacijsko metodo Adam, zaˇ cetna stopnja uˇ cenja znaša
0,001 in se zmanjša za faktor 10 vsakih 10 epoh. Za krite-
rijsko funkcijo uporabljamo križno entropijo (angl. Cross
Entropy).
4 Eksperimenti
Zgornjo mejo za klasiﬁkacijsko toˇ cnost, ki jo lahko do-
sežemo, predstavlja klasiﬁkacijska toˇ cnost, ki jo dobimo,
ˇ ce mrežo uˇ cimo na celotni uˇ cni množici (svetlo modra
prekinjena ˇ crta na sliki 1), znaša pa 56.7%. Tej vrednosti
bi se želeli ˇ cim bolj približati.
4.1 Osnovni pristop
Na sliki 1 vidimo, kako moˇ cno je katastrofalno pozablja-
nje, ˇ ce v drugi fazi uˇ cenja ne spreminjamo stanja mreže.
Zato smo najprej preverili, ali lahko katastrofalno poza-
bljanje zmanjšamo z zamrznitvijo vseh razen zadnje pla-
sti v drugi fazi uˇ cenja. Ugotovili smo, da ima to na kata-
strofalno pozabljanje zanemarljiv vpliv, saj mreža že zno-
traj ene epohe druge faze uˇ cenja pozabi praktiˇ cno vse prej
nauˇ ceno.
Shema levo na sliki 2 prikazuje, kateri parametri so
zamrznjeni (rdeˇ ca) in kateri ne (zelena) v drugi fazi uˇ ce-
nja. Slika 2 prikazuje, kaj se dogaja s klasiﬁkacijskimi
Slika 2: Shema in klasiﬁkacijske toˇ cnosti znotraj prve
epohe druge faze.
(a) Uteži
(b) Odmiki
Slika 3: Spreminjanje parametrov v zadnji plasti mreže
znotraj prve epohe druge faze uˇ cenja.
toˇ cnostmi v prvi epohi druge faze uˇ cenja. Skupna klasiﬁ-
kacijska toˇ cnost ob koncu prve epohe znaša 29,3% in se
nato le še zmanjšuje, zgornji meji, ki znaša 56,7% in je
predstavljena tudi v tabeli 1, se niti najmanj ne približa.
Matrike zamenjav na sliki 4 prikazujejo, kako mreža
uvršˇ ca primere v razrede znotraj prve epohe druge faze
uˇ cenja. Vidimo, da mreža zaˇ cne zelo hitro prepozna-
vati vse primere, kot da pripadajo razredom iz druge uˇ cne
podmnožice, kar je glavni razlog za padec klasiﬁkacijske
toˇ cnosti na prvi podmnožici.
Da bi bolje razumeli, zakaj pride do tega, smo pre-
verili, kako se spreminjajo parametri (uteži in odmiki) v
zadnji plasti nevronske mreže.
Na sliki 3a je prikazano, kako se spreminjajo vredno-
sti uteži v zadnji plasti mreže znotraj prve epohe druge
faze uˇ cenja. Rdeˇ ca barva oznaˇ cuje zmanjšanje, modra pa
poveˇ canje vrednosti, intenziteta barve pa oznaˇ cuje veli-
kost spremembe. Posamezna vrstica prikazuje uteži od
enega nevrona v predzadnji plasti do vseh nevronov v za-
dnji plasti, posamezen stolpec pa uteži od vseh nevro-
nov v predzadnji plasti do enega v zadnji. Vseh vrstic je
dejansko 2048, kolikor je nevronov v predzadnji plasti,
vendar je prikazanih le prvih 25, saj za ostale veljajo po-
dobne zakonitosti. Opazimo, da se uteži do nevronov, ki
predstavljajo razrede iz prve uˇ cne množice zelo izrazito
zmanjšujejo, preostale pa zvišujejo.
Podobno kot za uteži velja tudi za odmike v zadnji
plasti, kar je prikazano na sliki 3b. Vsak stolpec predsta-
vlja odmik enega izmed 100 nevronov v zadnji plasti.
250
Slika 4: Matrike zamenjav v prvi epohi druge faze uˇ cenja. Vrstica predstavlja napovedan razred, stolpec pa dejanski.
4.2 Zamrznitev zadnje plasti
Zaradi izrazitega zmanjševanja vrednosti parametrov ne-
vronov v zadnji plasti, ki predstavljajo razrede iz prve
uˇ cne podmnožice, smo se odloˇ cili, da bomo v drugi fazi
uˇ cenja zamrznili te parametre. Zamrznitev izvedemo tako,
da vse gradiente iz zamrznjenih nevronov nastavimo na 0
med vzvratnim razširjanjem.
Slika 5: Zamrznitev dela zadnje plasti.
Na sliki 5 vidimo, da zamrznitev dela zadnje plasti
katastrofalno pozabljanje sicer rahlo upoˇ casni, vendar je
to še vedno moˇ cno prisotno. Skupna klasiﬁkacijska toˇ c-
nost doseže 36,4%, kar je še vedno daleˇ c od zgornje meje.
Nadalje smo zamrznili tudi vse ostale plasti, tako da
je uˇ cenje potekalo le na delu nevronov v zadnji plasti, ki
predstavljajo razrede iz druge uˇ cne podmnožice.
Slika 6: Zamrznitev dela zadnje plasti in vseh ostalih.
Na sliki 6 vidimo, da se ob zamrznitvi tudi vseh preo-
stalih plasti katastrofalno pozabljanje zelo upoˇ casni, sku-
pna klasiﬁkacijska toˇ cnost v drugi fazi uˇ cenja se obˇ cutno
poveˇ ca in doseže 47,5%, s ˇ cimer smo mnogo bližje zgor-
nji meji.
(a) Zmanjšanje za faktor10
8
(b) Zmanjšanje za faktor10
7
Slika 7: Variabilna stopnja uˇ cenja.
4.3 Variabilna stopnja uˇ cenja
Kombinacijo obeh verzij zamrznitve zadnje plasti pred-
stavlja uporaba variabilne stopnje uˇ cenja. V drugi fazi
uˇ cenja v zadnji plasti zamrznemo parametre nevronov, ki
predstavljajo razrede iz prve uˇ cne množice, za vse preo-
stale plasti pa uporabimo zmanjšano stopnjo uˇ cenja. Ugo-
tovili smo, da je za izogib katastrofalnemu pozabljanju
potrebno ogromno zmanjšanje, vsaj za faktor 10
7
. Na
slikah 7a in 7b je prikazano spreminjanje klasiﬁkacijskih
toˇ cnosti ob uporabi variabilne stopnje uˇ cenja. Rumena
barva na shemah na sliki 7 oznaˇ cuje parametre, za ka-
tere velja zmanjšana stopnja uˇ cenja v drugi fazi uˇ cenja.
S faktorjem zmanjšanja 10
8
se katastrofalno pozablja-
nje moˇ cno upoˇ casni in dosežemo klasiﬁkacijsko toˇ cnost
50,3%. Najvišjo klasiﬁkacijsko toˇ cnost dosežemo s fak-
torjem zmanjšanja 10
7
in sicer 50,7%, s ˇ cimer smo od
zgornje meje oddaljeni le 6 odstotnih toˇ ck. Previdni mo-
ramo sicer biti, da uˇ cenje v drugi fazi ustavimo dovolj
zgodaj.
251
4.4 Metoda MAS
Memory Aware Synapses (MAS) [1] je ena izmed obsto-
jeˇ cih metod za odpravljanje katastrofalnega pozabljanja.
V drugi fazi uˇ cenja v kriterijsko funkcijo doda regula-
rizacijski del, s katerim se kaznuje spremembe parame-
trov, ki so ocenjeni kot bolj pomembni za delovanje na
prvi podmnožici. Oceno pomembnosti parametra izraˇ cu-
namo na prvi uˇ cni podmnožici. Avtorji predvidijo, da za
vsako podmnožico nauˇ cimo loˇ ceno zadnjo plast mreže, ki
jo moramo ob uporabi ustrezno nastaviti, kar poslediˇ cno
pomeni, da moramo za vsak testni primer vedeti, ali pri-
pada razredu iz prve ali druge podmnožice, kar v praksi
zelo omejuje uporabo. Metodo smo priredili tako, da de-
luje tudi z enotno zadnjo plastjo, s ˇ cimer smo odstranili
to omejitev. Pri izraˇ cunu ocen pomembnosti parametrov
tako upoštevamo samo izhode nevronov v zadnji plasti, ki
predstavljajo razrede iz trenutne podmnožice, ko mrežo
uˇ cimo na drugi podmnožici pa zamrznemo parametre ne-
vronov, ki predstavljajo razrede iz prve uˇ cne množice.
Slika 8: Prilagojena metoda MAS.
Rdeˇ ce-zelen gradient na shemi na sliki 8 oznaˇ cuje pa-
rametre, za katere velja regularizacija v drugi fazi uˇ cenja.
Slika 8 prikazuje tudi dobljene klasiﬁkacijske toˇ cnosti; z
nje je razvidno, da tudi ta metoda moˇ cno zmanjša kata-
strofalno pozabljanje, skupna klasiﬁkacijska toˇ cnost do-
seže 49,2 %. Vrednost regularizacijskega hiperparametra
  znaša 1, kot predlagajo avtorji.
Povzetek vseh dobljenih klasiﬁkacijskih toˇ cnosti je
predstavljen v tabeli 1. Referenˇ cna skupna klasiﬁkacij-
ska toˇ cnost, ki jo dobimo ob uˇ cenju na celotni množici
znaša 56,7%. V tabeli so tako predstavljena odstopanja
od te maksimalne vrednosti.
Tabela 1: Rezultati eksperimentov. Stolpca PM 1 in PM 2
prikazujeta klasiﬁkacijske toˇ cnosti na prvi in drugi pod-
množici ob najvišji skupni. Odstopanje je izraženo v od-
stotnih toˇ ckah od zgornje meje, ki znaša 56.7%.
Pristop PM 1 PM 2 Skupna Odst.
Naivni pristop 0,1 65,7 32,9 23,8
Osnovni pristop 2,8 55,7 29.3 27,4
Zamrznitev zadnje plasti 28,6 44,2 36,4 20,3
Zamrznitev vseh plasti 49,2 45,8 47,5 9,2
Variabilna
stopnja uˇ cenja
10
8
52,5 48,2 50.3 6,4
10
7
55,0 46,4 50,7 6,0
Prilagojeni MAS 52,0 46,3 49,2 7,5
5 Zakljuˇ cek
V ˇ clanku smo predstavili, kateri so glavni vzroki za ka-
tastrofalno pozabljanje. Na podlagi teh ugotovitev smo
zasnovali razliˇ cne pristope k osveževanju parametrov ne-
vronske mreže, ki katastrofalno pozabljanje omejujejo.
Obstojeˇ co metodo MAS smo prilagodili, da je uporabna
tudi v realnem scenariju, kjer ne vemo, kateri podmnožici
pripada posamezen primer. Uporaba variabilne stopnje
uˇ cenja nam omogoˇ ca, da ob inkrementalnem uˇ cenju do-
sežemo klasiﬁkacijsko toˇ cnost, ki je le za 6 odstotnih toˇ ck
oz. 10.6% nižja, kot ˇ ce model uˇ cimo na celotni množici
(padec z 56,7% na 50.7%).
Avtorji v [11] v podobnem scenariju, ob uporabi zmo-
gljivejše mreže, dosežejo padec z 68,6% na približno 62%,
kar predstavlja le rahlo manjše znižanje, kot ga dobimo
mi. V istem ˇ clanku poroˇ cajo tudi o rezultatih, ki jih na
CIFAR-100 doseže metoda predlagana v [7], padec je tam
iz 68,8% na približno 53%, kar je obˇ cutno veˇ c, kot smo
dosegli z evalviranim pristopom. Katastrofalno pozablja-
nje torej ostaja eden izmed odprtih problemov na podro-
ˇ cju globokih konvolucijskih nevronskih mrež.
Literatura
[1] Rahaf Aljundi et al. Memory aware synapses: Learning
what (not) to forget. ECCV, pages 144–161, 2018.
[2] Francisco M. Castro et al. End-to-end incremental lear-
ning. ECCV, pages 2935–2947, 2018.
[3] Robert French. Dynamically constraining connectionist
networks to produce distributed, orthogonal representati-
ons to reduce catastrophic interference. Proceedings of the
16th Annual Cognitive Science Society Conference, pages
335–340, 1994.
[4] Robert M. French. Using semi-distributed representati-
ons to overcome catastrophic forgetting in connectionist
networks. In Proceedings of the 13th Annual Cognitive
Science Society Conference, pages 173–178, 1991.
[5] James Kirkpatrick et al. Overcoming catastrophic for-
getting in neural networks. Proceedings of the National
Academy of Sciences of the United States of America, 114
13:3521–3526, 2016.
[6] Alex Krizhevsky. Learning multiple layers of features
from tiny images. University of Toronto, 05 2012.
[7] Zhizhong Li and Derek Hoiem. Learning without forget-
ting. IEEE Transactions on Pattern Analysis and Machine
Intelligence, 40:2935–2947, 2016.
[8] Arun Mallya, Dillon Davis, and Svetlana Lazebnik. Pi-
ggyback: Adapting a single network to multiple tasks by
learning to mask weights. ECCV, pages 2935–2947, 2018.
[9] Michael McCloskey and Neal J. Cohen. Catastrophic in-
terference in connectionist networks: The sequential lear-
ning problem. In Psychology of Learning and Motivation,
volume 24, pages 109 – 165. 1989.
[10] Roger Ratcliff. Connectionist models of recognition me-
mory: Constraints imposed by learning and forgetting
functions. Psychological review, 97:285–308, 05 1990.
[11] Sylvestre-Alvise Rebufﬁ, Alexander Kolesnikov, Georg
Sperl, and Christoph H. Lampert. iCaRL: Incremental
Classiﬁer and Representation Learning. CVPR, pages
5533–5542, 2017.