PREPOZNAVANJE OGROŽENOSTI ZA NASTANEK RAKA DOJK NA MAMOGRAFSKIH SLIKAH :Žan Klanečeka, 1 2Andrej Studena,b, Katja Jarm4, Mateja Krajc4, Miloš Vrhovec4, Robert Jeraj1, 2, 3 Univerza v Ljubljani, Fakulteta za matematiko in fiziko, Medicinska fizika, Ljubljana 2Inštitut Jožef Štefan, Ljubljana 3University of Wisconsin-Madison, Department of Medical Physics, Madison, U.S.A. 4Onkološki inštitut Ljubljana Povzetek Za prehod s populacijskega na personalizirano presejanje za raka dojk je v prvi vrsti potrebno natančno prepoznavanje ogroženosti za razvoj raka dojk. Standardni modeli, ki temeljijo na klasičnih značilkah, niso najbolj zanesljivi. Z razvojem umetne inteligence, predvsem na področju globokega učenja, se je izkazalo, da modeli, ki so naučeni na mamografskih slikah, dosegajo signifikantno boljše rezultate pri napovedovanju ogroženosti. Trenutno je najboljši model za napovedovanje ogroženosti MIRAI, ki je bil uspešno validiran na različnih populacijah. A vendar so rezultati še daleč od popolnih in možnosti za izboljšave je ogromno, predvsem na področju razširitve uporabnosti modela za različne proizvajalce mamografskih aparatov, vključevanja longitudinalnih sprememb in uporabe segmentiranih slik dojke. Uvod Za prehod s populacijskega na personalizirano presejanje za raka dojk je v prvi vrsti potrebno natančno prepoznavanje ogroženosti za razvoj raka dojk. Trenutno so v uporabi klasični modeli, ki temeljijo na dobro poznanih dejavnikih tveganja, kot so npr. starost, teža, indeks telesne mase, zgodovina raka v družini in genske mutacije, vsem pa je skupno to, da dosegajo boljšo napovedno moč z dodatkom ene in edine informacije iz slik - mamografske gostote. A vendar težava vseh teh modelov tiči v tem, da niso dovolj občutljivi za kratko- in srednjeročne spremembe tveganja za nastanek raka, njihova točnost pri določevanju ogroženosti pa je skromna. Če je slika tista, ki nam služi pri odkrivanju raka, zakaj je ne bi maksimalno izkoristili tudi pri napovedovanju ogroženosti? 24 Luščenje značilk iz mamografskih slik Pridobivanje značilk iz mamografskih slik lahko v grobem razdelimo v dve kategoriji. Prva kategorija predstavlja t. i. ročno ekstrakcijo značilk s pomočjo radiomike, kjer za območje dojke poračunamo raznorazne metrike, od najpreprostejših, kot je npr. povprečna vrednost vseh pikslov, do bolj kompleksnih, kot je npr. matrika so-pojavnosti sivine. Te značilke nam podajo grobo informacijo o strukturi dojke, niso pa nujno povezane z ogroženostjo za nastanek raka dojk. Na drugi strani imamo značilke, ki jih pridobimo s pomočjo umetne inteligence, in sicer s t. i. konvolucijskimi nevronskimi mrežami. Bistvena razlika je, da so te značilke povezane z neko nalogo - v našem primeru z napovedovanjem ogroženosti za rak dojk. Z drugimi besedami, na začetku konvolucijska nevronska mreža iz mamografskih slik pridobiva povsem naključne značilke (šum) in šele ko se mreža dodobra nauči na dani nalogi, začnemo pridobivati značilke, ki so povezane z našim ciljem. Napovedovanje ogroženosti iz značilk Ko imamo iz mamografskih slik izluščene značilke, sledi napovedovanje ogroženosti. Na napovedovanje ogroženosti lahko gledamo kot na klasifikacijski problem - ali bo ženska dobila raka v naslednjih nekaj letih ali ne. Tako bi npr. napovedovanje ogroženosti na kratki rok predstavljalo klasifikacijo med ženskami, ki bodo v naslednjih treh letih dobile raka, in med tistimi, ki ga ne bodo. Za to lahko uporabimo preproste modele, kot so logistična regresija in odločitvena drevesa, ali bolj kompleksne (globoke) modele, kot so npr. nevronske mreže. Naloga teh modelov je, da poskušajo najti povezave med vhodnimi značilkami in izhodom modela - ogroženost za nastanek raka dojk. Temu procesu rečemo učenje modela. Modeli za napovedovanje ogroženosti iz mamografskih slik Med najboljše modele za napovedovanje ogroženosti sodijo modeli, ki temeljijo na pridobivanju značilk s pomočjo konvolucijskih nevronskih mrež. Za uspešno učenje teh modelov je potrebno veliko število mamografskih slik. Trenutno je najboljši model za napovedovanje ogroženosti MIRAI, ki je bil naučen na več kot 800.000 slikah. Model (Slika 1) na vhodu sprejme vse štiri slike mamografske preiskave in iz njih s pomočjo specifične konvolucijske nevronske mreže Resnet18 izlušči 512 značilk, ki so povezane s povečano ogroženostjo za rak dojk. Klasična nevronska mreža in transformer nato poskrbita, da se s pomočjo pridobljenih značilk napove ogroženost za nastanek raka dojk, in sicer za obdobje 1-5 let v prihodnosti. Pri tem npr. 1-letna ogroženost za rak 25 dojk predstavlja verjetnost, da bo ženska dobila raka v naslednjem letu. Model je bil validiran v ZDA, na Tajvanu in na Švedskem ter dosega najboljše rezultate za napovedovanje ogroženosti za obdobje do pet let. Tako je npr. metrika AUC (angl. Area Under the Receiver Operating Characteristic curve) za obdobje 1-letne ogroženosti kar 0,84 in pade do AUC 0,77 za obdobje 5-letne ogroženosti (v primerjavi z modelom Tyrer-Cuzick v8, ki ima za 1-letno ogroženost AUC 0,66 in za 5-letno ogroženost AUC 0,62). Zanimiva lastnost modela MIRAI je, da lahko za napovedovanje uporabi samo sliko ali pa sliko z dodanimi klasičnimi dejavniki tveganja. Napovedna moč v načinu, ko se uporabi samo sliko, je praktično nespremenjena ob dodatku klasičnih dejavnikov tveganja, kar nakazuje na to, da slika sama po sebi nosi največ informacij. Obstajajo še drugi modeli, ki pa ne dosegajo tako visoke napovedne moči in/ali niso bili zunanje validirani. Slika 1: Prikaz delovanja modela MIRAI, ki iz vseh slik mamografske preiskave izlušči 512 značilk, ki so povezane z ogroženostjo za nastanek raka dojk. S pomočjo nevronske mreže in transformerja se te značilke uporabi za napovedovanje ogroženosti v obdobju 1-5 let. Problemi in izboljšave Kljub temu, da modeli, ki temeljijo na konvolucijskih nevronskih mrežah, dosegajo najboljše rezultate za napovedovanje ogroženosti za rak dojk, so še zdaleč od tega da bi bili popolni. Prvo težavo predstavljajo že same mamografske slike, ki so v večini podatkovnih centrov dostopne samo v načinu za prezentacijo in ne kot surove. Ker različni proizvajalci uporabljajo različne algoritme za procesiranje slik, prihaja do s prostim očesom vidnih razlik, kar pri samem učenju modela predstavlja težavo. Specifični model MIRAI je bil naučen na slikah aparata Hologic in še ni bil validiran na slikah drugih proizvajalcev. Naslednja težava je v tem, da se struktura dojke med različnimi populacijami na svetu razlikuje, bodisi zaradi različne rase ali povprečnega indeksa telesne mase. Model, naučen na pretežno belski populaciji, ne bo nujno dosegal primerljivih rezultatov na pretežno črnski populaciji. Rešitev za oba problema je v tem, da se že naučen model priuči na podlagi karakteristik populacije in mamografov, na katerih se bo dejansko uporabljal. Kot očitna izboljšava trenutnih 26 modelov bi se zdela tudi vpeljava longitudinalnih sprememb med samimi slikami. Odlična lastnost presejalnih programov je namreč v tem, da imamo s časom za ženske na voljo več zaporednih slikanj. Pokazano je že bilo, da so longitudinalne spremembe v gostoti dojk povezane s povečano ogroženostjo za nastanek raka dojk; poskusi so bili izvedeni tudi na modelih s konvolucijskimi nevronskimi mrežami, a zaenkrat še ne presegajo napovedne moči trenutno najboljšega modela MIRAI. Problem trenutnih modelov je tudi v tem, da kot vhodni podatek uporabljajo sliko dojke s pektoralno mišico, čeprav slednja pri določanju ogroženosti za rak dojk ne predstavlja pomembne vloge. Efekt odstranitve pektoralne mišice na napovedno moč modelov se aktivno raziskuje. Zaključek Prepoznavanje ogroženosti za nastanek raka dojk se je začelo s klasičnimi dejavniki tveganja, kot so starost, teža in genske mutacije. Modeli so bili s časom nadgrajeni z mamografsko gostoto, ki je signifikantno izboljšala napovedno moč. A vendar je bila do pred kratkim to edina informacija, pridobljena iz slik. Razvoj umetne inteligence, predvsem na področju globokega učenja in konvolucijskih nevronskih mrež, je odprl vrata novemu načinu pridobivanja značilk iz mamografskih slik. Trenutno najboljši model, ki temelji na dotičnem načinu, je MIRAI, ki je uspešno prestal zunanjo validacijo in dosega signifikantno boljšo napovedno moč od standardnih modelov, kot je npr. Tyrer-Cuzick. A vendar tudi modeli, ki temeljijo na napovedovanju ogroženosti iz mamografskih slik s pomočjo konvolucijskih nevronskih mrež, niso brez pomanjkljivosti, zato je še veliko prostora za izboljšave, predvsem na področju razširitve uporabnosti modela za različne proizvajalce mamografskih aparatov, vključevanja longitudinalnih sprememb in uporabi segmentiranih slik dojke. 27 Literatura 1. Tyrer J, Duffy SW, Cuzick J. A breast cancer prediction model incorporating familial and personal risk factors. Statistics in Medicine. 2004;23(7):1111-30. 2. Gail MH, Brinton LA, Byar DP, Corle DK, Green SB, Schairer C, et al. Projecting Individualized Probabilities of Developing Breast Cancer for White Females Who Are Being Examined Annually. JNCI: Journal of the National Cancer Institute. 1989 Dec 20;81(24):1879-86. 3. Fosket J. Constructing "High-Risk Women": The Development and Standardization of a Breast Cancer Risk Assessment Tool. Science, Technology, & Human Values. 2004 Jul 1;29(3):291-313. 4. Carver T, Hartley S, Lee A, Cunningham AP, Archer S, Babb de Villiers C, et al. CanRisk Tool—A Web Interface for the Prediction of Breast and Ovarian Cancer Risk and the Likelihood of Carrying Genetic Pathogenic Variants. Cancer Epidemiology, Biomarkers & Prevention. 2021 Mar 5;30(3):469-73. 5. Brentnall AR, Harkness EF, Astley SM, Donnelly LS, Stavrinos P, Sampson S, et al. Mammographic density adds accuracy to both the Tyrer-Cuzick and Gail breast cancer risk models in a prospective UK screening cohort. Breast Cancer Res. 2015 Dec;17(1):147. 6. Yala A, Mikhael PG, Strand F, Lin G, Smith K, Wan YL, et al. Toward robust mammography-based models for breast cancer risk. Sci Transl Med [Internet]. 2021 Jan 27 [cited 2021 Oct 5];13(578). Available from: https://www.science.org/doi/10.1126/scitranslmed.aba4373 7. Louro J, Posso M, Hilton Boon M, Román M, Domingo L, Castells X, et al. A systematic review and quality assessment of individualised breast cancer risk prediction models. Br J Cancer. 2019 Jul;121(1):76-85. 8. Kontos D, Winham SJ, Oustimov A, Pantalone L, Hsieh MK, Gastounioti A, et al. Radiomic Phenotypes of Mammographic Parenchymal Complexity: Toward Augmenting Breast Density in Breast Cancer Risk Assessment. Radiology. 2019 Jan;290(1):41-9. 9. Li Z, Liu F, Yang W, Peng S, Zhou J. A Survey of Convolutional Neural Networks: Analysis, Applications, and Prospects. IEEE Transactions on Neural Networks and Learning Systems. 2022 Dec;33(12):6999-7019. 10. Yala A, Lehman C, Schuster T, Portnoi T, Barzilay R. A Deep Learning Mammography-based Model for Improved Breast Cancer Risk Prediction. Radiology. 2019 Jul;292(1):60-6. 11. Wu N, Phang J, Park J, Shen Y, Huang Z, Zorin M, et al. Deep neural networks improve radiologists' performance in breast cancer screening. IEEE transactions on medical imaging. 2019;39(4):1184-94. 28 12. Dembrower K, Liu Y, Azizpour H, Eklund M, Smith K, Lindholm P, et al. Comparison of a Deep Learning Risk Score and Standard Mammographie Density Score for Breast Cancer Risk Prediction. Radiology. 2020 Feb;294(2):265-72. 13. CliftAK, Dodwell D, Lord S, Petrou S, Brady SM, Collins GS, et al. The current status of risk-stratified breast screening. Br J Cancer. 2022 Mar 9;126(4):533-50. 14. He K, Zhang X, Ren S, Sun J. Deep residual learning for image recognition. In 2016. p. 770-8. 15. Jiang S, Bennett DL, Rosner BA, Colditz GA. Longitudinal Analysis of Change in Mammographic Density in Each Breast and Its Association With Breast Cancer Risk. JAMA Oncology. 2023 Jun 1;9(6):808-14. 16. Dadsetan S, Arefan D, Berg WA, Zuley ML, Sumkin JH, Wu S. Deep learning of longitudinal mammogram examinations for breast cancer risk prediction. Pattern Recognition. 2022 Dec 1;132:108919. 17. Klanecek Z, Wagner T, Wang YK, Cockmartin L, Marshall N, Schott B, et al. Uncertainty estimation for deep learning-based pectoral muscle segmentation via Monte Carlo dropout. Phys Med Biol. 2023 May;68(11):115007. 29