Sažetak | Izraz kardiovaskularne bolesti (KVB) odnosi se na brojne funkcionalne
abnormalnosti srca i krvožilnog sustava. KVB uzrokuju gotovo jednu
trećinu (33%) smrtnosti u suvremenom svijetu, što predstavlja najveći
udio u odnosu na sve druge bolesti. Rana dijagnoza i odgovarajuće
liječenje kardiovaskularnih bolesti mogu značajno smanjiti smrtnost i
poboljšati kvalitetu pacijentova života. Postavljanje dijagnoze temelji
se na cjelokupnoj slici kardiovaskularnog sustava, uključujući anatomiju
i fiziologiju srca. Dijagnostički proces obično se sastoji od dva glavna
dijela. Prvi dio odnosi se na prikuplanje slika srca pomoću medicinskih
uređaja. Razvijene su brojne invazivne i neinvazivne tehnike
medicinskog snimanja koje omogućuju uvid u anatomiju i funkcionalnost
srca. Drugi dio dijagnostičkog procesa je kvantifikacija i interpretacija
prethodno dobivenih slika pomoću naprednih metoda obrade
slike. Razvoj učinkovitih metoda za obradu medicinskih slika je složen
zadatak, s obzirom da podrazumijeva obradu ogromne količine visokodimenzionalnih
podataka. Napredak u razvoju algoritama obrade
slike, računalnog vida i umjetne inteligencije, kao i dostupnost grafičkih
procesorskih jedinica (GPU-a), značajno su olakšale i ubrzale razvoj
takvih metoda.
Segmentacija medicinskih slika ima važnu ulogu u procjeni, dijagnozi
te postavljanju prognoze različitih kardiovaskularnih bolesti. Opsežna
istraživanja i kliničke primjene pokazale su da računalna tomografija
(CT) i magnetska rezonanca (MRI), kao osnovne tehnike prikupljanja
medicinskih slika, imaju izrazito važnu ulogu u procjeni kardiovaskularnih
bolesti. Njima je omogućeno kvantificiranje bolesti, mjerenje
volumena kao i analizira morfologije različitih organa. Prema tome, segmentaciju
srca i srčanih struktura predstavlja osnovu za širok spektar
kliničkih primjena. Primjerice, često se koristi se za modeliranje i analizu
anatomije i funkcionalnosti kao i za lokalizaciju različitih patologija.
Izrada trodimenzionalnog (3D) modela srca specifičnog za pojedinog
pacijenta predstavlja izrazit potencijal za poboljšanje kirurškog planiranja
za pacijente s urođenom srčanom manom. Kako bi se takvi 3D
modeli mogli izraditi, potrebno je imati segmentirane različite srčane
strukture, uključujući pojedine srčane komore, epikardijalnu površinu,
aortu kao i pojedine žile kardiovaskularnog sustava. Segmentacija lijeve
i desne klijetke ima izrazito važnu ulogu u kvantitativnoj analizi globalnih
i regionalnih informacija, odnosno pokazatelja rada srca, poput
xviii
volumena na kraju dijastole (VKD), volumena na kraju sistole (VKS),
frakcije izbacivanja (FI), debljine stijenke ili mase. Primjerice, ventrikularna
hipertrofija uzrokovana je abnormalnim povećanjem srčanog
mišića koji okružuje lijevu ili desnu klijetku. Prema tome, segmentacija
cijelog srca i srčanih komora iz volumetrijskih medicinskih slika igraju
bitnu ulogu u procjeni cjelokupnog kardiovaskularnog zdravlja. Nadalje,
radiolozi često trebaju ocrtati aortu kako bi dobili njezinu morfologiju,
što je bitno za otkrivanje i dijagnosticiranje aneurizme aorte. Ručna
segmentacija srca i srčanih struktura je vremenski veoma zahtijevan
posao, podložan subjektivnosti. Prema tome, razvoj točnih i robusnih
automatskih algoritama za segmentaciju je neophodan za primjenu u
kliničkoj praksi.
Duboko učenje predstavlja najsuvremeniju metodu za različite zadatke
obrade slike poput raspoznavanja, segmentacije i klasifikacije.
Metode dubokog učenja temelje se na umjetnim neuronskim mrežama.
Najčešće upotrebljena vrsta neuronske mreže su konvolucijske neuronske
mreže (CNN). FCNs predstavljaju specifičnu vrstu CNN-a
bez potpuno povezanog sloja, kojima se obrađuje cijela slika te nije
potrebno korištenje patcheva. Razvijene su različite varijante FCN-a,
od kojih su najznačajnije varijante koje koriste koder-dekoder arhitekture.
U biomedicinskoj obradi slika, za segmentaciju, najčešće se
koristi U-Net arhitektura neruonske mreže kao i njezina odgovarajuća
3D verzija. U-Net arhitektura ima snažnu reprezentativnu snagu
te je u mogućnosti zabilježiti značajke niskih razina što je izrazito
važno prilikom treniranja mreže sa malom količinom podataka. Iako
U-Net ima snažnu reprezentativnu snagu, dugoročni odnosi između
značajki su slabi zbog upotrebe konvolucijskih operacija. Prema tome,
potrebno je razvijati naprednije mehanizme kao i dodatne blokove koji
će biti u mogućnosti ispraviti nedostatke U-Net arhitekture. Tehnike i
blokovi poput veza za preskakivanje ili dubokog nadzora, omogućuju
izgradnju dubljih arhitektura neuronskih mreža koje pružaju apstraktnije
rezultate učenja te postižu veću točnost prilikom segmentacije
medicinskih slika. S obzirom da povećanje broja slojeva osigurava
veći prostor parametara koji omogućuje učenje apstraktnijih značajki,
dublje arhitekture neuronskih mreža pružaju apstraktnije učenje koje
rezultira boljim performanse i većom točnost u zadacima medicinske
segmentacije. Unatoč tome, kako se dubina mreže povećava, informacije
o gradijentu prolaze kroz mnogo slojeva te mogu nestati ili
nakupiti velike pogreške do trenutka kada gradijet dosegne kraj mreže.
To dovodi do uobičajenih prepreka treninga dubokih arhitektura neuronskih
mreža kao što su problem nestajajućih gradijenta, ekstenzivnog
rasta parametara, kao i smanjenja točnosti, što dovodi do računalno
zahtjevnih modela.
U ovoj doktorskoj disertaciji, predložen je niz metoda dubokog učenja
za automatsku segmentaciju srca i srčanih komora. Fokus disertacije je
na poboljšanju metoda dubokog učenja za segmentaciju cijeloga srca,
lijeve i desne klijetke i miokarda kao i aneurizme abdominalne aorte. S
xix
obzirom na karakteristične probleme koji se javljanju prilikom dizajniranja
metoda dubokog učenja za segmentaciju medicinskih slika, poput
problema visoke dimenzionalnosti slika koje rezultiraju treniranim
modelima s velikim brojem parametara kao i nedostatkom anotiranih
podataka za treniranje, cilj ove disertacije je ublažiti navedene izazove
predlaganjem novih i robusnih arhitektura neuronskih mreža koje
smanjuju broj korištenih parametara, ali zadržavaju izrazito visoku
točnost krajnjih rezultata segmentacije.
Prvi i najvažniji znanstveni doprinos predstavlja nova struktura
povezivanja rezidualnih jedinica, koju nazivamo rezidualna jedinica za
spajanje značajki (FM-Pre-ResNet). FM-Pre-ResNet struktura povezivanja
rezidualnih jedinica dodaje konvolucijski sloj na vrh i na dno
već postojećih prethodno aktivirajućih rezidualnih jedinica. Pri tome,
gornji sloj uravnotežuje parametre dviju grana rezidualne jedinice, dok
donji sloj smanjuje dimenzije kanala. Na ovaj način predložena struktura
povezivanja rezidualnih jedinica omogućuje kreiranje značajno
dubljih modela uz održavanje iste ili čak manje količine parametara u
odnosu na originale rezidualne jedinice.
Nakon toga, u drugom znanstvenom doprinosu, predložena je nova
3D arhitektura neuronske mreže bazirana na koder-dekoder arhitekturi
koja uspješno integrira FM-Pre-ResNet jedinice s varijacijskim
autokoderima (VAE) za segmentaciju srca i srčanih komora iz CT i
MRI slika. Metoda se sastoji od tri osnovna dijela. U prvom dijelu,
prethodno predložene FM-Pre-ResNet jedinice koriste se za učenje
nisko-dimenzionalnog prikaza ulaza u fazi kodiranja. U drugom dijelu,
VAE rekonstruira ulaznu sliku iz nisko-dimenzionalnog latentnog prostora,
osiguravajući da su sve težine modela snažno regulirane, kako bi
se izbjegnula neželjena pojava pretreniranja. VAE dio koristi se samo
tijekom treniranja mreže. Konačno, u trećoj fazi dekodiranja ponovno
su integrirane FM-Pre-ResNet jedinice pomoću kojih se stvaraju konačne
segmentacije srca. Predložena nova arhitektura evaluirana je na
testnom skupu podataka koji se sastoji od 40 različitih pacijenata dostupnih
kroz MICCAI Multi-Modality Whole Segmentation Challenge
(MM-WHS) izazov. Naša metoda ostvarila je prosječni DSC, JI, SD i
HD za cijelo srce od 90,39%, 82,24%, 1.1093 i 15,3621 na CT snimkama,
odnosno 89,50%, 80,44%, 1,8599, 25,6558 na MRI snimkama. Predloženi
pristup ostvario je približno slične rezultate kao i najsuvremenije
metode za segmentaciju cijelog srca na CT slikama dok su rezultati na
MRI slikama bolji od rezultata prethodno objavljenih najsuvremenijih
metoda.
Treći znanstveni doprinos, predstavlja novu automatsku metodu
za segmentaciju miokarda (MiO), lijeve (LK) i desne klijetke (DK)
iz cineMRI slika. Predstavljena je nova arhitekturu koja integrira
SERes blokove u 3D U-net arhitekturu (3D SERes-U-Net). SERes
blokovi upotrebljavaju operacije stiskanja i uzbude u rezidualne jedinice.
Sposobnost ponovne kalibracije značajki operacija stiskanja i uzbude
povećava reprezentativnu snagu mreže, dok ponovna upotreba značajki
xx
koristi učinkovito učenje o značajkama, što poboljšava performanse
segmentacije. Predloženu metodu evaluirali smo na testnom skupu
podataka MICCAI Automated Cardiac Diagnosis Challenge (ACDC).
Naša predložena metoda za segmentaciju pomoću 3D SERes-U-Net
ostvarila je prosječni DSC za LK, DK i MiO na kraju dijastole od
95%, 90%, 83%. Slično, prosječni DSC za LK, DK i MiO na kraju
sistole je 86%, 83%, 85%. Dodatno, izračunati su volumeni LK, DK i
MiO na temelju kojih su dalje računate značajne kliničke metrike te
su uspoređeni rezultati s referentnim rezultatima. Navedeno uključuje
kliničke metrike, odnosno pokazatelje funkcionalnosti srca, uključujući
volumen lijeve klijetke na kraju dijastole (VLKKD), volumen lijeve
klijetke na kraju sistole (VLKKS), frakciju izbacivanja lijeve klijetke
(FILK), volumen desne klijetke na kraju dijastole (VDKKD), volumen
desne klijetke na krajnjoj sistoli (VDKKS), frakciju izbacivanja desne
klijetke (FIDK), volumen miokarda na krajnjoj sistoli (VMiOKS) kao
i masu miokarda na kraju dijastole (MiOKD). Bland-Altman analiza
pokazuje visoki koeficijent korelacije od R = 0,99 za VLKKD i VLKKD,
dok je R = 0,95 za FILK. Korelacije VDKKD, VDKKS i FIDK su R
= 0,97, R = 0,93, R = 0,69. Konačno, R = 0,96 za VMiOKS i R =
0,95 za MiOKD dodatno pokazuju snagu točnosti i preciznosti naše
predložene metode.
Konačno, četvrti znanstveni doprinos predstavlja novi automatski
pristup za segmentaciju aneurizme abdominalne aorte (AAA). 3D UNet
arhitektura modificirana je uvođenjem rezidualnih jedinica u koder
dijelu kao i mehanizmom dubokog nadzora u dekoder dijelu. Kako bi
se povećala točnost rezultata, mreža je trenirana i validirana na 19
preoperativnih AAA CTA volumena različitih pacijenata primjenom
4-ostrukog pristupa unakrsne provjere valjanosti. Naša metoda postiže
DSC rezultat od 91,03% za segmentaciju aneurizme abdominalne aorte.
Tijekom rada na ovoj doktorskoj disertaciji, objavljeno je 5 radova
u časopisima (od čega 3 kao prvi autor), 10 radova objavljeno je na
međunarodnim konferencijama (od čega 5 kao prvi autor) te 1 rad kao
dio knjige (ko-autor). |
Sažetak (engleski) | The term cardiovascular disease (CVD) refers to numerous dysfunctions
of the heart and circulatory system. Cardiovascular disease accounts
for nearly one-third (33%) of all deaths in the modern world, which is
the highest proportion of all diseases. Early diagnosis and appropriate
treatment can significantly reduce mortality and improve quality of life.
The diagnosis of heart disease is based on the complete cardiovascular
picture, including anatomy and physiology. The diagnostic process
usually consists of two main parts. The first part refers to obtaining
images of the heart using imaging devices. Numerous invasive and
noninvasive imaging techniques have been developed to characterize
the anatomy and functionality of the heart. The second part of the
diagnostic process is the quantification and interpretation of the images
using advanced image processing methods. Developing efficient medical
image processing and analysis methods is a complex task, mainly
because it involves processing large amounts of high-dimensional data.
Advances in the development of image processing, computer vision, and
artificial intelligence, as well as the widespread availability of powerful
graphical processing units (GPUs), have made this challenging task
manageable.
Medical image segmentation plays an important role in the assessment,
diagnosis, and prognosis of various cardiovascular diseases.
Extensive research and clinical applications have shown that computed
tomography (CT) and magnetic resonance imaging (MRI) play an
important role in the noninvasive assessment of cardiovascular disease.
They help quantify disease, measure the volume of structures, and
analyze organ morphology. Therefore, segmentation of whole heart is
an important step for a variety of clinical applications. For example, it
is used for modeling and analyzing the anatomy and function of the
heart and for localizing pathologies. The creation of a patient-specific
3D heart model holds excellent potential for improving surgical planning
for patients with congenital heart defects. It requires delineation
of all cardiac structures, including heart chambers, epicardial surface,
entire blood pool, and great vessels. Segmentation of the left and right
ventricles plays a critical role in quantitative analysis of global and
regional information, i.e., indicators of cardiac function, such as enddiastolic
volume (EDV), end-systolic volume (ESV), ejection fraction
(EF), wall thickness, and mass. For example, ventricular hypertrophy
x
is caused by abnormal enlargement of the myocardium surrounding
the left or right ventricle. Therefore, segmentation of the whole heart
and heart chambers from volumetric medical images plays an essential
role in cardiac assessment. In addition, radiologists often need to
delineate the aorta to obtain its morphology, which is essential for the
detection and diagnosis of aortic aneurysms. Manual segmentation
of cardiac structures is a time-consuming process that depends on
observer variability. Therefore, the development of accurate and robust
automatic segmentation algorithms is critical for clinical practice.
Deep learning has emerged as a state-of-the-art method for various
image processing tasks such as recognition, segmentation, and
classification. Deep learning methods are based on deep artificial
neural networks. The most common type of deep neural network is
convolutional neural networks (CNNs). Fully convolutional neural
networks (FCNs) are a special type of CNNs that do not have a fully
connected layer and are trained and applied to the entire image so that
no patch selection is required. Several variants of FCNs have been proposed
to transfer features from the encoder to the decoder to increase
segmentation accuracy. The most widely used FCNs for biomedical
image segmentation are the U-net architecture and its corresponding
three-dimensional counterpart, the 3D U-net architecture. The ability
of U-Net architecture to capture low-level features makes them very
useful in scenarios with a small amount of training data. Although it
has strong representational power, long-range relationships are weak
due to the inherent localization of convolutional operations, so more
advanced mechanisms and building blocks are required. Techniques
and building blocks such as residual connections and deep supervision
enable the construction of deeper architectures that provide more abstract
learning results and higher accuracy for medical segmentation
tasks. The increment in the number of layers provides larger parameter
space enabling learning of more abstract features. Therefore, deeper
architectures could provide more abstract learning that results in better
performance and higher accuracy in medical segmentation tasks.
Nevertheless, when the depth of CNN increases, information about the
gradient passes through many layers, and it can vanish or accumulate
large errors by the time it reaches the end of the network. This leads
to common obstacles of training deep neural network architectures
such as appearance of vanishing gradients, accuracy degradation, and
extensive parameter growth, which results in computationally intensive
models.
In this Thesis, we propose a set of deep learning methods for automatic
heart and heart chambers segmentation. We focus on improving
deep learning segmentation methods for the whole heart, both ventricles,
myocardium, and abdominal aortic aneurysm. Several unique
challenges and issues arise in developing deep learning methods for
medical image segmentation and analysis. For example, the high image
dimensionality leads to trained models with a high number of
xi
parameters, and the lack of expert annotation makes the models more
susceptible to overfitting. Therefore, we aim to alleviate these challenges
by proposing new and robust CNNs that reduce the number of
parameters so that they can be trained with smaller training sets and
are less prone to overfitting.
One of the most important scientific contributions of this work is
the novel connectivity structure of residual units, which we call the
feature merge residual unit (FM-Pre-ResNet). The FM-Pre-ResNet
unit attaches two convolution layers at the top and at the bottom of the
pre-activation residual block. The top layer balances the parameters of
the two branches, while the bottom layer reduces the channel dimension.
The proposed connectivity allows the construction of notably deeper
models while maintaining the same or smaller number of parameters
than the pre-activation residual units.
Following that, the second scientific contribution is a novel threedimensional
(3D) encoder-decoder architecture that successfully integrates
FM-Pre-ResNet units and is additionally guided with variational
autoencoders (VAE) for the task of whole heart segmentation from
CT and MRI images. The architecture includes three stages. First,
in an encoding stage, FM-Pre-ResNet units learn a low-dimensional
representation of the input. Second, in the VAE stage, an input image
is reduced to a low-dimensional latent space and reconstructs itself to
provide a strong regularization of all model weights. This ensures that
all model weights are strongly regularized while avoiding overfitting
the training data. Third, the decoding stage creates the final whole
heart segmentation. We evaluate our method on the 40 test subjects of
the MICCAI Multi-Modality Whole Heart Segmentation (MM-WHS)
Challenge. Our method achieves an average Dice score (DSC), Jaccard
index (JI), surface distance (SD), and Hausdorff distance (HD) for
WHS of 90.39%, 82.24%, 1.1093, and 15.3621 on CT images and 89.50%,
80.44%, 1.8599, 25.6558 on MRI images, respectively. The proposed
approach obtains highly comparable DSC to the state-of-the-art for
whole heart segmentation tasks on CT images while outperforming the
current state-of-the-art on the MRI images.
The third scientific contribution is a new automatic method for
left ventricle (LV), right ventricle (RV), and myocardium (Myo) segmentation
and quantification from cine-MRI images. We introduce
a new architecture that incorporates SERes blocks into 3D U-net architecture
(3D SERes-U-Net). The SERes blocks incorporate squeezeand-
excitation operations into residual learning. The adaptive feature
recalibration ability of squeeze-and-excitation operations boosts the
network’s representational power while feature reuse utilizes effective
feature learning, which improves segmentation performance. We
evaluate the proposed method on the MICCAI Automated Cardiac
Diagnosis Challenge (ACDC) testing dataset. Our method obtains an
average DSC for LV, RV, and Myo at end-diastole of 95%, 90%, 83%,
respectively. Similarly, we obtain an average DSC for LV, RV, and
xii
Myo at end-systole of 86%, 83%, 85%, respectively. Additionally, we
calculate significant clinical metrics, i.e., indicators of hearts’ function,
including volume of the left ventricle at end-diastole (LVEDV), the
volume of the left ventricle at end-systole (LVESV), left ventricles’ ejection
fraction (LVEF), the volume of the right ventricle at end-diastole
(RVEDV), volume of the right ventricle at end-systole (RVESV), right
ventricles’ ejection fraction (RVEF), myocardium volume at end-systole
(MyoLVES), and myocardium mass at end-diastole (MyoMED). The
Bland-Altman analysis shows a high correlation coefficient of R=0.99
for LVEDV and LVESV, while R=0.95 for LVEF. Correlations of
RVEDV, EVESV and RVEF are R=0.97, R=0.93, R=0.69, respectively.
Finally, R=0.96 for MyoLVES and R=0.95 for MyoMED further
show our proposed methods’ strength of accuracy and precision.
Finally, the fourth scientific contribution includes a new automatic
approach for robust and reproducible abdominal aortic aneurysm
(AAA) segmentation. The 3D U-Net network is adapted by introducing
residual units in the contracting pathway and a deep supervision
mechanism in the expanding pathway. We conduct an ablation study
to demonstrate the effect of the addition of residual units and deep
supervision for this particular clinical application. To increase the
robustness of the results, networks are trained, validated, and evaluated
on 19 pre-operative CTA volumes from different patients using a 4-fold
cross-validation approach. Our pipeline achieves a Dice score of 91.03%
for AAA segmentation.
The work conducted during this Thesis resulted in 5 journal publications
(of which 3 as the first author), 10 papers are published
at international conferences (of which 5 as the first author), and 1
publication in book chapters (as co-author). |