Sažetak | Segmentacija medicinske slike igra ključnu ulogu u raznim medicinskim primjenama
od kirurškog planiranja preko dijagnostike do istraživanja. Taj se proces često oslanja
na neuronske mreže za točnu segmentaciju raznih modaliteta slike kao što su CT, MRI,
mikroskopija, dermatoskopija i druge. Međutim, uspješnost ovih modela je značajno
uvjetovano dostupnosti i kvalitetom podataka za trening, koje je često teško prikupiti
zbog visokih vremenskih i financijskih zahtjeva dobivanja slika, invazivnosti nekih
procedura medicinskog slikanja, velikih datoteka i regulatornih zahtjeva vezanih uz
medicinske slike.
Količina truda i stručnosti koju zahtjeva označavanje medicinskih slika dodatno
pogoršava navedene izazove, što čini prikupljanje velikih visokokvalitetnih skupova
podataka za treniranje neuronskih mreža posebno zahtjevnim. Zbog ovog nedostatka
podataka potrebno je razviti podatkovno učinkovite modele segmentacije koji mogu dati
pouzdane rezultate s ograničenim brojem uzoraka.
Iz područja statistike i teorije statističkog učenja, postavljena je teorija da, kako zadaci
segmentacije medicinskih slika postaju kompleksniji, oni zahtijevaju neuronske mreže
sa sve više parametara za uspješnu segmentaciju. Taj zahtjev za povečanjem parametara
tada zahtjeva više uzoraka kako bi se izbjegla prenaučenost modela. Međutim, u
medicinskim slikama nema dovoljno podatkovnih skupova s velikim brojem uzoraka. U
ovom doktorskom radu je predstavljen pregled metoda segmentacije medicinskih slika
i postojeće strategije poboljšanja podatkovne učinkovitosti tih metoda.
Predstavljene su razne nove metode koje pojednostavljuju zadatak segmentacije, što
omogućuje treniranje neuronskih mreža s manjim brojem parametara te time manje
potrebnih uzoraka. Metode se zasnivaju na transformiranju segmentacijske granice u oblik
koji se može modelirati manjim brojem parametara. To se postiže korištenjem znanja
iz domene i tradicionalnim tehnikama obrade slike kako bi se identificirale korisne transformacije
slike. Razvijene su neuronske mreže koje dinamički određuju parametre tih
transformacija za svaku sliku. Time se zadatak segmentacije razlomi na dva lakša zadatka:
inicijalna gruba lokalizacija ciljanog objekta koja je popraćena segmentacijom pojednostavljene
reprezentacije slike.
Uspješnost predstavljenih metoda procijenjena je u raznim modalitetima medicinske
slike, uključujući CT, mikroskopiju, dermatoskopiju i kolonoskopiju. Pokazana su
poboljšanja ne samo u podatkovnom učinkovitosti nego su i za neke segmentacijske
zadatke postignuti rezultati bolji od onih objavljenih u dosadašnjoj literaturi. Predstavljene
metode su fleksibilne i koriste za širok spektar tipova medicinskih slika. Mogu se
koristiti kao opći koraci pretprocesiranja slika za bilo koju arhitekturu segmentacijskih
konvolucijskih neuronskih mreža.
Konkretnije, koriste se dvije neuronske mreže za učinkovito rješavanje problema segmentacije.
Prva se mreža fokusira na grubo lokaliziranje ciljanog objekta koristeći kao
oznake Gaussovu distribuciju centriranu na objektu ili standardne segmentacijske mape.
Zatim se konstruira funkcija koja za danu grubu lokalizaciju daje parametre transformacije
slike, a čija je svrha pojednostavljivanje zadatka segmentacije. Proces odlučivanja
o korištenoj funkciji i transformaciji slike zasniva se na znanju iz domene i empirijski
utvrđenim rezultatima. Primjerice, kako bi se učinkovitije segmentirali eliptični
objekti koristi se polarna transformacija slike, i to tako da je polarno ishodište pozicionirano
u središtu objekta. Ulazna slika prolazi kroz transformaciju slike prema dobivenim
parametrima kao priprema za drugu neuronsku mrežu koja obavlja detaljnu
segmentaciju. Ta je druga mreža posebno trenirana na transformiranim slikama koristeći parametre koji su dobiveni od ručno označenih segmentacijskih maski.
Treniranjem druge mreže na transformiranim slikama pojednostavljuje se granica
segmentacije, te se time mogu koristiti mreže s manje parametara za zadatak segmentacije.
Mreže s manje parametara trebaju manje podataka za treniranje, tako da ovaj
pristup prirodno dovodi do povećanja učinkovitosti podataka. Rezultati pokazuju usporedivu
ili poboljšanu točnost korištenjem manjeg uzorka ili manjeg broja oznaka u
različtim aplikacijama medicinskih slika, kao što su segmentacija jetre i epikardijalnog
masnog tkiva iz CT skeniranja, kožnih lezija, polipa iz kolonoskopskih slika i stanica iz
mikroskopskih slika.
Spomenute dvije mreže mogu biti zasebne neuronske mreže ili se mogu povezati i zajednički trenirati. Značajna je prednost ovog pristupa to što mreže za grubu lokalizaciju i
finu segmentaciju mogu dijeliti istu često korištenu arhitekturu za segmentaciju medicinskih
slika. To omogućuje jednostavan prijenos znanja između dviju mreža, ubrzavajući
vrijeme obuke i poboljšavajući točnost. Osim toga, mreže se mogu unaprijed trenirati uz
pomoć postojećih dostupnih skupova podataka ili neuronskih mreža za segmentaciju
medicinskih slika.
U svrhu poboljšanja podatkovne učinkovitosti segmentacije medicinskih slika, ovaj
doktorski rad predstavlja sljedeće izvorne znanstvene doprinose:
1. Nova metoda segmentacije biomedicinskih slika temeljena na pretprocesiranju
polarnom transformacijom s nauˇcenim ishodištem. Predstavljena je nova tehnika
pretprocesiranja medicinskih slika, posebice onih koje sadrže objekte eliptičnih oblika.
Primjenom polarne transformacije kružne se granice odluke pojednostavljuju
u linearne, što čini segmentaciju jednostavnijom. Razvijena je neuronska mreža da
identifikaciju optimalnog ishodišta polarne transformacije. Poboljšana je kvaliteta
segmentacije i omogućeno korištenje manje kompleksnih neuronskih mreža.
2. Poboljšanje metode za smanjenje veličine ulaznih slika u neuronske mreže
obrezivanjem i korištenjem značajnih dijelova slike. Motivirano uvidima korištenjem polarne
transformacije, predložena je tehnika obrezivanja slika navođena
modelom u svrhu smanjenja veličine ulaznih slika u neuronsku mrežu bez gubitka
detalja. Precizna je segmentacija zadržana usprkos smanjenju veličine ulazne slike
time što se ciljani objekt lokalizira u slici niske rezolucije te se obrezuje regija od interesa
iz slike visoke rezolucije. Pokazano je da ovaj pristup povećava podatkovnu
učinkovitost jer kompleksnost modela raste s veličinom ulazne slike.
3. Nova arhitektura neuronske mreže za segmentaciju slika visoke rezolucije koja
kombinira detekciju objekata na slikama niske rezolucije i segmentaciju objekata
na slikama visoke rezolucije. Predstavljene metode pretprocesiranja slika
su dodatno unaprijeđene tako što se razvila cjelovita neuronska mreža koja se
može u cijelosti trenirati koja kombinira detekciju objekta na slici niske rezolucije
i segmentira objekt na obrezanom dijelu slike visoke rezolucije. Mreži je
omogućena konvergencija na dva načina. Prvo, koristi se ista arhitektura mreže za
grubu i detaljnu segmentaciju, što omogućuje prijenosno učenje. Drugo, informacije
se prosljeđuju od grube do detaljne segmentacijske podmreže, što osigurava
tok gradijenta kroz cijelu mrežu. Pokazano je da treniranje ove cjelovite mreže
povećava robusnost i grubog i detaljnog stadija segmentacije.
4. Nova metoda ugradnje dubinskih informacija u ulazne podatke dvodimenzionalne
konvolucijske neuronske mreže. S obzirom na ograničenja u podatkovnoj
učinkovitosti 3D neuronskih mrežama za segmentaciju volumetriˇcnih slika kao
što je CT, razvijena je metoda ugradnje dubinskih informacija u 2D presjeke slike
proširenjem presjeka dodatnim kanalom koji predstavlja normaliziranu z koordinatu.
Pokazano je da ovo omogućuje uspješnu segmentaciju CT slika s 2D
mrežama temeljenih na presjecima.
Svaka se od predstavljenih metoda može koristiti kao opći korak pretprocesiranja
neovisno o korištenoj arhitekturi konvolucijske neuronske mreže. Ovi doprinosi
prikazuju mogućnosti općenitog pojednostavljenja zadataka segmentacije medicinskih
slika i poboljšanja podatkovne učinkovitosti s raznim modalitetima i zadacima medicinskih
slika.
Kao rezultat istraživanja predstavljenog u ovom doktorskom radu objavljeno je četiri
rada u međunarodnim znanstvenim časopisima (svi kao prvi autor) i pet radova na
međunarodnim znanstvenim skupovima (četiri od kojih kao prvi autor). |
Sažetak (engleski) | Medical image segmentation plays a pivotal role in various medical applications from
surgical planning to diagnosis and research. Typically, medical image segmentation
heavily relies on neural networks to achieve accurate segmentation across different
imaging modalities such as CT, MRI, microscopy, dermatoscopy, and others. However,
the effectiveness of neural networks is significantly influenced by the availability and
quality of training data, which is often challenging to acquire due to the high time and
financial cost of image acquisition, invasiveness of some imaging procedures, large file
sizes, and regulatory challenges. The labor-intensive and expert-driven nature of annotating
medical images for segmentation further compounds these challenges, making
the assembly of large, high-quality datasets for training medical image segmentation
models particularly difficult.
Statistical learning theory principles indicate that more complex medical image segmentation
tasks require neural networks with a greater number of parameters for effective
segmentation. This requirement for more parameters, in turn, demands larger sample
sizes to avoid overfitting. In medical imaging, however, there is a lack of datasets
with large sample sizes. Therefore, there is a large need for data-efficient segmentation
methods that can deliver reliable results with limited training samples.
In this thesis, we present an overview of medical image segmentation methods and
existing strategies for improving their data efficiency. In addition, we propose various
new methods that simplify the segmentation task, allowing convolutional neural
networks to perform accurate segmentation with fewer parameters and, by extension,
smaller sample sizes. Our methods center on transforming the segmentation boundary
into a representation that can modeled with fewer parameters. We do so by leveraging
domain knowledge and traditional image-processing techniques to identify beneficial
image transformations. The parameters of the image transformations are dynamically
selected for each image using neural networks, breaking down the segmentation task
into two more manageable stages: an initial rough localization of the target object followed
by the segmentation of a simplified representation of the image.
More specifically, we use two neural networks to tackle segmentation tasks effectively.
The first network focuses on roughly locating the target object, using either Gaussian
distributions centered on the object or simple segmentation maps as initial guides.
We construct a function that, given this rough localization, produces parameters for the
image transformation aimed at simplifying the segmentation task. The decision-making
process for the function and the image transformations relies on both domain knowledge
and empirical results. For example, to segment elliptical objects more efficiently, we apply
the polar transform with the polar origin positioned at the object’s center. The image
undergoes the image transformation according to the resulting parameters, preparing it
for the second neural network, which performs the detailed segmentation. This second
network is specifically trained on transformed images using parameters obtained from
ground truth segmentation masks.
By training the second network on transformed images, we simplify the segmentation
boundary and thus can use networks with fewer parameters for the task. Networks
with fewer parameters need less data to train, and so our approach naturally leads to
increases in data efficiency. Our results demonstrate comparable or improved accuracy
using fewer data samples or labels across various medical imaging applications, such as
segmentation of liver and epicardial adipose tissue from CT scans, skin lesions, polyps
from colonoscopy images, and cells from microscopic images.
The two networks can be separate neural networks or they can be connected and
trained end-to-end. A notable benefit of this approach is that the rough localization and
fine segmentation networks can share the same commonly used medical image segmentation
architecture. This allows for easy transfer learning between the two networks,
speeding up training times and improving performance. In addition, the networks can
be pretrained using existing available medical image segmentation datasets or networks.
In addressing the challenge of data efficiency in medical image segmentation, this
thesis introduces the following original scientific contributions:
1. A new biomedical image segmentation method based on polar transform preprocessing
with a learned center point. We introduce a novel preprocessing technique
for medical images, particularly those with elliptically shaped objects. By
applying a polar transform to the image, we simplify circular decision boundaries
into linear ones, making segmentation more straightforward. A key contribution
is developing a neural network to identify the optimal origin for the polar transformation,
enhancing segmentation performance and allowing the use of less complex
networks.
2. An improved method of reducing the input image size in neural networks using
salient image crops. Building on the insights of model-driven polar transformations,
we propose a model-driven cropping technique to minimize neural
network input sizes without sacrificing fine details. By localizing the target object
in a downsampled image and extracting identified regions of interest from a highresolution
image, we maintain precise segmentation with smaller network input
sizes. Since model complexity increases with image size, this reduction in input
sizes improves data efficiency.
3. A new neural network architecture for high-resolution image segmentation that
combines object detection in low-resolution images and segmentation in highresolution
images. We extend our preprocessing methods to create an end-toend
trainable network that combines low-resolution object localization with highresolution
image segmentation. We allow network convergence in two key ways.
First, we use a shared architecture between the localization and segmentation
subnetworks which allows transfer learning. Secondly, we ensure gradient flow
throughout the network by passing information from one subnetwork to the other.
We show that training this end-to-end network increases the robustness of both the
localization and segmentation stages.
4. A new method of embedding depth information in two-dimensional convolutional
neural network input data. Acknowledging the data efficiency limitations
of 3D networks for volumetric data like CT scans, we develop a method to embed
depth information into 2D slices by adding a normalized z-coordinate channel
to each slice. We show that this allows effective segmentation of CT images with
slice-based 2D networks.
The effectiveness of these methods is validated across various medical imaging
modalities, including CT scans, microscopy, dermatoscopy, and colonoscopy, showing
not only enhanced data efficiency but also achieving state-of-the-art segmentation results
in certain tasks. The techniques introduced are versatile, suitable for a broad spectrum
of medical imaging fields, and can serve as general preprocessing steps for any
convolutional neural network-based segmentation architecture.
The research presented in this thesis has resulted in the publication of four research
papers in scientific journals (all as first author) and five papers presented at international
scientific conferences (of which four as first author). |