TNU Journal of Science and Technology
229(07): 111 - 120
http://jst.tnu.edu.vn 111 Email: jst@tnu.edu.vn
DETECTING ABNORMAL AREAS ON BRAIN MRI IMAGES WITH SWIN-UNET
Le Minh Loi1,2, Tran Nguyen Minh Thu2*, Ho Quoc An2, Pham Nguyen Khang2
1Can Tho University of Medicine and Pharmacy, 2Can Tho University
ARTICLE INFO
ABSTRACT
Received:
07/4/2024
To identify abnormal areas on brain MRI images, radiologists need to
examine many slices from the image set. This research helps
automatically suggest abnormal areas of the brain on MRI images. The
Unet, ResNet, Swin-Unet models are trained on the Can Tho University
of Medicine and Pharmacy Hospital data set combined with the LGG
data set to segment images with or without abnormal regions. The model
will then suggest the abnormal region through the boundary drawn
around it. Experimental results show that, when dividing random data by
image, the Swin-Unet model achieves the highest accuracy with 0.88,
along with Recall, Precision and F1 Score of 0.96, 0.71, and 0.82
respectively. For determining the location and shape of the abnormal
region, Swin-Unet also demonstrated high performance with mIoU
reaching 0.89 and mDSC reaching 0.91. When dividing the data by
patient, the Swin-Unet model once again showed good performance with
Accuracy reaching 0.86, along with Recall of 0.88, Precision of 0.79, F1
Score of 0.83, and for mIoU it achieved 0.84 and mDSC reached 0.89.
Research results show that the Swin-Unet model has good results in the
problem of detecting abnormal areas on brain MRI images.
Revised:
10/6/2024
Published:
10/6/2024
KEYWORDS
Detecting abnormalities
Medical image segmentation
Deep learning
Transformer
SwinUnet
PT HIN NG BẤT THƯỜNG TRÊNNH MRI NÃO
VỚI MÔ HÌNH SWIN-UNET
Lê Minh Lợi1,2, Trn Nguyễn Minh Thư2*, H Quc An2, Phạm Nguyên Khang2
THÔNG TIN BÀI BÁO
TÓM TẮT
Ngày nhận bài:
07/4/2024
Để xác định vùng bất thường trên nh MRI s não, bác sĩ chẩn đoán hình
nh cn khảo sát nhiều lát cắt t b ảnh. Nghiên cứu này giúp t động
phát hin vùng bất thường của não trên ảnh MRI. Các hình Unet,
ResNet, Swin-Unet được hun luyện trên b d liu ca Bnh vin
Trường Đại học Y Dược Cần Tkết hp b d liệu LGG để phân đon
ảnh hoặc không vùng bất thường. Sau đó hình sẽ đ xut vùng
bất thường thông qua đường biên được v xung quanh. Kết qu thc
nghim cho thy, khi chia d liu ngẫu nhiên theo nh, hình Swin-
Unet đạt được đ chính xác cao nhất 0,88, cùng với Recall, Precision
và F1 Score lần lượt là 0,96, 0,71, và 0,82. Đi vi việc xác đnh v trí
hình dạng của vùng bất thường, Swin-Unet cũng thể hin hiu sut cao
với mIoU đạt 0,89 mDSC 0,91. Khi chia d liu theo bệnh nhân,
hình Swin-Unet li mt ln na th hin hiu sut tt với độ chính
xác (Accuracy) đt 0,86, cùng với Recall 0,88, Precision 0,79, F1
Score 0,83, n đi với mIoU đạt 0,84 mDSC đạt 0,89. Kết qu
nghiên cứu cho thy hình Swin-Unet kết qu tốt trong bài toán
phát hiện vùng bất thường trên ảnh MRI não.
Ngày hoàn thiện:
10/6/2024
Ngày đăng:
10/6/2024
T KHÓA
Phát hiện vùng bất thưng
Phân đoạn nh y tế
Học sâu
Transformer
Swin-Unet
DOI: https://doi.org/10.34238/tnu-jst.10053
* Corresponding author. Email: tnmthu@ctu.edu.vn
TNU Journal of Science and Technology
229(07): 111 - 120
http://jst.tnu.edu.vn 112 Email: jst@tnu.edu.vn
1. Gii thiu
nh X-quang một ảnh xám đơn lẻ, ảnh MRI não tp hp nhiu ảnh xám, mỗi nh gọi
lát cắt th hin nh chp ti mt v trí cắt ngang của não được th hiện như Hình 1. Tùy vào cấu
hình máy chụp, mi b ảnh MRI thể 16, 32 hoặc 64 lát cắt. Vùng bất thường trên mỗi nh
màu sắc, cấu trúc, hình dạng khác với vùng ảnh thông thường. Để khảo sát các dạng vùng bất
thường khác nhau (các bệnh khác nhau của não), người ta chp với các chuỗi xung khác nhau tạo
ra các bộ ảnh MRI khác nhau như FLAIR, DWI và STIR.
Hình 1. V trí của mt ct MRI trong mt b nh MRI
Ban đầu các phương pháp phát hiện vùng bất thường ch yếu dựa vào các thuật toán máy học
truyn thng [1], [2]. Vi s phát triển của CNN sâu, Unet được đề xut trong [3], [4] để phân
đoạn hình nh. Vi s đơn giản và hiệu sut t tri ca cấu trúc hình ch U, các biến th Unet
được đề xuất như ResNet [5], Unet ++ [6], DenseUNet [7] và 3dUnet [8].
Gần đây, những thành tựu của hình Transformer trong lĩnh vực x ngôn ngữ t nhiên
(NLP) cũng đưc ng dụng trong nh vực th giác máy tính [9]. Trong [10], tác giả đã đề xut
một Transformer tiên phong (ViT) đ phân đoạn hình nh. ViT đạt kết qu nhỉnh hơn so với các
phương pháp dựa trên CNN. Tuy nhiên nhược điểm của ViT hình phải được hun luyn
trưc vi s rt ln d liệu riêng mới đạt kết qu tốt, trong khi khó được d liu ln nh y tế
được gán nhãn sẵn. Khc phục nhược điểm này, các biến th DeiT và Swin Transformer được đề
xuất. Cùng với xu hướng đó, hình Swin Unet Transformer [11] được đề xut để phân đoạn
nh s dng kiến trúc chữ U với Swin Transformer làm bộ hóa kết ni vi b giải CNN
ti các giai đoạn khác nhau thông qua các kết nối. hình được dùng để phân đoạn khối u não
3D đa phương thức vi d liu BraTS 2021.
hình Swin Unet [12] là một Transformer thun của Unet được dùng để phân đoạn nh y tế
vi b d liu Synapse multi-organ segmentation dataset (Synapse) bộ d liu Automated
cardiac diagnosis challenge dataset (ACDC). Synapse dataset b d liu gm 30 b nh CT
bng với 3779 lát cắt, Swin Unet phân đoạn chính xác 79,13%(DSC↑) và 21,55%(HD↓). Khi tác
gi s dụng mô hình Swin-Unet để phân đoạn d liu ACDC (ảnh MRI tim) cho độ chính xác
90% (DSC↑).
Vi s thành công của Unet và các biến th trong bài toán phân đoạn ảnh và sự phát triển ca
Transormer trong lĩnh vực th giác máy tính. hình Unet dựa trên học sâu CNN, hình
Swin-Unet dựa trên Transformer được chúng tôi sử dụng để phát hiện vùng bất thường trên nh
MRI não. Dữ liu thu thp t Bnh viện Trường Đại học Y Dược Cần Thơ kết hp d liu LGG
được tin x lý, chuẩn hóa, được đưa vào thực nghiệm trên các hình Unet, ResNet, Swin-
Unet nhằm tìm ra mô hình hiệu qu cho bài toán phát hiện vùng bất thường trên ảnh MRI não.
Các nội dung tiếp theo của nghiên cứu được đề cập là mô t phương pháp nghiên cứu, các kết
qu được bàn luận chi tiết để t đó đưa ra kết luận và hướng phát triển của nghiên cứu.
TNU Journal of Science and Technology
229(07): 111 - 120
http://jst.tnu.edu.vn 113 Email: jst@tnu.edu.vn
2. Phương pháp nghiên cứu
hình Swin-Unet được áp dụng để phát hiện vùng bất thường trên ảnh MRI não. Bên cnh
đó, các hình học sâu đã được phát triển trước đó như Unet, ResUnet cũng được thc nghim
để so sánh đánh giá với hình SwinUnet. Việc phát hiện vùng bất thường s được đánh giá
thông qua các chỉ s của bài toán phân loại hình nh như: Độ chính xác (accuracy), đ nhy
(Sensitivity), độ đặc hiệu (specifity) và độ F1-Score. Đối với phân đoạn vùng bất thường s được
đánh giá thông qua c ch s Mean Intersection over Union (mIoU), Mean Dice Similarity
Coefficient (mDSC), Mean Precision, và Mean Recall.
2.1. Mô hình Unet
hình Unet áp dụng để so sánh với hình Swin-Unet đề xuất được t trong hình 2.
nh đầu vào kích thước . Phn giải dùng để thu thp ng cảnh các đc
trưng quan trọng t ảnh thông qua các khối giảm kích thước tương ứng vi b lọc có số ng 32,
64, 128 256. Trong mỗi khi giảm kích thước s dng hai lớp tích chập liên tiếp, mi lớp
cùng số ng b lc vi khối đó. Mỗi lớp tích chập theo sau một hàm kích hoạt ReLU lớp
th hai trong mi khối cũng được chuẩn hóa theo BatchNormaliztion. Sau mỗi khi giảm kích
thước, s dng mt lớp MaxPooling2D để giảm kích thước ca bản đồ đặc trưng mt na, và một
lớp Dropout để gim hiện tượng quá mức.
Phần nút cổ chai (Bottleneck): s dng mt chui gm 2 lp tích chập liên tiếp, mi lớp đều
s dng 512 b lc. Theo sau mi lớp tích chập một hàm kích hoạt ReLU. lớp tích chập th
hai có thêm một lp chuẩn hóa BatchNormaliztion.
Hình 2. Kiến trúc mô hình Unet được áp dng trong thc nghim
Phn giải (Decoder) phục hi lại kích thước ban đầu ca ảnh to ra bản đồ phân đoạn.
Chúng tôi s dng bn khối tăng kích thước, tương ng với các bộ lọc số ng 256, 128,
64 32. Bắt đầu bng việc tăng kích thước ca bản đồ đặc trưng s dng lp Conv2Dtranspose
(hay còn gọi deconvolution) với mục đích tái tạo kích thước không gian gần bng vi bn đồ
đặc trưng tương ứng trên phần hóa. Sau khi tăng kích thước, bản đồ đặc trưng từ decoder
được ni vi bản đồ đặc trưng tương ứng t encoder thông qua phép nối (concatenate). Kế đến là
TNU Journal of Science and Technology
229(07): 111 - 120
http://jst.tnu.edu.vn 114 Email: jst@tnu.edu.vn
mt lớp Dropout được s dng. Cuối cùng, áp dng mt khối tích chập kép, mỗi khi bao gm
hai lớp tích chập vi s ng b lc gim dần (256, 128, 64 và 32) và hàm kích hoạt ReLU
Sau quá trình giải , mô hình cuối cùng sử dng mt lớp tích chập vi mt b lọc hàm
kích hoạt sigmoid để to ra bản đ phân đoạn cuối cùng như Hình 2. Bản đồ này dự đoán xác
sut mi pixel thuc v mt lp c th, với kích thước bng vi ảnh đầu vào.
Trong nghiên cứu này, hàm tối ưu hóa Adam với t l học 5e-4 epsilon 1e-5 được s
dng. Kích thước lô (batch_size) đặt là 32. hình tự dng lại sau 150 epoch không có s gim
v val_loss. Hàm mất mát sử dụng để hun luyn trong nghiên cứu này là hàm tversky_loss.
2.2. Mô hình Res-Unet
hình ResUnet bắt đầu vi lớp đầu vào kích thước (256,256,1), sau đó triển khai mt
loạt các khối hóa, mỗi khi bao gồm các lớp tích chập vi chuẩn hóa hàng loạt hàm kích
hot ReLU. Mng bắt đầu vi hai lớp tích chập có 16 bộ lc , sau đó là một kết ni tắt, cũng
vi 16 b lọc nhưng kích thước , nhm cung cp mt dạng kích hoạt ban đầu cho mng.
Tiếp theo, mng s dng ba khối residual trong quá trình mã hóa, mỗi khối tăng gấp đôi số ng
b lc t 32, 64, đến 128, áp dụng strides 2 đ giảm kích thước của đặc trưng. Mỗi khối này
gm hai lớp tích chập vi chuẩn hóa hàng loạt ReLU, một kết ni tắt được thc hin qua
mt lớp ch chập . Phn "cu ni" ca mạng là một khi residual vi 256 b lc
strides=2, ni gia phần hóa giải . Trong phn giải mã, mạng thc hin bốn bước gii
mã, mỗi bước s dng lớp UpSampling2D để tăng kích thước của đặc trưng lớp Concatenate
để kết hợp các đặc trưng từ phần hóa thông qua chế kết ni b qua sau đó một khi
residual, vi s ng b lc gim dn t 128, 64, 32 xung 16.
Cuối cùng, một lớp tích chập vi mt b lọc 1x1 được áp dụng để to ra bản đồ phân đoạn
cuối cùng, sử dụng hàm kích hoạt "sigmoid" cho phép phân loại từng pixel vào một trong các lớp
đích. Kiến trúc ResUNet được thiết kế để tối ưu hóa việc học đặc trưng từ d liệu hình nh, vi
kh năng cải thiện đáng kể độ chính xác của phân đoạn ng nghĩa so với các hình truyền
thng, nh vào sự kết hợp thông minh giữa các khối residual và cơ chế kết ni b qua ca Unet.
Trong nghiên cứu này, hàm tối ưu hóa Adam với t l học 5e-4 epsilon 1e-5 được s
dng. Kích thước lô (batch_size) đặt là 32. Ở đây mô hình tự dng lại sau 150 epoch không có sự
gim v val_loss. Hàm mất mát sử dụng để hun luyn đây là hàm tversky_loss.
2.3. Mô hình Swin-Unet
hình Swin-Unet được cài đặt trong nghiên cứu này là sự kết hp gia cấu trúc của Swin
Transformer [13] như Hình 3 kiến trúc mạng Unet. Mng nhn đầu vào là ảnh kích thước
s dng kiến trúc Swin-T cho b hóa để trích xuất thông tin đặc trưng t
ảnh đầu vào.
Hình 3. Kiến trúc mô hình Swin Transformer phiên bn Swin-T [13]
B hóa trong kiến trúc Swin-Unet s dụng ba giai đoạn đầu tiên của kiến trúc Swin
Transformer phiên bản Swin-T, mỗi giai đoạn chứa các khối Swin Transformer con. Giai đoạn 1
TNU Journal of Science and Technology
229(07): 111 - 120
http://jst.tnu.edu.vn 115 Email: jst@tnu.edu.vn
giai đoạn 2 mỗi giai đoạn cha 2 khối Swin Transformer con, trong khi giai đon 3 cha 6
khối. Các khối này được thiết kế để x lý thông tin đặc trưng từ cấp độ thấp đến cp độ cao, t đó
gim dần kích thước tensor thông qua quá trình Patch Merging.
Nút cổ chai ca mng, nm gia b hóa giải mã, sử dụng giai đoạn 4 ca Swin
Transformer phiên bản Swin-T, giai đoạn độ sâu lớn nht, nhm tối ưu a việc tng hp
thông tin đặc trưng. Nơi đây, thông tin t các lớp mã hóa đưc tng hợp để tạo ra đặc trưng mức
cao nhất trước khi bắt đầu quá trình giải mã.
B giải của hình được xây dựng đối xng vi b hóa, sử dụng các khối Swin
Transformer làm cốt lõi. Trong khi b hóa sử dng lớp Patch Merging để gim dần kích
thước ca bản đồ đặc trưng, bộ giải mã lại áp dụng lớp Patch Expanding để ly mẫu nâng cấp các
đặc trưng sâu. Lớp Patch Expanding này tái cấu trúc các bản đồ đặc trưng kích thước lin k,
chuyển đổi chúng thành bản đồ đặc trưng có độ phân giải cao hơn. Skip connection từ b mã hóa
được tích hợp thông qua lớp Concatenate, kết hợp thông tin đặc trưng từ các cấp độ khác nhau để
h tr qtrình tái cấu trúc ảnh đầu ra. Điều này cho phép hình phc hi chi tiết nh mt
cách chính xác, đồng thời duy trì thông tin quan trng t b hóa Cuối cùng, lớp Dense được
s dụng để chiếu tensor đặc trưng về kích thước ban đầu ca ảnh, và một lp Activation với hàm
kích hoạt 'sigmoid' được áp dụng để to ra bản đồ phân đoạn cuối cùng với kích thước
như Hình 4.
Trong quá trình thiết kế mng Swin-Unet, nghiên cứu đã áp dụng trng s t mô hình Swin
Transformer V2 phiên bản tiny (swin2_tiny_256) làm điểm khởi đầu. hình này, đã được
hun luyện trước trên tp d liu ImageNet, chứa đựng kiến thc v mt loạt đặc trưng mối
quan h giữa các đối tượng trong lĩnh vực th giác máy tính. Sự la chọn này nhằm mục đích tận
dng kiến thức đã học được t mt trong nhng tp d liu lớn đa dạng hin nay, nhm ci
thin kh năng của Swin-Unet trong việc trích xuất thông tin từ hình ảnh, đòi hi s hiu biết sâu
sc v cấu trúc hình thái. Trọng s ca swin2_tiny_256 được áp dụng như điểm khởi đầu
cho b mã hóa của SwinUnet. Điều này bao gồm vic khi tạo các khối Swin Transformer vi
các trọng s đã học được t ImageNet, giúp hình nhanh chóng thích ng vi d liu mới
tiết kiệm đáng kể thi gian cn thiết cho vic hun luyn mng t đầu.
Hình 4. Kiến trúc mô hình Swin-Unet được cài đặt dựa trên mô hình Swin-T