Công nghệ thông tin<br />
<br />
TỔNG QUAN MỘT SỐ NGHIÊN CỨU XÂY DỰNG CÁC THUẬT<br />
TOÁN HỌC SÂU ÁP DỤNG TRONG PHÂN TÍCH ẢNH Y TẾ<br />
Lê Thị Thu Hồng*, Nguyễn Chí Thành , Phạm Thu Hương<br />
Tóm tắt: Hiện nay các thuật toán học sâu (deep learning) đặc biệt là các mạng<br />
nơ ron tích chập (CNN- Convolutional neural networks) là phương pháp được nhiều<br />
nhà nghiên cứu lựa chọn để giải quyết bài toán tự động phân tích ảnh y tế. Bài báo<br />
này sẽ giới tổng quan về các nghiên cứu xây dựng các thuật toán học sâu được sử<br />
dụng cho phân tích ảnh y tế và giới thiệu một số các nghiên cứu áp dụng trên một số<br />
lĩnh vực cụ thể như phân tích ảnh chụp cộng hưởng từ não, phân tích ảnh X vùng<br />
ngực, ảnh huỳnh quang chụp đáy mắt, ảnh nội soi tiêu hóa.<br />
Từ khóa: Học sâu; Mạng nơ-ron tích chập; Phân tích ảnh y tế.<br />
<br />
1. ĐẶT VẤN ĐỀ<br />
Kể từ khi các ảnh y tế có thể quét để lưu trữ trên máy tính các nhà nghiên cứu<br />
đã xây dựng các hệ thống để tự động phân tích ảnh y tế. Bắt đầu từ những năm<br />
1970 tới những năm 1990 các hệ thống tự động phân tích ảnh y tế ứng dụng xử lý<br />
ảnh và áp dụng các mô hình toán học được xây dựng dựa vào hệ thống tập luật để<br />
giải quyết một tác vụ cụ thể nào đó, các hệ thống này còn được gọi là các hệ<br />
chuyên gia. Sau đó các phương pháp học máy trở nên thông dụng trong các hệ<br />
thống phân tích ảnh y tế vào những năm 2000, có sự dịch chuyển từ hệ thống xây<br />
dựng dựa trên các tập luật do chuyên gia con người đưa ra sang hệ thống được<br />
huấn luyện dựa trên dữ liệu, tuy nhiên việc trích xuất các đặc trưng của ảnh đều do<br />
con người can thiệp dựa trên các quan sát về đặc tính riêng của ảnh, các hệ thống<br />
này được gọi là các hệ thống trích rút đặc trưng thủ công.<br />
Trong những năm gần đây các thuật toán học sâu được chú ý nhiều vì đã đạt được<br />
các kết quả rất tốt trong một số các lĩnh vực ứng dụng như nhận dạng khuôn mặt,<br />
nhận dạng ký tự viết tay, phân loại ảnh, phát hiện đối tượng và phân vùng các đối<br />
tượng trên ảnh. Các hệ thống này được xây dựng dựa trên việc máy tính tự học các<br />
đặc trưng bằng thuật toán học sâu. Các thuật toán học sâu mở hướng phát triển rất<br />
tiềm năng cho các ứng dụng phân tích ảnh y tế. Các nghiên cứu xây dựng các thuật<br />
toán học sâu áp dụng cho phân tích ảnh y tế những năm gần đây được đưa ra tại các<br />
hội thảo khoa học và công bố trên các tạp chí khoa học với số lượng tăng khá nhanh.<br />
Hiện tại chủ đề này được nhiều nhóm nghiên cứu trong và ngoài nước tập trung<br />
nghiên cứu và đã đạt được một số kết quả khả quan, tuy nhiên các kết quả đạt được<br />
còn chưa cao do nghiên cứu áp dụng học sâu vào phân tích ảnh y tế là một lĩnh vực<br />
nghiên cứu đa ngành, nó đòi hỏi sự kết hợp chặt chẽ của các nhà nghiên cứu về trí<br />
tuệ nhân tạo và các chuyên gia phân tích chuyển đoán hình ảnh y tế.<br />
Bài báo này sẽ giới thiệu tổng quan các nghiên cứu xây dựng các thuật toán học<br />
sâu sử dụng trong phân tích ảnh y tế. Bài báo được trình bày theo thứ tự sau: Phần<br />
2 giới thiệu các lý thuyết của mạng nơ-ron và các mô hình học sâu. Phần 3 giới<br />
thiệu các nghiên cứu sử dụng các thuật toán học sâu cho các bài toán phân tích ảnh<br />
y tế. Phần 4 giới thiệu các ứng dụng sử dụng học sâu để phân tích ảnh y tế trên các<br />
lĩnh vực ứng dụng cụ thể. Phần 5 tổng kết các khả năng áp dụng, những khó khăn<br />
và hướng phát triển của các nghiên cứu xây dựng các thuật toán học sâu dùng cho<br />
phân tích ảnh y tế.<br />
<br />
<br />
196 L. T. T. Hồng, N. C. Thành, P. T. Hương, “Tổng quan một số nghiên cứu … ảnh y tế.”<br />
Thông tin khoa học công nghệ<br />
<br />
2. TỔNG QUAN VỀ CÁC THUẬT TOÁN HỌC SÂU<br />
2.1. Mạng nơ-ron (Artificial Neural Network) và học sâu (deep learning)<br />
Mạng nơ-ron (Artificial Neural Network- ANN) là một thuật toán học được mô<br />
phỏng dựa trên hoạt động của hệ thống thần kinh của sinh vật, bao gồm số lượng<br />
lớn các nơ-ron được gắn kết để xử lý thông tin. ANN giống như bộ não con người,<br />
được học bởi kinh nghiệm, có khả năng lưu giữ những kinh nghiệm, tri thức và sử<br />
dụng những tri thức đó trong việc dự đoán các dữ liệu chưa biết. Một mạng nơ-ron<br />
bao gồm các nơ-ron hay còn gọi là các đơn vị tính toán (unit), một hàm kích hoạt<br />
(activation) a=σ( )và tập các tham số Ѳ={Ⱳ, B} trong đó W được gọi là<br />
tập các trọng số (weight) của mạng. Mạng nơ-ron gồm nhiều lớp được gọi là MLP<br />
(Multi Layered Peceptrons). Một hạn chế của các kiến trúc MLP nói chung là hàm<br />
mất mát không phải là một hàm lồi, việc tìm nghiệm tối ưu toàn cục cho bài toán<br />
tối ưu hàm mất mát rất khó. Một vấn đề khác là việc huấn luyện MLP không hiệu<br />
quả khi số lượng các lớp ẩn lớn,vấn đề này được gọi là “vanishing gradient”. Để<br />
giúp phần nào tránh được vanishing gradient người ta đưa ra ý tưởng tiền huấn<br />
luyện không giám sát (unsupervised pretraining) trong đó các ma trận trọng số ở<br />
những lớp ẩn đầu tiên được tiền huấn luyện (pretrained). Các trọng số được tiền<br />
huấn luyện này có thể coi là giá trị khởi tạo tốt cho các lớp ẩn phía đầu ra và mạng<br />
nơ-ron nhiều lớp ẩn như vậy được gọi là mạng nơ ron kiến trúc sâu.<br />
<br />
<br />
<br />
<br />
Hình 1. Cấu trúc mạng nơ-ron.<br />
Học sâu (Deep Learning) là một phương pháp của học máy được xây dựng dựa<br />
trên các mạng nơ-ron kiến trúc sâu, có thể hiểu học sâu chính là mạng nơ-ron với<br />
nhiều lớp ẩn. Học sâu cho phép hệ thống được huấn luyện trên một tập dữ liệu có<br />
thể dự đoán được các đầu ra dựa vào một tập các đầu vào, với học sâu thì các đặc<br />
trưng sẽ được trích xuất tự động.<br />
2.2. Mạng nơ- ron tích chập (Convolutional Neural Networks -CNN)<br />
Mạng nơ-ron tích chập (CNN- Convolutional Neural Network) là một trong<br />
những mô hình học sâu tiên tiến giúp cho chúng ta xây dựng được những hệ thống<br />
thông minh với độ chính xác cao như hiện nay như hệ thống xử lý ảnh lớn của<br />
Facebook, Google hay Amazon. CNN dựa trên khái niệm về tích chập<br />
(convolution), tích chập (convolution) là nhân ma trận 3x3 (hoặc 5x5) với ma trận<br />
trượt trên ma trận ảnh đầu vào,giá trị đầu ra do tích các thành phần này cộng lại,<br />
kết quả của tích chập là một ma trận sinh ra từ việc trượt ma trận filter và thực hiện<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 197<br />
Công nghệ thông tin<br />
<br />
tích chập trên toàn bộ ma trận ảnh. CNN là một tập hợp các lớp Convolution chồng<br />
lên nhau và sử dụng các hàm kích hoạt không tuyến tính như ReLU, Tanh để kích<br />
hoạt các trọng số trong các nút. Mỗi một lớp sau khi thông qua các hàm kích hoạt<br />
sẽ tạo ra các thông tin trừu tượng hơn cho các lớp tiếp theo. Ngoài ra có một số lớp<br />
khác như pooling/subsampling dùng để chắt lọc lại các thông tin hữu ích hơn.<br />
Một số kiến trúc mạng CNN nổi tiếng[6]<br />
- LeNet : LeNet là một trong những mạng CNN lâu đời nổi tiếng nhất được<br />
Yann LeCUn phát triển vào những năm 1998s. Cấu trúc của LeNet gồm: 2 lớp<br />
(Convolution + maxpooling) và 2 lớp fully connected và output là softmax layer.<br />
- AlexNet: AlexNet là một mạng CNN đã dành chiến thắng trong cuộc thi<br />
ImageNet LSVRC-2012 năm 2012. AlexNet là một mạng CNN với một số lượng<br />
parameter rất lớn (60 triệu), kiến trúc của Alexnet gồm 5 lớp convolution và 3 lớp<br />
fully connection. Hàm kích hoạt Relu được sử dụng sau mỗi convolution và fully<br />
connection.<br />
- VGG: Sau AlexNet thì VGG ra đời với một số cải thiện hơn,VGG cho tỉ lệ lỗi<br />
thấp hơn AlexNet trong ImageNet Large Scale Visual Recognition Challenge<br />
(ILSVRC) năm 2014. VGG có 2 phiên bản là VGG16 và VGG19. Kiến trúc của<br />
VGG16 bao gồm 16 lớp: 13 lớp Conv (2 lớp conv-conv,3 lớp conv-conv-conv) đều<br />
có kernel 3x3, sau mỗi lớp Conv là maxpooling downsize xuống 0.5, và 3 lớp fully<br />
connection. VGG19 tương tự như VGG16 nhưng có thêm 3 lớp convolution ở 3<br />
lớp conv cuối.<br />
- GoogleNet: Năm 2014, Google công bố một CNN do nhóm nghiên cứu của họ<br />
phát triển có tên là GoogleNet. GoogleNet gồm 22 lớp, khởi đầu vẫn là những lớp<br />
convolution đơn giản, tiếp theo là những block của Inception module với<br />
maxpooling theo sau mỗi block, nó sử dụng 9 Inception module trên toàn bộ và<br />
không sử dụng fully connection layer mà thay vào đó là average pooling làm giảm<br />
thiểu được rất nhiều số lượng tham số.<br />
-ResNet: ResNet được phát triển bởi Microsoft năm 2015. ResNet thắng tại<br />
ImageNet ILSVRC competition 2015 với tỉ lệ lỗi 3.57%, ResNet có cấu trúc gần<br />
giống VGG với nhiều lớp làm cho mô hình sâu hơn. ResNet có kiến trúc gồm<br />
nhiều residual block, y tưởng của residual block là feed foward đầu vào x qua một<br />
số layer conv-max-conv, ta thu được đầu ra F(x) sau đó thêm x vào đầu ra H(x) =<br />
F(x) + x .<br />
3. HỌC SÂU SỬ DỤNG TRONG PHÂN TÍCH ẢNH Y TẾ<br />
Phần này giới thiệu các nghiên cứu các thuật toán học sâu cho các bài toán phân<br />
tích ảnh y tế, bao gồm phân loại (classification), phát hiện đối tượng (detect<br />
object), phân vùng ảnh (segmentation). Ngoài ra chúng ta còn có thể xây dựng các<br />
thuật học sâu cho một số các bài toán khác biến đổi ảnh (registration), tổng hợp<br />
ảnh (retrieval), tuy nhiên đây là những bài toán khó và chưa có nhiều các nghiên<br />
cứu được thực hiện để giải quyết những bài toán này.<br />
3.1. Phân loại ( Classification)<br />
3.1.1. Phân loại ảnh (Image classification)<br />
<br />
<br />
<br />
198 L. T. T. Hồng, N. C. Thành, P. T. Hương, “Tổng quan một số nghiên cứu … ảnh y tế.”<br />
Thông tin khoa học công nghệ<br />
<br />
Phân loại ảnh là bài toán trong phân tích ảnh y tế mà học sâu đem lại kết quả tốt<br />
nhất. Với bài toán phân loại ảnh trong phân tích ảnh y tế, đầu vào là một hoặc<br />
nhiều ảnh chụp một vùng nào đó của cơ thể, đầu ra là chẩn đoán mắc hoặc không<br />
mắc một căn bệnh nào đó. Tập dữ liệu huấn luyện trong bài toán phân loại ảnh y tế<br />
thường có kích thước không lớn, do đó các nghiên cứu giải quyết bài toán này<br />
thường sử dụng các thuật toán học chuyển giao (Tranfer learning) tức là sử dụng<br />
các mạng nơ-ron đã được huấn luyện trước (pretrained-network) trước trên tập dữ<br />
liệu ảnh lớn như ImageNet và đưa vào thêm các kỹ thuật khác để giải quyết bài<br />
toán. Ngoài hướng tiếp cập dùng tranfer learning, một số nhóm nghiên cứu tự xây<br />
dựng các cấu trúc mạng CNN riêng dùng cho bài toán riêng. Ví dụ nhóm tác giả<br />
Mina Rezaei, Haojin Yang, Christoph Meinel [4] xây dựng một mạng CNN để<br />
phân loại ảnh cộng hưởng từ não (MRI não) xác định các tổn thương vùng não.<br />
Kiến trúc bao gồm 7 lớp trong đó 3 lớp polling nhằm giảm đáng kể kích thước của<br />
véc tơ đặc trưng. Sau lớp conv7 là 3 lớp 7th fully-connected gồm 4096 neural, cuối<br />
cùng áp dụng chuẩn hóa sau lớp full-connected cuối để giảm overfitting.<br />
<br />
<br />
<br />
<br />
Hình 2. Kiến trúc mạng phân loại ảnh MRI.<br />
3.1.2. Phân loại các đối tượng trên ảnh (Object or lesion classification)<br />
Bài toán phân loại đối tượng trên ảnh tập trung vào phân loại một phần ảnh, ví<br />
dụ: phân loại các đối tượng bất thường trên ảnh chụp CT vùng ngực để xác định<br />
các u bứu ở vùng ngực. Trong bài toán này cả thông tin cục bộ về sự xuất hiện các<br />
đối tượng bất thường và thông tin tổng thể ảnh cần được phân tích. Do đó người ta<br />
thường sử dụng kiến trúc multi-stream để giải quyết bài toán. Ví dụ nhóm<br />
Kawahara and Hamarneh(2016) đã sử dụng multi-stream CNN để phân loại các<br />
vết tổn thương bề trên da, các stream xử lý ảnh với độ phân giải khác nhau. Gao et<br />
al. (2015) đề xuất mô hình kết hợp CNNs và RNNs để xây dựng hệ thống xác định<br />
bệnh đục thủy tinh thể dựa trên ảnh chụp huỳnh quang mắt, trong đó CNN filters là<br />
các mạng huấn luyện sẵn. Sự kết hợp này cho phép xử lý tất các các thông tin<br />
chung tổng quan của ảnh mà không quan tâm đến kích thước ảnh.<br />
3.2. Xác định các đối tượng trên ảnh (Object Detection)<br />
3.2.1. Xác định vị trị các bộ phận của cơ thể hoặc các vùng cơ thể<br />
Xác định các bộ phận cơ thể, các vùng cơ thể là bước quan trọng của phân tích<br />
ảnh y tế. Để xác định vị trí các đối tượng ta cần phải phân tích các ảnh 3D, có hai<br />
hướng tiếp cận để phân tích các ảnh 3D xác định vị trí đối tượng giải phẫu trên ảnh<br />
y tế được đề xuất bao gồm: Một là xem ảnh 3D là tập hợp của các ảnh 2D theo một<br />
các lát cắt trực giao, sau đó xác định vị trí vật thể trên ảnh 2D, đây là phương pháp<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 199<br />
Công nghệ thông tin<br />
<br />
phổ biến hiện nay cho các kết quả khá tốt. Hai là xây dựng các mạng CNN riêng<br />
trực tiếp áp dụng cho ảnh 3D, các phương pháp này khá phức tạp yêu cầu khối<br />
lượng tính toán lớn.<br />
3.2.2. Phát hiện các đối tượng hoặc các vùng dị thường<br />
Việc phát hiện các đối tượng cần quan tâm hoặc các vùng dị thường trong<br />
các ảnh y tế là một phần rất quan trọng trong chẩn đoán bệnh và là một việc khó<br />
khăn của các của các bác sỹ. Về cơ bản phát hiện các vùng dị thường chính là xác<br />
định vị trí và nhận biết các vùng bất thường nhỏ trong một không gian ảnh lớn. Ví<br />
dụ: phát hiện các khối u tế bào trong các ảnh chụp cộng hưởng từ não, phát hiện ra<br />
các vết tụ máu chảy trong các ảnh chụp cộng hưởng từ não, Phát hiện các khối u<br />
trong ảnh chụp X quang vùng ngực. Phần lớn các thuật toán được công bố hiện<br />
nay đều sử dụng các kiến trúc mạng CNN để thực hiện phân loại đối tượng sau đó<br />
là các bước xử lý để xác định được các đối tượng. Dưới đây trình bày ví dụ một<br />
kiến trúc được sử dụng để xây dựng hệ thống phát hiện dị thường trên não dựa trên<br />
ảnh cộng hưởng từ não của nhóm tác giả Mina Rezaei, Haojin Yang, Christoph<br />
Meinel [4]<br />
<br />
<br />
<br />
<br />
Hình 3. Kiến trúc mạng phát hiện vùng bất thường trên ảnh MRI não.<br />
Hệ thống sử dụng đồng thời hai kiến trúc mạng: Kiến trúc thứ nhất là một<br />
mạng CNN để trích rút các đặc trưng của toàn bộ ảnh. Kiến trúc thứ hai là sự kết<br />
hợp của một mạng Fast R-CNN để nhận dạng các vùng cần quan tâm và một mạng<br />
VGG-16 được tinh chỉnh lại để trích rút các đặc trưng cục bộ ở các vùng. Ứng<br />
dụng này được các tác giả áp dụng với tập dữ liệu BRATS-2015 gồm 220 người<br />
bệnh mắc khối u và 54 người bệnh không mắc khối u, tỉ lệ phát hiện đạt được độ<br />
chính xác 94.3 %.<br />
3.3. Phân đoạn đối tượng trên ảnh (Segmentation)<br />
Phân đoạn trong phân tích ảnh y tế thường có hai dạng: một là phân đoạn các bộ<br />
phận cơ thể hoặc các cấu trúc nhỏ trên ảnh, hai là phân đoạn các vùng bị tổn<br />
thương hoặc bất thường trên ảnh. Phân đoạn các bộ phận cơ thể hoặc các cấu trúc<br />
trong ảnh y tế được dùng để phân tích các tham số liên quan kích thước và hình<br />
dạng của các bộ phận. Phân đoạn các vùng bị tổn thương hoặc bất thường là sự kết<br />
hợp của phát hiện đối tượng và phân đoạn đối tượng trên ảnh dựa vào các đặc<br />
trưng riêng biệt của các vùng bất thường. Có một số phương pháp được sử dụng<br />
cho phân đoạn đối tượng, đa số đều trúc CNN và RNN. Gần đây một kiến trúc khá<br />
thành công là U-net được sử dụng khá phổ biến trong tác vụ phân đoạn.<br />
<br />
<br />
<br />
200 L. T. T. Hồng, N. C. Thành, P. T. Hương, “Tổng quan một số nghiên cứu … ảnh y tế.”<br />
Thông tin khoa học công nghệ<br />
<br />
4. MỘT SỐ NGHIÊN CỨU ỨNG DỤNG PHÂN TÍCH ẢNH Y TẾ<br />
SỬ DỤNG CÁC THUẬT TOÁN HỌC SÂU<br />
Phân tích hình ảnh não: Các nghiên cứu ứng dụng phân tích hình ảnh não hiện<br />
nay đa số tập trung vào sử dụng các thuật toán phân loại ảnh để chẩn đoán các<br />
bệnh về não ví dụ như bệnh Alzheimer. Một số các nghiên cứu khác lại theo hướng<br />
sử dụng phát hiện và phân đoạn đối tượng để phát hiện các khối u và các vùng dị<br />
thường trên não. Hiện nay phần lớn các nghiên cứu đều xây dựng các thuật toán<br />
học sâu trên tập ảnh chụp cộng hưởng từ (MRI) và sử dụng kiến trúc mạng CNN.<br />
Bảng 1. Một số công trình nghiên cứu thuật toán học sâu<br />
áp dụng phân tích ảnh não.<br />
Nhóm tác giả Công trình<br />
Shi, J., Zheng, X., Li, Y., Multimodal neuroimaging feature learning with multimodal<br />
Zhang, Q., Ying, S., Jan. 2017 stacked deep polynomial networks for diagnosis of<br />
Alzheimer’s disease<br />
Sarraf, S., Tofighi, G., 2016 Classification of Alzheimer’s disease using fMRI data and<br />
deep learning convolutional neural networks<br />
Van der Burgh, H. K., Deep learning predictions of survival based on MRI in<br />
Schmidt, R., Westeneng, H.-J., amyotrophic lateral sclerosis<br />
de Reus, 2017<br />
Kamnitsas, K., Ledig, C., Efficient multi-scale 3D CNN with fully connected CRF for<br />
Newcombe, V. F., Simpson, J. accurate brain lesion segmentation<br />
P., Kane, A. D., 2017<br />
Phân tích ảnh phản quang chụp đáy mắt: Một bài toán được các nghiên cứu<br />
hướng tới khá nhiều là phát hiện màng phủ đáy mắt của các bệnh nhân do biến<br />
chứng bệnh tiểu đường dựa trên phân tích ảnh màu phản quang chụp đáy mắt (CFI)<br />
chụp đáy mắt. Để thực hiện bài toán này các nghiên cứu tập trung vào sử dụng<br />
mạng CNN để phân tích ảnh CFI, sử dụng detection, segmentation để phát hiện các<br />
dị thường ở võng mạc và chẩn đoán bệnh về mắt.<br />
Bảng 2. Một số công trình nghiên cứu thuật toán học sâu<br />
áp dụng phân tích ảnh vùng mắt.<br />
Nhóm tác giả Công trình<br />
Zilly, J., Buhmann, J. M., Glaucoma detection using entropy sampling and ensemble<br />
Mahapatra, D., 2017 learning for automatic optic cup and disc segmentation<br />
Gulshan, V., Peng, L., Coram, Development and validation of a deep learning algorithm for<br />
M., Stumpe, M. C., Wu., detection of diabetic retinopathy in retinal fundus photographs<br />
Narayanaswamy , 2016<br />
Worrall, D. E., Wilson, C. M., Automated retinopathy of prematurity case detection with<br />
Brostow, G. J., 2016 convolutional neural networks<br />
Maninis, K.-K., Pont-Tuset, J., Deep retinal image understanding: Segmentation of blood<br />
Arbelaez, P., Gool, L., 2016 vessels and optic disk; VGG-19 network extended with<br />
specialized layers for each segmentation task<br />
<br />
<br />
Phân tích ảnh vùng ngực: Các nghiên cứu phân tích ảnh vùng ngực hiện nay chủ<br />
yếu tập trung vào phân tích ảnh X quang ngực sử dụng classification và detection<br />
để phát hiện các khối u, chẩn đoán các bệnh về phổi, tim mạch.<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 201<br />
Công nghệ thông tin<br />
<br />
Bảng 3. Một số công trình nghiên cứu thuật toán học sâu<br />
áp dụng phân tích ảnh vùng ngực.<br />
Nhóm tác giả Công trình<br />
Rajkomar, A., Lingam, S., High-throughput classification of radiographs using deep<br />
Taylor, A. G., Blum, M., convolutional neural networks<br />
Mongan, J., 2017<br />
Christodoulidis,Anthimopoulos, Multi-source transfer learning with convolutional neural<br />
Ebner, L., Christe, A., 2017 networks for lung pattern analysis<br />
Shin, H.-C., Roberts, K., Lu, L., Learning to read chest x-rays: Recurrent neural cascade<br />
Demner-Fushman, D., 2016 model for automated image annotation, CNN detects 17<br />
diseases, large data set (7k images)<br />
Dou, Q., Chen, H., Yu, L., Qin, Multi-level contextual 3D CNNs for false positive reduction<br />
J., Heng, P. A., 2016 in pulmonary nodule detection<br />
<br />
Phân tích ảnh nội soi tuyến tiêu hóa: Các nghiên cứu phân tích ảnh nội soi tuyến<br />
tiêu hóa chủ yếu xây dựng các thuật toán phát hiện các đối tượng bất thường trên<br />
các ảnh được cắt từ các video do camera nội soi thu được. Các bất thường có thể là<br />
các u, polyp, các vết viêm loét hoặc xuất huyết.<br />
Bảng 4. Một số công trình nghiên cứu thuật toán học sâu<br />
áp dụng phân tích ảnh nội soi tuyến tiêu hóa.<br />
Nhóm tác giả Công trình<br />
Younghak shin, Hemin ali Abnormal Colon Polyp Image Synthesis Using Conditional<br />
qadir, Ilangko balasingham, Adversarial Networks for Improved Detection Performance<br />
2018<br />
N. Tajbakhsh, S. Gurudu, and J. Automated polyp detection in colonoscopy videos using<br />
Liang, 2016 shape and context information<br />
S. Park, M. Lee, and N. Kwak, Polyp detection in colonoscopy videos using deeply-learned<br />
2016 hierarchical features<br />
Ruikai Zhang , Yali Zheng , Polyp Detection during Colonoscopy using a Regression-<br />
Carmen C.Y. Poon , Dinggang based Convolutional Neural Network with a Tracker<br />
Shen, James Y.W. La, 2017<br />
<br />
Ngoài các nghiên cứu ứng dụng phân tích ảnh các vùng cơ thể kể trên còn có<br />
các ứng dụng phân tích ảnh tim mạch (cardiac), hệ cơ xương (musculoskeletal) để<br />
chẩn đoán các bệnh có liên quan khác.<br />
5. KẾT LUẬN<br />
Qua phần nghiên cứu tổng quan đã trình bày chúng ta thấy các thuật toán học<br />
sâu có thể được áp dụng ở tất cả các khía cạnh trong phân tích ảnh y tế và hiện tại<br />
CNN là kiến trúc đạt hiệu quả cao nhất cho các bài toán phân tích ảnh y tế. Các<br />
thuật toán học sâu được xây dựng để áp dụng cho phân tích ảnh y tế hiện nay đi<br />
theo hai hướng tiếp cận chính: thứ nhất là sử dụng các mạng CNN huấn luyện<br />
trước và điều chỉnh lại để phù hợp với tập dữ liệu ảnh y tế được áp dụng, thứ hai là<br />
xây dựng các mạng CNN riêng và huấn luyện mạng trực tiếp trên tập dữ liệu ảnh<br />
mẫu của bài toán áp dụng. Kiến trúc mạng là yếu tố đầu tiên quyết định hiệu quả<br />
của thuật toán đối với cho các bài toán phân tích ảnh y tế, tuy vậy kiến trúc mạng<br />
không phải là yếu tố duy nhất quyết định việc đạt hiệu quả cao trong giải quyết các<br />
<br />
<br />
202 L. T. T. Hồng, N. C. Thành, P. T. Hương, “Tổng quan một số nghiên cứu … ảnh y tế.”<br />
Thông tin khoa học công nghệ<br />
<br />
bài toán, các kỹ thuật tiền xử lý dữ liệu và tăng cường dữ liệu cũng là một trong<br />
những yếu tố ảnh hưởng đến kết quả của các giải pháp, ngoài ra còn có các yếu tố<br />
khác như kích thước đầu vào của mạng, các tham số tối ưu mạng ví dụ learning<br />
rate, drop out rate…<br />
Khi xây dựng các thuật toán học sâu áp dụng cho phân tích ảnh y tế một khó<br />
khăn lớn nhất là sự thiếu hụt các tập dữ liệu huấn luyện đủ lớn. Các hệ thống<br />
PACS hiện nay đã được sử dụng rộng rãi trong các hệ thống y tế và chúng đã lưu<br />
trữ một lượng ảnh y tế rất lớn tuy nhiên khó khăn gặp phải là việc gán nhãn cho<br />
các tập dữ liệu ảnh này. Gán nhãn cho các dữ liệu ảnh y tế phải được thực hiện bởi<br />
các chuyên gia chẩn đoán hình ảnh ở các lĩnh vực riêng và tốn rất nhiều công sức,<br />
thời gian. Một khó khăn khác liên quan đến dữ liệu là các bộ dữ liệu ảnh y tế là<br />
những bộ dữ liệu không cân bằng tức là số lượng ảnh cho các trường hợp mắc<br />
bệnh ít hơn rất nhiều so với số lượng ảnh cho các trường hợp không mặc bệnh, do<br />
đó thuật toán có thể cho hiệu quả rất tốt trên tập dữ liệu thử nghiệm, nhưng lại có<br />
thể sai cho các trường hợp thực tế ít gặp trong tập dữ liệu mẫu. Ngoài ra trong lĩnh<br />
vực y tế, việc chẩn đoán bệnh không chỉ các thông tin được trích rút qua phân tích<br />
ảnh y tế mà còn phải dựa vào các thông tin khác của người bệnh ví dụ như độ tuổi,<br />
chiều cao, cân nặng, tiền sử bệnh, các biểu hiện lâm sàng… Do đó các nhà nghiên<br />
cứu trong khi xây dựng các thuật toán học sâu cần phải kết hợp cả các thông tin<br />
bệnh nhân và các ảnh y tế để làm đầu vào cho các thuật toán, khó khăn khi giải<br />
quyết vấn đề kết hợp này là cần phải cân bằng giữa các đặc trưng ảnh (có thể lên<br />
tới hàng hàng nghìn đặc trưng) và các đặc trưng mang thông tin bệnh nhân (chỉ<br />
khoảng vài chục thông tin).<br />
Xem xét xu hướng phát triển của các thuật toán học sâu hiện tại và nguồn dữ<br />
liệu ảnh y tế chúng ta có thể xác định hướng phát triển cho các thuật toán học sâu<br />
áp dụng cho phân tích ảnh y tế trong tương lai có thể là các thuật toán học không<br />
giám sát. Các thuật toán học sâu không giám sát có điểm lợi thế rất phù hợp với dữ<br />
liệu ảnh y tế là chúng có thể phân tích trên một tập dữ liệu ảnh lớn không cần gán<br />
nhãn để tìm ra được các tri thức ẩn sâu trong dữ liệu.<br />
TÀI LIỆU THAM KHẢO<br />
[1]. Geert Litjens, Thijs Kooi, Babak Ehteshami Bejnordi, Arnaud Arindra<br />
Adiyoso Setio, Francesco Ciompi, Mohsen Ghafoorian, Jeroen A.W.M. van<br />
der Laak, Bram van Ginneken, Clara I. Sanchez. (2017). A Survey on Deep<br />
Learning in Medical Image Analysis. arXiv:1702.05747.<br />
[2]. Rajpurkar P, Irvin J, Ball RL, Zhu K, Yang B, Mehta H, et al. (2018). Deep<br />
learning for chest radiograph diagnosis. PLoS Med 15(11): e1002686.<br />
https://doi.org/10.1371/journal.pmed.1002686<br />
[3]. Mina Rezaei, Haojin Yang, Christoph Meinel. 2017. Deep Learning for<br />
Medical Image Analysis. arXiv:1708.08987<br />
[4]. Shen, W., Zhou, M., Yang, F., Yang, C., Tian, J., 2015. Multi-scale<br />
convolutional neural networks for lung nodule classification. In: Inf Process<br />
Med Imaging. Vol. 9123 of Lect Notes Comput Sci.pp. 588–599J.<br />
<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 203<br />
Công nghệ thông tin<br />
<br />
[5]. Bernal et al.,2017. ‘‘Comparative validation of polyp detection methods in<br />
video colonoscopy: Results from the MICCAI 2015 endoscopic vision<br />
challenge,’’ IEEE Trans. Med. Imag., vol. 36, no. 6, pp. 1231–1249.<br />
[6]. https://www.coursera.org/specializations/deep-learning;<br />
ABSTRACT<br />
AN OVERVIEW OF STUDIES ON DEEP LEARNING<br />
IN MEDICAL IMAGE ANALYSIS<br />
Deep learning algorithms, in particular convolutional neural networks,<br />
have rapidly become a methodology of choice for analyzing medical images.<br />
This article will provide an overview of the studies on deep learning<br />
algorithms used for medical imaging analysis. It also introduces some<br />
studies applied in specific areas such as brain magnetic resonance imaging,<br />
chest X-ray image, abdominal region endoscopy, colono-scopy.<br />
Keywords: Deep learning; Convolutional neural networks; Medical imaging.<br />
<br />
Nhận bài ngày 26 tháng 12 năm 2018<br />
Hoàn thiện ngày 10 tháng 3 năm 2019<br />
Chấp nhận đăng ngày 25 tháng 3 năm 2019<br />
<br />
Địa chỉ: Viện Công nghệ thông tin/Viện Khoa học và Công nghệ quân sự.<br />
*<br />
Email: lethithuhong1302@gmail.com.<br />
<br />
<br />
<br />
<br />
204 L. T. T. Hồng, N. C. Thành, P. T. Hương, “Tổng quan một số nghiên cứu … ảnh y tế.”<br />