Sử dụng mô hình học sâu trong hỗ trợ xác định vị trí các nốt phổi trên ảnh cắt lớp vi tính

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:7

Thêm vào BST

Báo xấu

35
lượt xem 5
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết trình bày việc tiến hành thử nghiệm các phương pháp xác định vị trí nốt phổi trên ảnh cắt lớp vi tính dựa trên các kiến trúc học sâu tiên tiến, bao gồm Faster R-CNN, YOLOv3 và RetinaNet. Các kết quả thực nghiệm cho thấy sử dụng phương pháp RetinaNet cho kết quả tốt nhất giúp xác định vị trí nốt phổi trên ảnh chụp cắt lớp vi tính.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Sử dụng mô hình học sâu trong hỗ trợ xác định vị trí các nốt phổi trên ảnh cắt lớp vi tính

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020 DOI: 10.15625/vap.2020.00209 SỬ DỤNG MÔ HÌNH HỌC SÂU TRONG HỖ TRỢ XÁC ĐỊNH VỊ TRÍ CÁC NỐT PHỔI TRÊN ẢNH CẮT LỚP VI TÍNH Trần Giang Sơn1,*, Herbreteau Tom1, Nguyễn Chí Cường1, Nghiêm Thị Phương1 Đỗ Oanh Cường1, 2, Nguyễn Huy Đức2 1 ICTLab, Trường Đại học Khoa học và Công nghệ Hà Nội, Viện Hàn lâm Khoa học và Công nghệ Việt Nam 2 DS Lab - Khoa Công nghệ thông tin, Trường Đại học Thuỷ Lợi tran-giang.son@usth.edu.vn, herbreteau.tomh@gmail.com, cuongnc@st.usth.edu.vn, nghiem-thi.phuong@usth.edu.vn, cuongdo@tlu.edu.vn, ducnghuy@tlu.edu.vn TÓM TẮT: Ung thư phổi là loại ung thư chiếm hàng đầu về tỷ lệ mắc và tử vong trên toàn thế giới. Tuy nhiên, ung thư phổi nếu được phát hiện sớm thì cơ hội chữa khỏi rất cao. Các mô hình học sâu có thể hỗ trợ xác định vị trí các nốt phổi trên ảnh chụp cắt lớp vi tính một cách hiệu quả. Trong bài báo này, chúng tôi tiến hành thử nghiệm các phương pháp xác định vị trí nốt phổi trên ảnh cắt lớp vi tính dựa trên các kiến trúc học sâu tiên tiến, bao gồm Faster R-CNN, YOLOv3 và RetinaNet. Các kết quả thực nghiệm cho thấy sử dụng phương pháp RetinaNet cho kết quả tốt nhất giúp xác định vị trí nốt phổi trên ảnh chụp cắt lớp vi tính. Từ khóa: Ung thư phổi, nốt phổi, học sâu, ảnh cắt lớp vi tính. I. GIỚI THIỆU Ung thư phổi (UTP) là bệnh lý ác tính xuất phát từ biểu mô niêm mạc phế quản, phế nang, từ các tuyến của phế quản hoặc từ các thành phần khác của phổi. UTP là loại ung thư chiếm vị trí hàng đầu về tỷ lệ mắc cũng như tỷ lệ tử vong trên toàn thế giới. Theo các thống kê gần đây của hiệp hội quốc tế về nghiên cứu ung thư (IARC) và cơ sở dữ liệu GLOBOCAN 2018 [1], ung thư phổi và ung thư vú ở nữ giới đang dẫn đầu về số ca được chẩn đoán mắc mới; với mỗi loại, ước tính khoảng 2,09 triệu ca mắc mới được phát hiện trong năm 2018, chiếm đến 11,6 % tất cả các loại ung thư. Ung thư phổi cũng là loại ung thư gây tử vong nhiều nhất (1,76 triệu ca tử vong, chiếm 18,4 % tất cả các loại ung thư). Ở Việt Nam, trong năm 2018, ung thư phổi chiếm vị trí số hai cả về số ca mắc mới (23.667 ca, chiếm 14,4 % tổng số ca mới mắc) và số ca tử vong (20.710 ca, chiếm 18,0% tổng số ca tử vong) [1]. Ung thư phổi chia làm hai dạng chính là ung thư phổi tế bào nhỏ, chiếm 15 % và ung thư phổi không tế bào nhỏ, chiếm 85 %. Loại không tế bào nhỏ ở giai đoạn sớm có tỷ lệ khỏi bệnh cao, 92 % sống 5 năm nếu khối u kích thước dưới 1 cm, 1 % sống sau 5 năm nếu di căn xa. Tuy nhiên theo đánh giá của giới chuyên môn thì ở nước ta hầu hết các bệnh nhân khi được phát hiện bệnh ung thư phổi đều đã ở những giai đoạn cuối, ít có khả năng chữa khỏi bệnh hoàn toàn. Tuy nhiên, ung thư phổi nếu được phát hiện sớm thì cơ hội chữa khỏi rất cao, có thể lên đến 90 %. Chính vì vậy, việc phát hiện và nhận dạng vị trí khối u ở giai đoạn đầu là hết sức cần thiết, có thể giảm được tỷ lệ tử vong cho người bệnh. Các mô hình học máy, học sâu đang được coi là công cụ chính hỗ trợ các bác sĩ trong việc phát hiện và nhận dạng vị trí các nốt, khối u phổi trên các phim chụp X quang, cắt lớp vi tính. Phim chụp X quang đã được sử dụng từ lâu trong chẩn đoán ung thư phổi và hiện vẫn đang được sử dụng ở nhiều cơ sở y tế. Tuy nhiên, các bác sĩ X quang rất khó có thể phát hiện và chẩn đoán ung thư phổi do các hình ảnh thu được trên phim X quang phổi thường có nhiều mô nằm chồng lên nhau, sự hiện diện của các khối u ung thư cũng thường bị che khuất bởi xương sườn, phế quản, mạch máu và các cấu trúc giải phẫu bình thường khác. Ngoài ra, bóng của các khối u ung thư trên phim chụp X quang cũng thường mơ hồ và có xu hướng bị bỏ sót [2]. Với ảnh chụp cắt lớp vi tính (CLVT), nốt trong phổi thường được phát hiện với hình ảnh một “đốm trắng” hoặc một “bóng mờ” trên phổi, có dạng hình tròn và có mật độ chắc hơn so với nhu mô phổi bình thường. Các nốt trong phổi thường là các vết sẹo của nhu mô phổi do tình trạng nhiễm trùng không triệu chứng đã tự lành trước đó hoặc do các chất kích thích trong không khí. Nốt trong phổi cũng có thể là biểu hiện của ung thư phổi giai đoạn sớm (với các nốt có kích thước < 30 mm). Với các nốt có kích thước >= 30 mm còn được gọi là khối u phổi. Ảnh chụp CLVT đa dãy lồng ngực được thực hiện với các lát cắt mỏng 3-5 mm, tái tạo và dựng hình, có độ phân giải cao, cho phép phát hiện và chẩn đoán các tổn thương có kích thước nhỏ trên phổi [3]. Điều này đã khiến cho chụp CLVT được sử dụng chính trong chẩn đoán ung thư phổi ở giai đoạn sớm. Việc ứng dụng các mô hình học máy, học sâu trong hỗ trợ các bác sĩ trong việc phát hiện và nhận dạng vị trí các nốt phổi đã được các nhà khoa học trong và ngoài nước quan tâm nghiên cứu. Chẳng hạn, Huang và cộng sự [4] đề xuất sử dụng phương pháp mô hình hoá nốt và mạch máu trên mô hình suy diễn Bayes, kết hợp với một mạng nơron tích chập (Convolutional Neural Network - CNN) 3 chiều phục vụ bước phân loại ứng viên là nốt phổi hay không. Các tác giả khác như Winkels và Taco [5] đề xuất sử dụng phương pháp dịch chuyển roto nhóm tích chập 3 chiều (3D roto- translation group convolutions) không những cải thiện so với mô hình CNN thông thường về độ chính xác, độ nhạy mà cả về tốc độ huấn luyện và tốc độ hội tụ. Tuy ở thế giới có nhiều nghiên cứu về ứng dụng các mô hình học sâu cho bài toán xác định và nhận dạng các nốt phổi trên ảnh cắt lớp vi tính, ở Việt Nam các nghiên cứu theo hướng này còn rất * Tác giả liên hệ: Trần Giang Sơn, tran-giang.son@usth.edu.vn.
Trần Giang Sơn, Herbreteau Tom, Nguyễn Chí Cường, Nghiêm Thị Phương, Đỗ Oanh Cường, Nguyễn Huy Đức 525 nhiều hạn chế, gây khó khăn cho việc có thể phát triển các phần mềm tự động xác định và nhận dạng nốt phổi để hỗ trợ các bác sĩ. Vì lý do trên, đóng góp chính của bài báo là trình bày việc áp dụng các mô hình học sâu tiên tiến trong việc phát hiện và nhận dạng vị trí các nốt phổi trên ảnh chụp cắt lớp vi tính, từ đó chọn ra phương pháp tối ưu nhất. Ý nghĩa của nghiên cứu này sẽ hỗ trợ có hiệu quả trong việc xây dựng hệ thống sàng lọc sớm ung thư phổi ở Việt Nam. Phần tiếp theo của bài báo được tổ chức như sau: trong phần II, chúng tôi trình bày mô hình học sâu sử dụng trong nghiên cứu này. Phần III trình bày một số kết quả được thực hiện trên bộ dữ liệu thực và đánh giá hiệu năng của các mô hình học sâu đã trình bày. Cuối cùng, phần IV kết luận và trình bày các hướng phát triển trong thời gian tới. II. MỘT SỐ MÔ HÌNH HỌC SÂU 2.1. Bài toán xác định vị trí nốt phổi trên ảnh cắt lớp vi tính Bài toán xác định vị trí nốt phổi trên ảnh CLVT (Hình 1) bắt nguồn từ bài toán tìm kiếm các đối tượng trong ảnh, mở rộng cho trường hợp dữ liệu là ảnh chụp CLVT. Bài toán tìm kiếm vị trí các nốt phổi trên ảnh CLVT có đầu vào là ảnh CLVT (cột trái), đầu ra là danh sách các đường bao (bounding box) quanh các ứng viên là nốt phổi có thể có trong ảnh (cột phải). Với mỗi đường bao, mô hình xác định vị trí nốt phổi (cột giữa) cũng đưa ra dự đoán (dưới dạng xác suất) xem đối tượng trong đường bao có phải nốt phổi không. Đây là bài toán học có giám sát (supervised learning). Mô-đun Môđun phát hiệnvàvà phát hiện nhận dạng vị trí, kích nhận dạng vị trí, kích thước nốt, khối u phổi thước nốt, khối u phổi Ảnh CLVT Hình 1. Bài toán xác định nốt phổi trên ảnh CLVT. 2.2. Một số mô hình học sâu trong giải bài toán xác định vị trí nốt phổi trên ảnh cắt lớp vi tính a. Mô hình Faster R-CNN Faster R-CNN (Faster Region-based Convolutional Neural Network) [6] là mô hình tìm kiếm và nhận dạng đối tượng khá phổ biến của học sâu dựa trên việc xác định các “Đề xuất vùng” (Region Proposal). Mỗi region proposal là một hình chữ nhật (tương tự bounding box) có thể chứa các đối tượng cần tìm kiếm. Faster R-CNN là sự kết hợp của mạng nơ ron tích chập (Convolutional Neural Network - CNN) và mạng đề xuất vùng (Region Proposal Network - RPN) (Hình 2). Cụ thể, từ ảnh đầu vào, mạng CNN cho ra bản đồ đặc trưng (Feature map) chứa các đặc tính của ảnh. Các vùng đề xuất (Region proposal) sau đó được lấy ra tương ứng từ bản đồ đặc trưng sử dụng mạng đề xuất vùng (RPN). Mạng RPN tính toán các vùng đề xuất dùng một hệ thống “neo” gọi là anchors. Mỗi neo là tâm của cửa sổ trượt (Sliding window). Khi trượt cửa sổ, có chín khả năng của vùng đề xuất với ba dạng và ba tỉ lệ khác nhau. Với tất cả các vùng đề xuất có độ tin cậy đủ lớn, bộ phân loại sẽ tính toán xác suất của đối tượng cần xác định trong vùng đề xuất đó. Kỹ thuật pooling vùng quan tâm (Region of Interest - RoI) được áp dụng để chuyển các vùng đề xuất trong bản đồ đặc trưng về cùng kích thước. Đầu ra của lớp pooling vùng quan tâm có kích thước (N, 7, 7, 512) với N là số đề xuất từ giải thuật đề xuất vùng. Cuối cùng, kết quả của mô hình là một hình bao quanh đối tượng cần xác định (Hình 2). Hình 2. Kiến trúc mạng Faster R-CNN [6]
526 SỬ DỤNG MÔ HÌNH HỌC SÂU TRONG HỖ TRỢ XÁC ĐỊNH VỊ TRÍ CÁC NỐT PHỔI TRÊN ẢNH… b. Mô hình RetinaNet Mô hình RetinaNet [7] được đề xuất và phát triển bởi các tác giả trong nhóm nghiên cứu của Facebook (Facebook AI Research – FAIR) để tìm kiếm và nhận đối tượng trong ảnh (Hình 3). Lõi của RetinaNet là mạng kim tự tháp đặc trưng (Feature Pyramid Network, gồm (a) và (b) của Hình 3). Mạng FPN gồm 2 phần chính là: (a) các mạng nơ ron tích chập dưới lên (bottom-up) tạo thành 1 kim tự tháp (pyramid) để trích rút các đặc trưng của ảnh và sinh ra các bản đồ đặc trưng (feature map) nhỏ dần; và (b) các mạng kim tự tháp đặc trưng trên xuống (top-down) để xây dựng các lớp tích chập có độ phân giải cao từ các bản đồ đặc trưng nhỏ có độ chính xác cao. Có một tầng kết nối giữa mỗi bản đồ đặc trưng và một lớp tích chập trên xuống (top-down) để giúp quá trình tìm kiếm dự đoán vị trí của đối tượng được thực hiện tốt hơn. Tuy nhiên các kết nối này cũng có thể được bỏ qua để phục vụ cho quá trình huấn luyện mô hình nhanh hơn. Mô hình FPN dựa trên ý tưởng tìm kiếm một pha (Single Shot Detector - SSD [8]) tức việc dự đoán đường bao (bounding box) và phân loại đối tượng được thực hiện đồng thời cùng nhau. class+box subnets class subnet W×H W×H W×H + class+box ×256 ×4 ×256 ×KA subnets class+box + subnets W×H W×H W×H ×256 ×4 ×256 ×4A box subnet (a) ResNet (b) feature pyramid net (c) class subnet (top) (d) box subnet (bottom) Hình 3. Kiến trúc mạng RetinaNet [7] Ngoài lõi là mô hình FPN, RetinaNet có hai mạng con là: (c) class subnet và (d) box subnet. Mạng thứ nhất (class subnet) là một bộ phân loại để dự đoán xác suất xuất hiện của đối tượng cần xác định. Hàm thất thoát Focal Loss được sử dụng để giảm việc phân loại quá sớm các mẫu (việc này giúp cải tiến độ chính xác cho việc phân loại các đối tượng kích thước nhỏ). Mạng thứ hai (box subnet) là một mạng hồ quy dựa trên khái niệm “neo” (anchor) để xác định đường bao quanh đối tượng cần xác định. c. Mô hình YOLOv3 Hình 4. Cách thức hoạt động của YOLO [11] YOLO (You Only Look Once) [11] cũng là phương pháp tìm kiếm một pha (single shot detector) để dò tìm vị trí của các đối tượng trong ảnh và được tối ưu để xử lý cho thời gian thực. YOLO sử dụng mạng lõi là DarkNet để tạo bản đồ đặc trưng (feature map) của ảnh. Ý tưởng chỉnh của YOLO là sử dụng chỉ một mạng nơ ron để thực hiện hầu hết các tính toán quan trọng (Toạ độ và độ tin cậy của đường bao, xác suất phân loại đối tượng). YOLO sử dụng một lưới các ô trong đó mỗi ô dự đoán chỉ một đối tượng (Hình 4). Để đưa ra kết quả tìm kiếm, mô hình dựa trên bản đồ xác suất phân loại đối tượng (class probability map) và các đường bao có độ tin cậy cao nhất (Hình 4). Mạng lõi đã được huấn luyện sẵn của YOLO là DarkNet, đồng thời các phiên bản sử dụng của DarkNet thay đổi theo các phiên bản của YOLO.
Trần Giang Sơn, Herbreteau Tom, Nguyễn Chí Cường, Nghiêm Thị Phương, Đỗ Oanh Cường, Nguyễn Huy Đức 527 III. KẾT QUẢ THỰC NGHIỆM 3.1. Mô tả thực nghiệm Bộ dữ liệu huấn luyện và kiểm thử. Nhóm nghiên cứu sử dụng bộ dữ liệu mẫu quốc tế LUNA16 [13] để chạy các kết quả thực nghiệm. Tất cả các ảnh CLVT trong bộ dữ liệu LUNA16 đều có độ chi tiết cao với độ dày lát cắt không quá 2,5 mm. Tổng cộng có 888 ảnh CLVT trong tập dữ liệu LUNA. Một nốt phổi có kích thước trong khoảng từ 3-30 mm, được gán nhãn và đồng thuận bởi ít nhất 3 trong 4 chuyên gia chẩn đoán hình ảnh. Từ tập dữ liệu LUNA16, nhóm nghiên cứu trích xuất được tổng cộng 2.372 ảnh, trong đó có 1.186 ảnh có nốt phổi và 1.186 ảnh không có nốt phổi. Tập dữ liệu này được chia thành 2 tập: (1) tập dữ liệu huấn luyện (95 %, tương đương 2.262 ảnh) và (2) tập dữ liệu kiểm thử (5 %, tương đương 110 ảnh). Tiền xử lý dữ liệu. Với tập dữ liệu huấn luyện (gồm 2.262 ảnh ban đầu), nhóm nghiên cứu tiến hành tăng cường dữ liệu (data augmentation). Tăng cường dữ liệu là phương pháp sinh ra thêm dữ liệu từ dữ liệu sẵn có, được thực hiện nhằm tăng độ chính xác của các mô hình học sâu, do học sâu thường xuyên thiếu dữ liệu để huấn luyện. Do đặc thù của ảnh CLVT với mục đích tìm kiếm nốt phổi, việc biến dạng ảnh gây ảnh hưởng đến hình dạng nốt phổi, có thể làm tăng lỗi trong quá trình tìm kiếm. Do vậy, nhóm nghiên cứu thực hiện các phép biến đổi bất biến dạng, chẳng hạn lật theo trục ngang (vertical flipping), lật theo trục thẳng đứng (horizontal flipping), lật cả hai trục (both flip), xoay ±15o, xoay ±30o. Hình 5 dưới đây thể hiện ví dụ kết quả tăng cường dữ liệu từ một ảnh đầu vào. Hình 5. Ví dụ về ảnh đầu vào có nốt phổi và các ảnh được sinh ra. Từ trái qua phải: Ảnh gốc, ảnh lật theo trục thẳng đứng (horizontal flipping), ảnh lật theo trục ngang (vertical flipping), ảnh lật theo cả hai trục (both flipping), xoay -15o, xoay -30o. Như vậy, từ 2.262 ảnh ban đầu trong tập dữ liệu huấn luyện, nhóm nghiên cứu sinh thêm được 15.834 ảnh với phương pháp tăng cường dữ liệu ở trên. Tổng cộng, dữ liệu huấn luyện có 18.096 ảnh. Cấu hình phần cứng và phần mềm. Nhóm nghiên cứu huấn luyện và kiểm thử các mô hình học sâu trên máy chủ nội bộ được trang 02 bộ xử lý CPU Xeon E5 2620 v3 (mỗi bộ xử lý gồm 6 nhân), 128 GB RAM và 8 card đồ họa NVIDIA Tesla K80 (mỗi card gồm 2496 nhân CUDA và 12GB bộ nhớ). Nhóm cài đặt thử nghiệm bằng ngôn ngữ lập trình Python 3.6, chạy trên nền hệ điều hành Debian 10.3. Cấu hình tham số thử nghiệm cho các mô hình Mô hình Faster R-CNN được huấn luyện với tốc độ học (learning rate) 10-5 bằng thuật toán tối ưu Adam [9]. Mạng CNN là mạng đã được huấn luyện sẵn (pretrained model) trên mạng ResNet50 [10] để sinh ra bản đồ đặc trưng. Các thông số liên quan đến neo gồm: 8 cho khoảng cách giữa các anchor, 128, 256 và 512 cho kích thước của 3 anchor với mỗi anchor có tỉ lệ 1:1, 1:2 và 2:1. Kích thước bó (batch size) của bộ phân loại RPN là 32 và số lượng epoch để huấn luyện mô hình là 100. Mô hình RetinaNet được huấn luyện với tốc độ học 10-5 bằng thuật toán tối ưu Adam [9]. Mạng ResNet50 [10] được sử dụng là mạng nơ ron tích chập dưới lên (bottom-up) của lõi FPN và số lượng epoch để huấn luyện mô hình là 50. Đối với mô hình YOLO, nhóm nghiên cứu lựa chọn phiên bản 3 (YOLOv3) do được giới thiệu bởi tác giả [12] là cho kết quả kết quả tốt hơn YOLOv1 trên các đối tượng nhỏ. Lý do chính để sử dụng mô hình này là do các nốt phổi trên ảnh cắt lớp vi tính có kích thước nhỏ, chỉ từ 3-30 mm. Số lượng epoch để huấn luyện mô hình là 50. Độ đo đánh giá. Để đánh giá hiệu năng của các mô hình học sâu tiên tiến đã trình bày ở trên cho bài toán xác định vị trí của nốt phổi trên ảnh cắt lớp vi tính, nhóm nghiên cứu sử dụng các phép đo sau: ● ● ● ● Trong đó: True Positive (TP) = số trường hợp dự đoán đúng nốt phổi ( ); False Positive (FP) = số trường hợp dự đoán nốt phổi cho các mô không phải nốt phổi; True Negative (TN) = số trường hợp dự đoán đúng là không có nốt phổi; False Negative (FN) = số trường hợp dự đoán thiếu khối nốt phổi (mặc dù thực tế có).
528 SỬ DỤNG MÔ HÌNH HỌC SÂU TRONG HỖ TRỢ XÁC ĐỊNH VỊ TRÍ CÁC NỐT PHỔI TRÊN ẢNH… 3.2. Kết quả thực nghiệm Đánh giá mức độ hội tụ trong quá trình huấn luyện các mô hình Trước tiên nhóm nghiên cứu đánh giá mức độ hội tụ của quá trình huấn luyện của từng mô hình: Faster R-CNN, YOLOv3 và RetinaNet, được thể hiện qua độ chính xác đạt được trong quá trình huấn luyện. Hình 6. Độ chính xác của quá trình huấn luyện mô hình Faster R-CNN Hình 6 cho thấy mô hình Faster R-CNN hội tụ khá nhanh, đạt độ chính xác khoảng 60,5-63 % ở khoảng 10.000 bước. Đây là mô hình có độ hội tụ nhanh nhất trong các mô hình nhóm thử nghiệm. Ngoài ra, độ chính xác cao nhất trong huấn luyện của Faster R-CNN đạt được là khoảng 70 %, tại khoảng 400.000 bước huấn luyện. Hình 7. Độ chính xác của quá trình huấn luyện mô hình YOLOv3 Hình 7 cho thấy mô hình YOLOv3 hội tụ ở khoảng 100.000 bước và đạt tốt nhất ở khoảng 90,5 % với 400.000 bước huấn luyện. Tuy nhiên, mô hình YOLO3 có dấu hiệu overfit ở bước huấn luyện thứ 400.000 khi độ chính xác đạt 90,9 % rồi giảm xuống sau đó. Hình 8. Độ chính xác của quá trình huấn luyện mô hình RetinaNet
Trần Giang Sơn, Herbreteau Tom, Nguyễn Chí Cường, Nghiêm Thị Phương, Đỗ Oanh Cường, Nguyễn Huy Đức 529 Hình 8 cho thấy mô hình RetinaNet hội tụ khá nhanh ở khoảng 100.000 bước huấn luyện. Độ chính xác tối đa của mô hình đạt được sau khoảng 500.000 bước là 92,73 %. So sánh độ chính xác, độ nhạy và độ đặc hiệu của các mô hình: Bảng 1. Tổng hợp kết quả đánh giá hiệu năng của các mô hình trên tập dữ liệu kiểm thử Mô hình Độ chính xác Độ nhạy Độ đặc hiệu Faster R-CNN 70,00 % 92,86 % 46,30 % YOLOv3 90,91 % 87,50 % 88,14 % RetinaNet 92,73 % 94,12 % 98,15 % Faster R-CNN. Bảng 1 cho thấy khả năng phân biệt giữa nốt phổi và các mô không phải nốt phổi của mô hình Faster R-CNN là chưa thực sự tốt. Có khá nhiều dự đoán là nốt phổi nhưng thực tế lại không phải nốt phổi (False Positive cao). Tuy nhiên, như đã thảo luận ở trên, mô hình dựa trên Faster R-CNN cũng vẫn đạt được mục tiêu “thà bắt nhầm còn hơn bỏ sót”. Chúng ta có thể thấy rằng độ nhạy của mô hình Faster R-CNN là tốt (đạt khoảng 92,9 %), có nghĩa là khi mô hình dự đoán trường hợp dương tính, nó có 92,9 % cơ hội là đúng. Độ đặc hiệu chỉ đạt khoảng 46,30 %, nghĩa là mô hình dự đoán sai nhiều trường hợp âm tính. Độ chính xác chỉ đạt 70 %, thấp hơn 2 phương pháp còn lại. Faster R-CNN cho thấy kết quả chưa đủ mạnh cho bài toán tìm kiếm và phát hiện nốt phổi. YOLOv3. Với cái nhìn tổng quan, có thể thấy rằng các giá trị độ chính xác, độ nhạy và độ đặc hiệu rất sát nhau. Như vậy có thể kết luận là mô hình ổn định và có thể học được từ dữ liệu với khả năng xác định cả dương tính và cả âm tính khá tương đồng. RetinaNet. Từ bảng kết quả trên có thể thấy độ mô hình RetinaNet cho các kết quả độ chính xác, độ nhạy và độ đặc hiệu cao nhất so với hai phương pháp còn lại. Độ nhạy của RetinaNet là 94,12 % tức là khi mô hình dự đoán trường hợp dương tính có đến 94,12 % cơ hội là đúng. Ngoài ra, độ đặc hiệu của RetinaNet đạt 98,15 % cho thấy mô hình dự đoán rất tốt các trường hợp âm tính. Từ các kết quả thực nghiệm trong bài báo này, có thể kết luận rằng mô hình RetinaNet là khá tốt cho bài toán xác định vị trí nốt phổi trên ảnh chụp cắt lớp vi tính. IV. KẾT LUẬN Trong bài báo này, nhóm nghiên cứu tiến hành thử nghiệm các phương pháp xác định vị trí nốt phổi trên ảnh cắt lớp vi tính dựa trên kiến trúc học sâu tiên tiến, bao gồm Faster R-CNN, YOLOv3 và RetinaNet. Các kết quả thực nghiệm cho thấy sử dụng phương pháp RetinaNet cho kết quả tốt nhất cho bài toán xác định vị trí nốt phổi trên ảnh chụp cắt lớp vi tính. Nhóm cho rằng còn khá nhiều cải tiến có thể nâng cao nữa chất lượng của các mô hình học sâu, chẳng hạn sử dụng các phương pháp tiền xử lý khác, hoặc tăng thêm lượng dữ liệu phục vụ quá trình huấn luyện các mô hình. Ngoài ra, trong phạm vi nghiên cứu này, nhóm mới tập trung vào bài toán xác định vị trí nốt phổi mà chưa đi vào phân tích nốt phổi có nguy cơ ác tính hay không. Đây cũng là một hướng nghiên cứu mới nhiều tiềm năng. V. LỜI CẢM ƠN Nghiên cứu này được Viện Hàn lâm Khoa học và Công nghệ Việt Nam tài trợ kinh phí trong phạm vi Đề tài mã số ĐL0000.05/20-22. TÀI LIỆU THAM KHẢO [1] Ferlay, J., et al. “Estimating the global cancer incidence and mortality in 2018: GLOBOCAN sources and methods.” International journal of cancer 144.8 (2019): 1941-1953. [2] Del Ciello A, Franchi P, Contegiacomo A, Cicchetti G, Bonomo L, Larici AR. “Missed lung cancer: when, where, and why?”. Diagn Interv Radiol. 2017;23(2):118-126. doi:10.5152/dir.2016.16187. [3] Rubin, Geoffrey D. “Lung nodule and cancer detection in computed tomography screening.” Journal of thoracic imaging vol. 30,2 (2015): 130-8. doi:10.1097/RTI.0000000000000140. [4] Huang, Xiaojie, Junjie Shan, and Vivek Vaidya. “Lung nodule detection in CT using 3D convolutional neural networks.” 2017 IEEE 14th International Symposium on Biomedical Imaging (ISBI 2017). IEEE, 2017. [5] Winkels, Marysia, and Taco S. Cohen. “Pulmonary nodule detection in CT scans with equivariant CNNs.” Medical image analysis 55 (2019): 15-26. [6] Shaoqing Ren et al. “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks”. IEEE Transactions on Pattern Analysis and Machine Intelligence 39 (June 2015). [7] Lin, T. Y., Goyal, P., Girshick, R., He, K., & Dollár, P. (2017). “Focal loss for dense object detection”. In Proceedings of the IEEE international conference on computer vision.
530 SỬ DỤNG MÔ HÌNH HỌC SÂU TRONG HỖ TRỢ XÁC ĐỊNH VỊ TRÍ CÁC NỐT PHỔI TRÊN ẢNH… [8] Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C. Y., & Berg, A. C. (2016, October). “Ssd: Single shot multibox detector”. In European conference on computer vision (pp. 21-37). Springer, Cham. [9] Kingma, Diederik P., and Jimmy Ba. “Adam: A method for stochastic optimization.” arXiv preprint arXiv:1412.6980 (2014). [10] He, Kaiming, et al. “Deep residual learning for image recognition.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. [11] Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. “You only look once: Unified, real-time object detection”. Proceedings of the IEEE conference on computer vision and pattern recognition, 2016. [12] Redmon, Joseph, and Ali Farhadi. "Yolov3: An incremental improvement." arXiv preprint arXiv:1804.02767 (2018). [13] A. A. A. Setio, A. Traverso, T. De Bel, M. S. Berens, C. van den Bogaard, P. Cerello, H. Chen, Q. Dou, M. E. Fantacci, B. Geurts, et al. “Validation, comparison, and combination of algorithms for automatic detection of pulmonary nodules in computed tomography images: the luna16 challenge”. Medical image analysis, 42: 1-13, 2017. USING DEEP LEARNING MODEL TO ASSIST IN DETERMINING LOCATION OF PULMONARY NODULES ON CT SCANS Tran Giang Son, Herbreteau Tom, Nguyen Chi Cuong, Nghiem Thi Phuong, Do Oanh Cuong, Nguyen Huy Duc ABSTRACT: Lung cancer is the leading cancer in morbidity and mortality worldwide. However, lung cancer has a high chance of being cured if detected early. Deep learning models can effectively assist in locating lung nodules on computed tomography scans. In this paper, we use different methods for locating lung nodules on computed tomography scans based on deep learning architectures, including Faster R-CNN, YOLOv3 and RetinaNet. Our experimental results show that using RetinaNet provides the best results in locating lung nodules on computer tomography scans.