intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Khoá luận tốt nghiệp ngành Kỹ thuật y sinh: Ứng dụng mô hình Vision Transformer trong phân loại dữ liệu bệnh phổi

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:104

36
lượt xem
7
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu nhóm đề ra trong đề tài Ứng dụng mô hình Vision Transformer trong phân loại dữ liệu bệnh phổi" là cải thiện hiệu suất phân loại của mô hình Vision Transformer trên tập dữ liệu ảnh X-quang ngực VinDr-CXR và diễn giải các cơ chế ra quyết định của mô hình. Hơn nữa nhóm sẽ dùng công cụ Flask để xây dựng một ứng dụng web sử dụng mô hình phân loại đã huấn luyện nhằm hỗ trợ bác sĩ trong việc chẩn đoán.

Chủ đề:
Lưu

Nội dung Text: Khoá luận tốt nghiệp ngành Kỹ thuật y sinh: Ứng dụng mô hình Vision Transformer trong phân loại dữ liệu bệnh phổi

  1. BỘ GIÁO DỤC & ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP. HỒ CHÍ MINH KHOA ĐIỆN – ĐIỆN TỬ BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH --------------------------------- KHÓA LUẬN TỐT NGHIỆP NGÀNH KỸ THUẬT Y SINH ĐỀ TÀI: ỨNG DỤNG MÔ HÌNH VISION TRANSFORMER TRONG PHÂN LOẠI DỮ LIỆU BỆNH PHỔI GVHD: TS. Nguyễn Mạnh Hùng SVTH1: Ngô Quang Khải MSSV1: 18129026 SVTH2: Huỳnh Văn Pháp MSSV2: 18129041 TP. Hồ Chí Minh – 06/2022
  2. BỘ GIÁO DỤC & ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP. HỒ CHÍ MINH KHOA ĐIỆN – ĐIỆN TỬ BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH --------------------------------- KHÓA LUẬN TỐT NGHIỆP NGÀNH KỸ THUẬT Y SINH ĐỀ TÀI: ỨNG DỤNG MÔ HÌNH VISION TRANSFORMER TRONG PHÂN LOẠI DỮ LIỆU BỆNH PHỔI GVHD: TS. Nguyễn Mạnh Hùng SVTH1: Ngô Quang Khải MSSV1: 18129026 SVTH2: Huỳnh Văn Pháp MSSV2: 18129041 TP. Hồ Chí Minh – 06/2022
  3. TRƯỜNG ĐH SPKT TP. HỒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT KHOA ĐIỆN-ĐIỆN TỬ NAM BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH Độc lập - Tự do - Hạnh phúc Tp. HCM, ngày tháng 06 năm 2022 NHIỆM VỤ KHÓA LUẬN TỐT NGHIỆP Họ tên sinh viên: Ngô Quang Khải MSSV: 18129026 Huỳnh Văn Pháp MSSV: 18129041 Chuyên ngành: Kỹ thuật Y Sinh Mã ngành: 7520212D Hệ đào tạo: Đại học chính quy Mã hệ: 1 Khóa: 2018 Lớp: 181290C I. TÊN ĐỀ TÀI: ỨNG DỤNG MÔ HÌNH VISION TRANSFORMER TRONG PHÂN LOẠI DỮ LIỆU BỆNH PHỔI II. NHIỆM VỤ 1. Các số liệu ban đầu: - Tập dữ liệu X-quang ngực: ChestXpert, Chest14 và VinDr-CXR. - Các mô hình Vision Transformer: ViT-B16, ViT-L16, ViT-S16, R50+ViT-B16. - Các biến thể mô hình ResNet: ResNet18, ResNet34, ResNet50. - Các cơ chế diễn giải mô hình: Grad-CAM, Attention Map. - Ngôn ngữ lập trình: Python, HTML, CSS. - Thư viện hỗ trợ xây dựng web API: Flask python. - Cơ sở dữ liệu: SQLite, tương tác thông qua công cụ SQLAlchemy. - Công nghệ đóng gói và triển khai ứng dụng: Docker. 2. Nội dung thực hiện: - Tìm hiểu lý thuyết về các mô hình phân loại - Nghiên cứu các tập dữ liệu Chest14, ChestExpert, VinDR-CXR và tạo tập dữ liệu phù hợp với đề tài. - Tiến hành các thí nghiệm huấn luyện mô hình ViT. - Đánh giá kết quả các thí nghiệm bằng phương pháp định tính và định lượng. - Xây dựng web API cho ứng dụng mô hình phân loại bênh phổi. i
  4. - Chạy thử nghiệm, kiểm tra và hiệu chỉnh hệ thống. - Đóng gói và triển khai ứng dụng với Docker. - Viết báo cáo thực hiện. - Bảo vệ luận văn. III. NGÀY GIAO NHIỆM VỤ: 25/02/2022 IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 21/06/2022 V. HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: Ts. Nguyễn Mạnh Hùng CÁN BỘ HƯỚNG DẪN BM. ĐIỆN TỬ CÔNG NGHIỆP – Y SINH ii
  5. TRƯỜNG ĐH SPKT TP. HỒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT KHOA ĐIỆN-ĐIỆN TỬ NAM BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH Độc lập - Tự do - Hạnh phúc Tp. HCM, ngày tháng 06 năm 2022 LỊCH TRÌNH THỰC HIỆN KHÓA LUẬN TỐT NGHIỆP Họ tên sinh viên 1: Ngô Quang Khải Lớp: 181290C MSSV: 18129026 Họ tên sinh viên 2: Huỳnh Văn Pháp Lớp: 181290C MSSV: 18129041 Tên đề tài: Ứng dụng mô hình Vision Transformer trong phân loại dữ liệu bệnh phổi. Xác nhận Tuần/ngày Nội dung GVHD Gặp GVHD để nghe phổ biến yêu cầu làm đồ Tuần 1 án, tiến hành chọn đề tài và viết đề cương tóm (28/02 – 06/03) tắt yêu cầu đề tài đã chọn. Tuần 2 Tổ chức dữ liệu thí nghiệm từ tập dữ liệu (07/03 – 13/03) VinDr-XCR. Tuần 3 Tiến hành các thí nghiệm để đánh giá hiệu suất (14/03 – 20/03) mô hình. Tuần 4 Hoàn thành các thí nghiệm huấn luyện mô (21/03 – 27/03) hình. Tuần 5 Chạy đánh giá kết quả định tính cho mô hình (28/03 – 03/04) huấn luyện từ các thí nghiệm. Tuần 6 Tiến hành đánh giá định lượng của mô hình. (04/04 – 10/04) Tuần 6 Tìm hiểu cách triển khai ứng dụng model thông (11/04 – 17/04) qua API, tìm hiểu về Docker. Tuần 7 Xây dựng ứng dụng web cho mô hình phân loại (18/04 – 24/04) bằng giao thức API với Flask python, html, css. Tuần 8 Thêm các chức năng gửi thông báo kết quả (25/04 – 01/05) chẩn đoán bệnh qua email và số điện thoại. Tuần 9 Tìm hiểu và thêm cơ sở dữ liệu cho ứng dụng, (01/05 – 08/05) thêm chức năng đăng ký và lưu trữ thông tin iii
  6. bệnh nhân. Hoàn thiện các chức năng chính của ứng dụng: Tuần 10 chức năng đăng ký bệnh nhân, chức năng dự (09/05 – 15/05) đoán của mô hình, chức năng gửi email và tin nhắn SMS. Tuần 11 Thiết kế hoàn thiện giao diện người dùng của (16/05 – 22/05) ứng dụng web, chạy thử nghiệm và hiệu chỉnh. Tuần 12 Đóng gói và triển khai ứng dụng với Docker. (23/05 – 29/05) Tuần 13 Viết báo cáo đề tài, thiết kế poster. (30/05 – 05/06) Tuần 14 Chỉnh sửa báo cáo, làm Slide thuyết trình. (06/06 – 12/06) Tuần 15 Hoàn thiện báo cáo, Slide thuyết trình, làm (13/06 – 19/06) video giới thiệu ứng dụng. Hoàn thiện báo cáo và gửi cho GVHD xem xét Tuần 16 góp ý. (20/06 – 26/06) Báo cáo trước GVHD và nộp quyển báo cáo Đồ án tốt nghiệp. GV HƯỚNG DẪN (Ký và ghi rõ họ và tên) iv
  7. LỜI CAM ĐOAN Đề tài này do nhóm tìm hiểu, thực hiện dựa trên một số tài liệu và kết quả nghiên cứu đã được công bố với sự hướng dẫn của thầy Nguyễn Mạnh Hùng và không sao chép từ tài liệu hay công trình đã có trước đó. Người thực hiện đề tài Ngô Quang Khải – Huỳnh Văn Pháp v
  8. LỜI CẢM ƠN Trải qua suốt quá trình nghiên cứu và thực hiện đề tài, từ những buổi đầu chủng bị kiến thức nền tảng đến khi hoàn thành đề tài, nhóm đã nhận được rất nhiều sự hỗ trợ, hướng dẫn tận tình từ Thầy Nguyễn Mạnh Hùng – Giảng viên bộ môn Điện tử công nghiệp - Y sinh. Những góp ý, thảo luận, cùng những kinh nghiệm quý báu mà Thầy chia sẽ đã giúp cho đề tài của nhóm ngày càng hoàn thiện hơn, chúng em cảm thấy rất trân quý. Chúng em xin gửi lời cảm ơn sâu sắc đến Thầy. Nhóm xin gửi lời cảm ơn đến các Thầy Cô khoa Điện - Điện tử vì những kiến thức nền móng mà thầy cô đã truyền đạt để chúng em có thể đi đến chặn hành trình hiện tại. Chúng em cảm ơn Nhà trường, khoa và bộ môn đã có những kế hoạch tổ cho sinh viên thực hiện đề tài tốt nghiệp đúng hạn mặc dù những trở ngại trong khoảng thời gian dịch bệnh. Đặc biệt cảm ơn Thầy Nguyễn Thanh Hải, Trưởng bộ môn Điện tử công nghiệp - Y sinh, đã luôn đồng hành và tận tâm dẫn dắt chúng em trong ngành học thú vị này. Xin gửi lời cảm đến gia đình, những người thân đã luôn quan tâm, động viên và ủng hộ chúng em trong suốt con đường học tập. Cuối cùng nhóm không quên gửi lời cảm ơn đến các bạn lớp 181290 đã đồng hành, trao đổi kiến thức và giúp đỡ lẫn nhau trong quá trình học. Mặc dù đề tài đã hoàn thành theo những nội dung đề ra, nhưng vì vốn kiến thức còn hạn chế nên đề tài có thể khó tránh khỏi những thiếu sót. Nhóm mong nhận được những góp ý từ quý Thầy Cô và người đọc để cải thiện đề tài tốt hơn. Xin chân thành cảm ơn! Người thực hiện đề tài Ngô Quang Khải – Huỳnh Văn Pháp vi
  9. MỤC LỤC NHIỆM VỤ KHÓA LUẬN TỐT NGHIỆP .................................................................i LỊCH TRÌNH THỰC HIỆN KHÓA LUẬN TỐT NGHIỆP................................... iii LỜI CAM ĐOAN ..........................................................................................................v LỜI CẢM ƠN ...............................................................................................................vi MỤC LỤC ................................................................................................................... vii LIỆT KÊ HÌNH VẼ.......................................................................................................x LIỆT KÊ BẢNG ........................................................................................................ xiii DANH MỤC TỪ VIẾT TẮT .....................................................................................xiv TÓM TẮT ...................................................................................................................xvi Chương 1. TỔNG QUAN..............................................................................................1 1.1 ĐẶT VẤN ĐỀ ...................................................................................................1 1.2 MỤC TIÊU ............................................................................................................3 1.3 NỘI DUNG NGHIÊN CỨU .................................................................................4 1.4 GIỚI HẠN .............................................................................................................4 1.5 BỐ CỤC ................................................................................................................5 Chương 2. CƠ SỞ LÝ THUYẾT .................................................................................6 2.1 GIỚI THIỆU ẢNH X-QUANG ............................................................................6 2.1.1 Ảnh số.............................................................................................................6 2.1.2 Ảnh X-quang ..................................................................................................7 2.2 GIỚI THIỆU PHẦN MỀM ...................................................................................8 2.2.1 Ngôn ngữ lập trình Python .............................................................................8 2.2.2 Thư viện Pytorch ............................................................................................9 2.3 GIỚI THIỆU MẠNG NƠ-RON NHÂN TẠO ....................................................11 2.3.1 Hàm kích hoạt ..............................................................................................12 vii
  10. 2.3.2 Gradient descent ........................................................................................... 13 2.3.3 Hàm tổn thất ................................................................................................. 14 2.4. CÁC MÔ HÌNH PHÂN LOẠI DỰA TRÊN CNN ............................................ 15 2.4.1 Mạng LeNet .................................................................................................. 15 2.4.2 Mạng AlexNet .............................................................................................. 17 2.4.3 Mạng VGG ................................................................................................... 19 2.4.4 Mạng GoogLeNet ......................................................................................... 20 2.4.5 Mạng ResNet ................................................................................................ 22 2.4.6 Giới thiệu kỹ thuật Grad-CAM .................................................................... 24 2.5 MÔ HÌNH PHÂN LOẠI DỰA TRÊN TRANSFORMER ................................. 26 2.5.1 Kiến trúc Transformer trong xử lý ngôn ngữ tự nhiên ................................. 26 2.5.2 Mô hình Vision Transformer ........................................................................ 29 2.5.3 Giới thiệu kỹ thuật Attention Map ............................................................... 34 2.6 GIỚI THIỆU VỀ API .......................................................................................... 35 2.6.1 Khái quát về API .......................................................................................... 35 2.6.2 Thư viện Flask .............................................................................................. 36 2.6.3 Cơ sở dữ liệu SQLite và công cụ tương tác SQLAlchemy .......................... 37 2.7 GIỚI THIỆU VỀ DOCKER ................................................................................ 38 Chương 3. THÍ NGHIỆM HUẤN LUYỆN VÀ DÁNH GIÁ MÔ HÌNH ............... 40 3.1 TỔNG QUAN VỀ PHƯƠNG PHÁP .................................................................. 40 3.2 TỔ CHỨC DỮ LIỆU .......................................................................................... 43 3.3 MÔ HÌNH SỬ DỤNG ......................................................................................... 45 3.4 PHƯƠNG PHÁP ĐÁNH GIÁ ............................................................................ 48 Chương 4. THI CÔNG HỆ THỐNG ......................................................................... 51 4.1 TỔNG QUAN VỀ HỆ THỐNG .......................................................................... 51 4.2 XÂY DỰNG WEB API ...................................................................................... 52 viii
  11. 4.3 TRIỂN KHAI ỨNG DỤNG VỚI DOCKER ...................................................... 57 Chương 5. KẾT QUẢ - NHẬN XÉT – ĐÁNH GIÁ ................................................. 60 5.1 KẾT QUẢ ............................................................................................................ 60 5.1.1 Kết quả đánh giá định lượng của mô hình ................................................... 60 5.1.2 Khả năng diễn giải mô hình ......................................................................... 63 5.1.3 Kết quả triển khai ứng dụng ......................................................................... 64 5.2 NHẬN XÉT ĐÁNH GIÁ .................................................................................... 71 Chương 6. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .............................................. 73 6.1 KẾT LUẬN ......................................................................................................... 73 6.2 HƯỚNG PHÁT TRIỂN ...................................................................................... 73 TÀI LIỆU THAM KHẢO .......................................................................................... 75 PHỤ LỤC ..................................................................................................................... 78 ix
  12. LIỆT KÊ HÌNH VẼ Hình 1.1: Sự xuất hiện đồng thời nhiều loại bệnh trong tập dữ liệu VinDr-CXR [9]. ...2 Hình 2.1: Ví dụ về ảnh màu RGB. .................................................................................6 Hình 2.2: Ví dụ về ảnh xám. ...........................................................................................7 Hình 2.3: Ảnh chụp X-quang vùng ngực. ......................................................................8 Hình 2.4: Mô tả các bước của một quá trình huấn luyện mô hình trên Pytorch. .........10 Hình 2.5: Mạng nơ-ron nhân tạo. .................................................................................11 Hình 2.6: Đồ thị hàm Sigmoid......................................................................................12 Hình 2.7: Đồ thị hàm ReLU. ........................................................................................12 Hình 2.8: Vai trò của việc chọn learning rate. ..............................................................13 Hình 2.9: Đồ thị Hàm log(x). .......................................................................................14 Hình 2.10: Mô tả kiến trúc mạng LeNet-5 được thiết kế để xác định các chữ số viết tay trong tập dữ liệu MNIST. ..............................................................................................15 Hình 2.11: Chi tiết các thành phần tham số của mô hình LeNet. .................................16 Hình 2.12: Mô tả kiến trúc mạng AlexNet. ..................................................................17 Hình 2.13: Chi tiết các thành phần tham số của mô hình AlexNet. .............................18 Hình 2.14: Ý tưởng xây dựng mạng VGG sử dụng các khối VGG block gồm các tầng tích chập được xếp chồng. .............................................................................................19 Hình 2.15: Mô tả kiến trúc mô hình VGG-16. .............................................................20 Hình 2.16: Cấu trúc khối Inception. .............................................................................21 Hình 2.17: Cấu trúc mạng GoogLeNet. ........................................................................22 Hình 2.18: Kết nối tắt được sử dụng trong ResNet. .....................................................23 Hình 2.19: Mô tả kiến trúc ResNet (ResNet-18). .........................................................24 Hình 2.20: Tổng quan về hoạt động của Grad-CAM. ..................................................25 Hình 2.21: Kiến rúc Transformer [11]..........................................................................27 Hình 2.22: Mô tả cách tính ma trận attention. ..............................................................28 Hình 2.23: Mô tả Multi - Head Attention. ....................................................................29 Hình 2.24: Mô tả kiến trúc của mô hình ViT [12]........................................................30 Hình 2.25: Hình ảnh được chia nhỏ thành các patch nhỏ có kích thước cố định. ........31 Hình 2.26: Làm phẳng các patch thành chuỗi các vectors (hình minh họa 9 patch). ...31 Hình 2.27: Mô tả cơ chế Attention trong Vision Transformer. ....................................32 x
  13. Hình 2.28: Định nghĩa về khối Multi-self attention trong Vision Transformer. ..........33 Hình 2.29: Attention map của [CLS] giữa các lớp khác nhau. ....................................34 Hình 2.30: Mô tả về cách hoạt của giao thức API. .......................................................35 Hình 2.31: Hoạt động của API REST...........................................................................36 Hình 2.32: Logo của framework Flask Python. ...........................................................36 Hình 2.33: Phương thức thao tác với database bằng kỹ thuật ORM. ...........................38 Hình 2.34: Các thành phần cơ bản của Docker. ...........................................................39 Hình 3.1: Tổng quan về phương pháp. .........................................................................43 Hình 3.2: Biểu đồ phân phối dữ liệu lựa chọn từ tập dữ liệu VinDr-CXR. .................44 Hình 3.3: Cấu trúc tổ chức tập dữ liệu thí nghiệm. ......................................................45 Hình 3.4: Kiến trúc mạng của Resnet-18. ....................................................................46 Hình 3.5: Kiến trúc mạng của Resnet-34. ....................................................................47 Hình 3.6: Sự thay đổi của Resnet-50 (phải) so với các phiên bản trước đó (trái). .......48 Hình 3.7: Kiến trúc mạng của Resnet-50. ....................................................................48 Hình 3.8: Grad-CAM và attention map trên tập dữ liệu ong và kiến. ..........................49 Hình 4.1: Mô tả cách hoạt động của model API. .........................................................51 Hình 4.2: Tổng quan về hệ thống. ................................................................................52 Hình 4.3: Sơ đồ tổng quan về các chức năng của ứng dụng web. ................................53 Hình 4.4: Cấu trúc và các thành phần của dự án trên phần mềm Pycharm. .................54 Hình 4.5: Minh họa các hàm tiện ích được định nghĩa trong file utils. ........................54 Hình 4.6: Tạo Database. ...............................................................................................55 Hình 4.7: Thiết lập gmail và SMS, trong đó account_sid và auth_token sẽ được cung cấp bởi dịch vụ Twilio. ..................................................................................................56 Hình 4.8: Tạo các giao diện trang web bằng HTML, CSS...........................................56 Hình 4.9: Nội dung Dockerfile. ....................................................................................58 Hình 4.10: Giao diện repositories của DockerHub. .....................................................58 Hình 5.1: Diễn giải mô hình với nhiều vùng tổn thương. ............................................63 Hình 5.2: Diễn giải mô hình với vùng tổn thương đơn lẻ. ...........................................64 Hình 5.3: Giao diện trang chủ (Home) của ứng dụng web trên trình duyệt máy tính . 65 Hình 5.4: Giao diện đăng ký thông tin bệnh nhân ....................................................... 65 Hình 5.5: Giao diện dữ liệu bệnh nhân ........................................................................ 66 Hình 5.6: Giao diện chọn ảnh để thực hiện chức năng dự đoán của mô hình ............. 67 xi
  14. Hình 5.7: Giao diện kết quả hiển thị Attention map.................................................... 67 Hình 5.8: Giao diện hiển thị dự đoán của mô hình và kết luận của bác sĩ .................. 68 Hình 5.9: Giao diện xem lại ảnh và thông tin bệnh nhân ............................................ 68 Hình 5.10: Giao diện gửi thông báo chẩn đoán cho bệnh nhân .................................. 69 Hình 5.11: Kết quả thông báo qua Email (trái) và tin nhắn SMS (phải) ..................... 69 Hình 5.12: Docker Images ứng dụng ........................................................................... 70 Hình 5.13: Image đã được đưa lên Dockerhub thành công ......................................... 70 Hình 5.14: Quá trình Pull Image về một máy tính khác cần triển khai ứng dụng....... 70 Hình 5.15: Docker Image được Pull thành công về máy tính từ Docker Hub ............ 71 Hình 5.16: Kết quả khởi chạy thành công ứng dụng khi triển khai trên một máy tính khác ............................................................................................................................... 71 xii
  15. LIỆT KÊ BẢNG Bảng 1.1: So sánh tập dữ liệu hình ảnh thông thường và tập dữ liệu hình ảnh y tế. ......2 Bảng 3.1: Tập dữ liệu CheXpert bao gồm 14 loại bệnh được gắn nhãn [7]. ................40 Bảng 3.2: Bảng thông kê tập dữ liệu VinDr-CXR [9]. .................................................42 Bảng 3.3: Class bệnh lựa chọn trong tập VinDr_CXR .................................................44 Bảng 3.4: Các cấu trúc backbone ViT. .........................................................................46 Bảng 5.1: Ảnh hưởng của kích thước hình ảnh. ...........................................................60 Bảng 5.2: So sánh backbone. ........................................................................................61 Bảng 5.3: Kết quả có và không có tập dữ liệu pre-trained. ..........................................62 Bảng 5.4: Kết quả trên tập dữ liệu backbone CNN. .....................................................63 xiii
  16. DANH MỤC TỪ VIẾT TẮT STT Từ viết tắt Giải thích 1 1D 1 Dimension 2 2D 2 Dimension 3 AI Artificial Intelligence 4 API Application Programming Interface 5 AtteMap Attention Map 6 BN BatchNorm 7 CNN Convolutional Neural Network 8 CSS Cascading Style Sheets 9 CXR Chest X-Ray 10 DICOM Digital Imaging and Communications in Medicine 11 GAP Global Average Pooling 12 GN GroupNorm 13 Grad-CAM Gradient-weighted Class Activation Mapping 14 HTML Hypertext Markup Language 15 HTTP HyperText Transfer Protocol 16 ID Identification 17 ILD Interstitial lung disease 18 KNN K-Nearest Neighbors 19 LN LayerNorm 20 LRN Local Response Normalization 21 MLP Multi-layer Perceptron 22 MNIST Modified National Institute of Standards and Technology 23 MSA Multi-Head Self-attention 24 NIH National Institutes of Health 25 NLP Natural Language Processing 26 ORM Object Relational Mapping 27 PACS Picture Archiving and Communication Systems 28 ReLU Rectified Linear Unit xiv
  17. 29 ResNet Residual Network 30 REST Representational State Transfer 31 RPC Remote Procedure Call 32 SMS Short Message Service 33 SOAP Simple Object Access Protocol 34 SQL Structured Query Language 35 SVM Support Vector Machine 36 VGG Visual Geometry Group 37 ViT Vision Transformer xv
  18. TÓM TẮT Trong lĩnh vực thị giác máy tính, các kiến trúc dựa trên Transformer gần đây đã cạnh tranh với các kiến trúc truyền thống dựa trên CNN trong nhiều tác vụ. Sự thành công của các kiến trúc dựa trên Transformer là nhờ vào các pre-trained model được huấn luyện trên các tập dữ liệu khổng lồ. Tuy nhiên, yêu cầu này có thể không được đáp ứng trong các ứng dụng hình ảnh y tế. Bởi so với tập dữ liệu ImageNet 21K, tập dữ liệu hình ảnh y tế rất hạn chế. Do đó, trong đề tài này, nhóm khám phá hiệu suất của mô hình ViT (Vision Transformer) trong việc phân loại hình ảnh y tế bằng cách sử dụng hai tập dữ liệu lớn về ảnh y tế là ChestXpert và Chest14 để tinh chỉnh trên một mô hình pre-trained ImageNet nhằm tạo ra một mô hình pre-trained ViT mới. Sau đó tiếp tục tinh chỉnh mô hình trên tâp dữ liệu VinDR-XCR. Bên cạnh đó, nhóm cũng tiến hành các thí nghiệm đánh giá ảnh hưởng của các yếu tố như kích thước ảnh, loại backbone, nhằm chọn ra những tham số phù hợp cho quá trình huấn luyện mô hình phân loại. Các kỹ thuật diễn giải mô hình cũng được sử dụng để đánh giá khả năng của ViT so với các mô hình dựa trênCNN trong việc giải quyết sự cùng xuất hiện của nhiều bệnh trong một hình ảnh. Kết quả từ các thí nghiệm toàn diện cho thấy rằng phương pháp đề xuất tốt hơn một chút so với các phương pháp dựa trên tích chập thông thường về độ chính xác của phân loại. Tuy nhiên, về khả năng diễn giải mô hình, các mô hình dựa trên ViT có thể xử lý sự đồng xuất hiện của nhiều bệnh trong một hình ảnh y tế. Nhóm cũng tiến hành xây dựng ứng dụng web đơn giản cho mô hình phân loại bệnh phổi đã huấn luyện. Ứng dụng bao gồm các chức năng như đăng ký và lưu trữ thông tin bệnh nhân, đưa ra các dự đoán bệnh cho ảnh đầu vào, gửi thông tin kết quả chẩn đoán của bác sĩ cho bệnh nhân qua email hoặc số điện thoại đã đăng ký. Ứng dụng có giao diện đơn giản và dễ sử dụng, ứng dụng chỉ có vai trò đưa ra dự đoán để hỗ trợ bác sĩ và hoàn toàn không có khả năng thay thế bác sĩ để đưa ra kết luận. xvi
  19. CHƯƠNG 1. TỔNG QUAN Chương 1. TỔNG QUAN 1.1 ĐẶT VẤN ĐỀ Phân loại bệnh vùng phổi dựa trên ảnh chụp y tế để khám chữa bệnh là một công việc đặc thù và thiết yếu của bác sĩ trong lĩnh vực phân tích và chẩn đoán hình ảnh y khoa. Trong những năm gần đây, khi lĩnh vực trí tuệ nhân tạo đã có những bước tiến rất mạnh mẽ và được ứng dụng có hiệu quả vào nhiều lĩnh vực trong đời sống thì việc ứng dụng các mô hình học sâu vào giải quyết các bài toán phân loại ảnh y tế cũng trở thành một hướng nghiên cứu quan trọng [1]. Nếu một mô hình AI có khả năng thực hiện tốt công việc phân loại trên hình ảnh y tế thì kết quả mang lại sẽ rất có ý nghĩa, chẳng hạn như hỗ trợ các bác sĩ trong việc chẩn đoán để tiết kiệm thời gian, tránh bỏ sót bệnh cũng như hỗ trợ cho các nghiên cứu sâu hơn. Theo như tìm hiểu của nhóm, hiện nay đã có nhiều đề tài nghiên cứu áp dụng học sâu để phân loại bệnh trên hình ảnh y tế và đạt được một số kết quả nhất định, một trong số đó là Đồ Án Tốt Nghiệp của nhóm Ngô Thị Anh Thư và Phạm Thiên Vương với đề tài “Ứng dụng xử lý ảnh và AI để nhận biết bệnh viêm phổi ở trẻ em” [2]. Tiếp theo là Đồ Án Tốt Nghiệp của nhóm Võ Kiều Phương và Nguyễn Nhật Uyên với đề tài “Ứng dụng Deep Learning và Radiomics trong quá trình chẩn đoán ung thư phổi” [3]. Hai đề tài trên đã xây dựng thành công mô hình chẩn đoán bệnh ở vùng phổi dựa trên mạng nơ- ron tích chập kết hợp với kiến trúc U-Net cho việc phân đoạn. Không giống với các ứng dụng trong những lĩnh vực thông thường, các mô hình AI trong y tế đòi hỏi độ phức tạp tính toán cao hơn do các đặc trưng về độ phân giải của hình ảnh y tế cũng như các hạn chế về kích thước tập dữ liệu. Để các mô hình học sâu có thể phát huy thế mạnh, cần chuẩn bị dữ liệu cẩn thận và đủ nhiều. Theo các công bố trong những năm gần đây, một số bộ dữ liệu về hình ảnh y tế đã được xuất bản nhằm đáp ứng cho các mục đích nghiên cứu. Tuy nhiên, so với bộ dữ liệu ảnh thông thường, bộ dữ liệu hình ảnh y tế khá nhỏ. Bảng 1.1 cho thấy sự so sánh giữa tập dữ liệu hình ảnh thông thường và tập dữ liệu hình ảnh y tế. Có thể thấy rằng tập dữ liệu hình ảnh y tế nhỏ hơn tập dữ liệu hình ảnh thông thường về số lượng mẫu và số nhãn. BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 1
  20. CHƯƠNG 1. TỔNG QUAN Bảng 1.1: So sánh tập dữ liệu hình ảnh thông thường và tập dữ liệu hình ảnh y tế. Tập dữ liệu hình ảnh thông thường Tập dữ liệu hình ảnh y tế Tập dữ liệu Số nhãn/ Số ảnh Tập dữ liệu Số nhãn/ Số ảnh ImageNet [4] 21K/14M Chest14 [5] 14/112.120 CoCo [6] 91/328K CheXpert [7] 14/224.316 JFT [8] 18K/300M VinDr-CXR [9] 15/15K Ngoài ra, một thách thức lớn của ảnh y tế là trong một hình ảnh có thể có nhiều loại bệnh cùng xuất hiện (hình 1.1), một căn bệnh có thể là nguyên nhân tìm ẩn gây ra các tổn thương khác. Các phương pháp truyền thống dựa trên kiến trúc CNN [10] được sử dụng cho bài toán phân loại ảnh y tế chủ yếu phân loại ảnh theo từng loại bệnh và chưa hướng vào giải quyết sự cùng xuất hiện của nhiều loại bệnh. Để giải quyết thách thức này mô hình AI cần khả năng quan tâm đến sự phụ thuộc phạm vi dài (long range dependency) bằng cách phát hiện các mối quan hệ trên diện rộng giữa các vùng bệnh nằm ở các vị trí cách xa nhau. Hình 1.1: Sự xuất hiện đồng thời nhiều loại bệnh trong tập dữ liệu VinDr-CXR [9]. Gần đây, các cơ chế Attention được áp dụng rất thành công để nắm bắt các mối quan hệ tầm xa trong lĩnh vực Xử lý ngôn ngữ tự nhiên. Cơ chế này cũng được mở rộng BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 2
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2