Phân đoạn hộp sọ của con người bằng học sâu

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:8

Thêm vào BST

Báo xấu

5
lượt xem 1
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu của phân đoạn hộp sọ bằng học sâu là thiết lập một hệ thống thị giác máy tính hiệu quả cung cấp dự đoán chính xác về hình dạng của hộp sọ từ hình ảnh y tế. Các mô hình học sâu Unet, Linknet sẽ được huấn luyện trên một tập dữ liệu lớn của hình ảnh y tế, sử dụng các thuật toán và kỹ thuật mới nhất để đạt được mức độ chính xác cao nhất.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Phân đoạn hộp sọ của con người bằng học sâu

PHÂN ĐOẠN HỘP SỌ CỦA CON NGƯỜI BẰNG HỌC SÂU Hồ Ngọc Trung Kiên 1 1. Viện Kỹ thuật Công nghệ, Trường Đại học Thủ Dầu Một, email: kienhnt@tdmu.edu.vn TÓM TẮT Phân đoạn hộp sọ từ hình ảnh y tế là một nhiệm vụ phức tạp và thách thức đối với các hệ thống thị giác máy tính hiện đại. Vấn đề này đòi hỏi sự đánh giá chính xác về hình dạng của hộp sọ từ hình ảnh đầu, và các phương pháp truyền thống như phân tích thống kê đang gặp khó khăn trong việc giải quyết vấn đề này. Tuy nhiên, các mô hình học sâu mới nổi đang thể hiện tiềm năng trong việc giải quyết thách thức phân đoạn hộp sọ. Nghiên cứu hiện tại đang tập trung vào việc phát triển một phương pháp mới sử dụng học sâu để phân đoạn hộp sọ từ hình ảnh y tế. Mục tiêu của phân đoạn hộp sọ bằng học sâu là thiết lập một hệ thống thị giác máy tính hiệu quả cung cấp dự đoán chính xác về hình dạng của hộp sọ từ hình ảnh y tế. Các mô hình học sâu Unet, Linknet sẽ được huấn luyện trên một tập dữ liệu lớn của hình ảnh y tế, sử dụng các thuật toán và kỹ thuật mới nhất để đạt được mức độ chính xác cao nhất. Từ khóa: Học sâu, Linknet, phân đoạn hộp sọ người, Unet. 1. GIỚI THIỆU Trong những năm gần đây, bức tranh của trí tuệ nhân tạo (AI) đã trải qua một sự biến đổi sâu sắc, thể hiện những tiến triển chưa từng có và mở ra những khả năng rộng lớn trong nhiều lĩnh vực đa dạng. Trong số đó, lĩnh vực y học đứng ra như một người hưởng lợi quan trọng, với các kỹ thuật AI chứng minh vai trò quan trọng trong việc rút ra những hiểu biết không thể đo lường được từ các tập dữ liệu phức tạp. (Andre E và cộng sự, 2021) Tăng cường tầm quan trọng của hình ảnh y tế trong lĩnh vực chăm sóc sức khỏe đã thu hút sự chú ý đặc biệt. Hình ảnh y tế đã trở thành công cụ không thể thiếu, đóng góp vào các khía cạnh quan trọng của chăm sóc bệnh nhân, bao gồm chẩn đoán, lập kế hoạch điều trị, hướng dẫn trong quá trình can thiệp và theo dõi liên tục bệnh tình. Sự tích hợp của trí tuệ nhân tạo vào phân tích hình ảnh y tế đã đưa những quy trình này vào một thời đại mới, nâng cao độ chính xác và hiệu suất. (Derek LGH và cộng sự, 2001) Phân đoạn hình ảnh dựa vào hình ảnh CT đóng một vai trò quan trọng trong phân tích hình ảnh y tế, hỗ trợ việc phân biệt chính xác cấu trúc và các đặc điểm bất thường của cơ thể (Kanchana R và cộng sự, 2011). Quy trình này liên quan đến việc chia ảnh thành các khu vực khác nhau dựa trên các tiêu chí cụ thể, cho phép kiểm tra chi tiết các khu vực cụ thể. Một trong những ứng dụng nổi bật của phân đoạn ảnh CT nằm trong lĩnh vực chẩn đoán y tế và lập kế hoạch điều trị. Bằng cách phân đoạn các hình ảnh CT, các chuyên gia y tế có thể phân loại và phân tích các cơ quan, mô hoặc tử cung cụ thể, cung cấp những thông tin quan trọng cho việc chẩn đoán chính xác và các chiến lược điều trị cá nhân hóa. Một số phân đoạn như Phân đoạn vị trí khối u bên trong não (U. Baid và cộng sự, 2021; R. Pitchai và cộng sự, 2021), phân đoạn mống mắt cho xác thực danh tính (K. Hao và cộng sự, 2020; Y. Chen và cộng sự, 2019), phân đoạn lồng ngực và quả tim (X. Zhuang và cộng sự, 2019, Z. Lambert và cộng sự, 2020). Điều này đặc biệt quan trọng trong các lĩnh vực như ung thư học, thần kinh học và chỉnh hình, nơi thông tin về cấu trúc cơ thể chi tiết là không thể thiếu. 728
Các kỹ thuật học sâu tiên tiến đã cải thiện đáng kể độ chính xác và hiệu suất của phân đoạn ảnh CT. Trong bài viết này, chúng tôi sẽ sử dụng hai mô hình học sâu cho nhiệm vụ phân đoạn hộp sọ từ hình ảnh CT: U-Net (O.Ronneberger và cộng sự, 2015) và LinkNet (A.Chaurasia và E. Culurciello, 2017). Cụ thể, chúng tôi sẽ huấn luyện những mô hình này trên hình ảnh hộp sọ CT được lưu trữ trong định dạng DICOM (DCM) và so sánh chúng để tìm ra mô hình ưu việt (Hình 1). Bộ dữ liệu chúng tôi sử dụng là The Cancer Imaging Archive (TCIA) (K. Clark và cộng sự, 2013), bao gồm hình ảnh hộp sọ CT và hình ảnh phân đoạn hộp sọ từ 209 bệnh nhân. 2. QUY TRÌNH VÀ MỘT SỐ THUẬT TOÁN LIÊN QUAN 2.1. Quy trình tạo phân đoạn tự động Chúng tôi đã phát triển một quy trình tự động để tạo phân đoạn hộp sọ dựa trên hình ảnh CT. Đầu tiên, chúng tôi sử dụng phương pháp thủ công để trích xuất cơ sở dữ liệu nhãn cho dự đoán. Sau đó, dữ liệu được sắp xếp và làm sạch để tạo thành bộ dữ liệu đầu vào cho các mô hình học sâu. Trong quá trình phân đoạn tự động hình ảnh, chúng tôi sử dụng hai mô hình học sâu là Unet và Linknet. Những mô hình này được áp dụng để phân đoạn tự động các vùng hộp sọ trong hình ảnh. Kết quả của quy trình này là một dự đoán về hộp sọ 3D, được mô phỏng và hiển thị trên phần mềm 3D Slicer. Qua quy trình này, chúng tôi đã tạo ra một phương pháp tự động để phân đoạn hộp sọ từ hình ảnh CT. Điều này giúp tăng tính hiệu quả và độ chính xác trong việc định vị và phân tích cấu trúc hộp sọ, cung cấp thông tin quan trọng cho chẩn đoán và điều trị các bệnh liên quan đến hộp sọ. Dữ liệu hình ảnh CT Dữ liệu Nhãn UNet LinkNet So sánh độ đo để chọn ra model tốt nhất Hình 1: Mô hình bài toán phân đoạn hộp sọ người 729
Các Bước Thực Hiện Mô Hình Bước 1: Chuẩn Bị Dữ Liệu Thu Thập Dữ Liệu Ảnh CT: Thu thập bộ dữ liệu gồm các ảnh CT và các mặt nạ phân đoạn tương ứng. Các mặt nạ này sẽ làm nổi bật các vùng quan tâm, chẳng hạn như cơ quan hoặc bất thường. Tiền Xử Lý Dữ Liệu: Chuẩn hóa: Chuẩn hóa giá trị pixel của các ảnh CT về một khoảng để cải thiện hiệu suất. Thay đổi kích thước: Thay đổi kích thước của các ảnh và mặt nạ để có cùng kích thước (ví dụ, 256x256) nếu chưa đồng nhất. Tăng cường dữ liệu: Áp dụng các kỹ thuật tăng cường dữ liệu (ví dụ, xoay, lật, thu phóng) để tăng sự đa dạng của bộ dữ liệu huấn luyện và cải thiện khả năng tổng quát hóa của mô hình. Bước 2: Chia Dữ Liệu Chia bộ dữ liệu thành các tập huấn luyện, kiểm định và kiểm tra. Một tỉ lệ chia phổ biến là 70% cho huấn luyện, 15% cho kiểm định, và 15% cho kiểm tra. Bước 3: Triển Khai Mô Hình Mô Hình U-Net: U-Net là một mạng convolutional được thiết kế cho phân đoạn hình ảnh y sinh. Nó bao gồm một đường đi co lại (encoder) và một đường đi mở rộng (decoder). Mô Hình LinkNet: LinkNet là một mạng convolutional khác được tối ưu hóa cho phân đoạn ngữ nghĩa với trọng tâm là duy trì các đặc điểm độ phân giải cao. Bước 4: Huấn Luyện Mô Hình Cài Đặt Huấn Luyện: Xác định hàm mất mát (ví dụ, Dice loss, Binary Cross-Entropy loss) và bộ tối ưu hóa (ví dụ, Adam, SGD). Đặt các siêu tham số như tốc độ học, kích thước batch, và số epoch. Huấn Luyện Các Mô Hình: Huấn luyện mô hình U-Net trên tập dữ liệu huấn luyện, sử dụng tập kiểm định để theo dõi hiệu suất và dừng sớm nếu cần. Tương tự, huấn luyện mô hình LinkNet trên cùng tập dữ liệu. Bước 5: Đánh Giá Mô Hình Đánh Giá Các Mô Hình: Đánh giá cả mô hình U-Net và LinkNet trên tập kiểm tra sử dụng các chỉ số như Dice coefficient, Intersection over Union (IoU), precision, recall, và F1-score. So Sánh: So sánh các chỉ số hiệu suất của cả hai mô hình để xác định mô hình nào hoạt động tốt hơn trong nhiệm vụ phân đoạn. Bước 6: Lựa Chọn Mô Hình Dựa trên các chỉ số đánh giá, chọn mô hình cung cấp hiệu suất tốt nhất cho trường hợp sử dụng cụ thể của bạn. 2.2 Dữ liệu Cơ sở dữ liệu được sử dụng trong nghiên cứu này được lấy từ Kho lưu trữ hình ảnh Ung thư (TCIA) (K. Clark và cộng sự, 2013). Trong bộ dữ liệu này bao gồm 209 bệnh nhân với hình 730
ảnh của 160 bệnh nhân nam, kết hợp với hình ảnh của 49 bệnh nhân nữ. Đây là hình ảnh CT quét ngang từ đỉnh đầu đến vùng ngực của các bệnh nhân với độ tuổi từ 34 tuổi đến 88 tuổi. Một quy trình xử lý thủ công để tạo phân đoạn hộp sọ được áp dụng với phần mềm 3D Slicer cho từng dữ liệu hình ảnh CT của từng bệnh nhân. Với việc sử dụng phần mềm 3D Slicer để trực quan hóa hình dạng 3D của hộp sọ, các thông số được chỉnh sửa cho phù hợp như tăng các điểm ảnh của vùng xương và giảm điểm ảnh của vùng mô mềm xung quanh. Ngoài ra những vị trí điểm ảnh bị khuyết hoặc dư thừa được vẽ lại hoặc xóa bỏ thủ công để làm mịn. Ở bước cuối cùng hình ảnh được đưa về một tọa độ chuẩn, kết hợp với việc kết xuất dữ liệu thành nhãn của dữ liệu. 2.3 Một số thuật toán học sâu được áp dụng Trong lĩnh vực phân đoạn hình ảnh y tế, chúng ta đã áp dụng một số thuật toán học sâu hiệu quả. Mạng Unet (O.Ronneberger và cộng sự, 2015) là một kiến trúc mạng nơ-ron tích chập được rộng rãi sử dụng trong các ứng dụng phân đoạn hình ảnh y tế. Mạng Unet kết hợp giữa các tầng thu phóng và tầng mở rộng để tạo ra kết quả phân đoạn chính xác. Trong ứng dụng phân đoạn hình ảnh CT y tế, mạng Unet được sử dụng để xác định và phân đoạn các vùng tương ứng với mô mềm và xương của hộp sọ trong ảnh CT. Điều này giúp giảm thời gian và chi phí trong quá trình phân đoạn hình ảnh y tế, hỗ trợ chẩn đoán và điều trị các bệnh liên quan đến hộp sọ. Hình 2: Cấu trúc mạng Unet Mạng Linknet (A.Chaurasia và E. Culurciello, 2017) là một kiến trúc mạng nơ-ron tích chập cũng được sử dụng để phân đoạn hình ảnh y tế, bao gồm phân đoạn hình ảnh hộp sọ từ dữ liệu CT. Mạng Linknet sử dụng các kỹ thuật tiên tiến như pooling đa chiều và upsampling để xử lý các vùng có kích thước lớn trong hình ảnh y tế. Điều này giúp mạng Linknet đạt được độ chính xác cao trong quá trình phân đoạn và cải thiện quá trình chẩn đoán và điều trị các bệnh liên quan đến hộp sọ, bao gồm cả ung thư và chấn thương sọ não. 731
Hình 3: Cấu trúc mạng Linknet (A.Chaurasia và E. Culurciello, 2017) Cả hai mạng Unet và mạng Linknet đều đóng vai trò quan trọng trong phân đoạn hình ảnh y tế, đem lại những lợi ích quan trọng cho lĩnh vực chẩn đoán và điều trị các bệnh hộp sọ. 2.4 Cách đánh giá độ chính xác của mô hình Bộ dữ liệu đã được chia thành hai phần, với 70% dùng cho việc huấn luyện và 30% dành cho việc kiểm tra. Để đảm bảo tính đáng tin cậy của mô hình, chúng tôi đã thực hiện xác thực chéo với 5 lần lặp trên bộ dữ liệu. Sau đó, chúng tôi tiến hành phân tích kết quả bằng cách đánh giá độ chính xác dựa trên các tham số như hàm mất mát và chỉ số độ chính xác (accuracy), độ đo F1 Score và IOU Score. Qua quá trình này, chúng tôi có thể đánh giá hiệu suất và độ tin cậy của mô hình trong việc phân loại dữ liệu. 3. ĐÁNH GIÁ THỰC NGHIỆM Quá trình tạo ngưỡng và xử lý hậu kỳ thủ công cho từng bộ dữ liệu ảnh CT đã được thực hiện một cách kỹ lưỡng. Để chọn các giá trị ngưỡng phù hợp, chúng tôi sử dụng thông tin về mật độ điểm ảnh của mô mềm (ví dụ: vỏ đầu) và xương vỏ não (tức là cấu trúc hộp sọ). Sử dụng giá trị mật độ điểm ảnh, chúng tôi xác định được vùng mô mềm và vùng xương vỏ não. Để thực hiện việc thực nghiệm mô hình phân đoạn hình ảnh hộp sọ tự động. Chúng tôi sử dụng ngôn ngữ lập trình Python (Python version: 3.6.5), một số thư viện hỗ trợ như keras, opencv, pydicom, numpy... để thực hiện một số tác vụ xử lý dữ liệu cần thiết cho mô hình thực hiện. Cấu hình máy tính chạy thực nghiệm trên laptop với cấu hình CPU Intel Core Intel(R) Core(TM) i5- 2410M_CPU_@_2.30GHz, 08 GB RAM, hệ điều hành Microsoft Windows 10 Ultimate. Việc huấn luyện và đánh giá mô hình phân đoạn hình ảnh từ hộp sọ tự động, chúng tôi sử dụng các độ đo quan trọng như Accuracy, F1 Score và Intersection over Union (IOU) Score. Các độ đo này cung cấp cái nhìn toàn diện về hiệu suất của mô hình trong việc phân đoạn và nhận dạng các cấu trúc trong hình ảnh y tế. Accuracy đo lường tỷ lệ phần trăm các pixel được phân đoạn chính xác, trong khi F1 Score kết hợp giữa precision và recall để đo lường sự cân 732
bằng giữa độ chính xác và độ phủ của mô hình. Cuối cùng, IOU Score đo độ chồng chéo giữa kết quả phân đoạn và thực tế, cung cấp một cái nhìn tổng quan về độ chính xác của việc phân đoạn đối với các cấu trúc quan trọng trong hình ảnh. Sự kết hợp của các độ đo này giúp chúng tôi đánh giá và cải thiện hiệu suất của mô hình phân đoạn hình ảnh từ hộp sọ tự động một cách toàn diện và đáng tin cậy. Thực tế Nhãn Negatives Positives True TN TP Dự đoán False FN FP Bảng 1. Tỉ lệ độ đo chính xác Trong đó: - TP (True Positives): Số lượng pixel dương thực sự được phân đoạn đúng. - TN (True Negatives): Số lượng pixel âm thực sự được phân đoạn đúng. - FP (False Positives): Số lượng pixel âm được phân đoạn nhưng thực sự là dương. - FN (False Negatives): Số lượng pixel dương được phân đoạn nhưng thực sự là âm. 𝑇𝑃+𝑇𝑁 𝑇𝑃 2 × 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑅𝑒𝑐𝑎𝑙𝑙 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝐼𝑂𝑈 = F1 = 𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 𝑇𝑃+𝐹𝑃+𝐹𝑁 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛+𝑅𝑒𝑐𝑎𝑙𝑙 Với: - Precision: Tỷ lệ các pixel dương thực sự được phân đoạn đúng so với tổng số pixel dương được phân đoạn. - Recall: Tỷ lệ các pixel dương thực sự được phân đoạn đúng so với tổng số pixel dương thực sự trong hình ảnh. Kết quả tương ứng chúng tôi thu được với 2 mạng chúng tôi đề xuất như sau xét về độ chính xác. 733
Hình 4: Trực quan history các độ đo của mạng Unet và Linknet Từ hình 4, có thể thấy rằng thuật toán Unet (đường màu xanh) và Linknet (đường màu đỏ) có hiệu suất khác nhau trên các chỉ số khác nhau: Loss (Mất mát) ta thấy Unet Giảm loss nhanh chóng và duy trì ở mức thấp, trong khi Linknet cũng giảm loss nhưng không nhanh bằng Unet. Accuracy (Độ chính xác) Cả hai thuật toán đều có độ chính xác tăng lên qua thời gian, với Linknet hơi cao hơn. F1 Score Độ chính xác của Linknet là cao hơn so với Unet, dù cả hai đều tăng lên qua từng epoch. IOU Score Tương tự như F1 Score, Linknet cũng hiển thị hiệu suất tốt hơn. Hình 5: Một số dự đoán của 2 mạng Unet và Linknet so với nhãn 4. KẾT LUẬN Trong bài báo này, chúng tôi đã tiến hành một so sánh kỹ lưỡng về hiệu suất của việc phân đoạn hộp sọ tự động bằng hai thuật toán Unet và Linknet. Kết quả cho thấy sự ưu thế của Linknet qua từng epoch, đặc biệt là trong các chỉ số đánh giá như F1 Score và IOU Score. Mặc dù mô hình của chúng tôi được thiết kế đơn giản, nhưng kết quả nghiên cứu đã cho thấy rằng cả Unet và Linknet đều có khả năng áp dụng vào thực tế trong việc phân đoạn hộp sọ tự động. Điều này cho thấy tính linh hoạt và tiềm năng của cả hai thuật toán trong ứng dụng y học và nhiều lĩnh vực khác đòi hỏi xử lý hình ảnh. Phân tích chi tiết về sự ưu nhược điểm của từng thuật toán trong bối cảnh cụ thể của việc phân đoạn hộp sọ tự động có thể là chìa khóa để tối ưu hóa hiệu suất và đảm bảo sự chính xác trong ứng dụng thực tế. TÀI LIỆU THAM KHẢO 1. Andre E, Katherine C, Serena Y, Nikhil N, Ali M, Ali M, Yun L, Eric T, Jeff D, Richard S (2021). Deep learning-enabled medical computer vision, npj Digital Medicine (2021) 4:5 ; https://doi.org/10.1038/s41746-020-00376-2 2. Derek L G H, Philipp G B, Mark H, David J H. Medical image registration, Phys. Med. Biol. 46 (2001) R1–R45, https://doi.org/10.1088/0031-9155/46/3/201 734
3. Kanchana R, Tony S, Michael A S, Beat S (2011). Effects of CT image segmentation methods on the accuracy of long bone 3D reconstructions, Medical Engineering & Physics Volume 33, Issue 2, March 2011, Pages 226-233, https://doi.org/10.1016/j.medengphy.2010.10.002 4. U. Baid et al. (2021), "The rsna-asnr-miccai brats 2021 benchmark on brain tumor segmentation and radiogenomic classification," arXiv preprint arXiv:2107.02314, 2021. 5. R. Pitchai, C. Madhu Babu, P. Supraja, and M. K. Challa (2021), "Cerebrum tumor segmentation of high resolution magnetic resonance images using 2Dconvolutional network with skull stripping," Neural Processing Letters, vol. 53, pp. 2567-2580, 2021. 6. K. Hao, G. Feng, Y. Ren, and X. Zhang (2020), "Iris segmentation using feature channel optimization for noisy environments," Cognitive Computation, vol. 12, pp. 1205- 1216, 2020. 7. Y. Chen et al. (2023), "Accurate iris segmentation and recognition using an end-to-end unified framework based on MADNet and DSANet," Neurocomputing, vol. 517, pp. 264-278, 2023. 8. X. Zhuang et al. (2019), "Evaluation of algorithms for multi-modality whole heart segmentation: an open-access grand challenge," Medical image analysis, vol. 58, p. 101537, 2019. 9. Z. Lambert, C. Petitjean, B. Dubray, and S. Kuan (2020), "Segthor: Segmentation of thoracic organs at risk in ct images," in 2020 Tenth International Conference on Image Processing Theory, Tools and Applications (IPTA), 2020: IEEE, pp. 1-6 10. O. Ronneberger, P. Fischer, and T. Brox (2015), "U-net: Convolutional networks for biomedical image segmentation," in Medical Image Computing and ComputerAssisted Intervention–MICCAI 2015: 18th International Conference, Munich, Germany, October 5-9, 2015, Proceedings, Part III 18, 2015: Springer, pp. 234- 241. 11. Chaurasia and E. Culurciello (2017), "Linknet: Exploiting encoder representations for efficient semantic segmentation," in 2017 IEEE visual communications and image processing (VCIP), 2017: IEEE, pp. 1-4. 12. K. Clark et al. (2013), "The Cancer Imaging Archive (TCIA): maintaining and operating a public information repository," Journal of digital imaging, vol. 26, pp. 1045- 1057, 2013. 735