intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Hệ hỗ trợ chẩn đoán loãng xương trên ảnh X quang cổ xương đùi dựa trên chỉ số SINGH

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:9

15
lượt xem
1
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết đề xuất xây dựng hệ thống chẩn đoán loãng xương sử dụng mô hình mạng nơron tích chập (CNNs) trên một tập ảnh X-quang cổ xương đùi bao gồm 32 mẫu và tiến hành các thử nghiệm dựa trên tập dữ liệu với khoảng 1765 ảnh X-quang cổ xương đùi.

Chủ đề:
Lưu

Nội dung Text: Hệ hỗ trợ chẩn đoán loãng xương trên ảnh X quang cổ xương đùi dựa trên chỉ số SINGH

  1. Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020 DOI: 10.15625/vap.2020.00163 HỆ HỖ TRỢ CHẨN ĐOÁN LOÃNG XƯƠNG TRÊN ẢNH X-QUANG CỔ XƯƠNG ĐÙI DỰA TRÊN CHỈ SỐ SINGH Trần Đình Toàn1, Nguyễn Thị Quỳnh Như2, Trần Văn Long3, Lê Minh Hưng3, Bùi Anh Thắng4 1 Trƣờng Đại học Công nghiệp Thực phẩm TP. HCM 2 Bệnh viện Chấn thƣơng Chỉnh hình TP. HCM 3 Trƣờng Đại học Công nghệ thông tin - ĐHQG TP. HCM 4 Đại học Y khoa Phạm Ngọc Thạch toantd@hufi.edu.vn, mdquynhnhu@gmail.com, longtv.13@grad.uit.edu.vn hunglm@uit.edu.vn, anhthangcdha@pnt.edu.vn TÓM TẮT: Loãng xương là căn bệnh phổ biến thứ hai trên thế giới theo International Osteoporosis Foundation (Tổ chức loãng xương quốc tế). Mật độ khoáng xương (BMD) đã được phổ biến và được dùng làm tiêu chuẩn vàng để chẩn đoán loãng xương. Tuy nhiên, kiểm tra BMD theo phương pháp DXA (Dual-Energy X-Ray Absorptiometry) rất đắt tiền và bắt buộc phải thực hiện trên các vùng xương khác nhau. Ở các nước đang phát triển, bác sĩ chủ yếu dựa vào ảnh X-quang để đánh giá nguy cơ loãng xương dựa trên chỉ số Singh (Singh Index) thông qua ảnh phóng xạ thớ xương của cổ xương đùi. Quá trình phân loại gặp nhiều thử thách do xuất hiện nhiễu của thớ xương. Hơn nữa, thớ xương ở hông bình thường được phân định rõ ràng, điều này dễ dẫn đến sự khác biệt lớn về kết quả chẩn đoán. Để đánh giá một cách khách quan nguy cơ loãng xương, trong nghiên cứu này chúng tôi đề xuất xây dựng hệ thống chẩn đoán loãng xương sử dụng mô hình mạng nơron tích chập (CNNs) trên một tập ảnh X-quang cổ xương đùi bao gồm 32 mẫu và tiến hành các thử nghiệm dựa trên tập dữ liệu với khoảng 1765 ảnh X-quang cổ xương đùi. Hệ thống phân loại đạt được độ chính xác là 91,01 %. Từ khóa: Osteoporosis, Singh Index, CNNs, Deep learning. I. GIỚI THIỆU Loãng xƣơng là nguyên nhân chính gây ra gãy xƣơng ở phụ nữ sau mãn kinh và ngƣời già, có khoảng 8,9 triệu ca gãy xƣơng mỗi năm. Ở châu Âu, gãy xƣơng gây ra nhiều tổn thất phổ biến hơn các bệnh ung thƣ ngoại trừ ung thƣ phổi [12]. Theo bản đồ canxi thế giới của Tổ chức loãng xƣơng quốc tế (IOF) ở những quốc gia đang phát triển lƣợng canxi trung bình trong khẩu phần ăn nhỏ hơn 400 mg/ngày ít hơn nhiều so với các nƣớc phát triển, điều này làm tăng nhiều hơn nguy cơ loãng xƣơng [2]. Trƣớc đây, quy trình chẩn đoán lâm sàng bệnh lý loãng xƣơng dựa trên việc loại trừ các bệnh khác khi có gãy xƣơng xảy ra. Gần đây, phƣơng pháp DXA để đo mật độ khoáng của xƣơng (BMD) ở cột sống và hông có vai trò quan trọng còn đƣợc gọi là “tiêu chuẩn vàng” [19] trong đánh giá bệnh nhân có nguy cơ loãng xƣơng, phƣơng pháp này có lợi thế vì sự đồng thuận về kết quả BMD có thể đƣợc giải thích bằng cách sử dụng định nghĩa T-score của Tổ chức Y tế Thế giới về bệnh loãng xƣơng và đã đƣợc chứng minh là có hiệu quả trong việc chẩn đoán nguy cơ gãy xƣơng [4]. Bên cạnh đó, phƣơng pháp tính định lƣợng quantitative computed tomography (QCT) ở cột sống để đo mật độ BMD giúp tránh việc đánh giá quá mức BMD bởi phƣơng pháp DXA liên quan thoái hóa cột sống, vôi hóa động mạnh chủ bụng và các tổn thƣơng xơ cứng khác [17]. Những năm gần đây, phƣơng pháp quét siêu âm định lƣợng Quantitative Ultrasound Scan (QUS) đƣợc đề xuất vì nó cho kết quả nhanh và chủ yếu là không dùng bức xạ, có thể sử dụng cho trẻ em [22]. Mặc dù vậy, QUS không thể áp dụng trên tất cả các vị trí của cơ thể (ví dụ nhƣ cột sống, thắt lƣng và cổ xƣơng đùi) nhƣng có thể dùng ở gót chân, QUS có thể thai thác từ các thiết bị di động và các thiết bị có sẵn thông dụng khác trong khi dùng phƣơng pháp DXA và QCT thì rất tốn kém. Mặc dù nguy cơ loãng xƣơng đƣợc xác định theo chỉ số BMD và sự suy giảm kiến trúc của mô xƣơng, BMD chỉ là một yếu tố để chẩn đoán nguy cơ loãng xƣơng. Tiền sử của cha mẹ bị gãy xƣơng (đặc biệt là xƣơng hông) là yếu tố đáng kể cần chú ý về lý do làm tăng nguy cơ gãy xƣơng, độc lập với yếu tố BMD [14]. Đặc điểm của các bệnh nhân nhƣ tuổi, chiều cao, cân nặng, chỉ số cơ thể (BMI) là minh chứng phù hợp cho việc tƣ vấn về bệnh loãng xƣơng cùng với các đặc điểm giải phẫu thu đƣợc từ số đo màng xƣơng (vỏ xƣơng) và xƣơng ngoài [6]. Singh và cộng sự đã đề xuất một hệ thống chấm điểm dựa trên sự xuất hiện những thay đổi của đầu trên thớ xƣơng đùi nhƣ một hệ thống đánh giá loãng xƣơng [25]. Phƣơng pháp dùng chỉ số Singh đánh giá trên ảnh X-quang đƣợc sử dụng rộng rãi trên khắp thế giới với chi phí phải chăng cho tất cả bệnh nhân kể cả vùng nông thôn ở các quốc gia đang phát triển. Trong nghiên cứu này, chúng tôi giới thiệu một tập ảnh cổ xƣơng đùi đã đƣợc thu thập từ các bệnh viện tại TP. HCM và các hƣớng dẫn điều chỉnh độ tƣơng phản có thể đƣợc sử dụng làm tài liệu tham khảo về phân loại bệnh loãng xƣơng dựa trên chỉ số Singh. Về mặt tự động hóa, mạng CNNs học sâu đã đƣợc sử dụng để phát hiện đốt sống bị chèn trên ảnh CT bằng cách phân đoạn cột sống, trích xuất các vùng bị tổn thƣơng (đốt sống bị chèn) và sau đó phân loại chúng thành các lớp nhị phân, nghiên cứu có khả năng kích hoạt các biện pháp phòng ngừa để giảm tỷ lệ gãy xƣơng hông trong tƣơng lai [3]. Trong khi đó, Li et al. [16] đã xây dựng một khung chuẩn để dự đoán loãng xƣơng và gãy xƣơng do các yếu tố nguy cơ có sẵn gồm nhân khẩu học, chế độ ăn uống, lối sống và liệu pháp. Với mô hình phân loại kết hợp phân biệt ngƣời loãng
  2. 150 HỆ HỖ TRỢ CHẨN ĐOÁN LOÃNG XƢƠNG TRÊN ẢNH X-QUANG CỔ XƢƠNG ĐÙI DỰA TRÊN CHỈ SỐ SINGH xƣơng với ngƣời khỏe mạnh, MBO-ANN (Monarch Butterfly Optimization) công cụ phân loại đã đƣợc xây dựng để phân loại dữ liệu về xƣơng từ những dữ liệu cột sống đoạn thắt lƣng và cổ xƣơng đùi [6]. Từ kết quả của các phƣơng pháp dựa trên mạng CNNs học sâu đƣợc ứng dụng trên các ảnh y tế, trong nghiên cứu này chúng tôi đã tiến hành các thử nghiệm bằng cách sử dụng mạng CNNs học sâu trên ảnh X-quang cổ xƣơng đùi và tiến hành hai thực nghiệm chính, mỗi thực nghiệm gồm 4 thực nghiệm phụ để đánh giá hiệu suất của các mạng CNNs (nhƣ: tinh chỉnh các khối, có mặt nạ hoặc không có mặt nạ) để phân biệt các lớp Singh. Những đóng góp của nghiên cứu này gồm: - Giới thiệu tập ảnh cổ xƣơng đùi đƣợc thu thập từ các bênh viện tại TP. HCM cho hệ thống đánh giá loãng xƣơng theo chỉ số Singh bao gồm 32 mẫu ảnh có thể đƣợc sử dụng nhƣ một tài liệu tham khảo trong quá trình chấm điểm loãng xƣơng theo chỉ số Singh. - Lần đầu tiên mạng CNNs học sâu đƣợc đƣa vào ứng dụng để đánh giá nguy cơ loãng xƣơng dựa vào cách phân loại theo chỉ số Singh. - Phát triển một ứng dụng với giao diện thân thiện có tên là Microh Studio để hỗ trợ các bác sĩ và chuyên gia X- quang trong việc xử lý ảnh X-quang xƣơng chậu/hông và đánh giá loãng xƣơng dựa vào cổ xƣơng đùi. Bài báo đƣợc trình bày gồm phần 1 giới thiệu và các công việc liên quan, các phƣơng pháp đƣợc sử dụng trong nghiên cứu này cùng với các thực nghiệm và các thảo luận đƣợc thể hiện trong phần 2. Phần 3 là phần kết luận và hƣớng phát triển. II. PHƯƠNG PHÁP 2.1. Bộ dữ liệu Bộ dữ liệu gốc gồm 2296 ảnh đƣợc thu thập từ các Bệnh viện tại Thành phố Hồ Chí Minh. Theo đó, các nghiên cứu có chứa ảnh xƣơng đùi gần chủ yếu đƣợc kí hiệu là HIP hoặc PELVIS đã đƣợc chọn, với việc loại bỏ các ảnh xƣơng mờ, tập dữ liệu còn lại chứa 1234 ảnh DICOM là ảnh phía trƣớc hoặc phía sau cổ xƣơng đùi và 531 ảnh cổ xƣơng đùi của các bệnh nhân vào viện với ít nhất 1 lần gãy xƣơng. Do đó, cộng với 1148 ảnh DICOM tạo ra 1765 ảnh thay vì 2296 ảnh. Singh [25] không đề xuất một tài liệu tham khảo thích hợp nào về hình dạng của ảnh khi phân loại bằng chỉ số Singh. Trong nghiên cứu này, dạng hình vuông đƣợc chọn vì hầu hết các mạng CNNs học sâu đều yêu cầu đầu vào là các mẫu hình vuông. Chúng tôi sử dụng Microh Studio cho gán nhãn và phân đoạn ảnh, ứng dụng ITK-Snap phổ biến và nổi tiếng (Yushkevich et al., 2006) đƣợc sử dụng làm công cụ hỗ trợ. 2.2. Chuẩn bị dữ liệu Chứng béo phì là một trong những yếu tố chính gây cản trở chẩn đoán chính xác nhiều loại bệnh ở ngƣời [28]. Trong nghiên cứu này, chúng tôi đã loại bỏ ảnh xƣơng của các bệnh nhân này vì không thể tinh chỉnh để quan sát đƣợc thớ xƣơng của họ. Bên cạnh đó, chất lƣợng quét X-quang phụ thuộc rất nhiều vào kinh nghiệm thực hiện của kỹ thuật viên. Trên các mẫu bị mờ, sự hiện diện của Primary Compressive Trabeculae (PCT) đƣợc đánh giá thông qua độ trong của lớp vỏ xƣơng. Do đó, các mẫu có cả PCT mờ và lớp vỏ xƣơng đều bị bỏ qua. Mặt khác, lớp vỏ xƣơng có thể quan sát rõ ràng cho thấy loãng xƣơng nặng nếu không có PCT. Để hƣớng dẫn các kỹ thuật viên thực hiện, Singh đã đề nghị quét xƣơng đùi nên quay nhẹ xƣơng đùi vào bên trong là một cách đáng tin cậy để cho kết quả ảnh tốt. Trong nghiên cứu này, cũng đề xuất một quy ƣớc cho các kỹ thuật viên khi tác nghiệp là hạn chế che đầu xƣơng đùi để cho ra kết quả các ảnh rõ nét và chất lƣợng hơn. 2.3 . Tiền xử lý dữ liệu Đầu tiên, các giá trị pixel dịch chuyển để đảm bảo rằng giá trị thấp nhất là 0 sau đó đƣợc điều chỉnh thủ công theo yêu cầu, thao tác này gọi là điều chỉnh window/level. Trong nghiên cứu này, ký hiệu Left và Right tƣơng ứng là giới hạn dƣới và trên của ảnh, đƣợc tính theo công thức sau: Các pixel từ trái sang phải đƣợc chia tỷ lệ cố định trong phạm vi [0, 255]. Do đó, kích thƣớc cửa sổ phải nhỏ hơn 256 để duy trì thông tin. Hình 1 minh hoạ biểu đồ điều chỉnh window/level của tập dữ liệu. Sau khi điều chỉnh window/level, các cổ xƣơng đùi đƣợc xoay theo chiều dọc vì thớ xƣơng có đặc tính định hƣớng. Vùng quan tâm (ROI) của cổ xƣơng đùi ở độ phân giải khác nhau đƣợc chia tỷ lệ thành [299 299] để phù hợp với yêu cầu đầu vào của mạng Inception-V3.
  3. Trần Đình Toàn, Nguyễn Thị Quỳnh Nhƣ, Trần Văn Long, Lê Minh Hƣng, Bùi Anh Thắng 151 Hình 1. Biểu đồ điều chỉnh window/level của dữ liệu đã thu thập 2.4. Tập biểu đồ ảnh để phân loại chỉ số Singh (Image Atlas for Singh Index grading) Theo Singh, mức độ loãng xƣơng ở ngƣời đƣợc phân thành sáu cấp tùy thuộc vào các đặc tính của nhóm thớ xƣơng: Hình 2. Singh index Grade 1-6 [25] - Grade 6: Tất cả các thớ xƣơng đều có thể nhìn thấy rõ ràng. - Grade 5: Thớ xƣơng bị nén phụ phân định chƣa rõ ràng. - Grade 4: Các rãnh kéo chéo bị giảm số lƣợng. - Grade 3: Rãnh kéo chéo bị đứt gãy hoàn toàn. - Grade 2: Thớ xƣơng chính bị nén nổi bật, còn lại mất (hấp thụ) hoàn toàn. - Grade 1: Thớ xƣơng chính bị giảm số lƣợng và không còn nổi bật. Tuy nhiên, điểm càng thấp đƣợc đƣa ra dựa trên đặc điểm của các thuộc tính này, các phép gán nhãn inter- variant và intra-variant là rất cao. Để thực hiện gán nhãn có hiệu quả, trong nghiên cứu này đã giới thiệu một bộ mẫu, giúp gán nhãn nhanh hơn và nhất quán hơn, đƣợc thiết lập dựa trên định nghĩa lớp Singh. Do sự mất cân bằng về phân phối số lƣợng ảnh ở mỗi lớp, chúng tôi gom và chia thành ba lớp chính là Grade 1, Grade 2 và 3, và Grade 4, 5 và 6 và đƣợc ký hiệu lần lƣợt là lớp A, B và C. Hình 3 hiển thị các mẫu trên một số ảnh trong tập bản đồ ảnh. Bảng 1 cho thấy sự phân phối số lƣợng ảnh ở các lớp.
  4. 152 HỆ HỖ TRỢ CHẨN ĐOÁN LOÃNG XƢƠNG TRÊN ẢNH X-QUANG CỔ XƢƠNG ĐÙI DỰA TRÊN CHỈ SỐ SINGH Hình 3. Phân nhóm ảnh X-quang cổ xƣơng đùi để phân loại theo chỉ số Singh Bảng 1. Kết quả phân loại chỉ số Singh của bộ dữ liệu Grade Singh grade Caption Number of images Grade A Grade 1 High-risk of osteoporosis 229 Grade B Grade 2 and 3 Risk of osteoporosis 793 Grade C Grade 4, 5 and 6 No risk of osteoporosis 743 2.5. Chia dữ liệu Bộ dữ liệu gồm 1765 ảnh đƣợc chia 80 % cho tập huấn luyện, 10 % cho tập thử nghiệm, 10 % cho tập đánh giá. Tập thử nghiệm đƣợc giữ cho đến khi xác định đƣợc mô hình tốt nhất cho giai đoạn thử nghiệm. Tập dữ liệu gốc đƣợc đặt là OP và MP là phần đã đƣợc loại bỏ nền trên dữ liệu cổ xƣơng đùi. Cả OP và MP đều đƣợc xử lý riêng biệt, thực nghiệm trên các mô hình với cấu hình giống nhau để xác định đƣợc hiệu suất phân loại. Bảng 2 cho thấy sự phân bố của cả hai bộ dữ liệu OP và MP. Bảng 2. Phân bố dữ liệu của các tập con Grade Train set Validation set Test set Grade A 183 23 23 Grade B 634 79 80 Grade C 595 73 75
  5. Trần Đình Toàn, Nguyễn Thị Quỳnh Nhƣ, Trần Văn Long, Lê Minh Hƣng, Bùi Anh Thắng 153 2.6. Đánh giá 2.6.1 . Phân đoạn Bên cạnh độ chính xác của pixel, giao điểm trên tỉ lệ hợp nhất chỉ số Jaccard và điểm Dice đƣợc tính theo công thức sau: ( ) 2.6.2 . Phân lớp (loại) Vì số lƣợng ảnh trong mỗi lớp không cân bằng, các chỉ số đánh giá theo lớp đƣợc sử dụng để đánh giá hiệu suất của hệ thống, đó là average accuracy, per-class error rate, macro precision, macro recall và macro F1 score, đƣợc tính theo công thức sau: ∑ ∑ ∑ ∑ 2.7. Thực nghiệm Mạng Inception-V3 đã đƣợc áp dụng rộng rãi trong các hệ thống hỗ trợ bác sĩ chẩn đoán bệnh [7], [8], [15], [21], [23], [27]. Mặc dù các mạng nơron sâu mới nhất đã đƣợc sử dụng ngoài Inception-V3, ví dụ nhƣ: Inception-V4, Inception-ResnetV2 [26], hay PNASNet-5 Large 331 [20], trong nghiên cứu này chúng tôi vẫn sử dụng Inception-V3 [27] vì nó đã đƣợc trình bày rõ ràng và cho thấy hiệu suất cao trong thực hiện phân loại. Trong nghiên cứu này, véc tơ đặc trƣng đƣợc trích xuất và thiết kế để phân loại 1000 lớp trong tập dữ liệu ImageNet [5], sẽ đƣợc sửa đổi thành 3 lớp. Bên cạnh đó, ba khối cuối cùng của mạng Inception-V3 đƣợc tinh chỉnh để giúp tìm ra kết quả với mô hình tốt nhất, Hình 4 minh họa kiến trúc của Inception-V3. Hình 4. Inception-V3 (Szegedy et al. 2016) với bộ phân loại tuỳ chỉnh Các mô hình đƣợc huấn luyện với cả tập dữ liệu OP và MP trong khi cấu hình không thay đổi. Mô hình do MP huấn luyện giúp xác định xem loại bỏ nền có thể đóng góp vào việc cải thiện nhiệm vụ phân loại hay không. Do đó, các thí nghiệm với mạng Mask-RCNN [10] đƣợc thực hiện để tạo ra ảnh cổ xƣơng đùi không có nền trên tập dữ liệu thử nghiệm. Mạng Mask-RCNN đƣợc chọn vì mạng Mask-RCNN hay R-CNN đã đƣợc áp dụng rộng rãi trong nhiều nhiệm vụ phân đoạn [9][13][20][24] và đã đạt đƣợc kết quả tốt với bộ dữ liệu công khai COCO [18].
  6. 154 HỆ HỖ TRỢ CHẨN ĐOÁN LOÃNG XƢƠNG TRÊN ẢNH X-QUANG CỔ XƢƠNG ĐÙI DỰA TRÊN CHỈ SỐ SINGH Tuy nhiên, Mask-RCNN không đƣợc sử dụng cho cả hai nhiệm vụ của phân đoạn cổ xƣơng đùi và phân loại theo chỉ số Singh vì Mask-RCNN ban đầu đƣợc thiết kế cho các nhiệm vụ phát hiện và phân loại trong khi phân đoạn là một nhánh phụ trợ của kiến trúc. Giai đoạn phân đoạn chỉ đƣợc thực hiện nếu bộ phân loại đƣa ra giá trị đủ tin cậy xác suất cho thấy sự hiện diện của một đối tƣợng thuộc một lớp xác định. Trong khi đó, cốt lõi của Mask-RCNN là Resnet-101 [11], vƣợt trội hơn so với Inception-V3 trên bộ dữ liệu ILSVRC-2012-CLS. Trong nhiều nghiên cứu cho thấy phân đoạn giúp cải thiện hiệu suất phân loại. Có thể là do các tính năng đƣợc trích xuất tập trung hơn và dễ phân biệt hơn, làm giảm hiệu ứng của nền. Vì hiệu suất cuối cùng của bộ phân loại trên tập MP phụ thuộc nhiều vào hiệu suất của mô hình mạng Mask-RCNN, bộ phân loại trên tập OP vẫn đƣợc yêu cầu làm cơ sở để đánh giá hiệu suất tổng thể của bộ phân loại đƣợc huấn luyện trên tập dữ liệu MP. Mạng Mask-RCNN đƣợc huấn luyện với kích thƣớc đầu vào [128 x 128] giúp ngăn chặn sự không liền mạch (răng cƣa) trong khi giữ cho mặt nạ đƣợc tạo đủ chi tiết, đồng thời giúp việc huấn luyện nhanh hơn. Đầu tiên RPN và đầu mặt nạ đƣợc huấn luyện và sau đó các giai đoạn quan trọng (xƣơng sống) đƣợc tinh chỉnh cho đến khi độ chính xác xác thực ngừng tăng lên. Để triển khai, mạng Inception-V3 với bộ phân loại đƣợc thiết lập dùng TensorFlow và Mask-RCNN [1]. Các mô hình này đƣợc huấn luyện trên hệ thống gồm một card GeForce RTX-2080 cộng với RAM 16GB và CPU Intel Core I7. Trong mỗi thử nghiệm, quá trình huấn luyện bị chấm dứt sau khi mất huấn luyện hoặc mất xác thực không cải thiện trong ít nhất 10 epochs. Bộ phân loại tùy chỉnh của mạng Inception-V3 mất khoảng 5 phút để huấn luyện và khối khởi động mất 30-50 phút để tinh chỉnh. Đối với mạng Mask-RCNN, mất 5 phút để huấn luyện 1 epoch. 2.8. Giai đoạn huấn luyện 2.8.1. Xác thực kết quả với MASK-RCNN Đầu tiên, mạng MASK-RCNN đƣợc huấn luyện với 12 epochs. Sau đó, giai đoạn 5 đƣợc tinh chỉnh trong 1 epoch. Kết quả của mô hình là 0,9299 trên chỉ số Jaccard. Hình 5 cho thấy một số kết quả phân đoạn đƣợc tạo bởi mạng Mask-RCNN (đƣờng màu xanh lam) so với thực tế (đƣờng màu đỏ). Có thể quan sát thấy rằng mặt nạ đƣợc tạo ra có thể chấp nhận đƣợc vì nó có thể bao phủ toàn bộ xƣơng đùi gần cũng nhƣ xƣơng chày. Hình 5. Kết quả của mẫu phân đoạn đƣợc thực hiện trên mạng Mask-RCNN 2.8.2 . Xác thực kết quả với Inception-V3 và phân lớp Kết quả phân loại trên các bộ xác thực đƣợc tóm tắt trong Bảng 3. Hiệu suất phân loại cao nhất đạt đƣợc ở cả tập dữ liệu OP và MP khi tinh chỉnh hai môđun C của mạng Inception-V3. Do đó, trong nghiên cứu này đã chọn mô hình này cho giai đoạn thử nghiệm. Việc huấn luyện và mất xác thực xuất phát từ giai đoạn huấn luyện của thử nghiệm thứ ba (tinh chỉnh hai môđun khởi động C) đƣợc vẽ trong Hình 5. Quá trình huấn luyện kết thúc khi hàm mất mát trên tập huấn luyện hoặc hàm mát trên tập đánh giá không cải thiện trong ít nhất 10 epochs. Bảng 3. Kết quả đánh giá Incetipon-V3 và trình phân loại Block(s) to fine-tune OP validation accuracy MP validation accuracy Clasifier 0.8743 0.8971 Last Module C 0.8857 0.9314 Two Modules C 0.9029 0.9486 Two Modules C and Grid Size Reduction 0.8857 0.9371 2.9. Giai đoạn kiểm thử Giai đoạn kiểm thử đƣợc thực hiện trên 2 nhiệm vụ là phân đoạn và phân loại. Mặt nạ phân đoạn đƣợc tạo bởi mạng Mask-RCNN đƣợc sử dụng cho nhiệm vụ phân loại. Trong phân loại, chúng tôi đã so sánh hiệu suất phân loại có mặt nạ và không có mặt nạ. Việc phân đoạn bằng mạng Mask-RCNN đạt đƣợc hiệu suất rất cao với độ chính xác điểm ảnh là 95,53 %, chỉ số Jaccard là 92,89 % và điểm Dice là 96,29 %. Kết quả cho thấy mặt nạ đƣợc tạo bởi Mask-
  7. Trần Đình Toàn, Nguyễn Thị Quỳnh Nhƣ, Trần Văn Long, Lê Minh Hƣng, Bùi Anh Thắng 155 RCNN dễ chấp nhận hơn so với mặt nạ thật đƣợc tạo thủ công và rõ ràng bao gồm các biến thể. Sau đó, mặt nạ đƣợc nhân với bản gốc để loại trừ nền có thể ảnh hƣởng đến hiệu suất phân loại và giúp phân loại của Inception-V3 tập trung vào vùng quan tâm (ROI) và giảm thời gian huấn luyện. Tuy nhiên, trong giai đoạn thử nghiệm, phân loại không có mặt nạ đạt đƣợc độ chính xác 91,01 %, cao hơn 2 % so với phân loại có mặt nạ. Bảng 4 là ma trận nhầm lẫn x của các kết quả phân loại trên tập thử nghiệm của cả tập dữ liệu OP và MP. Bảng 5 tóm tắt kết quả của giai đoạn thử nghiệm trên cả hai nhiệm vụ phân đoạn và phân loại. Bảng 4. Ma trận nhầm lẫn trên bộ thử nghiệm của OP và MP Confusion matrix Predicted Grade Confusion matrix Predicted Grade on OP test set A B C on MP test set A B C A 22 1 0 A 20 2 1 Actual Grade B 7 70 3 Actual Grade B 10 65 5 C 1 4 70 C 0 2 73 Bảng 5. Kết quả của giai đoạn thử nghiệm về phân đoạn và phân loại Segmentation Classification Pixel Jaccard Dice Average Error Macro Macro Macro accuracy index score Dataset Accuracy accuracy rate precision recall F1 Score 0.9553 0.9289 0.9629 OP 0.9101 0.9401 0.0599 0.8752 0.9216 0.8978 MP 0.8876 0.9251 0.0749 0.8843 0.8851 0.8642 Tăng cƣờng dữ liệu thƣờng là quy trình đƣợc khuyến nghị nhất để giúp cải thiện hiệu suất của các mô hình. Vì lớp A có ít mẫu nhất, nên mức tăng cƣờng là thực hiện bằng cách lật ảnh theo chiều dọc. Tuy nhiên, mô hình đƣợc trang bị quá mức sau một vài epochs và độ chính xác xác thực thấp hơn nhiều so với mô hình đƣợc huấn luyện với tập dữ liệu đơn giản, mặc dù ma trận nhầm lẫn trên tập hợp xác thực cho thấy hầu hết các phân loại sai đƣợc thực hiện trên cấp độ A so với cấp độ B. Mặt khác, tinh chỉnh giúp giảm ảnh hƣởng của tập dữ liệu không cân bằng nhƣ trong Bảng 6 và Bảng 7. Trong quá trình nghiên cứu với kết quả có đƣợc cho thấy hiệu suất phân loại trên tập dữ liệu OP cao hơn trên tập dữ liệu MP. Có thể do kết quả trên tập dữ liệu MP phụ thuộc rất nhiều vào mặt nạ đƣợc tạo bởi mạng Mask-RCNN trong khi ở trƣờng hợp này, mô hình tốt nhất trên tập dữ liệu OP là đủ mạnh với các biến thể của bộ dữ liệu thử nghiệm. Bảng 6. Ma trận nhầm lẫn xác thực trên bộ dữ liệu OP trƣớc và sau khi tinh chỉnh Confusion matrix on validation Predicted Grade Confusion matrix on validation set with 2 Predicted Grade set with trained classifier A B C fine-tuned modules A B C A 11 10 2 A 13 9 1 Actual Grade B 1 74 4 Actual Grade B 0 77 2 C 1 4 68 C 2 3 68 Bảng 7. Ma trận nhầm lẫn trên OP data trƣớc và sau khi tinh chỉnh Confusion matrix on validation Predicted Grade Confusion matrix on validation set with 2 Predicted Grade set with trained classifier A B C fine-tuned modules A B C A 15 8 0 A 19 4 0 Actual Grade B 0 74 5 Actual Grade B 0 77 2 C 0 5 68 C 2 1 70 III. KẾT LUẬN Trong nghiên cứu này, chúng tôi đã đề xuất mô hình hệ thống sử dụng mạng CNN sâu và tiến hành nhiều thực nghiệm kiểm tra hiệu suất của mạng CNN sâu trên các tác vụ khác nhau từ ảnh X-quang cổ xƣơng đùi. Mô hình đề xuất đã đạt đƣợc hiệu suất cao trong phân loại theo chỉ số Singh. Trong quá trình chuẩn bị dữ liệu, với kết quả có đƣợc cho thấy mặc dù sự xuất hiện của thớ xƣơng khá dễ dàng để cho điểm dựa trên hệ thống chỉ số Singh nhƣng kết quả phân loại luôn mang lại sự thay đổi cao giữa các biến thể và biến thể nội bộ. Huấn luyện những ảnh đó làm cho mô hình CNN không thể trích xuất các đặc điểm phân biệt giữa tất cả các lớp học. Do đó, nghiên cứu này đã tạo một tập ảnh giúp giảm thiểu các biến thể giữa các chuyên gia. Tất cả các ảnh phải đƣợc điều chỉnh chắc chắn để khớp với một trong các ảnh của bộ ảnh mẫu. Bộ ảnh này có thể đƣợc sử dụng thêm cho mục đích phân loại và đánh giá nguy cơ loãng xƣơng. Mô hình với nhân mặt nạ cho hiệu suất tốt trên bộ xác thực. Hiệu suất trên bộ thử nghiệm phụ thuộc rất nhiều trên mặt nạ đƣợc tạo bởi mạng Mask-RCNN. Trong trƣờng hợp này, mô hình trên tập dữ liệu OP hiệu quả với tập thử nghiệm. Trong khi đó, mô hình đơn giản cho hiệu suất hợp lý với yêu cầu ít quy trình hơn trong việc chuẩn bị tập dữ liệu. Từ kết quả nghiên cứu này với hy vọng sẽ cung cấp một chuẩn tốt về lập chỉ mục Singh tự động trên ảnh X-quang cổ xƣơng đùi trong hỗ trợ chẩn đoán loãng xƣơng.
  8. 156 HỆ HỖ TRỢ CHẨN ĐOÁN LOÃNG XƢƠNG TRÊN ẢNH X-QUANG CỔ XƢƠNG ĐÙI DỰA TRÊN CHỈ SỐ SINGH Trong tƣơng lai, chúng tôi tiếp tục nghiên cứu các phƣơng pháp mới và cải tiến mô hình đã đề xuất để có đƣợc kết quả với độ chính xác cao hơn. IV. LỜI CẢM ƠN Bài báo được hoàn thành dưới sự hỗ trợ của Đề tài VAST-1.03/19-20 của Viện Hàn lâm Khoa học và Công nghệ Việt Nam. TÀI LIỆU THAM KHẢO [1] Abdulla, Waleed, "Mask R-CNN for object detection and instance segmentation on keras and tensorflow", 2017. [2] Balk, E. M., "Global dietary calcium intake among adults: a systematic review", Osteoporosis International 28.12: 3315-3324, 2017. [3] Bar, Amir, "Compression fractures detection on CT", Medical Imaging 2017: Computer-Aided Diagnosis. Vol. 10134. International Society for Optics and Photonics, 2017. [4] Blake, Glen M., Fogelman, "The role of DXA bone density scans in the diagnosis and treatment of osteoporosis", Postgraduate Medical Journal 83.982: 509-517, 2007. [5] Deng, Jia, "Imagenet: A large-scale hierarchical image database", 2009 IEEE conference on computer vision and pattern recognition. IEEE, 2009. [6] Devikanniga, R. Joshua Samuel Raj, "Classification of osteoporosis by artificial neural network based on monarch butterfly optimisation algorithm", Healthcare technology letters 5.2: 70-75, 2018. [7] Ding, Yiming, "A deep learning model to predict a diagnosis of Alzheimer disease by using 18F-FDG PET of the brain", Radiology 290.2: 456-464, 2019. [8] Golatkar, Aditya, Deepak Anand, Amit Sethi, "Classification of breast cancer histology using deep learning", International Conference Image Analysis and Recognition. Springer, Cham, 2018. [9] Guo, Yanming, "A review of semantic segmentation using deep neural networks", International journal of multimedia information retrieval 7.2: 87-93, 2018. [10] He, Kaiming, "Mask R-CNN", Proceedings of the IEEE international conference on computer vision. 2017. [11] He, Kaiming, "Deep residual learning for image recognition", Proceedings of the IEEE conference on computer vision and pattern recognition, 2016. [12] Johnell, Olof, J. A. Kanis, "An estimate of the worldwide prevalence and disability associated with osteoporotic fractures", Osteoporosis international 17.12: 1726-1733, 2006. [13] Johnson, Jeremiah W., "Adapting Mask-RCNN for automatic nucleus segmentation", arXiv preprint arXiv:1805.00500, 2018. [14] Kanis, J. A., "A family history of fracture and fracture risk: a meta-analysis", Bone 35.5: 1029-1037, 2004. [15] Kieffer, Brady, "Convolutional neural networks for histopathology image classification: Training vs. using pre- trained networks", 2017 Seventh International Conference on Image Processing Theory, Tools and Applications (IPTA). IEEE, 2017. [16] Li, Hui, "Prediction and informative risk factor selection of bone diseases", IEEE/ACM Transactions on Computational Biology and Bioinformatics 12.1: 79-91, 2014. [17] Li, Na, "Comparison of QCT and DXA: osteoporosis detection rates in postmenopausal women", International Journal of Endocrinology 2013, 2013. [18] Lin, Tsung-Yi, "Microsoft coco: Common objects in context", European conference on computer vision. Springer, Cham, 2014. [19] Liu, Chenxi, "Progressive neural architecture search", Proceedings of the European Conference on Computer Vision (ECCV), 2018. [20] Liu, Jun, PengFei Li., "A Mask R-CNN model with improved region proposal network for medical ultrasound image", International Conference on Intelligent Computing. Springer, Cham, 2018. [21] Mednikov, Yuval, "Transfer representation learning using Inception-V3 for the detection of masses in mammography", 2018 40th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC). IEEE, 2018. [22] Pisani, Paola, "Screening and early diagnosis of osteoporosis through X-ray and ultrasound based techniques", World journal of radiology 5.11: 398, 2013. [23] Qu, Jia, "Gastric pathology image classification using stepwise fine-tuning for deep neural networks", Journal of healthcare engineering 2018, 2018. [24] Rohit Malhotra, Kumar, "Autonomous detection of disruptions in the intensive care unit using deep mask R- CNN", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2018.
  9. Trần Đình Toàn, Nguyễn Thị Quỳnh Nhƣ, Trần Văn Long, Lê Minh Hƣng, Bùi Anh Thắng 157 [25] Singh, Manmohan, A_R Nagrath, Px˙ S. Maini., "Changes in trabecular pattern of the upper end of the femur as an index of osteoporosis", JBJS 52.3: 457-467, 1970. [26] Szegedy, Christian, "Inception-V4, inception-resnet and the impact of residual connections on learning", arXiv preprint arXiv:1602.07261, 2016. [27] Szegedy, Christian, "Rethinking the inception architecture for computer vision", Proceedings of the IEEE conference on computer vision and pattern recognition, 2016. [28] Yanch, Jacquelyn C., "Increased radiation dose to overweight and obese patients from radiographic examinations", Radiology 252.1: 128-139, 2009. OSTEOPOROSIS DIAGNOSE SYSTEM ON FEMORAL NECK X-RAY IMAGE BASED ON SINGH INDEX Tran Dinh Toan, Nguyen Thi Quynh Nhu, Tran Văn Long, Le Minh Hung, Bui Anh Thang ABSTRACT: Osteoporosis is the second most common disease in the world according to the International Osteoporosis Foundation. Bone mineral density (BMD) has been popularized and is used as the gold standard for diagnosing osteoporosis. However, Dual-Energy X-Ray Absorptiometry (DXA) testing is very expensive and must be performed on different bone areas. In developing countries, doctors mainly rely on X-Ray imaging to assess osteoporosis risk based on the Singh Index through radiological images of bone fibers of the femoral neck. The classification process faced many challenges due to the appearance of interference from bone fibers. Furthermore, the bone fibers of the normal hip are clearly delineated, which can easily lead to a large difference in diagnosis results. In order to objectively assess the risk of osteoporosis, in this study we propose building a diagnostic system for osteoporosis using the convolutional neural network (CNNs) model on a neck X-Ray image set. The femur consisted of 32 samples and conducted tests based on a dataset of approximately 1765 femoral neck X-rays. The classification system achieves an accuracy of 91.01 %.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
16=>1