intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Phương pháp học khuếch tán và tổng hợp đặc trưng cho bài toán nhận dạng sâu răng

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:3

3
lượt xem
1
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Nghiên cứu này ứng dụng phương pháp học khuếch tán và tổng hợp đặc trưng để giải quyết bài toán nhận dạng sâu răng từ hình ảnh X-quang. Phương pháp học khuếch tán giúp lan truyền thông tin và đặc trưng trong không gian hình ảnh, tăng cường độ chính xác trong việc phát hiện các dấu hiệu của sâu răng. Kết hợp với các kỹ thuật tổng hợp đặc trưng, mô hình có thể nhận diện các khu vực bị ảnh hưởng và phân loại mức độ tổn thương.

Chủ đề:
Lưu

Nội dung Text: Phương pháp học khuếch tán và tổng hợp đặc trưng cho bài toán nhận dạng sâu răng

  1. Tuyển tập Hội nghị Khoa học thường niên năm 2024. ISBN: 978-604-82-8175-5 PHƯƠNG PHÁP HỌC KHUẾCH TÁN VÀ TỔNG HỢP ĐẶC TRƯNG CHO BÀI TOÁN NHẬN DẠNG SÂU RĂNG Trần Anh Đạt, Nguyễn Quang Dũng Trường Đại học Thủy lợi, email: dat.trananh@tlu.edu.vn 1. GIỚI THIỆU Hình 1 minh họa khung của mô hình chúng tôi đề xuất. Chúng tôi sử dụng DiffusionDet Trong nha khoa, nhiệm vụ thường xuyên [3], mô hình này phát hiện đối tượng như một là ghi nhận, phát hiện và chuẩn đoán sâu quá trình khuếch tán khử nhiễu từ các khung răng. Mặc dù các phương pháp kiểm tra trực ồn thành các khung đối tượng. Bên cạnh đó, quan từ bác sỹ nha khoa là phương pháp ưu chúng tôi thiết kế một bộ phát hiện đa nhãn tiên để phát hiện sâu răng. Việc phân tích với các lớp phân loại có thể thích ứng. chụp phim kỹ thuật số trong miệng dưới dạng có thể phân tích bằng máy tính hỗ trợ mục 2.1. Mô hình cơ sở đích chuẩn đoán là những yêu cầu cơ bản Phương pháp DiffusionDet [3] bao gồm trong chuẩn đoán lâm sàng. Những năm gần hai thành phần thiết yếu: bộ mã hóa hình ảnh đây trí tuệ nhân tạo (AI) được phát triển và trích xuất các đặc trưng cấp cao từ hình ảnh tác động lớn tới việc phân tích hình ảnh tự gốc và bộ giải mã phát hiện tinh chỉnh dự động. Do đó, nhóm nghiên cứu chúng tôi đã đoán khung từ các khung ồn thông qua các xây dựng một mô hình bằng hai công nghệ đặc trưng đó. dựa trên AI là mô hình khuếch tán [3] và mô hình phát hiện sâu răng để giúp nâng cao các 2.2. Kiến trúc mô hình kỹ thuật khám lâm sàng một cách tự động. Để cải thiện hiệu quả tính toán, DiffusionDet 2. MÔ HÌNH ĐỀ XUẤT [3] được chia thành hai phần: bộ mã hóa hình ảnh và bộ giải mã phát hiện. Khử nhiễu lặp lại chỉ được áp dụng cho bộ giải mã phát hiện, sử dụng đầu ra của bộ mã hóa hình ảnh làm điều kiện. Phương pháp của chúng tôi sử dụng cách tiếp cận này với một số điều chỉnh, bao gồm phát hiện đa nhãn và thao tác khung bao. Cuối cùng, chúng tôi sử dụng phương pháp chuyển giao học tập thông thường để so sánh. Bộ mã hóa hình ảnh. Chúng tôi sử dụng khung Alexnet được đào tạo trước trên ImageNet-22k với FPN [2] vì nó được chứng minh là vượt trội so với các mô hình như ResNet50. Chúng tôi cũng áp dụng đào tạo trước cho bộ mã hóa hình ảnh bằng dữ liệu không nhãn của mình. Chúng tôi sử dụng Hình 1. Kiến trúc mô hình SimMIM sử dụng mô hình hóa hình ảnh có nhận dạng răng đề xuất mặt nạ để tinh chỉnh bộ mã hóa. 107
  2. Tuyển tập Hội nghị Khoa học thường niên năm 2024. ISBN: 978-604-82-8175-5 Bộ giải mã phát hiện. Chúng tôi sử dụng thử trong quá trình huấn luyện và kiểm tra. DiffusionDet để trích xuất các đặc trưng 500 ảnh RGB sâu răng chưa được dán nhãn Vùng quan tâm (RoI) từ bản đồ đặc trưng do còn lại được sử dụng để tiền huấn luyện giúp bộ mã hóa tạo ra và dự đoán tọa độ khung và mô hình học trích xuất các đặc trưng cơ bản. phân loại bằng cách sử dụng đầu phát hiện. Mọi giấy phép cần thiết đã được lấy từ Hội Tuy nhiên, mô hình của chúng tôi (1) có ba đồng y đức Việt Nam. đầu phân loại thay vì một, cho phép chúng tôi 3.2. Cài đặt và cấu hình thực nghiệm huấn luyện cùng một mô hình với dữ liệu được chú thích một phần bằng cách đóng Trong mô hình này, ResNet18 được sử băng các đầu theo các lớp không được dán dụng làm mô-đun mã hóa trong khi mô-đun nhãn, (2) sử dụng các khung bao được thao chiếu bao gồm một lớp kết nối đầy đủ, thực tác để trích xuất các đặc trưng RoI và (3) tận hiện phép chiếu các nhúng (embedding) của dụng việc chuyển giao học tập từ các bước đào mạng mã hóa thành các biểu diễn mong muốn. tạo trước đó. Ba đầu vào phân loại này tương 3.3. Kết quả và bàn luận ứng với ba mô hình: MaskRCNN, Yolov9 và CNN improve. 3.3.1. Đánh giá tính tổng quát hóa theo Nhóm tác giả đề xuất cải tiến hàm mất mát ba giao thức dữ liệu triplet bằng cách sử dụng giá trị biên thích nghi thay vì cố định, giúp phân tách hiệu quả Để thực hiện đánh giá hiệu suất của mô hơn các mẫu dương và âm trong không gian hình đề xuất, chúng tôi so sánh kết quả với đặc trưng. Phương pháp này giữ cố định các một mô hình phân loại thông thường ResNet đặc trưng trong tập F1 bằng cách dừng và ba mô hình chạy ổn nhất bao gồm Mask gradient, đồng thời hướng dẫn các đặc trưng RCNN, Yolov9 và CNN improve. trong F2 dựa trên tính xác thực và độ tương Bảng 1. So sánh với các mô hình hiện đại tự cosin giữa hai tập. hiện nay Method AP AP50 AP75 3. KẾT QUẢ THỰC NGHIỆM MasRCNN 29.8 49.6 33.5 3.1. Bộ dữ liệu huấn luyện và giao thức YOLOv9 42.6 65.3 49.6 đánh giá CNN improve 33.2 54.3 39.0 Tất cả ảnh RGB được chụp từ bệnh nhân RetinaNet 25.1 41.7 28.8 trên 12 tuổi bằng máy chụp chuyên dụng nha DiffusionDet 40.5 61.7 46.5 khoa. Để đảm bảo quyền riêng tư và bảo mật Ours 48.8 70.4 55.3 của bệnh nhân, ảnh được lựa chọn ngẫu nhiên mà không xem xét bất kỳ thông tin cá Từ Bảng 1, thấy rằng mạng đề xuất đạt nhân nào. được kết quả định lượng cao hơn 6,2% so với Để tận dụng hiệu quả hệ, ba loại dữ liệu mô hình Yolov9 [1] tốt nhất trước đó trên tập riêng biệt được tổ chức theo thứ bậc như dữ liệu do chúng tôi thu thập và cao hơn trong Hình 1: (1) Tập dữ liệu sâu răng gồm: 8,3% so với mô hình DiffusionDet tốt nhất 2415 ảnh RGB chỉ được đánh nhãn để phát trước đó trên tập dữ liệu kiểm thử. hiện vùng răng, (2) Tập huấn luyện: 1400 ảnh Khi so sánh với các phương pháp đa RGB được đánh nhãn để phát hiện răng với phương thức hiện có, mạng đề xuất cho thấy cả phân loại đánh số vùng và răng phục vụ sự cải thiện đáng kể so với các phương pháp việc huấn luyện, và (3) Tập kiểm thử và kiểm Mask RCNN đa phương thức tiên tiến nhất. tra: 515 ảnh RGB được đánh nhãn đầy đủ để Ở đó, có thể thấy mô hình được đề xuất đạt phát hiện răng sâu với phân loại theo vùng, độ chính xác và điểm AP trung bình có trọng đánh số răng và chẩn đoán phục vụ việc kiểm số cao hơn 5,0% trên tập dữ liệu của chúng 108
  3. Tuyển tập Hội nghị Khoa học thường niên năm 2024. ISBN: 978-604-82-8175-5 tôi so với hiệu suất tốt nhất trước đó. Tương 4. KẾT LUẬN tự, nó đạt độ chính xác và điểm AP50 trung Bài báo này giới thiệu một khung phân bình có trọng số cao hơn 5.0% và 8,0% so loại vật thể đa nhãn hiệu mới dựa trên khuếch với mô hình các mô hình hiện đại tốt nhất tán để giải quyết khó khăn trong việc lấy trước đó trên tập dữ liệu kiểm thử. lượng lớn dữ liệu được gán nhãn. Cụ thể, 3.3.2. Đánh giá cụ thể khả năng phân chúng tôi đề xuất một kỹ thuật thao tác khung loại của mô hình bao mới trong quá trình khử nhiễu của các mạng khuếch tán với suy luận từ mô hình Để hiểu rõ hơn về sự đóng góp của các được đào tạo trước đó để tận dụng dữ liệu khối khác nhau trong mô hình khuếch tán kết phân cấp. Hơn nữa, chúng tôi sử dụng một bộ hợp tổng hợp đa đặc trưng được đề xuất, phát hiện đa nhãn hiệu để học hiệu quả từ các chúng tôi đã tiến hành một số nghiên cứu loại chú thích một phần và gán tất cả các lớp cần bỏ trên cả tập dữ liệu nha khoa của chúng tôi. thiết cho mỗi khung. Khung của chúng tôi Bảng 2. So sánh nghiên cứu loại bỏ vượt trội so với các mô hình phát hiện vật thể để xác định tác động của các lớp mô hình tiên tiến để đào tạo với dữ liệu RGB toàn cảnh khoang miệng được chú thích phân cấp Method AP AP50 AP75 F1 và một phần. Ours 48.8 70.4 55.3 85.3 - MaskRCNN 40.3 60.8 48.4 80.6 5. TÀI LIỆU THAM KHẢO - YOLOv9 41.6 65.3 49.5 82.9 [1] Chien, Chun-Tse, et al. "YOLOv9 for - CNN improve 38.2 59.7 45.2 78.6 Fracture Detection in Pediatric Wrist Trauma X-ray Images." arXiv preprint Từ Bảng 2, mô hình thu được độ chính xác arXiv:2403.11249 (2024). và điểm F1 trung bình có trọng số cao hơn [2] Y. Zhang, J. H. Han, Y. W. Kwon and Y. S. các tình huống khác. Hơn nữa, cơ chế hợp Moon, "A New Architecture of Feature nhất của chúng tôi giúp nâng cao độ chính Pyramid Network for Object Detection," xác lên từ 2,0% đến 7,0% cho các tập dữ liệu 2020 IEEE 6th International Conference on nha khoa, tương ứng. Computer and Communications (ICCC), Chengdu, China, 2020, pp. 1224-1228, doi: 3.3.3. Đánh giá về kích thước và tốc độ 10.1109/ICCC51575.2020.9345302. xử lý của mô hình [3] Zhang, J., Li, X., Sun, L., Bai, C. (2024). DPM-Det: Diffusion Model Object Trong Hình 3, mô hình đề xuất đạt được độ Detection Based on DPM-Solver++ Guided chính xác tốt nhất với 73% với các hình ảnh Sampling. In: Rudinac, S., et al. MultiMedia sâu răng quá nhỏ. Ngoài ra, ảnh gốc dựa trên Modeling. MMM 2024. Lecture Notes in AlexNet và ảnh đã lọc đạt độ chính xác trung Computer Science, vol 14555. Springer, bình lần lượt là 86,35% và 88,25%. Cho thấy, Cham. https://doi.org/10.1007/978-3-031- mô hình đề xuất đã thành công hơn khoảng 53308-2_28. 10% so với phương pháp đào tạo từ đầu. Hình 3. Kết quả mô hình chúng tôi xây dựng 109
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
13=>1