Tuyn tp Hi ngh Khoa hc thường niên năm 2024. ISBN: 978-604-82-8175-5
107
PHƯƠNG PHÁP HỌC KHUẾCH TÁN VÀ TỔNG HỢP
ĐẶC TRƯNG CHO BÀI TOÁN NHẬN DẠNG SÂU RĂNG
Trần Anh Đạt, Nguyễn Quang Dũng
Trường Đại hc Thy li, email: dat.trananh@tlu.edu.vn
1. GIỚI THIỆU
Trong nha khoa, nhiệm vụ thường xuyên
ghi nhận, phát hiện và chuẩn đoán sâu
răng. Mặc các phương pháp kiểm tra trực
quan từ bác sỹ nha khoa phương pháp ưu
tiên để phát hiện sâu răng. Việc phân tích
chụp phim kỹ thuật số trong miệng dưới dạng
thể phân tích bằng máy tính hỗ trợ mục
đích chuẩn đoán những yêu cầu bản
trong chuẩn đoán lâm sàng. Những năm gần
đây ttuệ nhân tạo (AI) được phát triển
tác động lớn tới việc phân tích hình ảnh tự
động. Do đó, nhóm nghiên cứu chúng tôi đã
xây dựng một hình bằng hai công nghệ
dựa trên AI hình khuếch tán [3]
hình phát hiện sâu răng để giúp nâng cao các
kỹ thuật khám lâm sàng một cách tự động.
2. MÔ HÌNH ĐỀ XUẤT
Hình 1. Kiến trúc mô hình
nhn dng răng đề xut
Hình 1 minh họa khung của nh chúng
tôi đề xuất. Chúng tôi sử dụng DiffusionDet
[3], mô hình này phát hiện đối tượng như mt
quá trình khuếch tán khử nhiễu tcác khung
ồn thành các khung đối tượng. Bên cạnh đó,
chúng tôi thiết kế một bộ phát hiện đa nhãn
với các lớp phân loại có thể thích ứng.
2.1. Mô hình cơ sở
Phương pháp DiffusionDet [3] bao gồm
hai thành phần thiết yếu: bộ mã hóa hình ảnh
trích xuất các đặc trưng cấp cao từ hình ảnh
gốc bộ giải phát hiện tinh chỉnh dự
đoán khung từ các khung ồn thông qua các
đặc trưng đó.
2.2. Kiến trúc mô hình
Để cải thiện hiệu quả tính toán, DiffusionDet
[3] được chia thành hai phần: bộ hóa
hình ảnh bộ giải mã phát hiện. Khử nhiễu
lặp lại chỉ được áp dụng cho bộ giải phát
hiện, sử dụng đầu ra của bộ mã hóa hình ảnh
làm điều kiện. Phương pháp của chúng tôi
sử dụng cách tiếp cận này với một số điều
chỉnh, bao gồm phát hiện đa nhãn thao
tác khung bao. Cuối cùng, chúng tôi sử dụng
phương pháp chuyển giao học tập thông
thường để so sánh.
B mã hóa hình nh. Chúng tôi sử dụng
khung Alexnet được đào tạo trước trên
ImageNet-22k với FPN [2] nó được chứng
minh vượt trội so với các hình như
ResNet50. Chúng tôi cũng áp dụng đào tạo
trước cho bộ hóa hình ảnh bằng dữ liệu
không nhãn của mình. Chúng tôi sử dụng
SimMIM sử dụng hình hóa hình ảnh
mặt nạ để tinh chỉnh bộ mã hóa.
Tuyn tp Hi ngh Khoa hc thường niên năm 2024. ISBN: 978-604-82-8175-5
108
B gii mã phát hin. Chúng tôi sử dụng
DiffusionDet để trích xuất các đặc trưng
Vùng quan tâm (RoI) từ bản đồ đặc trưng do
bộ hóa tạo ra và dự đoán tọa độ khung và
phân loại bằng cách sử dụng đầu phát hiện.
Tuy nhiên, hình của chúng tôi (1) ba
đầu phân loại thay vì một, cho phép chúng tôi
huấn luyện cùng một hình với dữ liệu
được chú thích một phần bằng cách đóng
băng các đầu theo các lớp không được dán
nhãn, (2) sử dụng các khung bao được thao
tác để trích xuất các đặc trưng RoI (3) tận
dụng việc chuyển giao học tập từ các bước đào
tạo trước đó. Ba đầu vào phân loại này tương
ứng với ba hình: MaskRCNN, Yolov9
CNN improve.
Nhóm tác giả đề xuất cải tiến hàm mất mát
triplet bằng cách sử dụng giá trị biên thích
nghi thay cđịnh, giúp phân tách hiệu quả
hơn các mẫu dương âm trong không gian
đặc trưng. Phương pháp này giữ cố định các
đặc trưng trong tập F1 bằng cách dừng
gradient, đồng thời hướng dẫn các đặc trưng
trong F2 dựa trên tính xác thực độ tương
tự cosin giữa hai tập.
3. KẾT QUẢ THỰC NGHIỆM
3.1. Bộ dữ liệu huấn luyện giao thức
đánh giá
Tất cả ảnh RGB được chụp từ bệnh nhân
trên 12 tuổi bằng máy chụp chuyên dụng nha
khoa. Để đảm bảo quyền riêng tư và bảo mật
của bệnh nhân, ảnh được lựa chọn ngẫu
nhiên không xem xét bất kỳ thông tin
nhân nào.
Để tận dụng hiệu quả hệ, ba loại dữ liệu
riêng biệt được tổ chức theo thứ bậc như
trong Hình 1: (1) Tp d liu sâu răng gm:
2415 ảnh RGB chỉ được đánh nhãn để phát
hiện vùng răng, (2) Tp hun luyn: 1400 ảnh
RGB được đánh nhãn để phát hiện răng với
cả phân loại đánh số vùng răng phục vụ
việc huấn luyện, (3) Tp kim th và kim
tra: 515 ảnh RGB được đánh nhãn đầy đủ để
phát hiện răng sâu với phân loại theo vùng,
đánh số răng và chẩn đoán phục vụ việc kiểm
thử trong quá trình huấn luyện kiểm tra.
500 ảnh RGB sâu răng chưa được dán nhãn
còn lại được sử dụng để tiền huấn luyện giúp
hình học trích xuất các đặc trưng bản.
Mọi giấy phép cần thiết đã được lấy từ Hội
đồng y đức Việt Nam.
3.2. Cài đặt và cấu hình thực nghiệm
Trong hình này, ResNet18 được sử
dụng làm mô-đun hóa trong khi mô-đun
chiếu bao gồm một lớp kết nối đầy đủ, thực
hiện phép chiếu các nhúng (embedding) của
mạng mã hóa thành các biểu diễn mong muốn.
3.3. Kết quả và bàn luận
3.3.1. Đánh giá tính tng quát hóa theo
ba giao thc d liu
Để thực hiện đánh giá hiệu suất của
hình đề xuất, chúng tôi so sánh kết quả với
một hình phân loại thông thường ResNet
ba hình chạy ổn nhất bao gồm Mask
RCNN, Yolov9 và CNN improve.
Bảng 1. So sánh với các mô hình hiện đại
hiện nay
Method AP AP50 AP75
MasRCNN 29.8 49.6 33.5
YOLOv9 42.6 65.3 49.6
CNN improve 33.2 54.3 39.0
RetinaNet 25.1 41.7 28.8
DiffusionDet 40.5 61.7 46.5
Ours 48.8 70.4 55.3
Từ Bảng 1, thấy rằng mạng đề xuất đạt
được kết quả định lượng cao hơn 6,2% so với
mô hình Yolov9 [1] tốt nhất trước đó trên tập
dữ liệu do chúng tôi thu thập cao hơn
8,3% so với hình DiffusionDet tốt nhất
trước đó trên tập dữ liệu kiểm thử.
Khi so sánh với các phương pháp đa
phương thức hiện có, mạng đề xuất cho thấy
sự cải thiện đáng kể so với các phương pháp
Mask RCNN đa phương thức tiên tiến nhất.
đó, thể thấy hình được đề xuất đạt
độ chính xác điểm AP trung bình trọng
số cao hơn 5,0% trên tập dữ liệu của chúng
Tuyn tp Hi ngh Khoa hc thường niên năm 2024. ISBN: 978-604-82-8175-5
109
tôi so với hiệu suất tốt nhất trước đó. Tương
tự, đạt độ chính xác điểm AP50 trung
bình trọng số cao hơn 5.0% 8,0% so
với hình các mô hình hiện đại tốt nhất
trước đó trên tập dữ liệu kiểm thử.
3.3.2. Đánh giá c th kh năng phân
loi ca mô hình
Đ hiu rõ hơn v s đóng góp ca các
khối khác nhau trong mô hình khuếch tán kết
hợp tổng hợp đa đặc trưng được đề xuất,
chúng tôi đã tiến hành một số nghiên cứu loại
bỏ trên cả tập dữ liệu nha khoa của chúng tôi.
Bảng 2. So sánh nghiên cứu loại bỏ
để xác định tác động của các lớp mô hình
Method AP AP50 AP75 F1
Ours 48.8 70.4 55.3 85.3
- MaskRCNN 40.3 60.8 48.4 80.6
- YOLOv9 41.6 65.3 49.5 82.9
- CNN improve 38.2 59.7 45.2 78.6
Từ Bảng 2, mô hình thu được độ chính xác
điểm F1 trung bình trọng số cao hơn
các tình huống khác. Hơn nữa, chế hợp
nhất của chúng tôi giúp nâng cao độ chính
xác lên từ 2,0% đến 7,0% cho các tập dữ liệu
nha khoa, tương ứng.
3.3.3. Đánh giá v kích thước và tc độ
x lý ca mô hình
Trong Hình 3, nh đề xuất đạt được độ
chính xác tốt nhất với 73% với các hình ảnh
sâu răng quá nhỏ. Ngoài ra, ảnh gốc dựa trên
AlexNet ảnh đã lọc đạt độ chính xác trung
bình lần lượt là 86,35% 88,25%. Cho thấy,
hình đề xuất đã thành công hơn khoảng
10% so với phương pháp đào tạo từ đầu.
Hình 3. Kết qu mô hình chúng tôi xây dng
4. KẾT LUẬN
Bài báo này giới thiệu một khung phân
loại vật thể đa nhãn hiệu mới dựa trên khuếch
tán để giải quyết khó khăn trong việc lấy
lượng lớn dữ liệu được gán nhãn. Cụ thể,
chúng tôi đề xuất một kỹ thuật thao tác khung
bao mới trong quá trình khử nhiễu của các
mng khuếch tán vi suy lun t mô hình
được đào tạo trước đó để tận dụng dữ liệu
phân cấp. Hơn nữa, chúng tôi sử dụng một bộ
phát hiện đa nhãn hiệu để học hiệu quả từ các
chú thích một phần gán tất cả các lớp cần
thiết cho mỗi khung. Khung của chúng tôi
vượt trội so với các mô hình phát hiện vật thể
tiên tiến để đào tạo với dữ liệu RGB toàn
cảnh khoang miệng được chú thích phân cấp
và một phần.
5. TÀI LIỆU THAM KHẢO
[1] Chien, Chun-Tse, et al. "YOLOv9 for
Fracture Detection in Pediatric Wrist
Trauma X-ray Images." arXiv preprint
arXiv:2403.11249 (2024).
[2] Y. Zhang, J. H. Han, Y. W. Kwon and Y. S.
Moon, "A New Architecture of Feature
Pyramid Network for Object Detection,"
2020 IEEE 6th International Conference on
Computer and Communications (ICCC),
Chengdu, China, 2020, pp. 1224-1228, doi:
10.1109/ICCC51575.2020.9345302.
[3] Zhang, J., Li, X., Sun, L., Bai, C. (2024).
DPM-Det: Diffusion Model Object
Detection Based on DPM-Solver++ Guided
Sampling. In: Rudinac, S., et al. MultiMedia
Modeling. MMM 2024. Lecture Notes in
Computer Science, vol 14555. Springer,
Cham. https://doi.org/10.1007/978-3-031-
53308-2_28.