
Tuyển tập Hội nghị Khoa học thường niên năm 2024. ISBN: 978-604-82-8175-5
107
PHƯƠNG PHÁP HỌC KHUẾCH TÁN VÀ TỔNG HỢP
ĐẶC TRƯNG CHO BÀI TOÁN NHẬN DẠNG SÂU RĂNG
Trần Anh Đạt, Nguyễn Quang Dũng
Trường Đại học Thủy lợi, email: dat.trananh@tlu.edu.vn
1. GIỚI THIỆU
Trong nha khoa, nhiệm vụ thường xuyên
là ghi nhận, phát hiện và chuẩn đoán sâu
răng. Mặc dù các phương pháp kiểm tra trực
quan từ bác sỹ nha khoa là phương pháp ưu
tiên để phát hiện sâu răng. Việc phân tích
chụp phim kỹ thuật số trong miệng dưới dạng
có thể phân tích bằng máy tính hỗ trợ mục
đích chuẩn đoán là những yêu cầu cơ bản
trong chuẩn đoán lâm sàng. Những năm gần
đây trí tuệ nhân tạo (AI) được phát triển và
tác động lớn tới việc phân tích hình ảnh tự
động. Do đó, nhóm nghiên cứu chúng tôi đã
xây dựng một mô hình bằng hai công nghệ
dựa trên AI là mô hình khuếch tán [3] và mô
hình phát hiện sâu răng để giúp nâng cao các
kỹ thuật khám lâm sàng một cách tự động.
2. MÔ HÌNH ĐỀ XUẤT
Hình 1. Kiến trúc mô hình
nhận dạng răng đề xuất
Hình 1 minh họa khung của mô hình chúng
tôi đề xuất. Chúng tôi sử dụng DiffusionDet
[3], mô hình này phát hiện đối tượng như một
quá trình khuếch tán khử nhiễu từ các khung
ồn thành các khung đối tượng. Bên cạnh đó,
chúng tôi thiết kế một bộ phát hiện đa nhãn
với các lớp phân loại có thể thích ứng.
2.1. Mô hình cơ sở
Phương pháp DiffusionDet [3] bao gồm
hai thành phần thiết yếu: bộ mã hóa hình ảnh
trích xuất các đặc trưng cấp cao từ hình ảnh
gốc và bộ giải mã phát hiện tinh chỉnh dự
đoán khung từ các khung ồn thông qua các
đặc trưng đó.
2.2. Kiến trúc mô hình
Để cải thiện hiệu quả tính toán, DiffusionDet
[3] được chia thành hai phần: bộ mã hóa
hình ảnh và bộ giải mã phát hiện. Khử nhiễu
lặp lại chỉ được áp dụng cho bộ giải mã phát
hiện, sử dụng đầu ra của bộ mã hóa hình ảnh
làm điều kiện. Phương pháp của chúng tôi
sử dụng cách tiếp cận này với một số điều
chỉnh, bao gồm phát hiện đa nhãn và thao
tác khung bao. Cuối cùng, chúng tôi sử dụng
phương pháp chuyển giao học tập thông
thường để so sánh.
Bộ mã hóa hình ảnh. Chúng tôi sử dụng
khung Alexnet được đào tạo trước trên
ImageNet-22k với FPN [2] vì nó được chứng
minh là vượt trội so với các mô hình như
ResNet50. Chúng tôi cũng áp dụng đào tạo
trước cho bộ mã hóa hình ảnh bằng dữ liệu
không nhãn của mình. Chúng tôi sử dụng
SimMIM sử dụng mô hình hóa hình ảnh có
mặt nạ để tinh chỉnh bộ mã hóa.

Tuyển tập Hội nghị Khoa học thường niên năm 2024. ISBN: 978-604-82-8175-5
108
Bộ giải mã phát hiện. Chúng tôi sử dụng
DiffusionDet để trích xuất các đặc trưng
Vùng quan tâm (RoI) từ bản đồ đặc trưng do
bộ mã hóa tạo ra và dự đoán tọa độ khung và
phân loại bằng cách sử dụng đầu phát hiện.
Tuy nhiên, mô hình của chúng tôi (1) có ba
đầu phân loại thay vì một, cho phép chúng tôi
huấn luyện cùng một mô hình với dữ liệu
được chú thích một phần bằng cách đóng
băng các đầu theo các lớp không được dán
nhãn, (2) sử dụng các khung bao được thao
tác để trích xuất các đặc trưng RoI và (3) tận
dụng việc chuyển giao học tập từ các bước đào
tạo trước đó. Ba đầu vào phân loại này tương
ứng với ba mô hình: MaskRCNN, Yolov9 và
CNN improve.
Nhóm tác giả đề xuất cải tiến hàm mất mát
triplet bằng cách sử dụng giá trị biên thích
nghi thay vì cố định, giúp phân tách hiệu quả
hơn các mẫu dương và âm trong không gian
đặc trưng. Phương pháp này giữ cố định các
đặc trưng trong tập F1 bằng cách dừng
gradient, đồng thời hướng dẫn các đặc trưng
trong F2 dựa trên tính xác thực và độ tương
tự cosin giữa hai tập.
3. KẾT QUẢ THỰC NGHIỆM
3.1. Bộ dữ liệu huấn luyện và giao thức
đánh giá
Tất cả ảnh RGB được chụp từ bệnh nhân
trên 12 tuổi bằng máy chụp chuyên dụng nha
khoa. Để đảm bảo quyền riêng tư và bảo mật
của bệnh nhân, ảnh được lựa chọn ngẫu
nhiên mà không xem xét bất kỳ thông tin cá
nhân nào.
Để tận dụng hiệu quả hệ, ba loại dữ liệu
riêng biệt được tổ chức theo thứ bậc như
trong Hình 1: (1) Tập dữ liệu sâu răng gồm:
2415 ảnh RGB chỉ được đánh nhãn để phát
hiện vùng răng, (2) Tập huấn luyện: 1400 ảnh
RGB được đánh nhãn để phát hiện răng với
cả phân loại đánh số vùng và răng phục vụ
việc huấn luyện, và (3) Tập kiểm thử và kiểm
tra: 515 ảnh RGB được đánh nhãn đầy đủ để
phát hiện răng sâu với phân loại theo vùng,
đánh số răng và chẩn đoán phục vụ việc kiểm
thử trong quá trình huấn luyện và kiểm tra.
500 ảnh RGB sâu răng chưa được dán nhãn
còn lại được sử dụng để tiền huấn luyện giúp
mô hình học trích xuất các đặc trưng cơ bản.
Mọi giấy phép cần thiết đã được lấy từ Hội
đồng y đức Việt Nam.
3.2. Cài đặt và cấu hình thực nghiệm
Trong mô hình này, ResNet18 được sử
dụng làm mô-đun mã hóa trong khi mô-đun
chiếu bao gồm một lớp kết nối đầy đủ, thực
hiện phép chiếu các nhúng (embedding) của
mạng mã hóa thành các biểu diễn mong muốn.
3.3. Kết quả và bàn luận
3.3.1. Đánh giá tính tổng quát hóa theo
ba giao thức dữ liệu
Để thực hiện đánh giá hiệu suất của mô
hình đề xuất, chúng tôi so sánh kết quả với
một mô hình phân loại thông thường ResNet
và ba mô hình chạy ổn nhất bao gồm Mask
RCNN, Yolov9 và CNN improve.
Bảng 1. So sánh với các mô hình hiện đại
hiện nay
Method AP AP50 AP75
MasRCNN 29.8 49.6 33.5
YOLOv9 42.6 65.3 49.6
CNN improve 33.2 54.3 39.0
RetinaNet 25.1 41.7 28.8
DiffusionDet 40.5 61.7 46.5
Ours 48.8 70.4 55.3
Từ Bảng 1, thấy rằng mạng đề xuất đạt
được kết quả định lượng cao hơn 6,2% so với
mô hình Yolov9 [1] tốt nhất trước đó trên tập
dữ liệu do chúng tôi thu thập và cao hơn
8,3% so với mô hình DiffusionDet tốt nhất
trước đó trên tập dữ liệu kiểm thử.
Khi so sánh với các phương pháp đa
phương thức hiện có, mạng đề xuất cho thấy
sự cải thiện đáng kể so với các phương pháp
Mask RCNN đa phương thức tiên tiến nhất.
Ở đó, có thể thấy mô hình được đề xuất đạt
độ chính xác và điểm AP trung bình có trọng
số cao hơn 5,0% trên tập dữ liệu của chúng

Tuyển tập Hội nghị Khoa học thường niên năm 2024. ISBN: 978-604-82-8175-5
109
tôi so với hiệu suất tốt nhất trước đó. Tương
tự, nó đạt độ chính xác và điểm AP50 trung
bình có trọng số cao hơn 5.0% và 8,0% so
với mô hình các mô hình hiện đại tốt nhất
trước đó trên tập dữ liệu kiểm thử.
3.3.2. Đánh giá cụ thể khả năng phân
loại của mô hình
Để hiểu rõ hơn về sự đóng góp của các
khối khác nhau trong mô hình khuếch tán kết
hợp tổng hợp đa đặc trưng được đề xuất,
chúng tôi đã tiến hành một số nghiên cứu loại
bỏ trên cả tập dữ liệu nha khoa của chúng tôi.
Bảng 2. So sánh nghiên cứu loại bỏ
để xác định tác động của các lớp mô hình
Method AP AP50 AP75 F1
Ours 48.8 70.4 55.3 85.3
- MaskRCNN 40.3 60.8 48.4 80.6
- YOLOv9 41.6 65.3 49.5 82.9
- CNN improve 38.2 59.7 45.2 78.6
Từ Bảng 2, mô hình thu được độ chính xác
và điểm F1 trung bình có trọng số cao hơn
các tình huống khác. Hơn nữa, cơ chế hợp
nhất của chúng tôi giúp nâng cao độ chính
xác lên từ 2,0% đến 7,0% cho các tập dữ liệu
nha khoa, tương ứng.
3.3.3. Đánh giá về kích thước và tốc độ
xử lý của mô hình
Trong Hình 3, mô hình đề xuất đạt được độ
chính xác tốt nhất với 73% với các hình ảnh
sâu răng quá nhỏ. Ngoài ra, ảnh gốc dựa trên
AlexNet và ảnh đã lọc đạt độ chính xác trung
bình lần lượt là 86,35% và 88,25%. Cho thấy,
mô hình đề xuất đã thành công hơn khoảng
10% so với phương pháp đào tạo từ đầu.
Hình 3. Kết quả mô hình chúng tôi xây dựng
4. KẾT LUẬN
Bài báo này giới thiệu một khung phân
loại vật thể đa nhãn hiệu mới dựa trên khuếch
tán để giải quyết khó khăn trong việc lấy
lượng lớn dữ liệu được gán nhãn. Cụ thể,
chúng tôi đề xuất một kỹ thuật thao tác khung
bao mới trong quá trình khử nhiễu của các
mạng khuếch tán với suy luận từ mô hình
được đào tạo trước đó để tận dụng dữ liệu
phân cấp. Hơn nữa, chúng tôi sử dụng một bộ
phát hiện đa nhãn hiệu để học hiệu quả từ các
chú thích một phần và gán tất cả các lớp cần
thiết cho mỗi khung. Khung của chúng tôi
vượt trội so với các mô hình phát hiện vật thể
tiên tiến để đào tạo với dữ liệu RGB toàn
cảnh khoang miệng được chú thích phân cấp
và một phần.
5. TÀI LIỆU THAM KHẢO
[1] Chien, Chun-Tse, et al. "YOLOv9 for
Fracture Detection in Pediatric Wrist
Trauma X-ray Images." arXiv preprint
arXiv:2403.11249 (2024).
[2] Y. Zhang, J. H. Han, Y. W. Kwon and Y. S.
Moon, "A New Architecture of Feature
Pyramid Network for Object Detection,"
2020 IEEE 6th International Conference on
Computer and Communications (ICCC),
Chengdu, China, 2020, pp. 1224-1228, doi:
10.1109/ICCC51575.2020.9345302.
[3] Zhang, J., Li, X., Sun, L., Bai, C. (2024).
DPM-Det: Diffusion Model Object
Detection Based on DPM-Solver++ Guided
Sampling. In: Rudinac, S., et al. MultiMedia
Modeling. MMM 2024. Lecture Notes in
Computer Science, vol 14555. Springer,
Cham. https://doi.org/10.1007/978-3-031-
53308-2_28.

