B CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC ĐIỆN LC
HOÀNG VĂN QUÝ
NGHIÊN CU CI TIN THUT TOÁN XP HNG
ĐA TẠP TRONG TRA CU NH
LUN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội, năm 2023
B CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC ĐIỆN LC
HOÀNG VĂN QUÝ
NGHIÊN CU CI TIN THUT TOÁN XP HNG
ĐA TẠP TRONG TRA CU NH
Ngành: Công ngh thông tin
Mã s: 9480201
LUN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DN KHOA HC:
1. TS. NGÔ HOÀNG HUY
2. TS. NGUYN TH NG
Hà Nội, năm 2023
1
MỞ ĐẦU
1. Tính cp thiết của đề tài
Vi s phát trin ca công ngh Internet s ph biến ca các thiết b k thut s,
vic chp nh hoc trích xuất đối tượng trong ảnh chúng ta quan tâm đã tr nên d dàng
tin li. Thc tế s ng ảnh được to ra hàng ngày trong cuc sng ca chúng ta
rt lớn. Các cơ sở d liu hình ảnh này được s dụng đ ci thin hiu sut x thông tin
trong các ng dng thông minh, phc v cho nghiên cu và cuc sng hàng ngày.
K thut tra cu nh da vào ni dung (CBIR) đã được phát triển để tìm kiếm các hình
nh liên quan t s d liu dựa trên đối tượng hoc ni dung ca hình ảnh đầu vào.
Đây là một bài toán đưc áp dng rộng rãi trong lĩnh vực th giác máy tính mang li hiu
qu kinh tế trong nhiu ng dng, chng hạn như: tìm kiếm khuôn mt, vân tay, nh nh y
tế, k thut hình sự, thương mại đin t và nhiu ng dng khác.
Hn chế của các phương pháp xếp hạng đa tp hin ti khi áp dng cho bài toán tra
cu nh da trên ni dung:
i. Vic xây dựng đồ th của các điểm d liu dựa vào đồ th K-NNkhông kh thi vi
d liu quy mô ln [15].
ii. Chưa khai thác tốt tính đa biu din ca nh bng nhiu b đặc trưng. Khi kết hp
nhiu b đặc trưng, chiu vector biu din nh th rt cao dẫn đến khó khăn trong tính
toán khoảng cách và xác định điểm neo (như trong EMR, SSG).
iii. La chọn các điểm neo chất lượng bng các thut toán phân cm dựa trên tâm (như
Fuzzy C-Means, phân cm Gaussian Mixture Model) trên các tp d liu ln s chiu
vector cao rất khó khăn, trong khi phân cm K-means thì không biu diễn được trưng hp
mt vector đặc trưng có nhiều hơn một điểm neo đại din nó.
iv. Không kết hợp được vi thut toán lân cn xp x (ANN) để gim vic tính toán
trc tiếp tt c các khong cách giữa sở d liệu vector đặc trưng nh tập các điểm neo
đại din. Khi kết hp vi k thut ANN, vic thay thế phân cm K-means bi các thut toán
phân cm dựa trên xác định m cụm như FCM mới tr nên kh thi trong quá trình ngoi
tuyến (offline) xây dựng các đồ th quan h k.
Trong lun án này, thut ng “xếp hạng đa tạp” k thut xếp hng nhm khám phá
cu trúc phi tuyến tính ca d liệu đa tạp đưc hiểu phương pháp xếp hạng các đim
trong CSDL theo th t liên quan vi điểm d liu truy vn đưc áp dng trên tập cơ s
d liệu đa tạp.
Để gii quyết các hn chế ca xếp hạng đa tạp trong tra cu nh da vào ni dung,
lun án chọn đề tài: Nghiên cu ci tiến thut toán xếp hạng đa tp trong tra cu nh.
2. Mc tiêu ca lun án
Mc tiêu chung ca lun án: Nâng cao độ chính xác ca tra cu nh da trên ci tiến
thut toán xếp hạng đa tạp.
Mc tiêu c th ca lun án:
Đề xuất được mt s giải pháp nâng cao đ chính xác tra cu nh theo tiếp cn xếp
hạng đa tạp bao gm:
- Nghiên cu ci tiến ni ti ca thut toán xếp hạng đa tạp hiu qu EMR với phương
pháp chọn điểm neo mi.
- Kết hợp đặc trưng mức thấp đặc trưng mức cao trong biu din ảnh để nâng cao
độ chính xác trong tra cu nh.
3. Đối tưng nghiên cu ca lun án
- Các phương pháp hin ti v Tra cu nh da vào ni dung.
- Phương pháp xếp hạng đa tp trong tra cu nh da vào ni dung, các k thut
nhng thách thc trong xếp hạng đa tạp.
2
- Các k thut biu din nh với đặc trưng mc thấp, đặc trưng CNN kết hợp đặc
trưng mức thp và đặc trưng CNN (đặc trưng ảnh được trích rút t mng hc sâu).
- K thut lp trình song song cho phân cm FCM ci tiến xếp hạng đa tạp trên
tp d liu ln có s chiu rt cao.
- Môi trường thc nghim, tp d liu nh thc nghiệm phương pháp đánh gđ
chính xác.
4. Phm vi nghiên cu
Trong lun án này, phm vi nghiên cu bao gm:
- Nghiên cu thut toán xếp hạng đa tạp hiu qu trong tra cu nh.
- Nghiên cứu phương pháp cải tiến thut toán xếp hạng đa tạp hiu qu (EMR) thông
qua việc tìm điểm neo bng thut toán phân cm m FCM ci tiến.
- Nghiên cứu trích rút đặc trưng nh t mng CNN tin hun luyn, kết hợp đặc trưng
mc thấp và đặc trưng CNN trong biểu din nh vi s chiu rt cao.
- Trong phm vi ca lun án ch tp trung nâng cao cht lưng tra cu v đ chính xác, các vn
đ v thi gian cho mt truy vn cũng đưc xem xét khía cnh có th chp nhn đưc.
5. Các đóng góp của lun án
Vi mục tiêu nâng cao độ chính xác ca vic tra cu nh bằng phương pháp xếp hng
đa tạp, luận án đạt đưc hai đóng góp chính:
Th nht, ci tiến thut toán xếp hạng đa tạp EMR bng cách s dng thut toán phân
cm m lvdc-FCM để tìm điểm neo. Trên sở đó, đề xut thut toán EMR-(lvdc-FCM) áp
dng hiu qu trong CBIR [CT1, CT2, CT4].
Th hai, nâng cao hiu qu tra cu nh bng phương pháp kết hợp đặc trưng cp thp
cp cao trích xut t mng CNN. Chi tiết đóng góp bao gồm: (i) Đề xuất phương pháp
tinh chnh mạng CNN để trích rút đặc trưng trước khi kết hp với đặc trưng mức thp; (ii)
Đề xut thut toán HD-EMR dựa trên các điểm neo ước lượng bng FCM ci tiến kết hp
ANN (thut toán LDM-FCM) để tra cu nh không cn s dng các phương pháp gim
chiu d liu [CT3, CT5, CT6].
Ngoài ra, luận án còn đưa ra bổ đề mi v tính tng quát ca d liệu đa tạp trên các tp
hu hn vector, cung cấp cơ sở lý lun cho ng dng xếp hạng đa tạp trong tra cu nh theo
ni dung. Trong quá trình nghiên cu, luận án đề xut s dng kiến trúc GPU đ thc hin
hiu qu thut toán phân cm LDM-FCM.
6. B cc ca lun án
Luận án được t chức thành ba chương:
Chương 1: Tra cứu nh da vào ni dung và xếp hạng đa tạp trong CBIR.
Chương 2: Nâng cao độ chính xác tra cu nh vi xếp hạng đa tạp ci tiến.
Chương 3: Nâng cao hiu qu tra cu nh s dng đc tng kết hp mc thp và mc cao
Cui cùng, luận án đưa ra một s đề xuất và định hướng nghiên cứu trong tương lai.
3
Chương 1
TRA CỨU ẢNH DỰA VÀO NỘI DUNG XẾP HẠNG ĐA TẠP TRONG CBIR
1.1. Gii thiu v tra cu nh da vào ni dung
Tra cu nh da vào ni dung (CBIR) [31] thu hút rt nhiu s chú ý t các nhà
nghiên cu được s dng nhiu trong công nghip, thương mại trong những năm qua do
nhiu ng dng hu ích ca nó. c thut toán tra cu ảnh thường y dựng các độ đo
tương tự toàn cc giữa các vector đặc trưng biểu diễn đối ng nh đối sánh vi toàn b
vector đặc trưng trong CSDL.
1.2. Biu din nh bng vector đặc trưng
1.2.1. Đặc trưng mc thp ca nh
Trong chương y luận án trình y tng quan v các đặc trưng mức thấp được s
dụng trong CBIR nói chung như: Đặc trưng màu sc; Đặc trưng kết cu; Đặc trưng hình
dng.
1.2.2. Đặc trưng mc cao ca nh
Đặc trưng CNN: đặc trưng đưc trích rút tng cuối (trước tng phân lp) ca
mng CNN.
Hình 1.5. hình trích rút đặc trưng ảnh bng mô hình hc sâu [53]
Hình 1.5 hình thut toán biu diễn đặc trưng ảnh đưc trích rút da vào mng
hc sâu CNN tin hun luyện thu được tập đặc trưng mc cao ca nh.
1.3. D liệu đa tạp
1.3.1. Các khái nim đa tạp
Khái nim đa tạp được hiểu như sau [55, 56]: Mt đa tạp tôpô n chiu là mt không
gian tôpô mỗi đim lân cn đồng phôi vi tp con m ca
n
, nói mt cách khác,
không gian tôpô tách được vi mỗi điểm ca mt lân cn đồng phôi vi mt tp m
trong không gian Euclide n chiu. Như vậy th hiu: Đa tp chính khái nim toán hc
m rng ca đưng và mt.
Di Mobius là mt
đa tạp hai chiu
Cun giy Thụy Sĩ (Swiss-
roll) là đa tp 2 chiu
2-moon là đa tạp
2 chiu
Hình 1.6. Mô phỏng các không gian đa tạp [56]