1
ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Nguyn Th Hương
GII PHÁP RANKCOMPETE PHÂN CM
VÀ XP HNG LI TRONG META-TÌM KIM NH
VÀ CÀI ĐẶT TH NGHIM
KHOÁ LUN TT NGHIP ĐẠI HC H CHÍNH QUY
Ngành:Công ngh thông tin
HÀ NI - 2011
ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Nguyn Th Hương
GII PHÁP RANKCOMPETE PHÂN CM
VÀ XP HNG LI TRONG META-TÌM KIM NH
VÀ CÀI ĐẶT TH NGHIM
KHOÁ LUN TT NGHIP ĐẠI HC H CHÍNH QUY
Ngành:Công Ngh Thông Tin
Cán b hướng dn:PGS.TS. Hà Quang Thy
Cán b đồng hướng dn:ThS. Nguyn Cm Tú
HÀ NI - 2011
Li cm ơn
Trước tiên, tôi xin gi li cm ơn lòng biết ơn sâu sc nht ti Phó Giáo sư Tiến
sĩ Hà Quang Thy và Thc sĩ Nguyn CNm Tú, ngưi đã tn tình ch bo và hướng dn tôi
trong sut quá trình thc hin khoá lun tt nghip.
Tôi chân thành cm ơn các thy, đã to nhng điu kin thun li cho tôi hc tp
nghiên cu ti trường Đại hc Công ngh. Xin cm ơn s h tr t đề tài QG.10.38
trong thi gian tôi thc hin khóa lun.
Tôi cũng xin gi li cm ơn ti các anh ch các bn sinh viên trong nhóm “Khai
phá d liu” đã giúp tôi rt nhiu trong vic h tr kiến thc chuyên môn để hoàn thành
tt khoá lun.
Cui cùng, tôi mun gi li cm hn ti gia đình bn bè, nhng người thân
yêu luôn bên cnh và đng viên tôi trong sut quá trình thc hin khóa lun tt nghip.
Tôi xin chân thành cm ơn!
Sinh viên
Nguyn Th Hương
Tóm tt
S phát trin mnh m ca công ngh nh s khiến lượng nh được s dng lưu
tr trên Web tăng lên mt cách nhanh chóng, to ngun nh phong phú đáp ng nhu cu
ca người s dng. Mc s ra đời ca c máy tìm kiếm nh đã tha mãn phn nào
nhu cu tìm kiếm nh, song ng cao cht lượng m kiếm luôn vn đề thi s. Vì vy,
các bài toán ct lõi ca các máy tìm kiếm nh như phân cm hay xếp hng nh đã đang
nhn được s chú ý đặc bit.
Đầu tiên, khóa lun kho sát các thut toán phân cm tính hng nh, đc bit
RankCompete [8] Co-reranking [27]da trên độ tương đồng gia các nh được tính
theo các đặc trưng ng văn bn xung quanh nh hay ni dung hin th. Tiếp theo đó,
khóa lun đề xut mt hình h thng tìm kiếm nh lp trên (image meta-search
engine) trong đó s dng thut toán RankCompete tích hp thêm thut toán Co-reranking
làm thành phn phân cm xếp hng nh. y tìm kiếm nh lp trên y s dng mt
cơ s d liu lưu tr các u truy vn các nh tương ng vi chúng như mt gii pháp
nhm rút ngn thi gian phn hi yêu cu truy vn.
Thc nghim do khóa lun tiến hành bưc đu đã thu đưc nhng kết qu tương đối
kh quan, độ đo F1 ca h thng khi áp dng thut toán vi đặc trưng văn bn và đặc
trưng hin th đạt trung bình 81.55% đã khng định tính kh thi ca hình cho xây
dng mt máy tìm kiếm nh lp trên trong thc tế.
Li cam đoan
Khóa lun đưc hoàn thành trong thi gian tôi làm Sinh viên ti B môn Các h
thng thông tin, Khoa Công ngh Thông tin, Trường Đại hc Công ngh, Đại hc Quc
gia Hà Ni.
Tôi xin cam đoan khóa lun Gii pháp RankCompete phân cm xếp hng li
trong meta-tìm kiếm nh và cài đặt th nghim" công trình nghiên cu ca bn
thân. Các s liu, kết qu được trình y trong khóa lun hoàn toàn trung thc chưa
tng được công b trong bt k mt công trình nào khác.
Hà Ni, ngày 20 tháng 05 năm 2011
Tác gi
Nguyn Th Hương