ĐẠI HC QUC GIA HÀ NI
TRƢỜNG ĐẠI HC CÔNG NGH
Nguyn Th Thanh Na
GII PHÁP PHÂN BIỆT TÊN NGƢỜI TRÊN WEB
DỰA TRÊN MÔ HÌNH THÔNG TIN NGƢỜI VÀ
TH NGHIM VÀO H THNG TÌM KIẾM NGƢỜI
TING VIT
KHOÁ LUN TT NGHIP ĐI HC H CHÍNH QUY
Ngành: Công ngh thông tin
HÀ NI - 2011
ĐẠI HC QUC GIA HÀ NI
TRƢỜNG ĐẠI HC CÔNG NGH
Nguyn Th Thanh Na
GII PHÁP PHÂN BIỆT TÊN NGƢỜI TRÊN WEB
DA TRÊN MÔ HÌNH THÔNG TIN NGƢỜI VÀ
TH NGHIM VÀO H THNG TÌM KIẾM NGƢỜI
TING VIT
KHOÁ LUN TT NGHIP ĐI HC H CHÍNH QUY
Ngành: Công ngh thông tin
Cán b ng dn: ThS. Nguyn Cm Tú
HÀ NI - 2011
i
LỜI CẢM ƠN
Lời đầu tiên, tôi xin gi li cảm ơn lòng biết ơn sâu sắc nht ti PGS.TS.
Quang Thy, ThS. Nguyn Cm CN. Nguyễn Đạo Thái đã tận tình hướng dn tôi
trong sut quá trình thc hin khoá lun tt nghip.
Tôi cũng xin gửi li cảm ơn tới các anh ch các bn sinh viên trong phòng thí
nghim KT-Sislab đã giúp tôi rất nhiu trong vic h tr kiến thức chuyên môn để hoàn
thành tt khoá lun.
Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi nhng điều kin thun lợi để tôi
hc tp nghiên cu tại trường Đại hc ng Ngh. Xin cm ơn sự h tr t đề tài t
QG.10.38 trong thi gian tôi thc hin khóa lun.
Cui cùng, tôi muốn đưc gi li cm ơn hạn ti gia đình bn bè, nhng
người thân yêu luôn bên cnh và động viên tôi trong sut quá trình thc hin khóa lun tt
nghip.
Tôi xin chân thành cm ơn !
Sinh viên
Nguyn Th Thanh Na
ii
Tóm tắt
Tìm kiếm thông tin v thc th người trên Web mt trong nhng hoạt động ph
biến nht ca ngưi dùng trên Internet. Tuy nhiên, thc th người là mt trong nhng kiu
thc th độ nhp nhng cao. Mt tên có th ng vi nhiu thc th người khác nhau và
nhiu tên th ng vi cùng mt thc th người. Bài toán phân biệt tên người nhm gii
quyết vấn đề nhp nhng trong tên ca thc th người, t đó nâng cao chất lượng tìm
kiếm thông tin người trên Web.
Khóa lun này tp trung gii quyết bài toán phân biệt tên người trên Web da trên
vic trích chn đặc trưng theo mô hình thông tin Người. Các đặc trưng được trích chn s
dụng để phân cụm các văn bản cha cùng mt tên người nhưng chỉ đến các thc th
người khác nhau.
Kết qu thc nghiệm ban đầu vi tập tên người độ nhp nhng cao cho thy
hình phân biệt tên người ca h thng đạt kết qu độ đo F0.5 = 84,8%% F0,2 = 83.1 %.
Điu này khẳng định mô hình là kh quan và có kh năng ứng dng vào thc tế.
iii
Lời cam đoan
Tôi xin cam đoan mô hình phân biệt tên người dựa trên mô hình thông tin Ngưi
thc nghim được trình bày trong khóa lun này do tôi thc hin s hướng dn ca
ThS. Nguyn Cm CN. Nguyễn Đạo Thái. Các s liu kết qu được trong
luận văn là trung thực và chưa từng được công b bt k mt công trình nào khác.
Tôi cũng nêu rõ nguồn gc ca nhng tham kho t các nghiên cu liên quan trong
danh mc tài liu tham kho ca khóa lun. Trong khóa lun, không vic sao chép tài
liu, công trình nghiên cu ca ngưi khác mà không ch rõ v tài liu tham kho.
Sinh viên
Nguyn Th Thanh Na