
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thị Thanh Na
GIẢI PHÁP PHÂN BIỆT TÊN NGƢỜI TRÊN WEB
DỰA TRÊN MÔ HÌNH THÔNG TIN NGƢỜI VÀ
THỬ NGHIỆM VÀO HỆ THỐNG TÌM KIẾM NGƢỜI
TIẾNG VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2011

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thị Thanh Na
GIẢI PHÁP PHÂN BIỆT TÊN NGƢỜI TRÊN WEB
DỰA TRÊN MÔ HÌNH THÔNG TIN NGƢỜI VÀ
THỬ NGHIỆM VÀO HỆ THỐNG TÌM KIẾM NGƢỜI
TIẾNG VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hƣớng dẫn: ThS. Nguyễn Cẩm Tú
HÀ NỘI - 2011

i
LỜI CẢM ƠN
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS.TS. Hà
Quang Thụy, ThS. Nguyễn Cẩm Tú và CN. Nguyễn Đạo Thái đã tận tình hướng dẫn tôi
trong suốt quá trình thực hiện khoá luận tốt nghiệp.
Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong phòng thí
nghiệm KT-Sislab đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn
thành tốt khoá luận.
Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để tôi
học tập và nghiên cứu tại trường Đại học Công Nghệ. Xin cảm ơn sự hỗ trợ từ đề tài từ
QG.10.38 trong thời gian tôi thực hiện khóa luận.
Cuối cùng, tôi muốn được gửi lời cảm ơn vô hạn tới gia đình và bạn bè, những
người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt
nghiệp.
Tôi xin chân thành cảm ơn !
Sinh viên
Nguyễn Thị Thanh Na

ii
Tóm tắt
Tìm kiếm thông tin về thực thể người trên Web là một trong những hoạt động phổ
biến nhất của người dùng trên Internet. Tuy nhiên, thực thể người là một trong những kiểu
thực thể có độ nhập nhằng cao. Một tên có thể ứng với nhiều thực thể người khác nhau và
nhiều tên có thể ứng với cùng một thực thể người. Bài toán phân biệt tên người nhằm giải
quyết vấn đề nhập nhằng trong tên của thực thể người, từ đó nâng cao chất lượng tìm
kiếm thông tin người trên Web.
Khóa luận này tập trung giải quyết bài toán phân biệt tên người trên Web dựa trên
việc trích chọn đặc trưng theo mô hình thông tin Người. Các đặc trưng được trích chọn sử
dụng để phân cụm các văn bản chứa cùng một tên người nhưng chỉ đến các thực thể
người khác nhau.
Kết quả thực nghiệm ban đầu với tập tên người có độ nhập nhằng cao cho thấy mô
hình phân biệt tên người của hệ thống đạt kết quả độ đo F0.5 = 84,8%% và F0,2 = 83.1 %.
Điều này khẳng định mô hình là khả quan và có khả năng ứng dụng vào thực tế.

iii
Lời cam đoan
Tôi xin cam đoan mô hình phân biệt tên người dựa trên mô hình thông tin Người
và thực nghiệm được trình bày trong khóa luận này là do tôi thực hiện sự hướng dẫn của
ThS. Nguyễn Cẩm Tú và CN. Nguyễn Đạo Thái. Các số liệu và kết quả có được trong
luận văn là trung thực và chưa từng được công bố ở bất kỳ một công trình nào khác.
Tôi cũng nêu rõ nguồn gốc của những tham khảo từ các nghiên cứu liên quan trong
danh mục tài liệu tham khảo của khóa luận. Trong khóa luận, không có việc sao chép tài
liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo.
Sinh viên
Nguyễn Thị Thanh Na

