
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thị Kim Chi
GIẢI PHÁP TÌM KIẾM NGƯỜI THEO TÊN TRÊN
WEB DỰA TRÊN PHÂN CỤM PHÂN CẤP VÀ XẾP
HẠNG CẶP THỨ TỰ VÀ THỬ NGHIỆM VÀO HỆ
THỐNG TÌM KIẾM THỰC THỂ NGƯỜI TIẾNG
VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành:
Công Nghệ Thông Tin
HÀ NỘI - 2011

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thị Kim Chi
GIẢI PHÁP TÌM KIẾM NGƯỜI THEO TÊN TRÊN
WEB DỰA TRÊN PHÂN CỤM PHÂN CẤP VÀ XẾP
HẠNG CẶP THỨ TỰ VÀ THỬ NGHIỆM VÀO HỆ
THỐNG TÌM KIẾM THỰC THỂ NGƯỜI TIẾNG
VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành:
Công Nghệ Thông Tin
Cán bộ hướng dẫn: ThS.Nguyễn Cm Tú
HÀ NỘI - 2011

i
Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo
sư Tiến sĩ Hà Quang Thụy và Thạc sĩ Nguyễn CNm Tú, những người đã tận tình chỉ
bảo và hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp.
Tôi chân thành cảm ơn các thầy, cô đã tạo những điều kiện thuận lợi cho tôi
học tập và nghiên cứu tại trường Đại học Công nghệ.
Tôi cũng xin gửi lời cảm ơn tới các anh chị, các bạn và các em sinh viên
trong phòng nghiên cứu SIS-KTLab đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức
chuyên môn để hoàn thành tốt khoá luận. Khóa luận này nhận được sự hỗ trợ từ đề
tài QG.10.38.
Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người
thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt
nghiệp.
Tôi xin chân thành cảm ơn!
Sinh viên
Nguyễn Thị Kim Chi

ii
Tóm tắt
Qua máy tìm kiếm thông dụng, người dùng đưa truy vấn về thực thể quan
tâm dưới dạng một từ khóa hoặc một cụm từ khóa và nhận kết quả trả về là một
danh sách địa chỉ các trang Web chứa từ khóa/cụm từ khóa đó. Sự phát triển không
ngừng của kỹ thuật trích chọn thông tin dẫn tới sự ra đời của máy tìm kiếm thực thể
mà kết quả trả về của nó là thực thể mà không là địa chỉ. Do thực thể người thuộc
loại được tìm kiếm nhiều nhất, vì vậy tìm kiếm thực thể người là một nội dung
nghiên cứu nhận được sự quan tâm đặc biệt hiện nay.
Khóa luận nghiên cứu các giải pháp tìm kiếm người theo tên trên Web, tập
trung vào hai vấn đề chính là phân biệt nhập nhằng tên người và xếp hạng thực thể
người cùng tên trên miền dữ liệu giáo dục tiếng Việt dựa trên các thông tin về thực
thể người. Trên cơ sở đó, khóa luận đề xuất một mô hình hệ thống tìm kiếm thực thể
người tiếng Việt thực nghiệm.
Thực nghiệm ban đầu với tập tên người Việt Nam phổ biến cho thấy mô hình
tìm kiếm người theo tên trên Web có độ chính xác tương đối cao và đạt độ đo phân
cụm ở mức 0.86 và xếp hạng thực thể ở mức 0.8. Kết quả này cho thấy mô hình tìm
kiếm người theo tên tiếng Việt trên Web dược đề xuất và triển khai là có tính khả
quan.

iii
Lời cam đoan
Tôi cam đoan giải pháp tìm kiếm người trên Web dựa trên thuật toán phân
cụm phân cấp và xếp hạng cặp thứ tự và thực nghiệm được trình bày trong khóa
luận là do tôi thực hiện dưới sự hướng dẫn của PGS.TS Hà Quang Thụy và ThS.
Nguyễn CNm Tú.
Trong toàn bộ nội dung của khóa luận, những điều được trình bày hoặc là của
cá nhân hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo
đều có xuất xứ rõ ràng và được trích dẫn hợp pháp.

