
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Đạo Thái
PHÂN BIỆT NHẬP NHẰNG TÊN NGƯỜI TRONG HỆ
THỐNG TÌM KIẾM THỰC THỂ
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2010

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Đạo Thái
PHÂN BIỆT NHẬP NHẰNG TÊN NGƯỜI TRONG HỆ
THỐNG TÌM KIẾM THỰC THỂ
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: PSG.TS Hà Quang Thụy
Cán bộ đồng hướng dẫn: ThS Trần Mai Vũ
HÀ NỘI - 2010

Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư
Tiến sĩ Hà Quang Thụy và Thạc sỹ Trần Mai Vũ, người đã tận tình chỉ bảo và hướng
dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp.
Tôi chân thành cảm ơn các thầy, cô đã tạo những điều kiện thuận lợi cho tôi học
tập và nghiên cứu tại trường Đại Học Công Nghệ.
Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm “Khai
phá dữ liệu” phòng thí nghiệm KT-Sislab đã giúp tôi rất nhiều trong việc hỗ trợ kiến
thức chuyên môn để hoàn thành tốt khoá luận.
Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người thân
yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp.
Tôi xin chân thành cảm ơn !
Sinh viên
Nguyễn Đạo Thái

Tóm tắt nội dung
Một trong những lĩnh vực tìm kiếm Internet được người dùng quan tâm nhất đó
chính là tìm kiếm thông tin về thực thể người. Thực thể người là một trong những loại
thực thể có độ nhập nhằng cao nhất, một tên có thể ứng với các thực thể người khác
nhau, và những tên khác nhau có thể ứng với một thực thể người. Tuy nhiên các máy
tìm kiếm hiện nay vẫn thao thác các văn bản chứa tên người giống như các văn bản
bình thường khác dẫn đến các kết quả tìm kiếm không được như người dùng mong
đợi.
Khóa luận tập trung nghiên cứu phương pháp giải quyết nhập nhằng tên người
trên tập văn bản trên miền dữ liệu báo điện tử tiếng Việt dựa trên đặc trưng về từ vựng
và mạng xã hội và đề xuất áp dụng xây dựng một hệ thống tìm kiếm thực thể người.
Thực nghiệm ban đầu với tập tên người có độ nhập nhằng cao cho thấy mô hình
phân biệt nhập nhằng tên người trên tập văn bản có độ chính xác khá cao và đạt độ đo
F ở mức tốt (F
0.5
= 0.791 và F
0.2
= 0.773). Kết quả trên cho thấy phương pháp phân
biệt nhập nhằng tên người đã đề xuất và triển khai là khả quan cho ngôn ngữ tiếng
Việt.

Mục lục
Chương 1. Bài toán phân biệt nhập nhằng tên người trong hệ thống tìm kiếm
thực thể. .......................................................................................................................... 3
1.1. Hệ thống tìm kiếm thực thể .................................................................................. 3
1.1.1. Những thuận lợi và khó khăn trong việc khai thác thông tin trên WWW ..... 3
1.1.2. Hệ thống tìm kiếm thực thể ............................................................................ 4
1.1.3. Vấn đề giải quyết nhập nhằng tên trong hệ thống tìm kiếm thực thể người .. 7
1.2. Bài toán phân biệt nhập nhằng tên người trên tập văn bản. .................................. 9
1.2.1. Phát biểu bài toán ........................................................................................... 9
1.2.3. Mối quan hệ với bài toán phân biệt nhập nhằng nghĩa của từ. ...................... 9
1.2.3. Phương pháp đánh giá .................................................................................. 10
Tóm tắt chương một ................................................................................................ 11
Chương 2. Phương pháp giải quyết bài toán nhập nhằng tên người trên tập văn
bản ................................................................................................................................. 12
2.1. Tiếp cận dựa trên thực thể định danh ................................................................. 12
2.2. Tiếp cận dựa trên từ khóa ................................................................................... 14
2.3. Tiếp cận dựa trên kỹ thuật trích xuất thông tin ................................................... 18
2.4. Một số cách tiếp cận khác ................................................................................... 20
Tóm tắt chương hai .................................................................................................. 21
Chương 3: Mô hình hệ thống phân biệt nhập nhằng tên người .............................. 22
3.1. Cơ sở thực tiễn .................................................................................................... 22
3.2. Cơ sở lý thuyết .................................................................................................... 24
3.2.1. Mô hình không gian vector .......................................................................... 24
3.2.2. Thuật toán phân cụm HAC .......................................................................... 26
3.3. Mô hình hệ thống phân biệt nhập nhằng tên người trên tập văn bản ................. 31
3.4. Áp dụng bài toán phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực
thể người .................................................................................................................... 33
Tóm tắt chương ba ................................................................................................... 34
Chương 4. Thực nghiệm và đánh giá ......................................................................... 35
4.1. Môi trường và các công cụ sử dụng thực nghiệm. ............................................. 35
4.2. Xây dựng tập dữ liệu ........................................................................................... 36
4.3. Thực nghiệm ....................................................................................................... 37
Thực nghiệm phân biệt nhập nhằng tên người trên tập văn bản. .......................... 37
Kết luận ........................................................................................................................ 41
Tài liệu tham khảo ....................................................................................................... 42

