ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Nguyn Đạo Thái
PHÂN BIT NHP NHNG TÊN NGƯỜI TRONG H
THNG TÌM KIM THC TH
KHOÁ LUN TT NGHIP ĐẠI HC H CHÍNH QUY
Ngành: Công ngh thông tin
HÀ NI - 2010
ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Nguyn Đạo Thái
PHÂN BIT NHP NHNG TÊN NGƯỜI TRONG H
THNG TÌM KIM THC TH
KHOÁ LUN TT NGHIP ĐẠI HC H CHÍNH QUY
Ngành: Công ngh thông tin
Cán b hướng dn: PSG.TS Hà Quang Thy
Cán b đồng hướng dn: ThS Trn Mai Vũ
HÀ NI - 2010
Li cm ơn
Trước tiên, tôi xin gi li cm ơn và lòng biết ơn sâu sc nht ti Phó Giáo sư
Tiến sĩ Hà Quang Thy và Thc s Trn Mai Vũ, người đã tn tình ch bo và hướng
dn tôi trong sut quá trình thc hin khoá lun tt nghip.
Tôi chân thành cm ơn các thy, cô đã to nhng điu kin thun li cho tôi hc
tp và nghiên cu ti trường Đại Hc Công Ngh.
Tôi cũng xin gi li cm ơn ti các anh ch và các bn sinh viên trong nhóm “Khai
phá d liu” phòng thí nghim KT-Sislab đã giúp tôi rt nhiu trong vic h tr kiến
thc chuyên môn để hoàn thành tt khoá lun.
Cui cùng, tôi mun gi li cm vô hn ti gia đình và bn bè, nhng người thân
yêu luôn bên cnh và động viên tôi trong sut quá trình thc hin khóa lun tt nghip.
Tôi xin chân thành cm ơn !
Sinh viên
Nguyn Đạo Thái
Tóm tt ni dung
Mt trong nhng lĩnh vc tìm kiếm Internet được người dùng quan tâm nht đó
chính là tìm kiếm thông tin v thc th người. Thc th người là mt trong nhng loi
thc thđộ nhp nhng cao nht, mt tên có th ng vi các thc th người khác
nhau, và nhng tên khác nhau có th ng vi mt thc th người. Tuy nhiên các máy
tìm kiếm hin nay vn thao thác các văn bn cha tên người ging như các văn bn
bình thường khác dn đến các kết qu tìm kiếm không được như người dùng mong
đợi.
Khóa lun tp trung nghiên cu phương pháp gii quyết nhp nhng tên người
trên tp văn bn trên min d liu báo đin t tiếng Vit da trên đặc trưng v t vng
và mng xã hi và đề xut áp dng xây dng mt h thng tìm kiếm thc th người.
Thc nghim ban đầu vi tp tên người có độ nhp nhng cao cho thy mô hình
phân bit nhp nhng tên người trên tp văn bn có độ chính xác khá caođạt độ đo
F mc tt (F
0.5
= 0.791 và F
0.2
= 0.773). Kết qu trên cho thy phương pháp phân
bit nhp nhng tên người đã đề xut và trin khai là kh quan cho ngôn ng tiếng
Vit.
Mc lc
Chương 1. Bài toán phân bit nhp nhng tên người trong h thng tìm kiếm
thc th. .......................................................................................................................... 3
1.1. H thng tìm kiếm thc th .................................................................................. 3
1.1.1. Nhng thun li và khó khăn trong vic khai thác thông tin trên WWW ..... 3
1.1.2. H thng tìm kiếm thc th ............................................................................ 4
1.1.3. Vn đề gii quyết nhp nhng tên trong h thng tìm kiếm thc th người .. 7
1.2. Bài toán phân bit nhp nhng tên người trên tp văn bn. .................................. 9
1.2.1. Phát biu bài toán ........................................................................................... 9
1.2.3. Mi quan h vi bài toán phân bit nhp nhng nghĩa ca t. ...................... 9
1.2.3. Phương pháp đánh giá .................................................................................. 10
Tóm tt chương mt ................................................................................................ 11
Chương 2. Phương pháp gii quyết bài toán nhp nhng tên người trên tp văn
bn ................................................................................................................................. 12
2.1. Tiếp cn da trên thc th định danh ................................................................. 12
2.2. Tiếp cn da trên t khóa ................................................................................... 14
2.3. Tiếp cn da trên k thut trích xut thông tin ................................................... 18
2.4. Mt s cách tiếp cn khác ................................................................................... 20
Tóm tt chương hai .................................................................................................. 21
Chương 3: Mô hình h thng phân bit nhp nhng tên người .............................. 22
3.1. Cơ s thc tin .................................................................................................... 22
3.2. Cơ s lý thuyết .................................................................................................... 24
3.2.1. Mô hình không gian vector .......................................................................... 24
3.2.2. Thut toán phân cm HAC .......................................................................... 26
3.3. Mô hình h thng phân bit nhp nhng tên người trên tp văn bn ................. 31
3.4. Áp dng bài toán phân bit nhp nhng tên ngưi trong h thng tìm kiếm thc
th người .................................................................................................................... 33
Tóm tt chương ba ................................................................................................... 34
Chương 4. Thc nghim và đánh giá ......................................................................... 35
4.1. Môi trường và các công c s dng thc nghim. ............................................. 35
4.2. Xây dng tp d liu ........................................................................................... 36
4.3. Thc nghim ....................................................................................................... 37
Thc nghim phân bit nhp nhng tên người trên tp văn bn. .......................... 37
Kết lun ........................................................................................................................ 41
Tài liu tham kho ....................................................................................................... 42