ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Vũ Quc Đạt
PHƯƠNG PHÁP HC GN KHÔNG GIÁM SÁT ĐỂ
TRÍCH CHN THC TH TÊN T CHC
KHOÁ LUN TT NGHIP ĐẠI HC H CHÍNH QUY
Ngành: Công ngh thông tin
HÀ NI - 2009
ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Vũ Quc Đạt
PHƯƠNG PHÁP HC GN KHÔNG GIÁM SÁT ĐỂ
TRÍCH CHN THC TH TÊN T CHC
KHOÁ LUN TT NGHIP ĐẠI HC H CHÍNH QUY
Ngành: Công ngh thông tin
Cán b hướng dn: TS. Nguyn Trí Thành
HÀ NI – 2009
Li cm ơn
Trước tiên em mun gi li cm ơn sâu sc nht đến thy giáo, TS. Nguyn Trí
Thành, người đã giúp em chn đề tài, đưa ra nhng nhn xét quý giá và trc tiếp
hướng dn giúp em hoàn thành lun văn tt nghip. Em xin chân thành cm ơn các
thy cô giáo trong khoa CNTT- Trường Đại hc Công Ngh - ĐHQG Hà Ni đã
truyn đạt kiến thc cho em trong sut thi gian hc tp ti trường.
Trong sut thi gian làm khóa lun, em đã nhn được nhiu s giúp đỡ, động
viên t gia đình, thy cô và bn bè. Em xin gi li cm ơn ti nhng người bn ca
em, luôn bên cnh em để chia s nhng kiến thc, kinh nghim hc tp cũng như trong
cuc sng.
Cui cùng, em xin gi li cm ơn sâu sc nht ti gia đình ca mình, ngun
động viên và c vũ ln lao, và là động lc giúp em thành công trong công vic và
trong cuc sng.
Sinh viên
Vũ Quc Đạt
Tóm tt ni dung
Trích chn thông tin là lĩnh vc quan trng trong khai phá d liu, trong đó trích
chn thc th là mt bài toán con, cơ bn nhưng đóng vai trò hết sc quan trng. Nó
có th được s dng để h tr cho phương pháp tìm kiếm mi – tìm kiếm hướng thc
th, và góp phn quan trng cho vic xây dng web ng nghĩa.
Có nhiu phương pháp tiếp cn khác nhau cho bài toán trích chn thc th như
phương pháp hc máy HMM, … Trong khóa lun này em trình bày mt phương pháp
để trích chn thc th tên t chc tiếng Vit trong văn bn tiếng Vit trên môi trường
Web. Phương pháp này da trên ý tưởng ca Sergey Brin mà c th hơn là thut toán
DIPRE trong vic trích chn cp quan h tên sách và tác gi ca nhng cun sách
tiếng Anh trên môi trường Web. Ưu đim ca phương pháp này là cn ít s can thip
ca con người, không cn s h tr ca các ng dng ph như xác định t loi (POS –
tag). Kết qu thc nghim trên các văn bn tiếng Vit cho thy phương pháp này
tương đối kh quan.
Mc lc
Li cm ơn............................................................................................................................3
Tóm tt ni dung...................................................................................................................4
Bng t viết tt .....................................................................................................................0
M đầu..................................................................................................................................1
CHƯƠNG 1. SƠ LƯỢC BÀI TOÁN TRÍCH CHN THC TH TÊN T CHC....3
1.1. Tng quan v trích chn thông tin..........................................................................3
1.2. Bài toán rút trích thc th tên t chc.....................................................................4
1.3. Ý nghĩa ca bài toán rút trích thc th tên t chc.................................................5
CHƯƠNG 2. HƯỚNG TIP CN BÀI TOÁN TRÍCH CHN THC TH...............6
2.1. Rút trích cp quan h (title, author) ca cun sách trong tài liu web ...................6
2.1.1. Occurrences ca sách .......................................................................................6
2.1.2. Patterns ca sách ..............................................................................................7
2.1.3. Quy trình rút trích.............................................................................................7
2.1.4. Thut toán sinh Patterns...................................................................................8
2.2. Thu thp tên và min tương ng t tp tài liu web...............................................9
2.3. H thng Snowball................................................................................................13
2.3.1. Sinh patterns...................................................................................................13
2.3.2. Sinh cp quan h............................................................................................15
2.4. Tng kết chương ...................................................................................................16
CHƯƠNG 3........................................................................................................................17
3.1. Mô hình tng quát.................................................................................................17
3.2. Mô hình chi tiết.....................................................................................................19
3.2.1. Find_IndexsOfPrefixPattern ..........................................................................20
3.2.2. Extract_CandidateStrings...............................................................................21
3.2.3. Trim................................................................................................................22
3.2.4. Filter_Entities.................................................................................................22