
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Vũ Quốc Đạt
PHƯƠNG PHÁP HỌC GẦN KHÔNG GIÁM SÁT ĐỂ
TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2009

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Vũ Quốc Đạt
PHƯƠNG PHÁP HỌC GẦN KHÔNG GIÁM SÁT ĐỂ
TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: TS. Nguyễn Trí Thành
HÀ NỘI – 2009

Lời cảm ơn
Trước tiên em muốn gửi lời cảm ơn sâu sắc nhất đến thầy giáo, TS. Nguyễn Trí
Thành, người đã giúp em chọn đề tài, đưa ra những nhận xét quý giá và trực tiếp
hướng dẫn giúp em hoàn thành luận văn tốt nghiệp. Em xin chân thành cảm ơn các
thầy cô giáo trong khoa CNTT- Trường Đại học Công Nghệ - ĐHQG Hà Nội đã
truyền đạt kiến thức cho em trong suốt thời gian học tập tại trường.
Trong suốt thời gian làm khóa luận, em đã nhận được nhiều sự giúp đỡ, động
viên từ gia đình, thầy cô và bạn bè. Em xin gửi lời cảm ơn tới những người bạn của
em, luôn bên cạnh em để chia sẽ những kiến thức, kinh nghiệm học tập cũng như trong
cuộc sống.
Cuối cùng, em xin gửi lời cảm ơn sâu sắc nhất tới gia đình của mình, nguồn
động viên và cổ vũ lớn lao, và là động lực giúp em thành công trong công việc và
trong cuộc sống.
Sinh viên
Vũ Quốc Đạt

Tóm tắt nội dung
Trích chọn thông tin là lĩnh vực quan trọng trong khai phá dữ liệu, trong đó trích
chọn thực thể là một bài toán con, cơ bản nhưng đóng vai trò hết sức quan trọng. Nó
có thể được sử dụng để hỗ trợ cho phương pháp tìm kiếm mới – tìm kiếm hướng thực
thể, và góp phần quan trọng cho việc xây dựng web ngữ nghĩa.
Có nhiều phương pháp tiếp cận khác nhau cho bài toán trích chọn thực thể như
phương pháp học máy HMM, … Trong khóa luận này em trình bày một phương pháp
để trích chọn thực thể tên tổ chức tiếng Việt trong văn bản tiếng Việt trên môi trường
Web. Phương pháp này dựa trên ý tưởng của Sergey Brin mà cụ thể hơn là thuật toán
DIPRE trong việc trích chọn cặp quan hệ tên sách và tác giả của những cuốn sách
tiếng Anh trên môi trường Web. Ưu điểm của phương pháp này là cần ít sự can thiệp
của con người, không cần sự hỗ trợ của các ứng dụng phụ như xác định từ loại (POS –
tag). Kết quả thực nghiệm trên các văn bản tiếng Việt cho thấy phương pháp này
tương đối khả quan.

Mục lục
Lời cảm ơn............................................................................................................................3
Tóm tắt nội dung...................................................................................................................4
Bảng từ viết tắt .....................................................................................................................0
Mở đầu..................................................................................................................................1
CHƯƠNG 1. SƠ LƯỢC BÀI TOÁN TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC....3
1.1. Tổng quan về trích chọn thông tin..........................................................................3
1.2. Bài toán rút trích thực thể tên tổ chức.....................................................................4
1.3. Ý nghĩa của bài toán rút trích thực thể tên tổ chức.................................................5
CHƯƠNG 2. HƯỚNG TIẾP CẬN BÀI TOÁN TRÍCH CHỌN THỰC THỂ...............6
2.1. Rút trích cặp quan hệ (title, author) của cuốn sách trong tài liệu web ...................6
2.1.1. Occurrences của sách .......................................................................................6
2.1.2. Patterns của sách ..............................................................................................7
2.1.3. Quy trình rút trích.............................................................................................7
2.1.4. Thuật toán sinh Patterns...................................................................................8
2.2. Thu thập tên và miền tương ứng từ tập tài liệu web...............................................9
2.3. Hệ thống Snowball................................................................................................13
2.3.1. Sinh patterns...................................................................................................13
2.3.2. Sinh cặp quan hệ............................................................................................15
2.4. Tổng kết chương ...................................................................................................16
CHƯƠNG 3........................................................................................................................17
3.1. Mô hình tổng quát.................................................................................................17
3.2. Mô hình chi tiết.....................................................................................................19
3.2.1. Find_IndexsOfPrefixPattern ..........................................................................20
3.2.2. Extract_CandidateStrings...............................................................................21
3.2.3. Trim................................................................................................................22
3.2.4. Filter_Entities.................................................................................................22

