
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
TRƯƠNG THỊ PHƯƠNG THẢO
PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT CHO
BÀI TOÁN TRÍCH CHỌN THÔNG TIN VÀ
ỨNG DỤNG
TRÍCH CHỌN THỰC THỂ TÊN MÁY ẢNH SỐ
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.05
LUẬN VĂN THẠC SĨ
Cán bộ hướng dẫn khoa học: TS. Nguyễn Trí Thành
Hà Nội - 2011

2
Lời cam đoan
Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm nghiên
cứu, tìm hiểu của riêng cá nhân tôi. Trong toàn bộ nội dung của luận
văn, những điều được trình bày hoặc là của cá nhân tôi hoặc là được
tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có
xuất xứ rõ ràng và được trích dẫn hợp pháp.
Tôi xin hoàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy
định cho lời cam đoan của mình.
Học viên
Trương Thị Phương Thảo

3
Mục lục
Lời cam đoan ..................................................................................................... 2
Mục lục .............................................................................................................. 3
Danh mục các ký hiệu, các chữ viết tắt............................................................... 4
Danh mục các bảng ............................................................................................ 5
Danh mục các hình vẽ, đồ thị ............................................................................. 6
Mở đầu............................................................................................................... 7
CHƯƠNG 1. GIỚI THIỆU ................................................................................ 8
CHƯƠNG 2. HỆ THỐNG TRÍCH CHỌN THÔNG TIN................................. 14
2.1. Xây dựng hệ thống trích chọn thông tin..................................................... 14
2.1.1. Công nghệ tri thức .................................................................................. 14
2.1.2. Huấn luyện tự động ................................................................................ 14
2.2. Các phương pháp trích chọn...................................................................... 15
2.2.1. Học có giám sát trích chọn quan hệ ........................................................ 16
2.2.2. Học không giám sát trích chọn quan hệ .................................................. 18
2.2.3. Học bán giám sát trích chọn quan hệ ...................................................... 21
2.2.3.1. DIPRE: Dual Iterative Pattern Relation Extraction .............................. 22
2.2.3.2. Hệ thống SNOWBALL ....................................................................... 26
2.3. Nhận xét .................................................................................................... 32
CHƯƠNG 3. MÔ HÌNH HỌC BÁN GIÁM SÁT TRÍCH CHỌN THỰC THỂ
VÀ ỨNG DỤNG.............................................................................................. 33
3.1. Mô tả bài toán............................................................................................ 33
3.2. Mô hình giải quyết bài toán ....................................................................... 33
3.3. Mô hình hệ thống ...................................................................................... 35
3.3.1. Pha tiền xử lí .......................................................................................... 36
3.3.2. Pha sinh các mẫu .................................................................................... 43
3.3.3. Pha sinh các bộ quan hệ mới................................................................... 48
CHƯƠNG 4. THỰC NGHIỆM........................................................................ 50
4.1. Môi trường thực nghiệm............................................................................ 50
4.2. Dữ liệu thực nghiệm.................................................................................. 50
4.3. Đánh giá hệ thống...................................................................................... 51
4.4. Thực nghiệm ............................................................................................. 51
Kết luận và hướng phát triển tương lai ............................................................. 61
Tài liệu tham khảo............................................................................................ 62
Phụ lục. Mối quan hệ ngữ nghĩa trong WordNet .............................................. 64

4
Danh mục các ký hiệu, các chữ viết tắt
IE Information Extraction
NE Named Entity
MUC Message Understanding Conferences
NER Named Entity Recognition
IR Information Retrieval
DIPRE Dual Iterative Pattern Relation Extraction

5
Danh mục các bảng
Bảng 1: Các luật của AutoSlog......................................................................... 18
Bảng 2: Năm bộ quan hệ hạt giống của hệ thống DIPRE.................................. 24
Bảng 3: Ví dụ các sự kiện được mô tả dưới dạng bộ - 7 ................................... 24
Bảng 4: Ví dụ về việc sinh các mẫu DIPRE ..................................................... 26
Bảng 5: Năm bộ quan hệ hạt giống của hệ thống Snowball .............................. 27
Bảng 6: Một số lớp thường dùng trong WordNet ............................................. 45
Bảng 7: Cấu hình của máy PC dùng trong thực nghiệm ................................... 50
Bảng 8: Các công cụ sử dụng trong thực nghiệm.............................................. 50
Bảng 9: Các thư viện sử dụng trong thực nghiệm............................................. 50
Bảng 10: Dữ liệu kiểm thử và dữ liệu huấn luyện............................................. 51
Bảng 11: Tập các quan hệ hạt giống ban đầu.................................................... 51
Bảng 12: Một số cặp <camera, producer> ở lần lặp đầu tiên ............................ 52
Bảng 13: Giá trị Precision, Recall và F1 sau các vòng lặp ................................ 52
Bảng 14: Giá trị Precision, Recall, F1 của hệ thống theo giá trị sup................ 54
Bảng 15: Giá trị của Precision, Recall, F1 thực nghiệm trên tập 5000 .............. 55
Bảng 16: Kết quả so sánh giữa thực nghiệm 1 và 2 .......................................... 55
Bảng 17: Kết quả trích chọn khi áp dụng giải thuật DIPRE trên Tập 1200 ....... 56
Bảng 18: Kết quả trích chọn khi áp dụng giải thuật DIPRE trên Tập 5000 ....... 56
Bảng 19: Bảng thống kê kết quả trích chọn khi áp dụng giải thuật DIPRE cho
bài toán trích chọn tên máy ảnh số ................................................................... 56
Bảng 20: Kết quả thực nghiệm 5 với số lượng các cặp tìm được ...................... 58
Bảng 21: Kết quả thực nghiệm 5 - Một số mẫu có độ chính xác cao và xuất hiện
nhiều ................................................................................................................ 58
Bảng 22: Kết quả thực nghiệm 5 - Thống kê các loại máy ảnh phổ biến nhất... 59
Bảng 23: Kết quả thực nghiệm 5 - Thống kê số lượng máy ảnh theo hãng sản
xuất .................................................................................................................. 60
Bảng 24: Các quan hệ ngữ nghĩa trong WordNet ............................................. 64