ĐẠI HỌC QUỐC GIA HÀ NI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
TRƯƠNG THỊ PHƯƠNG THẢO
PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT CHO
BÀI TOÁN TRÍCH CHỌN THÔNG TIN VÀ
ỨNG DỤNG
TRÍCH CHỌN THỰC THỂ TÊN MÁY ẢNH SỐ
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.05
LUẬN VĂN THẠC SĨ
Cán bộ hướng dẫn khoa học: TS. Nguyn Trí Thành
Hà Nội - 2011
2
Lời cam đoan
Tôi xin cam đoan kết quả đạt được trong luận n là sản phẩm nghiên
cứu, tìm hiu của riêng nhân i. Trong toàn b nội dung của luận
văn, những điều được trình y hoc là ca cá nhân tôi hoặc được
tổng hợp từ nhiu nguồn tài liu. Tất cả c tài liu tham khảo đều
xuất xứ rõ ràng được trích dẫn hợp pháp.
Tôi xin hoàn chịu trách nhiệm và chịu mọi hình thức k lut theo quy
định cho li cam đoan của mình.
Học viên
Trương Thị Phương Thảo
3
Mc lục
Li cam đoan ..................................................................................................... 2
Mục lục .............................................................................................................. 3
Danh mục cáchiu, các chữ viết tắt............................................................... 4
Danh mục các bảng ............................................................................................ 5
Danh mục các hình vẽ, đồ thị ............................................................................. 6
Mở đầu............................................................................................................... 7
CHƯƠNG 1. GIỚI THIỆU ................................................................................ 8
CHƯƠNG 2. HỆ THỐNG TRÍCH CHỌN THÔNG TIN................................. 14
2.1. Xây dựng hệ thống trích chọn thông tin..................................................... 14
2.1.1. Công nghệ tri thức .................................................................................. 14
2.1.2. Huấn luyện tự động ................................................................................ 14
2.2. Các phương pháp trích chọn...................................................................... 15
2.2.1. Học có giám sát trích chọn quan hệ ........................................................ 16
2.2.2. Học không giámt trích chọn quan hệ .................................................. 18
2.2.3. Học bán giám sát trích chọn quan hệ ...................................................... 21
2.2.3.1. DIPRE: Dual Iterative Pattern Relation Extraction .............................. 22
2.2.3.2. Hệ thống SNOWBALL ....................................................................... 26
2.3. Nhận xét .................................................................................................... 32
CHƯƠNG 3. HÌNH HỌC BÁN GIÁM SÁT TRÍCH CHỌN THỰC THỂ
ỨNG DỤNG.............................................................................................. 33
3.1. tả bài toán............................................................................................ 33
3.2. hình giải quyết bài toán ....................................................................... 33
3.3. hình hệ thống ...................................................................................... 35
3.3.1. Pha tiền xử lí .......................................................................................... 36
3.3.2. Pha sinh các mu .................................................................................... 43
3.3.3. Pha sinh các bộ quan hệ mới................................................................... 48
CHƯƠNG 4. THỰC NGHIỆM........................................................................ 50
4.1. Môi trường thực nghiệm............................................................................ 50
4.2. Dữ liệu thực nghiệm.................................................................................. 50
4.3. Đánh giá hệ thống...................................................................................... 51
4.4. Thc nghiệm ............................................................................................. 51
Kết luận ng phát triển tương lai ............................................................. 61
Tài liu tham khảo............................................................................................ 62
Phlục. Mối quan hệ ngữ nghĩa trong WordNet .............................................. 64
4
Danh mục các ký hiệu, các chữ viết tắt
IE Information Extraction
NE Named Entity
MUC Message Understanding Conferences
NER Named Entity Recognition
IR Information Retrieval
DIPRE Dual Iterative Pattern Relation Extraction
5
Danh mục các bảng
Bảng 1: Các luật của AutoSlog......................................................................... 18
Bảng 2: Năm bộ quan hệ hạt ging của hệ thống DIPRE.................................. 24
Bảng 3: Ví dụ các sự kiện được mô tả dưới dạng bộ - 7 ................................... 24
Bảng 4: Ví dụ về việc sinh các mu DIPRE ..................................................... 26
Bảng 5: Năm bộ quan hệ hạt ging của hệ thống Snowball .............................. 27
Bảng 6: Một số lớp thường dùng trong WordNet ............................................. 45
Bảng 7: Cấu hình của máy PC dùng trong thực nghiệm ................................... 50
Bảng 8: Các công cụ sử dụng trong thực nghiệm.............................................. 50
Bảng 9: Các thư viện sử dụng trong thực nghim............................................. 50
Bảng 10: Dữ liệu kiểm thử và dliệu huấn luyện............................................. 51
Bảng 11: Tập các quan hệ hạt giống ban đầu.................................................... 51
Bảng 12: Một số cặp <camera, producer> lần lặp đầu tiên ............................ 52
Bảng 13: Giá trị Precision, Recall và F1 sau các vòng lặp ................................ 52
Bảng 14: Giá trị Precision, Recall, F1 của hệ thống theo giá trị sup................ 54
Bảng 15: Giá trị của Precision, Recall, F1 thực nghiệm trên tập 5000 .............. 55
Bảng 16: Kết quả so sánh giữa thực nghiệm 1 và 2 .......................................... 55
Bảng 17: Kết quả trích chọn khi áp dụng giải thuật DIPRE trên Tập 1200 ....... 56
Bảng 18: Kết quả trích chọn khi áp dụng giải thuật DIPRE trên Tập 5000 ....... 56
Bảng 19: Bảng thống kê kết quả trích chọn khi áp dụng giải thuật DIPRE cho
bài toán trích chn tên máy nh số ................................................................... 56
Bảng 20: Kết quả thực nghiệm 5 với số lượng các cặp tìm được ...................... 58
Bảng 21: Kết quả thực nghiệm 5 - Một số mẫu có độ chính xác cao và xuất hiện
nhiu ................................................................................................................ 58
Bảng 22: Kết quả thực nghiệm 5 - Thống kê các loại máy ảnh phổ biến nhất... 59
Bảng 23: Kết quả thực nghiệm 5 - Thống kê sng máy nh theo hãng sn
xuất .................................................................................................................. 60
Bảng 24: Các quan hệ ngữ nghĩa trong WordNet ............................................. 64