Phương pháp học bán giám sát: Luận văn trích chọn thông tin và ứng dụng trích chọn thực thể tên máy ảnh số

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRƯƠNG THỊ PHƯƠNG THẢO

PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT CHO

BÀI TOÁN TRÍCH CHỌN THÔNG TIN VÀ

ỨNG DỤNG

TRÍCH CHỌN THỰC THỂ TÊN MÁY ẢNH SỐ

Ngành: Công nghệ thông tin

Chuyên ngành: Hệ thống thông tin

Mã số: 60.48.05

LUẬN VĂN THẠC SĨ

Cán bộ hướng dẫn khoa học: TS. Nguyễn Trí Thành

Hà Nội - 2011

Lời cam đoan

Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm nghiên

cứu, tìm hiểu của riêng cá nhân tôi. Trong toàn bộ nội dung của luận

văn, những điều được trình bày hoặc là của cá nhân tôi hoặc là được

tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có

xuất xứ rõ ràng và được trích dẫn hợp pháp.

Tôi xin hoàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy

định cho lời cam đoan của mình.

Học viên

Trương Thị Phương Thảo

Mục lục

Lời cam đoan ..................................................................................................... 2

Mục lục .............................................................................................................. 3

Danh mục các ký hiệu, các chữ viết tắt............................................................... 4

Danh mục các bảng ............................................................................................ 5

Danh mục các hình vẽ, đồ thị ............................................................................. 6

Mở đầu............................................................................................................... 7

CHƯƠNG 1. GIỚI THIỆU ................................................................................ 8

CHƯƠNG 2. HỆ THỐNG TRÍCH CHỌN THÔNG TIN................................. 14

2.1. Xây dựng hệ thống trích chọn thông tin..................................................... 14

2.1.1. Công nghệ tri thức .................................................................................. 14

2.1.2. Huấn luyện tự động ................................................................................ 14

2.2. Các phương pháp trích chọn...................................................................... 15

2.2.1. Học có giám sát trích chọn quan hệ ........................................................ 16

2.2.2. Học không giám sát trích chọn quan hệ .................................................. 18

2.2.3. Học bán giám sát trích chọn quan hệ ...................................................... 21

2.2.3.1. DIPRE: Dual Iterative Pattern Relation Extraction .............................. 22

2.2.3.2. Hệ thống SNOWBALL ....................................................................... 26

2.3. Nhận xét .................................................................................................... 32

CHƯƠNG 3. MÔ HÌNH HỌC BÁN GIÁM SÁT TRÍCH CHỌN THỰC THỂ

VÀ ỨNG DỤNG.............................................................................................. 33

3.1. Mô tả bài toán............................................................................................ 33

3.2. Mô hình giải quyết bài toán ....................................................................... 33

3.3. Mô hình hệ thống ...................................................................................... 35

3.3.1. Pha tiền xử lí .......................................................................................... 36

3.3.2. Pha sinh các mẫu .................................................................................... 43

3.3.3. Pha sinh các bộ quan hệ mới................................................................... 48

CHƯƠNG 4. THỰC NGHIỆM........................................................................ 50

4.1. Môi trường thực nghiệm............................................................................ 50

4.2. Dữ liệu thực nghiệm.................................................................................. 50

4.3. Đánh giá hệ thống...................................................................................... 51

4.4. Thực nghiệm ............................................................................................. 51

Kết luận và hướng phát triển tương lai ............................................................. 61

Tài liệu tham khảo............................................................................................ 62

Phụ lục. Mối quan hệ ngữ nghĩa trong WordNet .............................................. 64

Danh mục các ký hiệu, các chữ viết tắt

IE Information Extraction

NE Named Entity

MUC Message Understanding Conferences

NER Named Entity Recognition

IR Information Retrieval

DIPRE Dual Iterative Pattern Relation Extraction

Danh mục các bảng

Bảng 1: Các luật của AutoSlog......................................................................... 18

Bảng 2: Năm bộ quan hệ hạt giống của hệ thống DIPRE.................................. 24

Bảng 3: Ví dụ các sự kiện được mô tả dưới dạng bộ - 7 ................................... 24

Bảng 4: Ví dụ về việc sinh các mẫu DIPRE ..................................................... 26

Bảng 5: Năm bộ quan hệ hạt giống của hệ thống Snowball .............................. 27

Bảng 6: Một số lớp thường dùng trong WordNet ............................................. 45

Bảng 7: Cấu hình của máy PC dùng trong thực nghiệm ................................... 50

Bảng 8: Các công cụ sử dụng trong thực nghiệm.............................................. 50

Bảng 9: Các thư viện sử dụng trong thực nghiệm............................................. 50

Bảng 10: Dữ liệu kiểm thử và dữ liệu huấn luyện............................................. 51

Bảng 11: Tập các quan hệ hạt giống ban đầu.................................................... 51

Bảng 12: Một số cặp <camera, producer> ở lần lặp đầu tiên ............................ 52

Bảng 13: Giá trị Precision, Recall và F1 sau các vòng lặp ................................ 52

Bảng 14: Giá trị Precision, Recall, F1 của hệ thống theo giá trị sup................ 54

Bảng 15: Giá trị của Precision, Recall, F1 thực nghiệm trên tập 5000 .............. 55

Bảng 16: Kết quả so sánh giữa thực nghiệm 1 và 2 .......................................... 55

Bảng 17: Kết quả trích chọn khi áp dụng giải thuật DIPRE trên Tập 1200 ....... 56

Bảng 18: Kết quả trích chọn khi áp dụng giải thuật DIPRE trên Tập 5000 ....... 56

Bảng 19: Bảng thống kê kết quả trích chọn khi áp dụng giải thuật DIPRE cho

bài toán trích chọn tên máy ảnh số ................................................................... 56

Bảng 20: Kết quả thực nghiệm 5 với số lượng các cặp tìm được ...................... 58

Bảng 21: Kết quả thực nghiệm 5 - Một số mẫu có độ chính xác cao và xuất hiện

nhiều ................................................................................................................ 58

Bảng 22: Kết quả thực nghiệm 5 - Thống kê các loại máy ảnh phổ biến nhất... 59

Bảng 23: Kết quả thực nghiệm 5 - Thống kê số lượng máy ảnh theo hãng sản

xuất .................................................................................................................. 60

Bảng 24: Các quan hệ ngữ nghĩa trong WordNet ............................................. 64

LUẬN VĂN: PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT CHO BÀI TOÁN TRÍCH CHỌN THÔNG TIN VÀ ỨNG DỤNG TRÍCH CHỌN THỰC THỂ TÊN MÁY ẢNH SỐ

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi