Trích chọn thông tin văn bản pháp luật: Luận văn kỹ thuật học máy bán giám sát dựa trên mô hình CRFs theo tiêu chuẩn kỳ vọng tổng quát

- 1 -

TRƯỜNG ………………….

KHOA……………………….

----------

Báo cáo tốt nghiệp

Đề tài:

TRÍCH CHỌN THÔNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT DÙNG KỸ

THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN MÔ HÌNH CRFs THEO TIÊU

CHUẨN KỲ VỌNG TỔNG QUÁT

- 2 -

LỜI CAM ĐOAN

Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm của riêng cá

nhân tôi, không sao chép lại của người khác. Trong toàn bộ nội dung của luận

văn, những điều được trình bày hoặc là của cá nhân hoặc là được tổng hợp từ

nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng và

được trích dẫn hợp pháp. Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình

thức kỷ luận theo quy định cho lời cam đoan của mình.

Hà Nội, 05/2011

Phạm Thị Ngân

- 3 -

MỤC LỤC

LỜI CAM ĐOAN .............................................................................................. 1

MỤC LỤC ......................................................................................................... 3

DANH MỤC HÌNH VẼ..................................................................................... 5

DANH MỤC BẢNG BIỂU................................................................................ 6

KÝ TỰ VIẾT TẮT............................................................................................. 7

LỜI CẢM ƠN .................................................................................................... 8

LỜI MỞ ĐẦU.................................................................................................... 9

CHƯƠNG 1: HỌC BÁN GIÁM SÁT THEO MÔ HÌNH TRƯỜNG NGẪU

NHIÊN CÓ ĐIỀU KIỆN.................................................................................. 11

1.1. Phương pháp học máy Trường ngẫu nhiên có điều kiện ............................. 11

1.1.1. Khái niệm trường ngẫu nhiên có điều kiện ......................................... 11

1.1.2. Học máy CRFs ................................................................................... 13

1.1.2.1. Hàm tiềm năng của các mô hình CRFs .................................... 13

1.1.2.2. Thuật toán gán nhãn cho dữ liệu dạng chuỗi............................ 14

1.1.2.3. Ước lượng tham số cho các mô hình CRFs .............................. 15

1.2. Học máy bán giám sát CRFs ...................................................................... 15

1.2.1. Học máy bán giám sát......................................................................... 15

1.2.1.1. Học không có giám sát và Học có giám sát............................. 16

1.2.1.2. Học máy bán giám sát.............................................................. 18

1.2.1.3. Một số thuật toán học máy bán giám sát .................................. 19

1.2.2. Sơ bộ về mô hình học máy bán giám sát CRFs ................................... 21

1.3. Kết luận chương 1 ...................................................................................... 22

CHƯƠNG 2: HỌC MÁY BÁN GIÁM SÁT CRFs THEO TIÊU CHUẨN KỲ

VỌNG TỔNG QUÁT ...................................................................................... 23

2.1. Tiêu chuẩn kỳ vọng tổng quát .................................................................... 23

2.1.1. Giới thiệu sơ bộ .................................................................................. 23

2.1.2. Tiêu chuẩn kỳ vọng tổng quát............................................................. 24

2.2. Mô hình học máy bán giám sát CRFs theo tiêu chuẩn kỳ vọng tống quát ... 26

- 4 -

2.3. Kết luận chương 2 ...................................................................................... 28

CHƯƠNG 3: MỘT MÔ HÌNH HỌC MÁY BÁN GIÁM SÁT CRFs TRÍCH

CHỌN THÔNG TIN PHÁP LUẬT TIẾNG VIỆT ......................................... 29

3.1. Trích chọn thông tin từ văn bản pháp luật tiếng Việt ................................. 29

3.1.1. Một số đặc trưng về miền dữ liệu văn bản pháp luật tiếng Việt........... 29

3.1.2. Bài toán trích chọn thông tin văn bản pháp luật tiếng Việt.................. 31

3.2. Một mô hình học máy bán giám sát CRFs trích chọn thông tin pháp luật

tiếng Việt ...................................................................................................... 31

3.2.1. Một số phân tích................................................................................. 31

3.2.2. Mô hình đề nghị................................................................................. 32

3.2.3. Lựa chọn thuộc tính............................................................................ 36

3.2.4. Cách đánh giá ..................................................................................... 36

3.3. Kết luận chương 3 ...................................................................................... 37

CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ ............................................. 38

4.1. Mô hình thực nghiệm ................................................................................ 38

4.1.1. Dữ liệu thực nghiệm........................................................................... 38

4.1.2. Bộ công cụ Mallet .............................................................................. 38

4.2. Thực nghiệm và đánh giá .......................................................................... 38

4.2.1. Môi trường thực nghiệm..................................................................... 38

4.2.2. Mô tả quy trình thực nghiệm............................................................... 38

4.2.3. Kết quả thực nghiệm........................................................................... 39

4.2.4. Đánh giá ............................................................................................. 40

4.3. Kết luận chương 4 ..................................................................................... 43

KẾT LUẬN...................................................................................................... 45

TÀI LIỆU THAM KHẢO................................................................................ 47

- 5 -

DANH MỤC HÌNH VẼ

Hình 1. Đồ thị vô hướng mô tả CRFs ....................................................... 12

Hình 2. Một bước trong thuật toán Viterbi cải tiến................................... 14

Hình 3/4. Mô hình đề xuất giải quyết bài toán.......................................... 34

Hình 5. Tập các ràng buộc (Constraint file) ............................................. 35

Hình 6. Kết quả nhóm thực nghiệm 1 ....................................................... 40

Hình 7. Kết quả nhóm thực nghiệm 2 ....................................................... 40

Hình 8. Kết quả nhóm thực nghiệm 3 ....................................................... 41

Hình 9. Kết quả nhóm thực nghiệm 4 ....................................................... 42

Hình 10. Kết quả nhóm thực nghiệm 5 ..................................................... 43

LUẬN VĂN:TRÍCH CHỌN THÔNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT DÙNG KỸ THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN MÔ HÌNH CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi