Phân lớp văn bản: Luận văn biểu diễn văn bản trên lý thuyết tập mờ, áp dụng

Luận văn tốt nghiệp

Biểu diễn văn bản trên lý thuyết

tập mờ . Áp dụng trong bài toán

phân lớp văn bản

Khóa luận tốt nghiệp Nguyễn Việt Cường

LỜI CẢM ƠN

Em xin bày tỏ lòng kính trọng và biết ơn sâu sắc tới thầy giáo, tiến sĩ HÀ

QUANG THỤY, Trường Đại học Công nghệ, ĐHQG Hà Nội và tiến sĩ ĐOÀN SƠN,

Đại học Tohoku, Nhật Bản đã hướng dẫn và động viên em rất nhiều trong quá trình

làm luận văn.

Em xin được gửi lời cảm ơn tới các Thầy, Cô trong Trường Đại học Công

Nghệ, Đại học Quốc Gia Hà Nội và nhóm Xeminar thuộc bộ môn Các Hệ thống

Thông tin, những người đã dạy dỗ, giúp đỡ và chỉ bảo cho em trong suốt quá trình học

tập.

Cuối cùng, con xin gửi lời biết ơn tới gia đình, nơi đã sinh thành, nuôi dưỡng

và động viên con rất nhiều trong thời gian qua.

Hà Nội ngày 20/05/2006

Sinh viên

Nguyễn Việt Cường

Khóa luận tốt nghiệp Nguyễn Việt Cường

TÓM TẮT

Biểu diễn văn bản là một trong những công đoạn quan trọng nhất và được quan

tâm đầu tiên trong các vấn đề xử lý văn bản. Nó có ảnh hưởng rất lớn đến các bài toán tìm

kiếm văn bản, phân lớp, phân cụm hay tóm tắt văn bản… Khóa luận này trình bày và

nghiên cứu một phương pháp biểu diễn văn bản mới dựa trên cơ sở lý thuyết tập mờ và áp

dụng vào bài toán phân lớp văn bản. Nội dung của khóa luận tập trung vào các vấn đề

1. Trình bày một số phương pháp biểu diễn văn bản thông thường, trong đó, khóa

luận đi sâu vào cách biểu diễn theo mô hình vector, tức mỗi văn bản sẽ được biểu diễn

như một vector có các thành phần là các từ khóa có mặt hoặc không có mặt trong văn bản.

Sau đó, khóa luận tìm hiểu phương pháp biểu diễn văn bản trong máy tìm kiếm.

2. Trình bày về lý thuyết tập mờ, và đề cập một cách biểu diễn văn bản mới dựa

trên các khái niệm mờ. Từ đó đề xuất hướng giải quyết khi xuất hiện các từ đồng nghĩa

trong văn bản.

3. Tiến hành thử nghiệm cách biểu diễn mới này vào bài toán phân lớp văn bản.

Chỉ ra một số kết quả phân lớp và so sánh với phương pháp biểu diễn theo mô hình vector

thông thường. Từ đó rút ra một số kết luận và hướng phát triển tiếp theo.

Khóa luận tốt nghiệp Nguyễn Việt Cường

iii

MỤC LỤC

LỜI CẢM ƠN ..........................................................................................................i

TÓM TẮT ...............................................................................................................ii

MỤC LỤC............................................................................................................. iii

MỞ ĐẦU.................................................................................................................1

Chương 1. KHAI PHÁ DỮ LIỆU VĂN BẢN........................................................3

1.1. Tổng quan về khai phá dữ liệu................................................................3

1.1.1. Khái niệm............................................................................................3

1.1.2. Các bước của quá trình khai phá dữ liệu ............................................3

1.1.3. Ứng dụng của khai phá dữ liệu...........................................................5

1.2. Một số bài toán trong khai phá dữ liệu văn bản......................................6

1.2.1. Tìm kiếm văn bản ...............................................................................6

1.2.2. Phân lớp văn bản.................................................................................7

Chương 2. CÁC PHƯƠNG PHÁP CƠ BẢN BIỂU DIỄN VĂN BẢN ...............10

2.1. Tiền xử lý văn bản ................................................................................10

2.2. Mô hình Logic.......................................................................................12

2.3. Mô hình phân tích cú pháp ...................................................................14

2.4. Mô hình không gian vector...................................................................15

2.4.1. Mô hình Boolean ..............................................................................17

2.4.2. Mô hình tần suất ...............................................................................17

2.5. Biểu diễn văn bản trong máy tìm kiếm.................................................20

2.5.1. Giới thiệu về máy tìm kiếm..............................................................20

2.5.2. Mô hình biểu diễn văn bản trong máy tìm kiếm ..............................21

Chương 3. BIỂU DIỄN VĂN BẢN SỬ DỤNG CÁC KHÁI NIỆM MỜ............23

Khóa luận tốt nghiệp Nguyễn Việt Cường

3.1. Lý thuyết mờ.........................................................................................23

3.1.1. Tập mờ..............................................................................................23

3.1.2. Các phép toán trên tập mờ................................................................25

3.1.3. Quan hệ mờ.......................................................................................27

3.1.4. Các phép toán trên quan hệ mờ........................................................27

3.2. Biểu diễn văn bản sử dụng các khái niệm mờ......................................29

3.2.1. Khái niệm mờ...................................................................................30

3.2.2. Biểu diễn văn bản .............................................................................32

3.2.3. Đề xuất giải pháp cho vấn đề đồng nghĩa.........................................32

Chương 4. CÁC PHƯƠNG PHÁP PHÂN LỚP VĂN BẢN................................35

4.1. Tổng quan về bài toán phân lớp............................................................35

4.2. Các thuật toán phân lớp ........................................................................36

4.2.1. Phân lớp dựa trên thuật toán Naive Bayes........................................36

4.2.2. Phân lớp dựa trên thuật toán K - Nearest Neighbor (KNN).............38

4.2.3. Phân lớp dựa vào thuật toán cây quyết định.....................................39

4.2.4. Phân lớp sử dụng Support Vector Machines (SVM)........................41

Chương 5. MỘT SỐ KẾT QUẢ THỰC NGHIỆM ..............................................43

5.1. Tập dữ liệu và tiền xử lý.......................................................................43

5.2. Công cụ và phương pháp phân lớp .......................................................44

5.3. Kết quả thực nghiệm.............................................................................45

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ............................................................53

TÀI LIỆU THAM KHẢO.....................................................................................55

Luận văn : Biểu diễn văn bản trên lý thuyết tập mờ . Áp dụng trong bài toán phân lớp văn bản

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi