Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại Văn phòng tỉnh Quảng Ngãi

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:91

Thêm vào BST

Báo xấu

9
lượt xem 2
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận văn "Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại Văn phòng tỉnh Quảng Ngãi" đã nghiên cứu kỹ thuật xử lý ngôn ngữ tiếng Việt; xây dựng kho dữ liệu huấn luyện để ứng dụng vào bài toán phân loại văn bản; ứng dụng kỹ thuật học máy vào bài toán phân loại văn bản tại Văn phòng tỉnh Quảng Ngãi.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại Văn phòng tỉnh Quảng Ngãi

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM ĐÀ NẴNG TÔ TRẦN VÂN THẢO NGHIÊN CỨU PHƯƠNG PHÁP HỌC MÁY CÓ GIÁM SÁT ĐỂ PHÂN LOẠI VĂN BẢN TẠI VĂN PHÒNG TỈNH QUẢNG NGÃI LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Đà Nẵng - Năm 2019
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM ĐÀ NẴNG TÔ TRẦN VÂN THẢO NGHIÊN CỨU PHƯƠNG PHÁP HỌC MÁY CÓ GIÁM SÁT ĐỂ PHÂN LOẠI VĂN BẢN TẠI VĂN PHÒNG TỈNH QUẢNG NGÃI Chuyên ngành: Hệ thống thông tin Mã số: 8480104 LUẬN VĂN THẠC SĨ Người hướng dẫn khoa học: TS.NGUYỄN THỊ NGỌC ANH Đà Nẵng - Năm 2019
i LỜI CAM ĐOAN Tôi xin cam đoan: Tôi cam đoan đây là công trình nghiên cứu của bản thân. Các số liệu, kết quả trình bày trong luận văn là trung thực. Những tư liệu được sử dụng trong luận văn có nguồn gốc và trích dẫn rõ ràng, đầy đủ. Tác giả luận văn Tô Trần Vân Thảo
ii LỜI CẢM ƠN Lời đầu tiên tôi xin gửi lời cảm ơn chân thành đến các quý thầy cô giáo, Khoa chuyên ngành Công nghệ thông tin, Trường Đại học Sư Phạm đã tận tình giảng dạy, truyền đạt những kiến thức, kinh nghiệm quý báu trong suốt thời gian tôi theo học tại chương trình. Các kiến thức, kinh nghiệm quý báu của các thầy cô giáo không chỉ giúp cá nhân tôi hoàn thiện hệ thống kiến thức trong học tập mà còn giúp tôi ứng dụng các kiến thức đó trong công việc hiện tại. Đặc biệt, tôi xin gởi lời cảm ơn chân thành và sâu sắc nhất đến cô giáo của tôi là TS. Nguyễn Thị Ngọc Anh, người Thầy đã tận tình hướng dẫn và tạo điều kiện tốt nhất để tôi hoàn thành luận văn này. Tôi cũng xin được bày tỏ tình cảm với gia đình, đồng nghiệp, bạn bè đã tạo điều kiện để tôi có thể dành thời gian cho khóa học. Xin chân thành cảm ơn các anh chị em trong lớp K34 đã luôn hỗ trợ tôi trong quá trình học tập để có được kết quả như ngày hôm nay, tôi sẽ nhớ mãi về lớp K34 thân thương này. Tuy có nhiều cố gắng, nhưng chắc chắn luận văn không tránh khỏi những thiếu sót nhất định. Tôi rất mong nhận được ý kiến đóng góp quý báu của các quý thầy cô giáo và các anh chị, các bạn để luận văn ngày càng được hoàn thiện hơn. Trân trọng cảm ơn! Đà Nẵng, ngày tháng năm 2019 Tác giả TÔ TRẦN VÂN THẢO
iii TÓM TẮT NGHIÊN CỨU PHƯƠNG PHÁP HỌC MÁY CÓ GIÁM SÁT ĐỂ PHÂN LOẠI VĂN BẢN TẠI VĂN PHÒNG TỈNH QUẢNG NGÃI Nghành: Hệ Thống Thông Tin. Họ tên học viên: Tô Trần Vân Thảo Người hướng dẫn khoa học: TS. Nguyễn Thị Ngọc Anh. Cơ sở đào tạo: Trường Đại học Sư Phạm – ĐH Đà Nẵng. Tóm tắt Luận văn này đi sâu vào nghiên cứu tổng quan về phân lớp và phân loại văn bản tiếng việt với bài toán được áp dụng cho việc phân loại văn bản hành chính tại văn phòng tỉnh Quảng Ngãi.Chương trình được viết trên ngôn ngữ c# trong bộ Microsoft Visual Studio Community 2017, tích hợp module tiền xử lý văn bản và module phân lớp (SVM). Cụ thể, luận văn thực hiện những bước cơ bản sau: nghiên cứu một số thuật toán phân loại như KNN, Naïve Bayes và SVM từ đó đưa ra bài toán áp dụng vào phân loại văn bản trong lĩnh vực hành chính; xây dựng từ điển áp dụng vào việc tách từ; xây dựng tập dữ liệu nhãn/lớp áp dụng vào việc huấn luyện; xây dựng chương trình thực nghiệm cho việc phân loại văn bản. Từ khóa: Xư lý văn bản; mô hình học có giám sát; SVM; Hàm nhân Kernel; Siêu phẳng tối ưu; Xác nhận của giáo viên hướng dẫn Người thực hiện đề tài ------- '�1.(1&-t�< �� LEARNING METHOD 161,Qcirv \l&v'� �-STUDYIN� STUDYING MACHINE MONITORING TO DISTRIBUTE TEXT CATEGORIES IN QUANG NGAI PROVINCE Specialized: Information System Full name of master student: To Tran Van Thao Supervisors: Dr. Nguyen Thi Ngoc Anh. Tranning institution: University Of Science And Education – The University Of Da Nang Abtract This dissertation goes into the research and overview of classification and classification of Vietnamese texts with problems such as classification of electronic news, classification of documents in finance, banking, spam redistribution ... . The program is written in the c # language in Microsoft Visual Studio Community 2017, integrating the preprocessing module and the layered module (SVM). - Studying some classification algorithms such as KNN, Naïve Bayes and SVM, thereby giving the problem of applying to classification of documents in the administrative field. - Develop a dictionary to apply to the separation. - Build label / class data set applied to training. - Develop an experimental program for text classification. Key words: Keywords: SVM; Kernel kernel; Optimal super flat; Supervior’s confirmation Student !fatHh, 16 1;.6'-;., V&v '\h�
iv MỤC LỤC MỞ ĐẦU .................................................................................................................... 1 1. Lý do chọn đề tài ............................................................................................ 1 2. Mục đích nghiên cứu ...................................................................................... 2 3. Mục tiêu nghiên cứu ....................................................................................... 2 4. Đối tượng và phạm vi nghiên cứu .................................................................. 2 5. Phương pháp nghiên cứu ................................................................................ 2 6. Ý nghĩa khoa học và thực tiễn của luận văn................................................... 3 7. Nội dung luận văn .......................................................................................... 3 CHƯƠNG 1. NGHIÊN CỨU TỔNG QUAN .......................................................... 5 1.1. Tổng quan về học máy ....................................................................................... 5 1.1.1. Khái niệm về học máy .............................................................................. 5 1.1.2. Phân loại phương pháp học máy .............................................................. 5 1.1.3. Các ứng dụng của học máy ...................................................................... 8 1.2. Tổng quan về phân lớp dữ liệu ......................................................................... 8 1.2.1. Giới thiệu về phân lớp .............................................................................. 8 1.2.2. Các loại phân lớp dữ liệu .......................................................................... 9 1.3. Phân lớp văn bản ................................................................................................ 9 1.3.1. Khái niệm ................................................................................................. 9 1.3.2. Định nghĩa phân lớp văn bản.................................................................. 11 1.3.3. Mô hình phân lớp văn bản ...................................................................... 11 1.3.4. Các bước xây dựng bộ phân lớp văn bản ............................................... 12 1.3.5. Các bước tiền xử lý dữ liệu .................................................................... 13 1.3.6. Phương pháp tách từ tiếng Việt .............................................................. 14 1.3.7. Loại bỏ từ dừng ...................................................................................... 14 1.3.8. Phương pháp biểu diễn văn bản ............................................................. 16 1.4. Các công trình liên quan đến vấn đề xử lý ngôn ngữ tự nhiên và phân lớp văn bản ..................................................................................................................... 18 CHƯƠNG 2. KHÁI QUÁT MÔ HÌNH HỌC MÁY SUPPORT VECTOR MACHINES (SVM) ................................................................................................ 21 2.1. Ngôn ngữ tiếng Việt ......................................................................................... 21 2.2. Khái niệm về văn bản quản lý nhà nước ....................................................... 22 2.2.1. Văn bản quản lý nhà nước ...................................................................... 22 2.2.2. Văn bản quản lý hành chính nhà nước ................................................... 22
v 2.2.3. Phân loại văn bản quản lý nhà nước ....................................................... 22 2.2.4. Ngôn ngữ trong văn bản hành chính ...................................................... 23 2.3. Bộ phân loại Support Vector Machines (SVM) ............................................ 23 2.3.1. Siêu phẳng tối ưu .................................................................................... 25 2.3.2. Phân lớp mềm ......................................................................................... 28 2.3.3. Trường hợp phân tách phi tuyến ............................................................ 33 2.3.4 Một số hàm nhân (Kernel) thông dụng ................................................... 34 2.3.5. Phương pháp tách từ ............................................................................... 35 2.3.6. Phương pháp Kiểm tra chéo (cross validation) ...................................... 35 2.3.7. Các yếu tố tác động đến kết quả phân loại văn bản: .............................. 36 2.4. Kết luận chương 2 ............................................................................................ 36 CHƯƠNG 3. XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM TRONG BÀI TOÁN HỌC MÁY CÓ GIÁM SÁT ĐỂ PHÂN LOẠI VĂN BẢN TẠI VĂN PHÒNG TỈNH ......................................................................................................... 37 3.1. Bài toán phân lớp tại Văn phòng tỉnh Quảng Ngãi ...................................... 37 3.1.1. Phát biểu bài toán ................................................................................... 37 3.1.2. Phương pháp phân lớp SVM .................................................................. 38 3.1.3. Mô hình SVM cho bài toán phân lớp văn bản ....................................... 38 3.2. Xây dựng chương trình thử nghiệm ............................................................... 42 3.2.1. Môi trường thực nghiệm......................................................................... 42 3.3.2 Thư viện nguồn hỗ trợ ............................................................................. 42 3.2.3. Dữ liệu và chương trình.......................................................................... 42 3.2.4. Xây dựng bộ từ điển danh từ .................................................................. 44 3.2.5. Giao diện chương trình ........................................................................... 45 3.2.6. Các bước sử dụng chương trình thử nghiệm .......................................... 45 3.2.7. Kết quả phân loại văn bản ...................................................................... 48 3.3. Đánh giá kết quả thực nghiệm ........................................................................ 49 TÀI LIỆU THAM KHẢO QUYẾT ĐỊNH GIAO DỀ TAI (BẢN SAO)
vi DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Ký hiệu Thuật ngữ CNTT Công nghệ thông tin CPU Central Processing Unit CSDL Cở sở dữ liệu CV Corters và Vapnik IDF Inverse Document Frequency KKT Karush-Kuhn-Tucker KNN K-nearest neighbors (K láng giềng gần nhất) ML Machine Learning NB Naïve Bayes RBF Radial Basic Function RFC Relative Frequency Count TB Terabyte (thuật ngữ đo lường để chỉ dung lượng lưu trữ máy tính) TF Term Frequency TF – Term frequency – inverse document frequency IDF SVM Support Vector Machines (Máy vector hỗ trợ)
vii DANH MỤC CÁC BẢNG Số hiệu Tên bảng Trang bảng 3.1. Cho một tập dữ liệu văn bản 40 3.2. Biểu diễn văn bản dưới dạng từ điển. 42 3.3. Thiết bị thực nghiệm 42 3.4. Thư viện nguồn hỗ trợ 42 3.5. Dữ liệu học và kiểm tra 43 3.6. Tập số lượng dữ liệu huấn luyện 43 3.7. Tập số lượng dữ liệu kiểm thử 44 3.8. Gán nhãn từ loại 44
viii DANH MỤC CÁC HÌNH VẼ Số hiệu Tên hình Trang hình 1.1. Mô hình thuật toán học máy có giám sát 6 1.2. Hoạt động của một bộ phân loại trên một tập các tài liệu 10 1.3. Sơ đồ khung một hệ thống phân lớp văn bản 12 1.4. Mô tả bước xây dựng bộ phân lớp 13 1.5. Mô hình không gian vector 18 2.1. Mô hình SVM 24 Biểu diễn siêu phẳng lề cực đại cho bộ phân lớp SVM 2.2. 26 trên hai lớp 2.3. Siêu phẳng tách tuyến tính 27 2.4. Phân lớp mềm 29 2.5. Ánh xạ dữ liệu vào không gian khác với số chiều cao hơn 33 Mô hình bài toán phân lớp văn bản dữ liệu văn bản hành 3.1. 39 chính 3.2. Mô hình quá trình tiền xử lý 39 3.3. Giao diện chương trình 45 3.4 Dữ liệu từ điển 46
1 MỞ ĐẦU 1. Lý do chọn đề tài Hiện nay một lượng lớn dữ liệu văn bản có sẵn về các lĩnh vực khác nhau đã được thu thập, lưu trữ. Việc phân loại văn bản là tiến trình xếp các tài liệu văn bản vào trong một hoặc nhiều các tài liệu vào nhóm các chủ đề, để sử dụng nó là vấn đề ngày càng trở nên cần thiết. Vì thế, vấn đề phân lớp và dự đoán là khâu rất quan trọng trong học máy và trong khai phá dữ liệu. Một trong những công cụ được đánh giá mạnh và tinh vi cho những bài toán phân lớp phi tuyến đó là kỹ thuật Support Vector Machines (SVM) do Corters và Vapnik giới thiệu vào năm 1995[14]. Nhiều ứng dụng đã và đang được xây dựng dựa trên kỹ thuật SVM rất hiệu quả. SVM là mô hình xây dựng một siêu phẳng hoặc một tập hợp các siêu phẳng trong một không gian nhiều chiều hoặc vô hạn chiều, có thể được sử dụng cho phân loại, hồi quy, hoặc các nhiệm vụ khác. Trong nhiều trường hợp, không thể phân chia các lớp dữ liệu một cách tuyến tính trong một không gian ban đầu được dùng để mô tả một vấn đề. Vì vậy, nhiều khi cần phải ánh xạ các điểm dữ liệu trong không gian ban đầu vào một không gian mới nhiều chiều hơn, để việc phân tính chúng trở nên dễ dàng hơn trong không gian mới. Gần đây, các nhà nghiên cứu đã thực hiện sử dụng các kỹ thuật học máy để kết hợp tự động phân loại các tài liệu bằng cách đầu tiên sử dụng một tập huấn luyện để thông qua bộ phân loại tới tập đặc trưng của tập tài liệu. Quy trình học máy được khởi tạo bởi một một sự kiểm tra các tài liệu mẫu để quyết định tập đặc trưng tối thiểu mà sinh ra các kết quả phân loại mong muốn. Trong giai đoạn huấn luyện có thể được giám sát hoặc không giám sát. Trong cả hai trường hợp một tập các phân loại được định nghĩa một quyền ưu tiên, không giống phân nhóm mà định nghĩa các phân loại dựa trên đặc trưng của các tài liệu thực sự. Các kỹ thuật học không giám sát sử dụng các đặc trưng của các tài liệu huấn luyện để cho giải thuật quyết định phân loại mỗi tài liệu thuộc vào. Các kỹ thuật học có giám sát sử dụng một tập các tài liệu huấn luyện mà đã được kết hợp trong một phân loại để quyết định tập đặc trưng nào của các tài liệu sẽ tạo ra kết quả mong muốn. Tại Văn phòng tỉnh Quảng Ngãi theo thống kê số lượng văn bản hành chính được ban hành mỗi năm khoảng 10 nghìn văn bản các loại chưa tính các loại văn bản đến đơn vị. Hạ tầng công nghệ thông tin tại Văn phòng được đầu tư từ năm 2001 theo Đề án Tin học hóa quản lý hành chính nhà nước của Chính phủ. Đến nay, CSDL văn bản được lưu giữ trên 30 triệu dữ liệu. Theo Nghị định Chính phủ yêu cầu cung cấp thông
2 tin trực tuyến trên Cổng thông tin điện tử của các tỉnh, Văn phòng chỉ mới cung cấp CSDL văn bản từ năm 2010, việc phân loại các văn bản vào các nhóm chỉ dừng ở mức độ theo loại văn bản chưa phân loại được theo các lĩnh vực, để thuận lợi cho việc tra cứu, sắp xếp, lưu trữ…Do vậy, cần phải có hệ thống xử lý văn bản hiệu quả và phương pháp học máy để tận dụng được các nguồn dữ liệu văn bản chưa được phân loại tại Văn phòng. Nhận thấy đây là lĩnh vực mang tính khoa học cao, ứng dụng rất nhiều trong các bài toán thực tế. Với những vấn đề nêu trên tôi chọn đề tài “Nghiên cứu phương pháp học máy để phân loại văn bản tại Văn phòng tỉnh Quảng Ngãi” làm chủ đề nghiên cứu tại luận văn này. 2. Mục đích nghiên cứu Nghiên cứu kỹ thuật học máy và một số giải thuật thường sử dụng trong học máy, ứng dụng kỹ thuật học. 3. Mục tiêu nghiên cứu - Nghiên cứu kỹ thuật xử lý ngôn ngữ tiếng Việt. - Xây dựng kho dữ liệu huấn luyện để ứng dụng vào bài toán phân loại văn bản. - Ứng dụng kỹ thuật học máy vào bài toán phân loại văn bản tại Văn phòng tỉnh Quảng Ngãi. 4. Đối tượng và phạm vi nghiên cứu Trong khuôn khổ luận văn thuộc loại nghiên cứu và ứng dụng, đề tài chỉ giới hạn nghiên cứu các vấn đề sau: - Các vấn đề liên quan đến học máy. - Các tài liệu, văn bản dạng text chuẩn tiếng Việt không có hình ảnh hoặc âm thanh. - Nghiên cứu phương pháp học để giải quyết bài toán phân loại văn bản theo các chủ đề như: Xây dựng, Giao thông, Văn hóa xã hội, Công nghệ thông tin, Hành chính, Nông nghiệp, Nội chính… 5. Phương pháp nghiên cứu 5.1. Phương pháp lý thuyết - Thu thập và nghiên cứu tài liệu có liên quan. - Nghiên cứu kỹ thuật học có giám sát. - Nghiên cứu lý thuyết về xử lý ngôn ngữ tự nhiên. - Biểu đạt kết quả.
3 5.2. Phương pháp thực nghiệm - Xây dựng kho dữ liệu huấn luyện. - Xây dựng quy trình phân loại văn bản. - Ứng dụng quy trình phân loại văn bản vào mô hình thực tế phân loại văn bản tại Văn phòng tỉnh Quảng Ngãi. 6. Ý nghĩa khoa học và thực tiễn của luận văn 6.1. Ý nghĩa khoa học - Nắm vững các vấn đề về lĩnh vực thống kê, xác suất và học máy áp dụng vào bài toán phân loại văn bản. - Nắm vững và vận dụng lý thuyết kỹ thuật học có giám sát, lý thuyết phân lớp, một số thuật toán phân loại văn bản để vận dụng vào thực tiễn. - Hiểu được lý thuyết về xử lý ngôn ngữ tự nhiên. - Nhìn nhận được mức độ đóng góp của các tác giả so với các phương pháp trước đây; ý nghĩa đóng góp về mặt học thuật có tính phát minh. 6.2. Ý nghĩa thực tiễn - Trong thực tiễn đời sống hằng ngày, thông tin quanh ta là rất nhiều. Biến thông tin thành tri thức để phục vụ con người là khát vọng không chỉ riêng đối với các nhà khoa học. - So với những phương pháp trước đây, phương pháp phân loại văn bản với Support Vector Machines (SVM) được nghiên cứu từ những năm 60 với những công trình của Vapnik và Lerner (1963)[15], Vapnik và Chervonenkis (1964)[16] có khả năng cho kết quả nhận dạng chính xác hơn so với các phương pháp học máy khác – điều này mở ra một khả năng rộng lớn cho các bài toán ứng dụng trong nhiều ngành. - Đưa phương pháp học máy có giám sát vào bài toán phân loại văn bản tại Văn phòng tỉnh Quảng Ngãi. 7. Nội dung luận văn Luận văn gồm 3 chương chính: Chương 1: Nghiên cứu tổng quan Trong chương này, luận văn trı̀nh bà y một cách tổng quan về học máy và một số lý thuyết về phân lớp. Chương 2: Khái quát mô hình học máy Support Vector Machines (SVM) Trong chương này, luận văn đi sâu phân tích đặc tính của tiếng Việt cũng như các loại hình văn bản nhà nước. Theo đó các phương pháp phân loại văn bản tiếng Việt dựa
4 trên mô hình Support Vector Machines, từ cách tách từ, chọn từ phân loại, biểu diễn vector hóa văn bản, phương pháp xây dựng mô hình phân lớp cũng được trình bày cụ thể. Chương 3: Xây dựng chương trình thử nghiệm trong bài toán học máy có giám sát để phân loại văn bản tại văn phòng tỉnh. Từ những cơ sở lý thuyết đã được tìm hiểu ở chương 1 về học máy có giám sát tức là máy học dựa vào sự trợ giúp của con người, hay nói cách khác con người dạy cho máy học và giá trị đầu ra mong muốn được định trước bởi con người và mô hình học máy SVM ở chương 2. Trong chương 3 này,tôi áp dụng bài toán thực tế thông qua việc lựa chọn ngôn ngữ lập trình và môi trường phát triển để xây dựng và thử nghiệm hệ thống ứng dụng SVM vào việc phân loại văn bản hành chính tại tỉnh Quảng Ngãi Cuối cùng là những kết luận, định hướng nghiên cứu và phát triển của luận văn.
5 CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN Trong chương này, các nội dung được trình bày chủ yếu liên quan đến các vấn đề như: học máy, ứng dụng học máy, tổng quan về phân lớp.... 1.1. Tổng quan về học máy Học máy (Machine Learning - ML) [17]là một ngành khoa học nghiên cứu các thuật toán cho phép máy tính có thể học được các khái niệm (concept). Có hai loại phương pháp học máy chính: - Phương pháp quy nạp: là phương pháp máy học dựa trên dữ liệu đã thu thập được trước đó. Phương pháp này cho phép tận dụng được nguồn dữ liệu rất nhiều và sẵn có. - Phương pháp suy diễn: là phương pháp dựa vào các luật. Phương pháp này cho phép tận dụng được các kiến thức chuyên ngành để hỗ trợ máy tính. Hiện nay, các thuật toán đều cố gắng tận dụng được các ưu điểm của hai phương pháp này. 1.1.1. Khái niệm về học máy Học máy (ML) là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kỹ thuật cho phép các hệ thống có thể “học” tự động từ dữ liệu để giải quyết những vấn đề cụ thể. Học máy là tạo ra các phương pháp và chương trình để cho máy tính có thể giải quyết các vấn đề giống như con người. Ví dụ làm như thế nào các hệ thống máy tính có thể “học” cách phân loại văn bản vào những lĩnh vực tương ứng đã cho trước. 1.1.2. Phân loại phương pháp học máy 1.1.2.1. Học có giám sát (supervised learning) Học có giám sát [18]là một kỹ thuật học máy để học từ tập dữ liệu được gán nhãn cho trước. Tập dữ liệu cho trước sẽ chứa nhiều bộ dữ liệu. Mỗi bộ dữ liệu có cấu trúc theo cặp với x được xem là dữ liệu thô (raw data) và y là nhãn của dữ liệu đó. Nhiệm vụ của học có giám sát là dự đoán đầu ra mong muốn dựa vào giá trị đầu vào. Tóm lại, học có giám sát tức là máy học dựa vào sự trợ giúp của con người, hay nói cách khác con người dạy cho máy học và giá trị đầu ra mong muốn được định trước bởi con người. Tập dữ liệu huấn luyện hoàn toàn được gán nhãn dựa vào con người. Tập càng nhỏ thì máy tính học càng ít. Mô hình chung của học có giám sát được khái quát như hình sau:
6 Hình 1.1. Mô hình thuật toán học máy có giám sát Để giải quyết một bài toán nào đó của học có giám sát, người ta phải xem xét nhiều bước khác nhau: - Xác định loại của các ví dụ huấn luyện. Trước khi làm bất cứ điều gì, người làm nhiệm vụ phân lớp nên quyết định loại dữ liệu nào sẽ được sử dụng làm ví dụ. Chẳng hạn đó có thể là một ký tự viết tay đơn lẻ, toàn tập một từ viết tay, hay toàn tập một dòng chữ viết tay. - Thu thập tập huấn luyện. Tập huấn luyện cần đặc trưng cho thực tế sử dụng của hàm chức năng. Vì thế, một tập các đối tượng đầu vào được thu thập và đầu ra tương ứng được thu thập, hoặc từ các chuyên gia hoặc từ việc đo đạc tính toán. - Xác định việc biểu diễn các đặc trưng đầu vào cho hàm chức năng cần tìm. Sự chính xác của hàm chức năng phụ thuộc lớn vào cách các đối tượng đầu vào được biểu diễn. Thông thường, đối tượng đầu vào được chuyển đổi thành một vector đặc trưng, chứa một số các đặc trưng nhằm mô tả cho đối tượng đó. Số lượng các đặc trưng không nên quá lớn, do sự bùng nổ tổ hợp (curse of dimensionality), nhưng phải đủ lớn để dự đoán chính xác đầu ra. - Xác đinh cấu trúc của hàm chức năng cần tìm và giải thuật học tương ứng. Ví dụ người thực hiện quá trình phân lớp có thể lựa chọn việc sử dụng mạng nơ- ron nhân tạo hay cây quyết định…. - Hoàn thiện thiết kế. Người thiết kế sẽ chạy giải thuật học từ một tập huấn luyện
7 thu thập được. Các tham số của giải thuật học có thể được điều chỉnh bằng cách tối ưu hoá hiệu năng trên một tập con (gọi là tập kiểm chứng – validation set) của tập huấn luyện, hay thông qua kiểm chứng chéo (crossvalidation). Sau khi học và điều chỉnh tham số, hiệu năng của giải thuật có thể được đo dạc trên một tập kiểm tra độc lập với tập huấn luyện. 1.1.2.2. Học không có giám sát (unsupervised learning) Học không giám sát [18]là một kỹ thuật của máy học nhằm tìm ra một mô hình hay cấu trúc bị ẩn bởi tập dữ liệu không được gán nhãn cho trước. Học không có giám sát khác với học có giám sát là không thể xác định trước đầu ra từ tập dữ liệu huấn luyện được. Tùy thuộc vào tập huấn luyện kết quả đầu ra sẽ khác nhau. Trái ngược với học có giám sát, tập dữ liệu huấn luyện của học không có giám sát không do con người gán nhãn, máy tính sẽ phải tự học hoàn toàn. Có thể nói, học không có giám sát thì giá trị đầu ra sẽ phụ thuộc vào thuật toán học không có giám sát. 1.1.2.3. Học bán giám sát (semi-supervised learning) Trong khoa học máy tính, học bán giám sát [19]là một lớp của kỹ thuật học máy, sử dụng cả dữ liệu đã gán nhãn và chưa gán nhãn để huấn luyện - điển hình là một lượng nhỏ dữ liệu có gán nhãn cùng với lượng lớn dữ liệu chưa gán nhãn. Học bán giám sát đứng giữa học không giám sát (không có bất kì dữ liệu có nhãn nào) và có giám sát (toàn bộ dữ liệu đều được gán nhãn). Nhiều nhà nghiên cứu nhận thấy dữ liệu không gán nhãn, khi được sử dụng kết hợp với một chút dữ liệu có gán nhãn, có thể cải thiện đáng kể độ chính xác. Để gán nhãn dữ liệu cho một bài toán học máy thường đòi hỏi một chuyên viên có kỹ năng để phân loại bằng tay các ví dụ huấn luyện. Chi phí cho quy trình này khiến tập dữ liệu được gán nhãn hoàn toàn trở nên không khả thi, trong khi dữ liệu không gán nhãn thường tương đối rẻ tiền. 1.1.2.4. Học tăng cường (reinforcement learning) Trong ngành khoa học máy tính, học tăng cường [20]là một lĩnh vực con của học máy, nghiên cứu cách thức một agent trong một môi trường nên chọn thực hiện các hành động nào để cực đại hóa một khoản thưởng (reward) nào đó về lâu dài. Các thuật toán học tăng cường cố gắng tìm một chiến lược ánh xạ các trạng thái của thế giới tới các hành động mà agent nên chọn trong các trạng thái đó. Khác với học có giám sát, trong học tăng cường không có các cặp dữ liệu vào/kết quả đúng, các hành động gần tối ưu cũng không được đánh giá đúng sai một cách tường minh. Hơn nữa, ở đây hoạt động trực tuyến (on-line performance) được quan tâm, trong đó có việc tìm kiếm một sự cân bằng giữa khám phá (lãnh thổ chưa lập bản đồ) và khai thác (tri thức hiện có).
8 Trong học tăng cường, sự được và mất giữa khám phá và khai thác đã được nghiên cứu chủ yếu qua bài toán multi-armed bandit. 1.1.3. Các ứng dụng của học máy Học máy có ứng dụng [21]rộng khắp trong các ngành khoa học/sản xuất, đặc biệt những ngành cần phân tích khối lượng dữ liệu khổng lồ. Một số ứng dụng thường thấy: - Xử lý ngôn ngữ tự nhiên (Natural Language Processing): xử lý văn bản, giao tiếp người – máy, … - Nhận dạng (Pattern Recognition): nhận dạng tiếng nói, chữ viết tay, vân tay, thị giác máy (Computer Vision) … - Tìm kiếm (Search Engine) - Chẩn đoán trong y tế: phân tích ảnh X-quang, các hệ chuyên gia chẩn đoán tự động. - Tin sinh học: phân loại chuỗi gene, quá trình hình thành gene/protein - Vật lý: phân tích ảnh thiên văn, tác động giữa các hạt … - Phát hiện gian lận tài chính (financial fraud): gian lận thẻ tín dụng - Phân tích thị trường chứng khoán (stock market analysis) - Chơi trò chơi: tự động chơi cờ, hành động của các nhân vật ảo - Rôbốt: là tổng hợp của rất nhiều ngành khoa học, trong đó học máy tạo nên hệ thần kinh/bộ não của người máy. 1.2. Tổng quan về phân lớp dữ liệu 1.2.1. Giới thiệu về phân lớp Bài toán phân lớp [9]là quá trình phân lớp một đối tượng dữ liệu vào một hay nhiều lớp đã cho trước nhờ một mô hình phân lớp (model). Mô hình này được xây dựng dựa trên một tập dữ liệu được xây dựng trước đó có gán nhãn (hay còn gọi là tập huấn luyện). Quá trình phân lớp là quá trình gán nhãn cho đối tượng dữ liệu. Như vậy, nhiệm vụ của bài toán phân lớp là cần tìm một mô hình phần lớp để khi có dữ liệu mới thì có thể xác định được dữ liệu đó thuộc vào phân lớp nào. Tóm lại phân lớp dữ liệu là quá trình sắp xếp và phân lớp các dữ liệu vào nhiều loại hình, hình thức hoặc bất kỳ tầng lớp đặc biệt khác. Phân lớp dữ liệu cho phép chia tách và phân lớp dữ liệu theo yêu cầu của bộ dữ liệu cho nhiều mục tiêu kinh doanh hoặc cá nhân. Nó chủ yếu là một quá trình quản lý dữ liệu.
9 1.2.2. Các loại phân lớp dữ liệu - Phân lớp dữ liệu nhị phân Phân lớp dữ liệu nhị phân là quá trình tiến hành việc phân lớp dữ liệu vào một trong hai lớp khác nhau dựa vào việc dữ liệu đó có hay không có một số đặc tính theo quy định của bộ phân lớp. - Phân lớp dữ liệu đa lớp Phân lớp dữ liệu đa lớp là quá trình phân lớp với số lượng lớn hơn hai. Như vậy, tập hợp dữ liệu trong miền xem xét được phân chia thành nhiều lớp chứ không đơn thuần chỉ là hai lớp như trong bài toán phân lớp nhị phân. Tóm lại về bản chất, bài toán phân lớp nhị phân là một trường hợp riêng của bài toán phân lớp đa lớp. - Phân lớp dữ liệu đơn trị Phân lớp dữ liệu đơn trị là quá trình phân lớp mà mỗi đối tượng dữ liệu trong tập dữ liệu huấn luyện được gán vào chính xác một lớp. - Phân lớp dữ liệu đa trị Phân lớp dữ liệu đa trị là mỗi đối tượng dữ liệu trong tập huấn luyện cũng như các đối tượng mới sau khi được phân lớp có thể thuộc vào từ hai lớp trở lên.Ví dụ như có một văn bản hành chính về việc triển khai thực hiện Cuộc vận động "Toàn dân đoàn kết xây dựng nông thôn mới, đô thị văn minh" vừa thuộc về lĩnh vực nông nghiệp nhưng cũng thuộc về lĩnh vực văn hóa xã hội. Trong những trường hợp này, việc sắp xếp một tài liệu vào nhiều lớp là phù hợp với thực tế. 1.3. Phân lớp văn bản Trong những năm gần đây việc đẩy mạnh ứng dụng công nghệ thông tin trong quản lý hành chính nhà nước đã tạo ra một khối lượng dữ liệu khổng lồ. Nên việc tự động phân lớp văn bản là một nhiệm vụ rất quan trọng giúp ích cho đơn vị tổ chức, lưu trữ, tìm kiếm thông tin trên nguồn tài nguyên lớn này. 1.3.1. Khái niệm Phân lớp văn bản (Text Categorization)[2, 3, 10, 13] là việc phân lớp áp dụng đối với dữ liệu văn bản, tức là phân lớp một văn bản vào một hay nhiều lớp văn bản nhờ một mô hình phân lớp; mô hình này được xây dựng dựa trên một tập hợp các văn bản đã được gán nhãn từ trước.
10 Hình 1.2. Hoạt động của một bộ phân loại trên một tập các tài liệu Thông thường, các lớp cho trước là các lĩnh vực nào đó, nhưng cũng có nhiều ứng dụng mà các lớp được thiết lập theo những tiêu chí khác, như phân lớp theo độ ưu tiên, phân lớp theo chủ đề, phân lớp theo lĩnh vực... Hầu hết các bài toán này sẽ tốn rất nhiều thời gian, công sức và đôi khi không chính xác nếu được phân loại một cách thủ công - tức là đọc từng văn bản và gán vào một lớp nào đó. Đặc biệt với số lượng tài liệu cần phân lớp cực kỳ lớn như hiện nay thì việc phân lớp thủ công là một điều không thế. Phân loại những đối tượng mới vào các lớp bằng phương pháp thủ công gặp phải những khó khăn sau: - Đối với các lĩnh vực đặc biệt, phân loại các đối tượng mới (như cơ sở dữ liệu về hành chính, y tế, pháp luật, tài chính, ngân hàng... ) vào các lớp cho trước cần có hiểu biết về các lĩnh vực đó. - Phân loại bằng tay đôi khi không chính xác vì quyết định phụ thuộc vào sự hiếu biết và động cơ của người thực hiện. - Quyết định của hai chuyên gia khác nhau có thể nảy sinh bất đồng ý kiến. Vì vậy những công cụ để tự động phân lớp văn bản vào các lớp sẽ rất hữu ích với công việc này nhất là khi thông tin tràn ngập như ngày nay. Một số phương pháp phân lớp thống kê và kĩ thuật học máy như Bayesian, máy vector hỗ trợ (SVM), K người láng giềng gần nhất, mạng nơron... được áp dụng để giải quyết bài toán này. Chính vì những nhược điểm của phương pháp thủ công nên việc xây dựng một bộ phân lớp văn bản tự động là một điều rất quan trọng và cần thiết, đặc biệt là khi hầu hết các thông tin được lưu trữ điện tử. Các kỹ thuật phân lớp văn bản sẽ giúp cho nguồn dữ liệu văn bản được lưu trữ tự động một cách hiệu quả và tìm kiếm một cách