Luận văn Thạc sĩ ngành Hệ thống thông tin: Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng

Chia sẻ: Nhân Nhân | Ngày: | Loại File: PDF | Số trang:48

Thêm vào BST

Báo xấu

32
lượt xem 5
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận văn có cấu trúc gồm 4 chương giới thiệu tổng quan về máy học suốt đời và học máy thế giới mở, mô hình phân lớp văn bản thế giới mở dựa trên kỹ thuật học sâu, mô hình ứng dụng phân lớp thế giới mở dựa trên kỹ thuật học sâu cho chuẩn hóa thực thể tên bệnh,... Mời các bạn cùng tham khảo.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ ngành Hệ thống thông tin: Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Thị Quỳnh Trang Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng LUẬN VĂN TỐT NGHIỆP THẠC SĨ HỆ CHÍNH QUY Ngành: Hệ thống thông tin Hà Nội, 12/2019
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Thị Quỳnh Trang Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng LUẬN VĂN TỐT NGHIỆP THẠC SĨ HỆ CHÍNH QUY Ngành: Hệ thống thông tin Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy HÀ NỘI - 2019
LỜI CẢM ƠN Đầu tiên, em xin gửi lời biết ơn chân thành và sâu sắc nhất đến thầy giáo PGS. TS. Hà Quang Thụy, người đã luôn động viên, nhiệt tình hướng dẫn và tạo mọi điều kiện tốt nhất cho em hoàn thành được luận văn. Em xin chân thành cảm ơn các thầy cô, các anh chị em trong phòng thí nghiệm Công nghệ và tri thức đã luôn giúp đỡ và động viên tinh thần trong thời gian em học tập và công tác. Em chân thành cảm ơn quý Thầy, Cô trong Khoa Công Nghệ Thông Tin nói riêng và trường đại học Công Nghệ - Đại học Quốc Gia Hà Nội nói chung đã tận tình truyền đạt những kiến thức quý báu trong quá trình học tập tại Trường. Cuối cùng, em xin cảm ơn những người thân yêu của em, đặc biệt là chồng em đã luôn động viên, tạo điều kiện tốt nhất cho em trong quá trình học tập và hoàn thành luận văn. Em xin chân thành cảm ơn! Luận văn này được thực hiện trong khuôn khổ đề tài Nafostef mã số: 102.05- 2016.14 “Nghiên cứu và phát triển các mô hình học máy tiên tiến phát hiện và trích xuất mối quan hệ tác dụng phụ của thuốc/hóa chất và bệnh từ văn bản y-sinh”, năm 2016. i
LỜI CAM ĐOAN Tôi xin cam đoan rằng luận văn thạc sĩ công nghệ thông tin “Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng” là công trình nghiên cứu của riêng tôi, không sao chép lại của người khác. Trong toàn bộ nội dung của luận văn, những điều đã được trình bày hoặc là của chính cá nhân tôi hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả các nguồn tài liệu tham khảo đều có xuất xứ rõ ràng và hợp pháp. Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan này. Hà Nội, ngày 15 tháng 12 năm 2019 Học viên Phạm Thị Quỳnh Trang ii
Mục Lục LỜI CẢM ƠN ........................................................................................................................ i LỜI CAM ĐOAN .................................................................................................................ii TÓM TẮT............................................................................................................................ iv DANH SÁCH THUẬT NGỮ VÀ TỪ VIẾT TẮT .............................................................. v DANH SÁCH BẢNG .......................................................................................................... vi DANH SÁCH HÌNH ẢNH ................................................................................................vii Mở đầu .................................................................................................................................. 1 Chương 1. Học máy thế giới mở và bài toán chuẩn hóa tên thực thể bệnh ........................ 3 1.1 Học máy truyền thống .................................................................................................. 3 1.2. Học máy suốt đời ........................................................................................................... 5 1.2.1 Định nghĩa học máy suốt đời .............................................................................. 7 1.2.2. Các hướng nghiên cứu LL ............................................................................... 12 1.3. Học máy thế giới mở .................................................................................................. 12 1.4. Mục tiêu của luận văn.................................................................................................. 15 Kết luận Chương 1.............................................................................................................. 17 Chương 2. Học sâu thế giới mở cho văn bản ..................................................................... 18 2.1. Học thế giới mở không gian đơn giản trung tâm......................................................... 18 2.1.1 Tăng cường cập nhật mô hình học CBS ........................................................... 18 2.1.2 Kiểm tra mô hình học CBS ............................................................................... 20 2.1.3 Học CBS cho phát hiện lớp chưa thấy .............................................................. 20 2.2. Học sâu thế giới mở phân lớp văn bản ........................................................................ 21 2.2.1 CNN và các lớp chuyển tiếp của DOC ............................................................. 22 2.2.2 Tầng 1- với-phần còn lại ................................................................................... 23 2.2.2 Giảm rủi ro không gian mở ............................................................................... 23 Kết luận Chương 2.............................................................................................................. 24
Chương 3: Ứng dụng mô hình DOC vào chuẩn hóa tên bệnh ........................................... 25 3.1. Ứng dụng chuẩn hóa tên thực thể bệnh ....................................................................... 25 3.2.1. Mô hình đề xuất ........................................................................................................ 27 Bộ phân giải viết tắt ................................................................................................... 28 Mạng nơ ron học sâu thế giới mở .............................................................................. 28 Kết luận Chương 3.............................................................................................................. 30 Chương 4: Thực nghiệm và đánh giá ................................................................................. 31 4.1. Dữ liệu thực nghiệm chuẩn hoá tên bệnh .................................................................... 31 4.2 Môi trường và các công cụ thực nghiệm ...................................................................... 32 4.3 Kết quả và đánh giá ...................................................................................................... 32 Kết luận............................................................................................................................... 36 Tài liệu tham khảo .............................................................................................................. 37
TÓM TẮT Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng Phạm Thị Quỳnh Trang Khóa học: QH-2013- I/CQ Ngành: Hệ thống thông tin Tóm tắt: Học máy suốt đời (Lifelong Machine Learning: LML) là một tiếp cận học máy liên tục, trích chọn và lưu giữ tri thức từ quá khứ để sử dụng khi giải quyết các bài toán học mới. Học thế giới mở, một dạng của học máy suốt đời, có năng lực phát hiện các trường hợp chưa từng thấy để hình thành các bài toán mới. Phân lớp thế giới mở thực hiện ba bài toán thành phần là (i) Phát hiện những thực thể mới, không thể thuộc vào các lớp hiện có, (ii) Xây dựng mô hình phân lớp cho các lớp mới, và (iii) hiệu chỉnh các mô hình phân lớp vốn có để nâng cao hiệu năng bộ phân lớp khi có thêm các lớp mới. Dựa trên mô hình phân lớp học sâu thế giới mở DOC (Deep Open Classification) của L. Shu và cộng sự, luận văn đề nghị mô hình ứng dụng phân lớp học sâu thế giới mở cho bài toán chuẩn hoá thực thể tên và phân lớp quan hệ trong văn bản y sinh. Việc trích xuất tự động tri thức từ văn bản đóng vai trò quan trọng trong học suốt đời. Nó bao gồm ba bước chính: nhận dạng các thực thể tên, chuẩn hoá thực thể tên và phân loại quan hệ giữa chúng. Hai bước sau thường hay xuất hiện các đối tượng mới, đặc biệt là trong lĩnh vực y sinh. Các kết quả thực nghiệm trên bộ dữ liệu chuẩn đã chỉ ra tính hiệu quả của mô hình đề xuất trong vấn đề nhận dạng được các đối tượng mới chưa xuất hiện khi huấn luyện mô hình và trong vấn đề chuẩn hoá tên. Đặc biệt, mô hình chuẩn hoá thực thể tên có thể đạt giá trị độ đo F1 = 80%, tốt hơn của các phương pháp cùng thể loại tính đến thời điểm hiện tại. Từ khóa: Học máy suốt đời, học thế giới mở, học sâu, chuẩn hoá tên thực thể bệnh. iv
DANH SÁCH THUẬT NGỮ VÀ TỪ VIẾT TẮT SVM Support Vector Machines/Máy vector hỗ trợ CNN Convolutional neural network/Mạng nơ ron tích chập LL Life long learning/Học suốt đời ML Machine learning/Học máy DOC Deep Open Classification/Phân lớp mở sâu CBS Center Based Similarity/Độ tương tự dựa trên trung tâm NNO Nearest Non-Outlier/Không ngoại lai gần nhất v
DANH SÁCH BẢNG Bảng 1.1: Bảng 1.1 - Một ví dụ về bài toán chuẩn hoá tên bệnh. ................ 17 Bảng 3.1 - Một ví dụ về bài toán chuẩn hoá tên thực thể thuốc …………………….27 Bảng 4.1: Thống kê dữ liệu thực nghiệm chuẩn hóa tên bệnh ...................... 33 Bảng 4.2: Các công cụ thực nghiệm .............................................................. 34 Bảng 4.3: So sánh kết quả sử dụng dữ liệu cả câu và dữ liệu SDP trên số lớp đã biết khác nhau của tập dữ liệu SemEval-2010 Task 8. .................................. 37 Bảng 4.4: Tổng hợp kết quả mô hình DOC chuẩn hóa thực thể tên bệnh. .... 38 Bảng 4.5: Kết quả thực nghiệm và so sánh.................................................... 38 vi
DANH SÁCH HÌNH ẢNH Hình 1.1: Kiến trúc mô hình học máy cổ điển. .................................................. 4 Hình 2.1: Kiến trúc tổng quan của hệ thống học suốt đời ................................. 10 Hình 2.1: Mô hình tổng quan DOC ................................................................. 22 Hình 2.2: Mô hình tổng quan DOC ................................................................. 23 Hình 3.1: Định danh, tên chính hay dùng và các tên đồng nghĩa của một bệnh trong MEDIC. ........................................................................................................... 27 Hình 3.1: Mô hình đường ống chuẩn hoá thực thể tên bệnh. ............................. 28 Hình 3.2: Kiến trúc hệ thống chuẩn hoá tên thực thể y sinh dựa trên mạng nơ ron tích chập do Cho và cộng sự đề xuất [9].. ................................................................ 28 . vii
Mở đầu Trong cuộc sống, con người học hỏi suốt đời để tích lũy tri thức, vận dụng tri thức và kỹ năng tích lũy được để giải quyết các vấn đề/tác vụ mới gặp phải, từ đó giúp cho việc học nhanh hơn và hiệu quả hơn. Trong quá trình tiến hóa hàng triệu năm của loài người, khả năng học suốt đời đã giúp con người thích nghi, tồn tại và phát triển được trong nhiều môi trường sống khắc nghiệt khác nhau. Học máy suốt đời, là một hướng nghiên cứu học máy mới nhằm mục đích bắt chước quá trình và khả năng học tập suốt đời của con người trong các môi trường mở, đầy biến động. Kiểu học này khá tự nhiên vì mọi thứ xung quanh chúng ta có liên quan chặt chẽ và liên kết với nhau. Con người chúng ta luôn giữ lại kiến thức đã học trong quá khứ và sử dụng nó để giúp học tập và giải quyết vấn đề trong tương lai. Học máy suốt đời là bước tiến hoá hợp lý tiếp theo của học máy cổ điển; nó là hướng nghiên cứu mới nổi và đầy hứa hẹn để khắc phục những thiếu sót đó của học máy cổ điển, với mục tiêu cuối cùng là xây dựng những cỗ máy học hỏi như con người. Học thế giới mở, là một hình thức của học máy suốt đời, không yêu cầu giả định thế giới đóng, có khả năng phát hiện các trường hợp của các lớp chưa thấy trong quá trình hoạt động của hệ thống học. Nó có khả năng xây dựng mô hình phân lớp cho các lớp mới và cập nhật mô hình phân lớp cho các lớp đã có mà không học lại toàn bộ các mô hình từ đầu. Việc trích xuất tự động tri thức từ văn bản đóng vai trò quan trọng trong học suốt đời. Nó bao gồm ba bước chính: nhận dạng các thực thể tên, chuẩn hoá thực thể tên và phân loại quan hệ giữa chúng. Hai bước sau thường hay xuất hiện các đối tượng mới, đặc biệt là trong lĩnh vực y sinh, với rất nhiều thách thức, khi cần phải xác định một biểu hiện tên bệnh mới xuất hiện có thuộc về một thực thể tên bệnh đã có hay là biểu hiện của một tên bệnh mới. Trong trường hợp này, mô hình phân lớp thế giới mở là phù hợp để giải quyết bài toán. Nội dung của luận văn được tổ chức thành các chương như sau: 1
Chương 1 trình bày một giới thiệu tổng quan về học máy suốt đời và học máy thế giới mở. Tiếp đó, bài toán chuẩn hoá thực thể tên bệnh trong văn bản y sinh được giới thiệu. Chương 2 trình bày mô hình phân lớp văn bản thế giới mở dựa trên kỹ thuật học sâu. Chương 3 trình bày mô hình ứng dụng phân lớp thế giới mở dựa trên kỹ thuật học sâu cho chuẩn hoá thực thể tên bệnh, là bước tiền đề cho việc trích xuất các quan hệ giữa các thực thể y sinh. Các quan hệ được biểu diễn trong văn bản là các tri thức tồn tại dưới định dạng chỉ con người mới “đọc hiểu” được. Việc trích xuất quan hệ từ văn bản sẽ tạo ra cơ sở dữ liệu tri thức, là thành phần quan trọng của học máy suốt đời. Chương 4 trình bày các kết quả thực nghiệm của mô hình ứng dụng được đề xuất trong Chương 3, cũng như các phân tích các kết quả thực nghiệm này. Phần Kết luận tóm lược kết quả đạt được của khóa luận và định hướng phát triển tương lai. 2
Chương 1. Học máy thế giới mở và bài toán chuẩn hóa tên thực thể bệnh Học máy (Machine Learning: ML) đã là công cụ cho sự tiến bộ của cả phân tích dữ liệu và trí tuệ nhân tạo (Artificial Intelligence: AI). Thành công gần đây của học sâu đã đưa ML lên một tầm cao mới. Các thuật toán ML đã được áp dụng trong hầu hết các lĩnh vực khoa học máy tính, khoa học tự nhiên, kỹ thuật, khoa học xã hội và hơn thế nữa. Nếu không có thuật toán ML hiệu quả, nhiều ngành sẽ không tồn tại hoặc phát triển, ví dụ: thương mại điện tử và tìm kiếm trên web. Tuy nhiên, mô hình ML hiện tại không phải không có điểm yếu. Trước tiên luận văn sẽ giới thiệu về mô hình ML cổ điển và những thiếu sót của nó, sau đó giới thiệu Lifelong ML (Học suốt đời (LL) và học thế giới mở (OpenWorld ML, một dạng học máy suốt đời) như một hướng đi mới nổi và đầy hứa hẹn để khắc phục những thiếu sót đó với mục tiêu cuối cùng là xây dựng những cỗ máy học hỏi như con người [2]. Bài toán chuẩn hóa tên thực thể bệnh trong văn bản y sinh dưới dạng một bài toán học thế giới mở sẽ được giới thiệu ở cuối chương. 1.1 Học máy truyền thống Mô hình ML phổ biến hiện nay là chạy thuật toán ML trên tập dữ liệu đã cho để tạo mô hình. Mô hình này sau đó được áp dụng trong các nhiệm vụ thực tế. Mô hình học này được gọi là mô hình cô lập bởi vì nó không xem xét bất kỳ thông tin liên quan nào khác hoặc tri thức đã học, tích luỹ được trước đó (xem Hình 1) [2]. Vấn đề cơ bản của mô hình học tập cô lập này là nó không lưu giữ và tích lũy kiến thức đã học trong quá khứ và sử dụng nó trong tương lai. Điều này trái ngược hoàn toàn với việc học của con người. Con người chúng ta luôn tích luỹ lại kiến thức đã học trong quá khứ và sử dụng nó để giúp học tập và giải quyết vấn đề mới trong tương lai. Không có khả năng tích lũy và sử dụng kiến thức trong quá khứ, thuật toán ML thường cần một số lượng lớn các ví dụ huấn luyện để học hiệu quả. Các môi trường học thường là tĩnh và đóng. Đối với việc học có giám sát, việc gán nhãn dữ liệu huấn luyện thường được thực hiện thủ công, rất tốn công sức và thời gian. Vì thế giới quá phức tạp với nhiều nhiệm vụ khác hẳn nhau, nên gần như không thể gán nhãn một số lượng lớn các ví dụ cho mọi nhiệm vụ để thuật toán ML có thể học hiệu quả. Tệ hơn nữa, mọi thứ xung quanh chúng ta luôn thay đổi liên tục, do đó việc gán nhãn cần phải được thực hiện liên tục; đó là một việc hết sức khó khăn đối với con người. 3
Ngay cả đối với học không giám sát, việc thu thập một khối lượng dữ liệu lớn có thể không thực hiện được trong nhiều trường hợp. Hình 1.1. Kiến trúc mô hình học máy cổ điển [2]. Mô hình học cô lập cổ điển không thể thực hiện được việc học suốt đời. Như đã đề cập trước đó, nó chỉ phù hợp cho các nhiệm vụ hẹp và hạn chế trong môi trường kín. Nó cũng có thể không đủ để xây dựng một hệ thống thông minh có thể học liên tục để đạt được mức độ thông minh như con người. LL nhằm mục đích đạt được tiến bộ theo hướng này. Với sự phổ biến của robot, trợ lý ảo thông minh, LL ngày càng trở nên quan trọng vì các hệ thống này phải tương tác với con người và/hoặc các hệ thống khác, liên tục học hỏi trong quá trình hoạt động và duy trì kiến thức đã học trong các tương tác của chúng trong các môi trường khác nhau, qua đó có thể hoạt động tốt hơn theo thời gian. Trong 25 năm qua, đã có những tiến bộ đáng kể trong lý thuyết học máy và thuật toán. Tuy nhiên, hiện vẫn có rất ít thuật toán có khả năng học nhiều nhiệm vụ khác nhau trong một thời gian dài. Học có giám sát cổ điển đưa ra giả định thế giới khép kín, có nghĩa là tất cả các lớp dữ liệu lúc kiểm tra đều đã xuất hiện trong lúc học [1, 5, 6]. Mặc dù giả định này đúng trong nhiều ứng dụng, nhưng nó bị vi phạm ở nhiều ứng dụng khác, đặc biệt là trong môi trường động và mở; trong đó các dữ liệu của các lớp không mong muốn có thể xuất hiện trong lúc kiểm tra hoặc hệ thống đi vào hoạt động. Ví dụ, khi đọc, hệ thống có thể thấy một từ mới mà nó không biết, khi đó hệ thống phải học nó bằng cách tra từ trong từ điển. Trong cuộc trò chuyện giữa người và máy, trợ lý ảo có thể không hiểu một số điều được nói bởi người dùng và sau đó nó cần yêu cầu người dùng giải thích thêm để tìm hiểu. Để 4
học trong một môi trường mở như vậy, chúng ta cần học thế giới mở (phân loại thế giới mở hoặc đơn giản là phân loại mở), trong đó phải phát hiện được các lớp chưa xuất hiện trong quá trình huấn luyện mô hình, và sau đó thêm dần các lớp mới này vào mô hình mà không phải huấn luyện lại toàn bộ mô hình từ đầu. Hình thức học này còn được gọi là học tích lũy trong [5]. Luận văn này sẽ tập trung vào mô hình học có giám sát thế giới mở. Học có giám sát truyền thống dựa trên giả định thế giới đóng với các lớp trong tập dữ liệu kiểm tra (test) đều đã xuất hiện trong dữ liệu huấn luyện D khi huấn luyện mô hình. D = {(x1, y1), (x2, y2), ..., (xn, yn)} -xi là dữ liệu thứ i, yi ∈ {l1, l2, ..., lm} = Y là lớp/nhãn của xi. Khi đó cần xây mô hình f(x) có khả năng phân loại dữ liệu x trong tập test vào một trong m lớp đã biết trong Y. Giả thiết thế giới đóng không đúng với nhiều ứng dụng trong thực tế, đặc biệt trong môi trường mở, biến động. Ví dụ, đối với dữ liệu truyền thông mạng xã hội luôn có thêm những chủ đề mới được bàn luận, hay với ứng dụng xe tự lái thường có các lớp đối tượng mới xuất hiện, hay các tên bệnh mới có thể chưa có số định danh trong CSDL. 1.2. Học máy suốt đời Trong cuộc sống, con người luôn phải học hỏi suốt đời, thông qua việc tích lũy, vận dụng tri thức và kỹ năng có sẵn để giải quyết các vấn đề/tác vụ mới gặp phải, từ đó giúp cho việc học nhanh hơn và hiệu quả hơn. Trong quá trình tiến hóa hàng triệu năm của loài người, khả năng học suốt đời đã giúp con người thích nghi, sống sót và phát triển được trong nhiều môi trường sống khắc nghiệt khác nhau. Lấy ví dụ về năng lực giao tiếp, học suốt đời giúp chúng ta có khả năng sử dụng ngôn ngữ để giao tiếp với nhau thông qua các công cụ, các khái niệm (tri thức) hữu dụng học được từ cha mẹ và giáo viên. Đầu tiên, các từ và cụm từ có ý nghĩa gần như giống nhau trong tất cả các lĩnh vực và tất cả các nhiệm vụ. Thứ hai, các câu trong mỗi ngữ cảnh sử dụng đều tuân theo cùng một cú pháp. Thứ ba, gần như tất cả các vấn đề về ngôn ngữ tự nhiên có liên quan chặt chẽ với nhau, điều đó có nghĩa là chúng có liên kết với nhau và ảnh hưởng lẫn nhau theo một số cách. 5
Hai lý do đầu tiên ở trên đảm bảo rằng kiến thức đã học có thể được sử dụng trong các tác vụ khác nhau (của các lĩnh vực khác nhau). Đó là lý do tại sao con người chúng ta không cần phải học lại ngôn ngữ (hoặc học một ngôn ngữ mới) mỗi khi chúng ta bắt gặp một miền ứng dụng mới. Ví dụ, giả sử chúng ta chưa bao giờ nghiên cứu tâm lý học, và bây giờ muốn nghiên cứu nó. Chúng ta không cần phải học lại ngôn ngữ được sử dụng trong văn bản tâm lý học, ngoại trừ một số khái niệm mới trong lĩnh vực tâm lý học. Lý do thứ ba ở trên đảm bảo rằng kiến thức về ngôn ngữ của chúng ta có thể được sử dụng trên các loại nhiệm vụ khác nhau. Ví dụ, giả sử chúng ta đã tích luỹ được tri thức rằng: “iPhone là sản phẩm và mọi sản phẩm đều có giá của nó” và tính từ “đắt” mô tả thuộc tính giá của một sản phẩm. Sau đó, từ câu nhận xét: “Chất lượng hình ảnh của iPhone rất tuyệt, nhưng nó khá đắt”, thông qua việc sử dụng các kiến thức được tích luỹ từ trước, chúng ta có thể dễ dàng nhận ra rằng “chất lượng hình ảnh” là một tính năng hoặc thuộc tính của iPhone và “nó/it” là để chỉ “iPhone” chứ không phải là thuộc tính “chất lượng hình ảnh” của iPhone. Hai vấn đề này có liên quan chặt chẽ với nhau và có thể giúp đỡ lẫn nhau vì kết quả từ một vấn đề có thể hữu ích cho những người khác, trong việc xử lý nhiệm vụ khác. Hiện tượng trên không chỉ đúng cho khả năng học ngôn ngữ của con người mà còn đúng cho bất kỳ lĩnh vực nào khác bởi vì mọi thứ trên thế giới có liên quan và liên kết với nhau. Do đó, kiến thức học được trong quá khứ trong một số lĩnh vực có thể được áp dụng trong một số lĩnh vực khác có bối cảnh tương tự. Học máy suốt đời được phát triển nhằm mục đích bắt chước quá trình và khả năng học tập suốt đời của con người. Kiểu học này khá tự nhiên vì mọi thứ xung quanh chúng ta có liên quan chặt chẽ và liên kết với nhau. Kiến thức đã học về một số môn học có thể giúp chúng ta hiểu và học một số môn học khác. Ví dụ, con người chúng ta không cần 1.000 đánh giá tích cực và 1.000 đánh giá tiêu cực về phim trực tuyến như thuật toán ML cần để xây dựng bộ phân loại đánh giá tích cực và tiêu cực về các bộ phim. Trong thực tế, đối với nhiệm vụ này, không cần có một ví dụ huấn luyện, con người chúng ta cũng đã có thể thực hiện nhiệm vụ phân loại này. Lý do rất đơn giản. Đó là bởi vì con người chúng ta đã tích lũy rất nhiều kiến thức trong quá khứ về các cách mà mọi người sử dụng để khen hoặc chỉ trích mọi thứ, mặc dù có thể rất ít trong số những lời khen hoặc phê bình đó là về các bộ phim trực tuyến. 6
Nếu chúng ta không có kiến thức tích luỹ được từ quá khứ như vậy, con người chúng ta có thể không thể tự xây dựng một bộ phân loại tốt ngay cả khi có tập huấn luyện gồm 1.000 đánh giá tích cực và 1.000 đánh giá tiêu cực. Ví dụ: nếu bạn không có kiến thức về tiếng Ả Rập và ai đó cung cấp cho bạn 2.000 đánh giá được dán nhãn bằng tiếng Ả Rập và yêu cầu bạn xây dựng một bộ phân loại theo cách thủ công, rất có thể bạn sẽ không thể làm điều đó nếu không sử dụng trình dịch. Mặc dù LL đã được đề xuất hơn 20 năm trước, nhưng nghiên cứu trong lĩnh vực này vẫn chưa phát triển mạnh. Một số lý do có thể như sau [2]: - Đầu tiên, cộng đồng nghiên cứu ML trong 20 năm qua đã tập trung vào các phương pháp thống kê và thuật toán. LL thường cần một cách tiếp cận hệ thống kết hợp nhiều thành phần và thuật toán học. - Thứ hai, phần lớn các nghiên cứu và ứng dụng ML trước đây tập trung vào việc học có giám sát bằng cách sử dụng dữ liệu có cấu trúc, điều này không dễ dàng đối với LL vì có rất ít điểm giống nhau giữa các nhiệm vụ hoặc lĩnh vực. Ví dụ, kiến thức học được từ hệ thống học có giám sát trong đơn xin vay vốn khó được sử dụng trong ứng dụng y tế hoặc giáo dục vì chúng không có nhiều điểm chung. Ngoài ra, hầu hết các thuật toán học có giám sát không tạo ra tri thức nào ngoài mô hình phân lớp cuối cùng. Mô hình được tạo ra rất khó được sử dụng làm tri thức tiền nghiệm cho một nhiệm vụ phân lớp khác, ngay cả trong một lĩnh vực tương tự. - Thứ ba, nhiều phương pháp ML hiệu quả như SVM và học sâu không thể dễ dàng sử dụng tri thức tiền nghiệm. Các bộ phân lớp này là hộp đen với cơ chế hoạt động rất khó để giải thích. Chúng thường hoạt động chính xác hơn trên dữ liệu huấn luyện; càng nhiều dữ liệu hoạt động càng tốt. 1.2.1 Định nghĩa học máy suốt đời Năm 1996, Thrun đã đưa ra một định nghĩa về học máy suốt đời như sau: “Tại bất kỳ thời điểm nào, hệ thống đã học cách thực hiện N nhiệm vụ. Khi đối mặt với nhiệm vụ N + 1, nó sử dụng kiến thức thu được từ N nhiệm vụ trước để giúp giải quyết nhiệm vụ thứ N + 1.” [2]. Năm 2018, Z. Chen và B. Liu [2] đã mở rộng định nghĩa này bằng cách cung cấp cho nó thêm các chi tiết và các tính năng bổ sung, bao gồm: (i) một hệ cơ sở tri thức 7
tường minh (Knowlegde Base) được thêm vào để lưu lại tri thức đã học được từ các nhiệm vụ trước; (ii) khả năng khám phá các nhiệm vụ học mới; (iii) khả năng học trong khi làm (hoặc học trong công việc). Định nghĩa của Chen và Liu được phát biểu như sau: “Học máy suốt đời (LL) là một quá trình học liên tục. Tại bất kỳ thời điểm nào, bộ học đã thực hiện một chuỗi N nhiệm vụ học T1, T2, ..., TN. Các nhiệm vụ này, còn được gọi là các nhiệm vụ trước, có N bộ dữ liệu tương ứng D1, D2, ..., DN. Các nhiệm vụ có thể thuộc các loại khác nhau và từ các miền khác nhau. Khi phải đối mặt với nhiệm vụ mới N + 1 là TN+1 (được gọi là nhiệm vụ mới hoặc hiện tại) với dữ liệu DN+1, bộ học có thể tận dụng kiến thức trong quá khứ được lưu trong hệ cơ sở tri thức (KB) để giải quyết TN+1. Nhiệm vụ có thể được đưa ra hoặc được phát hiện bởi chính hệ thống (xem bên dưới). Mục tiêu của LL thường là tối ưu hóa hiệu suất của nhiệm vụ mới TN+1, nhưng nó có thể tối ưu hóa bất kỳ nhiệm vụ nào bằng cách coi các nhiệm vụ còn lại là các nhiệm vụ trước. KB duy trì tri thức đã học và tích lũy từ việc học các nhiệm vụ trước đó. Sau khi hoàn thành việc học T N+1, KB được cập nhật tri thức mới có được từ việc học TN+1. Việc cập nhật có thể liên quan đến việc kiểm tra tính nhất quán, lập luận và khai phá siêu tri thức cấp cao hơn” [2]. Có hai loại nhiệm vụ trong hệ thống học suốt đời: - Nhiệm vụ độc lập: Mỗi nhiệm vụ Ti độc lập với các nhiệm vụ khác. Điều này có nghĩa là mỗi nhiệm vụ có thể được học độc lập, mặc dù do sự tương đồng và chia sẻ một số cấu trúc hoặc kiến thức tiềm ẩn, việc học Ti có thể tận dụng kiến thức thu được từ việc học các nhiệm vụ trước đó. - Nhiệm vụ phụ thuộc: Mỗi nhiệm vụ Ti có một số phụ thuộc vào một số nhiệm vụ khác. Ví dụ, trong học tập thế giới mở, mỗi nhiệm vụ học có giám sát mới sẽ thêm một lớp mới vào bài toán phân lớp trước đó và cần xây dựng một trình phân lớp nhiều lớp mới có khả năng phân loại dữ liệu từ tất cả các lớp trước và hiện tại. Việc chuyển sang nhiệm vụ mới có thể xảy ra đột ngột hoặc dần dần, và các nhiệm vụ và dữ liệu của chúng không phải được cung cấp bởi một số hệ thống bên ngoài hoặc người dùng. Một bộ học suốt đời lý tưởng có thể tự phát hiện ra các nhiệm vụ học và dữ liệu đào tạo của riêng mình khi tương tác với con người và môi trường hoặc sử dụng kiến thức đã học trước đó để thực hiện học trong thế giới mở và tự giám sát. 8
Từ định nghĩa trên, có thể thấy LL có năm đặc điểm chính sau [2]: 1. Học liên tục. 2. Tri thức được tích luỹ và lưu giữ trong KB. 3. Sử dụng tri thức tích lũy trong quá khứ để học trong tương lai 4. Có khả năng khám phá ra các nhiệm vụ mới 5. Có khả năng học trong khi làm việc hoặc học trong công việc. Không có những khả năng này, một hệ thống ML sẽ không thể tự học trong môi trường mở, luôn biến động; hệ quả là sẽ không bao giờ thực sự thông minh. Vì kiến thức được tích lũy và sử dụng trong LL, do đó, LL có liên quan đến nhiều khía cạnh khác của trí tuệ nhân tạo cho ML, ví dụ: biểu diễn tri thức, thu nhận, lập luận và duy trì tri thức. Tri thức tích luỹ được không chỉ có thể giúp cải thiện việc học trong tương lai, mà còn có thể giúp thu thập và gán nhãn dữ liệu huấn (tự giám sát) và khám phá các nhiệm vụ mới có khả năng sẽ được học. Con người có khả năng tích hợp của cả học dựa trên dữ liệu và học dựa trên tri thức. ML hiện tại tập trung gần như hoàn toàn vào việc học tối ưu dựa trên dữ liệu, điều mà con người chúng ta không giỏi. Thay vào đó, chúng ta rất giỏi học dựa trên tri thức trước đây của chúng ta. Chúng ta càng biết nhiều thì chúng ta học càng dễ hơn. LL có thể yêu cầu một cách tiếp cận có hệ thống kết hợp nhiều thuật toán học và các sơ đồ biểu diễn tri thức khác nhau. Một thuật toán học duy nhất có thể không đạt được mục tiêu của LL. Trên thực tế, LL đại diện cho một không gian vấn đề rất lớn và phong phú. Kiến trúc hệ thống LL được thể hiện trong Hình 1.2. Không phải tất cả các hệ thống LL hiện có đều sử dụng tất cả các thành phần như trong hình. Trong thực tế, hầu hết các hệ thống hiện tại đơn giản hơn nhiều. Hơn nữa, vẫn chưa có một hệ thống LL chung có thể thực hiện LL trong tất cả các miền có thể, cho tất cả các loại nhiệm vụ có thể. Trong thực tế, chúng ta vẫn còn ở rất xa điều đó. 9
Hình 1.2. Kiến trúc tổng quan của hệ thống học suốt đời [2]. Một hệ thống LL điển hình sẽ có các thành phần cơ bản sau [2]: - Hệ cơ sở tri thức (KB): Chủ yếu để lưu trữ tri thức đã học trước đó. Nó có một vài thành phần phụ:  Kho thông tin quá khứ (PIS): lưu trữ thông tin kết quả từ quá trình học trước đây, bao gồm các mô hình kết quả, mô hình hoặc các dạng kết quả khác. PIS có thể chứa các thông tin liên quan như: (1) dữ liệu gốc được sử dụng trong mỗi nhiệm vụ trước, (2) kết quả trung gian từ mỗi nhiệm vụ trước và (3) mô hình cuối cùng hoặc các mẫu được học từ mỗi nhiệm vụ trước.  Công cụ khai thác kiến thức tổng hợp (MKM): thực hiện khai thác siêu kiến thức trong PIS và trong kho siêu tri thức (xem bên dưới).  Kho siêu kiến thức (MKS): lưu trữ kiến thức được khai thác hoặc tích hợp từ PIS và cũng như từ chính MKS.  Bộ lập luận trên tri thức (KR): suy luận dựa trên tri thức trong MKB và PIS để tạo thêm tri thức mới. Hầu hết các hệ thống hiện tại không có thành phần phụ này. Tuy nhiên, với sự tiến bộ của LL, thành phần này sẽ ngày càng trở nên quan trọng. 10