intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn Thạc sĩ Hệ thống thông tin: Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng

Chia sẻ: Yi Yi | Ngày: | Loại File: PDF | Số trang:48

38
lượt xem
4
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Học máy suốt đời (Lifelong Machine Learning: LML) là một tiếp cận học máy liên tục, trích chọn và lưu giữ tri thức từ quá khứ để sử dụng khi giải quyết các bài toán học mới. Học thế giới mở, một dạng của học máy suốt đời, có năng lực phát hiện các trường hợp chưa từng thấy để hình thành các bài toán mới.

Chủ đề:
Lưu

Nội dung Text: Luận văn Thạc sĩ Hệ thống thông tin: Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng

  1. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Thị Quỳnh Trang Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng LUẬN VĂN TỐT NGHIỆP THẠC SĨ HỆ CHÍNH QUY Ngành: Hệ thống thông tin Hà Nội, 12/2019
  2. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Thị Quỳnh Trang Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng LUẬN VĂN TỐT NGHIỆP THẠC SĨ HỆ CHÍNH QUY Ngành: Hệ thống thông tin Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy HÀ NỘI - 2019
  3. LỜI CẢM ƠN Đầu tiên, em xin gửi lời biết ơn chân thành và sâu sắc nhất đến thầy giáo PGS. TS. Hà Quang Thụy, người đã luôn động viên, nhiệt tình hướng dẫn và tạo mọi điều kiện tốt nhất cho em hoàn thành được luận văn. Em xin chân thành cảm ơn các thầy cô, các anh chị em trong phòng thí nghiệm Công nghệ và tri thức đã luôn giúp đỡ và động viên tinh thần trong thời gian em học tập và công tác. Em chân thành cảm ơn quý Thầy, Cô trong Khoa Công Nghệ Thông Tin nói riêng và trường đại học Công Nghệ - Đại học Quốc Gia Hà Nội nói chung đã tận tình truyền đạt những kiến thức quý báu trong quá trình học tập tại Trường. Cuối cùng, em xin cảm ơn những người thân yêu của em, đặc biệt là chồng em đã luôn động viên, tạo điều kiện tốt nhất cho em trong quá trình học tập và hoàn thành luận văn. Em xin chân thành cảm ơn! Luận văn này được thực hiện trong khuôn khổ đề tài Nafostef mã số: 102.05- 2016.14 “Nghiên cứu và phát triển các mô hình học máy tiên tiến phát hiện và trích xuất mối quan hệ tác dụng phụ của thuốc/hóa chất và bệnh từ văn bản y-sinh”, năm 2016. i
  4. LỜI CAM ĐOAN Tôi xin cam đoan rằng luận văn thạc sĩ công nghệ thông tin “Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng” là công trình nghiên cứu của riêng tôi, không sao chép lại của người khác. Trong toàn bộ nội dung của luận văn, những điều đã được trình bày hoặc là của chính cá nhân tôi hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả các nguồn tài liệu tham khảo đều có xuất xứ rõ ràng và hợp pháp. Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan này. Hà Nội, ngày 15 tháng 12 năm 2019 Học viên Phạm Thị Quỳnh Trang ii
  5. Mục Lục LỜI CẢM ƠN ........................................................................................................................ i LỜI CAM ĐOAN .................................................................................................................ii TÓM TẮT............................................................................................................................ iv DANH SÁCH THUẬT NGỮ VÀ TỪ VIẾT TẮT .............................................................. v DANH SÁCH BẢNG .......................................................................................................... vi DANH SÁCH HÌNH ẢNH ................................................................................................vii Mở đầu .................................................................................................................................. 1 Chương 1. Học máy thế giới mở và bài toán chuẩn hóa tên thực thể bệnh ........................ 3 1.1 Học máy truyền thống .................................................................................................. 3 1.2. Học máy suốt đời ........................................................................................................... 5 1.2.1 Định nghĩa học máy suốt đời .............................................................................. 7 1.2.2. Các hướng nghiên cứu LL ............................................................................... 12 1.3. Học máy thế giới mở .................................................................................................. 12 1.4. Mục tiêu của luận văn.................................................................................................. 15 Kết luận Chương 1.............................................................................................................. 17 Chương 2. Học sâu thế giới mở cho văn bản ..................................................................... 18 2.1. Học thế giới mở không gian đơn giản trung tâm......................................................... 18 2.1.1 Tăng cường cập nhật mô hình học CBS ........................................................... 18 2.1.2 Kiểm tra mô hình học CBS ............................................................................... 20 2.1.3 Học CBS cho phát hiện lớp chưa thấy .............................................................. 20 2.2. Học sâu thế giới mở phân lớp văn bản ........................................................................ 21 2.2.1 CNN và các lớp chuyển tiếp của DOC ............................................................. 22 2.2.2 Tầng 1- với-phần còn lại ................................................................................... 23 2.2.2 Giảm rủi ro không gian mở ............................................................................... 23 Kết luận Chương 2.............................................................................................................. 24
  6. Chương 3: Ứng dụng mô hình DOC vào chuẩn hóa tên bệnh ........................................... 25 3.1. Ứng dụng chuẩn hóa tên thực thể bệnh ....................................................................... 25 3.2.1. Mô hình đề xuất ........................................................................................................ 27 Bộ phân giải viết tắt ................................................................................................... 28 Mạng nơ ron học sâu thế giới mở .............................................................................. 28 Kết luận Chương 3.............................................................................................................. 30 Chương 4: Thực nghiệm và đánh giá ................................................................................. 31 4.1. Dữ liệu thực nghiệm chuẩn hoá tên bệnh .................................................................... 31 4.2 Môi trường và các công cụ thực nghiệm ...................................................................... 32 4.3 Kết quả và đánh giá ...................................................................................................... 32 Kết luận............................................................................................................................... 36 Tài liệu tham khảo .............................................................................................................. 37
  7. TÓM TẮT Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng Phạm Thị Quỳnh Trang Khóa học: QH-2013- I/CQ Ngành: Hệ thống thông tin Tóm tắt: Học máy suốt đời (Lifelong Machine Learning: LML) là một tiếp cận học máy liên tục, trích chọn và lưu giữ tri thức từ quá khứ để sử dụng khi giải quyết các bài toán học mới. Học thế giới mở, một dạng của học máy suốt đời, có năng lực phát hiện các trường hợp chưa từng thấy để hình thành các bài toán mới. Phân lớp thế giới mở thực hiện ba bài toán thành phần là (i) Phát hiện những thực thể mới, không thể thuộc vào các lớp hiện có, (ii) Xây dựng mô hình phân lớp cho các lớp mới, và (iii) hiệu chỉnh các mô hình phân lớp vốn có để nâng cao hiệu năng bộ phân lớp khi có thêm các lớp mới. Dựa trên mô hình phân lớp học sâu thế giới mở DOC (Deep Open Classification) của L. Shu và cộng sự, luận văn đề nghị mô hình ứng dụng phân lớp học sâu thế giới mở cho bài toán chuẩn hoá thực thể tên và phân lớp quan hệ trong văn bản y sinh. Việc trích xuất tự động tri thức từ văn bản đóng vai trò quan trọng trong học suốt đời. Nó bao gồm ba bước chính: nhận dạng các thực thể tên, chuẩn hoá thực thể tên và phân loại quan hệ giữa chúng. Hai bước sau thường hay xuất hiện các đối tượng mới, đặc biệt là trong lĩnh vực y sinh. Các kết quả thực nghiệm trên bộ dữ liệu chuẩn đã chỉ ra tính hiệu quả của mô hình đề xuất trong vấn đề nhận dạng được các đối tượng mới chưa xuất hiện khi huấn luyện mô hình và trong vấn đề chuẩn hoá tên. Đặc biệt, mô hình chuẩn hoá thực thể tên có thể đạt giá trị độ đo F1 = 80%, tốt hơn của các phương pháp cùng thể loại tính đến thời điểm hiện tại. Từ khóa: Học máy suốt đời, học thế giới mở, học sâu, chuẩn hoá tên thực thể bệnh. iv
  8. DANH SÁCH THUẬT NGỮ VÀ TỪ VIẾT TẮT SVM Support Vector Machines/Máy vector hỗ trợ CNN Convolutional neural network/Mạng nơ ron tích chập LL Life long learning/Học suốt đời ML Machine learning/Học máy DOC Deep Open Classification/Phân lớp mở sâu CBS Center Based Similarity/Độ tương tự dựa trên trung tâm NNO Nearest Non-Outlier/Không ngoại lai gần nhất v
  9. DANH SÁCH BẢNG Bảng 1.1: Bảng 1.1 - Một ví dụ về bài toán chuẩn hoá tên bệnh. ................ 17 Bảng 3.1 - Một ví dụ về bài toán chuẩn hoá tên thực thể thuốc …………………….27 Bảng 4.1: Thống kê dữ liệu thực nghiệm chuẩn hóa tên bệnh ...................... 33 Bảng 4.2: Các công cụ thực nghiệm .............................................................. 34 Bảng 4.3: So sánh kết quả sử dụng dữ liệu cả câu và dữ liệu SDP trên số lớp đã biết khác nhau của tập dữ liệu SemEval-2010 Task 8. .................................. 37 Bảng 4.4: Tổng hợp kết quả mô hình DOC chuẩn hóa thực thể tên bệnh. .... 38 Bảng 4.5: Kết quả thực nghiệm và so sánh.................................................... 38 vi
  10. DANH SÁCH HÌNH ẢNH Hình 1.1: Kiến trúc mô hình học máy cổ điển. .................................................. 4 Hình 2.1: Kiến trúc tổng quan của hệ thống học suốt đời ................................. 10 Hình 2.1: Mô hình tổng quan DOC ................................................................. 22 Hình 2.2: Mô hình tổng quan DOC ................................................................. 23 Hình 3.1: Định danh, tên chính hay dùng và các tên đồng nghĩa của một bệnh trong MEDIC. ........................................................................................................... 27 Hình 3.1: Mô hình đường ống chuẩn hoá thực thể tên bệnh. ............................. 28 Hình 3.2: Kiến trúc hệ thống chuẩn hoá tên thực thể y sinh dựa trên mạng nơ ron tích chập do Cho và cộng sự đề xuất [9].. ................................................................ 28 . vii
  11. Mở đầu Trong cuộc sống, con người học hỏi suốt đời để tích lũy tri thức, vận dụng tri thức và kỹ năng tích lũy được để giải quyết các vấn đề/tác vụ mới gặp phải, từ đó giúp cho việc học nhanh hơn và hiệu quả hơn. Trong quá trình tiến hóa hàng triệu năm của loài người, khả năng học suốt đời đã giúp con người thích nghi, tồn tại và phát triển được trong nhiều môi trường sống khắc nghiệt khác nhau. Học máy suốt đời, là một hướng nghiên cứu học máy mới nhằm mục đích bắt chước quá trình và khả năng học tập suốt đời của con người trong các môi trường mở, đầy biến động. Kiểu học này khá tự nhiên vì mọi thứ xung quanh chúng ta có liên quan chặt chẽ và liên kết với nhau. Con người chúng ta luôn giữ lại kiến thức đã học trong quá khứ và sử dụng nó để giúp học tập và giải quyết vấn đề trong tương lai. Học máy suốt đời là bước tiến hoá hợp lý tiếp theo của học máy cổ điển; nó là hướng nghiên cứu mới nổi và đầy hứa hẹn để khắc phục những thiếu sót đó của học máy cổ điển, với mục tiêu cuối cùng là xây dựng những cỗ máy học hỏi như con người. Học thế giới mở, là một hình thức của học máy suốt đời, không yêu cầu giả định thế giới đóng, có khả năng phát hiện các trường hợp của các lớp chưa thấy trong quá trình hoạt động của hệ thống học. Nó có khả năng xây dựng mô hình phân lớp cho các lớp mới và cập nhật mô hình phân lớp cho các lớp đã có mà không học lại toàn bộ các mô hình từ đầu. Việc trích xuất tự động tri thức từ văn bản đóng vai trò quan trọng trong học suốt đời. Nó bao gồm ba bước chính: nhận dạng các thực thể tên, chuẩn hoá thực thể tên và phân loại quan hệ giữa chúng. Hai bước sau thường hay xuất hiện các đối tượng mới, đặc biệt là trong lĩnh vực y sinh, với rất nhiều thách thức, khi cần phải xác định một biểu hiện tên bệnh mới xuất hiện có thuộc về một thực thể tên bệnh đã có hay là biểu hiện của một tên bệnh mới. Trong trường hợp này, mô hình phân lớp thế giới mở là phù hợp để giải quyết bài toán. Nội dung của luận văn được tổ chức thành các chương như sau: 1
  12. Chương 1 trình bày một giới thiệu tổng quan về học máy suốt đời và học máy thế giới mở. Tiếp đó, bài toán chuẩn hoá thực thể tên bệnh trong văn bản y sinh được giới thiệu. Chương 2 trình bày mô hình phân lớp văn bản thế giới mở dựa trên kỹ thuật học sâu. Chương 3 trình bày mô hình ứng dụng phân lớp thế giới mở dựa trên kỹ thuật học sâu cho chuẩn hoá thực thể tên bệnh, là bước tiền đề cho việc trích xuất các quan hệ giữa các thực thể y sinh. Các quan hệ được biểu diễn trong văn bản là các tri thức tồn tại dưới định dạng chỉ con người mới “đọc hiểu” được. Việc trích xuất quan hệ từ văn bản sẽ tạo ra cơ sở dữ liệu tri thức, là thành phần quan trọng của học máy suốt đời. Chương 4 trình bày các kết quả thực nghiệm của mô hình ứng dụng được đề xuất trong Chương 3, cũng như các phân tích các kết quả thực nghiệm này. Phần Kết luận tóm lược kết quả đạt được của khóa luận và định hướng phát triển tương lai. 2
  13. Chương 1. Học máy thế giới mở và bài toán chuẩn hóa tên thực thể bệnh Học máy (Machine Learning: ML) đã là công cụ cho sự tiến bộ của cả phân tích dữ liệu và trí tuệ nhân tạo (Artificial Intelligence: AI). Thành công gần đây của học sâu đã đưa ML lên một tầm cao mới. Các thuật toán ML đã được áp dụng trong hầu hết các lĩnh vực khoa học máy tính, khoa học tự nhiên, kỹ thuật, khoa học xã hội và hơn thế nữa. Nếu không có thuật toán ML hiệu quả, nhiều ngành sẽ không tồn tại hoặc phát triển, ví dụ: thương mại điện tử và tìm kiếm trên web. Tuy nhiên, mô hình ML hiện tại không phải không có điểm yếu. Trước tiên luận văn sẽ giới thiệu về mô hình ML cổ điển và những thiếu sót của nó, sau đó giới thiệu Lifelong ML (Học suốt đời (LL) và học thế giới mở (OpenWorld ML, một dạng học máy suốt đời) như một hướng đi mới nổi và đầy hứa hẹn để khắc phục những thiếu sót đó với mục tiêu cuối cùng là xây dựng những cỗ máy học hỏi như con người [2]. Bài toán chuẩn hóa tên thực thể bệnh trong văn bản y sinh dưới dạng một bài toán học thế giới mở sẽ được giới thiệu ở cuối chương. 1.1 Học máy truyền thống Mô hình ML phổ biến hiện nay là chạy thuật toán ML trên tập dữ liệu đã cho để tạo mô hình. Mô hình này sau đó được áp dụng trong các nhiệm vụ thực tế. Mô hình học này được gọi là mô hình cô lập bởi vì nó không xem xét bất kỳ thông tin liên quan nào khác hoặc tri thức đã học, tích luỹ được trước đó (xem Hình 1) [2]. Vấn đề cơ bản của mô hình học tập cô lập này là nó không lưu giữ và tích lũy kiến thức đã học trong quá khứ và sử dụng nó trong tương lai. Điều này trái ngược hoàn toàn với việc học của con người. Con người chúng ta luôn tích luỹ lại kiến thức đã học trong quá khứ và sử dụng nó để giúp học tập và giải quyết vấn đề mới trong tương lai. Không có khả năng tích lũy và sử dụng kiến thức trong quá khứ, thuật toán ML thường cần một số lượng lớn các ví dụ huấn luyện để học hiệu quả. Các môi trường học thường là tĩnh và đóng. Đối với việc học có giám sát, việc gán nhãn dữ liệu huấn luyện thường được thực hiện thủ công, rất tốn công sức và thời gian. Vì thế giới quá phức tạp với nhiều nhiệm vụ khác hẳn nhau, nên gần như không thể gán nhãn một số lượng lớn các ví dụ cho mọi nhiệm vụ để thuật toán ML có thể học hiệu quả. Tệ hơn nữa, mọi thứ xung quanh chúng ta luôn thay đổi liên tục, do đó việc gán nhãn cần phải được thực hiện liên tục; đó là một việc hết sức khó khăn đối với con người. 3
  14. Ngay cả đối với học không giám sát, việc thu thập một khối lượng dữ liệu lớn có thể không thực hiện được trong nhiều trường hợp. Hình 1.1. Kiến trúc mô hình học máy cổ điển [2]. Mô hình học cô lập cổ điển không thể thực hiện được việc học suốt đời. Như đã đề cập trước đó, nó chỉ phù hợp cho các nhiệm vụ hẹp và hạn chế trong môi trường kín. Nó cũng có thể không đủ để xây dựng một hệ thống thông minh có thể học liên tục để đạt được mức độ thông minh như con người. LL nhằm mục đích đạt được tiến bộ theo hướng này. Với sự phổ biến của robot, trợ lý ảo thông minh, LL ngày càng trở nên quan trọng vì các hệ thống này phải tương tác với con người và/hoặc các hệ thống khác, liên tục học hỏi trong quá trình hoạt động và duy trì kiến thức đã học trong các tương tác của chúng trong các môi trường khác nhau, qua đó có thể hoạt động tốt hơn theo thời gian. Trong 25 năm qua, đã có những tiến bộ đáng kể trong lý thuyết học máy và thuật toán. Tuy nhiên, hiện vẫn có rất ít thuật toán có khả năng học nhiều nhiệm vụ khác nhau trong một thời gian dài. Học có giám sát cổ điển đưa ra giả định thế giới khép kín, có nghĩa là tất cả các lớp dữ liệu lúc kiểm tra đều đã xuất hiện trong lúc học [1, 5, 6]. Mặc dù giả định này đúng trong nhiều ứng dụng, nhưng nó bị vi phạm ở nhiều ứng dụng khác, đặc biệt là trong môi trường động và mở; trong đó các dữ liệu của các lớp không mong muốn có thể xuất hiện trong lúc kiểm tra hoặc hệ thống đi vào hoạt động. Ví dụ, khi đọc, hệ thống có thể thấy một từ mới mà nó không biết, khi đó hệ thống phải học nó bằng cách tra từ trong từ điển. Trong cuộc trò chuyện giữa người và máy, trợ lý ảo có thể không hiểu một số điều được nói bởi người dùng và sau đó nó cần yêu cầu người dùng giải thích thêm để tìm hiểu. Để 4
  15. học trong một môi trường mở như vậy, chúng ta cần học thế giới mở (phân loại thế giới mở hoặc đơn giản là phân loại mở), trong đó phải phát hiện được các lớp chưa xuất hiện trong quá trình huấn luyện mô hình, và sau đó thêm dần các lớp mới này vào mô hình mà không phải huấn luyện lại toàn bộ mô hình từ đầu. Hình thức học này còn được gọi là học tích lũy trong [5]. Luận văn này sẽ tập trung vào mô hình học có giám sát thế giới mở. Học có giám sát truyền thống dựa trên giả định thế giới đóng với các lớp trong tập dữ liệu kiểm tra (test) đều đã xuất hiện trong dữ liệu huấn luyện D khi huấn luyện mô hình. D = {(x1, y1), (x2, y2), ..., (xn, yn)} -xi là dữ liệu thứ i, yi ∈ {l1, l2, ..., lm} = Y là lớp/nhãn của xi. Khi đó cần xây mô hình f(x) có khả năng phân loại dữ liệu x trong tập test vào một trong m lớp đã biết trong Y. Giả thiết thế giới đóng không đúng với nhiều ứng dụng trong thực tế, đặc biệt trong môi trường mở, biến động. Ví dụ, đối với dữ liệu truyền thông mạng xã hội luôn có thêm những chủ đề mới được bàn luận, hay với ứng dụng xe tự lái thường có các lớp đối tượng mới xuất hiện, hay các tên bệnh mới có thể chưa có số định danh trong CSDL. 1.2. Học máy suốt đời Trong cuộc sống, con người luôn phải học hỏi suốt đời, thông qua việc tích lũy, vận dụng tri thức và kỹ năng có sẵn để giải quyết các vấn đề/tác vụ mới gặp phải, từ đó giúp cho việc học nhanh hơn và hiệu quả hơn. Trong quá trình tiến hóa hàng triệu năm của loài người, khả năng học suốt đời đã giúp con người thích nghi, sống sót và phát triển được trong nhiều môi trường sống khắc nghiệt khác nhau. Lấy ví dụ về năng lực giao tiếp, học suốt đời giúp chúng ta có khả năng sử dụng ngôn ngữ để giao tiếp với nhau thông qua các công cụ, các khái niệm (tri thức) hữu dụng học được từ cha mẹ và giáo viên. Đầu tiên, các từ và cụm từ có ý nghĩa gần như giống nhau trong tất cả các lĩnh vực và tất cả các nhiệm vụ. Thứ hai, các câu trong mỗi ngữ cảnh sử dụng đều tuân theo cùng một cú pháp. Thứ ba, gần như tất cả các vấn đề về ngôn ngữ tự nhiên có liên quan chặt chẽ với nhau, điều đó có nghĩa là chúng có liên kết với nhau và ảnh hưởng lẫn nhau theo một số cách. 5
  16. Hai lý do đầu tiên ở trên đảm bảo rằng kiến thức đã học có thể được sử dụng trong các tác vụ khác nhau (của các lĩnh vực khác nhau). Đó là lý do tại sao con người chúng ta không cần phải học lại ngôn ngữ (hoặc học một ngôn ngữ mới) mỗi khi chúng ta bắt gặp một miền ứng dụng mới. Ví dụ, giả sử chúng ta chưa bao giờ nghiên cứu tâm lý học, và bây giờ muốn nghiên cứu nó. Chúng ta không cần phải học lại ngôn ngữ được sử dụng trong văn bản tâm lý học, ngoại trừ một số khái niệm mới trong lĩnh vực tâm lý học. Lý do thứ ba ở trên đảm bảo rằng kiến thức về ngôn ngữ của chúng ta có thể được sử dụng trên các loại nhiệm vụ khác nhau. Ví dụ, giả sử chúng ta đã tích luỹ được tri thức rằng: “iPhone là sản phẩm và mọi sản phẩm đều có giá của nó” và tính từ “đắt” mô tả thuộc tính giá của một sản phẩm. Sau đó, từ câu nhận xét: “Chất lượng hình ảnh của iPhone rất tuyệt, nhưng nó khá đắt”, thông qua việc sử dụng các kiến thức được tích luỹ từ trước, chúng ta có thể dễ dàng nhận ra rằng “chất lượng hình ảnh” là một tính năng hoặc thuộc tính của iPhone và “nó/it” là để chỉ “iPhone” chứ không phải là thuộc tính “chất lượng hình ảnh” của iPhone. Hai vấn đề này có liên quan chặt chẽ với nhau và có thể giúp đỡ lẫn nhau vì kết quả từ một vấn đề có thể hữu ích cho những người khác, trong việc xử lý nhiệm vụ khác. Hiện tượng trên không chỉ đúng cho khả năng học ngôn ngữ của con người mà còn đúng cho bất kỳ lĩnh vực nào khác bởi vì mọi thứ trên thế giới có liên quan và liên kết với nhau. Do đó, kiến thức học được trong quá khứ trong một số lĩnh vực có thể được áp dụng trong một số lĩnh vực khác có bối cảnh tương tự. Học máy suốt đời được phát triển nhằm mục đích bắt chước quá trình và khả năng học tập suốt đời của con người. Kiểu học này khá tự nhiên vì mọi thứ xung quanh chúng ta có liên quan chặt chẽ và liên kết với nhau. Kiến thức đã học về một số môn học có thể giúp chúng ta hiểu và học một số môn học khác. Ví dụ, con người chúng ta không cần 1.000 đánh giá tích cực và 1.000 đánh giá tiêu cực về phim trực tuyến như thuật toán ML cần để xây dựng bộ phân loại đánh giá tích cực và tiêu cực về các bộ phim. Trong thực tế, đối với nhiệm vụ này, không cần có một ví dụ huấn luyện, con người chúng ta cũng đã có thể thực hiện nhiệm vụ phân loại này. Lý do rất đơn giản. Đó là bởi vì con người chúng ta đã tích lũy rất nhiều kiến thức trong quá khứ về các cách mà mọi người sử dụng để khen hoặc chỉ trích mọi thứ, mặc dù có thể rất ít trong số những lời khen hoặc phê bình đó là về các bộ phim trực tuyến. 6
  17. Nếu chúng ta không có kiến thức tích luỹ được từ quá khứ như vậy, con người chúng ta có thể không thể tự xây dựng một bộ phân loại tốt ngay cả khi có tập huấn luyện gồm 1.000 đánh giá tích cực và 1.000 đánh giá tiêu cực. Ví dụ: nếu bạn không có kiến thức về tiếng Ả Rập và ai đó cung cấp cho bạn 2.000 đánh giá được dán nhãn bằng tiếng Ả Rập và yêu cầu bạn xây dựng một bộ phân loại theo cách thủ công, rất có thể bạn sẽ không thể làm điều đó nếu không sử dụng trình dịch. Mặc dù LL đã được đề xuất hơn 20 năm trước, nhưng nghiên cứu trong lĩnh vực này vẫn chưa phát triển mạnh. Một số lý do có thể như sau [2]: - Đầu tiên, cộng đồng nghiên cứu ML trong 20 năm qua đã tập trung vào các phương pháp thống kê và thuật toán. LL thường cần một cách tiếp cận hệ thống kết hợp nhiều thành phần và thuật toán học. - Thứ hai, phần lớn các nghiên cứu và ứng dụng ML trước đây tập trung vào việc học có giám sát bằng cách sử dụng dữ liệu có cấu trúc, điều này không dễ dàng đối với LL vì có rất ít điểm giống nhau giữa các nhiệm vụ hoặc lĩnh vực. Ví dụ, kiến thức học được từ hệ thống học có giám sát trong đơn xin vay vốn khó được sử dụng trong ứng dụng y tế hoặc giáo dục vì chúng không có nhiều điểm chung. Ngoài ra, hầu hết các thuật toán học có giám sát không tạo ra tri thức nào ngoài mô hình phân lớp cuối cùng. Mô hình được tạo ra rất khó được sử dụng làm tri thức tiền nghiệm cho một nhiệm vụ phân lớp khác, ngay cả trong một lĩnh vực tương tự. - Thứ ba, nhiều phương pháp ML hiệu quả như SVM và học sâu không thể dễ dàng sử dụng tri thức tiền nghiệm. Các bộ phân lớp này là hộp đen với cơ chế hoạt động rất khó để giải thích. Chúng thường hoạt động chính xác hơn trên dữ liệu huấn luyện; càng nhiều dữ liệu hoạt động càng tốt. 1.2.1 Định nghĩa học máy suốt đời Năm 1996, Thrun đã đưa ra một định nghĩa về học máy suốt đời như sau: “Tại bất kỳ thời điểm nào, hệ thống đã học cách thực hiện N nhiệm vụ. Khi đối mặt với nhiệm vụ N + 1, nó sử dụng kiến thức thu được từ N nhiệm vụ trước để giúp giải quyết nhiệm vụ thứ N + 1.” [2]. Năm 2018, Z. Chen và B. Liu [2] đã mở rộng định nghĩa này bằng cách cung cấp cho nó thêm các chi tiết và các tính năng bổ sung, bao gồm: (i) một hệ cơ sở tri thức 7
  18. tường minh (Knowlegde Base) được thêm vào để lưu lại tri thức đã học được từ các nhiệm vụ trước; (ii) khả năng khám phá các nhiệm vụ học mới; (iii) khả năng học trong khi làm (hoặc học trong công việc). Định nghĩa của Chen và Liu được phát biểu như sau: “Học máy suốt đời (LL) là một quá trình học liên tục. Tại bất kỳ thời điểm nào, bộ học đã thực hiện một chuỗi N nhiệm vụ học T1, T2, ..., TN. Các nhiệm vụ này, còn được gọi là các nhiệm vụ trước, có N bộ dữ liệu tương ứng D1, D2, ..., DN. Các nhiệm vụ có thể thuộc các loại khác nhau và từ các miền khác nhau. Khi phải đối mặt với nhiệm vụ mới N + 1 là TN+1 (được gọi là nhiệm vụ mới hoặc hiện tại) với dữ liệu DN+1, bộ học có thể tận dụng kiến thức trong quá khứ được lưu trong hệ cơ sở tri thức (KB) để giải quyết TN+1. Nhiệm vụ có thể được đưa ra hoặc được phát hiện bởi chính hệ thống (xem bên dưới). Mục tiêu của LL thường là tối ưu hóa hiệu suất của nhiệm vụ mới TN+1, nhưng nó có thể tối ưu hóa bất kỳ nhiệm vụ nào bằng cách coi các nhiệm vụ còn lại là các nhiệm vụ trước. KB duy trì tri thức đã học và tích lũy từ việc học các nhiệm vụ trước đó. Sau khi hoàn thành việc học T N+1, KB được cập nhật tri thức mới có được từ việc học TN+1. Việc cập nhật có thể liên quan đến việc kiểm tra tính nhất quán, lập luận và khai phá siêu tri thức cấp cao hơn” [2]. Có hai loại nhiệm vụ trong hệ thống học suốt đời: - Nhiệm vụ độc lập: Mỗi nhiệm vụ Ti độc lập với các nhiệm vụ khác. Điều này có nghĩa là mỗi nhiệm vụ có thể được học độc lập, mặc dù do sự tương đồng và chia sẻ một số cấu trúc hoặc kiến thức tiềm ẩn, việc học Ti có thể tận dụng kiến thức thu được từ việc học các nhiệm vụ trước đó. - Nhiệm vụ phụ thuộc: Mỗi nhiệm vụ Ti có một số phụ thuộc vào một số nhiệm vụ khác. Ví dụ, trong học tập thế giới mở, mỗi nhiệm vụ học có giám sát mới sẽ thêm một lớp mới vào bài toán phân lớp trước đó và cần xây dựng một trình phân lớp nhiều lớp mới có khả năng phân loại dữ liệu từ tất cả các lớp trước và hiện tại. Việc chuyển sang nhiệm vụ mới có thể xảy ra đột ngột hoặc dần dần, và các nhiệm vụ và dữ liệu của chúng không phải được cung cấp bởi một số hệ thống bên ngoài hoặc người dùng. Một bộ học suốt đời lý tưởng có thể tự phát hiện ra các nhiệm vụ học và dữ liệu đào tạo của riêng mình khi tương tác với con người và môi trường hoặc sử dụng kiến thức đã học trước đó để thực hiện học trong thế giới mở và tự giám sát. 8
  19. Từ định nghĩa trên, có thể thấy LL có năm đặc điểm chính sau [2]: 1. Học liên tục. 2. Tri thức được tích luỹ và lưu giữ trong KB. 3. Sử dụng tri thức tích lũy trong quá khứ để học trong tương lai 4. Có khả năng khám phá ra các nhiệm vụ mới 5. Có khả năng học trong khi làm việc hoặc học trong công việc. Không có những khả năng này, một hệ thống ML sẽ không thể tự học trong môi trường mở, luôn biến động; hệ quả là sẽ không bao giờ thực sự thông minh. Vì kiến thức được tích lũy và sử dụng trong LL, do đó, LL có liên quan đến nhiều khía cạnh khác của trí tuệ nhân tạo cho ML, ví dụ: biểu diễn tri thức, thu nhận, lập luận và duy trì tri thức. Tri thức tích luỹ được không chỉ có thể giúp cải thiện việc học trong tương lai, mà còn có thể giúp thu thập và gán nhãn dữ liệu huấn (tự giám sát) và khám phá các nhiệm vụ mới có khả năng sẽ được học. Con người có khả năng tích hợp của cả học dựa trên dữ liệu và học dựa trên tri thức. ML hiện tại tập trung gần như hoàn toàn vào việc học tối ưu dựa trên dữ liệu, điều mà con người chúng ta không giỏi. Thay vào đó, chúng ta rất giỏi học dựa trên tri thức trước đây của chúng ta. Chúng ta càng biết nhiều thì chúng ta học càng dễ hơn. LL có thể yêu cầu một cách tiếp cận có hệ thống kết hợp nhiều thuật toán học và các sơ đồ biểu diễn tri thức khác nhau. Một thuật toán học duy nhất có thể không đạt được mục tiêu của LL. Trên thực tế, LL đại diện cho một không gian vấn đề rất lớn và phong phú. Kiến trúc hệ thống LL được thể hiện trong Hình 1.2. Không phải tất cả các hệ thống LL hiện có đều sử dụng tất cả các thành phần như trong hình. Trong thực tế, hầu hết các hệ thống hiện tại đơn giản hơn nhiều. Hơn nữa, vẫn chưa có một hệ thống LL chung có thể thực hiện LL trong tất cả các miền có thể, cho tất cả các loại nhiệm vụ có thể. Trong thực tế, chúng ta vẫn còn ở rất xa điều đó. 9
  20. Hình 1.2. Kiến trúc tổng quan của hệ thống học suốt đời [2]. Một hệ thống LL điển hình sẽ có các thành phần cơ bản sau [2]: - Hệ cơ sở tri thức (KB): Chủ yếu để lưu trữ tri thức đã học trước đó. Nó có một vài thành phần phụ:  Kho thông tin quá khứ (PIS): lưu trữ thông tin kết quả từ quá trình học trước đây, bao gồm các mô hình kết quả, mô hình hoặc các dạng kết quả khác. PIS có thể chứa các thông tin liên quan như: (1) dữ liệu gốc được sử dụng trong mỗi nhiệm vụ trước, (2) kết quả trung gian từ mỗi nhiệm vụ trước và (3) mô hình cuối cùng hoặc các mẫu được học từ mỗi nhiệm vụ trước.  Công cụ khai thác kiến thức tổng hợp (MKM): thực hiện khai thác siêu kiến thức trong PIS và trong kho siêu tri thức (xem bên dưới).  Kho siêu kiến thức (MKS): lưu trữ kiến thức được khai thác hoặc tích hợp từ PIS và cũng như từ chính MKS.  Bộ lập luận trên tri thức (KR): suy luận dựa trên tri thức trong MKB và PIS để tạo thêm tri thức mới. Hầu hết các hệ thống hiện tại không có thành phần phụ này. Tuy nhiên, với sự tiến bộ của LL, thành phần này sẽ ngày càng trở nên quan trọng. 10
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2