Tóm tắt Luận án Tiến sĩ Hệ thống thông tin: Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng trong hỗ trợ chẩn đoán bệnh
lượt xem 5
download
Mục đích nghiên cứu của đề tài "Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng trong hỗ trợ chẩn đoán bệnh" là nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng cho các hệ hỗ trợ ra quyết định một cách hiệu quả.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Tóm tắt Luận án Tiến sĩ Hệ thống thông tin: Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng trong hỗ trợ chẩn đoán bệnh
- BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI Cù Kim Long NGHIÊN CỨU PHÁT TRIỂN MÔ HÌNH ĐỒ THỊ TRI THỨC MỜ DẠNG CẶP VÀ ỨNG DỤNG TRONG HỖ TRỢ CHẨN ĐOÁN BỆNH Ngành: Hệ thống thông tin Mã số: 9480104 TÓM TẮT LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN Hà Nội - 2023
- Công trình được hoàn thành tại: Đại học Bách Khoa Hà Nội NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. PGS.TS Phạm Văn Hải 2. PGS.TS Hà Quốc Trung Phản biện 1: ................................................................... Phản biện 2: ................................................................... Phản biện 3: ................................................................... Luận án được bảo vệ tại Hội đồng đánh giá luận án tiến sĩ cấp Đại học Bách khoa Hà Nội họp tại Đại học Bách khoa Hà Nội. Vào hồi … giờ … ngày … tháng … năm … Có thể tìm hiểu luận án tại: 1. Thư viện Tạ Quang Bửu - Đại học Bách khoa Hà Nội. 2. Thư viện Quốc gia Việt Nam.
- MỞ ĐẦU 1. Tổng quan Chẩn đoán bệnh được hiểu là quá trình ra quyết định nhằm xác định bệnh hoặc căn nguyên tạo ra các triệu chứng của người bệnh. Chẩn đoán bệnh trong y học hiện đại là việc hỏi bệnh, khai thác tiền sử bệnh, thăm khám thực thể, khi cần thiết thì chỉ định làm xét nghiệm cận lâm sàng, thăm dò chức năng để chẩn đoán và chỉ định phương pháp điều trị phù hợp đã được công nhận. Chẩn đoán bệnh trong y học cổ truyền là tổng hợp của các kiến thức, kỹ năng và thực hành dựa trên lý thuyết, niềm tin và kinh nghiệm bản địa của các nền văn hóa khác nhau, dù có thể giải thích hay không, được sử dụng để chẩn đoán bệnh cả về thể chất lẫn tinh thần. Trong những năm gần đây, đội ngũ lương y, bác sĩ thường sử dụng kết hợp giữa phác đồ điều trị trong y học cổ truyền với kết quả khám, xét nghiệm trong y học hiện đại nhằm nâng cao chất lượng chẩn đoán bệnh. Điều này đã thúc đẩy mạnh mẽ công tác nghiên cứu y học và áp dụng công nghệ thông tin vào trong quá trình khám và chẩn đoán bệnh nhằm mục đích hỗ trợ đội ngũ lương y, bác sĩ tại bệnh viện ở các địa phương. Gần đây, hướng nghiên cứu suy diễn dựa trên đồ thị tri thức mờ (FKG) với ưu điểm cho phép thực hiện suy diễn trong những trường hợp dữ liệu thu thập chưa đầy đủ hoặc thiếu tri thức trong kho dữ liệu đã nhận được nhiều sự quan tâm và chú ý của các nhà nghiên cứu trong và ngoài nước. FKG lần đầu được giới thiệu vào năm 2020 trong mô hình M-CFIS-FKG. Nó đã giải quyết hạn chế của đồ thị tri thức (KG) khi giải quyết bài toán chẩn đoán bệnh dựa trên bộ dữ liệu có tính chất chu kỳ, thông tin đầu vào không chắc chắn. FKG sử dụng các nhãn ngôn ngữ cho các thuộc tính trong tập dữ liệu huấn luyện. Đầu tiên, đồ thị tri thức mờ được xây dựng sau giai đoạn tiền xử lý (hay gọi là biểu diễn đồ thị tri thức mờ). Sau đó, quá trình suy diễn xấp xỉ được áp dụng để tìm nhãn đầu ra của các bản ghi mới trong tập dữ liệu kiểm tra. Đồ thị tri thức mờ suy diễn dựa trên tập luật IF-THEN (hay gọi là cơ sở luật mờ), trong đó tác động của nhãn ngôn ngữ có khả năng tạo ra nhãn đầu ra tương ứng. Hơn nữa, mô hình M-CFIS-FKG cũng đã vượt qua được hạn chế của mô hình dựa trên hệ suy diễn mờ phức dạng Mamdani (chẳng hạn M-CFIS-R) trong việc tìm nhãn đầu ra của các mẫu mới chưa có trong cơ sở luật mờ bằng cách áp dụng thuật toán FISA sử dụng cơ chế suy diễn xấp xỉ. Lấy ví dụ trong bài toán chẩn đoán dấu hiệu tiền sản giật, việc bác sĩ đưa ra quyết định kết luận chẩn đoán bệnh (hay nhãn đầu ra) là “Bình thường”, “Tiền sản giật”, hay “Tiền sản giật nặng” phụ thuộc vào nhãn ngôn ngữ “Cao”, “Bình thường” hay “Thấp” của thuộc tính đầu vào “Huyết áp”, và nhãn ngôn ngữ “Cao” hay “Bình thường” của thuộc tính đầu vào “LDH” (axit lactic dehydrogenase), với độ chính xác khoảng 90%. Trong trường hợp này, một luật mờ được biểu diễn như sau: IF “Huyết áp” là “Cao” và “LDH” là “Cao” THEN “Tiền sản giật nặng”, với độ tin cậy là 90%. Bằng cách tích lũy từng sự kiện đơn lẻ (hoặc cặp đơn trong đồ thị tri thức mờ), kết quả sẽ xác định được nhãn đầu ra của bản ghi mới. Tuy nhiên, mô hình M-CFIS-FKG chỉ sử dụng các cặp đơn (single pairs) trong quá trình suy diễn nên vẫn chưa xử lý vấn đề trường hợp thông tin của tập dữ liệu đầu vào chưa đầy đủ. Hơn nữa, trong một số trường hợp cực đoan, các phương pháp suy diễn mờ hiện nay chưa giải quyết được bài toán phân loại, hỗ trợ ra quyết định khi bộ dữ liệu đầu vào lớn hoặc cơ sở luật mờ quá nhỏ (chẳng hạn bài toán chẩn đoán bệnh trong lĩnh vực y tế). Đây là động cơ chính của luận án đã được tập trung nghiên cứu phát triển mô hình mới nhằm giải quyết bài toán hỗ trợ ra quyết định trong trường hợp cực đoan hiệu quả hơn, đáp ứng yêu cầu thực tế đặt ra. 1
- Trong phạm vi nghiên cứu của luận án tiến sĩ này, hai câu hỏi nghiên cứu thực sự cần thiết và cấp bách được tập trung nghiên cứu nhằm giúp các hệ hỗ trợ ra quyết định hoạt động hiệu quả hơn, đáp ứng được yêu cầu thực tế, cụ thể là: Làm thế nào để nghiên cứu phát triển đề xuất mô hình ra quyết định dựa trên đồ thị tri thức mờ dạng cặp trong trường hợp thông tin của tập dữ liệu đầu vào chưa đầy đủ? Làm thế nào để nghiên cứu phát triển đề xuất mô hình ra quyết định dựa trên đồ thị tri thức mờ dạng cặp trong các trường hợp cực đoan với các tập dữ liệu lớn hoặc tập dữ liệu huấn luyện quá nhỏ, thiếu tri thức? 2. Mục tiêu nghiên cứu Mục tiêu chính của luận án là nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng cho các hệ hỗ trợ ra quyết định một cách hiệu quả. Mục tiêu cụ thể như sau: - Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp (FKG-Pairs) hỗ trợ ra quyết định trong trường hợp thông tin trong bộ dữ liệu đầu vào thu thập chưa đầy đủ. - Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp hỗ trợ ra quyết định trong trường hợp cực đoan (FKG-Extreme) nhằm cải thiện hiệu năng của hệ thống về mặt độ chính xác so với các mô hình tin cậy và mới nhất hiện nay. 3. Phương pháp nghiên cứu Trong khuôn khổ phạm vi nghiên cứu của đề tài, để hoàn thành các mục tiêu đã đề ra, một số phương pháp nghiên cứu dưới đây đã được sử dụng để thực hiện hoàn thành luận án tiến sĩ này, cụ thể là: - Phương pháp tiếp cận theo kỹ thuật mờ, suy diễn mờ, cũng như phương pháp học máy tiếp cận theo suy diễn mờ trong nghiên cứu phát triển mô hình hỗ trợ ra quyết định. - Phương pháp khảo sát được áp dụng để thu thập, tổng hợp và phân tích các công trình nghiên cứu đã được công bố trên một số nguồn cơ sở dữ liệu học thuật chính thống (chẳng hạn: IEEE, ScienceDirect, Google Scholar, v.v.) có liên quan đến đề tài nhằm xác định khoảng trống và đưa ra các câu hỏi nghiên cứu. - Phương pháp so sánh được sử dụng nhằm so sánh, đánh giá mô hình đề xuất so với các mô hình truyền thống khác. - Phương pháp kiểm chứng được áp dụng để mô phỏng phương pháp đề xuất dựa trên các bộ dữ liệu trong kho dữ liệu học máy chuẩn UCI hoặc các bộ dữ liệu triệu chứng trong y học. - Các kỹ thuật, công cụ phần mềm được sử dụng để cài đặt thực nghiệm chủ yếu được mô phỏng trên các công cụ phần mềm Matlab, Microsoft Excel, Python và Kivy. 4. Những đóng góp mới của luận án Luận án có hai đóng góp mới cho khoa học về mặt lý thuyết và một đóng góp về mặt ứng dụng. Các đóng góp mới của luận án có thể được tóm tắt một cách ngắn gọn như sau: Thứ nhất, luận án đã có đóng góp về mặt lý thuyết khi mô hình hỗ trợ ra quyết định dựa trên đồ thị tri thức mờ dạng cặp FKG-Pairs được đề xuất để giải quyết bài toán ra quyết định trong trường hợp tập dữ liệu đầu vào chưa đầy đủ, với hai giai đoạn chính là biểu diễn FKG-Pairs và suy diễn xấp xỉ dựa trên FKG-Pairs. Thứ hai, luận án cũng đã đề xuất mô hình ra quyết định dựa trên đồ thị tri thức mờ dạng cặp trong trường hợp cực đoan FKG-Extreme với các tập dữ liệu đầu vào lớn hoặc cơ sở tri thức quá nhỏ. Ngoài ra, các mô hình lý thuyết đã được nghiên cứu, cài đặt dựa trên các dữ liệu triệu chứng thu thập trong thực tế để mô phỏng bài toán chẩn đoán bệnh trong lĩnh vực y tế. Tóm lại, luận án có những đóng góp về mặt lý thuyết và ứng dụng, cụ thể như sau: • Mô hình hỗ trợ ra quyết định dựa trên đồ thị tri thức mờ dạng cặp (FKG-Pairs) được trình bày tại chương 2. 2
- • Mô hình hỗ trợ ra quyết định dựa trên đồ thị tri thức mờ dạng cặp trong trường hợp cực đoan (FKG-Extrme) được trình bày tại chương 3. • Ứng dụng hỗ trợ chẩn đoán bệnh trong y học được trình bày tại cuối mỗi chương 2 và chương 3. 5. Bố cục của luận án Luận án gồm ba chương được mô tả như trong Hình 3. Ngoài các nội dung phần mở đầu, kết luận, danh mục các công trình đã công bố của luận án và tài liệu tham khảo, phần còn lại của luận án tiến sĩ này được bố cục như sau: - Chương 1 giới thiệu cơ sở lý thuyết và thực nghiệm nhằm mục tiêu giải quyết hai câu hỏi nghiên cứu nêu tại mục 1 của chương này. - Chương 2 trình bày mô hình đồ thị tri thức mờ dạng cặp FKG-Pairs trong hỗ trợ ra quyết định nhằm giải quyết lớp các bài toán phân loại trong trường hợp tập dữ liệu đầu vào thu thập thông tin chưa đầy đủ. - Chương 3 đề xuất mô hình đồ thị tri thức mờ dạng cặp trong trường hợp cực đoan FKG- Extreme nhằm xử lý lớp bài toán phân loại, hỗ trợ ra quyết định trong trường hợp tập dữ liệu đầu vào lớn hoặc cơ sở tri thức quá nhỏ. Nội dung trình bày tại các chương 2 và 3 được xem như là các kết quả nghiên cứu chính của luận án. Trước khi trình bày chi tiết về các kết quả nghiên cứu chính và đóng góp mới cho khoa học của luận án, các cơ sở lý thuyết nền tảng và các bộ dữ liệu thực nghiệm được giới thiệu để làm cơ sở nghiên cứu phát triển đề xuất mô hình lý thuyết và mô phỏng ứng dụng trong hỗ trợ chẩn đoán bệnh. Hình 1. Cấu trúc của luận án. 3
- Chương 1. CƠ SỞ LÝ THUYẾT Để giải quyết được hai câu hỏi nghiên cứu đã trình bày tại mục 1 của phần mở đầu, nội dung của chương này trình bày các khái niệm, kỹ thuật cơ bản liên quan đến tập mờ, hệ suy diễn mờ, đồ thị tri thức, đồ thị tri thức mờ, kỹ thuật Q-learning và phân tích các bộ dữ liệu được sử dụng trong quá trình tiến hành các thực nghiệm. Đây là cơ sở lý thuyết nền tảng để nghiên cứu phát triển các mô hình lý thuyết cho các bài toán hỗ trợ ra quyết định được trình bày chi tiết trong các chương tiếp theo. 1.1. Tập mờ Định nghĩa 1.1. Một tập mờ (FS) trong không gian là một tập có dạng: = 〈 , 〉|∀ ∈ , ∈ 0,1 , 1.4 ở đó được gọi là độ thuộc của trong . Định nghĩa 1.3. Một tập mờ viễn cảnh (PFS) là một tập không rỗng trong không gian có dạng: = , , , | ∈ , (1.7) ở đó ∈ 0,1 là độ tích cực (positive degree) của từng phần tử ∈ , ∈ 0,1 là độ trung lập (neutral degree), ∈ 0,1 là độ tiêu cực (negative degree), và thỏa mãn điều kiện ràng buộc: + + ≤ 1 , ∀ ∈ . Độ từ chối (refusal degree) của từng phần tử ∈ được ký hiệu là ! và được xác định là: ! =1− + + . 1.8 1.2. Các hệ suy diễn mờ Hệ suy diễn mờ (FIS) là một khung tính toán phổ biến dựa trên khái niệm lý thuyết tập mờ, thường được áp dụng khi xây dựng các hệ thống hỗ trợ ra quyết định trong trường hợp thông tin đầu vào không rõ ràng. Sơ đồ tổng quát của hệ suy diễn mờ trong Hình 1.1 có thể được tóm tắt gồm ba phần chính: Bộ mờ hóa, cơ sở tri thức, và bộ giải mờ. Hình 1.1. Sơ đồ tổng quát của một hệ suy diễn mờ. 4
- 1.3. Đồ thị tri thức mờ Gần đây, đồ thị tri thức mờ (FKG) đã được đề xuất vào năm 2020 nhằm giải quyết những hạn chế của đồ thị tri thức trong việc biểu diễn tri thức và suy diễn xấp xỉ dựa trên các tập dữ liệu đầu vào có thông tin không rõ ràng hoặc chưa đầy đủ bằng cách sử dụng các nhãn ngôn ngữ cho các thuộc tính trong tập huấn luyện kết nối với các nhãn đầu ra. FKG sử dụng cặp đơn bằng cách áp dụng thuật toán FISA để tìm nhãn đầu ra của các mẫu mới dựa vào kết quả tính toán trọng số của các cạnh nối giữa các nhãn của các thuộc tính (∑ ' ) và trọng số của các cạnh nối từ các nhãn %& của các thuộc tính đến nhãn đầu ra (∑ (%) ) bằng cách áp dụng lần lượt các công thức (1.10) ' * +,-. ℎệ 1ớ3 & 456.7 8,ậ4 4* ' = % %& (1.10 |:| trong đó 4 1, ;, 1 3, và | % +,-. ℎệ 1ớ3 .ℎã. 8 456.7 8,ậ4 4| (%) ' ?@ %& A ' B 1.11 |:| trong đó 4 1, ;, 1 3, 8 1, D. Sau khi tính toán các bộ trọng số , (, thuật toán FISA được áp dụng để tìm nhãn đầu ra tương ứng với từng luật mờ theo các bước như sau: Đầu tiên, các giá trị ngôn ngữ tương ứng với mỗi nhãn trong từng luật trên đồ thị tri thức mờ được tính toán theo công thức (1.12). D%) @ (%) ' 1.12 ' trong đó 4 1, ;, 1 3, 8 1, D. Sau đó, với giá trị (%) biểu diễn mối quan hệ giữa thuộc tính -% với nhãn đầu ra 8. Ý tưởng gán ' nhãn của thuật toán FISA dựa trên khái niệm suy diễn xấp xỉ, điều đó có nghĩa là các giá trị ngôn ngữ của từng bản ghi mới trong tập dữ liệu kiểm tra được tính toán suy diễn theo từng thuộc tính tương ứng trong đồ thị FKG, với mục đích tìm ra nhãn tương ứng phù hợp nhất. Với mỗi bản ghi thì nhãn tương ứng với từng luật được tính bởi toán tử MAX-MIN trong công thức (1.13) như sau: F) G KKKK %HI,J D%) GLM%HI,J D%) KKKK 1.13 Cuối cùng, nhãn đầu ra cuối cùng của bản ghi mới được xác định bởi toán tử MAX theo quy tắc trong công thức (1.14) dưới đây: Nhãn đầu ra p ⟺ DZ G KKKK )HI,[ F) 1.14 Với việc áp dụng thuật toán FISA, mô hình M-CFIS-FKG đã cải thiện hiệu năng của hệ thống về thời gian tính toán so với mô hình M-CFIS-R. 5
- Như vậy, FKG đã được tích hợp thành công với hệ suy diễn mờ phức dạng Mamdani (M- CFIS) để giải quyết các bài toán ra quyết định với dữ liệu đầu vào biến thiên (chẳng hạn, dữ liệu thay đổi theo biên độ hoặc theo chu kỳ thời gian). Mô hình M-CFIS-FKG đã kế thừa từ M-CFIS được giới thiệu vào năm 2019 và mô hình M-CFIS-R được giới thiệu vào năm 2020. Trong các mô hình này (M-CFIS, M-CFIS-R, M-CFIS-FKG), dữ liệu tập kiểm tra được kiểm tra bằng việc khớp từng luật trong cơ sở luật mờ. Trong các trường hợp cơ sở luật mờ thiếu luật để khớp với mẫu mới cần kiểm tra, FKG được sử dụng để suy diễn xấp xỉ. Tuy nhiên, FKG được đề xuất trong mô hình M-CFIS-FKG chỉ sử dụng các cặp thuộc tính đơn lẻ nên không thể giải quyết hiệu quả bài toán ra quyết định trong các trường hợp tập dữ liệu có thông tin thuộc tính đầu vào chưa đầy đủ hoặc cơ sở luật mờ còn thiếu tri thức. 1.4. Kỹ thuật Q-learning trong học tăng cường Khung Q-learning chuẩn bao gồm bốn thành phần: môi trường, một hoặc nhiều tác nhân, không gian trạng thái và không gian hành động. Giá trị Q-value thể hiện độ tốt xấp xỉ của hành động có liên quan đến mục tiêu của tác nhân. Một tác nhân lựa chọn các hành động theo chính sách và giá trị Q-value. Sau khi thực hiện một hành động, tác nhân điều chỉnh chính sách đến đạt được mục tiêu của nó. Giá trị Q-value được cập nhật bằng cách áp dụng phương trình Bellman theo công thức (1.15). \ ]' , ' ← 1 − _ \ ]' , ' + _ :' + ` max \ ]'dI , - − \ ]' , ' 1.15 c trong đó: \ ]' , ' là giá trị Q-value của hành động ' ở một trạng thái ]' đã cho. :' là phần thưởng nhận được nếu thực hiện hành động ' trong trạng thái ]' . Hơn nữa, max \ ]'dI , - là c giá trị Q-value lớn nhất có thể trong trạng thái kế tiếp ]'dI đối với tất cả hành động - . Các tham số _ và ` lần lượt gọi là tốc độ học và hệ số phần thưởng tương lai. Giá trị của chúng nằm trong khoảng (0,1). 1.5. Bộ dữ liệu thực nghiệm a) Bộ dữ liệu chuẩn UCI Trong quá trình thực nghiệm, sáu bộ dữ liệu lấy từ kho dữ liệu học máy UCI đã được sử dụng. b) Bộ dữ liệu thực Bộ dữ liệu được sử dụng để thực nghiệm mô phỏng phương pháp FKG-Pairs gồm 210 sản phụ đến khám định kì theo dõi thai nhi với 19 chỉ số kiểm tra, theo dõi. Bên cạnh đó, để tiến hành mô phỏng bài toán phân loại, trợ giúp ra quyết định trong trường hợp cực đoan theo cách tiếp cận FKG-Extreme, dữ liệu từ 3652 bệnh nhân tại Bệnh viện Đa khoa tỉnh Điện Biện được tổng hợp với 15 chỉ số kiểm tra. c) Phương pháp đánh giá thực nghiệm Để đánh giá hiệu năng của mô hình đề xuất, các tiêu chí được sử dụng gồm có độ chính xác và thời gian tính toán. 1.6. Kết luận Chương 1 Chương này đã trình bày một số khái niệm về lý thuyết tập mờ và các hệ suy diễn mờ. Các kiến thức cơ bản về đồ thị mờ, cấu trúc đồ thị mờ, đồ thị tri thức, đồ thị tri thức mờ, kỹ thuật Q- learning và phân tích ANOVA làm cơ sở nền tảng để nghiên cứu phát triển đề xuất hai mô hình 6
- lý thuyết nhằm giải quyết các bài toán phân loại, hỗ trợ ra quyết định được trình bày chi tiết tại các chương tiếp theo. Ngoài ra, các bộ dữ liệu sử dụng trong các thực nghiệm phòng thí nghiệm, xây dựng ứng dụng mô phỏng thực tế và phương pháp đánh giá thực nghiệm cũng được trình bày tại chương này. Trên cơ sở những kiến thức lý thuyết nền tảng và các bộ dữ liệu đã được nghiên cứu và chuẩn bị sẵn sàng như đã trình bày trong chương này, các kết quả nghiên cứu chính của luận án được trình bày chi tiết trong các chương tiếp theo. Chương 2. MÔ HÌNH ĐỒ THỊ TRI THỨC MỜ DẠNG CẶP FKG-PAIRS TRONG HỖ TRỢ RA QUYẾT ĐỊNH Chương này tập trung giải quyết câu hỏi nghiên cứu thứ nhất: Làm thế nào để nghiên cứu phát triển đề xuất mô hình ra quyết định dựa trên đồ thị tri thức mờ dạng cặp trong trường hợp thông tin của tập dữ liệu đầu vào chưa đầy đủ? Theo đó, nội dung của chương này sẽ trình bày chi tiết kết quả nghiên cứu, đề xuất mô hình đồ thị tri thức mờ dạng cặp (FKG-Pairs) để giải quyết bài toán phân loại trong trường hợp thông tin của tập dữ liệu đầu vào chưa đầy đủ, với hai giai đoạn chính là biểu diễn FKG-Pairs và suy diễn xấp xỉ dựa trên FKG-Pairs. Ngoài ra, các kết quả cài đặt thử nghiệm kiểm chứng mô hình đề xuất FKG-Pairs dựa trên sáu bộ dữ liệu chuẩn UCI và bộ dữ liệu bệnh nhân tiền sản giật cũng được trình bày trong chương này. Phần nội dung còn lại của chương này bao gồm phát biểu bài toán, mô hình và thuật toán FKG-Pairs, phân tích các cặp, kết quả cài đặt thực nghiệm trên sáu bộ dữ liệu chuẩn UCI và ứng dụng mô phỏng mô hình lý thuyết FKG-Pairs cho bài toán hỗ trợ chẩn đoán tiền sản giật. 2.1. Phát biểu bài toán Các yêu cầu cụ thể của bài toán tổng quát trình bày ở phần này được phát biểu như sau: Đầu vào: Giả sử có cơ sở luật mờ được đưa ra sau khi áp dụng một cơ chế sinh luật (chẳng hạn FIS hoặc M-CFIS) như Bảng 2.1, ở đó -I , -g , … , -ijI , -i là các thuộc tính của tập dữ liệu. f f f f Bảng 2.1. Cơ sở luật mờ. l km l kn l kojm l ko Nhãn đầu Luật … ra R1 p37ℎ p37ℎ … qr5s p37ℎ p37ℎ 1 R2 Grt3,> Grt3,> … Grt3,> u6v 2 … … … … … … … Rn-1 Grt3,> Grt3,> … Grt3,> Grt3,> 2 Rn u6v Grt3,> … u6v u6v 3 Nhãn của {p37ℎ, p37ℎ, … {qr5s p37ℎ, p37ℎ, p37ℎ, {1, 2, 3, thuộc Grt3,>, Grt3,> Grt3,>, u6v} Grt3,>, …, C} tính u6v u6v Ngoài ra, một mẫu mới có thể được biểu diễn theo dạng của luật như sau: l l l l l IF km là "u6v" và kn là "u6v” và kx là "p37ℎ" và ky là "qr5s p37ℎ" và kz là "u6v" và … l l và kojm là "p37ℎ" và ko là "u6v" THEN nhãn đầu ra là gì? 7
- Đầu ra: Nhãn đầu ra của mẫu mới. Để giải quyết bài toán đã được phát biểu ở trên, ý tưởng chính của mô hình đề xuất được trình bày tóm tắt như sau: Xuất phát từ tập dữ liệu đã sẵn sàng sau khi thực hiện hoàn thành giai đoạn tiền xử lý, mô hình đề xuất biểu diễn đồ thị FKG-Pairs trên tập dữ liệu huấn luyện và gán nhãn cho các mẫu mới trên tập dữ liệu kiểm tra. Do vậy, mô hình đề xuất được chia thành một số bước như sau: • Đầu tiên, cơ chế sinh luật được áp dụng để thu được cơ sở luật mờ từ tập dữ liệu huấn luyện. • Tiếp theo, đồ thị FKG-Pairs được biểu diễn sau khi tính toán bộ trọng số của các cạnh nối giữa các nhãn của các thuộc tính và trọng số của các cạnh nối từ các siêu đỉnh đến nhãn của đầu ra của các luật trong tập dữ liệu huấn luyện. • Cuối cùng, thuật toán FKG-Pairs được áp dụng để gán nhãn cho các mẫu mới trong tập dữ liệu kiểm tra. 2.2. Mô hình FKG-Pairs Trong phần này, mô hình đề xuất được trình bày để minh họa các giai đoạn từ khi nhận mẫu mới đến khi gán nhãn cho nó. Mô hình đề xuất được chia thành ba giai đoạn, bao gồm: giai đoạn tiền xử lý, giai đoạn biểu diễn đồ thị FKG-Pairs, và giai đoạn suy diễn xấp xỉ. Mô hình đề xuất FKG-Pairs được minh họa trong Hình 2.1. 2.2.1. Giai đoạn tiền xử lý Giai đoạn tiền xử lý là một trong ba giai đoạn của mô hình đề xuất. Sau khi thu thập dữ liệu, các dữ liệu đầu vào được tiến hành mờ hóa bằng cách sử dụng các biến ngôn ngữ. Sau đó, một cơ chế sinh luật được áp dụng để sinh luật (chẳng hạn FIS hoặc M-CFIS). Kết quả của giai đoạn này là một cơ sở luật mờ được hiển thị như Bảng 2.1 và sẽ được sử dụng để xây dựng đồ thị tri thức mờ dạng cặp ở giai đoạn tiếp theo. 2.2.2. Giai đoạn xây dựng đồ thị FKG-Pairs Từ cơ sở luật mờ trình bày tại Bảng 2.1, một số bước dưới đây được thực hiện để tính bộ trọng số của các cạnh và biểu diễn đồ thị FKG-Pairs, cụ thể là: | }~…• Bước 1. Tính toán bộ trọng số {€ Từ cơ sở luật mờ của tập huấn luyện, công thức (2.1) được áp dụng để tính bộ trọng số của các cạnh nối giữa các đỉnh là nhãn của các thuộc tính •' %&…J trong luật t :' . *c‚ → c„ → ⋯→ c†‡ˆ '‰Š‹Œ )•ậ' '* f f f •' %&…J , 2.1 |Ž| ở đó, 4 1, ., 1 ≤ 3 < = < ⋯ < ; ≤ > − 1. | }~…•• và xác định giá trị cận trên • Bước 2. Tính toán bộ trọng số •€ Sau khi tìm được bộ trọng số của các cạnh nối giữa các đỉnh là nhãn của các thuộc tính •' %&…JdI , bộ trọng số của các cạnh nối từ siêu đỉnh (đỉnh kết hợp bởi ; thuộc tính đầu vào) đến đỉnh nhãn đầu ra trong luật t :' được tính toán bằng cách áp dụng công thức (2.2). 8
- Hình 2.1. Mô hình đề xuất đồ thị tri thức mờ dạng cặp FKG-Pairs. 9
- ‘' (%&…J) ∑ •' %&…JdI B GLM ? |c‚ →) '‰Š‹Œ )•ậ' '| *c„ → ) '‰Š‹Œ )•ậ' '* f , f , ⋯, |Ž| |Ž| |c† → ) '‰Š‹Œ )•ậ' '| f (2.2 |Ž| A, ở đó, 4 1, ., 1 3 < = < ⋯ < ; > " 1, 8 1, D. Một câu hỏi đặt ra với phương pháp đề xuất là làm thế nào để giảm thời gian tính toán bộ trọng số của các cạnh trong đồ thị FKG-Pairs •'J ? Để giải quyết vấn đề này, một điều kiện dừng được đề xuất để tìm giá trị cận trên ; bằng cách áp dụng công thức (2.3). KKKKK " I •J ’, 2.3 |Ž| ở đó, KKKKK được xác định bằng cách lấy trung bình các giá trị của bộ trọng số •'J . •J | }~…•dm Bước 3. Biểu diễn đồ thị tri thức mờ dạng cặp • từ cơ sở luật mờ với các bộ trọng số {€ | }~…•• . và •€ Đồ thị tri thức mờ dạng cặp được xây dựng dựa trên cơ sở luật mờ được sinh ra từ tập huấn luyện đối với từng luật :' , trong đó 4 1, .. Với mỗi siêu đỉnh có dạng -% → -& → ⋯ → f f -J , 1 3 < = < ; >, trong luật :' , các cạnh giữa các siêu đỉnh được nối với nhau, trong đó f nhãn của các thuộc tính -% , -& , … , -J là biến ngôn ngữ. Đồ thị tri thức mờ dạng cặp được lưu trữ f f f vào trong một ma trận kề. Thuật toán suy diễn xấp xỉ trong đồ thị tri thức mờ dạng cặp được trình bày ở phần tiếp theo tại mục 2.3 để tìm nhãn đầu ra của mẫu mới. 2.2.3. Giai đoạn suy diễn xấp xỉ Trong tiểu mục này, một thuật toán mới được đề xuất nhằm cải tiến thuật toán FISA để tìm • ngưỡng cho cặp ; (gọi tắt là thuật toán FKG-Pairs). Đầu tiên, tổng trọng số D%&…J) ) của các cạnh nối từ siêu đỉnh -% , -& , … , -J “ đến nhãn đầu ra 8 được tính toán bằng cách áp dụng công f f f thức (2.4) dưới đây: • D%&…J “ ) ‘' ∑' (%&…J “ ) , (2.4 ở đó, 1 3 < = < ⋯ < ;” ;. Tiếp theo, thuật toán FKG-Pairs được áp dụng để tìm nhãn đầu ra của các mẫu mới. Trong | thuật toán này, giá trị thuộc F) được tính bằng cách sử dụng toán tử Max-Min trong công thức (2.5). | F) • •k–I—%˜&˜⋯˜J “ —J D%&…J “ ) • •}™I—%˜&˜⋯˜J “ —J (D%&…J “ ) ) (2.5 Nhãn của mẫu mới được xác định bằng cách dùng toán tử Max trong công thức (2.6). Mℎã. đầ, 5- | š .ế, Fœ | •k–)HI,[ F) 2.6 Sau đó, các tham số độ chính xác và thời gian tính toán cũng được xét đến. Cuối cùng, giá trị tốt nhất •∗ được xác định bằng cách áp dụng hàm giá trị Ÿ trong công thức (2.7). ¡¡ ; ¤3>r ; ℱ ; _J B £J B 2.7 100% G ¤3>r ; 10
- 2.3. Thuật toán FKG-Pairs Thuật toán FKG-Pairs được mô tả chi tiết như sau. Thuật toán FKG-Pairs Đầu vào: (, ; ; KKKKKK . ‘ 2, > >: Số thuộc tính của mỗi luật. .: Số luật trong tập dữ liệu. D: Số nhãn đầu ra trong tập dữ liệu. _ J : Trọng số của tham số độ chính xác ¡¡ ; . £ J : Trọng số của tham số thời gian tính toán ¤3>r ; . Tập dữ liệu kiểm tra. Đầu ra: Tìm nhãn đầu ra của các mẫu mới trong tập kiểm tra và giá trị cặp tốt nhất ; ∗ , độ chính xác ( ¡¡ ; ∗ và thời gian tính toán ¤3>r ; ∗ . 1: BEGIN 2: ‘' Nhận bộ trọng số (%&…J) sau khi thực hiện xong giai đoạn biểu diễn đồ thị tri thức mờ dạng cặp (FKG-Pairs). 3: Nhận tập dữ liệu kiểm tra sau khi đã tách bộ dữ liệu đầu vào. 4: Tiến hành mờ hóa tập dữ liệu kiểm tra bởi các giá trị biến ngôn ngữ và áp dụng một cơ chế sinh luật hoặc ý kiến chuyên gia. 5: For ; ” 2 to ; do 6: For 4 = 1 to . do 7: For 8 = 1 to D do 8: While 1 ≤ 3 < = < ⋯ < ; ” ≤ ; do 9: Begin 10: • ‘ Tính toán: D%&…J “ ) = ∑' ( ' “ %&…J ) 11: | Tính toán: F) = G- I—%˜&˜⋯˜J “ —J • • D%&…J “ ) + G3.I—%˜&˜⋯˜J “ —J D%&…J “ ) 12: End 13: | Xác định nhãn đầu ra của bản ghi thứ 4: Mℎã. đầ, 5- = š .ế, Fœ = | G- )HI,[ F) 14: End For 15: Gán nhãn đầu ra cho bản ghi thứ 4 bằng phương pháp FKG cặp ; ” . 16: End For 17: Ước lượng giá trị các tham số ¡¡ ; ” và ¤3>r ; ” . ¥¥ J “ §%i¨ J “ 18: Tính toán: ℱ J “ = _ J B +£J B I¦¦% © ª §%i¨ J “ 19: End For 20: Tìm giá trị cặp phù hợp nhất ; ” bằng cách lấy giá trị G ℱ J “ . Gán ; ∗ = ; ” (; ∗ là lựa chọn tốt nhất để khuyến nghị xây dựng ứng dụng trong thế giới thực dựa trên phương pháp FKG-Pairs cặp ; ∗ ). Kiểm tra hiệu quả mô hình FKG-Pairs cặp ; ∗ dựa trên các độ đo Precision, Recall và F1-Score. 21: END 11
- 2.3.1. Độ phức tạp của thuật toán Độ phức tạp về thời gian tính toán của thuật toán đề xuất được xác định là « € ™ B ¬ B • B ¬• , trong đó: o • . là số luật của tập dữ liệu; • D là nhãn của tập dữ liệu; • ; số thuộc tính của từng cặp; • > là số thuộc tính của từng luật trong tập dữ liệu. 2.3.2. Phân tích các cặp trong thuật toán đề xuất Trong tiểu mục này, phân tích các cặp trong mô hình đề xuất (FKG-Pairs) được tiến hành. Trước hết, vấn đề cặp ; được xem xét để tính toán bộ trọng số •' %&…J theo công thức (2.1). Vì ; KKKKKKKKKKK 1, > − 1, ta có: *-% → -& → ⋯ → -JdI 456.7 8,ậ4 4* f f f •' %&…J = |:| ở đó, 4 1, ., 1 ≤ 3 < = < ⋯ < ; ≤ > − 1. (viết tắt là •'J ). Hơn nữa, tồn tại một giá trị ;¦ 1, > − 1 , ở đó •'J- KKKKKKKKKKK . Giá trị •'J- luôn là giá trị nhỏ nhất của tham số •'J . Điều này I |Ž| thực sự hiệu quả về mặt thời gian tính toán trong bối cảnh dữ liệu lớn khi số lượng các thuộc tính ‘ ‘' > trong bộ dữ liệu là lớn. Trong trường hợp này, bộ trọng số ( được tính toán theo (%&…J “ ) ‘' thay vì (%&…J) . ‘' Thứ hai, trường hợp cặp ; cũng được phân tích để tính toán bộ trọng số (%&…J) dựa vào kết quả của bộ trọng số •'J theo công thức (2.2) như sau: |-% → 8 456.7 8,ậ4 4| f *-& → 8 456.7 8,ậ4 4* f ‘' (%&…J) ?@ •' %&…JdI A B GLM ® , ,⋯ , |:| |:| |-J → 8 456.7 8,ậ4 4| f ¯ |:| ở đó, 4 1, ., 1 ≤ 3 < = < ⋯ < ; ≤ > − 1, 8 = 1, D. ‘' ‘' Với ; 1, tham số (%&…J) trở thành (%) (tương ứng với cặp đơn trong mô hình M-CFIS-FKG). Khi đó toán tử MIN trong công thức (2.2) cũng không còn nữa. Như vậy, FKG-Pairs được xem là ‘' mở rộng của FKG trong mô hình M-CFIS-FKG. Với các trường hợp ; ≥ 2, tham số (%&…J) được tính toán bởi công thức (2.2). Tóm lại, trong mô hình đề xuất FKG-Pairs, các công thức mới được trình bày để tính toán bộ trọng số của các cạnh nối giữa các nhãn của các thuộc tính •'J và bộ trọng số của các cạnh nối ‘ từ đỉnh kết hợp các cặp thuộc tính (hay gọi là siêu đỉnh) đến nhãn đầu ra ( 'J . Đặc biệt, nhằm giảm thiểu số bước lặp trong tính toán bộ trọng số •'J , công thức (2.3) được đề xuất để xác định điều kiện dừng khi tính toán các giá trị trong bộ trọng số •'J . KKKKK " 1 ≤ ’ •J |:| 12
- Hơn nữa, làm thế nào xác định được giá trị ; ∗ để lựa chọn được cặp ; ∗ tốt nhất (ở đó ; ∗ = KKKKK 1, ;) từ mô hình đề xuất? Trong phạm vi công trình nghiên cứu này, một hàm giá trị Ÿ • được đề xuất trong công thức (2.7) để tìm giá trị ; ∗ hợp lý nhất. 2.4. Kết quả thực nghiệm Các kết quả cài đặt ví dụ số và kết quả thực nghiệm trên các bộ dữ liệu UCI để minh họa mô hình đề xuất FKG-Pairs được trình bày chi tiết tại chương 2 quyển luận án tiến sĩ bản đầy đủ. Với kết quả cài đặt trên các bộ dữ liệu UCI, có hai điểm mới được phát hiện sau khi tiến hành thực hiện các thực nghiệm: Thứ nhất, bằng cách áp dụng cơ chế sinh luật FIS, độ chính xác của phương pháp đề xuất với trường hợp FKG-Pairs2 (FKG-Pairs cặp đôi là phương pháp tốt thứ hai trong số các phương pháp dựa vào FKG-Pairs trong các thực nghiệm) cao hơn một chút so với phương pháp FIS truyền thống (về tổng thể độ chính xác trung bình cao hơn khoảng 2.33%), nhưng thời gian tính toán tốt hơn nhiều (về tổng thể thời gian tính toán trung bình tốt hơn gấp 4 lần). Thứ hai, bằng cách áp dụng cơ chế sinh luật M-CFIS, độ chính xác của phương pháp đề xuất tốt hơn một chút so với phương pháp hiện đại nhất (về tổng thể độ chính xác trung bình cao hơn khoảng 0.68%), nhưng không tốt hơn về mặt thời gian tính toán (về tổng thể thời gian tính toán trung bình cao hơn khoảng 1.76 lần). Từ kết quả thực nghiệm trong kịch bản thứ hai, phương pháp M-CFIS-FKG2 có thể áp dụng giải quyết các bài toán trong thực tế trong bối cảnh khi cần cải thiện độ chính xác. 2.5. Ứng dụng FKG-Pairs trong hỗ trợ chẩn đoán bệnh tiền sản giật Kết quả thực nghiệm dựa trên bộ dữ liệu thực tế đã chứng minh rằng khả năng áp dụng đồ thị tri thức mờ dạng cặp để hỗ trợ chẩn đoán dấu hiệu tiền sản giật của các sản phụ trong y học là hoàn toàn khả thi. Độ chính xác của phương pháp FKG-Pairs3 đạt 89.74% với kịch bản sử dụng phương pháp lấy mẫu ngẫu nhiên hệ thống và phương pháp chia bộ dữ liệu truyền thống (70% cho tập huấn luyện và 30% cho tập kiểm tra). Tuy nhiên, phương pháp FKG-Pairs3 cũng bộc lộ hạn chế về mặt thời gian tính toán trong kịch bản 1 và độ chính xác trong các kịch bản 2 và 3. Để khắc phục những hạn chế của các phương pháp dựa trên mô hình FKG-Pairs, mô hình FKG- Extreme sẽ được đề xuất và trình bày chi tiết tại chương 3. 2.6. Kết luận Chương 2 Trong chương này, kết quả nghiên cứu phát triển mô hình mới được trình bày để giải quyết câu hỏi nghiên cứu thứ nhất nêu tại mục 1 của phần mở đầu góp phần phân loại các mẫu trong các hệ thống thông tin có dữ liệu đầu vào chưa đầy đủ. Từ kết quả phân tích cặp trình bày tại tiểu mục 2.3.2, có thể khẳng định rằng mô hình đề xuất FKG-Pairs là một sự mở rộng của mô hình M-CFIS-FKG. Đồ thị tri thức mờ dạng cặp là một kỹ thuật hoàn toàn mới nhằm giải quyết triệt để lớp bài toán phân loại, hỗ trợ ra quyết định dựa trên bộ dữ liệu đầu vào chưa đầy đủ. Trong phạm vi luận án tiến sĩ này, mô hình FKG-Pairs được nghiên cứu phát triển đề xuất để suy diễn xấp xỉ và tìm nhãn của các mẫu mới trong bối cảnh bộ dữ liệu đầu vào có nhiều thuộc tính và thông tin các mẫu chưa đầy đủ. Hơn nữa, chương này đã trình bày kết quả cài đặt mô hình đề xuất trên các bộ dữ liệu UCI để so sánh các phương pháp dựa trên mô hình FKG-Pairs với các phương pháp khác. Các kết quả cài 13
- đặt cho thấy mô hình FKG-Pairs có một số ưu điểm chính như sau: phương pháp dựa trên FKG-Pairs có kết quả thực nghiệm trên các bộ dữ liệu trong lĩnh vực y tế cho thấy suy diễn xấp xỉ đạt hiệu năng cao hơn so với các phương pháp khác về mặt thời gian tính toán; FKG-Pairs phù hợp để giải quyết vấn đề suy diễn xấp xỉ trong các hệ thống mờ dựa trên các bộ dữ liệu có thông tin đầu vào chưa đầy đủ; FKG-Pairs có thể suy diễn và tìm nhãn của các mẫu mới chưa có trong cơ sở luật mờ. Mô hình đề xuất FKG-Pairs thực sự hiệu quả khi được áp dụng để giải quyết bài toán phân loại, hỗ trợ ra quyết định trong các hệ thống mờ so với các mô hình tin cậy khác (chẳng hạn phương pháp FIS), cũng như các mô hình mới nhất hiện nay (M-CFIS-R, M- CFIS-FKG). Mặc dù mô hình FKG-Pairs đã cho thấy sự ưu việt so với các mô hình hiện đại nhất (M-CFIS- R, M-CFIS-FKG) trong việc xử lý các bài toán suy diễn và phân loại khi kho dữ liệu chứa các mẫu thiếu thông tin đầu vào. Tuy nhiên, một thách thức lớn đặt ra trong thực tế đó là các hệ thống thông tin có bộ dữ liệu đầu vào chứa các mẫu chưa đầy đủ thông tin và cơ sở luật mờ quá nhỏ so với dữ liệu mới sinh ra, khi đó mô hình FKG-Pairs cũng đã bộc lộ hạn chế, thậm chí không thể giải quyết trong trường hợp thiếu cơ sở luật mờ (đặc biệt là với các hệ thống mới hoàn toàn). Điều này chính là động cơ thúc đẩy việc nghiên cứu cải tiến mô hình FKG-Pairs bằng cách tiếp cận mới dựa trên kỹ thuật Q-learning trong học tăng cường tiếp tục được thực hiện nhằm vượt qua thách thức của các bài toán suy diễn và phân loại trong thực tế đã đặt ra. Mô hình đề xuất mới là sự kết hợp FKG-Pairs và Q-learning được trình bày chi tiết trong chương tiếp theo. Chương 3. MÔ HÌNH ĐỒ THỊ TRI THỨC MỜ DẠNG CẶP RA QUYẾT ĐỊNH TRONG TRƯỜNG HỢP CỰC ĐOAN FKG-EXTREME Chương này tập trung giải quyết câu hỏi nghiên cứu thứ hai: Làm thế nào để nghiên cứu phát triển đề xuất mô hình ra quyết định dựa trên đồ thị tri thức mờ dạng cặp trong các trường hợp cực đoan với các tập dữ liệu lớn hoặc tập dữ liệu huấn luyện quá nhỏ, thiếu tri thức? Để giải quyết được câu hỏi nghiên cứu này, nội dung của chương này trình bày mô hình đề xuất FKG- Extreme hỗ trợ ra quyết định cho bài toán phân loại, ra quyết định trong trường hợp cực đoan (với bộ dữ liệu đầu vào lớn hoặc tập dữ liệu huấn luyện quá nhỏ) theo cách tiếp cận kết hợp đồ thị tri thức mờ dạng cặp (FKG-Pairs) với kỹ thuật Q-learning trong học tăng cường. Phần còn lại của chương này trình bày các nội dung chính như phát biểu bài toán, mô hình và thuật toán FKG-Extreme, các kết quả thực nghiệm dựa trên các bộ dữ liệu chuẩn UCI, phân tích ANOVA hai yếu tố không thay thế cũng được thực hiện nhằm kiểm chứng mô hình đề xuất. Ngoài ra, mô hình lý thuyết FKG-Extreme cũng được mô phỏng dựa trên bộ dữ liệu bệnh thận mạn để kiểm chứng khả năng ứng dụng hỗ trợ chẩn đoán bệnh trong thực tế. Trước khi trình bày phát biểu bài toán, bối cảnh và tư tưởng chính của mô hình đề xuất được tóm tắt như sau: Như đã trình bày tại mục 2.6 của chương 2, mặc dù mô hình FKG- Pairs đã cho thấy sự ưu việt so với các mô hình M-CFIS-R [35] và mô hình M-CFIS-FKG [3] trong việc xử lý các bài toán phân loại, hỗ trợ ra quyết định với tập dữ liệu đầu vào 14
- chưa đầy đủ. Tuy nhiên, một thách thức lớn đặt ra trong thực tế đó là các hệ thống mới với bộ dữ liệu đầu vào chứa các mẫu chưa đầy đủ thông tin và cơ sở luật mờ quá nhỏ so với dữ liệu mới sinh ra, khi đó FKG-Pairs cũng đã bộc lộ hạn chế. Điều này đã thúc đẩy việc nghiên cứu cải tiến mô hình FKG-Pairs bằng cách tiếp cận mới dựa trên kỹ thuật Q- learning trong học tăng cường để vượt qua thách thức của các bài toán phân loại, hỗ trợ ra quyết định trong trường hợp cực đoan đáp ứng yêu cầu thực tế đã đặt ra. Một câu hỏi được đặt ra đó là: Thế nào được xem là bài toán phân loại, hỗ trợ ra quyết định trong trường hợp cực đoan? Để hiểu rõ hơn bối cảnh của bài toán phân loại trong trường hợp cực đoan, Hình 3.1 minh họa một cách tiếp cận sử dụng đồ thị tri thức mờ dạng cặp dựa trên kỹ thuật Q-learning trong học tăng cường. Ở đây, mỗi bước thời gian ¤% , hệ thống ra quyết định sẽ tiếp nhận một kho dữ liệu lớn. Tuy nhiên, ở bước thời gian ¤¦ , cơ sở luật mờ rất nhỏ, thậm chí chưa có trong các hệ thống mới hoàn toàn. Điều này dẫn đến hai trường hợp gây ảnh hưởng đến hiệu năng của hệ thống hỗ trợ ra quyết định, cụ thể là: Hình 3.1. Cách tiếp cận đồ thị tri thức mờ dạng cặp dựa trên kỹ thuật Q-learning. Trường hợp thứ nhất, sử dụng phương pháp học máy truyền thống để huấn luyện mô hình dựa trên một tập dữ liệu F(% ở bước ¤% với cách chia bộ dữ liệu theo phương pháp hold-out (với tỷ lệ chia 10 - 90%). Trong trường hợp này, thời gian tính toán có thể chấp nhận được, nhưng hiệu suất về mặt độ chính xác lại khá thấp do có một số lượng lớn các mẫu mới sinh ra chưa có trong cơ sở luật mờ, vì vậy khó đáp ứng được yêu cầu thực tiễn bài toàn đặt ra (chẳng hạn, các hệ thống thương mại điện tử, hệ thống chứng khoán hoặc hệ thống chẩn đoán bệnh trong y tế khi có các đợt dịch bùng phát với nhiều biến thể khác nhau). Trường hợp thứ hai, sử dụng phương pháp học sâu để huấn luyện mô hình dựa trên các tập dữ liệu F(% ở các bước ¤% với cách chia bộ dữ liệu theo phương pháp hold-out (với tỷ lệ chia 80 - 20% hoặc 70 - 30%) hoặc phương pháp k-fold (với k = 5 hoặc k = 10). Điều này sẽ làm cho hiệu năng tính toán về mặt thời gian của hệ thống hỗ trợ ra quyết định giảm, gây ra hệ thống chạy chậm, vì vậy cũng khó đáp ứng được yêu cầu thực tiễn bài toán đặt ra. 15
- Câu hỏi được đặt ra ở đây là: Làm thế nào để nghiên cứu phát triển mô hình ra quyết định nhằm cải thiện hiệu năng của hệ thống về mặt độ chính xác trong trường hợp cực đoan với tập dữ liệu huấn luyện quá nhỏ? Với cách tiếp cận sử dụng đồ thị tri thức mờ dạng cặp dựa trên kỹ thuật Q-learning trong học tăng cường, mô hình mới được đề xuất để giải quyết bài toán hỗ trợ ra quyết định trong trường hợp cực đoan (gọi tắt là mô hình FKG-Extreme). 3.1. Phát biểu bài toán Như đã trình bày ở trên, bài toán phân loại trong bối cảnh trường hợp cực đoan được nêu ở trường hợp thứ nhất cho thấy việc huấn luyện mô hình dựa trên một tập dữ liệu F(% ở bước ¤% với cách chia bộ dữ liệu theo phương pháp hold-out (với tỷ lệ chia 10 - 90% hoặc 5 - 95%) thời gian tính toán có thể chấp nhận được, nhưng hiệu suất về mặt độ chính xác lại khá thấp do có một số lượng lớn các mẫu mới sinh ra chưa có trong cơ sở luật mờ. Vì vậy, mục tiêu cụ thể của mô hình đề xuất FKG-Extreme là cải thiện hiệu năng của hệ thống về mặt độ chính xác và xác định hành động tốt nhất để khuyến nghị áp dụng cho các ứng dụng trong thực tế. Các yêu cầu cụ thể của bài toán trình bày ở phần này được phát biểu như sau: Đầu vào: Từ các tập dữ liệu gốc ban đầu, giả sử rằng sau quá trình tiền xử lý cơ sở luật mờ được đưa ra như Bảng 3.1 sau khi áp dụng phương pháp lấy mẫu và cách chia dữ liệu, và sử dụng một cơ chế sinh luật (chẳng hạn FIS). Bảng 3.1 thể hiện rằng có ™ luật {:I , :g , … , :‹ ; mỗi luật có o thuộc tính {-I , -g , … , -ijI , -i ; và nhãn đầu ra của f f f f mỗi luật là một trong ¬ nhãn {1, 2, 3, … , D . Bảng 3.1. Cơ sở luật mờ (fuzzy rule base). Luật l km l kn … l kojm l ko Nhãn đầu ra R1 p37ℎ p37ℎ … qr5s p37ℎ p37ℎ 3 R2 Grt3,> Grt3,> … Grt3,> u6v 1 … … … … … … … Rn-1 Grt3,> Grt3,> … Grt3,> Grt3,> 1 Rn u6v Grt3,> … u6v u6v 2 Nhãn của {p37ℎ, p37ℎ, … {qr5s p37ℎ, {p37ℎ, 1, 2, 3, thuộc Grt3,>, Grt3,> p37ℎ, Grt3,>, Grt3,>, …,D tính u6v u6v} u6v và có ± mẫu mới với cấu trúc IF-THEN tương tự các luật trong Bảng 3.1, ở đó ± ≫ ™, l chẳng hạn: IF km là "u6v" và kn là "u6v” và … và kojm là "p37ℎ" và ko là "qr5s u6v" l l l THEN nhãn đầu ra là gì? Đầu ra: Tìm nhãn đầu ra của các mẫu mới và khuyến nghị hành động tốt nhất (phương pháp lấy mẫu và cách chia dữ liệu) để áp dụng cho ứng dụng trong thực tế. 16
- 3.2. Mô hình FKG-Extreme Trong phần này, mô hình và thuật toán đề xuất được trình bày với sự mô tả tóm tắt như sau: Đầu tiên, các hành động phải được định nghĩa trước. Mỗi hành động là sự kết hợp của hai tham số (phương pháp lấy mẫu và cách chia bộ dữ liệu). Có nhiều phương pháp lấy mẫu khác nhau (chẳng hạn phương pháp lấy mẫu thuận tiện, lấy mẫu theo chủ đích, lấy mẫu bông tuyết, lấy mẫu ngẫu nhiên đơn giản, lấy mẫu ngẫu nhiên có hệ thống, lấy mẫu theo cụm, lấy mẫu phân tầng, v.v.). Tuy nhiên, để đảm bảo tính khách quan, các phương pháp lấy mẫu cần thỏa mãn yêu cầu về tính đại diện và tính dự báo nên được lựa chọn. Tiếp đó, từ tập dữ liệu sẵn có F( tại thời điểm 4 được tách ra thành hai tập dữ liệu (F(' và :§¨³' ) với tỷ lệ theo hành động đã xác định trước (chẳng hạn 10 - 90% hoặc 5 - 95%), sau đó áp dụng cơ chế sinh luật (FIS). Tập dữ liệu (F(' ) tiếp tục được tách thành hai tập dữ liệu nhỏ hơn gồm tập dữ liệu huấn luyện (:´µ¶·¸ ) và tập dữ liệu kiểm thử (:¹¶º ). Sau đó, cơ sở luật mờ :[•‰‰¨‹' được tăng cường các luật mạnh từ tập dữ liệu huấn luyện bằng cách sử dụng phương pháp tính trọng số của luật nhằm giảm thời gian huấn luyện mô hình. Trường hợp tập huấn luyện :´µ¶·¸ nhỏ thì tăng cường toàn bộ số luật của :´µ¶·¸ vào :[•‰‰¨‹' . Cuối cùng, đồ thị tri thức mờ dạng cặp (FKG-Pairs) được xây dựng dựa trên cơ sở luật mờ :[•‰‰¨‹' và ước lượng độ chính xác, thời gian tính toán trên các tập dữ liệu kiểm thử (:»c) ) và tập dữ liệu kiểm tra (:§¨³' ). Các giá trị hàm phần thưởng và Q-values được tính toán, sau đó giá trị Q-values được cập nhật vào bảng Q-table. Áp dụng toán tử MAX với các giá trị trong bảng Q- table, hành động tốt nhất được khuyến nghị để áp dụng cho các ứng dụng trong thực tế và để tìm nhãn cho các mẫu mới. Nội dung chi tiết về mô hình và thuật toán đề xuất (FKG-Extreme) được trình bày trong các tiểu mục 3.2.1 và 3.2.2. 3.2.1. Mô hình FKG-Extreme Tiểu mục này trình bày mô hình đề xuất FKG-Extreme được mô tả tại Hình 3.3 với một số bước chính như sau: Bước 1: Sau khi thu thập dữ liệu, các phương pháp lấy mẫu và phương pháp chia bộ dữ liệu được lựa chọn. Các phương pháp lấy mẫu đảm bảo cả hai yêu cầu về tính đại diện và tính dự báo để trích xuất ra các tập dữ liệu nhỏ từ tập dữ liệu gốc cho việc huấn luyện, kiểm thử và kiểm tra. Bước 2: Áp dụng cơ chế sinh luật FIS với cả ba tập dữ liệu huấn luyện (:´µ¶·¸ ), tập dữ liệu kiểm thử (:¹¶º ), và tập dữ liệu kiểm tra (:§¨³' ). Bước 3: Tính toán trọng số của các luật trong tập dữ liệu huấn luyện (:´µ¶·¸ ) bằng cách áp dụng công thức (3.1). Sau đó, một tập các luật mạnh :Ž¨%‹¼Š‰¥¨ , bao gồm các luật có trọng số |Ž¿ÀÁ‚ | ½% ≥ %HI q¾ ½% , được bổ sung vào trong cơ sở luật mờ :[•‰‰¨‹' . |-% → -& | |-& → -&dI | f f f f |-i → 8| |u-Är8 8 | f Δ% @ @ B + B 3.1 |:§‰c%‹ | |:§‰c%‹ | |:§‰c%‹ | |:§‰c%‹ | I—%—|Ž¿ÀÁ‚ | I—&—ijI Trường hợp tập dữ liệu huấn luyện (:´µ¶·¸ ) nhỏ, toàn bộ số luật trong :´µ¶·¸ sẽ được tăng cường cho cơ sở luật, không cần tính trọng số của các luật. 17
- Hình 3.2. Mô hình đề xuất FKG-Extreme. 18
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Tóm tắt Luận án Tiến sĩ Kinh tế: Chiến lược Marketing đối với hàng mây tre đan xuất khẩu Việt Nam
27 p | 191 | 18
-
Tóm tắt Luận án Tiến sĩ Kinh tế: Thúc đẩy tăng trưởng bền vững về kinh tế ở vùng Đông Nam Bộ đến năm 2030
27 p | 212 | 17
-
Tóm tắt Luận án Tiến sĩ Luật học: Hợp đồng dịch vụ logistics theo pháp luật Việt Nam hiện nay
27 p | 281 | 17
-
Tóm tắt Luận án Tiến sĩ Y học: Nghiên cứu điều kiện lao động, sức khoẻ và bệnh tật của thuyền viên tàu viễn dương tại 2 công ty vận tải biển Việt Nam năm 2011 - 2012
14 p | 273 | 16
-
Tóm tắt Luận án Tiến sĩ Triết học: Giáo dục Tư tưởng Hồ Chí Minh về đạo đức cho sinh viên trường Đại học Cảnh sát nhân dân hiện nay
26 p | 157 | 12
-
Tóm tắt luận án Tiến sĩ: Nghiên cứu tối ưu các thông số hệ thống treo ô tô khách sử dụng tại Việt Nam
24 p | 261 | 12
-
Tóm tắt luận án Tiến sĩ Kỹ thuật: Nghiên cứu tính toán ứng suất trong nền đất các công trình giao thông
28 p | 225 | 11
-
Tóm tắt Luận án Tiến sĩ Kinh tế Quốc tế: Rào cản phi thuế quan của Hoa Kỳ đối với xuất khẩu hàng thủy sản Việt Nam
28 p | 188 | 9
-
Tóm tắt luận án Tiến sĩ Kinh tế: Phát triển kinh tế biển Kiên Giang trong tiến trình hội nhập kinh tế quốc tế
27 p | 65 | 8
-
Tóm tắt Luận án Tiến sĩ Xã hội học: Vai trò của các tổ chức chính trị xã hội cấp cơ sở trong việc đảm bảo an sinh xã hội cho cư dân nông thôn: Nghiên cứu trường hợp tại 2 xã
28 p | 151 | 8
-
Tóm tắt Luận án Tiến sĩ Luật học: Các tội xâm phạm tình dục trẻ em trên địa bàn miền Tây Nam bộ: Tình hình, nguyên nhân và phòng ngừa
27 p | 215 | 8
-
Tóm tắt luận án Tiến sĩ Kinh tế: Phản ứng của nhà đầu tư với thông báo đăng ký giao dịch cổ phiếu của người nội bộ, người liên quan và cổ đông lớn nước ngoài nghiên cứu trên thị trường chứng khoán Việt Nam
32 p | 185 | 6
-
Tóm tắt Luận án Tiến sĩ Luật học: Quản lý nhà nước đối với giảng viên các trường Đại học công lập ở Việt Nam hiện nay
26 p | 137 | 5
-
Tóm tắt luận án Tiến sĩ Kinh tế: Các yếu tố ảnh hưởng đến xuất khẩu đồ gỗ Việt Nam thông qua mô hình hấp dẫn thương mại
28 p | 22 | 4
-
Tóm tắt Luận án Tiến sĩ Ngôn ngữ học: Phương tiện biểu hiện nghĩa tình thái ở hành động hỏi tiếng Anh và tiếng Việt
27 p | 126 | 4
-
Tóm tắt Luận án Tiến sĩ Kỹ thuật: Nghiên cứu cơ sở khoa học và khả năng di chuyển của tôm càng xanh (M. rosenbergii) áp dụng cho đường di cư qua đập Phước Hòa
27 p | 10 | 4
-
Tóm tắt luận án Tiến sĩ Kinh tế: Các nhân tố ảnh hưởng đến cấu trúc kỳ hạn nợ phương pháp tiếp cận hồi quy phân vị và phân rã Oaxaca – Blinder
28 p | 29 | 3
-
Tóm tắt luận án Tiến sĩ Kinh tế: Phát triển sản xuất chè nguyên liệu bền vững trên địa bàn tỉnh Phú Thọ các nhân tố tác động đến việc công bố thông tin kế toán môi trường tại các doanh nghiệp nuôi trồng thủy sản Việt Nam
25 p | 175 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn