Luận án Tiến sĩ Máy tính: Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ
lượt xem 5
download
Mục tiêu nghiên cứu của Luận án nhằm đề xuất các thuật toán gia tăng tìm tập rút gọn của bảng quyết định thay đổi dựa trên tập thô mờ theo tiếp cận kết hợp filter-wrapper nhằm giảm thiểu số lượng thuộc tính tập rút gọn và cải thiện độ chính xác của mô hình phân lớp, từ đó giảm thiểu độ phức tạp của mô hình khai phá dữ liệu Mời các bạn cùng tham khảo!
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Luận án Tiến sĩ Máy tính: Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ
- BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ ----------------------------- HỒ THỊ PHƯỢNG PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI THEO TIẾP CẬN TẬP THÔ MỜ LUẬN ÁN TIẾN SĨ MÁY TÍNH HÀ NỘI - 2021
- BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ ----------------------------- HỒ THỊ PHƯỢNG PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI THEO TIẾP CẬN TẬP THÔ MỜ Chuyên ngành : Khoa học máy tính Mã số : 9 48 01 01 LUẬN ÁN TIẾN SĨ MÁY TÍNH Người hướng dẫn khoa học: PGS.TS. Nguyễn Long Giang HÀ NỘI - 2021
- LỜI CẢM ƠN Luận án này được hoàn thành với sự nỗ lực không ngừng của tác giả và sự giúp đỡ hết mình từ các thầy giáo hướng dẫn, bạn bè và người thân. Đầu tiên, tác giả xin bày tỏ lời tri ân tới PGS.TS Nguyễn Long Giang, Viện Công nghệ Thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam người thầy đã tận tình hướng dẫn tác giả hoàn thành luận án này. Tác giả xin gửi lời cảm ơn sâu sắc đến thầy cô, bạn bè công tác tại Viện Công nghệ Thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam đã nhiệt tình giúp đỡ và tạo ra môi trường nghiên cứu tốt để tác giả hoàn thành công trình của mình; cảm ơn các thầy cô và các đồng nghiệp ở các nơi mà tác giả tham gia viết bài đã có những góp ý chính xác để tác giả có được những công bố như ngày hôm nay. Cảm ơn Học Viện Khoa học và Công nghệ Việt Nam đã tạo mọi điều kiện thuận lợi để tác giả hoàn thành Luận án này. Tác giả xin gửi lời cảm ơn tới Đảng ủy, Ban Giám hiệu trường Đại học Tây Nguyên nơi tác giả công tác đã ủng hộ và tạo mọi điều kiện để tác giả hoàn thành luận án đúng thời hạn. Cuối cùng, tác giả xin gửi tới bạn bè, người thân lời cảm ơn chân thành nhất vì đã đồng hành cùng tác giả trong suốt thời gian qua. Con xin cảm ơn Cha, Mẹ và gia đình đã luôn là chỗ dựa vững chắc về tinh thần và vật chất, cũng là những người luôn mong mỏi cho con thành công; cảm ơn chồng và các anh chị em đã gánh vác công việc gia đình thay cho em; xin lỗi các con vì phần nào đó đã chịu thiệt thòi trong thời gian mẹ học tập nghiên cứu, chính các con là nguồn động lực lớn lao giúp mẹ hoàn thành được công việc khó khăn này. Hà Nội, tháng 01 năm 2021 Hồ Thị Phượng
- LỜI CAM ĐOAN Các kết quả trình bày trong luận án là công trình nghiên cứu của tôi được hoàn thành dưới sự hướng dẫn của PGS.TS. Nguyễn Long Giang. Những kết quả trình bày là mới và chưa từng được công bố ở các công trình của người khác. Tôi xin chịu trách nhiệm về những lời cam đoan của mình. Hà Nội, Ngày….tháng ….năm 2021 Nghiên cứu sinh Hồ Thị Phượng
- i MỤC LỤC MỞ ĐẦU ........................................................................................................................................ 1 CHƯƠNG 1. TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH THEO TẬP THÔ MỜ........................................................................................................................................ 8 1.1. Tổng quan về rút gọn thuộc tính...............................................................................8 1.2. Các hướng tiếp cận filter-wrapper trong rút gọn thuộc tính ...................................10 1.3. Tổng quan về tập thô mờ ........................................................................................11 1.3.1. Bảng quyết định và quan hệ tương đương............................................................... 12 1.3.2. Quan hệ tương đương mờ ......................................................................................... 12 1.3.3. Ma trận tương đương mờ .......................................................................................... 14 1.3.4. Phân hoạch mờ ........................................................................................................... 14 1.4. Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ ...........17 1.4.1. Rút gọn thuộc tính theo tiếp cận tập thô mờ............................................................ 17 1.4.2. Phương pháp gia tăng rút gọn thuộc tính theo tiếp cận tập thô mờ....................... 19 1.5. Tóm tắt các đóng góp của luận án ..........................................................................23 1.6. Kết luận chương 1 ..................................................................................................24 CHƯƠNG 2. THUẬT TOÁN FIFTER-WRAPPER RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH SỬ DỤNG KHOẢNG CÁCH MỜ ................. 25 2.1. Mở đầu ....................................................................................................................25 2.2. Xây dựng khoảng cách giữa hai tập mờ .................................................................26 2.2.1. Độ đo khoảng cách mờ.............................................................................................. 27 2.2.2. Độ đo khoảng cách mờ và các tính chất .................................................................. 27 2.3. Thuật toán filter tìm tập rút gọn sử dụng khoảng cách mờ ....................................30 2.4. Thuật toán filter-wrapper tìm tập rút gọn sử dụng khoảng cách mờ ......................36 2.5. Thực nghiệm và đánh giá kết quả các thuật toán ...................................................37 2.5.1. Mục tiêu thực nghiệm................................................................................................ 37 2.5.2. Số liệu, phương pháp và môi trường thực nghiệm ................................................. 38 2.5.3. Kết quả so sánh độ chính xác phân lớp và số lượng thuộc tính tập rút gọn ......................................................................................................................... 39 2.5.4. Kết quả so sánh thời gian thực hiện ......................................................................... 41 2.6. Kết luận Chương 2..................................................................................................42
- ii CHƯƠNG 3. THUẬT TOÁN GIA TĂNG FIFTER-WRAPPER TÌM TẬP RÚT GỌN KHI BỔ SUNG, LOẠI BỎ TẬP ĐỐI TƯỢNG ............................................. 44 3.1. Mở đầu ....................................................................................................................44 3.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn bổ sung tập đối tượng .............47 3.2.1. Công thức gia tăng để tính khoảng cách mờ khi bổ sung một đối tượng............. 47 3.2.2. Công thức gia tăng tính khoảng cách mờ khi bổ sung tập đối tượng ................... 50 3.3. Thuật toán gia tăng fifter-wrapper tìm tập rút gọn khi loại bỏ tập đối tượng...........71 3.4. Kết luận Chương 3..................................................................................................88 CHƯƠNG 4. THUẬT TOÁN GIA TĂNG FIFTER-WRAPPER TÌM TẬP RÚT GỌN KHI BỔ SUNG, LOẠI BỎ TẬP THUỘC TÍNH .......................................... 90 4.1. Mở đầu ....................................................................................................................90 4.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập thuộc tính..............93 4.2.1. Công thức gia tăng cập nhật khoảng cách khi bổ sung tập thuộc tính .................. 93 4.2.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập thuộc tính ................................................................................................................. 94 4.2.3. Thực nghiệm và đánh giá thuật toán ........................................................................ 97 4.3. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi loại bỏ tập thuộc tính .............106 4.3.1. Công thức cập nhật khoảng cách khi loại bỏ tập thuộc tính ................................ 106 4.3.2. Thuật toán gia tăng filter-wrapper cập nhật tập rút gọn khi loại bỏ tập thuộc tính ................................................................................................................. 106 4.4. Kết luận Chương 4................................................................................................108 KẾT LUẬN ............................................................................................................................... 110 DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ .................................................................. 111 TÀI LIỆU THAM KHẢO...................................................................................................... 112
- iii DANH MỤC CÁC THUẬT NGỮ Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh Tập thô Rough Set Tập thô mờ Fuzzy Rough Set Hệ thông tin Information System Bảng quyết định Decision Tables Bảng quyết định mờ Fuzzy Decision Tables Quan hệ tương đương Equivalence Relation Quan hệ tương đương mờ Fuzzy Equivalence Relation Phân hoạch mờ Fuzzy Partition Ma trận tương đương mờ Fuzzy Equivalence Matrix Lớp tương đương mờ Fuzzy equivalence Classes Xấp xỉ dưới mờ Fuzzy Lower Approximation Xấp xỉ trên mờ Fuzzy Upper Approximation Rút gọn thuộc tính Attribute Reduction Tập rút gọn Reduct Phương pháp gia tăng Incremental Methods Khoảng cách mờ Fuzzy Distance Hàm thuộc mờ Fuzzy Dependency Function Lọc Filter Đóng gói Wrapper
- iv BẢNG CÁC KÝ HIỆU, TỪ VIẾT TẮT Ký hiệu, từ viết tắt Diễn giải DS U , C D Bảng quyết định U Số đối tượng C Số thuộc tính điều kiện trong bảng quyết định u a Giá trị của đối tượng u tại thuộc tính a IND B Quan hệ tương đương trên B U/P Phân hoạch của U trên P u B Lớp tương đương chứa u của phân hoạch U / P Ra Quan hệ tương đương mờ R . RP Quan hệ tương đương mờ 𝑅̃ trên tập thuộc tính P M ( RP ) Ma trận tương đương mờ của 𝑅̃𝑃 Φ RP Phân hoạch mờ trên 𝑅̃𝑃 Lớp tương đương mờ của xi thuộc phân hoạch mờ Φ RP xi P xi P Lực lượng lớp tương đương mờ xi P PX Tập xấp xỉ dưới mờ của X đối với RP PX Tập xấp xỉ trên mờ của X đối với RP FPD Φ RP ,Φ RQ Khoảng cách mờ giữa hai phân hoạch mờ Φ RP và Φ RQ
- v DANH MỤC CÁC BẢNG Bảng 1.1 Bảng quyết định của Ví dụ 1.1 ......................................................................16 Bảng 1.2 Liệt kê các nghiên cứu liên quan đến các thuật toán heuristic tìm tập rút gọn của bảng quyết định theo tiếp cận tập thô mờ. ..............................................................18 Bảng 1.3 Liệt kê các nghiên cứu liên quan đến các thuật toán gia tăng tìm tập rút gọn của bảng quyết định theo tiếp cận tập thô mờ. ..............................................................21 Bảng 2.1 Bảng quyết định của Ví dụ 2.2 ......................................................................33 Bảng 2.2 Bộ dữ liệu thử nghiệm thuật toán FW_FDBAR ............................................38 Bảng 2.3 Độ chính xác phân lớp và số lượng thuộc tính tập rút gọn............................39 Bảng 2.4 Thời gian thực hiện FW_FDBAR, FEBAR, FPDAR ...................................41 Bảng 3.1 Bảng quyết định của Ví dụ 3.1 ......................................................................48 Bảng 3.2 Bảng quyết định sau khi thêm đối tượng u4 của Ví dụ 3.1 ............................49 Bảng 3.3 Bảng quyết định của Ví dụ 3.2 ......................................................................51 Bảng 3.4 Bảng quyết định của Ví dụ 3.2 sau khi thêm tập đối tượng ..........................52 Bảng 3.5 Bộ dữ liệu thử nghiệm khi thêm tập đối tượng .............................................59 Bảng 3.6 Thời gian thực hiện của các thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2 IARM, ASS-IAR và IFSA (tính bằng giây) ..................................................................60 Bảng 3.7 Độ chính xác phân lớp và số lượng thuộc tính tập rút gọn của các thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2, IARM, ASS-IAR và IFSA ..................................65 Bảng 3.8 Bảng quyết định của Ví dụ 3.3 ......................................................................72 Bảng 3.9 Bảng quyết định sau khi loại bỏ 1 đối tượng của Ví dụ 3.3 ..........................74 Bảng 3.10 Bảng quyết định của Ví dụ 3.4 ....................................................................76 Bảng 3.11 Bảng quyết định sau khi loại bỏ tập đối tượng của Ví dụ 3.4 .....................78 Bảng 3.12 Mô tả dữ liệu khi loại bỏ tập đối tượng .......................................................83 Bảng 3.13 Thời gian thực hiện của thuật toán IFW_FDAR_DelObj và IFSD .............84 Bảng 3.14 Độ chính xác phân lớp của thuật toán IFW_FDAR_DelObj và IFSD .......86 Bảng 4.1 Bộ dữ liệu thử nghiệm ...................................................................................98 Bảng 4.2 Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của IFW_FDAR_AA và FRSA-IFS-HIS(AA) ....................................................................99 Bảng 4.3 Thời gian thực hiện của IFW_FDAR_AA và FRSA-IFS-HIS(AA) ...........103
- vi DANH SÁCH CÁC HÌNH VẼ Hình 1.1 Quy trình rút gọn thuộc tính .........................................................................10 Hình 1.2 Cách tiếp cận filter và wrapper trong rút gọn thuộc tính ..............................11 Hình 2.1 Độ chính xác phân lớp của ba thuật toán ......................................................40 Hình 2.2 Số lượng thuộc tính tập rút gọn của ba thuật toán .........................................41 Hình 2.3 Thời gian thực thiện của ba thuật toán...........................................................42 Hình 3.1 Thời gian thực hiện các thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2 IARM, ASS-IAR và IFSA .............................................................................................64 Hình 3.2 Số lượng thuộc tính tập rút gọn của các thuật toán IFW_FDAR_AdObj, IV- FS-FRS-2 IARM, ASS-IAR và IFSA ...........................................................................71 Hình 3.3 Thời gian thực hiện các thuật toán IFW_FDAR_DelObj và IFSD ...............86 Hình 3.4 Số lượng thuộc tính tập rút gọn của các thuật toán IFW_FDAR_DelObj và IFSD...............................................................................................................................88 Hình 4.1 Độ chính xác phân lớp của các thuật toán IFW_FDAR_AA và FRSA-IFS- HIS(AA) ......................................................................................................................103 Hình 4.2 Thời gian thực hiện của thuật toán IFW_FDAR_AA và FRSA-IFS- HIS(AA) ......................................................................................................................105
- 1 MỞ ĐẦU 1. Tính cấp thiết Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý dữ liệu của quá trình khai phá tri thức từ dữ liệu. Mục tiêu của rút gọn thuộc tính là loại bỏ các thuộc tính dư thừa, không cần thiết nhằm nâng cao tính hiệu quả của các mô hình khai phá dữ liệu. Rút gọn thuộc tính của bảng quyết định là quá trình lựa chọn tập con nhỏ nhất của tập thuộc tính điều kiện, loại bỏ các thuộc tính dư thừa mà bảo toàn thông tin phân lớp của bảng quyết định, gọi là tập rút gọn (reduct). Kết quả rút gọn thuộc tính ảnh hưởng trực tiếp đến hiệu quả thực hiện các nhiệm vụ khai phá: Gia tăng tốc độ, cải thiện chất lượng, tính dễ hiểu của các kết quả thu được. Cho đến nay, có hai hướng tiếp cận chính đối với bài toán lựa chọn thuộc tính: Lọc (filter) và đóng gói (wrapper). Cách tiếp cận fifter thực hiện việc lựa chọn thuộc tính độc lập với thuật toán khai phá sử dụng sau này. Các thuộc tính được chọn chỉ dựa trên độ quan trọng của chúng trong việc mô tả dữ liệu. Trong khi đó, cách tiếp cận wrapper tiến hành việc lựa chọn bằng cách áp dụng ngay thuật khai phá, độ chính xác của kết quả được lấy làm tiêu chuẩn để lựa chọn các tập con thuộc tính. Lý thuyết tập thô mờ (fuzzy rough set) do Dübois và các cộng sự [1] đề xuất là công cụ hiệu quả giải quyết bài toán rút gọn thuộc tính trực tiếp trên bảng quyết định gốc không qua bước tiền xử lý dữ liệu nhằm nâng cao hiệu quả độ chính xác mô hình phân lớp. Cho đến nay, nhiều phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ đã được đề xuất, điển hình là các phương pháp sử dụng hàm thuộc mờ [2, 3, 4], các phương pháp sử dụng miền dương mờ [5, 6], các phương pháp sử dụng entropy mờ [7, 8, 9], các phương pháp sử dụng khoảng cách mờ [10, 11, 12] và một số phương pháp khác [13, 14, 15, 16, 17, 18]. Trong xu thế dữ liệu lớn (Big data) hiện nay, các bảng quyết định ngày càng có số thuộc tính rất lớn, ví dụ các bảng dữ liệu trong lĩnh vực tin sinh học có hàng triệu thuộc tính. Hơn nữa, các bảng quyết định luôn luôn thay đổi, cập nhật với các tình huống như bổ sung và loại bỏ tập đối tượng, bổ sung và loại bỏ tập thuộc tính, giá trị tập đối tượng, tập thuộc tính thay đổi. Để xây dựng mô hình phân lớp hiệu quả, ta cần giải quyết bài toán rút gọn thuộc tính trên các bảng quyết định kích thước lớn và thay đổi. Các phương pháp rút gọn thuộc tính theo tiếp cận truyền thống trên các bảng quyết định như vậy gặp hai thách thức. Thứ nhất, với các bảng quyết định có kích thước lớn, việc thực hiện các thuật toán tìm tập rút gọn gặp khó
- 2 khăn về không gian lưu trữ và tốc độ tính toán. Thứ hai, với các bảng quyết định thay đổi, cập nhật, các thuật toán này phải tính toán lại tập rút gọn trên toàn bộ bảng quyết định sau khi thay đổi, do đó chi phí về thời gian tính toán tăng lên đáng kể. Để giải quyết hai thách thức trên, các nhà nghiên cứu đề xuất hướng tiếp cận tính toán gia tăng tìm tập rút gọn. Các thuật toán gia tăng chỉ cập nhật lại tập rút gọn trên phần dữ liệu bị thay đổi mà không tính lại tập rút gọn trên toàn bộ bảng quyết định ban đầu. Do đó, chúng giảm thiểu đáng kể thời gian thực hiện. Hơn nữa, các thuật toán gia tăng có thể thực hiện được trên các bảng quyết định kích thước lớn bằng giải pháp chia nhỏ bảng quyết định thành nhiều phần, tập rút gọn được tính khi lần lượt bổ sung từng phần. Hướng tiếp cận tính toán gia tăng tìm tập rút gọn của bảng quyết định đã và đang thu hút sự quan tâm của các nhà nghiên cứu trong suốt hơn thập kỷ qua. Theo tiếp cận lý thuyết tập thô truyền thống của Pawlak [19] và các mô hình tập thô mở rộng, các nhà nghiên cứu đã đề xuất nhiều thuật toán gia tăng tìm tập rút gọn của bảng quyết định thay đổi. Với trường hợp bổ sung, loại bỏ tập đối tượng, một số thuật toán gia tăng đề xuất sử dụng khoảng cách [20, 21], hạt thông tin [22, 23, 24, 25, 26, 27], ma trận phân biệt [28, 29, 30, 31, 32], miền dương [33, 34, 35], hàm thuộc [36], quan hệ không phân biệt được [37], entropy thông tin [38], độ đo không nhất quán [39], lựa chọn mẫu kích hoạt [40]. Với trường hợp bổ sung, loại bỏ tập thuộc tính, một số thuật toán gia tăng tìm tập rút gọn đã được đề xuất sử dụng miền dương [41], entropy thông tin [42], ma trận phân biệt [43, 44, 45], quan hệ không phân biệt [46, 47], khoảng cách [48], độ phụ thuộc của thuộc tính [49], hạt tri thức [50, 51]. Theo tiếp cận tập thô mờ [1], trong mấy năm gần đây một số thuật toán gia tăng tìm tập rút gọn của bảng quyết định đã được đề xuất với các trường hợp: bổ sung và loại bỏ tập đối tượng [52, 53, 54, 56, 57], bổ sung và loại bỏ tập thuộc tính [58]. Với trường hợp bổ sung, loại bỏ tập đối tượng, Liu và các cộng sự [52] xây dựng công thức gia tăng tính độ phụ thuộc mờ và đề xuất thuật toán giăng FIAT tìm tập rút gọn khi bổ sung tập đối tượng. Yang và các cộng sự [53] xây dựng công thức gia tăng tính quan hệ phân biệt, trên cơ sở đó xây dựng thuật toán gia tăng IARM tìm tập rút gọn khi bổ sung tập đối tượng. Yang và các cộng sự [54] xây dựng cơ chế cập nhật quan hệ phân biệt và đề xuất hai thuật toán IV-FS-FRS-1 và IV-FS-FRS-2 tìm tập rút gọn trong trường hợp bổ sung tập đối tượng. Zhang và các cộng sự [56] đề xuất thuật toán gia
- 3 tăng AIFWAR tìm tập rút gọn sử dụng entropy có điều kiện mở rộng trong trường hợp bổ sung tập đối tượng. Ni và các cộng sự [57] đưa ra khái niệm tập đối tượng chính (key instance set), trên cơ sở đó xây dựng hai thuật toán gia tăng tìm tập rút gọn dựa trên tập đối tượng chính trong trường hợp bổ sung tập đối tượng: thuật toán DIAR sử dụng hàm thuộc mờ và thuật toán PIAR sử dụng miền dương mờ. Với trường hợp bổ sung, loại bỏ tập thuộc tính, các kết quả nghiên cứu về các thuật toán gia tăng tìm tập rút gọn theo tiếp cận tập thô mờ còn hạn chế. Zeng và các cộng sự [58] xây dựng các công thức gia tăng cập nhật độ phụ thuộc mờ trong hệ thông tin hỗn hợp (HIS), trên cơ sở đó đề xuất hai thuật toán gia tăng cập nhật tập rút gọn sử dụng độ phụ thuộc mờ: thuật toán FRSA-IFS-HIS(AA) trong trường hợp bổ sung tập thuộc tính và thuật toán FRSA-IFS-HIS(AD) trong trường hợp loại bỏ tập thuộc tính. Kết quả thực nghiệm trong các công trình nêu trên cho thấy, các thuật toán gia tăng giảm thiểu đáng kể thời gian thực hiện so với các thuật toán không gia tăng. Do đó, chúng có thể thực thi hiệu quả trên các bảng quyết định có kích thước lớn và thay đổi, cập nhật. Tuy nhiên, phần lớn các thuật toán đề xuất đều theo hướng tiếp cận lọc (filter) truyền thống. Với cách tiếp cận này, tập rút gọn tìm được là tập thuộc tính tối thiểu bảo toàn độ đo được xây dựng. Việc đánh giá độ chính xác phân lớp được thực hiện sau khi tìm được tập rút gọn. Vì vậy, tập rút gọn thu được chưa phải là lựa chọn tốt nhất trên hai tiêu chí: số lượng thuộc tính tập rút gọn và độ chính xác phân lớp. Do đó, động lực nghiên cứu của luận án là nghiên cứu, đề xuất các thuật toán gia tăng theo tiếp cận kết hợp filter- wrapper nhằm mục tiêu giảm thiểu số thuộc tính tập rút gọn và cải thiện độ chính xác mô hình phân lớp. 2. Mục tiêu nghiên cứu Nghiên cứu, đề xuất các thuật toán gia tăng tìm tập rút gọn của bảng quyết định thay đổi dựa trên tập thô mờ theo tiếp cận kết hợp filter-wrapper nhằm giảm thiểu số lượng thuộc tính tập rút gọn và cải thiện độ chính xác của mô hình phân lớp, từ đó giảm thiểu độ phức tạp của mô hình khai phá dữ liệu. Với mục tiêu đặt ra, luận án đã thu được các kết quả chính như sau: 1) Đề xuất thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định sử dụng độ đo khoảng cách mờ. Đóng góp này được trình bày ở Chương 2 của luận án.
- 4 2) Đề xuất hai thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyết định thay đổi trong trường hợp bổ sung, loại bỏ tập đối tượng. Đóng góp này được trình bày ở Chương 3 của luận án. 3) Đề xuất hai thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyết định thay đổi trong trường hợp bổ sung, loại bỏ tập thuộc tính. Đóng góp này được trình bày ở Chương 4 của luận án. 3. Đối tượng nghiên cứu của luận án: - Tập thô mờ và các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ - Bảng quyết định thay đổi trong trường hợp bổ sung, loại bỏ tập đối tượng, tập thuộc tính. - Các độ đo được sử dụng trong lý thuyết tập thô mờ, tập trung vào độ đo khoảng cách mờ. 4. Phạm vi nghiên cứu Về lý thuyết: Nghiên cứu các thuật toán heuristic tìm tập rút gọn của bảng quyết định thay đổi (bổ sung, loại bỏ tập đối tượng; bổ sung, loại bỏ tập thuộc tính) sử dụng các độ đo trong tập thô mờ. Về thử nghiệm: Thử nghiệm, so sánh, đánh giá các thuật toán đề xuất với các thuật toán đã công bố trên các bộ dữ liệu mẫu từ kho dữ liệu UCI [59] nhằm đánh giá tính hiệu quả của các thuật toán đề xuất theo các mục tiêu đặt ra. 5. Phương pháp nghiên cứu Nghiên cứu lý thuyết: Tổng hợp các nghiên cứu liên quan về các phương pháp gia tăng rút gọn thuộc tính theo tiếp cận tập thô mờ, trên cơ sở đó phân tích, đánh giá các vấn đề còn tồn tại và xây dựng các đề xuất cải tiến: Cải tiến về độ chính xác mô hình phân lớp và cải tiến về số lượng thuộc tính tập rút gọn, từ đó giảm độ phức tạp của mô hình. Nghiên cứu thực nghiệm: Các thuật toán đề xuất được cài đặt, chạy thử nghiệm, so sánh, đánh giá với các thuật toán khác trên các bộ số liệu mẫu từ kho dữ liệu UCI [59] nhằm minh chứng về tính hiệu quả của các nghiên cứu về lý thuyết.
- 5 6. Nội dung nghiên cứu 1) Nghiên cứu các phương pháp rút gọn thuộc tính trong bảng quyết định dựa trên mô hình tập thô mờ theo tiếp cận kết hợp filter-wrapper. 2) Nghiên cứu các phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận kết hợp filter-wrapper. Bảng quyết định thay đổi trong trường hợp bổ sung, loại bỏ tập đối tượng; bổ sung, loại bỏ tập thuộc tính. 3) Cài đặt, thử nghiệm, so sánh, đánh giá các thuật toán đề xuất với các thuật toán khác đã công bố trên các bộ dữ liệu thử nghiệm từ kho dữ liệu UCI [59]. 7. Ý nghĩa khoa học và thực tiễn Ý nghĩa khoa học: Đề xuất các thuật toán mới tìm tập rút gọn của bảng quyết định theo tiếp cận kết hợp filter-wrapper trong trường hợp bảng quyết định thay đổi. Cụ thể luận án có các kết quả chính như sau: 1) Xây dựng một độ đo khoảng cách mờ và đề xuất thuật toán theo tiếp cận kết hợp filter-wrapper FW_FDBAR tìm tập rút gọn của bảng quyết định sử dụng độ đo khoảng cách mờ. Kết quả thử nghiệm trên các bộ số liệu mẫu từ kho dữ liệu UCI [59] cho thấy, thuật thoán filter-wrapper FW_FDBAR giảm thiểu đáng kể số lượng thuộc tính tập rút gọn và cải thiện độ chính xác mô hình phân lớp so với các thuật toán filter truyền thống khác. 2) Xây dựng các công thức gia tăng tính khoảng cách và đề xuất 04 thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyết định : a. Thuật toán gia tăng filter-wrapper IFW_FDAR_AdObj tìm tập rút gọn trong trường hợp bổ sung tập đối tượng. b. Thuật toán gia tăng filter-wrapper IFW_FDAR_DelObj tìm tập rút gọn trong trường hợp loại bỏ tập đối tượng. c. Thuật toán gia tăng filter-wrapper IFW_FDAR_AA tìm tập rút gọn trong trường hợp bổ sung tập thuộc tính. d. Thuật toán gia tăng filter-wrapper IFW_FDAR_DA tìm tập rút gọn trong trường hợp loại bỏ tập thuộc tính.
- 6 Kết quả thử nghiệm trên các bộ số liệu mẫu từ kho dữ liệu UCI [59] cho thấy, bốn thuật toán đề xuất đều theo tiếp cận kết hợp filter-wrapper, trong đó giai đoạn filter tìm các ứng viên cho tập rút gọn (là các tập thuộc tính bảo toàn độ đo sử dụng), giai đoạn wrapper tìm tập rút gọn có độ chính xác phân lớp cao nhất. Bốn thuật toán đề xuất đều giảm thiểu số thuộc tính tập rút gọn và cải thiện độ chính xác mô hình phân lớp so với các thuật toán được so sánh. Ý nghĩa thực tiễn Các thuật toán đề xuất có thể áp dụng để giải quyết bài toán rút gọn thuộc tính trong các ứng dụng thực tiễn nhằm loại bỏ các thuộc tính dư thừa, nâng cao hiệu quả các mô hình khai phá dữ liệu và học máy, đặc biệt là trong các hệ thống cơ sở dữ liệu trong các lĩnh vực chẩn đoán y tế, tài chính ngân hàng,... 8. Bố cục của luận án Bố cục của luận án gồm: phần mở đầu và bốn chương nội dung, phần kết luận và danh mục các tài liệu tham khảo. Cụ thể như sau: Chương 1 trình bày một số khái niệm cơ bản gồm: tổng quan về rút gọn thuộc tính và về cách tiếp cận filter-wrapper trong rút gọn thuộc tính. Chương 1 cũng trình bày các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ, các nghiên cứu liên quan đến phương pháp gia tăng rút gọn thuộc tính theo tiếp cận tập thô mờ trong mấy năm gần đây. Trên cơ sở đó, luận án phân tích các vấn đề còn tồn tại và nêu rõ các mục tiêu nghiên cứu cùng với tóm tắt các kết quả đạt được. Các kiến thức cơ bản này được sử dụng trong các chương sau, là các đóng góp chính của luận án. Các đóng góp chính của luận án được trình bày trong Chương 2, Chương 3 và Chương 4. Chương 2 trình bày kết quả nghiên cứu về xây dựng độ đo khoảng cách mờ và đề xuất thuật toán kết hợp filter-wrapper FW_FDBAR tìm tập rút gọn của bảng quyết định. Chương 3 và Chương 4 đề xuất các công thức gia tính khoảng cách mờ và vận dụng các khoảng cách này để xây dựng 4 thuật toán gia tăng filter-wrapper; thuật toán gia tăng filter-wrapper thứ nhất tìm tập rút gọn của bảng quyết định trong trường hợp bổ sung tập đối tượng; thuật toán gia tăng filter-wrapper thứ hai tìm tập rút gọn của bảng quyết định trong trường hợp loại bỏ tập đối tượng; thuật toán gia tăng filter-
- 7 wrapper thứ ba tìm tập rút gọn của bảng quyết định trong trường hợp bổ sung tập thuộc tính; thuật toán gia tăng filter-wrapper thứ bốn tìm tập rút gọn của bảng quyết định trong trường hợp loại bỏ tập thuộc tính. Cả bốn thuật toán đề xuất đều sử dụng độ đo khoảng cách mờ đề xuất ở Chương 2 và đều có mục tiêu là giảm thiểu thời gian thực hiện so với thuật toán không gia tăng, nâng cao độ chính xác phân lớp và tối thiểu hóa số lượng thuộc tính tập rút gọn so với các thuật toán gia tăng khác đã công bố. Cuối cùng, phần kết luận nêu những đóng góp của luận án, hướng phát triển và những vấn đề quan tâm của tác giả.
- 8 CHƯƠNG 1. TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH THEO TẬP THÔ MỜ Trong chương này, luận án sẽ trình bày tổng quan về rút gọn thuộc tính, các hướng tiếp cận filter và hướng tiếp cận kết hợp fifter-wrapper trong rút gọn thuộc tính, nhằm rút ra những ưu nhược điểm của các cách tiếp cận trên, từ đó đề xuất hướng tiếp cận phù hợp; trình bày tổng quan lý thuyết tập thô mờ là những khái niệm cơ bản để nghiên cứu vận dụng vào bài toán rút gọn trên tập mờ, là cơ sở nền tảng để đưa ra đề xuất thuật toán rút gọn thuộc tính sử dụng khoảng cách mờ theo tiếp cận filter-wrapper và cũng là căn cứ cơ bản để chúng tôi nghiên cứu và phát triển cho các thuật toán gia tăng rút gọn thuộc tính trong các chương tiếp theo. 1.1. Tổng quan về rút gọn thuộc tính Trong bối cảnh ngày nay, các cơ sở dữ liệu ngày càng gia tăng về dung lượng dữ liệu cũng như số lượng thuộc tính, gây rất nhiều khó khăn cho việc thực thi các thuật toán khai phá dữ liệu. Vấn đề đặt ra là phải tìm cách rút gọn số lượng thuộc tính mà không làm mất mát những thông tin cần thiết phục vụ nhiệm vụ khai phá dữ liệu. Do đó, rút gọn thuộc tính (hay còn gọi là rút gọn chiều – dimension reduction, rút gọn đặc trưng – feature reduction) trở thành đề tài thu hút sự quan tâm của nhiều nhà nghiên cứu trong việc xử lý dữ liệu lớn thuộc các hệ thống Internet of Things (IoT) nơi xuất hiện một lượng lớn dữ liệu ở các dạng và khối lượng khác nhau. Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý dữ liệu với mục tiêu là loại bỏ các thuộc tính dư thừa, không liên quan, chỉ giữ lại các thuộc tính hữu ích nhất từ một tập các thuộc tính ban đầu nhằm tăng tính hiệu quả của các thuật toán khai phá dữ liệu: Gia tăng tốc độ, cải thiện chất lượng và tính dễ hiểu của các kết quả thu được. Các kỹ thuật rút gọn thuộc tính thường được phân thành hai loại: Lựa chọn thuộc tính (Attribute selection) và biến đổi thuộc tính (Attribute transformation). [60] Lựa chọn thuộc tính là chọn một tập con tối tiểu tốt nhất (theo một nghĩa nào đó) từ tập thuộc tính ban đầu của tập dữ liệu. Biến đổi thuộc tính là thực hiện việc biến đổi các thuộc tính ban đầu thành một tập các thuộc tính mới với số lượng ít hơn sao cho bảo tồn được thông tin nhiều nhất.
- 9 Với những cách thực hiện việc rút gọn thuộc tính như trên, trong quá trình phân tích luận án đề xuất nghiên cứu hướng tiếp cận lựa chọn thuộc tính, gọi chung là rút gọn thuộc tính. Các công trình nghiên cứu về rút gọn thuộc tính thường tập trung vào nghiên cứu các kỹ thuật lựa chọn thuộc tính. Lựa chọn thuộc tính là quá trình lựa chọn một tập con gồm P thuộc tính từ tập gồm A thuộc tính (P A) sao cho không gian thuộc tính được thu gọn lại một cách tối ưu theo một tiêu chuẩn nhất định. Việc tìm ra một tập con thuộc tính tốt nhất thường khó thực hiện; bài toán liên quan đến vấn đề này thuộc lớp bài toán NP-khó. Nhìn chung, một thuật toán lựa chọn thuộc tính thường bao gồm bốn khâu cơ bản: (1) Tạo lập tập con; (2) Đánh giá tập con; (3 ) Kiểm tra điều kiện dừng; (4) Kiểm chứng kết quả. Tạo lập tập con thuộc tính là quá trình tìm kiếm liên tiếp nhằm tạo ra các tập con để đánh giá, lựa chọn. Giả sử có A thuộc tính trong tập dữ liệu ban đầu, khi đó số tất cả các tập con từ A thuộc tính sẽ là 2A. Như vậy, rất khó khăn khi tìm tập con tối ưu từ tất cả các tập con này. Phương pháp chung để tìm tập con thuộc tính tối ưu là lần lượt tạo ra các tập con để so sánh. Mỗi tập con sinh ra bởi một thủ tục sẽ được đánh giá theo một tiêu chuẩn nhất định và đem so sánh với tập con tốt nhất trước đó. Nếu tập con này tốt hơn, nó sẽ thay thế tập cũ. Quá trình tìm kiếm tập con thuộc tính tối ưu sẽ dừng khi một trong bốn điều kiện sau xảy ra: - Đã thu được số thuộc tính quy định. - Số bước lặp quy định cho quá trình lựa chọn đã hết. - Việc thêm vào hay loại bớt một thuộc tính nào đó không làm cho một tập con trở nên tốt hơn. - Đã thu được tập con tốt nhất theo tiêu chuẩn đánh giá. Tập con tốt nhất cuối cùng phải được kiểm chứng thông qua việc tiến hành các phép kiểm định, so sánh các kết quả khai phá với tập thuộc tính “tốt nhất” này và tập
- 10 thuộc tính ban đầu trên các tập dữ liệu khác nhau. Quá trình lựa chọn thuộc tính được biểu diễn như hình sau: [60] Hình 1.1 Quy trình rút gọn thuộc tính 1.2. Các hướng tiếp cận filter-wrapper trong rút gọn thuộc tính Hiện nay có hai cách tiếp cận chính đối với bài toán lựa chọn thuộc tính: Lọc (filter) và đóng gói (wrapper), với mỗi hướng tiếp cận có những mục tiêu riêng về giảm số lượng thuộc tính hoặc nâng cao độ chính xác của mô hình phân lớp. Cách tiếp cận kiểu lọc thực hiện việc lựa chọn thuộc tính độc lập với các thuật toán khai phá sử dụng sau này. Các thuộc tính được chọn chỉ dựa trên độ quan trọng của chúng trong việc mô tả dữ liệu. Cách tiếp cận kiểu lọc có ưu điểm là thời gian tính toán nhanh, nhược điểm là không sử dụng thông tin nhãn lớp của các bộ dữ liệu nên độ chính xác không cao Ngược lại với cách tiếp cận lọc, lựa chọn thuộc tính kiểu đóng gói tiến hành việc lựa chọn bằng cách áp dụng ngay kỹ thuật khai phá cụ thể với tập rút gọn vừa thu được, độ chính xác của kết quả được lấy làm tiêu chuẩn để lựa chọn các tập con thuộc tính. Các hướng tiếp cận lọc và đóng gói của bài toán lựa chọn thuộc tính được biểu diễn.[60]
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Luận án Tiến sĩ Máy tính: Một số phương pháp nâng cao hiệu quả dự báo lan truyền thông tin trên mạng xã hội
107 p | 32 | 8
-
Luận án Tiến sĩ Máy tính: Một số mở rộng của hệ suy diễn mờ phức cho bài toán hỗ trợ ra quyết định
143 p | 70 | 7
-
Luận án Tiến sĩ Máy tính: Nghiên cứu, phát triển phương pháp phát hiện và xử lý tấn công hố đen vào giao thức định tuyến RPL
117 p | 19 | 7
-
Luận án Tiến sĩ Máy tính: Nghiên cứu phương pháp phân loại dữ liệu đám mây điểm LiDAR và ứng dụng
350 p | 26 | 7
-
Luận án Tiến sĩ Máy tính: Nghiên cứu phương pháp chuẩn hoá văn bản và nhận dạng thực thể định danh trong nhận dạng tiếng nói tiếng Việt
124 p | 13 | 6
-
Luận án Tiến sĩ Máy tính: Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet
139 p | 11 | 6
-
Luận án Tiến sĩ Máy tính: Nghiên cứu xây dựng hệ thống VSandbox trong phân tích và phát hiện mã độc IoT Botnet
139 p | 25 | 5
-
Luận án Tiến sĩ Máy tính: Một số phương pháp nâng cao độ chính xác dự báo trong mô hình chuỗi thời gian mờ
132 p | 24 | 5
-
Luận án Tiến sĩ Máy tính và Công nghệ thông tin: Một số phương pháp lai gép trong rút gọn thuộc tính theo tiếp cận tập thô mờ
117 p | 20 | 4
-
Luận án Tiến sĩ Máy tính: Một số kỹ thuật nâng cao hiệu quả tra cứu ảnh theo nội dung dựa trên độ đo khoảng cách thích nghi và phân cụm phổ
139 p | 18 | 4
-
Luận án Tiến sĩ Máy tính: Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử
148 p | 26 | 4
-
Tóm tắt Luận án Tiến sĩ Máy tính: Một số kỹ thuật nâng cao hiệu quả tra cứu ảnh theo nội dung dựa trên độ đo khoảng cách thích nghi và phân cụm phổ
24 p | 11 | 2
-
Tóm tắt Luận án Tiến sĩ Máy tính: Nghiên cứu một số kỹ thuật phát hiện va chạm trong vật thể biến dạng và cánh tay cobot
27 p | 4 | 2
-
Tóm tắt luận án Tiến sĩ Máy tính: Khai phá luật quyết định trên mô hình dữ liệu dạng khối
25 p | 18 | 2
-
Tóm tắt luận án Tiến sĩ Máy tính: Khai phá mẫu dãy có trọng số trong cơ sở dữ liệu dãy
26 p | 17 | 2
-
Tóm tắt Luận án Tiến sĩ Máy tính: Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ
27 p | 20 | 2
-
Luận án Tiến sĩ Máy tính: Nghiên cứu một số kỹ thuật phát hiện va chạm trong vật thể biến dạng và cánh tay cobot
114 p | 2 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn