intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận án Tiến sĩ Toán học: Một số phương pháp phân cụm mờ theo nhóm cho bài toán dữ liệu đa nguồn, nhiều đặc trưng

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:155

9
lượt xem
2
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án Tiến sĩ Toán học "Một số phương pháp phân cụm mờ theo nhóm cho bài toán dữ liệu đa nguồn, nhiều đặc trưng" trình bày các nội dung chính sau: Mô hình giải pháp tâm cụm tối ưu cho thuật toán đồng phân cụm mờ cải tiến và thuật toán phân cụm mờ theo nhóm tiếp cận theo hướng phân tích dữ liệu đa nguồn; Đề xuất mô hình phân cụm mờ theo nhóm tiếp cận theo hướng phân tích dữ liệu đa nguồn, gọi là mô hình cải tiến phân cụm mờ theo nhóm đa hàm mục tiêu.

Chủ đề:
Lưu

Nội dung Text: Luận án Tiến sĩ Toán học: Một số phương pháp phân cụm mờ theo nhóm cho bài toán dữ liệu đa nguồn, nhiều đặc trưng

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ ------------------------- LÊ THỊ CẨM BÌNH MỘT SỐ PHƯƠNG PHÁP PHÂN CỤM MỜ THEO NHÓM CHO BÀI TOÁN DỮ LIỆU ĐA NGUỒN, NHIỀU ĐẶC TRƯNG LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội – 2023
  2. BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ ------------------------- LÊ THỊ CẨM BÌNH MỘT SỐ PHƯƠNG PHÁP PHÂN CỤM MỜ THEO NHÓM CHO BÀI TOÁN DỮ LIỆU ĐA NGUỒN, NHIỀU ĐẶC TRƯNG Ngành: Cơ sở toán học cho tin học Mã số: 9 46 01 10 LUẬN ÁN TIẾN SĨ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. PGS.TS. NGÔ THÀNH LONG 2. TS. LÊ XUÂN ĐỨC Hà Nội - 2023
  3. i LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của tôi. Các số liệu, các kết quả trình bày trong luận án hoàn toàn trung thực và chưa từng được ai công bố trong bất kỳ các công trình nào khác, các dữ liệu tham khảo được trích dẫn đầy đủ. Hà Nội, ngày 15 tháng 8 năm 2023 Nghiên cứu sinh Lê Thị Cẩm Bình
  4. ii LỜI CẢM ƠN Luận án này được thực hiện và hoàn thành tại Viện Công nghệ thông tin, Viện Khoa học và Công nghệ quân sự. Trước hết, nghiên cứu sinh xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS Ngô Thành Long và TS Lê Xuân Đức đã định hướng, chỉ bảo và giúp đỡ trong quá trình nghiên cứu và hoàn thành luận án. Tôi xin bày tỏ lời cảm ơn sâu sắc tới lãnh đạo, tập thể cán bộ giảng viên của Viện Khoa học và Công nghệ quân sự, Phòng Đào tạo, Viện Công nghệ thông tin đã tạo điều kiện thuận lợi, hỗ trợ, chia sẻ và giúp đỡ tôi trong thời gian học tập và nghiên cứu tại Viện. Tôi cũng xin gửi lời cảm ơn tới các thành viên nhóm nghiên cứu seminar phân cụm dữ liệu đã tạo ra môi trường trao đổi học thuật thường xuyên và chia sẻ các ý tưởng có giá trị cho các nghiên cứu của luận án. Tôi xin phép được gửi lời cảm ơn chân thành tới lãnh đạo Trường Đại học Văn hóa, các đồng nghiệp tại Khoa Khoa học Cơ bản, Khoa Thông tin, Thư viện đã tạo điều kiện thuận lợi trong quá trình nghiên cứu và làm việc tại Trường. Cuối cùng, xin cảm ơn tới gia đình đã hỗ trợ, động viên và giúp đỡ tôi rất nhiều về tinh thần, vật chất và thời gian để có thể hoàn thành luận án. Nghiên cứu sinh Lê Thị Cẩm Bình
  5. iii MỤC LỤC Trang LỜI CAM ĐOAN .............................................................................................. i LỜI CẢM ƠN ................................................................................................... ii MỤC LỤC ........................................................................................................ iii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT .................................. vi DANH MỤC CÁC BẢNG............................................................................. xiii DANH MỤC CÁC HÌNH VẼ ........................................................................ xv MỞ ĐẦU ........................................................................................................... 1 Chương 1 TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU .................................... 7 1.1. Giới thiệu chung về phân cụm dữ liệu ....................................................................... 7 1.1.1. Định nghĩa ......................................................................................... 7 1.1.2. Phân cụm mờ....................................................................................... 8 1.1.3. Phương pháp đánh giá trong phân cụm ............................................ 10 1.2. Cơ sở toán học của luận án ........................................................................................13 1.2.1. Thuật toán tối ưu bầy đàn ............................................................... 14 1.2.2. Thuật toán đồng phân cụm mờ ......................................................... 17 1.2.3. Mô hình phân cụm mờ theo nhóm .................................................... 19 1.2.4. Tri thức ẩn trong phân cụm dữ liệu................................................... 23 1.2.5. Dữ liệu đa nguồn ............................................................................... 24 1.2.6. Dữ liệu nhiều đặc trưng..................................................................... 28 1.3. Kết luận chương 1 ......................................................................................................29 Chương 2 MỘT SỐ CẢI TIẾN KỸ THUẬT PHÂN CỤM DỮ LIỆU ......... 30 2.1. Đề xuất thuật toán đồng phân cụm mờ sử dụng PSO tối ưu tâm cụm với lớp bài toán dữ liệu nhiều đặc trưng .............................................................................................30 2.1.1. Mô hình toán học tối ưu bầy đàn MPSO .......................................... 31
  6. iv 2.1.2. Mô hình tâm cụm tối ưu OCM.......................................................... 35 2.1.3. Kết quả thực nghiệm ......................................................................... 45 2.2. Thuật toán đồng phân cụm mờ dữ liệu đa nguồn MSFCoC..................................54 2.2.1. Mô hình toán học của MSFCoC ....................................................... 55 2.2.3. Chia sẻ tri thức trong phân cụm dữ liệu đa nguồn ............................ 58 2.2.4. Phương pháp tính toán điều kiện dừng ............................................. 60 2.2.5. Thuật toán MSFCoC ......................................................................... 61 2.2.6. Kết quả thực nghiệm ......................................................................... 62 2.3. Kết luận chương 2 ......................................................................................................75 Chương 3 MÔ HÌNH CẢI TIẾN PHÂN CỤM MỜ THEO NHÓM ĐA HÀM MỤC TIÊU ...................................................................................................... 77 3.1. Mô hình toán học của FOMOCE .............................................................................77 3.1.1. Dữ liệu đầu vào ................................................................................. 79 3.1.2. Bộ phân loại dữ liệu đầu vào ............................................................ 80 3.1.3. Tập phân cụm cơ sở .......................................................................... 81 3.1.4. Bộ liên kết phân cụm cơ sở ............................................................... 82 3.1.5. Mô đun đồng thuận .......................................................................... 83 3.1.6. Mô đun đánh giá kết quả phân cụm ................................................ 84 3.1.7. Sơ đồ mô hình phân cụm theo nhóm FOMOCE ............................ 84 3.2. Tri thức ẩn trong mô hình FOMOCE.......................................................................86 3.2.1. Tri thức ẩn trong mô hình FOMOCE ............................................... 86 3.2.2. Các quy tắc dẫn xuất trong mô hình FOMOCE................................ 91 3.3. Thuật toán FOMOCE ................................................................................................97 3.4. So sánh các mô hình phân cụm theo nhóm .............................................................99 3.5. Một số kết quả thực nghiệm ....................................................................................100 3.5.1. Kết quả thực nghiệm trên các mô hình phân cụm đơn hàm mục tiêu ...... 100
  7. v 3.5.2. Kết quả thực nghiệm trên các mô hình phân cụm đa hàm mục tiêu..... 111 3.6. Kết luận chương 3 ....................................................................................................120 KẾT LUẬN ................................................................................................... 122 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ .............. 124 TÀI LIỆU THAM KHẢO ............................................................................. 125
  8. vi DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT  Hệ số giới hạn chất lượng của giải pháp thông qua hàm thích ứng trong thuật toán PSO  Không gian hoạt động của bầy đàn trong thuật toán PSO M Mô hình toán học của FOMOCE  Số vòng lặp  Hệ số quán tính được sử dụng để điều khiển hành vi của bầy đàn trong thuật toán PSO  Hệ số đại diện cho loại dữ liệu đa nguồn  Phân cụm cơ sở của thuật toán phân cụm theo nhóm u,m entropy của hàm thuộc đối tượng v,m entropy của hàm thuộc đặc trưng Im Chỉ số chất lượng phân cụm trung bình ở phân cụm cơ sở thứ m m ̅ Chỉ số của phân cụm cơ sở tốt nhất A Tập các hàm mục tiêu được sử dụng cho M phân cụm cơ sở trong mô hình FOMOCE A* Hàm đồng thuận trong mô hình FOMOCE Am Vận tốc của các phần tử bầy đàn trong thuật toán PSO B Số các chỉ số đánh giá chất lượng phân cụm cuối cùng trong mô hình FOMOCE C Số cụm dữ liệu C* Tập tâm cụm kết quả cuối cùng trong mô hình FOMOCE
  9. vii Cm Vị trí của các phần tử bầy đàn trong thuật toán PSO CGB Giải pháp tâm cụm tối ưu D Tập đặc trưng của dữ liệu d Phương pháp đo khoảng cách trong phân cụm E Bộ điều kiện dừng của phân cụm cơ sở trong mô hình FOMOCE F Mô đun đồng thuận của mô hình FOMOCE f Hàm thích nghi G Tập tâm cụm gc Tâm cụm thứ c I Dữ liệu đầu vào của bầy đàn trong thuật toán PSO I* Tập chỉ số đánh giá chất lượng phân cụm cuối cùng trong mô hình FOMOCE Im Tập chỉ số đánh giá chất lượng phân cụm ở phân cụm cơ sở thứ m J Hàm mục tiêu của kỹ thuật xử lý dữ liệu K Số đặc trưng của dữ liệu L Bộ liên kết phân cụm cơ sở trong mô hình FOMOCE M Số nguồn của dữ liệu đa nguồn N Số đối tượng dữ liệu O Giải pháp tiềm năng toàn cục trong thuật toán PSO O G Kết quả phân cụm tối ưu toàn cục tại các bước lặp của các phân cụm cơ sở trong mô hình FOMOCE
  10. viii O i Kết quả của các phân cụm cơ sở trong mô hình FOMOCE P Tập các phần tử của bầy đàn trong thuật toán PSO Pcj Đặc trưng thứ j của tâm cụm c PGB Phần tử đại diện cho phần tử tiềm năng tốt nhất của toàn bộ tiến trình hoạt động của bầy đàn. PPB Phần tử đại diện cho phần tử tiềm năng tốt nhất cục bộ tại mỗi bước di chuyển của bầy đàn. Q Bộ phân loại dữ liệu đầu vào trong mô hình FOMOCE q1, q2 Hệ số kiểm soát tốc độ hội tụ của các phần từ theo hướng tốt nhất cục bộ hoặc toàn cục trong thuật toán PSO ℝ Trường số thực r1 , r2 Số ngẫu nhiên phân bố đồng đều trong khoảng từ 0 đến 1 RGB Quy tắc xác định giải pháp tiềm năng toàn cục sau quá trình bầy đàn di chuyển RL Quy tắc xác định và trao đổi tri thức ẩn trong mô hình FOMOCE RPB Quy tắc xác định giải pháp tiềm năng cục bộ tại các bước di chuyển của bầy đàn Rs điều kiện dừng trong mô hình OCM S Bầy đàn trong thuật toán PSO Tu, Tv Các trọng số xác định mức độ mờ U Ma trận hàm thuộc uci Độ thuộc đối tượng của đối tượng dữ liệu thứ i với cụm c
  11. ix V Ma trận hàm thuộc đặc trưng vcj Độ thuộc đặc trưng của chức năng j với cụm c X Tập dữ liệu phân cụm X* Kết quả phân cụm theo nhóm trong mô hình FOMOCE Acc Chỉ số Accuracy (Clustering Accuracy) AR Chỉ số điều chỉnh Rand (Adjusted Rand Index) CCAU thuật toán phân cụm đồng thuận dựa trên các đơn vị cụm (the consensus clustering algorithm based on cluster units) CLARA Phân cụm trong các ứng dụng lớn (Clustering LARge Applications) Co-FCM Phân cụm mờ cộng tác dữ liệu đa khung nhìn (Collaborative Fuzzy C-Means for multiview data) Co-FKM Phân cụm FKM cộng tác dữ liệu đa khung nhìn (Collaborative FKM for multi-view data) Co-FW- Phân cụm mờ cộng tác đa khung nhìn đặc trưng có trọng số MVFCM (Collaborative feature-weighted multi-view fuzzy c-means clustering) CSMSC Phân cụm dữ liệu đa không gian con riêng và nhất quán (Consistent and specific multi-view subspace clustering) DBI Chỉ số Davies–Bouldins (Davies–Bouldins index) EFC Phân cụm mờ theo nhóm (Emsemble Fuzzy Clustering) eFCoC Đồng phân cụm mờ theo nhóm (fuzzy co-clustering ensemble algorithm)
  12. x F1- score Chỉ số F1- score FCCI Thuật toán đồng phân cụm mờ để phân loại ảnh màu (Fuzzy co-clustering algorithm for color image segmentation) FCM Phân cụm mờ (Fuzzy C-Means) FCME Phân cụm mờ theo nhóm sử dụng thuật toán FCM (ensemble of Fuzzy C-Means) FCM-PSO Phân cụm mờ dựa trên thuật toán tối ưu bầy đàn (Fuzzy C- Means based on Particle Swarm Optimization) FCoC Thuật toán Đồng phân cụm mờ (Fuzzy Co-Clustering) FCOCM Thuật toán Đồng phân cụm mờ sử dụng mô hình tối ưu tâm cụm (Fuzzy Co- clustering algorithm by using the Optimal centroids Model) FOMOCE Mô hình phân cụm mờ theo nhóm đa hàm mục tiêu tối ưu dữ liệu đa nguồn (Fuzzy optimized multi-objective clustering ensemble method) IQI Chỉ số chất lượng ảnh (Image Quality Index) IT2FCM Thuật toán phân cụm mờ loại 2 khoảng (Interval type-2 fuzzy clustering algorithm) IVFCoC Đồng phân cụm mờ giá trị khoảng (Interval-valued fuzzy co- clustering algorithm) JFLMSC Kết hợp tính năng theo trọng số chung và học cấu trúc cục bộ cho phân cụm dữ liệu đa không gian con (Joint Featurewise Weighting and Local Structure Learning for Multi-view Subspace Clustering)
  13. xi K-means Phân cụm rõ (K- Means) KM-PSO Phân cụm rõ dựa trên thuật toán tối ưu bầy đàn (K- Means based on Particle Swarm Optimization) LMSC Phân cụm dữ liệu đa không gian con tiềm ẩn (Latent multi- view subspace clustering) minimaxFCM Tối ưu hóa minimax để phân cụm hiệu quả dữ liệu từ nhiều nguồn (minimax optimization for effective clustering of data from multiple sources) MKCE Thuật toán đa phân cụm rõ theo nhóm (multiple K-Means clustering ensemble algorithm) MPSO Mô hình toán học của thuật toán tối ưu bầy đàn (Mathematical models of Particle Swarm Optimization) MSFCoC Thuật toán đồng phân cụm mờ dữ liệu đa nguồn (Multi- source Fuzzy Co-clustering Algorithm) MVFCoC Thuật toán đồng phân cụm dữ liệu đa khung nhìn (Multi-view fuzzy co-clustering algorithm) NMFCM Hệ số hóa ma trận không âm trong phân cụm theo nhóm dựa trên tri thức ẩn (Nonnegative matrix factorization for clustering ensemble based on dark knowledge) nr-IT2FCM phân cụm mờ loại 2 kết hợp thông tin lân cận (interval type- 2 fuzzy set generation is based on the method incorporating neighborhood information) OCM Mô hình tìm tâm cụm tối ưu (Optimal Centroids Model) PC Hệ số phân vùng (Partition Coefficient)
  14. xii PSO Thuật toán tối ưu bầy đàn (Particle Swarm Optimization) Rec & Prec Chỉ số phục hồi và chính xác (Recall and Precision) SACT Thuật toán đánh giá xu hướng cụm theo chỉ số Silhouette (Silhouette-Based Assessment of Cluster Tendency algorithm) WCoFCM Phân cụm mờ cộng tác da khung nhìn có trọng số (Weighted multi-view collaborative fuzzy -means algorithm)
  15. xiii DANH MỤC CÁC BẢNG Trang Bảng 2.1 Thông tin tóm tắt của các tập dữ liệu 45 Bảng 2.2 Bộ giá trị tham số được cài đặt cho các thuật toán phân cụm 47 Bảng 2.3 Các tham số được sử dụng trong các thuật toán PSO 47 Bảng 2.4 Các kết quả phân cụm trên sáu tập dữ liệu tổng hợp 49 Bảng 2.5 Kết quả phân cụm trên các tập dữ liệu nhiều đặc trưng 51 Bảng 2.6 Kết quả phân cụm trên các tập dữ liệu kích thước lớn 53 Bảng 2.7 Thông tin tóm tắt của các tập dữ liệu đa nguồn 62 Bảng 2.8 Kết quả phân cụm của các thuật toán phân cụm đa khung nhìn 65 và thuật toán đơn trên tập dữ liệu Dim-sets. Bảng 2.9 Kết quả phân cụm các thuật toán phân cụm đa khung nhìn và 66 thuật toán đơn trên tập dữ liệu MF-sets Bảng 2.10 Kết quả phân cụm các thuật toán phân cụm đa khung nhìn và 67 thuật toán đơn trên tập dữ liệu PF Bảng 2.11 Kết quả phân cụm của các thuật toán phân cụm đa không gian 69 con và thuật toán phân cụm đơn trên tập dữ liệu IS-sets Bảng 2.12 Kết quả phân cụm của các thuật toán phân cụm đa không gian 70 con và thuật toán phân cụm đơn trên tập dữ liệu HD-sets Bảng 2.13 Kết quả phân cụm của các thuật toán phân cụm đa không gian 71 con và thuật toán phân cụm đơn trên tập dữ liệu LS-sets Bảng 2.14 Kết quả phân cụm và tổng thời gian thực hiện của thuật toán 73 MSFCoC trong hai trường hợp Bảng 2.15 So sánh thời gian thực hiện (giây) của các thuật toán đa khung 73 nhìn và thuật toán đơn trên tập dữ liệu đa khung nhìn Bảng 2.16 So sánh thời gian thực hiện (giây) của các thuật toán trên ba 74 tập dữ liệu đa không gian con
  16. xiv Bảng 3.1 So sánh các đặc điểm của mô hình FOMOCE so với các mô 99 hình phân cụm theo nhóm truyền thống Bảng 3.2 Bảng thông tin tóm tắt của các tập dữ liệu 101 Bảng 3.3 Các kết quả phân cụm của các mẫu quảng cáo nhiều đặc trưng 105 sử dụng các mô hình phân cụm theo nhóm trên tập dữ liệu Farm Ads Bảng 3.4 Các kết quả phân cụm sử dụng mô hình phân cụm theo nhóm 107 trên tập dữ liệu Chess Bảng 3.5 Các kết quả phân cụm sử dụng các mô hình phân cụm theo 108 nhóm trên tập dữ liệu Avila Bảng 3.6 Các kết quả phân cụm sử dụng các mô hình phân cụm theo 109 nhóm trên tập dữ liệu Covertype Bảng 3.7 Thông tin tóm tắt về các tập dữ liệu đa nguồn 111 Bảng 3.8 Kết quả phân cụm trên tập dữ liệu đa nguồn Dim-set 114 Bảng 3.9 Kết quả phân cụm trên tập dữ liệu đa nguồn MF-set 116 Bảng 3.10 Kết quả phân cụm trên tập dữ liệu đa nguồn MF-set 117 Bảng 3.11 Kết quả phân cụm trên tập dữ liệu đa nguồn OR-set 119
  17. xv DANH MỤC CÁC HÌNH VẼ Trang Hình 1.1 Phân loại phân cụm dữ liệu 8 Hình 1.2 Mô hình phân cụm theo nhóm truyền thống 22 Hình 1.3 Ví dụ tập dữ liệu đa khung nhìn 27 Hình 1.4 Ví dụ tập dữ liệu đa không gian con 28 Hình 2.1 Sơ đồ chức năng của MPSO 34 Hình 2.2 Sơ đồ thuật toán FCOCM 43 Hình 2.3 Phân bố của sáu tập dữ liệu tổng hợp 48 Hình 3.1 Sơ đồ mô đun hóa mô hình FOMOCE 79 Hình 3.2 Sơ đồ mô hình phân cụm theo nhóm FOMOCE 85
  18. xvi DANH MỤC CÁC THUẬT TOÁN Trang Thuật toán 1.1 Thuật toán phân cụm mờ FCM 10 Thuật toán 1.2 Thuật toán Tối ưu bầy đàn PSO 16 Thuật toán 1.3 Thuật toán đồng phân cụm mờ FCoC 18 Thuật toán 2.1 Thuật toán tính hàm mục tiêu 𝒇(𝝉) 39 𝒎 Thuật toán 2.2 Thuật toán OCM 42 Thuật toán 2.3 Thuật toán FCOCM 44 Thuật toán 2.4 Thuật toán MSFCoC 61 Thuật toán 3.1 Thuật toán phân cụm mờ theo nhóm FOMOCE 97
  19. 1 MỞ ĐẦU 1. Tính cấp thiết của đề tài luận án Tốc độ phát triển đột phá của công nghệ số trong những năm gần đây như điện thoại thông minh, điện toán đám mây, Internet vạn vật, mạng xã hội, các dịch vụ online,… đã phát sinh một lượng dữ liệu ngày càng lớn và phức tạp. Trong số đó, dữ liệu được thu thập từ nhiều nguồn khác nhau hoặc có nhiều đặc trưng có những đặc điểm rất khác biệt so với dữ liệu truyền thống. Các nguồn dữ liệu này cung cấp các thông tin hữu ích nếu được khai thác một cách hiệu quả. Vì vậy, vấn đề nghiên cứu và hoàn thiện phương pháp khai phá dữ liệu trên các nguồn dữ liệu phức tạp này luôn là bài toán cần thiết và có phạm vi ảnh hưởng mạnh mẽ, có ý nghĩa to lớn và thực tiễn. Hiện nay phân cụm dữ liệu là một trong những kỹ thuật quan trọng trong lĩnh vực khai phá dữ liệu nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn trong tập dữ liệu không gán nhãn, từ đó cung cấp thông tin, tri thức hữu ích cho việc ra quyết định. Do đó, phân cụm dữ liệu là một bước tiền xử lý quan trọng, được sử dụng rộng rãi trong các ứng dụng như truy xuất thông tin, xử lý hình ảnh, học máy, nhận dạng mẫu, phân tích hình ảnh, tin sinh học, nén dữ liệu, chẩn đoán, đồ họa máy tính,... Tuy nhiên, khi áp dụng các kỹ thuật phân cụm dữ liệu truyền thống đối với dữ liệu đa nguồn và nhiều đặc trưng- vốn có tính chất phức tạp hơn so với dữ liệu truyền thống thì các kỹ thuật này trở nên kém hiệu quả, khó khăn, hoặc thậm chí là không thể thực hiện được do loại dữ liệu này tiềm ẩn một số thách thức, đòi hỏi năng lực xử lý tốt đối với các tính chất của nó như kích thước lớn hay tính đa dạng của dữ liệu,… Do đó, chúng không thể đáp ứng nhu cầu hiện tại của các ứng dụng sử dụng dữ liệu đa nguồn và nhiều đặc trưng. Trong xu hướng này, nhiều nhà khoa học đã và đang tập trung nghiên cứu, phát triển các kỹ thuật phân cụm cho dữ liệu đa nguồn, thể hiện trong một số công trình nghiên cứu đã công bố như: Thuật toán phân cụm đa khung nhìn không gian
  20. 2 con [61], thuật toán phân cụm đa khung nhìn sử dụng hệ số ma trận không âm [14], [84], kỹ thuật phân cụm đa khung nhìn dựa trên phổ [60], và nhiều công trình khác. Tuy nhiên, hầu như tất cả các công trình hiện tại đều xem xét các nguồn sử dụng chung một hàm mục tiêu phân cụm, gọi là các thuật toán phân cụm dữ liệu đa nguồn đơn hàm mục tiêu. Các mẫu giữa các nguồn khác nhau có mối quan hệ một-một cho dù đối với dữ liệu hoàn chỉnh hay đối với một vài phần của dữ liệu. Ngoài ra, mối quan hệ ánh xạ phức tạp giữa các nguồn dữ liệu cũng chưa được xem xét đầy đủ. Đối với lĩnh vực nghiên cứu phân cụm dữ liệu có kích thước lớn, nhiều đặc trưng, mỗi nguồn dữ liệu thường liên quan đến số lượng lớn các đặc điểm khác nhau. Các thành phần có đặc điểm dữ liệu khác nhau từ các nguồn khác nhau có số đặc trưng khác nhau. Vì vậy, trong quá trình phân cụm, cần xem xét tầm quan trọng khác nhau của các đặc điểm ở mỗi nguồn dữ liệu. Nghiên cứu trong [30] đã đề xuất một lược đồ trọng số đặc trưng với với kỹ thuật giảm đặc trưng cho FCM đơn nguồn nhưng không sử dụng quy trình trọng số đặc trưng cho dữ liệu đa nguồn. Gần đây, [47] đề xuất một cơ chế trọng số đặc trưng mới cho MVFCM dựa trên phương pháp học cộng tác có thể giúp xác định tầm quan trọng khác nhau của các đặc trưng trong mỗi nguồn dữ liệu. Sau đó tự động loại bỏ các thành phần đặc trưng trọng số nhỏ để nâng cao hiệu suất phân cụm. Bên cạnh đó, để đạt được kết quả phân cụm có độ chính xác cao hơn và mạnh hơn đối với các loại dữ liệu này, các nghiên cứu gần đây đã thực hiện một số mô hình phân cụm theo nhóm cho dữ liệu đa nguồn, thể hiện trong một số công trình nghiên cứu đã công bố liên quan đến chủ đề này như [64] và [79]. Một số cải tiến phân cụm theo nhóm gần đây như nghiên cứu trong [1] đề xuất phân cụm mờ theo nhóm dựa trên độ tin cậy sử dụng thuật toán FCM để phân cụm cơ sở, [18] dựa trên K- Means và FCM để phân cụm rõ và phân cụm mờ trên tập dữ liệu có kích thước lớn, [72] đề xuất NMFCE dựa trên tri thức ẩn nhằm trích xuất được nhiều thông tin hơn từ dữ liệu, đơn giản hơn và phù hợp với dữ liệu có qui mô lớn.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
8=>2