Tóm tắt Luận án Tiến sĩ Khoa học máy tính: Nghiên cứu phát triển phương pháp phân cụm bán giám sát mờ an toàn ứng dụng cho bài toán quản lý cảng biển
lượt xem 7
download
Tóm tắt Luận án Tiến sĩ Khoa học máy tính "Nghiên cứu phát triển phương pháp phân cụm bán giám sát mờ an toàn ứng dụng cho bài toán quản lý cảng biển" được nghiên cứu với mục tiêu là: Tổng quan về phân cụm bán giám sát mờ và quản lý cảng biển; Phương pháp phân cụm bán giám sát mờ an toàn mới cho phân vùng dữ liệu với độ tin cậy; Phương pháp phân cụm bán giám sát mờ an toàn mới trên tập mờ viễn cảnh cho phân vùng dữ liệu với độ tin cậy và dữ liệu nhiễu.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Tóm tắt Luận án Tiến sĩ Khoa học máy tính: Nghiên cứu phát triển phương pháp phân cụm bán giám sát mờ an toàn ứng dụng cho bài toán quản lý cảng biển
- ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ——————–o0o——————– PHÙNG THẾ HUÂN NGHIÊN CỨU PHÁT TRIỂN PHƯƠNG PHÁP PHÂN CỤM BÁN GIÁM SÁT MỜ AN TOÀN ỨNG DỤNG CHO BÀI TOÁN QUẢN LÝ CẢNG BIỂN Chuyên ngành: Khoa học máy tính Mã số: 9. 48. 01. 01 TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN - NĂM 2023
- Công trình được hoàn thành tại: Trường Đại học Công nghệ Thông tin và Truyền thông - Đại học Thái Nguyên Người hướng dẫn khoa học: 1. TS. Vũ Đức Thái 2. PGS. TS. Lê Hoàng Sơn Phản biện 1: ......................................................................... Phản biện 2: ......................................................................... Phản biện 3: ......................................................................... Luận án được bảo vệ trước Hội đồng chấm luận án cấp Trường họp tại ........................................ Vào hồi . . . giờ . . . ngày . . . tháng . . . năm . . . Có thể tìm hiểu luận án tại: - Trung tâm Số - Đại học Thái Nguyên - Thư viện Trường ĐH Công nghệ Thông tin và Truyền thông - ĐHTN.
- Mở đầu 1. Tính cấp thiết của luận án Một trong những hướng nghiên cứu về phân cụm bán giám sát đang được quan tâm hiện nay đó là phân cụm bán giám sát mờ an toàn (hay còn gọi là phân cụm dữ liệu theo độ tin cậy). Các phương pháp hiện tại đạt hiệu suất tốt về độ chính xác phân cụm nhưng thường mất nhiều thời gian tính toán. Do đó, nhằm nâng cao hiệu suất phân cụm, trong phạm vi luận án này nghiên cứu một số vấn đề như sau: • Nghiên cứu đề xuất phương pháp phân cụm bán giám sát mờ an toàn mới cho phân vùng dữ liệu với độ tin cậy có hiệu suất phân cụm tốt và thời gian tính toán tốt. • Nghiên cứu đề xuất phương pháp phân cụm bán giám sát mờ an toàn mới trên tập mờ viễn cảnh cho phân vùng dữ liệu với độ tin cậy và dữ liệu nhiễu. • Nghiên cứu đề xuất phương pháp phân cụm bán giám sát mờ an toàn mới với nhiều tham số mờ cho phân vùng dữ liệu với độ tin cậy xử lý thông tin nhiễu. Trong bài toán quản lý cảng biển, quá trình phát hiện tàu đóng vai trò quan trọng trong việc giám sát và quản lý cảng biển như trong giao thông hàng hải và an toàn tàu biển, nâng cao hiệu quả khai thác cảng. Khó khăn trong quá trình phát hiện tàu biển bao gồm hạn chế với quy mô hình ảnh tàu nhỏ và chứa nhiễu. Ảnh vệ tinh được thu thập rất xa so với mực nước biển nên chất lượng hình ảnh thấp do đó dẫn đến tàu trên biển có thể bị nhận dạng nhầm thành các ngọn hải đăng hay các hòn đảo, v.v. Từ đó dẫn đến yêu cầu giải quyết bài toán phân cụm bán giám sát với thông tin chưa đảm bảo độ tin cậy, trong đó có các thông tin bổ trợ chưa đúng (dữ liệu nhiễu, dữ liệu bị gán nhãn sai). 1
- 2. Bố cục của luận án • Mở đầu: Trình bày tính cấp thiết của đề tài; mục tiêu nghiên cứu; phương pháp và dữ liệu nghiên cứu; bố cục của luận án. • Chương 1: Trình bày tổng quan về phân cụm bán giám sát mờ và quản lý cảng biển. Tập mờ và mở rộng, một số hướng tiếp cận trong phân cụm bán giám sát mờ gần đây và ứng dụng trong bài toán quản lý cảng biển, dữ liệu thực nghiệm và đánh giá hiệu năng thuật toán. • Chương 2: Trình bày kết quả nghiên cứu về phương pháp phân cụm bán giám sát mờ an toàn mới cho phân vùng dữ liệu với độ tin cậy. Các nội dung chính bao gồm: ý tưởng thuật toán, chi tiết thuật toán, kết quả thực nghiệm trên bộ dữ liệu UCI. • Chương 3: Trình bày kết quả nghiên cứu về phương pháp phân cụm bán giám sát mờ an toàn mới trên tập mờ viễn cảnh cho phân vùng dữ liệu với độ tin cậy và dữ liệu nhiễu. Các nội dung chính bao gồm: ý tưởng thuật toán, chi tiết thuật toán, kết quả thực nghiệm trên bộ dữ liệu UCI và ODDS. • Chương 4: Trình bày kết quả nghiên cứu hai phương pháp phân cụm bán giám sát mờ theo hướng tiếp cận đa tham số mờ. Thứ nhất, đề xuất một phương pháp phân cụm bán giám sát mờ với nhiều tham số mờ dựa trên sự cải tiến của phương pháp phân cụm mờ với nhiều tham số mờ. Thứ hai, đề xuất một phương pháp phân cụm bán giám sát mờ an toàn với nhiều tham số mờ, phương pháp này có ý tưởng từ sự kết hợp giữa phương pháp phân cụm bán giám sát mờ an toàn với phương pháp phân cụm bán giám sát mờ với nhiều tham số mờ để phân vùng dữ liệu với độ tin cậy và dữ liệu nhiễu. Các nội dung trình bày với các thuật toán bao gồm: ý tưởng thuật toán, chi tiết thuật toán, kết quả thực nghiệm trên bộ dữ liệu UCI và ODDS. • Kết luận: Trình bày các kết quả thu được của luận án. 2
- Chương 1 Tổng quan về phân cụm bán giám sát mờ và ứng dụng trong bài toán quản lý cảng biển Trong chương này trình bày tổng quan về phân cụm bán giám sát mờ và quản lý cảng biển. Các kiến thức cơ sở phục vụ cho luận án được trình bày cụ thể làm nền tảng để phát triển các thuật toán ở các chương sau như: tập mờ và mở rộng, phân cụm mờ, phân cụm bán giám sát mờ. Ngoài ra, trong chương này cũng trình bày về một số tiếp cận phân cụm bán giám sát mờ gần đây như: phân cụm bán giám sát mờ an toàn, phân cụm bán giám sát mờ trên tập mờ nâng cao, phân cụm bán giám sát mờ với nhiều tham số mờ. Cũng trong chương này, lĩnh vực ứng dụng phương pháp phân cụm bán giám sát mờ trong quản lý cảng biển cũng được trình bày. 1.1 Tổng quan về phân cụm bán giám sát mờ 1.1.1 Tập mờ và mở rộng Định nghĩa 1.1. Một tập mờ (FS) trong một tập nền khác rỗng X được ˙ ký hiệu là A và định nghĩa như sau: ˙ A = {(x, µA (x)) |∀x ∈ X, µA (x) ∈ [0, 1]} ˙ ˙ (1.1) Trong đó µA (x) là độ thuộc của x ∈ X. ˙ Tập mờ viễn cảnh (PFS) được tác giả Bùi Công Cường đưa ra lần đầu vào năm 2014, mở rộng trực tiếp từ tập mờ trực cảm. Định nghĩa 1.2. Một tập mờ viễn cảnh trong một tập nền khác rỗng X được ký hiệu là A và định nghĩa như sau: A = {(x, µA (x), ηA (x), γA (x)) |x ∈ X} (1.2) 3
- Trong đó µA (x) là độ khẳng định của mỗi phần tử x ∈ N , ηA (x) là độ trung lập (do dự) và γA (x) là độ phủ định thoả mãn các ràng buộc: 0 ≤ µA (x), ηA (x), γA (x) ≤ 1, 0 ≤ µA (x) + ηA (x) + γA (x) ≤ 1 (1.3) Độ từ chối của một phần tử được tính như sau: ξA (x) = 1 − (µA (x) + ηA (x) + γA (x)) (1.4) Nếu ξA (x) = ηA (x) = 0 thì tập mờ viễn cảnh trở thành tập mờ thường. 1.1.2 Phân cụm mờ Fuzzy C-Means (FCM) là thuật toán phân cụm mờ nổi tiếng nhất được đề xuất bởi Bezdek. Phương pháp này dựa trên việc tối ưu hóa khoảng cách giữa các điểm dữ liệu tới tâm cụm. 1.1.3 Phân cụm bán giám sát mờ Semi-Supervised Fuzzy C-means (SSFCM) là phương pháp phân cụm bán giám sát mờ được đề xuất bởi Pedrycz and Waletzky. Trong hàm mục tiêu của phương pháp SSFCM bao gồm hai thành phần: Thành phần thứ nhất là thành phần học không giám sát và thành phần thứ hai là thành phần học có giám sát. 1.2 Một số tiếp cận trong phân cụm bán giám sát mờ gần đây 1.2.1 Phân cụm bán giám sát mờ an toàn Ý tưởng chính của phương pháp phân cụm bán giám sát mờ an toàn có trọng số tin cậy (CS3FCM) là mỗi một phần tử khác nhau thì có một mức độ ảnh hưởng khác nhau đến hiệu suất phân cụm. 1.2.2 Phân cụm bán giám sát mờ trên tập mờ nâng cao Trong một nghiên cứu gần đây, các tác giả đã đề xuất một thuật toán phân cụm mờ viễn cảnh FC-PFS (Fuzzy Clustering on Picture Fuzzy Set) dựa vào ý tưởng của thuật toán nhằm thiết kế hàm mục tiêu bao gồm 2 thành phần: tổng khoảng cách của các điểm dữ liệu đến các tâm cụm và đại lượng entropy. 4
- 1.2.3 Phân cụm bán giám sát mờ với nhiều tham số mờ Trong một nghiên cứu gần đây, các tác giả đã đề xuất phương pháp phân cụm mờ với nhiều tham số mờ MC-FCM (Multiple fuzzification Coefficients Fuzzy C–means), trên cơ sở cải tiến thuật toán FCM với các tham số mờ khác nhau cho từng phần tử trong tập dữ liệu. Tham số mờ của một phần tử cụ thể được tính toán dựa trên sự phân bố giữa phần tử đó và các phần tử xung quanh để nâng cao chất lượng của cụm. 1.2.4 Nhận xét về các nghiên cứu liên quan Phương pháp phân cụm bán giám sát mờ an toàn có trọng số tin cậy (CS3FCM) có hiệu suất phân cụm tốt hơn so với các phương pháp FCM, SSFCM. Tuy nhiên, phương pháp này có bất lợi về thời gian chạy so với các phương pháp trước đó do quá trình kiểm tra và cập nhật các nhãn của các điểm dữ liệu. Phương pháp phân cụm bán giám sát mờ trên tập mờ viễn cảnh (FC-PFS) có hiệu suất phân cụm tốt hơn so với các phương pháp FCM, SSFCM và CS3FCM, đặc biệt đối với dữ liệu chứa nhiễu. Tuy nhiên, trong cách tiếp cận này cũng chưa giải quyết được vấn đề phân cụm dữ liệu theo độ tin cậy và dữ liệu nhiễu. Trong phương pháp phân cụm mờ với nhiều tham số mờ (MC-FCM), số lượng tham số mờ bằng với số lượng mẫu trong bộ dữ liệu dẫn đến độ phức tạp cao và thời gian tính toán lớn. Mặt khác, phương pháp này chưa đề cập đến yếu tố bán giám sát và vấn đề phân cụm dữ liệu theo độ tin cậy. 1.3 Ứng dụng phân cụm bán giám sát mờ trong bài toán quản lý cảng biển 1.3.1 Giới thiệu bài toán quản lý cảng biển Trên thế giới và Việt Nam hiện nay, vấn đề giải quyết bài toán quản lý cảng biển đang nhận được nhiều sự quan tâm từ phía các nhà nghiên cứu. Với sự phát triển của ngành vận tải biển, số lượng tàu và số lượng hàng hóa cập cảng là rất lớn. Do đó, yêu cầu cấp thiết cần đặt ra đó là phát hiện tàu trên biển để hỗ trợ quá trình giao thông tàu, cứu hộ hàng hải, vận chuyển hàng hóa và xây dựng hệ thống an ninh quốc phòng. 5
- Ảnh vệ tinh được chụp từ khoảng cách rất xa trái đất nên mặc dù có độ phân giải cao nhưng ảnh vệ tinh thường có mục tiêu nhỏ, thưa thớt, có thể chứa nhiễu và nhiều thông tin dễ gây nhầm lẫn, do đó việc sử dụng các phương pháp phân cụm mờ để giải quyết bài toán phát hiện tàu biển từ ảnh vệ tinh là một hướng nghiên cứu đáng được lưu tâm. Các phương pháp này thường đem lại kết quả nhận dạng tương đối tốt, tuy nhiên vẫn còn nhạy cảm với các ngoại lệ và các thông tin không chắc chắn. Trong phạm vi của luận án này nghiên cứu sử dụng phân cụm mờ để phát triển các phương pháp phát hiện tàu biển từ ảnh vệ tinh dựa trên các thông tin về độ tin cậy, nhằm đem lại hiệu quả phát hiện tàu tốt trong bài toán quản lý cảng biển. 1.3.2 Nhận xét chung Trong kỹ thuật tách ngưỡng, sẽ rất khó khăn trong trường hợp sự tương phản giữa hình ảnh con tàu với nền là thấp, rất khó xác định một ngưỡng thích hợp. Các thuật toán học sâu có vấn đề đối với bộ dữ liệu nhỏ nên cần bộ dữ liệu đủ lớn để thực hiện các mô hình. Khi bộ dữ liệu lớn thì đòi hỏi độ phức tạp tính toán và thời gian xử lý lâu. Đây là một hạn chế đối với quá trình phát hiện tàu biển. Mặt khác, các nghiên cứu trước đây vẫn chưa xử lý vấn đề phân vùng với dữ liệu theo độ tin cậy hoặc dữ liệu nhiễu; đa số các phương pháp đều thực hiện trên tập mờ thường hoặc số ít thực hiện trên tập mờ trực cảm và hầu hết các phương pháp này đều chủ yếu tập trung vào việc sửa đổi các phần tử đại diện trong cụm mà không thay đổi việc sử dụng tham số mờ. Do đó, luận án này đề xuất một số phương pháp phân cụm bán giám sát mờ mới, cụ thể như sau: Đề xuất một thuật toán phân cụm bán giám sát mờ an toàn trong phân vùng dữ liệu có độ tin cậy và dữ liệu có chứa nhiễu; đề xuất một thuật toán phân cụm bán giám sát mờ an toàn dựa trên tập mờ viễn cảnh; cuối cùng đề xuất một thuật toán phân cụm bán giám sát mờ an toàn với nhiều tham số mờ để xử lý dữ liệu có chứa nhiễu. Các thuật toán này được ứng dụng cho phát hiện tàu biển từ ảnh vệ tinh, phục vụ cho bài toán quản lý cảng biển. 6
- Chương 2 Đề xuất phương pháp phân cụm bán giám sát mờ an toàn Chương này trình bày kết quả nghiên cứu về phương pháp phân cụm bán giám sát mờ an toàn mới (TS3FCM) cho phân vùng dữ liệu với độ tin cậy. Các nội dung bao gồm: sơ đồ và chi tiết thuật toán, kết quả thực nghiệm trên bộ dữ liệu UCI và kết quả thực nghiệm trên bộ dữ liệu ảnh vệ tinh ứng dụng phát hiện tàu biển. Kết quả thu được cho thấy hiệu năng của phương pháp đề xuất so với các phương pháp liên quan. 2.1 Giới thiệu Phân cụm bán giám sát mờ an toàn là vấn đề phân cụm bán giám sát mờ với thông tin chưa đảm bảo độ tin cậy, trong đó có thể chứa các thông tin bổ trợ chưa chính xác như dữ liệu nhiễu hoặc dữ liệu bị gán nhãn sai. Thuật toán sẽ tiến hành kiểm tra đối chiếu nhãn của các điểm dữ liệu trước và sau khi phân cụm, nếu các nhãn này giống nhau thì điểm dữ liệu có độ tin cậy cao và nếu các nhãn này khác nhau thì điểm dữ liệu có độ tin cậy thấp. 2.2 Chi tiết thuật toán TS3FCM Thuật toán TS3FCM được đề xuất bao gồm 3 bước, cụ thể như sau: • Bước 1. Phân cụm mờ cho dữ liệu được gán nhãn: Sử dụng thuật toán cải tiến của FCM để chia các điểm dữ liệu được gán nhãn thành các cụm, với trọng số mới dựa trên các vùng lân cận được gán nhãn và chưa được gán nhãn. Để thực hiện điều này, hàm mục tiêu của thuật toán FCM được sửa đổi để xem xét trọng số của mỗi điểm dữ liệu được gán nhãn. 7
- L C n1i + n2i m 2 J(u,d) = u d → M in (2.1) i=1 j=1 n3i + 1 ij ij Với các ràng buộc: uij ∈ [0, 1] ; i = 1, . . . , L, j = 1, . . . , C (2.2) C uij = 1; i = 1, . . . , L (2.3) j=1 Sử dụng phương pháp Lagrange, các tâm cụm và độ thuộc của bài toán tối ưu (4.5-4.7) được tính toán như sau: Ln1i + n2i m u Xi n3i + 1 ij Vj = i=1 L n +n ; j = 1, . . . , C (2.4) 1i 2i m uij i=1 n3i + 1 1 uij = 2 ; i = 1, . . . , L; j = 1, . . . , C (2.5) C dij m−1 k=1 dik Trong mỗi lần lặp, sau khi tính toán các độ thuộc như trong công thức (2.5), thuật toán tiến hành gán các điểm dữ liệu về cho các cụm. Trong trường hợp dữ liệu được gán nhãn không chính xác (nhãn thu được sau khi phân cụm theo thuật toán trên khác với nhãn ban đầu), thì độ thuộc uij được thay đổi tương ứng theo công thức (2.6). uij nếu cụm j và Xi có cùng nhãn uij = 2 uik uij + nếu j ̸= k và cụm k và Xi có cùng nhãn 2(C − 1) (2.6) • Bước 2. Chuyển đổi dữ liệu: Từ kết quả đầu ra của Bước 1 thu được các tâm cụm của dữ liệu được gán nhãn và sử dụng chúng làm tâm cụm ban đầu cho các điểm dữ liệu chưa được gán nhãn. 8
- Sử dụng FCM cho dữ liệu chưa được gán nhãn để thu được các giá trị độ thuộc của chúng. Kết hợp các giá trị độ thuộc của cả dữ liệu được gán nhãn và chưa được gán nhãn tạo nên các giá trị độ thuộc đầu vào (U ) cho tất cả các điểm dữ liệu của bước tiếp theo. • Bước 3. Phân cụm bán giám sát mờ cho toàn bộ dữ liệu: Sử dụng một thuật toán phân cụm bán giám sát mờ để phân cụm dữ liệu. Đầu vào của bước này là các giá trị độ thuộc ban đầu (U ) từ bước Chuyển đổi dữ liệu và các tham số. Thiết lập hàm mục tiêu của phương pháp như sau: N C N C 2 J(u,d) = u2 d2 + λ ij ij (uij − uij ) d2 → M in ij (2.7) i=1 j=1 i=1 j=1 Và các ràng buộc: uij ∈ [0, 1] ; i = 1, . . . , N ; j = 1, . . . , C (2.8) C uij = 1; i = 1, . . . , N (2.9) j=1 Bằng cách sử dụng phương pháp Lagrange và giải thuật Gradient, thu được kết quả như sau: N 2 u2 + λ(uij − uij ) ij Xi i=1 Vj = N ; j = 1, . . . , C (2.10) 2 u2 + λ(uij − uij ) ij i=1 C 1+λ−λ uik k=1 λuij uij = 2 − ; i = 1, . . . , N ; j = 1, . . . , C (2.11) C dij 1+λ (1 + λ) k=1 dik Sơ đồ thuật toán TS3FCM được mô tả trong Hình 4.3 dưới đây. 9
- Hình 2.1: Sơ đồ thuật toán đề xuất TS3FCM 2.3 Kết quả thực nghiệm 2.3.1 Thực nghiệm trên bộ dữ liệu UCI Phương pháp đề xuất được so sánh với các phương pháp liên quan như FCM, SSFCM và CS3FCM theo 2 trường hợp, đó là: i) Trường hợp 1: Thiết lập các giá trị độ thuộc thấp đối với dữ liệu được gán nhãn có ảnh hưởng nhỏ; ii) Trường hợp 2: Thiết lập giá trị độ thuộc bằng không (loại bỏ) đối với dữ liệu được gán nhãn có ảnh hưởng nhỏ. Thực nghiệm trên bộ dữ liệu UCI cho thấy phương pháp đề xuất có hiệu suất tốt so với các phương pháp liên quan. Cụ thể như sau: 10
- • Về thời gian tính toán, thuật toán TS3FCM tốt hơn CS3FCM với 13/20 lần được xác minh qua 2 trường hợp. • Về độ chính xác phân cụm, TS3FCM tốt hơn các thuật toán CS3FCM và SSFCM với 8/20 lần. • Về chất lượng phân cụm, TS3FCM cũng có kết quả tương đối tốt trong 2 trường hợp, đặc biệt với chỉ số ASWC tốt hơn khoảng 12/20 lần so với các thuật toán CS3FCM, SSFCM và FCM 2.3.2 Thực nghiệm trên bộ dữ liệu ảnh vệ tinh tàu biển SIDS Các ảnh kết quả thu được sau khi chạy 2 thuật toán TS3SFCM và CS3FCM cho 02 ảnh gốc (ảnh 1 và ảnh 2): Hình 2.2: Kết quả phân cụm ảnh 1 Hình 2.3: Kết quả phân cụm ảnh 2 11
- Chương 3 Đề xuất phương pháp phân cụm bán giám sát mờ an toàn trên tập mờ viễn cảnh Chương này trình bày kết quả nghiên cứu về một thuật toán phân cụm bán giám sát mờ an toàn mới trên tập mờ viễn cảnh (PTS3FCM) cho phân vùng dữ liệu với độ tin cậy và dữ liệu nhiễu. Các nội dung bao gồm: sơ đồ và chi tiết thuật toán, kết quả thực nghiệm trên bộ dữ liệu UCI và kết quả thực nghiệm trên bộ dữ liệu ảnh vệ tinh ứng dụng phát hiện tàu biển. Kết quả thu được cho thấy hiệu năng của phương pháp đề xuất so với các phương pháp liên quan. 3.1 Giới thiệu Phương pháp PTS3FCM được đề xuất dựa trên ý tưởng kết hợp phân cụm bán giám sát mờ an toàn và tập mờ viễn cảnh, với hàm mục tiêu mới bao gồm bốn thành phần chính. Thành phần đầu tiên nhằm giảm thiểu khoảng cách giữa các điểm dữ liệu và tâm cụm thông qua độ mờ viễn cảnh. Thành phần thứ hai nhằm xử lý dữ liệu nhiễu bằng cách tích hợp đại lượng entropy giữa các độ do dự và độ từ chối của mô hình tập mờ viễn cảnh. Thành phần thứ ba và thứ tư nhằm mục đích phối hợp phân cụm bán giám sát mờ an toàn với dữ liệu có nhãn và chưa được gán nhãn để xử lý vấn đề về độ tin cậy dữ liệu. 3.2 Chi tiết thuật toán PTS3FCM Thuật toán đề xuất PTS3FCM được xây dựng với hàm mục tiêu bao gồm bốn thành phần, cụ thể như sau: N C N C 2 J(µ,ξ,η,d) = (µij (2 − ξij )) d2 + ij ηij (log ηij + ξij )+ i=1 j=1 i=1 j=1 12
- L C 2 (µij (2 − ξij ) − fij ) 2 2 dij + i=1 j=1 1 + (µij (2 − ξ ij ) − fij ) N C 2 (µij (2 − ξij )) 2 dij → M in (3.1) 1 + ξij i=L+1 j=1 Với các ràng buộc: µij + ηij + ξij ≤ 1 (3.2) C ξij (ηij + )=1 (3.3) j=1 C C (µij (2 − ξij )) = 1 (3.4) j=1 i = 1, . . . , N Trong đó: N C 2 • Thành phần thứ nhất (µij (2 − ξij )) d2 đại diện cho phân ij i=1 j=1 cụm mờ viễn cảnh. N C • Thành phần thứ hai ηij (log ηij + ξij ) đại diện cho thông tin i=1 j=1 entropy giúp giảm nhiễu của dữ liệu thông qua các độ do dự và từ chối của một điểm dữ liệu. L C 2 (µij (2 − ξij )fij ) • Thành phần thứ ba là thành phần 2 2 dij 1 + (µij (2 − ξ ij )fij ) i=1 j=1 đại diện cho các điểm dữ liệu được gán nhãn với (i = 1, . . . , L) trong đó L là số điểm dữ liệu được gán nhãn. Phần tử số (µij (2 − ξij )fij )2 mô tả phân cụm bán giám sát mờ, trong đó fij là một giá trị hằng số, có giá trị bằng 1 hoặc 0. 1 nếu phần tử i nằm trong cụm j fij = (3.5) 0 nếu ngược lại Phần mẫu số 1 + (µij (2 − ξ ij )fij )2 mô tả phân cụm bán giám sát an toàn. 13
- N C 2 (µij (2 − ξij )) 2 • Cuối cùng, thành phần thứ tư dij là thành i=L+1 j=1 1 + ξij phần đại diện cho các điểm dữ liệu chưa được gán nhãn, trong đó phần tử số có ý nghĩa giống với thành phần thứ nhất. Phần mẫu số (1 + ξ ij ) được cộng thêm một đại lượng ξ ij . Ý nghĩa của giá trị này là sau khi áp dụng phân cụm sử dụng FC-PFS cho tất cả các điểm dữ liệu, mẫu số (1 + ξ ij ) sẽ có giá trị lớn hơn 1 đối với các điểm dữ liệu chưa được gán nhãn có độ từ chối cao ξ ij . Do đó, trọng số của các phần tử này được giảm bớt. Sử dụng phương pháp Lagrange các phương án tối ưu của mô hình được xác định trong các công thức (3.6-3.10) như sau. N L N 2 (µij (2−ξij )−fij )2 (µij (2−ξij ))2 (µij (2 − ξij )) Xi + 2 Xi + 2 Xi i=1 i=1 1+(µij (2−ξ ij )−fij ) (1+ξ ij ) i=L+1 Vj = N L N 2 2 (µij (2−ξij )−fij ) (µij (2−ξij ))2 (µij (2 − ξij )) + 2 + 2 i=1 i=1 1+(µij (2−ξ ij )−fij ) i=L+1 (1+ξ ij ) (3.6) Độ thuộc µ của dữ liệu đã gán nhãn được tính như sau: fij µij = 2 + (2 − ξij )(2 + (µij (2 − ξ ij ) − fij ) ) C fik 1− 2 k=1 2 + (µik (2 − ξ ik ) − fik ) 2 2 (2 + (µij (2 − ξ ij ) − fij ) ) C d2 (1 + (µik (2 − ξ ik ) − fik ) ) ij (2 − ξij ) 2 2 (1 + (µij (2 − ξ ij ) − fij ) ) k=1 d2 (2 + (µik (2 − ξ ik ) − fik ) ) ik (3.7) Độ thuộc µ của dữ liệu chưa gán nhãn được tính như sau: 1 µij = (3.8) 1 1+ C ξ ij d2 ij (2 − ξij ) ( 1 ) d2 k=1 1+ ik ξ ik 14
- Các độ thuộc khác được tính toán như sau: C 1 e−ξij ηij = (1 − ξik ) C (3.9) C k=1 e−ξik k=1 1 ξij = 1 − (µij + ηij ) − (1 − (µij + ηij )α ) α (3.10) Sơ đồ thuật toán PTS3FCM được mô tả trong Hình 3.1 dưới đây. Hình 3.1: Sơ đồ thuật toán đề xuất PTS3FCM 15
- 3.3 Kết quả thực nghiệm Phương pháp PTS3FCM được so sánh với các phương pháp liên quan như thuật toán phân cụm mờ viễn cảnh gốc (FC-PFS) và thuật toán phân cụm bán giám sát an toàn có trọng số tin cậy (CS3FCM) theo cả độ chính xác phân cụm, chất lượng phân cụm và thời gian tính toán. Cụ thể như sau: • Về độ chính xác phân cụm, trong quá trình đánh giá theo độ chính xác phân cụm trên tất cả dữ liệu bao gồm dữ liệu chứa nhiễu và không chứa nhiễu (15 bộ dữ liệu), PTS3FCM nhận được kết quả tốt nhất trên 12/15 bộ dữ liệu (Balance-scale, Dermatology, Iris, Spambase, Tae, Waveform, Ecoli, Glass, Yeast, Wine, Vertebral, Ionosphere). CS3FCM là mô hình tốt nhất trên 3/15 bộ dữ liệu (Australian, Heart, Wdbc). FC-PFS không đạt được CA cao nhất trên bất kỳ bộ dữ liệu nào. Biểu đồ độ chính xác phân cụm trên tất cả dữ liệu với các bộ dữ liệu không chứa nhiễu được trình bày trong Hình 3.2. Hình 3.2: Biểu đồ độ chính xác phân cụm trên tất cả dữ liệu với các bộ dữ liệu không chứa nhiễu Biểu đồ độ chính xác phân cụm trên tất cả dữ liệu với các bộ dữ liệu có chứa nhiễu được trình bày trong Hình 3.3. 16
- Hình 3.3: Biểu đồ độ chính xác phân cụm trên tất cả dữ liệu với các bộ dữ liệu có chứa nhiễu • Về chất lượng phân cụm, trong quá trình đánh giá chất lượng phân cụm theo chỉ số DB trên tất cả các bộ dữ liệu bao gồm dữ liệu không chứa nhiễu và dữ liệu có chứa nhiễu (tổng số 15 bộ dữ liệu), phương pháp đề xuất PTS3FCM nhận được kết quả tốt nhất trên 10/15 bộ dữ liệu (Australian, Dermatology, Heart, Waveform,Wdbc, Heart, Ecoli, Glass, Yeast, Inosphere). FC-PFS là phương pháp tốt nhất trên 2/15 bộ dữ liệu (Iris, Vertebral). CS3FCM là phương pháp tốt nhất trên 3/15 bộ dữ liệu (Balance-scale, Spambase, Tae). • Về thời gian tính toán, trong quá trình đánh giá thời gian tính toán trên tất cả dữ liệu bao gồm dữ liệu không chứa nhiễu và dữ liệu có nhiễu (15 bộ dữ liệu), PTS3FCM nhận được kết quả tốt nhất trên 9/15 bộ dữ liệu (Australian, Balance-scale, Dermatology, Iris, Spambase, Waveform, Wdbc, Vertebral, Ionosphere). CS3FCM là mô hình tốt nhất trên 6/15 bộ dữ liệu (Heart, Tae, Ecoli, Glass, Yeast, Wine). Các kết quả trên cho thấy PTS3FCM có độ chính xác phân cụm tốt và thời gian tính toán tốt trong khi đó vẫn giữ được chất lượng phân cụm tương tự so với FC-PFS và CS3FCM. 17
- Chương 4 Đề xuất phương pháp phân cụm bán giám sát mờ an toàn với nhiều tham số mờ Chương này trình bày kết quả nghiên cứu về hai thuật toán phân cụm bán giám sát mờ theo hướng tiếp cận đa tham số mờ. Đầu tiên, đề xuất một thuật toán phân cụm bán giám sát mờ với nhiều tham số mờ (MCSSFC-P) dựa trên sự cải tiến của phương pháp phân cụm mờ với nhiều tham số mờ (MCFCM). Đồng thời trong chương này cũng đề xuất một thuật toán phân cụm bán giám sát mờ an toàn với nhiều tham số mờ có ý tưởng từ sự kết hợp giữa thuật toán phân cụm bán giám sát mờ an toàn (TS3FCM) với thuật toán phân cụm bán giám sát mờ với nhiều tham số mờ (MCSSFC-P) để phân vùng dữ liệu với độ tin cậy và xử lý dữ liệu nhiễu. Phương pháp đề xuất được thực nghiệm trên bộ dữ liệu UC, bộ dữ liệu ODDS và trên bộ dữ liệu ảnh vệ tinh SIDS ứng dụng phát hiện tàu biển. Các kết quả thực nghiệm cho thấy, các phương pháp đề xuất có hiệu suất tốt so với các phương pháp liên quan. 4.1 Phương pháp phân cụm bán giám sát mờ với nhiều tham số mờ (MCSSFC-P) 4.1.1 Giới thiệu Ý tưởng của phương pháp đề xuất là sự cải tiến của phương pháp phân cụm bán giám sát mờ (SSFCM). Thay vì sử dụng một giá trị không đổi của tham số mờ trong SSFCM (m = 2), thuật toán này sử dụng nhiều tham số mờ cho các điểm dữ liệu. Mỗi một điểm dữ liệu sẽ có một tham số mờ riêng biệt. Hơn nữa, các giá trị của tham số mờ cũng được cập nhật trong mỗi lần lặp của thuật toán để có được chất lượng phân cụm tốt nhất. 18
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Tóm tắt Luận án Tiến sĩ Kinh tế: An ninh tài chính cho thị trường tài chính Việt Nam trong điều kiện hội nhập kinh tế quốc tế
25 p | 303 | 51
-
Tóm tắt Luận án Tiến sĩ Giáo dục học: Phát triển tư duy vật lý cho học sinh thông qua phương pháp mô hình với sự hỗ trợ của máy tính trong dạy học chương động lực học chất điểm vật lý lớp 10 trung học phổ thông
219 p | 288 | 35
-
Tóm tắt Luận án Tiến sĩ Kinh tế: Chiến lược Marketing đối với hàng mây tre đan xuất khẩu Việt Nam
27 p | 179 | 18
-
Tóm tắt Luận án Tiến sĩ Luật học: Hợp đồng dịch vụ logistics theo pháp luật Việt Nam hiện nay
27 p | 266 | 17
-
Tóm tắt Luận án Tiến sĩ Y học: Nghiên cứu điều kiện lao động, sức khoẻ và bệnh tật của thuyền viên tàu viễn dương tại 2 công ty vận tải biển Việt Nam năm 2011 - 2012
14 p | 269 | 16
-
Tóm tắt Luận án Tiến sĩ Triết học: Giáo dục Tư tưởng Hồ Chí Minh về đạo đức cho sinh viên trường Đại học Cảnh sát nhân dân hiện nay
26 p | 154 | 12
-
Tóm tắt luận án Tiến sĩ Kỹ thuật: Nghiên cứu tính toán ứng suất trong nền đất các công trình giao thông
28 p | 222 | 11
-
Tóm tắt Luận án Tiến sĩ Kinh tế Quốc tế: Rào cản phi thuế quan của Hoa Kỳ đối với xuất khẩu hàng thủy sản Việt Nam
28 p | 175 | 9
-
Tóm tắt luận án Tiến sĩ Kinh tế: Phát triển kinh tế biển Kiên Giang trong tiến trình hội nhập kinh tế quốc tế
27 p | 53 | 8
-
Tóm tắt Luận án Tiến sĩ Luật học: Các tội xâm phạm tình dục trẻ em trên địa bàn miền Tây Nam bộ: Tình hình, nguyên nhân và phòng ngừa
27 p | 198 | 8
-
Tóm tắt Luận án Tiến sĩ Xã hội học: Vai trò của các tổ chức chính trị xã hội cấp cơ sở trong việc đảm bảo an sinh xã hội cho cư dân nông thôn: Nghiên cứu trường hợp tại 2 xã
28 p | 148 | 7
-
Tóm tắt luận án Tiến sĩ Kinh tế: Phản ứng của nhà đầu tư với thông báo đăng ký giao dịch cổ phiếu của người nội bộ, người liên quan và cổ đông lớn nước ngoài nghiên cứu trên thị trường chứng khoán Việt Nam
32 p | 183 | 6
-
Tóm tắt Luận án Tiến sĩ Luật học: Quản lý nhà nước đối với giảng viên các trường Đại học công lập ở Việt Nam hiện nay
26 p | 135 | 5
-
Tóm tắt luận án Tiến sĩ Kinh tế: Các yếu tố ảnh hưởng đến xuất khẩu đồ gỗ Việt Nam thông qua mô hình hấp dẫn thương mại
28 p | 16 | 4
-
Tóm tắt Luận án Tiến sĩ Ngôn ngữ học: Phương tiện biểu hiện nghĩa tình thái ở hành động hỏi tiếng Anh và tiếng Việt
27 p | 119 | 4
-
Tóm tắt Luận án Tiến sĩ Kỹ thuật: Nghiên cứu cơ sở khoa học và khả năng di chuyển của tôm càng xanh (M. rosenbergii) áp dụng cho đường di cư qua đập Phước Hòa
27 p | 8 | 4
-
Tóm tắt luận án Tiến sĩ Kinh tế: Các nhân tố ảnh hưởng đến cấu trúc kỳ hạn nợ phương pháp tiếp cận hồi quy phân vị và phân rã Oaxaca – Blinder
28 p | 27 | 3
-
Tóm tắt luận án Tiến sĩ Kinh tế: Phát triển sản xuất chè nguyên liệu bền vững trên địa bàn tỉnh Phú Thọ các nhân tố tác động đến việc công bố thông tin kế toán môi trường tại các doanh nghiệp nuôi trồng thủy sản Việt Nam
25 p | 170 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn