intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận án Tiến sĩ Khoa học máy tính: Nghiên cứu phát triển phương pháp phân cụm bán giám sát mờ an toàn ứng dụng cho bài toán quản lý cảng biển

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:147

27
lượt xem
10
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án Tiến sĩ Khoa học máy tính "Nghiên cứu phát triển phương pháp phân cụm bán giám sát mờ an toàn ứng dụng cho bài toán quản lý cảng biển" trình bày các nội dung chính sau: Nghiên cứu đề xuất phương pháp phân cụm bán giám sát mờ mới cho phân vùng dữ liệu với độ tin cậy; Nghiên cứu đề xuất phương pháp phân cụm bán giám sát mờ an toàn mới với nhiều tham số mờ cho phân vùng dữ liệu với độ tin cậy và dữ liệu nhiễu; Ứng dụng các phương pháp đề xuất để phát hiện tàu biển từ ảnh vệ tinh trong bài toán cảng biển.

Chủ đề:
Lưu

Nội dung Text: Luận án Tiến sĩ Khoa học máy tính: Nghiên cứu phát triển phương pháp phân cụm bán giám sát mờ an toàn ứng dụng cho bài toán quản lý cảng biển

  1. ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Phùng Thế Huân NGHIÊN CỨU PHÁT TRIỂN PHƯƠNG PHÁP PHÂN CỤM BÁN GIÁM SÁT MỜ AN TOÀN ỨNG DỤNG CHO BÀI TOÁN QUẢN LÝ CẢNG BIỂN LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN, 2023
  2. ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Phùng Thế Huân NGHIÊN CỨU PHÁT TRIỂN PHƯƠNG PHÁP PHÂN CỤM BÁN GIÁM SÁT MỜ AN TOÀN ỨNG DỤNG CHO BÀI TOÁN QUẢN LÝ CẢNG BIỂN Chuyên ngành: Khoa học máy tính Mã số: 9. 48. 01. 01 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. TS. Vũ Đức Thái 2. PGS.TS. Lê Hoàng Sơn THÁI NGUYÊN, 2023
  3. Lời cam đoan Tôi xin cam đoan luận án “Nghiên cứu phát triển phương pháp phân cụm bán giám sát mờ an toàn ứng dụng cho bài toán quản lý cảng biển” là công trình nghiên cứu của cá nhân tôi, được hoàn thành dưới sự hướng dẫn của TS. Vũ Đức Thái và PGS.TS. Lê Hoàng Sơn. Các kết quả nghiên cứu của tôi cùng với các tác giả khác đã được sự nhất trí của các đồng tác giả khi đưa vào nội dung luận án. Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên quan ở trong nước và quốc tế. Tôi xin cam đoan các số liệu và kết quả trình bày trong luận án là hoàn toàn trung thực và chưa từng được công bố trong bất kỳ một công trình nào khác. Tác giả: NCS. Phùng Thế Huân i
  4. Lời cảm ơn Lời đầu tiên, cho phép tác giả xin được bày tỏ sự biết ơn chân thành và sâu sắc nhất đến tập thể giáo viên hướng dẫn TS. Vũ Đức Thái và PGS.TS. Lê Hoàng Sơn. Các Thầy đã chỉ bảo ân cần và định hướng cho tác giả trong suốt thời gian thực hiện luận án. Các Thầy không những hướng dẫn kiến thức về chuyên môn, học thuật mà còn chỉ bảo cho tác giả những kinh nghiệm trong cuộc sống thường ngày. Một vinh dự rất lớn cho tác giả đã có cơ hội được học tập, nghiên cứu dưới sự hướng dẫn và chỉ bảo tận tâm của các Thầy. Xin trân trọng cảm ơn Ban Giám hiệu, Ban chủ nhiệm Khoa Công nghệ thông tin, Phòng Đào tạo trường Đại học Công nghệ Thông tin và Truyền thông - ĐHTN đã luôn tạo mọi điều kiện thuận lợi nhất cho tác giả trong suốt quá trình thực hiện luận án. Xin bày tỏ sự biết ơn sâu sắc đến các Thầy, Cô trong Lab ITI - Viện Công nghệ Thông tin - ĐHQGHN và các Thầy, Cô trong Khoa Công nghệ Thông tin - Trường Đại học Công nghệ Thông tin và Truyền thông - ĐHTN đã luôn quan tâm giúp đỡ và tạo điều kiện về nhiều mặt, chỉ bảo tận tình trong quá trình tác giả thực hiện luận án. Xin bày tỏ lòng biết ơn vô hạn đối với cha mẹ, anh chị em và gia đình đã luôn ủng hộ và yêu thương một cách vô điều kiện. Xin chân thành cảm ơn các anh chị em và bạn bè đã luôn cổ vũ động viên tác giả trong quá trình thực hiện luận án. Cuối cùng, xin kính chúc các Thầy, Cô và đồng nghiệp, anh chị em bạn bè luôn mạnh khoẻ, đạt được nhiều thành tựu trong công tác, học tập và nghiên cứu khoa học! Tác giả: NCS. Phùng Thế Huân ii
  5. Mục lục Lời cam đoan i Lời cảm ơn ii Danh sách thuật ngữ và từ viết tắt vi Mở đầu 1 Chương 1 Tổng quan về phân cụm bán giám sát mờ và ứng dụng trong bài toán quản lý cảng biển 8 1.1 Tổng quan về phân cụm bán giám sát mờ . . . . . . . . . . . 9 1.1.1 Tập mờ và mở rộng . . . . . . . . . . . . . . . . . . . 9 1.1.2 Phân cụm mờ . . . . . . . . . . . . . . . . . . . . . . 10 1.1.3 Phân cụm bán giám sát mờ . . . . . . . . . . . . . . . 13 1.2 Một số tiếp cận trong phân cụm bán giám sát mờ gần đây . . 15 1.2.1 Phân cụm bán giám sát mờ an toàn . . . . . . . . . . 15 1.2.2 Phân cụm bán giám sát mờ trên tập mờ nâng cao . . . 19 1.2.3 Phân cụm bán giám sát mờ với nhiều tham số mờ . . . 20 1.2.4 Nhận xét về các nghiên cứu liên quan . . . . . . . . . 22 1.3 Ứng dụng phân cụm bán giám sát mờ trong bài toán quản lý cảng biển . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 1.3.1 Giới thiệu bài toán quản lý cảng biển . . . . . . . . . . 24 1.3.2 Tổng quan các phương pháp phát hiện tàu biển trong ảnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 1.3.3 Nhận xét chung . . . . . . . . . . . . . . . . . . . . . 34 1.4 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . . 35 1.5 Đánh giá hiệu năng thuật toán phân cụm . . . . . . . . . . . 37 iii
  6. 1.6 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . 39 Chương 2 Đề xuất phương pháp phân cụm bán giám sát mờ an toàn 40 2.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.2 Ý tưởng thuật toán . . . . . . . . . . . . . . . . . . . . . . . 41 2.3 Chi tiết thuật toán TS3FCM . . . . . . . . . . . . . . . . . . 42 2.3.1 Bước 1. Phân cụm mờ cho dữ liệu đã được gán nhãn . 42 2.3.2 Bước 2. Chuyển đổi dữ liệu . . . . . . . . . . . . . . . 45 2.3.3 Bước 3. Phân cụm bán giám sát mờ cho toàn bộ dữ liệu 45 2.4 Độ phức tạp tính toán . . . . . . . . . . . . . . . . . . . . . 46 2.5 Ví dụ minh hoạ . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.5.1 Thiết lập giá trị độ thuộc thấp cho dữ liệu được gán nhãn có độ ảnh hưởng nhỏ . . . . . . . . . . . . . . . 50 2.5.2 Thiết lập giá trị độ thuộc bằng không cho dữ liệu được gán nhãn có độ ảnh hưởng nhỏ . . . . . . . . . . . . . 51 2.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . 53 2.6.1 Thiết lập giá trị độ thuộc thấp cho dữ liệu được gán nhãn có độ ảnh hưởng nhỏ . . . . . . . . . . . . . . . 54 2.6.2 Thiết lập giá trị độ thuộc bằng không cho dữ liệu được gán nhãn có độ ảnh hưởng nhỏ . . . . . . . . . . . . . 59 2.7 Ứng dụng phát hiện tàu biển trong ảnh vệ tinh . . . . . . . . 66 2.7.1 Môi trường thực nghiệm . . . . . . . . . . . . . . . . . 66 2.7.2 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . 67 2.8 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . 70 Chương 3 Đề xuất phương pháp phân cụm bán giám sát mờ an toàn trên tập mờ viễn cảnh 71 3.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 3.2 Ý tưởng thuật toán . . . . . . . . . . . . . . . . . . . . . . . 73 3.3 Chi tiết thuật toán PTS3FCM . . . . . . . . . . . . . . . . . 74 3.4 Độ phức tạp tính toán . . . . . . . . . . . . . . . . . . . . . 79 3.5 Ví dụ minh hoạ . . . . . . . . . . . . . . . . . . . . . . . . . 79 iv
  7. 3.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . 84 3.6.1 Đánh giá theo độ chính xác phân cụm . . . . . . . . . 84 3.6.2 Đánh giá theo chất lượng cụm . . . . . . . . . . . . . 90 3.6.3 Đánh giá theo thời gian chạy thuật toán . . . . . . . . 91 3.7 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . 93 Chương 4 Đề xuất phương pháp phân cụm bán giám sát mờ an toàn với nhiều tham số mờ 94 4.1 Phương pháp phân cụm bán giám sát mờ với nhiều tham số mờ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 4.1.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . 95 4.1.2 Ý tưởng thuật toán . . . . . . . . . . . . . . . . . . . 95 4.1.3 Chi tiết thuật toán MCSSFC-P . . . . . . . . . . . . . 95 4.1.4 Độ phức tạp tính toán . . . . . . . . . . . . . . . . . . 98 4.1.5 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . 98 4.2 Phương pháp phân cụm bán giám sát mờ an toàn với nhiều tham số mờ . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 4.2.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . 101 4.2.2 Ý tưởng thuật toán . . . . . . . . . . . . . . . . . . . 101 4.2.3 Chi tiết thuật toán TS3MFCM . . . . . . . . . . . . . 102 4.2.4 Độ phức tạp tính toán . . . . . . . . . . . . . . . . . . 104 4.2.5 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . 105 4.3 Ứng dụng phát hiện tàu biển trong ảnh vệ tinh . . . . . . . . 108 4.3.1 Môi trường thực nghiệm . . . . . . . . . . . . . . . . . 108 4.3.2 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . 108 4.4 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . 114 Kết luận 115 Danh sách các công trình tác giả đã công bố 117 Danh sách các công trình tác giả đã gửi đăng 119 Tài liệu tham khảo 120 v
  8. Danh sách thuật ngữ và từ viết tắt STT Từ viết tắt Từ tiếng Anh Diễn giải/tạm dịch Alternative Silhouette 1 ASWC Chỉ số Silhouette thay thế Width Criterion index 2 CA Clustering Accuracy Độ chính xác phân cụm Convolutional Neural 3 CNN Mạng nơ-ron tích chập Network Confidence-weighted Thuật toán phân cụm Safe Semi-Supervised 4 CS3FCM bán giám sát mờ an toàn Fuzzy Clustering có trọng số tin cậy Method 5 CT Computation Time Thời gian tính toán Chỉ số chất lượng cụm 6 DB Davies-Bouldin index Davies–Bouldin Fuzzy C-means 7 FCM Thuật toán phân cụm mờ Clustering Method Fully Convolutional Mạng tích chập toàn 8 FCN Network phần Fuzzy Clustering on Thuật toán phân cụm mờ 9 FC-PFS Picture Fuzzy Set viễn cảnh 10 FS Fuzzy Set Tập mờ 11 IFS Intuitionistics Fuzzy Set Tập mờ trực cảm Bảng tiếp tục ở trang sau vi
  9. Tiếp tục từ trang trước STT Từ viết tắt Từ tiếng Anh Diễn giải/tạm dịch Multiple fuzzification Coefficients Fuzzy Thuật toán phân cụm mờ 12 MC-FCM C–means Clustering với nhiều tham số mờ Method Multiple fuzzification Coefficients Thuật toán phân cụm 13 MCSSFC-P Semi-Supervised Fuzzy bán giám sát mờ với Clustering algorithm nhiều tham số mờ điểm with Point 14 NN Neural Network Mạng nơ-ron nhân tạo Outlier Detection Bộ dữ liệu phát hiện 15 ODDS DataSets nhiễu Pakhira, Chỉ số Pakhira, 16 PBM Bandyopadhyay and Bandyopadhyay và Maulik index Maulik 17 PFS Picture Fuzzy Set Tập mờ viễn cảnh Picture Trusted Safe Thuật toán phân cụm 18 PTS3FCM Semi-Supervised Fuzzy bán giám sát mờ viễn Clustering Method cảnh an toàn tin cậy Regional Convolutional Mạng nơ-ron tích chập 19 R-CNN Neural Network theo vùng Synthetic Aperture 20 SAR Ra đa khẩu độ tổng hợp Radar Satellite Image DataSets Bộ dữ liệu ảnh vệ tinh 21 SIDS of Ships tàu biển Semi-Supervised Fuzzy Thuật toán phân cụm 22 SSFCM C-means Clustering bán giám sát mờ Method 23 T2FS Type 2 Fuzzy Set Tập mờ loại 2 Bảng tiếp tục ở trang sau vii
  10. Tiếp tục từ trang trước STT Từ viết tắt Từ tiếng Anh Diễn giải/tạm dịch Trusted Safe Thuật toán phân cụm 24 TS3FCM Semi-Supervised Fuzzy bán giám sát mờ an toàn Clustering Method tin cậy Trusted Safe Thuật toán phân cụm Semi-Supervised with bán giám sát mờ an toàn 25 TS3MFCM Multiple fuzzifiers Fuzzy tin cậy với nhiều tham số Clustering Method mờ University of California, 26 UCI Irvine Machine Learning Kho dữ liệu học máy UCI Repository viii
  11. Danh sách bảng 1.1 Dữ liệu UCI dùng cho thực nghiệm . . . . . . . . . . . . . . 36 1.2 Dữ liệu ODDS dùng cho thực nghiệm . . . . . . . . . . . . . 36 2.1 Thời gian tính toán của TS3FCM và CS3FCM trong trường hợp 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 2.2 Độ chính xác phân cụm trên dữ liệu được gán nhãn trong trường hợp 1 . . . . . . . . . . . . . . . . . . . . . . . . . . 55 2.3 Chất lượng phân cụm theo chỉ số DB trong trường hợp 1 . . 57 2.4 Chất lượng phân cụm theo chỉ số ASWC trong trường hợp 1 58 2.5 Chất lượng phân cụm theo chỉ số BPM trong trường hợp 1 . 60 2.6 Thời gian tính toán của TS3FCM và CS3FCM trong trường hợp 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 2.7 Độ chính xác phân cụm trên dữ liệu được gán nhãn trong trường hợp 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 62 2.8 Chất lượng phân cụm theo chỉ số DB trong trường hợp 2 . . 63 2.9 Chất lượng phân cụm theo chỉ số ASWC trong trường hợp 2 64 2.10 Chất lượng phân cụm theo chỉ số PBM trong trường hợp 2 . 65 2.11 Thông số dữ liệu ảnh thực nghiệm . . . . . . . . . . . . . . . 67 2.12 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . 68 3.1 Độ chính xác phân cụm đối với tất cả các điểm dữ liệu trên các bộ dữ liệu không chứa nhiễu . . . . . . . . . . . . . . . . 84 3.2 Độ chính xác phân cụm đối với tất cả các điểm dữ liệu trên các bộ dữ liệu có chứa nhiễu . . . . . . . . . . . . . . . . . . 86 3.3 Độ chính xác phân cụm đối với dữ liệu gán nhãn trên các bộ dữ liệu không chứa nhiễu . . . . . . . . . . . . . . . . . . . . 87 ix
  12. 3.4 Độ chính xác phân cụm đối với dữ liệu được gán nhãn trên các bộ dữ liệu có chứa nhiễu . . . . . . . . . . . . . . . . . . 89 3.5 Chất lượng phân cụm theo chỉ số DB trên các bộ dữ liệu không chứa nhiễu . . . . . . . . . . . . . . . . . . . . . . . . 90 3.6 Chất lượng phân cụm theo chỉ số DB trên các bộ dữ liệu có chứa nhiễu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 3.7 Thời gian tính toán trên các bộ dữ liệu không chứa nhiễu . . 92 3.8 Thời gian tính toán trên các bộ dữ liệu có chứa nhiễu . . . . 93 4.1 Kết quả thực nghiệm trên bộ dữ liệu UCI . . . . . . . . . . . 99 4.2 Bộ dữ liệu nhiễu . . . . . . . . . . . . . . . . . . . . . . . . 105 4.3 Dữ liệu ảnh vệ tinh tàu biển . . . . . . . . . . . . . . . . . . 105 4.4 Giá trị của các chỉ số đánh giá trên tất cả dữ liệu có nhiễu . 107 4.5 Thông số dữ liệu ảnh thực nghiệm . . . . . . . . . . . . . . . 109 4.6 So sánh kết quả nhận dạng giữa 2 phương pháp TS3MFCM và CS3FCM . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 x
  13. Danh sách hình vẽ 1 Phân cụm dữ liệu với độ tin cậy . . . . . . . . . . . . . . . . 2 1.1 Sơ đồ cảng biển [49] . . . . . . . . . . . . . . . . . . . . . . 25 1.2 Phát hiện tàu biển từ ảnh vệ tinh [85] . . . . . . . . . . . . . 26 1.3 Các phương pháp phân đoạn ảnh . . . . . . . . . . . . . . . 28 1.4 Ảnh vệ tinh tàu biển ban đầu . . . . . . . . . . . . . . . . . 37 1.5 Ảnh vệ tinh tàu biển sau khi nhận dạng . . . . . . . . . . . . 37 2.1 Sơ đồ thuật toán đề xuất TS3FCM . . . . . . . . . . . . . . 42 2.2 Dữ liệu được gán nhãn ban đầu . . . . . . . . . . . . . . . . 47 2.3 Phân vùng dữ liệu được gán nhãn tại vòng lặp đầu tiên từ công thức (2.14) . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.4 Phân vùng dữ liệu được gán nhãn ở vòng lặp đầu tiên sau khi giảm các giá trị độ thuộc bị sai bởi công thức (2.15) . . . 49 2.5 Dữ liệu được gán nhãn sau phân vùng cuối cùng . . . . . . . 50 2.6 Kết quả phân cụm trong trường hợp 1 . . . . . . . . . . . . 52 2.7 Kết quả phân cụm trong trường hợp 2 . . . . . . . . . . . . 53 2.8 Biểu đồ độ chính xác phân cụm trong trường hợp 1 . . . . . 56 2.9 Biểu đồ độ chính xác phân cụm trong trường hợp 2 . . . . . 66 2.10 Kết quả phân cụm ảnh 1 . . . . . . . . . . . . . . . . . . . . 69 2.11 Kết quả phân cụm ảnh 2 . . . . . . . . . . . . . . . . . . . . 69 3.1 Sơ đồ thuật toán đề xuất PTS3FCM . . . . . . . . . . . . . 77 3.2 Sự phân bố của tất cả dữ liệu . . . . . . . . . . . . . . . . . 80 3.3 Dữ liệu được phân vùng với FC-PFS . . . . . . . . . . . . . 80 3.4 Phân vùng dữ liệu ở vòng lặp đầu tiên của TS3PFCM . . . . 81 3.5 Các cụm kết quả sau khi sau phân cụm . . . . . . . . . . . . 83 xi
  14. 3.6 Biểu đồ độ chính xác phân cụm trên tất cả dữ liệu với các bộ dữ liệu không chứa nhiễu . . . . . . . . . . . . . . . . . . 85 3.7 Biểu đồ độ chính xác phân cụm trên tất cả dữ liệu với các bộ dữ liệu có chứa nhiễu . . . . . . . . . . . . . . . . . . . . 86 3.8 Biểu đồ độ chính xác phân cụm trên dữ liệu gán nhãn với các bộ dữ liệu không chứa nhiễu . . . . . . . . . . . . . . . . 88 3.9 Biểu đồ độ chính xác phân cụm trên dữ liệu gán nhãn với các bộ dữ liệu có chứa nhiễu . . . . . . . . . . . . . . . . . . 89 4.1 Biểu đồ độ chính xác phân cụm trên dữ liệu gán nhãn . . . . 100 4.2 Biểu đồ độ chính xác phân cụm trên tất cả dữ liệu . . . . . . 100 4.3 Sơ đồ thuật toán TS3MFCM . . . . . . . . . . . . . . . . . . 102 4.4 Kết quả phân cụm ảnh 1 . . . . . . . . . . . . . . . . . . . . 110 4.5 Kết quả phân cụm ảnh 2 . . . . . . . . . . . . . . . . . . . . 110 4.6 Kết quả phân cụm ảnh 3 . . . . . . . . . . . . . . . . . . . . 111 4.7 Kết quả phân cụm ảnh 4 . . . . . . . . . . . . . . . . . . . . 111 xii
  15. Danh sách thuật toán 1.1 Thuật toán phân cụm mờ (FCM) . . . . . . . . . . . . . . 12 1.2 Thuật toán phân cụm bán giám sát mờ (SSFCM) . . . . . . 14 1.3 Thuật toán phân cụm bán giám sát mờ an toàn có trọng số tin cậy (CS3FCM) . . . . . . . . . . . . . . . . . . . . . . . 18 1.4 Thuật toán phân cụm mờ viễn cảnh (FC-PFS) . . . . . . . 20 1.5 Thuật toán phân cụm mờ với nhiều tham số mờ (MC-FCM) 22 2.1 Thuật toán phân cụm mờ FCM cải tiến . . . . . . . . . . . 44 2.2 Thuật toán phân cụm bán giám sát mờ mới . . . . . . . . . 46 3.1 Thuật toán phân cụm bán giám sát mờ an toàn trên tập mờ viễn cảnh (PTS3FCM) . . . . . . . . . . . . . . . . . . . . 78 4.1 Thuật toán phân cụm bán giám sát mờ với nhiều tham số mờ (MCSSFC-P) . . . . . . . . . . . . . . . . . . . . . . . 97 xiii
  16. Mở đầu 1. Tính cấp thiết của luận án Phân cụm dữ liệu là quá trình phân chia các điểm dữ liệu thành các cụm khác nhau, đảm bảo rằng các phần tử trong một cụm có nhiều điểm tương đồng hơn các phần tử trong các cụm khác [105]. Phân cụm dữ liệu được phân thành hai nhóm: phân cụm rõ và phân cụm mờ. Trong phân cụm rõ, một điểm dữ liệu thuộc về duy nhất một cụm. Trong phân cụm mờ, một điểm dữ liệu có thể thuộc nhiều hơn một cụm kèm theo thông tin về độ thuộc của điểm dữ liệu vào các cụm. Khi phân cụm mờ sử dụng một số thông tin bổ trợ thì được gọi là phân cụm bán giám sát mờ [13]. Một trong những hướng nghiên cứu về phân cụm bán giám sát đang được quan tâm hiện nay đó là phân cụm bán giám sát mờ an toàn (hay còn gọi là phân cụm dữ liệu với độ tin cậy). Vấn đề phân cụm dữ liệu với độ tin cậy được minh họa như trong Hình 1, giả sử bộ dữ liệu bao gồm 2 cụm và có một số dữ liệu đã được gán nhãn (hình vuông thể hiện dữ liệu đã được gán nhãn thuộc Cụm 1 và hình tam giác thể hiện dữ liệu đã được gán nhãn thuộc Cụm 2), hình tròn thể hiện các điểm dữ liệu chưa được gán nhãn. Đường nét đứt ngầm hiển thị ranh giới giữa hai cụm. Một số dữ liệu được gán nhãn không chính xác được biểu diễn bằng dấu thập phía trên các ký hiệu của dữ liệu được gán nhãn. Mục tiêu của bài toán này là tìm ra đường ranh giới “tốt nhất” giữa hai cụm với các dữ liệu được gán nhãn chính xác và không chính xác. 1
  17. Hình 1 Phân cụm dữ liệu với độ tin cậy Vấn đề phân cụm dữ liệu với độ tin cậy đã được nhận được sự quan tâm từ nhiều nhà nghiên cứu nghiên cứu, điển hình từ Gan và cộng sự [36, 37, 38]. Ý tưởng chính của cách tiếp cận này gồm hai bước: i) Tính toán trọng số tin cậy của dữ liệu được gán nhãn bằng một đồ thị cục bộ; ii) Xây dựng, xác định các tâm cụm và các giá trị phần tử mờ theo dữ liệu được gán nhãn có trọng số tin cậy cao. Các phương pháp của Gan và đồng nghiệp đạt hiệu suất tốt về độ chính xác phân cụm. Tuy nhiên, thường mất nhiều thời gian tính toán do việc tính toán với toàn bộ tập dữ liệu trong bước khởi tạo. Mặt khác, trong các phương pháp của Gan chưa đề cập đến vấn đề phân vùng dữ liệu đối với dữ liệu nhiễu. Ngoài ra các phương pháp này cũng chưa đề cập đến việc thay đổi giá trị của tham số mờ để nâng cao hiệu suất phân cụm. Do đó, nhằm nâng cao độ chính xác phân cụm và chất lượng cụm, đồng thời để giảm thời gian tính toán so với các phương pháp của Gan, trong phạm vi luận án này nghiên cứu một số vấn đề như sau: • Nghiên cứu đề xuất phương pháp phân cụm bán giám sát mờ an toàn mới cho phân vùng dữ liệu với độ tin cậy có hiệu suất phân cụm tốt và thời gian tính toán tốt. 2
  18. • Nghiên cứu đề xuất phương pháp phân cụm bán giám sát mờ an toàn mới trên tập mờ viễn cảnh cho phân vùng dữ liệu với độ tin cậy và dữ liệu nhiễu. • Nghiên cứu đề xuất phương pháp phân cụm bán giám sát mờ an toàn mới với nhiều tham số mờ cho phân vùng dữ liệu với độ tin cậy xử lý thông tin nhiễu. Kỹ thuật phân cụm dữ liệu đã được áp dụng trong nhiều lĩnh vực, ví dụ như: phân loại tài liệu [29], phân đoạn ảnh X-quang nha khoa [52, 66], phân đoạn hình ảnh y tế [11, 12], v.v. Đặc biệt trong xử lý ảnh vệ tinh có nhiều lĩnh vực ứng dụng quan trọng trong quân sự cũng như trong đời sống xã hội như: phân loại phương tiện tham gia giao thông [23], hậu cần [57], phân loại ảnh vệ tinh để dự báo hạn hán, lũ lụt, cháy rừng [51], v.v. Trong bài toán quản lý cảng biển, có nhiều nghiên cứu đã đưa ra các phương pháp để giải quyết bài toán này như [2, 5, 17, 46, 88]. Trong đó, quá trình phát hiện và phân loại tàu đóng vai trò quan trọng trong việc giám sát và quản lý cảng biển như trong giao thông hàng hải và an toàn tàu biển, nâng cao hiệu quả khai thác cảng [69]. Khó khăn trong quá trình phát hiện tàu biển bao gồm hạn chế với quy mô hình ảnh tàu nhỏ và chứa nhiễu. Ảnh vệ tinh được thu thập từ các vệ tinh nằm trong quỹ đạo trái đất với khoảng cách 35,78 kilômet so với mực nước biển nên chất lượng hình ảnh bị ảnh hưởng bởi góc chụp, các yếu tố gây nhiễu như: mây, sương mù, thời tiết, v.v. do đó có thể ảnh vệ tinh trong quá trình tiền xử lý không tốt dẫn đến tàu trên biển bị nhận dạng nhầm thành các ngọn hải đăng hay các hòn đảo, v.v. Trong trường hợp này cần có các thông tin bổ trợ từ người dùng để định hướng cho quá trình phân cụm nhằm tăng độ chính xác khi phân loại tàu biển. Nhưng ngay cả khi có thông tin bổ trợ, sử dụng kỹ thuật phân cụm bán giám sát để phát hiện tàu biển thì vẫn có thể bị sai, các kết quả phân cụm vẫn có sự nhầm lẫn giữa đảo, tàu và biển, v.v. Do đó, dẫn đến yêu cầu giải quyết bài toán phân cụm bán giám sát với thông tin chưa đảm bảo độ tin cậy, trong đó có các thông tin bổ trợ chưa đúng (dữ liệu nhiễu, dữ liệu bị gán nhãn sai). 3
  19. 2. Mục tiêu nghiên cứu 2.1 Mục tiêu tổng quát Nghiên cứu đề xuất một số phương pháp phân cụm bán giám sát mờ an toàn ứng dụng phát hiện tàu biển từ ảnh vệ tinh trong bài toán quản lý cảng biển. 2.2 Mục tiêu cụ thể • Mục tiêu 1 : Nghiên cứu đề xuất phương pháp phân cụm bán giám sát mờ mới cho phân vùng dữ liệu với độ tin cậy. • Mục tiêu 2 : Nghiên cứu đề xuất phương pháp phân cụm bán giám sát mờ mới trên tập mờ viễn cảnh cho phân vùng dữ liệu với độ tin cậy và dữ liệu nhiễu. • Mục tiêu 3 : Nghiên cứu đề xuất phương pháp phân cụm bán giám sát mờ an toàn mới với nhiều tham số mờ cho phân vùng dữ liệu với độ tin cậy và dữ liệu nhiễu. • Mục tiêu 4 : Ứng dụng các phương pháp đề xuất để phát hiện tàu biển từ ảnh vệ tinh trong bài toán cảng biển. 3. Phương pháp, dữ liệu và nội dung nghiên cứu 3.1 Phương pháp nghiên cứu Phương pháp nghiên cứu lý thuyết: Tổng hợp và nghiên cứu các tài liệu liên quan đến phân cụm mờ, phân cụm bán giám sát mờ. Tìm hiểu các hướng nghiên cứu mới liên quan đến phân cụm bán giám sát mờ và đề xuất phương pháp cải tiến. Phương pháp nghiên cứu thực tiễn: Tìm hiểu bài toán quản lý cảng biển để thấy rằng phát hiện tàu trên biển đóng một vai trò quan trọng trong quản lý cảng, bao gồm giao thông tàu, cứu hộ hàng hải, vận chuyển hàng hóa và xây dựng hệ thống an ninh quốc phòng. 4
  20. 3.2 Dữ liệu nghiên cứu Dữ liệu thực nghiệm được lấy từ kho dữ liệu học máy chuẩn UCI [98], bộ dữ liệu phát hiện nhiễu ODDS [71] đối với các thuật toán phân cụm và bộ dữ liệu ảnh vệ tinh tàu biển SIDS [81]. 3.3 Nội dung nghiên cứu • Nghiên cứu, đề xuất phương pháp phân cụm bán giám sát mờ an toàn trong phân vùng dữ liệu có độ tin cậy. • Nghiên cứu, phát triển phương pháp phân cụm bán giám sát mờ mở rộng trên tập mờ viễn cảnh. Kiểm chứng, so sánh hiệu quả so với một số thuật toán liên quan khác. • Nghiên cứu, phát triển phương pháp phân cụm bán giám sát mờ an toàn với nhiều tham số mờ để xử lý dữ liệu nhiễu. • Ứng dụng trong bài toán phát hiện tàu biển từ ảnh vệ tinh cảng biển. 4. Đóng góp của luận án Luận án có các đóng góp chính như sau: • Đề xuất một phương pháp phân cụm bán giám sát mờ an toàn mới (TS3FCM) cho phân vùng dữ liệu với độ tin cậy. TS3FCM có 3 giai đoạn là “Phân cụm mờ FCM cho dữ liệu được gán nhãn”, “Chuyển đổi dữ liệu” và “Phân cụm bán giám sát mờ cho toàn bộ dữ liệu”. • Đề xuất một phương pháp phân cụm bán giám sát mờ an toàn mới trên tập mờ viễn cảnh (PTS3FCM) cho phân vùng dữ liệu với độ tin cậy và dữ liệu nhiễu, với hàm mục tiêu bao gồm bốn thành phần: thành phần phân cụm, thành phần xử lý dữ liệu nhiễu, các thành phần phân cụm bán giám sát mờ an toàn với dữ liệu đã được gán nhãn và chưa được gán nhãn. 5
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2