Phương pháp DEC-SVM phân lớp dữ liệu mất cân bằng

Chia sẻ: ViShizuka2711 ViShizuka2711 | Ngày: | Loại File: PDF | Số trang:9

Thêm vào BST

Báo xấu

29
lượt xem 2
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết nghiên cứu thuật toán DEC-SVM điều chỉnh dữ liệu bằng cách sinh thêm phần tử cho lớp thiểu số, sau đó sử dụng kỹ thuật phân cụm để loại bỏ bớt phần tử dư thừa. Thực nghiệm cho thấy DEC-SVM có khả năng nâng cao hiệu quả phân lớp cho các bộ dữ liệu mất cân bằng.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Phương pháp DEC-SVM phân lớp dữ liệu mất cân bằng

LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA Phương pháp DEC-SVM phân lớp dữ liệu mất cân bằng Imbalanced data classification based on DEC-SVM 1 1 2 Phạm Thị Hường , Phạm Văn Kiên , Đỗ Ngọc Quỳnh Email: ngocquynh.ydhn@gmail.com 1 Trường Đại học Sao Đỏ 2 Trường Cao đẳng Y Dược Hà Nội Ngày nhận bài: 21/8/2018 Ngày nhận bài sửa sau phản biện: 29/10/2018 Ngày chấp nhận đăng: 27/12/2018 Tóm tắt Trong bài báo này, tác giả đã nghiên cứu thuật toán DEC-SVM điều chỉnh dữ liệu bằng cách sinh thêm phần tử cho lớp thiểu số, sau đó sử dụng kỹ thuật phân cụm để loại bỏ bớt phần tử dư thừa. Thực nghiệm cho thấy DEC-SVM có khả năng nâng cao hiệu quả phân lớp cho các bộ dữ liệu mất cân bằng. Từ khóa: Phân cụm; phân lớp; dữ liệu mất cân bằng; SVM. Abstract In this article, authors study the DEC-SVM algorithm that modulates data by adding elements to the minority class, and then uses clustering techniques to eliminate redundant elements. Empirical evidence show that the DEC-SVM is capable of enhancing class efficiency for imbalanced data sets. Keywords: Clustering; classification; imbalanced data; SVM. 1. GIỚI THIỆU CHUNG Đối với các bộ dữ liệu mất cân bằng, các bộ phân lớp chuẩn thường có xu hướng thiên vị đối với lớp Ngày nay, khi vấn đề khai thác và xử lý thông tin đa số và bỏ qua lớp thiểu số (xử lý chúng như là ngày càng được chú trọng, kỹ thuật phân lớp dữ nhiễu) [4]. Vì vậy, khi áp dụng các giải thuật phân liệu đã góp phần hữu hiệu giúp con người khai lớp truyền thống chưa thể xây dựng được một bộ thác một cách có hiệu quả khối dữ liệu mà họ phân lớp tốt. Việc phân loại sai các mẫu thuộc lớp đang nắm giữ. Tuy nhiên, dữ liệu thu thập được thiểu số có thể gây nên những tổn thất lớn đối với trong thực tế ngày càng xuất hiện nhiều các bộ các lĩnh vực thực tế. Để giải quyết vấn đề về phân dữ liệu mất cân bằng, nghĩa là trong tập dữ liệu lớp đối với các bộ dữ liệu mất cân bằng, hiện nay có sự chênh lệch lớn về số lượng các phần tử có nhiều phương pháp khác nhau, trong đó, có hai giữa các lớp. Các bộ dữ liệu trong nhiều ứng dụng hướng tiếp cận chính: tiếp cận ở mức độ dữ liệu thực tế như phát hiện các giao dịch gian lận, phát và hướng tiếp cận ở mức độ thuật toán. hiện xâm nhập mạng, dự đoán rủi ro trong quản lý, chẩn đoán y khoa,…, đều là các bộ dữ liệu mất Trong [12], tác giả cải tiến thuật toán sinh thêm cân bằng mà trong đó, lớp người ta cần quan tâm mẫu nhân tạo lớp thiểu số (SMOTE) bằng cách lại chiếm tỉ lệ rất nhỏ so với lớp còn lại. kết hợp thuật toán nhúng tuyến tính cục bộ (locally linear embedding - LLE). Thuật toán LLE ánh xạ Sự chênh lệch về số lượng giữa lớp đa số và lớp dữ liệu có số chiều cao vào một không gian với số thiểu số làm cho việc phân lớp đúng các mẫu chiều thấp hơn. Sau đó, các mẫu nhân tạo sinh thuộc lớp thiểu số bị giảm hiệu quả. Tỷ lệ mất ra sẽ được ánh xạ trở lại không gian mẫu ban cân bằng của tập dữ liệu càng cao thì việc phát đầu thông qua LLE. Từ bộ dữ liệu đã điều chỉnh, hiện đúng các mẫu của lớp thiểu số càng khó thực nghiệm trên 3 bộ dữ liệu với ba kỹ thuật phân khăn. Trong các ứng dụng thực tế, tỷ lệ mất cân lớp Bayes, K-NN, SVM cho thấy kỹ thuật SVM bằng có thể là 1:100, 1:1000, thậm chí có thể hơn có độ chính xác theo tiêu chí AUC cao nhất với [11]. Vì thế, phân lớp dữ liệu mất cân bằng đã và trung bình là 76.5%. Trong [13], tác giả trình bày đang là bài toán được các nhà khoa học đặc biệt giải thuật GSVM -RU (Granular Support Vector quan tâm. Machines Repetitive Undersampling) sử dụng SVM cho việc lấy mẫu. Với những mẫu quan trọng Người phản biện: 1. GS.TSKH. Thân Ngọc Hoàn trong quá trình phân lớp, giảm thiểu mất thông tin 2. TS. Trần Trọng Hiếu các mẫu đa số khi loại bỏ và tối đa mẫu thiểu số Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 17 NGHIÊN CỨU KHOA HỌC khi làm sạch dữ liệu trong quá trình lấy mẫu để nhân tạo. Sinh ngẫu nhiên các phần tử ở lớp thiểu chỉ giữ lại các mẫu cần thiết và các mẫu khác có số là phương pháp đơn giản nhất nhằm cân bằng thể được loại bỏ một cách an toàn mà không ảnh phân lớp thông qua việc nhân bản ngẫu nhiên các hưởng đến phân loại. Việc trích chọn vectơ ít hơn, mẫu lớp thiểu số. Ý tưởng là lựa chọn ngẫu nhiên do đó tăng tốc độ dự đoán. Kết quả thực nghiệm các mẫu thuộc lớp thiểu số và nhân bản chúng với các đánh giá G-Mean (85.2%), AUC (92.4%), tạo ra mẫu mới giống hệt chúng. Hình 1 minh họa F-Measure (66.5%). Trong [14], tác giả đề xuất phương pháp sinh thêm phần tử cho lớp thiểu số. phương pháp Bagging of Extrapolation Borderline- SMOTE SVMs (BEBS) sử dụng phương pháp lấy mẫu thích nghi Extrapolation Borderline-SMOTE và tập hợp bootstrapping vào tập dữ liệu không cân bằng ban đầu. Khi sử dụng SVM, ranh giới quyết định nghiêng về phía các mẫu thiểu số và có thể được thay đổi dựa vào các mẫu nhân bản. Kết quả thực nghiệm đánh giá dựa trên tiêu chí G-Mean đạt 76.2%. Hình 1. Sinh ngẫu nhiên phần tử lớp thiểu số Tuy nhiên, với đặc thù của các tập dữ liệu hầu hết Phương pháp sinh thêm mẫu nhân tạo lớp thiểu không giống nhau, không có giải pháp nào là hữu số SMOTE (Synthetic Minority Over-sampling hiệu cho mọi tập dữ liệu. Trong bài báo này, chúng Technique) như sau: Với mỗi mẫu thuộc lớp thiểu tôi đề xuất thuật toán DEC-SVM để phân lớp dữ số, tìm láng giềng gần nhất của nó trong lớp thiểu liệu. Cụ thể, nghiên cứu thuật toán điều chỉnh dữ số, lựa chọn ngẫu nhiên các láng giềng gần nhất liệu cho bài toán phân lớp dữ liệu mất cân bằng (hoặc tất cả láng giềng) tùy theo số lượng mẫu – thuật toán DEC (a novel Differential Evolution cần sinh thêm. Mẫu nhân tạo sẽ được sinh ra theo Clustering hybrid resampling) được công bố vào cách sau: lấy độ lệch giữa vector thuộc tính của năm 2010 của nhóm tác giả Leichen Chen, Zhihua mẫu đang xét và láng giềng của nó nhân với một Cai, Lu Chen và Qiong Gu [1]. Thuật toán này là số ngẫu nhiên trong khoảng (0, 1) rồi cộng kết quả sự kết hợp giữa phương pháp sinh thêm phần tử cho lớp thiểu số và sử dụng kỹ thuật phân cụm, thu được với vector thuộc tính của mẫu đang xét. K-means để loại bỏ bớt phần tử dư thừa, nhiễu Kết quả cuối cùng chính là vector thuộc tính của trong dữ liệu. Với mỗi mẫu thuộc lớp thiểu số, tạo mẫu nhân tạo, nhãn của mẫu nhân tạo sẽ được ra một mẫu đột biến từ hai trong số những láng gán là nhãn của lớp thiểu số [9] và được minh họa giềng gần nó nhất, sau đó sử dụng thuật toán di trong hình 2. truyền để sinh thêm phần tử cho lớp thiểu số từ mẫu thiểu số ban đầu và mẫu đột biến mới tạo ra. Sau khi điều chỉnh dữ liệu bằng thuật toán DEC, chúng tôi sử dụng kỹ thuật SVM để phân lớp cho tập dữ liệu huấn luyện mới để tạo ra mô hình phân Hình 2. Minh họa sinh thêm phần tử nhân tạo lớp. Kết quả cho thấy, khi sử dụng DEC-SVM thì bằng thuật toán SMOTE hiệu quả phân lớp các bộ dữ liệu mất cân bằng cao hơn. Giả mã của thuật toán SMOTE [9]: 2. PHƯƠNG PHÁP DEC-SVM CHO BÀI TOÁN SMOTE (N, T, k) PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG Input: Số mẫu lớp thiểu số T; tổng số SMOTE 2.1. Hướng tiếp cận ở mức độ dữ liệu N%, số láng giềng gần nhất k. Tiếp cận ở mức độ dữ liệu mục đích là điều chỉnh Output: (N/100)*T mẫu thiểu số nhân tạo tỉ lệ mất cân bằng giữa hai lớp trong bộ dữ liệu, cụ thể sử dụng các hình thức lấy mẫu: sinh thêm các 1. (Nếu N nhỏ hơn 100%, chọn ngẫu nhiên các phần tử lớp thiểu số (sinh ngẫu nhiên, sinh thêm mẫu lớp thiểu số mà chỉ một phần trăm của chúng phần tử nhân tạo,…), loại bỏ các phần tử lớp đa sẽ được SMOTE) số, hoặc kết hợp cả hai phương pháp trên. 2. IF N< 100 2.1.1. Sinh thêm phần tử lớp thiểu số 3. Then chọn ngẫu nhiên T mẫu lớp thiểu số Có nhiều phương pháp sinh thêm phần tử cho lớp 4. T = (N/100)*T thiểu số như: sinh ngẫu nhiên phần tử lớp thiểu số, lựa chọn phần tử lớp thiểu số, sinh thêm mẫu 5. N = 100 18 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA 6. Endif 3. For attr←1 to numattrs 7. N = (int) (N/100) (Số luợng SMOTE được giả 4. Tính dif=Sample[nnarray[n,n]][attr]-Sample[i][attr] định là bội số của 100) 5. Tính gap = một số ngẫu nhiên giữa 0 và 1 8. k = số láng giềng gần nhất 6. Synthentic[newindex][attr]=Sample[i][ attr]+gap*dif 9. numattrs = số thuộc tính 7. Endfor 10. sample [ ][ ]: mảng các mẫu thiểu số ban đầu 8. ++ 11. newindex: chỉ số của mẫu nhân tạo được tạo 9. N=N-1 ra, khởi tạo là 0 10. Endwhile 12. synthetic [ ][ ]: mảng các mẫu nhân tạo 11. Return (kết thúc hàm Populate) (tính k láng giềng gần nhất cho mỗi mẫu lớp thiểu số.) Ngoài ra còn có một số thuật toán được cải tiến 13. For to T từ thuật toán SMOTE như: Borderline-SMOTE [6], Safe-level SMOTE [3] cũng đem lại những hiệu 14. Tính k láng giềng gần nhất cho i và lưu vào quả nhất định hỗ trợ quá trình phân lớp cho các bộ mảng nnarray. dữ liệu mất cân bằng. 15. Populate (N, i, nnarray) 2.1.2. Loại bỏ phần tử lớp đa số 16. Endfor Là phương pháp điều chỉnh phân bố dữ liệu bằng Populate (N, i, nnarray) (hàm sinh các mẫu nhân tạo) cách giảm bớt số lượng phần tử lớp đa số. Loại Input: Số mẫu cần sinh thêm N, mỗi mẫu lớp bỏ một cách ngẫu nhiên các mẫu thuộc lớp đa số thiểu số i, mảng các láng giềng gần nhất nnarray. là đơn giản nhất. Phương pháp này thực hiện loại Output: Vector thuộc tính của mẫu nhân tạo bỏ ngẫu nhiên phần tử thuộc lớp đa số trong tập huấn luyện (hình 3a) cho tới khi có được tỷ lệ phù 1. While N≠0 hợp giữa hai lớp. Với lý do này, số lượng phần tử 2. Chọn ngẫu nhiên một số nn giữa 1 và k trong tập huấn luyện giảm đáng kể (hình 3b). M M u thi u s (a) (b ) Hình 3. Minh họa loại bỏ phần tử lớp đa số Tuy nhiên, việc loại bỏ mẫu có thể sẽ làm hao mới. Hay đối với phương pháp phân lớp SVM, có hụt thông tin và có khả năng làm mất đi những thể sử dụng hằng số phạt khác nhau cho các lớp mẫu mang thông tin quan trọng cho quá trình hoặc điều chỉnh ranh giới lớp dựa trên ý tưởng xây dựng mô hình phân lớp. Khắc phục hạn chế liên hết hạt nhân [11]. của phương pháp trên, một số phương pháp loại bỏ mẫu theo mục tiêu được đề xuất như: Tomek Đối với phương pháp phân lớp K-NN, có thể đề links, One-side Selection, Neighborhood Cleaning xuất một hàm khoảng cách có trọng số. Ý tưởng Rule [7]. này nhằm bù cho sự mất cân bằng trong mẫu huấn luyện mà không làm thay đổi sự phân lớp. 2.2. Hướng tiếp cận ở mức độ thuật toán 2.3. Thuật toán DEC-SVM cho bài toán phân Tiếp cận ở mức độ thuật toán nghĩa là điều chỉnh lớp dữ liệu mất cân bằng các thuật toán phân lớp để tăng cường độ chính Phương pháp sinh thêm phần tử nhân tạo cho xác khi phân lớp đối với dữ liệu mất cân bằng. lớp thiểu số là phương pháp hiệu quả cho các bài Chiến lược chung để đối phó với vấn đề mất cân toán phân lớp dữ liệu mất cân bằng. Tuy nhiên, bằng trong các bộ dữ liệu là lựa chọn một khuynh trong nhiều trường hợp, việc sinh thêm mẫu có hướng quy nạp thích hợp. thể sẽ tạo ra những mẫu dư thừa hoặc nhiễu làm Ví dụ như đối với phương pháp cây quyết định, ảnh hưởng tới hiệu quả phân lớp. Thuật toán cách tiếp cận có thể là điều chỉnh dự đoán xác DEC-SVM dựa trên việc tạo ra phần tử nhân tạo xuất ở lá, hoặc phát triển phương pháp cắt tỉa trên lớp thiểu số nhằm giảm tỷ lệ mất cân bằng, Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 19 NGHIÊN CỨU KHOA HỌC sau đó sử dụng kỹ thuật phân cụm cho tập dữ liệu xi,j nếu rand(j)>CR và j ≠ rand(s) (2) để loại bỏ những mẫu dư thừa hoặc nhiễu. Bằng xnew,j= xmu,j nếu rand(j) ≤ CR hoặc j=rand(s) cách lấy mẫu kết hợp với làm sạch dữ liệu, các mẫu hữu ích vẫn được giữ lại và nâng cao hiệu trong đó: xi,j là thuộc tính thứ j của mẫu thứ i; quả phân lớp. CR là hằng số crossover được lựa chọn ngẫu 2.3.1. Điều chỉnh dữ liệu bằng thuật toán DE nhiên trong [0, 1] và được xác định trước bởi người dùng; Với thuật toán SMOTE, mẫu mới sẽ được sinh ra rand(j) là giá trị được lựa chọn ngẫu nhiên trong từ một mẫu positive (mẫu lớp thiểu số) ban đầu và khoảng [0, 1]. một trong những láng giềng của nó. Với nền tảng là thuật toán MOTE, tuy nhiên, trong thuật toán Giá trị của biến rand(s) là chỉ số của các thuộc tính được lấy một cách ngẫu nhiên, đảm bảo rằng mẫu DE, từ hai trong số các láng giềng gần nhất của mới sinh ra sẽ có ít nhất một thuộc tính từ mẫu một mẫu positive sẽ tạo ra một mẫu “đột biến”, và đột biến. mẫu mới được sinh ra bằng cách lai ghép chéo Số mẫu nhân tạo được tạo ra đúng bằng số mẫu mẫu đột biến này và mẫu positive ban đầu. positive ban đầu, và các mẫu nhân tạo này được 2.3.1.1. Đột biến gán nhãn là positive. Tùy thuộc vào số lượng mẫu positive cần lấy, lặp lại các bước đột biến và Trong tập dữ liệu huấn luyện, đầu tiên chọn ngẫu crossover cho dữ liệu huấn luyện. nhiên một mẫu positive và tìm k láng giềng gần nhất của nó, sau đó chọn ngẫu nhiên hai láng 2.3.2. Kỹ thuật làm sạch dữ liệu sử dụng giềng trong láng giềng đó: x n1 và x n 2 . Một phân cụm mẫu đột biến x mu sẽ được tạo ra bằng cách Sau khi thực hiện thuật toán DE, dữ liệu thu được đã được cải thiện hơn về tỉ lệ giữa hai lớp. Tuy sử dụng công thức (1) với rand(0,1) là nhiên, không loại trừ khả năng sinh ra những mẫu hằng số ngẫu nhiên trong khoảng [0,1]: dư thừa hoặc nhiễu. Để khắc phục, ta sẽ sử dụng x m u = x i + r a nd(0,1) × (x n 1 -x n 2 ) (1) kỹ thuật phân cụm để phân cụm cho tập dữ liệu 2.3.1.2. Crossover với mục đích loại bỏ những mẫu không cần thiết. Qua bước đột biến, ta tạo ra số lượng mẫu đột Chẳng hạn ta thu được các cụm và giả sử được đặt tên là A, B, C, D, E, F như hình 4. Trong đó, biến đúng bằng số lượng mẫu positive ban đầu một số cụm chứa tất cả các mẫu có cùng nhãn trong tập dữ liệu huấn luyện. Ở bước này, ta sẽ sử lớp (các cụm C, D, E và F), những cụm khác chứa dụng các mẫu đột biến cùng với các mẫu positive các mẫu có nhãn lớp khác nhau (cụm A và B), dự ban đầu để tạo ra mẫu nhân tạo mới. Cụ thể, các đoán rằng có thể siêu phẳng của SVM [2, 8] sẽ đi mẫu mới sẽ được hình thành dựa theo (2): qua các cụm này. Hình 4. Minh họa phân cụm tập dữ liệu mất cân bằng Nếu như tất cả các mẫu trong một cụm đều có có chứa tất cả các mẫu negative, ta làm như sau: cùng một nhãn lớp (tức là hoặc cùng là positive ‒ Xác định ngưỡng tương đồng trong (0,1] hoặc cùng là negative), ta sẽ tiến hành loại bỏ những mẫu dư thừa hoặc nhiễu. Giả sử với cụm F ‒ Tính theo công thức (3): 20 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA thứ i; xik là thuộc tính thứ k của mẫu I; Sij là độ (3) tương đồng giữa xi và xj ‒ Tìm mẫu trung tâm gần nhất 2.3.3. Thuật toán ‒ Tính độ tương đồng Sic giữa mỗi mẫu và Phương pháp sinh thêm phần tử cho lớp thiểu số theo (4). Nếu Sic lớn hơn ngưỡng tương đồng bằng thuật toán DE kết hợp với kỹ thuật loại bỏ thì xi sẽ bị loại khỏi F. phần tử dư thừa (nhiễu) bằng phân cụm tạo nên thuật toán điều chỉnh dữ liệu DEC. Sau khi điều chỉnh dữ liệu bằng thuật toán DEC, sử dụng kỹ thuật SVM để phân lớp cho bộ dữ liệu tạo nên mô Ngưỡng tương đồng càng nhỏ thì càng nhiều mẫu hình phân lớp. Quá trình thực hiện phân lớp dữ bị loại bỏ. Trong đó: ni là số lượng mẫu trong cụm liệu được mô tả trong hình 5. Hình 5. Quá trình phân lớp dữ liệu bằng thuật toán DEC-SVM Thuật toán DEC-SVM được mô tả như sau: 1.4. Tạo ra mẫu thiểu số mới từ xi và mẫu đột biến DEC-SVM (N, m, k, s, T) của nó theo x m u công thức: Input: Số mẫu lớp thiểu số