Nâng cao hiệu quả phân lớp dữ liệu bằng cách kết hợp sinh thêm phần tử với giảm số chiều thuộc tính dựa trên bình phương tối thiểu từng phần

Chia sẻ: ViHasaki2711 ViHasaki2711 | Ngày: | Loại File: PDF | Số trang:9

Thêm vào BST

Báo xấu

37
lượt xem 2
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết đề xuất một phương pháp mới, phương pháp kết hợp giảm số chiều thuộc tính bình phương tối thiểu và sinh thêm phần tử nhân tạo SMOTE. Để đánh giá hiệu quả của phương pháp mới này, chúng tôi đã thực nghiệm dựa trên những bộ dữ liệu chuẩn từ nguồn UCI đó là: leukemia, breast-p, coil, colon-cancer.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Nâng cao hiệu quả phân lớp dữ liệu bằng cách kết hợp sinh thêm phần tử với giảm số chiều thuộc tính dựa trên bình phương tối thiểu từng phần

JOURNAL OF SCIENCE OF HNUE DOI: 10.18173/2354-1075.2015-0056 Educational Sci., 2015, Vol. 60, No. 7A, pp. 94-102 This paper is available online at http://stdb.hnue.edu.vn NÂNG CAO HIỆU QUẢ PHÂN LỚP DỮ LIỆU BẰNG CÁCH KẾT HỢP SINH THÊM PHẦN TỬ VỚI GIẢM SỐ CHIỀU THUỘC TÍNH DỰA TRÊN BÌNH PHƯƠNG TỐI THIỂU TỪNG PHẦN Nguyễn Thái Bình, Nguyễn Thị Anh Nga, Nguyễn Thị Hồng và Đặng Xuân Thọ Khoa Công nghệ Thông tin, Trường Đại học Sư phạm Hà Nội Tóm tắt. Ngày nay con người phải đối mặt với lượng thông tin khổng lồ đến từ rất nhiều nguồn khác nhau nhưng những thông tin hữu ích, dữ liệu đáng tin cậy lại chiếm tỉ lệ rất nhỏ. Trong thực tế, cụ thể như trong Y - sinh học xuất hiện ngày càng nhiều bộ dữ liệu có số thuộc tính lớn, thậm chí lên đến hàng nghìn thuộc tính. Tuy nhiên, trong những thuộc tính này lại có rất nhiều thuộc tính dư thừa không có ích trong việc dự đoán lớp thiểu số. Việc phân lớp càng trở nên khó khăn hơn khi gặp phải những bộ dữ liệu có tỉ lệ mất cân bằng cao, nghĩa là có sự chênh lệch về số phần tử giữa các lớp. Từ thực tế đó, chúng tôi xin đề xuất một phương pháp mới, phương pháp kết hợp giảm số chiều thuộc tính bình phương tối thiểu và sinh thêm phần tử nhân tạo SMOTE. Để đánh giá hiệu quả của phương pháp mới này, chúng tôi đã thực nghiệm dựa trên những bộ dữ liệu chuẩn từ nguồn UCI đó là: leukemia, breast-p, coil, colon-cancer. Qua những kết quả thu được chúng tôi thấy rằng phương pháp mới giúp nâng cao hiệu quả phân lớp dữ liệu vừa có số thuộc tính lớn vừa có tỉ lệ mất cân bằng cao. Từ khóa: Phân lớp; dữ liệu mất cân bằng; dữ liệu có số chiều cao; Bình phương tối thiểu từng phần; sinh thêm phần tử nhân tạo. 1. Mở đầu Trong thực tế, cụ thể như trong Y - sinh học xuất hiện ngày càng nhiều bộ dữ liệu có số thuộc tính lớn, thậm chí lên đến hàng nghìn thuộc tính. Tuy nhiên, trong những thuộc tính này lại có rất nhiều thuộc tính dư thừa không có ích trong việc dự đoán lớp thiểu số. Vì vậy, trong thời gian qua đã có rất nhiều hướng tiếp cận khác nhau nhằm làm giảm số thuộc tính dư thừa nhưng không làm mất mát thông tin mà vẫn đảm bảo độ tin cậy cao đó là lựa chọn thuộc tính và trích chọn thuộc tính. Vì thế đã có nhiều thuật toán được đưa ra để giải quyết bài toán giảm số chiều dữ liệu thuộc nhóm lựa chọn thuộc tính như: thuật toán RELIEF, FOCUS, LVF [3]. Tuy nhiên với những tập dữ liệu có số chiều rất cao hoặc các thuộc tính có mối tương quan cao với nhau thì các phương pháp theo hướng lựa chọn thuộc tính tỏ ra kém hiệu quả, bởi khi bỏ bớt thuộc tính sẽ dẫn đến mất mát thông tin và làm thay đổi bản chất của dữ lệu, các thuộc tính trong bảng không còn giữ lại được mối tương quan với nhau, do đó thường cho kết quả có độ tin cậy thấp. Ngày nhận bài: 15/7/2015 Ngày nhận đăng: 01/11/2015 Liên hệ: Nguyễn Thái Bình, e-mail: nguyenthaibinh020906@gmail.com 94 Nâng cao hiệu quả phân lớp dữ liệu bằng cách kết hợp sinh thêm phần tử với giảm số chiều... Trích chọn thuộc tính là một hướng nghiên cứu mới trong các phương pháp giảm số chiều dữ liệu. Ý tưởng chính của nhóm phương pháp này là tạo ra một tập thuộc tính mới đại diện cho tập thuộc tính cũ. Tập thuộc tính mới này mang đầy đủ đặc tính của thuộc tính cũ nhưng nhỏ hơn rất nhiều lần số lượng thuộc tính cũ. Việc giảm chiều này hạn chế tối đa mất mát thông tin và đặc biệt là không làm thay đổi bản chất của dữ liệu ban đầu. Đại diện cho hướng tiếp cận này là nhóm phương pháp: phân tích thành phần chính PCA [10], phân tích tương quan kinh điển CCA [10] và phương pháp bình phương tối thiểu từng phần PLS [10]. Đặc biệt là phương pháp PLS việc giảm số chiều (thuộc tính) của tập dữ liệu dựa vào cả tập thuộc tính X và tập nhãn Y. Phương pháp PLS sử dụng tập nhãn để xây dựng từng trục tọa độ trong không gian dữ liệu mới. Để tìm hệ trục tọa độ trong không gian mới, PLS sử dụng cách giải bài toán cực đại hiệp phương sai, nhờ đó phạm vi áp dụng rộng hơn và độ tin cậy của mô hình cũng cao hơn. Tuy nhiên trong thực tế cho thấy, không chỉ xuất hiện những bộ dữ liệu có số thuộc tính lớn mà còn xuất hiện nhiều bộ dữ liệu có tỉ lệ mất cân bằng cao, nghĩa là có sự chênh lệch về số phần tử giữa các lớp. Vấn đề không cân bằng lớp thường được quy về bài toán phân lớp nhị phân mà ở đó một lớp mà người ta quan tâm chiếm tỉ lệ rất nhỏ so với lớp còn lại. Trong nhiều ứng dụng thực tế, chẳng hạn như phát hiện các giao dịch gian lận, phát hiện xâm nhập mạng trái phép, phát hiện tràn dầu từ hình ảnh Radar vệ tinh, sự rủi ro trong quản lí, phân loại văn bản hay trong chẩn đoán y học [1, 2]. Việc mất cân bằng lớp ảnh hưởng rất lớn đến hiệu quả của các mô hình phân lớp. Chẳng hạn trong cơ sở dữ liệu y học, số người mắc bệnh ung thư chiếm tỉ lệ rất ít trên tổng số người bình thường. Việc chuẩn đoán sai người bị bệnh thành không bị bệnh ảnh hưởng nghiêm trọng đến sức khỏe và tính mạng con người. Vì vậy, trong thời gian qua đã có những nghiên cứu về khai phá dữ liệu mất cân bằng với các hướng tiếp cận khác nhau nhưng phương pháp sinh thêm phần tử là một trong những hướng đơn giản mà hiệu quả, chẳng hạn như: SMOTE [2], ADD-BODER-SMOTE [6]. Thuật toán SMOTE giúp cải thiện mật độ của lớp thiểu số, đồng thời không làm thay đổi lớp đa số. Trong thuật toán SMOTE mỗi dữ liệu được tạo ra bằng cách thực hiện tính khoảng cách của mỗi phần tử lớp thiểu số đến các phần tử còn lại trong bộ dữ liệu. Sau đó đưa ra k hàng xóm gần nó nhất và chọn ngẫu nhiên một giá trị bất kì trong k hàng xóm đó để sinh thêm các phần tử nhân tạo. Tuy nhiên, vấn đề càng trở nên khó khăn hơn khi xuất hiện những bộ dữ liệu vừa có tỉ lệ mất cân bằng cao vừa có số thuộc tính rất lớn. Do đó, để giải quyết cùng lúc hai vấn đề trên, chúng tôi đã đề xuất một phương pháp mới, phương pháp kết hợp sinh thêm phần tử với giảm số chiều dựa trên bình phương tối thiểu từng phần (PLS_SMOTE) trong lớp thiểu số. 2. Nội dung nghiên cứu 2.1. Phương pháp bình phương tối thiểu từng phần (PLS) Phương pháp bình phương tối thiểu từng phần (Partial Least Square) do Herman Wold đưa ra vào năm 1966 [9]. PLS là một nhóm các kĩ thuật nhằm xây dựng mô hình quan hệ giữa hai bộ biến đa chiều (là tập dữ liệu học và tập nhãn), tức là xây dựng hàm hồi quy giữa biến phụ thuộc và biến độc lập trong bài toán hồi quy hoặc xây dựng một hàm rời rạc nhằm xác định lớp giá trị nhận được của biến. 95 Nguyễn Thái Bình PLS là một phương pháp học có giám sát như CCA, có nghĩa là khi thực hiện giảm số chiều dữ liệu, PLS dựa vào cả thông tin của tập dữ liệu học và thông tin trong tập dữ liệu nhãn. Điều này đảm bảo tính “định hướng” theo những thông tin có sẵn thu được từ kinh nghiệm thực tiễn hoặc thông qua các thí nghiệm. Ý tưởng của PLS là biểu diễn biến được giải thích Y và biến giải thích X thông qua giá trị biến trung gian (biến ẩn). Biến ẩn được xác định bằng cách tổ hợp tuyến tính các biến ban đầu có mối quan hệ với nhau. Nhờ vậy, số lượng biến giảm đi rất nhiều so với số lượng biến ban đầu. Điều này loại bỏ được sai sót chủ quan khi lựa chọn biến tham gia vào bài toán. Việc lựa chọn số lượng biến ẩn phụ thuộc vào mục đích của người sử dụng về số chiều thể hiện của đối tượng cần quan sát. Vì vậy, PLS chủ yếu được sử dụng nhằm giảm số chiều dữ liệu cho tập biến. PLS xây dựng không gian mới có số chiều nhỏ hơn số chiều của không gian ban đầu rất nhiều lần, hệ tọa độ không gian là hệ trực chuẩn (các trục tọa độ trực giao nhau). PLS tìm các vector điểm của không gian mới bằng cách giải bài toán cực đại hiệp phương sai giữa các bộ biến. Nghĩa là bài toán trở về giải bài toán trị riêng, từ đó xác định vector riêng (được trình bày cụ thể trong giải thuật NIPALS). Số lượng vector riêng chính là số chiều cần sử dụng, được lựa chọn theo độ lớn của trị riêng đó. Hàm thực hiện hồi quy mô hình dữ liệu tổng quát, tùy theo cách lựa chọn phương thức, có thể biến đổi thành hồi quy PLS, PCA, hay CPPLS (bình phương tối thiểu từng phần chính tắc) tương ứng với các gói hồi quy khác nhau như gói PLS, PCR, CPPLS. 2.2. SMOTE Trong thực tế ngày càng xuất hiện nhiều bộ dữ liệu có tỉ lệ mất cân bằng cao, nghĩa là có sự chênh lệch về số phần tử giữa các lớp. Vấn đề không cân bằng lớp thường được quy về bài toán phân lớp nhị phân mà ở đó một lớp mà người ta quan tâm chiếm tỉ lệ rất nhỏ so với lớp còn lại. Trong nhiều ứng dụng thực tế, chẳng hạn như tỉ lệ mất cân bằng trong phát hiện các giao dịch gian lận là 100:1 hay 100 000:1 (Provost & Fawcett, 2001), các bộ dữ liệu mất cân bằng trong các lĩnh vực như cuộc gọi điện thoại lừa đảo (Fawcett & Provost, 1996), quản lí viễn thông (Ezawa, Singh, & Norton, 1996), phân loại văn bản (Lewis & Catlett, 1994; Dumais, Platt, Heckerman, & Sahami, năm 1998; Mladeni’c & Grobelnik, 1999; Lewis & Ringuette, 1994; Cohen, 1995) và phát hiện của sự cố tràn dầu trong hình ảnh vệ tinh (Kubat, Holte, & Matwin, 1998) [1, 2]. Việc mất cân bằng lớp ảnh hưởng rất lớn đến hiệu quả của các mô hình phân lớp. Vì vậy trong thời gian qua đã có một số hướng tiếp cận khác nhau để giải quyết vấn đề mất cân bằng lớp. Một trong số đó là hướng tiếp cận dựa trên cấp độ dữ liệu. Thuật toán SMOTE giúp cải thiện mật độ của lớp thiểu số, đồng thời không làm thay đổi lớp đa số. SMOTE là một phương pháp lấy mẫu trong đó lớp thiểu số được lấy mẫu bằng cách lấy mỗi phần tử ở lớp thiểu số và chọn k láng giềng gần nó nhất trong lớp thiểu số. Tùy thuộc vào số lượng lấy mẫu được yêu cầu, hàng xóm từ k láng giềng gần nhất được chọn ngẫu nhiên. Các mẫu nhân tạo được tạo ra bằng cách: Lấy sự khác biệt giữa các vector đặc trưng (mẫu) được xem xét và hàng xóm gần nhất của nó [2]. Nhân sự khác biệt này với một số ngẫu nhiên giữa 0 và 1, và thêm vào nó các vector đặc trưng được xem xét. Điều này làm chọn được một điểm ngẫu nhiên dọc theo đoạn giữa hai thuộc tính cụ thể. Phương pháp này quyết định các phần tử thiểu số để lớp thiểu số trở thành lớp phổ biến hơn. 96 Nâng cao hiệu quả phân lớp dữ liệu bằng cách kết hợp sinh thêm phần tử với giảm số chiều... 2.3. Phương pháp kết hợp PLS và SMOTE Thuật toán sinh thêm phần tử lớp thiểu số, mà trong đó thuật toán SMOTE là một trong những thuật toán tiêu biểu làm tăng tình hiệu quả của việc phân lớp nhờ tăng lượng phần tử nhân tạo của lớp thiểu số. Nhưng cũng vì thế mà tăng dung lượng của bộ dữ liệu lên theo lượng phần tử nhân tạo thêm vào. Mặt khác hiện nay trong các ứng dụng thực tế thì các bộ dữ liệu thường có số thuộc tính rất lớn, có thể lên đến hàng nghìn thuộc tính. Điều đó dẫn đến quá trình phân lớp sẽ mất rất nhiều thời gian cùng với đó là việc phân lớp những bộ dữ liệu đó sẽ không còn chính xác, hoặc là độ chính xác phân lớp dữ liệu sẽ không cao. Để khắc phục việc tăng dung lượng bộ dữ liệu, giảm số thuộc tính dư thừa đó chúng tôi đã đưa ra ý tưởng kết hợp giữa hai thuật toán đó là sinh thêm phần tử (SMOTE) và giảm số chiều dữ liệu (PLS). Ý tưởng kết hợp này mang lại lợi ích đó là dung lượng bộ dữ liệu không tăng cao hơn, hoặc chỉ bằng dung lượng bộ dữ liệu gốc, giảm được thời gian chạy phân lớp xuống rất nhiều, và quan trọng hơn đó là việc kết hợp giữa sinh thêm phần tử và giảm số chiều dữ liệu do đó cho kết quả phân lớp cao hơn so với các phương pháp riêng biệt. Thuật toán SMOTE chỉ lấy ngẫu nhiên một trong số k phần tử lân cận thuộc lớp thiểu số để sinh ra phẩn tử mới, và giữ nguyên lớp đa số. Do đó đã làm tăng đáng kể mật độ của lớp thiểu số một cách khoa học và tạo ra sự cân bằng dữ liệu. Còn phương pháp PLS lại không tác động đến các phần tử dữ liệu mà lại tác động đến số chiều (thuộc tính) của dữ liệu, chuyển sang một không gian mới. Sự kết hợp giữa hai giải thuật SMOTE và PLS là sự kết hợp giữa hai ưu điểm của hai thuật toán SMOTE và PLS. Làm tăng phần tử của lớp thiểu số, vừa giảm số chiều dữ liệu. Càng làm tăng sự chính xác để phân lớp tốt dữ liệu trong phân lớp dữ liệu mất cân bằng, lại rút ngắn thời gian chạy các bộ dữ liệu. 2.4. Thực nghiệm 2.4.1. Các tiêu chí đánh giá Đối với phân lớp dữ liệu có hai lớp, một lớp với rất ít mẫu huấn luyện nhưng tầm quan trọng cao hơn được gọi là lớp tích cực (positive); khác với lớp phổ biến nhưng không có nhiều ý nghĩa cũng như tầm quan trọng được gọi là lớp tiêu cực (negative). Mẫu có thể được phân loại thành bốn nhóm trong quá trình phân loại như kí hiệu trong ma trận nhầm lẫn sau: Bảng 1. Ma trận nhầm lẫn Nhãn dự đoán Nhãn Thực tế Lớp Postive Lớp Negative Lớp Positive True Positive (TP) False Positive (FP) Lớp Negative False Negative (FN) True Negative (TN) Các tiêu chí đánh giá dựa trên bảng ma trận nhầm lẫn: TPrate = TP/ (TP+FN) (1) TNrate = TN/ (TN+FP) (2) √ G-mean= T Prate .T Nrate (3) G-mean là một độ đo dùng để đánh giá hiệu quả phân lớp dữ liệu mất cân bằng giữa hai lớp [2, 4]. 97 Nguyễn Thái Bình 2.4.2. Dữ liệu Chúng tôi đã tiến hành cài đặt và chạy chương trình bằng ngôn ngữ R và Perl được thực nghiệm trên 4 bộ dữ liệu mất cân bằng từ nguồn UCI (University of California, Irvine) là: breast-p, coi2000, leukemia và colon-cancer. Bảng 2. Các bộ dữ liệu từ UCI Tên dữ liệu Số phần tử Số thuộc tính Tỉ lệ mất cân bằng Breast-p 198 32 1:4 Coil2000 5822 86 1:16 Leukemia 72 7128 1:3 Colon - cancer 62 2000 1:2 2.4.3. Thực nghiệm Để chuẩn bị dữ liệu thực nghiệm chúng tôi đã thực hiện so sánh 8 phương pháp sau: Dữ liệu gốc (original), dữ liệu giảm số chiều bằng phương pháp PLS ở cả 3 mô hình điều chỉnh (PLS, CPPLS, PCR), dữ liệu với các phương pháp kết hợp của 3 mô hình điều chỉnh với thuật toán SMOTE ta có (PLS_SMOTE, CPPLS_SMOTE, PCR_SMOTE). Với mỗi cách chạy khác nhau thì sẽ có tham số đầu vào cho phương pháp PLS và SMOTE khác nhau. Chẳng hạn với phương pháp PLS thì tham số đầu vào (số biến ẩn) phụ thuộc vào giá trị căn bậc hai bình phương trung bình lỗi dự báo (RMSEP) [7, 8], ví dụ như tại số biến ẩn là 5 trị số RMSEP không có mức giảm đáng kể vậy thì số biến ẩn bằng 5 chính là số lượng biến ẩn đủ dùng cho các mô hình điều chỉnh PLS, CPPLS và PCR. Đối với phương pháp SMOTE tham số đầu vào là N, ứng với mỗi giá trị của N thay đổi sẽ sinh ra một số lượng phần tử nhân tạo là khác nhau để cố gắng cân bằng dữ liệu giữa tỉ lệ lớp thiểu số và lớp đa số. Sau khi thực hiện các phương pháp PLS và SMOTE để tác động lên số phần tử cũng như thuộc tính của dữ liệu chúng tôi sử dụng thuật toán phân lớp SVM (Support Vector Machine) cuối cùng để đánh giá độ chính xác phân lớp của phương pháp kết hợp chúng tôi dựa trên giá trị trung bình G-mean của 20 lần 10 fold cross-validation. 2.5. Kết quả thảo luận Với mỗi hình bên dưới là đồ thị biểu diễn giá trị G-mean của 8 phương pháp chạy. Khi thực nghiệm các phương pháp chạy dữ liệu chúng tôi đưa ra kết quả thu được theo giá trị G-mean tốt nhất. Trong Hình 1 đối với dữ liệu breast-p thì giá trị G-mean của phương pháp kết hợp PLS_SMOTE là 68,45% cao hơn hẳn so với các phương pháp khác. Trong Hình 2 Đối với dữ liệu coil2000 với tỉ lệ mất cân bằng lớn 1:16 ta thấy rằng giá trị G-mean của phương pháp kết hợp PLS_SMOTE là 29,72% cao hơn hẳn so với hai phương pháp kết hợp khác là PCR_SMOTE và CPPLS_SMOTE lần lượt là 29,72% và 7,1%. Trong Hình 3 đối với dữ liệu leukemia ta cũng thấy được rằng giá trị G-mean của phương pháp PLS_SMOTE cao hơn so với các phương pháp còn lại (CPPLS_SMOTE, PCR_SMOTE, SMOTE, PLS, CPPPLS, SMOTE, original) là 94,76%. Tương tự trong Hình 4 đối với dữ liệu colon-cancer thì dựa vào đồ thị ta thấy rằng G-mean của phương pháp kết hợp PLS_SMOTE là 87,12% cao hơn so với origional là 86,46% và SMOTE là 85,44%. 98 Nâng cao hiệu quả phân lớp dữ liệu bằng cách kết hợp sinh thêm phần tử với giảm số chiều... Hình 1. Đồ thị so sánh giá trị G-mean của bộ dữ liệu breast-p Hình 2. Đồ thị so sánh giá trị G-mean của bộ dữ liệu coil2000 Hình 3. Đồ thị so sánh giá trị G-mean của bộ dữ liệu leukemia 99 Nguyễn Thái Bình Hình 4. Đồ thị so sánh giá trị G-mean của bộ dữ liệu colon-cancer Do đó, để đánh giá phương pháp kết hợp trên có ý nghĩa thống kê hay không, chúng tôi áp dụng kiểm định T-test. Nếu p-value của kiểm định này nhỏ hơn hoặc bằng 0.05 thì ta nói hai giá trị trung bình khác biệt và có ý nghĩa thống kê. Trong bài báo này, chúng tôi sử dụng hàm t.test trong gói stats của R để tính giá trị p-value. Dựa vào kết quả G-mean của thuật toán phân lớp Ksvm đối với từng cách chạy của mỗi bộ dữ liệu, chúng tôi đã tiến hành tính giá trị p-value cụ thể như sau: Bảng 3. Giá trị p-value Datasets p-value Original SMOTE PLS PLS_ CPPLS CPPLS_ SMOTE SMOTE Breast-p Original x SMOTE