intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Nâng cao hiệu quả dự đoán phá sản dựa trên phương pháp kết hợp học sâu và SMOTEENN

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:10

13
lượt xem
2
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Nghiên cứu này giới thiệu một phương pháp tiên tiến kết hợp giữa kỹ thuật học sâu và các chiến lược cân bằng dữ liệu, nhằm mục tiêu nâng cao độ chính xác trong việc dự đoán phá sản. Kết quả thực nghiệm khẳng định tính chính xác cao và khả năng ứng dụng thực tế của mô hình đề xuất, mở ra hướng tiềm năng cho việc dự đoán tài chính, qua đó góp phần vào sự phát triển bền vững của doanh nghiệp và nền kinh tế.

Chủ đề:
Lưu

Nội dung Text: Nâng cao hiệu quả dự đoán phá sản dựa trên phương pháp kết hợp học sâu và SMOTEENN

  1. PHÂN TÍCH ĐỊNH LƯỢNG CÁC VẤN ĐỀ KINH TẾ VÀ XÃ HỘI TRONG MÔI TRƯỜNG SỐ LẦN THỨ 3 NÂNG CAO HIỆU QUẢ DỰ ĐOÁN PHÁ SẢN DỰA TRÊN PHƯƠNG PHÁP KẾT HỢP HỌC SÂU VÀ SMOTEENN Đặng Xuân Thọ Học viện Chính sách và Phát triển Email: thodx@apd.edu.vn Tóm tắt: Trong bối cảnh hiện nay, việc dự đoán phá sản của doanh nghiệp đang trở nên cực kỳ quan trọng, giúp các nhà quản lý, nhà đầu tư, và các bên liên quan đưa ra quyết định sáng suốt để phòng ngừa rủi ro. Nắm bắt được tính cấp thiết của vấn đề, nghiên cứu này giới thiệu một phương pháp tiên tiến kết hợp giữa kỹ thuật học sâu và các chiến lược cân bằng dữ liệu, nhằm mục tiêu nâng cao độ chính xác trong việc dự đoán phá sản. Quá trình nghiên cứu bao gồm các bước tiền xử lý dữ liệu cẩn thận, cùng với việc phát triển mô hình dựa trên các thuật toán phân loại, trong đó chú trọng đến mô hình học sâu kết hợp với các phương pháp cân bằng dữ liệu SMOTE, ADASYN, và SMOTEENN. Kết quả thực nghiệm khẳng định tính chính xác cao và khả năng ứng dụng thực tế của mô hình đề xuất, mở ra hướng tiềm năng cho việc dự đoán tài chính, qua đó góp phần vào sự phát triển bền vững của doanh nghiệp và nền kinh tế. Từ khóa: Dự đoán phá sản, Học sâu, Dữ liệu mất cân bằng, Khai phá dữ liệu, SMOTE 1. Giới thiệu Dự đoán phá sản, còn được gọi là dự đoán phá sản doanh nghiệp, là một chủ đề rất được quan tâm trong lĩnh vực tài chính kế toán [1], vì sức khỏe của một công ty rất quan trọng đối với các khoản nợ, nhà đầu tư, cổ đông, đối tác, ngay cả người mua và nhà cung cấp. Bài toán này đã và đang được rất nhiều nhà nghiên cứu tập trung nhằm phát triển các phương pháp và kỹ thuật để dự đoán mức độ phá sản của các doanh nghiệp nhanh hơn và chính xác hơn. Chủ đề nghiên cứu này có thể bắt nguồn từ gần 50 năm trước, khi các kỹ thuật học máy thống kê nổi tiếng được sử dụng trong dự đoán phá sản. Từ những năm 1990, các mô hình học máy đã được áp dụng rộng rãi làm công cụ dự đoán sự phá sản của các công ty, chẳng hạn như cây quyết định, mạng lưới thần kinh và máy vector hỗ trợ [2-3]. Tương tự như bài toán chấm điểm tín dụng, dự đoán phá sản cũng thường là một vấn đề phân lớp, có nghĩa là nó có thể được giải quyết bằng các thuật toán phân lớp. Nói chung, nhiệm vụ của dự đoán phá sản là dự đoán liệu doanh nghiệp có phá sản hay không, đây là một bài toán phân loại nhị phân. Để tiến hành dự đoán một cách chính xác, các nhà nghiên cứu thường sử dụng thuật toán để huấn luyện các bộ dữ liệu, chẳng hạn như dữ liệu tài chính từ báo cáo tài chính của công ty. Nói về dữ liệu báo cáo tài chính, Beaver có lẽ là người đầu tiên nghiên cứu dự đoán phá sản bằng cách sử dụng những dữ liệu này [4]. Quá trình đào tạo là nơi áp dụng các kỹ thuật học máy. Thông qua quá trình đào tạo tập dữ liệu, chúng ta có thể thu được một mô hình có độ chính xác tốt, từ đó có thể được sử dụng để dự đoán phá sản. Đây là nguyên tắc cơ bản của dự đoán phá sản bằng cách sử dụng kỹ thuật học máy. Gần đây, học sâu đã xuất hiện và dần phát triển thành một kỹ thuật mạnh mẽ cho nhiều ứng dụng. Kỹ thuật học sâu đã đạt được thành công lớn trong lĩnh vực lái xe ô tô, thị giác máy tính, nhận dạng giọng nói, xử lý ngôn ngữ tự nhiên cũng như các vấn đề phân loại trong kinh doanh và quản lý như dự đoán phá sản và chấm điểm tín dụng. Trong bài báo này, chúng tôi sẽ 607
  2. PHÂN TÍCH ĐỊNH LƯỢNG CÁC VẤN ĐỀ KINH TẾ VÀ XÃ HỘI TRONG MÔI TRƯỜNG SỐ LẦN THỨ 3 áp dụng các kỹ thuật học máy và học sâu được sử dụng trong dự đoán phá sản nhằm nâng cao hiệu quả dự đoán phá sản được tốt hơn. Bên cạnh đó, trong nghiên cứu này chúng tôi nhận thấy dữ liệu thực tế của bài toán dự đoán phá sản có xu hướng bị mất cân bằng dữ liệu rất lớn. Cụ thể, trong dữ liệu số lượng các doanh nghiệp phá sản sẽ chiếm số lượng rất nhỏ trong toàn bộ dữ liệu và gọi là dữ liệu lớp thiểu số. Trong khi đó, số lượng các doanh nghiệp không phá sản thì chiếm số lượng rất lớn, nhiều hơn rất nhiều so với lớp còn lại, và gọi là dữ liệu lớp đa số. Khi áp dụng các thuật toán học máy chuẩn vào dữ liệu mất cân bằng thì xuất hiện tình huống mô hình học máy dự đoán tốt cho tập dữ liệu lớp đa số (doanh nghiệp không phá sản), nhưng lại dự đoán rất kém cho dữ liệu lớp thiểu số (doanh nghiệp phá sản). Hậu quả là rất nhiều doanh nghiệp thực sự phá sản sẽ bị dự đoán nhầm là không phá sản. Trong lĩnh vực dự đoán phá sản, những sai sót như này sẽ phải trả giá đắt. Do đó, việc tập trung nghiên cứu vấn đề mất cân bằng dữ liệu có ý nghĩa đặc biệt. Thách thức về việc mất cân bằng dữ liệu xuất hiện ngày càng phổ biến rộng rãi và bao gồm nhiều lĩnh vực quan trọng, đặc biệt là lĩnh vực dự đoán phá sản. Ngoài ra, phần lớn các thuật toán học máy đã được báo cáo là thiếu khả năng giải quyết hiệu quả vấn đề mất cân bằng và chưa có nhiều nghiên cứu quan tâm giải quyết vấn đề mất cân bằng trong bài toán dự đoán phá sản. Một số đóng góp chính trong nghiên cứu này có thể chỉ ra như sau: (a) Chúng tôi giới thiệu bài toán dự đoán phá sản như một vấn đề quan trọng hàng đầu đối với các doanh nghiệp. Đồng thời phân tích một số phương pháp giải quyết hiện nay của các nhà nghiên cứu khác. (b) Trình bày bất cập và khó khăn trong việc giải quyết vấn đề mất cân bằng dữ liệu xuất hiện trong bài toán dự đoán phá sản. Chúng tôi cũng trình bày một số phương pháp nhằm giải quyết vấn đề này. (c) Nghiên cứu và đề xuất kết hợp phương pháp học sâu tiên tiến và phương pháp giải quyết vấn đề mất cân bằng. Từ đó, chúng tôi chứng minh rằng việc áp dụng các phương pháp này sẽ cải thiện hiệu suất dự đoán phá sản so với các kỹ thuật trước đó. Các phần tiếp theo của bài báo này được tổ chức như sau: Phần 2 cung cấp một khảo sát cơ bản về các nghiên cứu hiện có trong lĩnh vực này, đánh giá ưu điểm và nhược điểm của các phương pháp trước đó. Phương pháp tiếp cận đề xuất của chúng tôi được mô tả trong Phần 3, làm sáng tỏ các thành phần và quy trình triển khai thực nghiệm. Phần 4 trình bày chi tiết các kết quả thực nghiệm, phân tích làm sáng tỏ hiệu quả và hiệu suất của phương pháp của chúng tôi. Cuối cùng, Phần 5 tóm tắt những phát hiện của chúng tôi, rút ra kết luận dựa trên kết quả và cân nhắc về các hướng tiềm năng cho nghiên cứu và tiến bộ trong tương lai. 2. Một số phương pháp liên quan Trong phần này, chúng tôi sẽ điểm qua và đánh giá một số phương pháp đại diện trong lĩnh vực dự đoán phá sản, bao gồm các kỹ thuật như Phân tích phân biệt đa biến (MDA), Hồi quy logistic (LR), phương pháp Ensemble và các mô hình nổi tiếng như Mạng thần kinh (NN) và Máy vectơ hỗ trợ (SVM). Trong nghiên cứu của Altman, phương pháp phân tích phân biệt đa biến (MDA) đã được áp dụng để phân loại các doanh nghiệp dựa trên khả năng thanh toán và mất khả năng thanh toán, sử dụng dữ liệu báo cáo tài chính của doanh nghiệp [1]. Altman đã sử dụng năm tỷ số tài chính quan trọng làm đầu vào, bao gồm Vốn lưu động / Tổng tài sản, Thu nhập trước lãi vay 608
  3. PHÂN TÍCH ĐỊNH LƯỢNG CÁC VẤN ĐỀ KINH TẾ VÀ XÃ HỘI TRONG MÔI TRƯỜNG SỐ LẦN THỨ 3 và thuế (EBIT) / Tổng tài sản, những tỷ số này đã trở thành phổ biến và được sử dụng rộng rãi trong các nghiên cứu sau này. Ohlson và các công sự đã giới thiệu mô hình Hồi quy logistic (LR) vào nghiên cứu dự đoán vỡ nợ, sử dụng một tập hợp các tỷ số tài chính mới làm đầu vào [5]. Hồi quy logistic thực chất là một mô hình tuyến tính, trong đó sử dụng hàm sigmoid để thực hiện phân loại, và đầu ra của nó thuộc khoảng từ 0 đến 1, giúp LR có khả năng giải thích xác suất. Khác với mô hình của Altman, đầu ra của LR là xác suất phá sản, trong khi MDA tạo ra điểm số được sử dụng để phân loại một quan sát thành loại tốt hoặc loại xấu. Trong một nghiên cứu của Zhao và các cộng sự đã phát triển một hệ thống chấm điểm tín dụng tự động với độ chính xác và hiệu quả cao (87%) bằng cách sử dụng Multi-Layer Perceptron Neural Network (MLPNN), được kiểm thử trên dữ liệu tín dụng của Đức [6]. Mạng nơ-ron (NN) là một trong những phương pháp phổ biến nhất trong lĩnh vực học máy, mô phỏng quá trình xử lý thần kinh trong não người, gồm nhiều lớp, trong đó các biến đầu vào ảnh hưởng đến lớp đầu tiên và lớp cuối cùng tạo ra biến đầu ra. Ngoài ra, có thể kết hợp nhiều mô hình NN đơn lẻ để tạo thành một mô hình tổng hợp, có thể hoạt động hiệu quả hơn so với một bộ phân loại đơn lẻ như trong nghiên cứu của Tsai và Wu [7]. Bên cạnh đó, hiện nay có nhiều phương pháp khác nhau dựa trên học máy và trí tuệ nhân tạo cũng đã được áp dụng trong lĩnh vực dự đoán phá sản, bao gồm cả tập thô [8-10], lý luận dựa trên trường hợp [11-12], máy vectơ hỗ trợ [13-14], và nhiều phương pháp khác. Có thể thấy ngày càng có nhiều bài báo được xuất bản liên quan đến dự đoán phá sản trong kinh doanh từ năm 2000. Tuy nhiên, hiện nay chưa có nhiều nghiên cứu tập trung vào sử dụng học sâu, một công cụ rất mạnh trong học máy. Đồng thời, các phương pháp hiện nay cũng chưa quan tâm đến giải quyết vấn đề mất cân bằng dữ liệu. Vì thực tế cho thấy bài toán dự đoán phá sản xuất hiện tình trạng dữ liệu mất cân bằng khi số lượng doanh nghiệp phá sản ít hơn tổng số doanh nghiệp nhiều lần, đây chính là nguyên nhân làm ảnh hưởng độ chính xác trong dự đoán. Trong phần sau chúng tôi sẽ trình bày chi tiết hơn phương pháp đề xuất nhằm nâng cao hiệu quả dự đoán phá sản. 3. Phương pháp đề xuất Chúng tôi đề xuất một quy trình thực nghiệm để dự đoán phá sản bao gồm ba bước. Đầu tiên, chúng tôi thu thập dữ liệu và áp dụng chiến thuật kiểm định chéo k-fold để chia tập dữ liệu đã thu thập thành hai tập dữ liệu gồm dữ liệu huấn luyện và dữ liệu kiểm thử. Thứ hai, nhằm giải quyết vấn đề mất cân bằng dữ liệu, chúng tôi sử dụng các phương pháp cân bằng dữ liệu như SMOTE, ADASYN, và SMOTEENN. Cuối cùng, sau khi thu được dữ liệu đã cân bằng, chúng tôi tiến hành áp dụng các thuật toán học máy như KNN, SVM, RF, AdaBoost, và Deep Learning để xây dựng mô hình dự đoán phá sản và kiểm thử độ chính xác của mô hình. Minh họa các bước của quy trình thực hiện này được trình bày trong Hình 1. 609
  4. PHÂN TÍCH ĐỊNH LƯỢNG CÁC VẤN ĐỀ KINH TẾ VÀ XÃ HỘI TRONG MÔI TRƯỜNG SỐ LẦN THỨ 3 Hình 1: Quy trình thực nghiệm dự đoán phá sản 3.1. Phương pháp SMOTE SMOTE (Synthetic Minority Over-sampling Technique) [15] là một kỹ thuật quan trọng được áp dụng để xử lý vấn đề mất cân bằng giữa các lớp trong bài toán phân loại. Nó giải quyết thách thức của dữ liệu mất cân bằng bằng cách tạo ra các mẫu ít nhiều hơn từ các mẫu thuộc lớp thiểu số trong tập dữ liệu. Ý tưởng này được đề xuất bởi nhóm nghiên cứu Chawla và đồng nghiệp vào năm 2002, và từ đó, SMOTE đã trở thành một công cụ quan trọng, đóng góp vào việc cải thiện hiệu suất của các mô hình máy học trong các tình huống mất cân bằng dữ liệu. SMOTE thực hiện việc tạo ra các mẫu tổ hợp bằng cách kết hợp các mẫu thiểu số có sẵn với láng giềng xung quanh chúng. Quá trình này gia tăng dữ liệu của lớp thiểu số, giúp mô hình học được các đặc trưng quan trọng từ lớp này mà có thể bị bỏ lỡ nếu chỉ sử dụng dữ liệu không cân bằng. Không chỉ giúp cải thiện độ chính xác của mô hình, SMOTE còn giảm thiểu nguy cơ overfitting, làm cho thuật toán trở thành một công cụ quan trọng trong nhiều ứng dụng thực tế. Điều này đặc biệt quan trọng khi chúng ta đối mặt với tình trạng mất cân bằng dữ liệu, nơi lớp thiểu số mang ý nghĩa quan trọng và đòi hỏi sự chú ý đặc biệt trong quá trình huấn luyện mô hình. 3.2. Phương pháp ADASYN ADASYN (Adaptive Synthetic Sampling) [16] đóng vai trò quan trọng trong việc giải quyết vấn đề mất cân bằng lớp trong bài toán phân loại. Được phát triển với mục tiêu cải thiện hiệu suất của các mô hình máy học khi đối mặt với dữ liệu không đồng đều, ADASYN đặc biệt chú trọng vào việc tạo ra các mẫu tổ hợp cho lớp thiểu số thông qua một phương pháp tiếp cận linh hoạt và thích ứng. Khác với các phương pháp truyền thống, ADASYN không chỉ giới hạn việc tạo ra mẫu tổ hợp với một tỷ lệ xác định, mà còn tận dụng độ chênh lệch giữa số lượng mẫu trong lớp thiểu số và lớn số. Điều này đảm bảo rằng các mẫu được tạo ra tập trung vào những khu vực của lớp thiểu số có độ quan trọng cao. Thuật toán ADASYN thường được ưa chuộng trong các tình huống mà mất cân bằng dữ liệu không đồng đều và không thể dự đoán trước được. Tính linh hoạt của nó trong việc tạo ra mẫu dựa trên sự thích ứng với độ chênh lệch giữa các lớp đã giúp nó trở thành một công cụ 610
  5. PHÂN TÍCH ĐỊNH LƯỢNG CÁC VẤN ĐỀ KINH TẾ VÀ XÃ HỘI TRONG MÔI TRƯỜNG SỐ LẦN THỨ 3 quan trọng để cải thiện khả năng phân loại của mô hình trong các bài toán thực tế. 3.3. Phương pháp SMOTEENN SMOTEENN (SMOTE + Edited Nearest Neighbors) [17] là một phương pháp sử dụng cả phương pháp tạo mẫu tổ hợp (SMOTE) và Edited Nearest Neighbors (ENN) nhằm giải quyết vấn đề mất cân bằng dữ liệu trong bài toán phân loại. SMOTEENN tận dụng sự linh hoạt của SMOTE trong việc tạo ra mẫu từ lớp thiểu số và khả năng loại bỏ mẫu nhiễu bằng cách sử dụng ENN. Quá trình của SMOTEENN bắt đầu bằng việc tạo ra các mẫu tổ hợp thông qua việc kết hợp mẫu từ lớp thiểu số với láng giềng xung quanh, theo cách thức của phương pháp SMOTE. Sau đó, sử dụng ENN để kiểm tra và loại bỏ các mẫu nhiễu có thể ảnh hưởng tiêu cực đến quá trình phân loại. Điều này góp phần làm sạch dữ liệu và tăng cường khả năng phân loại của mô hình. SMOTEENN có phù hợp với cả các đặc trưng rời rạc và liên tục, làm cho nó trở nên phù hợp cho nhiều loại dữ liệu khác nhau. Đây là một công cụ hiệu quả để xử lý vấn đề mất cân bằng dữ liệu, đặc biệt là trong các bài toán mà lớp thiểu số mang tính quan trọng và yêu cầu độ chính xác cao. 4. Thực nghiệm 4.1. Dữ liệu Trong nghiên cứu này, chúng tôi đã lấy dữ liệu từ Tạp chí Kinh tế Đài Loan trong khoảng thời gian từ năm 1999 đến 2009 [18]. Việc xác định phá sản của các công ty được thực hiện dựa trên các quy định kinh doanh của Sở Giao dịch Chứng khoán Đài Loan.. Bộ dữ liệu này gồm 6819 trường dữ liệu và 96 thuộc tính. Trong đó thuộc tính “Bankrupt?” là nhãn lớp chứa thông tin doanh nghiệp phá sản hay không. Dựa vào thuộc tính “Bankrupt?” có thể thấy tỷ lệ mất cân bằng của dữ liệu này là rất lớn, cụ thể số lượng giữa doanh nghiệp phá sản : doanh nghiệp không phá sản là 1: 29.99. SO SÁNH TỶ LỆ MẤT CÂN BẰNG GIỮA DOANH NGHIỆP PHÁ SẢN VÀ KHÔNG PHÁ SẢN Phá sản Không phá sản Hình 2. So sánh tỷ lệ mất cân bằng giữa số lượng doanh nghiệp phá sản và doanh nghiệp không phá sản Còn lại 95 thuộc tính chứa thông tin của từng doanh nghiệp, cụ thể bao gồm: chi phí nợ chịu lãi, Tỷ lệ tái đầu tư tiền mặt, Chi phí lãi vay/Tổng doanh thu, Tỷ lệ tổng nợ/vốn chủ sở hữu, Nợ/ Vốn chủ sở hữu chịu lãi, Thu nhập trước thuế/Vốn, Vốn lưu động trên tổng tài sản, Tài sản nhanh/Tổng tài sản, Tiền mặt/Tổng tài sản… Chi tiết về các thuộc tính được trình bày chi tiết trong tài liệu tham khảo [18]. 611
  6. PHÂN TÍCH ĐỊNH LƯỢNG CÁC VẤN ĐỀ KINH TẾ VÀ XÃ HỘI TRONG MÔI TRƯỜNG SỐ LẦN THỨ 3 Mối quan hệ tương quan giữa các thuộc tính trong bộ dữ liệu kinh doanh được biểu diễn qua biểu đồ Heatmap, hiển thị dưới dạng ma trận màu sắc. Các giá trị trên Heatmap thể hiện mức độ tương quan giữa các thuộc tính, với màu sắc cung cấp thông tin chi tiết về mức độ tương quan như được mô tả trong biểu đồ Hình 3 bên dưới. Dựa vào kết quả này, có thể kết luận rằng không có mối tương quan mạnh giữa các biến hiện tại và biến "Bankrupt". Hình 3. Mối tương quan giữa các thuộc tính với thuộc tính nhãn lớp “Bankrupt?” 4.2. Kết quả thực nghiệm Trong nghiên cứu này, chúng tôi tập trung vào so sánh hiệu suất giữa các mô hình bao gồm Random Forest (RF) [19], Support Vector Machine (SVM) [20], K Nearest Neighbors (KNN) [21], Decision Tree [22], AdaBoost [23] và Deep Learning [24-25]. Dữ liệu thu thập được trải qua quá trình tiền xử lý và được sử dụng quá trình kiểm định chéo 10-fold thành các tập dữ liệu, gồm tập huấn luyện (train) và tập kiểm tra (test). Bằng cách này, chúng tôi có thể đánh giá hiệu suất của các mô hình, giúp hiểu rõ hơn về độ chính xác dự đoán và phân loại của từng mô hình cụ thể của bài toán. 612
  7. PHÂN TÍCH ĐỊNH LƯỢNG CÁC VẤN ĐỀ KINH TẾ VÀ XÃ HỘI TRONG MÔI TRƯỜNG SỐ LẦN THỨ 3 Bảng 2. Kết quả dự đoán trên tập dữ liệu gốc không áp dụng thuật toán tiền xử lý Phương pháp Recall Precision F1 score Accuracy Random Forest 52.80 50.88 50.18 87.02 Support Vector Machine 50.00 48.42 49.20 96.85 Dữ liệu gốc KNN 51.05 60.96 51.29 96.70 Decision Tree 64.58 60.75 62.32 94.57 AdaBoost 63.31 69.53 65.76 96.48 Deep Learning 66.01 82.25 71.20 97.36 Random Forest 61.29 75.09 65.34 96.92 Support Vector Machine 63.31 69.53 65.76 96.48 SMOTE KNN 59.90 67.48 62.51 96.41 Decision Tree 69.98 69.98 69.98 96.33 AdaBoost 81.87 81.86 81.86 81.86 Deep Learning 82.80 82.90 82.81 82.84 Random Forest 79.80 80.16 79.80 79.89 Support Vector Machine 84.42 84.55 84.44 84.47 ADASYN KNN 62.11 67.77 64.34 96.33 Decision Tree 82.73 83.36 82.73 82.84 AdaBoost 80.30 80.46 80.21 80.23 Deep Learning 87.94 88.56 87.77 87.80 Random Forest 84.17 84.44 84.20 84.24 SMOTEENN Support Vector Machine 80.38 83.01 79.76 80.11 KNN 70.21 71.04 68.96 69.09 Decision Tree 69.71 73.40 68.72 70.08 AdaBoost 86.68 87.66 86.71 86.82 Deep Learning 89.77 91.07 90.14 90.34 Dựa trên số liệu bảng 2, trên tập dữ liệu gốc không áp dụng thuật toán cân bằng dữ liệu, nổi bật là mô hình Học Sâu, vốn dẫn đầu về hiệu quả với các chỉ số đánh giá toàn diện: Recall, Precision, F1 Score và Accuracy. Mô hình AdaBoost cũng thể hiện kết quả ấn tượng, đặc biệt là trong việc cân nhắc giữa việc phát hiện lớp thiểu số và đạt được độ chính xác cao. Các thuật toán khác như Random Forest, SVM và KNN, mặc dù có độ chính xác cao nhưng lại kém hiệu quả trong các chỉ số khác, phản ánh khả năng phân biệt giữa các lớp không mạnh mẽ. Mô hình Cây Quyết Định ghi nhận Recall cao nhất, tuy nhiên lại có độ chính xác thấp nhất. Bằng việc sử dụng phương pháp SMOTE để cân bằng dữ liệu, cả mô hình Học Sâu và AdaBoost đều tỏ ra vượt trội, với sự cân bằng giữa các chỉ số đánh giá, cho thấy khả năng phân loại vững vàng và công bằng giữa các lớp dữ liệu. Mô hình Cây Quyết Định cũng cho thấy sự cân bằng đáng kể giữa các chỉ số đánh giá, mặc dù có Accuracy nhỉnh hơn so với Học Sâu và AdaBoost. Các mô hình Random Forest, SVM và KNN đều cho thấy sự tiến bộ, tuy nhiên, chưa thể sánh kịp với hiệu suất của Học Sâu và AdaBoost. Trong trường hợp sử dụng ADASYN, mô hình Học Sâu một lần nữa khẳng định vị thế dẫn đầu với hiệu suất xuất sắc, cung cấp kết quả đánh giá cao trên tất cả các phương diện. SVM cũng thể hiện hiệu suất cao, chỉ sau Học Sâu. Cây Quyết Định và Random Forest đạt được kết quả tốt với các chỉ số tương đối đồng đều, nhưng không bằng hai mô hình trước. AdaBoost, mặc dù có chỉ số đồng đều, nhưng lại không cao bằng các mô hình dẫn đầu. KNN, dù có 613
  8. PHÂN TÍCH ĐỊNH LƯỢNG CÁC VẤN ĐỀ KINH TẾ VÀ XÃ HỘI TRONG MÔI TRƯỜNG SỐ LẦN THỨ 3 Accuracy tốt, nhưng lại có hiệu suất tổng thể thấp nhất trong nhóm. Cuối cùng, việc kết hợp SMOTEENN đã nâng cao khả năng của mô hình Học Sâu, với các chỉ số đánh giá cao nhất, chứng tỏ khả năng phân loại sắc bén và khả năng tổng quát hóa mạnh mẽ. AdaBoost gần ngang bằng với Học Sâu về hiệu suất. Random Forest cải thiện đáng kể với các chỉ số vượt qua mốc 84%. SVM, mặc dù có các chỉ số cao, nhưng lại ghi nhận Accuracy thấp hơn so với Random Forest và AdaBoost. KNN và Cây Quyết Định, trong khi đó, lại tụt hậu so với các mô hình khác, với các chỉ số dưới 75%. 5. Kết luận Trong nghiên cứu này, chúng tôi trình bày một phương pháp tiên tiến, kết hợp các kỹ thuật học sâu với các chiến lược cân bằng dữ liệu để cải thiện đáng kể độ chính xác trong dự đoán khả năng phá sản của doanh nghiệp. Quy trình nghiên cứu bao gồm việc thu thập dữ liệu, thực hiện các bước tiền xử lý dữ liệu một cách cẩn thận, và phát triển mô hình dựa trên nhiều thuật toán phân loại, đặc biệt là mô hình học sâu kết hợp với các phương pháp cân bằng dữ liệu như SMOTE, ADASYN, và SMOTEENN. Kết quả thực nghiệm của chúng tôi chứng minh rằng mô hình đề xuất không chỉ đạt được độ chính xác cao mà còn hoàn toàn phù hợp để triển khai trong môi trường thực tế. Tiềm năng để cải tiến mô hình hiện tại có thể được khám phá thông qua việc bổ sung và tinh chỉnh thêm các biến đầu vào, bao gồm việc mở rộng số lượng thuộc tính từ các báo cáo tài chính của doanh nghiệp, cũng như việc tối ưu hóa các tham số của mô hình. Ngoài ra, việc so sánh mô hình này với các phương pháp tiên tiến khác cũng sẽ được xem xét trong các công trình nghiên cứu tiếp theo, nhằm đánh giá toàn diện và khách quan về hiệu quả của phương pháp được đề xuất. 614
  9. PHÂN TÍCH ĐỊNH LƯỢNG CÁC VẤN ĐỀ KINH TẾ VÀ XÃ HỘI TRONG MÔI TRƯỜNG SỐ LẦN THỨ 3 TÀI LIỆU THAM KHẢO [1] Altman, E. I. (1968). Financial ratios, discriminant analysis and the prediction of corporate bankruptcy. The journal of finance, 23(4), 589-609. [2] Lin, W. Y., Hu, Y. H., & Tsai, C. F. (2011). Machine learning in financial crisis prediction: a survey. IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), 42(4), 421-436. [3] Atiya, A. F. (2001). Bankruptcy prediction for credit risk using neural networks: A survey and new results. IEEE Transactions on neural networks, 12(4), 929-935. [4] Beaver, W. H. (1966). Financial ratios as predictors of failure. Journal of accounting research, 71-111. [5] Ohlson, J. A. (1980). Financial ratios and the probabilistic prediction of bankruptcy. Journal of accounting research, 109-131. [6] Zhao, Z., Xu, S., Kang, B. H., Kabir, M. M. J., Liu, Y., & Wasinger, R. (2015). Investigation and improvement of multi-layer perceptron neural networks for credit scoring. Expert Systems with Applications, 42(7), 3508-3516. [7] Tsai, C. F., & Wu, J. W. (2008). Using neural network ensembles for bankruptcy prediction and credit scoring. Expert systems with applications, 34(4), 2639-2649. [8] Beynon, M. J., & Peel, M. J. (2001). Variable precision rough set theory and data discretisation: an application to corporate failure prediction. Omega, 29(6), 561-576. [9] McKee, T. E. (2003). Rough sets bankruptcy prediction models versus auditor signalling rates. Journal of Forecasting, 22(8), 569-586. [10] Wang, L., & Wu, C. (2017). Business failure prediction based on two-stage selective ensemble with manifold learning algorithm and kernel-based fuzzy self-organizing map. Knowledge-Based Systems, 121, 99-110. [11] Li, H., & Sun, J. (2010). Forecasting business failure in China using case‐based reasoning with hybrid case respresentation. Journal of Forecasting, 29(5), 486-501. [12] Li, H., & Sun, J. (2013). Predicting business failure using an RSF‐based case‐based reasoning ensemble forecasting method. Journal of Forecasting, 32(2), 180-192. [13] Lin, F., Yeh, C. C., & Lee, M. Y. (2011). The use of hybrid manifold learning and support vector machines in the prediction of business failure. Knowledge-Based Systems, 24(1), 95- 101. [14] Li, H., & Sun, J. (2012). Forecasting business failure: The use of nearest-neighbour support vectors and correcting imbalanced samples–Evidence from the Chinese hotel industry. Tourism Management, 33(3), 622-634. [15] Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: synthetic minority over-sampling technique. Journal of artificial intelligence research, 16, 321-357. [16] He, H., Bai, Y., Garcia, E. A., & Li, S. (2008, June). ADASYN: Adaptive synthetic sampling approach for imbalanced learning. In 2008 IEEE international joint conference on neural networks (IEEE world congress on computational intelligence) (pp. 1322-1328). Ieee. [17] Manju, B. R., & Nair, A. R. (2019, December). Classification of cardiac arrhythmia of 12 lead ecg using combination of smoteenn, xgboost and machine learning algorithms. In 2019 9th International Symposium on Embedded Computing and System Design (ISED) (pp. 1- 7). IEEE. [18] Taiwanese Bankruptcy Prediction. (2020). UCI Machine Learning Repository. https://doi.org/10.24432/C5004D. [19] Rigatti, S. J. (2017). Random forest. Journal of Insurance Medicine, 47(1), 31-39. [20] Pisner, D. A., & Schnyer, D. M. (2020). Support vector machine. In Machine learning (pp. 615
  10. PHÂN TÍCH ĐỊNH LƯỢNG CÁC VẤN ĐỀ KINH TẾ VÀ XÃ HỘI TRONG MÔI TRƯỜNG SỐ LẦN THỨ 3 101-121). Academic Press. [21] Zhang, Z. (2016). Introduction to machine learning: k-nearest neighbors. Annals of translational medicine, 4(11). [22] Kotsiantis, S. B. (2013). Decision trees: a recent overview. Artificial Intelligence Review, 39, 261-283. [23] Ying, C., Qi-Guang, M., Jia-Chen, L., & Lin, G. (2013). Advance and prospects of AdaBoost algorithm. Acta Automatica Sinica, 39(6), 745-758. [24] LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436-444. [25] Shinde, P. P., & Shah, S. (2018, August). A review of machine learning and deep learning applications. In 2018 Fourth international conference on computing communication control and automation (ICCUBEA) (pp. 1-6). IEEE. 616
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2