Ứng dụng phương pháp bình chọn các mô hình trí tuệ nhân tạo để phân loại hai lớp và đa lớp trong xây dựng

Chia sẻ: ViSteveballmer ViSteveballmer | Ngày: | Loại File: PDF | Số trang:6

Thêm vào BST

Báo xấu

31
lượt xem 3
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết sử dụng hai bộ dữ liệu về sự hóa lỏng đất (hai lớp) và lỗi sai trên thép tấm (đa lớp) để kiểm tra tính hiệu quả của mô hình đề xuất. Kết quả cho thấy mô hình voting vượt trội so với các mô hình so sánh khác trong việc phân loại dữ liệu. Trong đó, NBDT là mô hình voting tốt nhất khi phân loại bộ dữ liệu hai lớp (87.168%) và SVM-DT cho hiệu suất làm việc tốt nhất khi phân loại bộ dữ liệu đa lớp (89.505%).

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Ứng dụng phương pháp bình chọn các mô hình trí tuệ nhân tạo để phân loại hai lớp và đa lớp trong xây dựng

146 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Ứng dụng phương pháp bình chọn các mô hình trí tuệ nhân tạo để phân loại hai lớp và đa lớp trong xây dựng Phạm Thị Phương Trang Danang of Technology and Education, The University of Danang, ptptrang@ute.udn.vn Tóm tắt. Phân loại là một trong những nhiệm vụ quan trọng trong lĩnh vực xây dựng. Phân loại có hai dạng chính là phân loại hai lớp và đa lớp (nhiều hơn hai lớp). Nếu phân loại chính xác, các nhà quản lý có thể giảm thiểu tối đa mức độ rủi ro trong quá trình thực hiện công việc. Do đó, việc tạo ra mô hình có thể dự báo đồng thời các bộ dữ liệu hai lớp và đa lớp với hiệu quả cao là mối quan tâm của các nhà nghiên cứu khoa học. Mục tiêu của bài báo là đề xuất phương pháp bình chọn voting để tạo nên mô hình tối ưu nhất giải quyết bài toán phân loại trong xây dựng. Mô hình voting được xây dựng từ ba mô hình phân loại trí tuệ nhân tạo đơn lẻ phổ biến đó là máy học vectơ hỗ trợ (SVM), Navie Bayes (NB) và Cây quyết định (DT). Trong nghiên cứu này, tác giả sử dụng hai bộ dữ liệu về sự hóa lỏng đất (hai lớp) và lỗi sai trên thép tấm (đa lớp) để kiểm tra tính hiệu quả của mô hình đề xuất. Kết quả cho thấy mô hình voting vượt trội so với các mô hình so sánh khác trong việc phân loại dữ liệu. Trong đó, NB- DT là mô hình voting tốt nhất khi phân loại bộ dữ liệu hai lớp (87.168%) và SVM-DT cho hiệu suất làm việc tốt nhất khi phân loại bộ dữ liệu đa lớp (89.505%). Từ khóa: Trí tuệ nhân tạo, máy học vectơ hỗ trợ, Navie Bayes, cây quyết định. Abstract. Classification can be considered one of critical tasks in civil engineering. Classification problem includes two main forms - binary and multiclass classification (more than two classes). Clearly, with the accurate classification, the managers can reduce a minimum of the level of risk in work progress. Therefore, creating a model which predicts both binary classification and multiclass classification is the concern of researchers. The goal of the study is to propose models-based voting strategy to handle classification problem in civil engineering field. Voting models are taken shape from three basic popular artificial intelligent classification models, including Support vector machine (SVM), Navie Bayes (NB) and Decision tree (DT). In the study, the author applies two datasets which are soil liquefaction and steel plate fault detection to evaluate the performance of proposed models. The results show that voting model outperforms other models when classifying datasets. Specifically, NB-DT is the best voting model with binary class dataset (87.168%) and SVM-DT yields the best performance when applying multiple class dataset (89.505%). Keywords: Artificial intelligent, Support vector machine, Navie Bayes, Decision tree. 1 Đặt vấn đề Phân loại là chìa khoá giúp loài người nhận biết được thế giới. Phân loại liên quan đến lĩnh vực xây dựng rất đa dạng, phong phú và cũng rất phức tạp. Phân loại có hai dạng chính là phân loại hai lớp và phân loại đa lớp. Một số ví dụ về phân loại trong xây dựng có thể kể đến như sự hóa lỏng của đất (hóa lỏng hay không hóa lỏng), phân loại chất lượng công trình (tốt, trung bình, xấu…), phân loại rủi ro công trình, phân loại mức độ tranh cãi trong đấu thầu xây dựng (tranh cãi, không tranh cãi, ra tòa…), phân loại cường độ bê tông (cao, thấp hoăc trung bình), phân loại lỗi sai trên thép tấm …. Vậy, mục đích của việc phân loại là giúp đưa ra những dự báo về rủi ro một cách nhanh chóng và chính xác để từ đó đề xuất phương án khắc phục và giải quyết khi sự cố xảy ra. Hiện nay, trên thế giới có rất nhiều thuật toán và mô hình đã ra đời nhằm giải quyết bài toán này, nhưng những thuật toán này chưa có độ chính xác cao và rất ít công trình nghiên cứu giải quyết vấn đề phân loại hai lớp và đa lớp cùng một lúc. Ngoài ra, hầu hết các công thức tính
Phạm Thị Phương Trang 147 toán đều được xây dựng trên quan điểm của từng tác giả và các kết quả đo được từ thực nghiệm nên phạm vi sử dụng và kết quả tính toán của mỗi công thức rất khác nhau. Gần đây, các thuật toán dựa trên trí tuệ nhân tạo (TTNT) là những công cụ hữu hiệu để giải quyết các bài toán trong lĩnh vực xây dựng, trong đó có cả phân loại. Một số nghiên cứu đã sử dụng TTNT như ứng dụng TTNT để dự đoán vấn đề tranh cãi trong các dự án PPP [1] hay áp dụng các thuật toán TTNT để dự đoán rủi ro các dự án thi công cầu [2], hay sử dụng TTNT phân loại chất lượng nguồn nước tại các hồ chứa trong dự án thủy lợi thủy điện [3]. Trong nghiên cứu này, tác giả sử dụng ba thuật toán TTNT được ứng dụng rộng rãi là máy học vecto hỗ trợ (SVM), Naïve Bayes (NB) và cây quyết định (DT). Những thuật toán này đã được ứng dụng khá nhiều để phân loại dữ liệu. Ví dụ, mô hình phân loại dựa trên SVM được các nhà nghiên cứu sử dụng để phân loại chất lượng đất [4], hay mô hình SVM kết hợp với véc tơ hồi quy thích hợp (RVR) để phân loại các loại khối đá trong quá trình xây dựng đường hầm [5]. Jiangtao Ren và cộng sự đã ứng dụng Naive Bayes tron việc phân loại bộ dữ liệu không chắc chắn [6]. Ngoài ra, một vài nghiên cứu đã dùng mô hình Naive Bayes để phân loại dữ liệu lưu trữ trên Web [6], tài liệu văn bản [7]. Các thuật toán SVM, Logistic Regression and Neural Networks cũng được ứng dụng trong y học trong việc dự đoán các hội chứng về bệnh tim mạch [8]. Rõ ràng, các thuật toán TTNT đã được các nhà khoa học ứng dụng rộng rãi trong hầu hết các lĩnh vực khác nhau, và đã giải quyết được rất nhiều bài toán trong phân loại. Tuy vậy, những thuật toán trí tuệ nhân tạo đơn lẻ như SVM, Navie Bayes và DT cũng có những điểm yếu riêng và khi hoạt động đơn lẻ có thể sẽ không giải quyết được các bài toán phức tạp một cách tối ưu nhất. Vì vậy, việc kết hợp các thuật toán TTNT đơn lẻ với nhau có thể mang đễn kết quả tốt hơn. Bình chọn là một phương pháp kết hợp các thuật toán đơn lẻ nhằm mục đích nâng cao tính chính xác kết quả nghiên cứu. Do đó, việc đề xuất phương pháp bình chọn mô hình TTNT để phân loại hai và đa lớp trong xây dựng là cần thiết. Bài báo này đề xuất ba thuật toán đơn lẻ TTNT và sau đó kết hợp chúng lại với nhau và sử dụng phương pháp bình chọn để tạo ra mô hình tối ưu nhất cho bài toán phân loại hai lớp và đa lớp trong xây dựng. Để đánh giá tính hiệu quả của mỗi thuật toán tác giả sử dụng tính chính xác để so sánh các thuật toán. Bố cục bài báo được sắp xếp như sau. Phần thứ hai, tác giả giới thiệu các mô hình TTNT đơn lẻ, phương pháp bình chọn và tiêu chuẩn độ chính xác để đánh giá tính hiệu quả của mỗi mô hình. Tiếp theo, tác giả trình bày hai bộ dữ liệu hai lớp và đa lớp liên quan đến lĩnh vực xây dựng mà tác giả sử dụng. Phần thứ tư là phần phân tích kết quả và cuối cùng là kết luận. 2 Thuật toán 2.1 Các mô hình trí tuệ nhân tạo cơ sở Máy học vec-to hỗ trợ (SVM) Máy véc tơ hỗ trợ (support vector machines – SVMs) là một tập hợp các phương pháp học có giám sát liên quan đến nhau để phân loại và phân tích hồi quy. Thuật toán SVMs được phát triển bởi Vapnik (1995) [9]. SVMs xây dựng một siêu phẳng hoặc một tập hợp các siêu phẳng trong một không gian nhiều chiều hoặc vô hạn chiều. Để phân loại tốt nhất thì các siêu phẳng nằm ở càng xa các điểm dữ liệu của tất cả các lớp (hàm lề) càng tốt, vì lề càng lớn thì sai số tổng quát hóa của thuật toán phân loại càng bé. Navie Bayes (NB) Naive Bayes là mô hình học máy có xác suất được sử dụng cho nhiệm vụ phân loại. Mấu chốt của phân loại dựa trên định lý Bayes. Mặc dù Naive Bayes rất đơn giản, nhưng nó thường vượt trội hơn các phương pháp phân loại phức tạp khác [10]. Nhiều nhà nghiên cứu đã phát hiện ra rằng giả định sự độc lập không hoạt động trong mọi trường hợp mà các phương pháp thay thế khác được đề xuất để tăng hiệu suất. Tuy nhiên, phân loại Naive Bayesian dựa trên hai giả định quan trọng. Đầu tiên, lược đồ đơn giản này cho thấy các thể hiện trong mỗi lớp có thể được tóm tắt bằng một mô tả xác suất duy nhất và chúng đủ để phân biệt các lớp với nhau. Cây quyết định (Decision Tree-DT) Thuật toán này một cách liên tục phân tách tập dữ liệu theo một tiêu chí tối đa hóa việc tách dữ liệu, dẫn đến cấu trúc làm việc giống như cây [7, 8]. Tiêu chí phổ biến nhất được sử dụng với DT là đạt được thông
148 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” tin; điều này có nghĩa là tại mỗi lần phân tách các lớp, mức giảm sự nhiễu loạn do sự phân tách này được tối đa hóa. Một nhược điểm lớn của cây quyết định đó là nó tạo ra bởi một quá trình xây tham lam: ở mỗi bước, sự kết hợp của biến tốt nhất duy nhất và điểm phân tách tối ưu được chọn; tuy nhiên, giao diện nhiều bước xem xét kết hợp các biến có thể thu được các kết quả khác nhau. So sánh với các thuật toán máy học khác, cây quyết định có ưu điểm là chúng không phải là mô hình hộp đen, nhưng có thể dễ dàng được thể hiện dưới dạng quy tắc. Trong nhiều lĩnh vực ứng dụng, ưu điểm này thể hiện rất tốt do đó những mô hình này được sử dụng rộng rãi trong lĩnh vực y học. 2.2 Phương pháp bình chọn (Voting algorithm) Bình chọn hay bỏ phiếu là một phương pháp cho một nhóm để đưa ra quyết định tập thể hoặc bày tỏ ý kiến. Chúng ta có thể nói bỏ phiếu là một phương pháp kết hợp nhiều phương pháp phân loại đơn lẻ [11, 12]. Lý do để kết hợp các phương pháp phân loại là nhằm nân cao tính hiệu quả và độ chính xác cho thuật toán đề xuất. Hình 1 trình bày cấu trúc của một mô hình tập hợp bỏ phiếu. Hình 1. Cấu trúc mô hình tập hợp bỏ phiếu. Trong nghiên cứu, tác giả đề xuất ba thuật toán TTNT đơn lẻ là SVM, NB và DT. Từ ba mô hình đơn lẻ này, tác giả đưa ra bốn mô hình tập hợp kết hợp từ hai đến ba thuật toán cơ bản TTNT khác nhau. Các mô hình tập hợp từ hai thuật toán cơ bản là SVM - NB, SVM – DT and NB - DT. Mô hình từ ba thuật toán cơ bản là SVM-NB-DT. 2.3 Đánh giá kết quả Để đánh giá hiệu quả các mô hình đề xuất, tác giả đưa ra chỉ tiêu độ chính xác (accuracy). Độ chính xác chính là chỉ tiêu quan trọng nhất trong việc đánh giá thuật toán. Độ chính xác có thể được định nghĩa là mức độ không chắc chắn trong phép đo đối với một tiêu chuẩn tuyệt đối. Độ chính xác dự đoán của thuật toán phân loại được tính như sau tp + tn Accuracy = tp + fp + tn + fn Trong đó tp (true positive): số lượng các dữ liệu được phân loại chính xác; fp (false positive): số lượng các dữ liệu không thuộc lớp và bị phân loại nhầm vào lớp đó; tn (true negative): số lượng các dữ liệu không thuộc lớp đó nhưng phân loại chính xác, tn đại diện cho phân loại chính xác; fn (false negative): số lượng các dữ liệu thuộc lớp đó bị phân loại nhầm (vào các lớp khác), fn đại diện cho phân loại sai.
Phạm Thị Phương Trang 149 2.4 Bộ dữ liệu Đất hóa lỏng Hóa lỏng đất là một trong những loại tác động địa chất tàn khốc nhất gây ra bởi các trận động đất. Người ta nhận thấy rằng nhiều cấu trúc kỹ thuật đã bị phá hủy nghiêm trọng do hóa lỏng đất hỗ trợ trong trận động đất. Bộ dữ liệu này đại diện cho phân loại hai lớp, dự đoán sự hóa lỏng hay không hóa lỏng đất sau khi động đất xảy ra (the liquefaction or non-liquefaction of soil), được thu thập từ các trận động đất xảy ra tại Mỹ, Trung Quốc và Đài Loan theo nghiên cứu đã công bố [13]. Bộ dữ liệu đất hóa lỏng bao gồm 226 trường hợp, trong đó 133 trường hợp hóa lỏng (Lớp 1) và 93 trường hợp không hóa lỏng (Lớp 2). Bảng 1 trình bày đặc trưng thống kê của các biến được trình bày bao gồm giá trị lớn nhất, giá trị nhỏ nhất, giá trị trung bình và độ lệch chuẩn. Bảng 1. Đặc trưng thống kê của dữ liệu Giá trị lớn Giá trị nhỏ Giá trị Độ lệch Đơn vị nhất nhất trung bình chuẩn Đầu vào Sức kháng mũi (qc) MPa 25.00 0.90 5.82 4.09 Tỷ lệ ma sát (Rf) % 5.20 0.10 1.22 1.05 Ứng suất hữu hiệu (s’v) kPa 215.20 22.50 74.65 34.40 Tổng ứng suất (sv) kPa 274.00 26.60 106.89 55.36 Gia tốc mặt đất ngang (amax) gal 0.80 0.08 0.29 0.14 Cường độ di chuyển động N/A 7.60 6.00 6.95 0.44 đất (Mw) Đầu ra Đất hóa lỏng (1 = hóa lỏng, N/A 2 1 2 = không hóa lỏng) Lỗi sai trong thép tấm Dự đoán lỗi sai là một trong các bước quan trọng trong sản xuất công nghiệp. Ví dụ, sản xuất các sản phẩm bị lỗi có thể gây ra chi phí cao cho nhà sản xuất các sản phẩm thép. Do đó, trong nghiên cứu này tác giả đề xuất bộ dữ liệu về các lỗi trong các tấm thép, là nguyên liệu quan trọng trong hàng trăm sản phẩm công nghiệp, được sử dụng như một trường hợp thực tế về phân loại đa lớp. Bộ dữ liệu ban đầu được lấy từ kho lưu trữ máy học của Đại học California tại Irvine (UCI) (http://archive.ics.uci.edu/ml/datasets/steel+plates+faults). Trong bộ dữ liệu này, các lỗi trong các tấm thép được phân thành 7 loại, bao gồm Pastry, Zscratch, Kscratch, Stains, Dirtiness, Bumps và Other. Cơ sở dữ liệu chứa 1941 điểm dữ liệu với 27 biến độc lập, được sử dụng làm dữ liệu đầu vào. 2.5 Phân tích kết quả Hình 2 so sánh độ chính xác của ba mô hình cơ sở và bốn mô hình tập hợp dựa trên biểu quyết với bộ dữ liệu hai lớp đất hóa lỏng. Từ hình 2, ta nhận thấy với mô hình đơn lẻ NB cho độ chính xác cao nhất với 86.723%, và khi NB kết hợp với DT cho độ chính xác đạt 87.168%. Mô hình kết hợp SVM - NB - DT cũng cho độ chính xác khá cao 86.726%. Vì vậy, ta thấy với phương pháp bình chọn ta có được mô hình mới (NB-DT) đạt hiệu quả cao nhất khi sử dụng để phân loại sự hóa lỏng đất sau khi xảy ra động đất. Mặc dù, trong nghiên cứu của Goh và cộng sự [13] kết quả cho thấy SVM đạt 98% khi phân loại bộ dữ liệu đất hóa lỏng, tuy nhiên nghiên cứu này chỉ dừng lại ở phân loại hai lớp đơn giản. Nghiên cứu này, với cách thiết lập thông số ban đầu cho các thuật toán TTNT cơ sở, tác giả mong muốn phân loại đồng thời cho cả dữ liệu hai lớp và đa lớp. Tương tự như vậy, hình 3 so sánh tính hiệu quả của các mô hình với bộ dữ liệu đa lớp phân loại lỗi sai trên thép tấm. Ta thấy, với các mô hình đơn lẻ DT lại cho kết quả cao nhất với độ chính xác là 88.407%.
150 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Ngoài ra, khi kết hợp SVM và DT ta có được một mô hình mới với độ chính xác đạt 89.505%. Do đó, với bộ dữ liệu đa lớp này, mô hình kết hợp SVM-DT làm việc hiệu quả nhất. Có thể nói, tùy thuộc vào chất lượng bộ dữ liệu và sự kết hợp lần lượt của các mô hình đơn lẻ, ta thấy một vài sự kết hợp làm việc hiệu quả và cho kết quả cao hơn các mô hình đơn lẻ. Độ chính xác (%) SVM-NB-DT 86,726 NB-DT 87,168 SVM-DT 84,513 SVM-NB 84,956 DT 82,743 NB 86,723 SVM 84,956 80 82 84 86 88 Hình 3. So sánh độ chính xác các mô hình với bộ dữ liệu đất hóa lỏng Độ chính xác (%) SVM-NB-DT 88,171 NB-DT 87,855 SVM-DT 89,505 SVM-NB 81,073 DT 88,407 Naivy 80,521 SVM 85,909 75 80 85 90 95 Hình 4. So sánh độ chính xác các mô hình với bộ dữ liệu phân loại lỗi sai trên thép tấm 3 Kết luận Trong bài báo này, tác giả đã đề xuất các mô hình bỏ phiếu được kết hợp từ ba mô hình riêng lẻ (SVM, NB và DT) trong việc phân loại hai bộ dữ liệu ứng với hai lớp và đa lớp. Độ chính xác đã được sử dụng để so sánh hiệu suất dự đoán của các mô hình được kiểm tra. Nhìn chung, với bộ dữ liệu phân loại hai lớp mô hình bỏ phiếu NB-DT cho kết quả cao nhất, còn dữ liệu phân loại lỗi sai trên thép tâm mô hình SVM-NB cho kết quả cao nhất. Mặc dù các mô hình đơn lẻ làm việc cũng khá hiệu quả khi dự đoán với kết quả tốt, nhưng hiệu quả hơn khi ứng dụng phương pháp bình chọn để tạo nên mô hình tối ưu nhất. Trong tương lai, tác giả mong muốn sẽ thu thập được thêm nhiều bộ dữ liệu phân loại phức tạp hơn trong lĩnh vực xây dựng và phát triển nhiều hơn những mô hình TTNT làm việc hiệu quả hơn. Tài liệu tham khảo 1. J.-S. Chou, C. Lin, Predicting Disputes in Public-Private Partnership Projects: Classification and Ensemble Models, Journal of Computing in Civil Engineering 27(1) (2013) 51-60.
Phạm Thị Phương Trang 151 2. M.-Y. Cheng, N.-D. Hoang, Risk Score Inference for Bridge Maintenance Project Using Evolutionary Fuzzy Least Squares Support Vector Machine, Journal of Computing in Civil Engineering 28(3) (2014) 04014003. 3. Y. Liao, J. Xu, W. Wang, A Method of Water Quality Assessment Based on Biomonitoring and Multiclass Support Vector Machine, Procedia Environmental Sciences 10 (2011) 451-457. 4. Y. Liu, H. Wang, H. Zhang, K. Liber, A comprehensive support vector machine-based classification model for soil quality assessment, Soil and Tillage Research 155 (2016) 19-26. 5. R. Gholami, V. Rasouli, A. Alimoradi, Improved RMR Rock Mass Classification Using Artificial Intelligence Algorithms, Rock Mechanics and Rock Engineering 46(5) (2013) 1199-1209. 6. J. Ren, S.D. Lee, X. Chen, B. Kao, R. Cheng, D. Cheung, Naive Bayes Classification of Uncertain Data, 2009 Ninth IEEE International Conference on Data Mining, 2009, pp. 944-949. 7. W. Zhang, F. Gao, An Improvement to Naive Bayes for Text Classification, Procedia Engineering 15 (2011) 2160-2164. 8. R.S. Divyansh Khanna, Veeky Baths, and Bharat Deshpande, Comparative Study of Classification Techniques (SVM, Logistic Regression and Neural Networks) to Predict the Prevalence of Heart Disease, International Journal of Machine Learning and Computing 5 (2015). 9. V.N. Vapnik, The nature of statistical learning theory, Springer-Verlag, New York, 1995. 10. P. Langley, Iba, W., & Thompson, K. , An analysis of Bayesian classifiers, Proceedings of the Tenth National Conference on Artificial Intelligence (1992) 223-228. 11. J. Kittler, M. Hatef, R.P.W. Duin, J. Matas, On combining classifiers, IEEE Transactions on Pattern Analysis and Machine Intelligence 20(3) (1998) 226-239. 12. L. I. Kuncheva, Combining Pattern Classifiers: Methods and Algorithms, 2007. 13. A.T.C. Goh, S.H. Goh, Support vector machines: Their use in geotechnical engineering as illustrated using seismic liquefaction data, Computers and Geotechnics 34(5) (2007) 410-421.