Luận văn Thạc sĩ Tài chính ngân hàng: Ứng dụng kỹ thuật học máy trong xây dựng mô hình dự báo tài chính

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:93

Thêm vào BST

Báo xấu

37
lượt xem 9
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận văn nghiên cứu sâu về mặt lý thuyết các mô hình thường được sử dụng trong học máy. Bên cạnh đó luận văn cũng sẽ tập trung làm nổi bật tính ứng dụng thực tế áp dụng cho mục đích dự báo. Mời các bạn cùng tham khảo để nắm chi tiết nội dung luận văn!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ Tài chính ngân hàng: Ứng dụng kỹ thuật học máy trong xây dựng mô hình dự báo tài chính

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGOẠI THƯƠNG LUẬN VĂN THẠC SĨ ỨNG DỤNG KỸ THUẬT HỌC MÁY TRONG XÂY DỰNG MÔ HÌNH DỰ BÁO TÀI CHÍNH Chuyên ngành: Tài chính – Ngân hàng NGUYỄN THÀNH TRUNG HÀ NỘI - 2020
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGOẠI THƯƠNG LUẬN VĂN THẠC SĨ ỨNG DỤNG KỸ THUẬT HỌC MÁY TRONG XÂY DỰNG MÔ HÌNH DỰ BÁO TÀI CHÍNH Chuyên ngành: Tài chính – Ngân hàng Mã số: 8340201 Họ và tên học viên: Nguyễn Thành Trung Người hướng dẫn: TS. Vũ Thị Phương Mai HÀ NỘI - 2020
LỜI CAM ĐOAN Tôi đã đọc và hiểu về các hành vi vi phạm sự trung thực trong học thuật. Tôi cam kết bằng danh dự cá nhân rằng bản luận văn này do tôi thực hiện và không vi phạm yêu cầu về sự trung thực trong học thuật. Hà Nội, ngày tháng năm 2020 Học viên Nguyễn Thành Trung
LỜI CẢM ƠN Tôi xin gửi lời cảm ơn tới Quý thầy cô Khoa Sau đại học – Trường Đại học Ngoại Thương, đặc biệt tôi xin chân thành cảm ơn TS. Vũ Thị Phương Mai đã tận giúp đỡ và hướng dẫn cho tôi hoàn thành luận văn này. Hà Nội, ngày tháng năm 2020 Học viên Nguyễn Thành Trung
MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC TỪ VIẾT TẮT DANH MỤC BẢNG DANH MỤC HÌNH TÓM TẮT KẾT QUẢ NGHIÊN CỨU LỜI MỞ ĐẦU....................................................................................................................... 1 CHƯƠNG 1: GIỚI THIỆU VỀ HỌC MÁY VÀ CÁC MÔ HÌNH HỌC MÁY ............. 7 1.1. KHÁI NIỆM .............................................................................................................. 7 1.2. CÁC BÀI TOÁN CƠ BẢN TRONG HỌC MÁY .................................................. 7 1.3. PHÂN NHÓM CÁC THUẬT TOÁN HỌC MÁY ................................................. 9 1.4. LỊCH SỬ CÁC SỰ KIỆN LIÊN QUAN TỚI HỌC MÁY .................................. 11 1.5. HÀM TỔN THẤT VÀ THAM SỐ MÔ HÌNH..................................................... 13 1.6. MỘT SỐ THUẬT TOÁN TỐI ƯU THÔNG DỤNG TRONG HỌC MÁY ...... 13 1.7. THUẬT TOÁN K-NEAREST NEIGHBOR (KNN) ............................................ 19 1.8. MÔ HÌNH HỒI QUY LOGISTIC ........................................................................ 20 1.9. THUẬT TOÁN CÂY QUYẾT ĐỊNH (DECISION TREE) ................................ 24 1.10. THUẬT TOÁN RANDOM FOREST (RỪNG NGẪU NHIÊN)......................... 29 1.11. THUẬT TOÁN SUPPORT VECTOR MACHINE (SVM)................................. 31 1.12. MÔ HÌNH MẠNG NƠRON NHÂN TẠO (ARTIFICIAL NEURAL NETWORK- ANN) ............................................................................................................ 41 1.13. PHÂN LOẠI ĐA LỚP TRONG HỌC MÁY – MÔ HÌNH SOFTMAX ............ 49
1.14. GIỚI THIỆU VỀ PYTHON VÀ CÁC THƯ VIỆN HỖ TRỢ CÀI ĐẶT THUẬT TOÁN .................................................................................................................................. 52 CHƯƠNG 2: DỰ BÁO KHẢ NĂNG TRẢ NỢ CỦA KHÁCH HÀNG ........................ 54 2.1. GIỚI THIỆU BÀI TOÁN.......................................................................................... 54 2.2. DỮ LIỆU VÀ XỬ LÝ DỮ LIỆU .............................................................................. 54 2.3. KẾT QUẢ ................................................................................................................... 57 CHƯƠNG 3: DỰ BÁO CHO DỮ LIỆU CHUỖI THỜI GIAN..................................... 64 TRONG TÀI CHÍNH ........................................................................................................ 64 3.1. TIẾP CẬN BÀI TOÁN: ............................................................................................ 64 3.2. DỮ LIỆU CỦA BÀI TOÁN ...................................................................................... 64 3.3. ĐO LƯỜNG TÍNH CHÍNH XÁC CỦA MÔ HÌNH DỰ BÁO .............................. 67 3.4. KẾT QUẢ CỦA BAI TOAN ..................................................................................... 68 3.5. NHẬN XÉT KẾT QUẢ ............................................................................................. 72 3.6. NHẬN XÉT VỀ MÔ HÌNH ANN ............................................................................. 73 3.7. ĐÁNH GIÁ VIỆC XÂY DỰNG MÔ HÌNH DỰ BÁO TÀI CHÍNH BẰNG PHƯƠNG PHÁP HỌC MÁY ........................................................................................... 74 3.8. MỘT SỐ KHUYẾN NGHỊ CHÍNH SÁCH ............................................................. 75 KẾT LUẬN......................................................................................................................... 77 TÀI LIỆU THAM KHẢO ................................................................................................. 78 PHỤ LỤC: KẾT QUẢ MỘT SỐ MÔ HÌNH CHƯƠNG 3 ............................................ 81
DANH MỤC TỪ VIẾT TẮT KNN: K Nearest Neighbors SVM: Support Vector Machine ANN: Artificial Neural Network KKT: Karush-Kuhn-Tucker SMO: Sequential Minimal Optimization NN: Neural Network DT: Decision Tree LR: Logistic Regression ARDL: Autoregressive Distributed Lag ARIMA: Autoregressive integrated moving average DANH MỤC BẢNG Bảng 2.1. Tổng hợp kết quả các mô hình Bảng 3.1: Kết quả sai số của các mô hình Bảng 3.2. Kết quả so sánh mô hình 6 và bài báo [13]
DANH MỤC HÌNH Hình 0.1. Minh họa hàm lồi Hình 0.2. Minh họa hàm lõm Hình 0.3. Minh họa thuật toán giảm gradient Hình 0.4. Minh họa thuật toán Newton-Raphson Hình 0.5. Thuật toán giảm gradient với hàm không lồi Hình 1.1. Ví dụ bài toán Cây quyết định Hình 1.2. Cơ chế lọc dữ liệu của Cây quyết định Hình 1.3. Cơ chế tiên phân loại cho nút gốc của Cây quyết định Hình 1.4. Kết quả phân loại của Cây quyết định Hình 1.5. Ví dụ về sự phân chia tuyến tính Hình 1.6. Ví dụ về sự phân chia hai chiều Hình 1.7. Ví dụ về sự phân chia ba chiều Hình 1.8. Các trường hợp phân chia dữ liệu Hình 1.9. Minh họa bài toán SVM lề cứng Hình 1.10. Minh họa dữ liệu nhiễu trong bài toán SVM Hình 1.11. Bài toán SVM lề mềm Hình 1.12. Minh họa mạng nơ ron nhân tạo Hình 1.13. Minh họa đầu ra của nốt trong mạng nơ ron Hình 1.14. Ví dụ mạng nơ ron ba lớp Hình 2.1. Mô tả dữ liệu khách hàng Hình 2.2. Thông tin cơ bản về dữ liệu được xuất từ Python Hình 2.3. Điểm dữ liệu sau khi đã thực hiện chuẩn hóa theo cách 1 Hình 2.4. Kết quả độ chính xác các mô hình theo cách 1
Hình 2.5. Kết quả độ chính xác các mô hình theo cách 2 Hình 2.6. Kết quả dự báo thông tin thiếu trường ‘Saving accounts’ Hình 2.7. Kết quả dự báo thông tin thiếu trường ‘Checking account’ Hình 2.8. Kết quả độ chính xác các mô hình theo cách 3 Hình 2.9. So sánh kết quả của mô hình theo cách 1 và cách 2 Hình 2.10. So sánh kết quả của mô hình theo cách 2 và cách 3 Hình 3.0. Dữ liệu VN-Index từ 2010 đến 2019 Hình 3.1. Kết quả dự báo mô hình 1 Hình 3.2. Kết quả dự báo mô hình 2 Hình 3.3. Kết quả dự báo mô hình 3 Hình 3.4. Kết quả dự báo mô hình 4 Hình 3.5. Kết quả dự báo mô hình 5 Hình 3.6. Kết quả dự báo mô hình 6
TÓM TẮT KẾT QUẢ NGHIÊN CỨU Luận văn đã trình bày những nét chính về khái niệm học máy và các kỹ thuật thường được sử dụng trong học máy. Cụ thể luận văn đã thực hiện phân loại các bài toán học máy và giới thiệu những mô hình học máy đang được triển khai trong lĩnh vực tài chính như: K láng giềng gần nhất (K nearest neighbor), Hồi quy logistic, Cây quyết định (Decision Tree), Rừng ngẫu nhiên (Random Forest), Support Vector Machine, mạng Nơ-ron nhân tạo và mô hình Softmax. Luận văn đã đi sâu vào phân tích cách thức các mô hình này học hỏi tri thức từ dữ liệu và áp dụng cho các vấn đề trong thực tiễn.
1 LỜI MỞ ĐẦU 1. Lý do chọn đề tài Học máy (machine learning) là một nhánh trong lĩnh vực khoa học máy tính và cũng là tập con của trí tuệ nhân tạo. Học máy sử dụng các thuật toán cho phép máy tính có thể học được từ dữ liệu để thực hiện các công việc, có thể tự thay đổi và cải thiện các thuật toán của chúng thay vì phải được lập trình một cách cụ thể rõ ràng. Học máy được ứng dụng trong hầu hết mọi ngành công nghiệp có làm việc với một lượng lớn dữ liệu từ các ngành công nghiệp sản xuất, dịch vụ,… đến cả các ngành công nghiệp quốc phòng, an ninh,… có thể kể ra một số ví dụ như: xe tự hành, hệ thống nhận diện khuôn mặt, chuẩn đoán y khoa, nhận dạng tiếng nói và chữ viết, dịch tự động, trợ lý ảo, chatbots, dự báo thời tiết, phân tích kinh tế, phân tích thị trường chứng khoán, … Các cơ sở toán học của học máy, các mô hình học máy đã được phát triển lý thuyết từ những thập niên cuối của thế kỷ trước. Nhưng học máy cũng chỉ mới bùng nổ trong khoảng hơn một chục năm trở lại đây do năng lực tính toán của máy tính đã đáp ứng được sự đòi hỏi của các mô hình lý thuyết và độ lớn của dữ liệu. Học máy đã và vẫn đang được coi là công cụ mạnh mẽ để tạo ra những dự đoán có độ chính xác cao cho lời giải của nhiều bài toán trong thực tế thuộc hầu khắp các lĩnh vực, ngành tài chính – ngân hàng nói riêng cũng không phải là ngoại lệ. Trong xã hội và nền kinh tế hiện nay, công tác dự báo luôn được chú trọng vì nó cung cấp các thông tin cần thiết một cách có căn cứ nhằm phát hiện và bố trí sử dụng các nguồn lực trong tương lai một cách hợp lý nhất. Ở mức độ vĩ mô, với những thông tin mà dự báo đưa ra thì các nhà hoạch định chính sách không những có thể có những quyết định về việc xây dựng các chiến lược phát triển, các quy hoạch tổng thể, quyết định về đầu tư công, các chính sách về kinh tế vĩ mô, chính sách về tài khóa, tiền tệ một cách có cơ sở khoa học mà còn có thể cho phép xem xét một cách toàn diện về khả năng thực hiện kế hoạch và hiệu chỉnh kế hoạch nhằm tối đa hóa được mục tiêu phát triển. Ở mức độ vi mô, dự báo trước những
2 biến số quan trọng sẽ giúp cho doanh nghiệp, cá nhân có thể ra được những quyết định chính xác về đầu tư, quyết định về sản xuất, về tiết kiệm, tiêu dùng. Các nhà quản trị doanh nghiệp có thể chủ động trong việc đề ra các kế hoạch và các quyết định cần thiết phục vụ cho quá trình sản xuất kinh doanh, tiếp thị, quy mô sản xuất, kênh phân phối sản phẩm, nguồn cung cấp tài chính Chính vì lý do như vậy, học viên đã quyết định chọn tên đề tài “Ứng dụng kỹ thuật học máy trong xây dựng mô hình dự báo tài chính” làm hướng nghiên cứu cho luận văn cao học của mình. 2. Mục đích và nhiệm vụ nghiên cứu Luận văn nghiên cứu sâu về mặt lý thuyết các mô hình thường được sử dụng trong học máy. Bên cạnh đó luận văn cũng sẽ tập trung làm nổi bật tính ứng dụng thực tế áp dụng cho mục đích dự báo. Cụ thể luận văn sẽ giải quyết các vấn đề sau: • Nghiên cứu sâu về các mô hình học máy thông dụng và quan trọng hiện đang được triển khai trong lĩnh vực tài chính – ngân hàng • Ứng dụng các kỹ thuật và mô hình học máy này vào giải quyết bài toán dự báo trên thực tế. 3. Đối tượng và phạm vi nghiên cứu Luận văn sử dụng các mô hình trong học máy như: K láng giềng gần nhất (K nearest neighbor), Hồi quy logistic, Cây quyết định (Decision Tree), Rừng ngẫu nhiên (Random Forest), Support Vector Machine, mạng Nơ-ron nhân tạo và mô hình Softmax để thực hiện giải quyết các bài toán dự báo tài chính. 4. Phương pháp thực hiện nghiên cứu Luận văn sử dụng phương pháp định lượng được ứng dụng trong học máy, thống kê trên nền tảng lý thuyết về toán cao cấp điển hình là lý thuyết về ma trận, giải tích, lý thuyết về tối ưu hóa toán học, xử lý dữ liệu, kỹ thuật lập trình để thực hiện xây dựng các mô hình dự báo.
3 5. Tổng quan tình hình nghiên cứu 5.1. Tình hình nghiên cứu trong nước Ở Việt Nam những nghiên cứu về các kỹ thuật học máy trong dự báo tài chính chưa nhiều và cũng không dễ để tìm kiếm các bài báo khoa học về chủ đề này. Vì vậy học viên sẽ đưa ra những nghiên cứu gần nhất với nội dung nghiên cứu trong luận văn của mình: Nghiên cứu của Nguyễn Tiến Hưng, Lê Thị Huyền Trang (2018), ‘Mô hình chấm điểm tín dụng dựa trên sự kết hợp giữa mô hình Cây quyết định, Logistic Regression, K láng giềng gần nhất và Mạng thần kinh nhân tạo’. Các tác giả đã tìm ra khoảng trống nghiên cứu, đề cập và sử dụng các mô hình học máy như Cây quyết định (DT), Logistic Regression (LR), K láng giềng gần nhất (KNN), Mạng thần kinh nhân tạo (ANN) trong xây dựng mô hình chấm điểm tín dụng nhằm nâng cao tính chính xác của các mô hình này. Bài nghiên cứu hướng đến việc giới thiệu sơ qua các thuật toán học máy và sau đó đề xuất, đánh giá mô hình kết hợp DT – LR, DT – KNN, DT – ANN so với các mô hình đơn lẻ. Kết quả chỉ ra rằng mô hình DT – ANN có hiệu quả nhất trong khi hai mô hình còn lại là DT – LR, DT – KNN thì chưa có được hiệu quả tốt so với các mô hình đơn lẻ tuy nhiên các tác giả cũng thừa nhận rằng mô hình DT – ANN cần phải có cơ sở dữ liệu lịch sử khách hàng vay lớn, đa dạng và trong một khoảng thời gian dài để mô hình thực sự có hiệu quả phân loại tốt. Nghiên cứu của Nguyễn Khắc Hiếu, Nguyễn Thị Anh Vân (2014), ‘Dự báo lạm phát tại Việt Nam bằng mô hình mạng thần kinh nhân tạo’. Bài viết nhằm so sánh hiệu quả dự báo của mô hình mạng thần kinh nhân tạo và mô hình phân phối trễ tự hồi quy (ARDL) trong dự báo lạm phát theo tháng tại Việt Nam. Kết quả cho thấy mô hình ANN dự báo lạm phát tại Việt Nam tốt hơn mô hình ARDL Nghiên cứu của Lê Đạt Chí (2011), Luận án Tiến sỹ: ‘Ứng dụng mô hình mạng thần kinh nhân tạo trong dự báo kinh tế’. Luận án đã tìm hiểu cơ chế vận hành của mô hình mạng ANN qua đó khảo sát khả năng dự báo giá chứng khoán trên thị trường Việt Nam. Luận án đã chỉ ra cấu trúc mạng truyền thẳng với hàm truyền là phi tuyến sẽ cho ra kết quả dự báo tốt hơn các cấu trúc mạng ANN khác
4 điều là hiển nhiên tại thời điểm hiện tại. Luận án đã chứng minh tính hiệu quả của mô hình ANN hơn hẳn mô hình hồi quy truyền thống được áp dụng trên thị trường vào thời điểm năm 2011 5.2. Tình hình nghiên cứu trên thế giới Theo hiểu biết của học viên, tính tới nay hầu như ít có nghiên cứu về học máy dành riêng cho lĩnh vực tài chính. Phần lớn các nghiên cứu chuyên sâu về học máy sẽ tập trung vào giải quyết những vấn đề về mặt thuật toán, về việc tạo ra các mô hình mới, các khía cạnh mới còn chưa được khai thác trong khoa học máy tính, khoa học dữ liệu để giúp cho máy tính có thể học hỏi từ dữ liệu một cách tốt hơn, nhanh hơn và chính xác hơn. Việc sử dụng học máy trong lĩnh vực tài chính – ngân hàng thường được tiếp cận theo hướng ứng dụng thành quả của các kỹ thuật học máy nói chung hơn là việc nghiên cứu thuật toán mới dành riêng cho lĩnh vực này. Trong những năm gần đây, nhiều nghiên cứu đã áp dụng các mô hình mạng nơron nhân tạo trong dự báo chuỗi thời gian và đạt được một số kết quả nhất định. Kumar Abhishek, Anshul Khairwa, Tej Pratap, Surya Prkash (2012), sử dụng mạng nơ ron nhân tạo trong dự báo chứng khoán trên tập dữ liệu của tập đoàn Microsoft từ 1/1/2011 đến 31/12/2011 gồm 2 lớp đơn giản trong mạng (10 nơron lớp đầu vào, 1 nơron lớp đầu ra), độ chính xác dự báo lên đến 99%. Moshiri & Cameron (2000) khẳng định trong bài nghiên cứu của mình rằng trong dài hạn lạm phát tại Canada dự báo bằng mô hình ANN cho kết quả tốt hơn mô hình VAR, ARIMA. Duzgun (2010) sử dụng mô hình ANN để dự báo lạm phát tại Thổ Nhĩ Kỳ và khẳng định mô hình ANN dự báo lạm phát tốt hơn so với mô hình ARIMA. H. Abdou, J. Pointon, and A. Elmasry (2008) và E. Angelini, G.D. Tollo, and A.Roil (2008) trong hai bài viết: “Neural Nets Versus Conventional Techniques in Credit Scoring in Egyptian Banking” và “A Neural Network Approach for Credit Risk Evaluation” đã chỉ ra rằng mô hình được xây dựng từ kỹ thuật mạng thần kinh nhân tạo đã cho ra một tỷ lệ chính xác cao hơn so với các mô hình trước đó khi họ tiến hành nghiên cứu tại Ai Cập và Italia.
5 K. S. Shin, T. S. Lee, and H. Kim (2005) với bài báo “An application of support vector machines in bankruptcy prediction model” và T.V.Gestel, B.Baesens, J.A.Suykens, D.Van den Poel, D.-E.Baestaens, B.Willekens (2006) với bài “Bayesian kernel based classification for financial distress detection” đã chỉ ra rằng các kỹ thuật trong lĩnh vực học máy như Cây quyết định, SVM, thuật toán di truyền và mạng thần kinh (NN) là các kỹ thuật tối ưu trong đánh giá rủi ro tín dụng. Các bài báo cũng chỉ ra điểm tốt hơn của các mô hình học máy so với các mô hình thống kê truyền thống là việc học máy không cần tới sự giả định về việc dữ liệu phải tuân theo một phân phối xác định nào đó mà những kỹ thuật này sẽ tự động cập nhật tri thức và kinh nghiệm từ dữ liệu một cách khách quan hơn. Hai bài báo này cũng chỉ ra các mô hình học máy là tốt hơn các mô hình thống kê truyền thống trong việc đánh giá rủi ro tín dụng của doanh nghiệp Các tác giả B.Baesens, T.Van Gestel, S.Viaene, M.Stepanova, J. Suykens và J.Vanthienen (2003) trong bài báo “Benchmarking state-of-art classification algorithm for credit scoring” đã tiến hành nghiên cứu xây dựng mô hình chấm điểm tín dụng từ 17 kỹ thuật phân loại khác nhau dựa trên tám bộ dữ liệu thực tế và đã cho thấy SVM là mô hình tốt nhất trong các mô hình được kiểm nghiệm dựa trên tiêu chí về tỷ lệ chính xác phân loại được khách hàng có trả được nợ của mình hay không. 6. Dự kiến kết quả Các kỹ thuật điển hình được sử dụng trong học máy sẽ được giới thiệu và trình bày thông qua việc giải quyết hai bài toán dự báo là: dự báo khả năng trả nợ của khách hang và dự báo chuỗi thời gian trong tài chính. Với bài toán về dự báo khả năng trả nợ của khách hàng, luận văn sẽ trình bày cách xây dựng các mô hình đánh giá và so sánh kết quả của chúng để đi đến những kết luận cuối cùng. Với bài toán về dự báo chuỗi thời gian trong tài chính, luận văn sẽ sử dụng mô hình học máy mạng nơ-ron nhân tạo với những cách xây dựng mạng khác nhau để dự báo cho giá đóng cửa của Vn-Index.
6 7. Bố cục luận văn Ngoài danh mục từ viết tắt, danh mục bảng biểu, danh mục hình, lời mở đầu, phần kết luận thì luận văn được chia làm 3 chương như sau : Chương I: Giới thiệu về học máy và các mô hình học máy Chương II: Bài toán dự báo khả năng trả nợ của khách hàng Chương III: Bài toán dự báo chuỗi thời gian tài chính
7 CHƯƠNG 1: GIỚI THIỆU VỀ HỌC MÁY VÀ CÁC MÔ HÌNH HỌC MÁY 1.1. Khái niệm Theo Giáo sư Tom Mitchell của Đại học Carnegie Mellon: Học máy là một chương trình máy tính được nói là học hỏi từ kinh nghiệm E từ các tác vụ T và với độ đo hiệu suất P. Nếu hiệu suất của nó áp dụng trên tác vụ T và được đo lường bởi độ đo P tăng từ kinh nghiệm E. Các tác vụ trong học máy được mô tả thông qua việc một hệ thống xử lý một điểm dữ liệu (hay còn được hiểu là một bản ghi) đầu vào như thế nào. Kinh nghiệm trong học máy là bộ dữ liệu được dùng để xây dựng mô hình. Trong quá trình xây dựng mô hình, bộ dữ liệu thường được chia ra thành hai tập dữ liệu không giao nhau: là tập huấn luyện (training set) và tập kiểm tra (test set). Tập huấn luyện bao gồm các điểm dữ liệu được sử dụng trực tiếp trong việc xây dựng mô hình. Tập kiểm tra gồm các dữ liệu được dùng để đánh giá hiệu quả của mô hình. Tập kiểm tra không được sử dụng trong quá trình xây dựng mô hình. Về bản chất của học máy được công nhận một cách chung nhất, việc xây dựng mô hình học máy chính là việc đi tìm hàm số f ánh xạ một điểm dữ liệu x vào một phần tử y  Y : f (x) = y 1.2. Các bài toán cơ bản trong học máy 1.2.1. Bài toán phân loại: Phân loại là một trong những bài toán phổ biến và được nghiên cứu nhiều nhất trong học máy. Trong bài toán này, chương trình được yêu cầu xác định nhãn của một điểm dữ liệu trong số C nhãn khác nhau. Cặp (dữ liệu, nhãn) được ký hiệu là (x, y) với y nhận một trong C giá trị của tập đích Y . Ví dụ 1: Bài toán phân loại khả năng trả nợ của khách hàng (có hoặc không) Kinh nghiệm: dữ liệu đã biết về khả năng trả nợ của khách hàng hiện hữu Tác vụ: xác định được khách hàng có khả năng trả nợ hay không. Độ đo hiệu suất: số lượng dự đoán đúng trong tập kiểm tra
8 Ví dụ 2: Bài toán phân loại khách hàng theo điểm tín dụng (xếp hạng tín dụng khách hàng) Kinh nghiệm: dữ liệu đã biết về thứ hạng tín dụng của khách hàng hiện hữu Tác vụ: xác định được khách hàng thuộc thứ hạng nào hoặc khoảng điểm nào. Độ đo hiệu suất: số lượng dự đoán đúng trong tập kiểm tra 1.2.2. Bài toán hồi quy: Tương tự như bài toán Phân loại, nhưng khi tập đích Y gồm các giá trị là số thực thì bài toán được gọi là hồi quy. Trong bài toán này ta cần xây dựng một hàm số f: D → Ví dụ 1: Dự báo giá nhà dựa trên D trường thông tin về một căn nhà như diện tích, số phòng ngủ, vị trí, số tầng, hướng căn nhà, … Ví dụ 2: Dự báo chỉ số VN-Index 1.2.3. Bài toán phân cụm: Phân cụm là bài toán với mục đích chính là phân chia dữ liệu hiện có thành các cụm nhỏ hơn dựa trên sự liên quan giữa các dữ liệu trong mỗi cụm. Trong bài toán này, dữ liệu không được gán nhãn do đó sẽ không còn dữ liệu huấn luyện và dữ liệu kiểm tra như các bài toán trên. Mô hình sẽ phân dữ liệu thành các cụm khác nhau. Ví dụ: phân cụm khách hàng dựa trên hành vi tài chính hay mua hàng. Dựa trên dữ liệu đã có về hành vi tài chính hay tiêu dùng của khách hàng để có thể phân khách hàng vào các cụm có hành vi giống nhau. Từ đó có thể đưa ra sự gợi ý về các dịch vụ mà khách hàng có thể quan tâm. 1.2.4. Bài toán hoàn thiện dữ liệu: Trong thực tế, việc một bộ dữ liệu thiếu thông tin, dữ liệu thu thập không chính xác, hoặc có thể việc thu thập các đặc trưng cần thiết cho bộ dữ liệu không dễ dàng là một điều thường xuyên xảy ra. Và bài toán hoàn thiện dữ liệu là bài toán được đưa ra để khắc phục, sửa chữa những hạn chế như vậy. Hoàn thiện dữ liệu là bài
9 toán dự đoán các trường dữ liệu còn thiếu, dự đoán những giá trị thiếu của dữ liệu dựa trên mối tương quan giữa các điểm dữ liệu. 1.3. Phân nhóm các thuật toán học máy Dựa trên tính chất của tập dữ liệu, các thuật toán học máy có thể được phân thành 4 nhóm chính như sau: ✓Học có giám sát (Supervised Learning) ✓Học không có giám sát (Unsupervised Learning) ✓Học bán giám sát (Semi-Supervised Learning) ✓Học tăng cường (Reinforcement Learning) 1.3.1. Học có giám sát Một thuật toán học máy được gọi là học có giám sát nếu việc xây dựng mô hình dự đoán mối quan hệ giữa đầu vào và đầu ra được dựa trên các cặp đầu vào-đầu ra đã biết trong tập huấn luyện. Diễn giải: học có giám sát xảy ra khi việc dự đoán quan hệ giữa đầu vào x và dữ liệu đầu ra y được thực hiện dựa trên các cặp (x1; y1 ); (x 2 ; y2 ); ... ; (x N ; yN ) trong tập huấn luyện với mỗi x là một vector đặc trưng D chiều thể hiện D thuộc tích của một điểm dữ liệu x. Nhiệm vụ của thuật toán là phải thiết lập được một cách tính toán như thế nào đó để sao cho với mỗi vector đặc trưng D chiều dầu vào thì sai số giữa giá trị đầu ra của mô hình và giá trị thực tế tương ứng là nhỏ nhất. Hay nói cách khác việc huấn luyện là việc xây dựng một hàm số f sao cho với mọi i = 1,2,...,N thì f (x i ) gần với yi nhất có thể. Hơn nữa khi có một điểm dữ liệu x nằm ngoài tập huấn luyện thì đầu ra dự đoán của mô hình là f (x) cũng gần với giá trị đầu ra thực tế là y. Ví dụ như: dự báo khả năng trở nợ của một khách hàng mới với mô hình được xây dựng từ dữ liệu của các khách hàng đã biết về thông tin các thuộc tính và khả năng trả nợ của những khách hàng này
10 1.3.2. Học không giám sát Trong thuật toán này, dữ liệu huấn luyện chỉ bao gồm các dữ liệu đầu vào x mà không có đầu ra y tương ứng như trong học có giám sát. Trong bài toán học không giám sát tập dữ liệu huấn luyện được cho dưới dạng D = (x1 , x 2 ,..., x N  mỗi x là một vector đặc trưng D chiều. Nhiệm vụ của thuật toán là phải phân chia tập dữ liệu D thành các nhóm con sao cho các điểm dữ liệu có đặc tính giống nhau vào từng nhóm. Ví dụ như phân cụm các khách hàng có hành vi tài chính hoặc tiêu dùng giống nhau vào cùng một nhóm. 1.3.3. Học bán giám sát Thuật toán mà tập huấn luyện bao gồm các cặp đầu vào-đầu ra nhưng dữ liệu ngoài tập huấn luyện thì chỉ có dữ liệu đầu vào x mà không có dữ liệu đầu ra y thì được gọi là học bán giám sát. 1.3.4. Học tăng cường Học tăng cường đôi khi còn được gọi là học thưởng-phạt (reward-penalty learning), thuật toán học máy này có thể không yêu cầu dữ liệu huấn luyện mà mô hình sẽ học cách ra quyết định bằng cách giao tiếp trực tiếp với môi trường xung quanh. Các thuật toán thuộc nhóm này liên tục ra quyết định và nhận phản hồi từ môi trường để củng cố hành vi của mình. Phương pháp này cụ thể như sau: với vector đầu vào, thuật toán học máy sẽ tính vector đầu ra. Nếu kết quả được xem là “tốt” thì mạng sẽ được thưởng theo nghĩa tăng các trọng số kết nối lên; ngược lại mạng sẽ bị phạt, các trọng số kết nối không thích hợp sẽ được giảm xuống. Ví dụ như AlphaGo chơi cờ vây thắng con người trong bối cảnh cờ vây là một trò chơi có độ phức tạp cao với tổng số thế cờ xấp xỉ 10761 . Hay Google DeepMind không cần học dữ liệu từ các ván cờ của con người, hệ thống này tự chơi với chính mình để tìm ra các chiến thuật tối ưu và thắng tất cả con người và hệ thống khác bao gồm cả AlphaGo