Mô hình chấm điểm tín dụng dựa trên sự kết hợp giữa mô hình Cây quyết định, Logit, K láng giềng gần nhất và Mạng thần kinh nhân tạo

Chia sẻ: ViSatori ViSatori | Ngày: | Loại File: PDF | Số trang:10

Thêm vào BST

Báo xấu

75
lượt xem 2
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài nghiên cứu hướng đến việc xây dựng, đánh giá hiệu quả của các mô hình kết hợp DT_LR, DT_KNN, DT_ANN, đây là một xu hướng trong các nghiên cứu ứng dụng nhằm tăng cường độ chính xác cho các mô hình chấm điểm tín dụng.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Mô hình chấm điểm tín dụng dựa trên sự kết hợp giữa mô hình Cây quyết định, Logit, K láng giềng gần nhất và Mạng thần kinh nhân tạo

QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP Mô hình chấm điểm tín dụng dựa trên sự kết hợp giữa mô hình Cây quyết định, Logit, K láng giềng gần nhất và Mạng thần kinh nhân tạo Nguyễn Tiến Hưng Lê Thị Huyền Trang Ngày nhận: 03/06/2018 Ngày nhận bản sửa: 06/06/2018 Ngày duyệt đăng: 18/06/2018 Tìm kiếm một mô hình chấm điểm tín dụng hiệu quả đang là một vấn đề quan trọng khi tình trạng nợ xấu đã và đang ảnh hưởng nghiêm trọng tới hoạt động của các tổ chức tín dụng (TCTD) tại Việt Nam. Vài thập kỉ qua đã có nhiều nghiên cứu trong lĩnh vực thống kê tại các nước phát triển được tiến hành nhằm nâng cao tính chính xác của các mô hình chấm điểm tín dụng. Tuy nhiên, tại Việt Nam chưa có nhiều nghiên cứu về lĩnh vực này. Các nghiên cứu chủ yếu sử dụng các mô hình truyền thống như Logit (LR), phân tích phân biệt (DA). Một vài nghiên cứu có đề cập tới các mô hình học máy như cây quyết định (DT), K láng giềng gần nhất (KNN), mạng thần kinh nhân tạo (ANN). Bài nghiên cứu hướng đến việc xây dựng, đánh giá hiệu quả của các mô hình kết hợp DT_LR, DT_KNN, DT_ANN, đây là một xu hướng trong các nghiên cứu ứng dụng nhằm tăng cường độ chính xác cho các mô hình chấm điểm tín dụng. Từ khóa: Chấm điểm tín dụng, Cây quyết định, K láng giềng gần nhất, Mạng thần kinh nhân tạo 1. Giới thiệu số lượng tiền là bao nhiêu và họ cần phải xây dựng những chiến lược gì để gia tăng được lợi nhuận trong khi vẫn quản lý hiệu quả các rủi ro đi kèm. Việc xây dựng được một công cụ chấm điểm hiệu quả đem lại rất nhiều lợi ích cho các TCTD: ○○ Cải thiện dòng vốn ○○ Bảo đảm tài sản thế chấp là phù hợp ○○ Giảm các khoản lỗ tín dụng hấm điểm tín dụng được hiểu một cách rộng rãi là việc đánh giá rủi ro tiềm tàng của các đối tượng đi vay theo một thang điểm nhất định. Mô hình chấm điểm tín dụng là một công cụ giúp cho nhà quản trị biết được khi nào họ nên cho vay, với © Học viện Ngân hàng ISSN 1859 - 011X 46 Tạp chí Khoa học & Đào tạo Ngân hàng Số 193- Tháng 6. 2018 QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP ○○ Giảm chi phí phân tích tín dụng hợp hiệu quả đã được tìm ra, tuy nhiên càng ○○ Giảm thời gian đưa ra quyết định cấp tín kết hợp nhiều kỹ thuật thì việc giải thích sự tác dụng động giữa các dữ liệu đầu vào đến kết quả điểm ○○ Đa dạng hoá các sản phẩm tín dụng theo các được chấm càng khó khăn. Bài nghiên cứu sẽ phân cấp rủi ro khác nhau xây dựng, đánh giá hiệu quả của mô hình kết ○○ Hiểu được hành vi của khách hàng. hợp các mô hình DT_LR, DT_KNN, DT_ANN, Chấm điểm tín dụng đo lường định lượng rủi ro nhằm tăng cường độ chính xác cho các mô hình tiềm tàng của khách hàng bằng cách phân tích chấm điểm tín dụng. dữ liệu cá nhân để tìm ra khả năng vỡ nợ của họ với khoản vay trong tương lai. Hoạt động này 2. Các mô hình xếp hạng tín dụng cũng có thể được hiểu như là một kỹ thuật khai phá dữ liệu, tìm kiếm các quy luật của các dữ 2.1. Mô hình Logit liệu lịch sử và áp dụng đưa ra quyết định cấp tín dụng cho các khách hàng trong tương lai. Mô hình Logit là mô hình hồi quy với biến phụ Các kĩ thuật khai phá dữ liệu sử dụng trong lĩnh thuộc (Y) là biến nhị phân, chỉ nhận hai giá trị vực chấm điểm tín dụng được phát minh từ thập là 0 và 1; các biến độc lập có thể là biến nhị niên 50 thế kỉ trước (Lando, 2004). Đến nay, đã phân, biến rời rạc hoặc biến liên tục. Trong mô có rất nhiều các kĩ thuật được phát triển và ứng hình xếp hạng tín dụng, biến phụ thuộc Y nhận dụng, trong đó phổ biến nhất phải kể đến các giá trị 0 khi khách hàng không trả được nợ và kĩ thuật như: Phân tích phân biệt (DA), logit, 1 khi khách hàng trả được nợ (Lee và cộng sự, K láng giềng gần nhất, mạng thần kinh nhân 2000). Các biến độc lập đại diện cho các thông tạo (ANN) (Thomas và cộng sự, 2009; Abdou, tin định tính và định lượng của khách hàng như 2011). Sự bùng nổ của công nghệ thông tin 4.0 thu nhập, độ tuổi, giới tính, trình độ học vấn... cùng với sự phát triển của trí tuệ thông minh, Sau khi hồi quy mô hình Logit, thu được Ŷ = α thì việc tập trung vào khai phá dữ liệu sử dụng + β1X1 + β2X2 + ... + βkXk là giá trị ước lượng các kỹ thuật trí tuệ nhân tạo đang là xu hướng của Y. Khi đó, xác suất trả nợ của khách hàng trong lĩnh vực chấm điểm tín dụng. được tính bằng công thức sau: Bên cạnh sự phát triển của các kĩ thuật phân P = 1/ (1 + e−Y) loại đơn lẻ, đã có nhiều nghiên cứu tiến hành Giá trị P nhận được trong khoảng (0,1) được đánh giá hiệu quả của việc kết hợp các thuật so sánh với các ngưỡng mà ngân hàng đặt ra toán đơn lẻ nhằm tối đa hoá khả năng dự báo để xếp hạng khách hàng. Tuy nhiên, trong bài trong các mô hình chấm điểm tín dụng. Một số nghiên cứu này, để dễ dàng hơn trong việc so nghiên cứu của Kim và cộng sự (2001), Ahn và sánh hiệu quả của các mô hình, giá trị ngưỡng cộng sự (2009), Luo và cộng sự (2009) đề cập để phân loại khách hàng được chọn là 0,5. Điều đến việc sử dụng các kĩ thuật phân loại dữ liệu này có nghĩa rằng nếu giá trị P < 0,5, khách như Seft-Organzing Map (SOM), thuật toán hàng sẽ được dự báo vỡ nợ, và ngược lại nếu P di truyền (GA), thuật toán phân nhóm (K-MC), sau đó sử dụng Hình 1. Cây quyết định (Decision tree) dữ liệu mới này cho các mô hình chấm điểm như phân tích phân biệt (DA), Logit (LR), K-NN, ANN. Một số nghiên cứu khác của Lee và cộng sự (2005), Li và cộng sự (2010) kết hợp các kĩ thuật phân loại, trong đó kết quả dự báo của kĩ thuật này sẽ được sử dụng như là một nhân tố đầu vào cho kĩ thuật khác. Đã có rất nhiều cách kết Nguồn: Abdou. (2011) Tạp chí Khoa học & Đào tạo Ngân hàng Số 193- Tháng 6. 2018 47 QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP ≥ 0,5, khách hàng sẽ được dự báo trả được nợ. 2.2. Cây quyết định (Decision Tree- DT) Cây quyết định (DT) là một kiểu mô hình phân lớp các quan sát dựa vào dãy các luật. Mô hình này bao gồm một nút gốc (Root node), các nút bên trong (Internal node) và nút lá (Leaf node). Mỗi một nút trong DT tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến đó (đây chính là điều kiện hay luật để phân nhánh cho mỗi node). Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu; các giá trị cho trước của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó (Hình 1). Cây quyết định được xây dựng bằng cách phân tách thuộc tính các giá trị tại mỗi nút dựa trên một thuộc tính đầu vào. Quá trình phân lớp sử dụng các thuộc tính phân tách được thực hiện liên tục cho tới khi gặp các nút lá (giá trị mục tiêu). Tập hợp các luật đường đi từ nút gốc tới nút lá sẽ xác định cho chúng ta các luật quyết định mà hàm mục tiêu trả về giá trị là mức độ rủi ro tương ứng với khách hàng. DT là một phương pháp phân lớp rất hiệu quả và dễ hiểu. Tuy nhiên, hiệu quả phân lớp của cây quyết định phụ thuộc rất lớn vào dữ liệu huấn luyện (training data). Do vậy, việc sử dụng một bộ dữ liệu lớn về lịch sử vay nợ của khách hàng là rất cần thiết để xây dựng mô hình DT đáng tin cậy. 2.3. K Láng giềng gần nhất (K-Nearest Neighbor- KNN) KNN là phương pháp học máy để phân lớp các đối tượng dựa vào khoảng cách gần nhất giữa đối tượng cần xếp lớp và tất cả các đối tượng trong dữ liệu huấn luyện. Lớp của một điểm dữ liệu mới (hay phân loại khách hàng) được suy ra trực tiếp từ K điểm dữ liệu gần nhất trong dữ liệu huấn luyện. Lớp này có thể được quyết định theo lớp có số lượng điểm (trong K điểm gần nhất) nhiều nhất. Từ Hình 2 có thể thấy, nếu chọn số điểm gần nhất để phân loại là 3 thì xung quanh điểm cần phân lớp có 3 điểm trong đó 1 điểm thuộc lớp 1 và 2 điểm thuộc lớp 2. Với số điểm thuộc lớp 2 nhiều hơn, điểm cần phân lớp được đưa vào lớp số 1. Tương tự như vậy, nếu lựa chọn số điểm gần nhất k=5 thì có năm điểm xung quanh điểm cần phân lớp, trong đó có 3 điểm thuộc lớp số 1 và 2 điểm thuộc lớp 2. Nếu theo dữ liệu này thì điểm cần phân lớp sẽ thuộc lớp số 1. Trên thực tế dữ liệu cần phân loại có nhiều thuộc tính trong đó mỗi thuộc tính tương ứng với một chiều không gian, do vậy khi tính khoảng cách gần nhất cần tính khoảng cách vector trong không gian đa chiều với công thức khoảng cách Euclidean: Hình 2. K Láng giềng gần nhất (K-Nearest neighbor- KNN) Nguồn: Marinakis và cộng sự (2008) 48 Số 193- Tháng 6. 2018 Tạp chí Khoa học & Đào tạo Ngân hàng QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP Hình 3. Cơ chế hoạt động nơ ron nhân tạo (node) Nguồn: Lee và cộng sự (2000) Trong đó: x, y là 2 điểm cần xác định khoảng cách; n là số chiều không gian (số thuộc tính của biến mục tiêu). 2.4. Mô hình Mạng Nơ ron nhân tạo (ANN) Nơ ron nhân tạo Ý tưởng về mạng nơ ron nhân tạo (ANN) được hình thành từ những quan sát bộ não con người với chức năng cơ bản là tiếp nhận thông tin, xử lý thông tin và đưa ra kết quả. Cụ thể, bộ não được cấu thành từ các nơ ron liên kết với nhau. Mỗi nơ ron tiếp nhận thông tin đầu vào, xử lý và xuất thông tin đầu ra. Vì các nơ ron có sự liên kết phức tạp với nhau nên thông tin đầu ra của nơ ron này sẽ là thông tin đầu vào của nơ ron khác. Đến khi các thông tin được xử lý thỏa mãn theo các yêu cầu thì não bộ sẽ ngừng quá trình này lại và đưa ra kết quả cuối cùng. Sự tương tác phức tạp của hàng tỉ nơ ron được mô hình hóa thành các mô hình nơ ron nhân tạo (ANN). Về cơ bản, ANN cấu tạo bởi các nơ ron nhân tạo hay còn được gọi là các “node”. Hình 3 mô tả cơ chế hoạt động của một node. Các biến số sẽ được các node tiếp nhận theo các trọng số khác nhau thể hiện sự quan trọng của các nhân tố đầu vào này. Các biến số đầu vào sau khi nhân với các trọng số sẽ được lấy tổng để Tạp chí Khoa học & Đào tạo Ngân hàng trở thành 1 đầu vào duy nhất. Tại các node sẽ có các hàm kích hoạt để tính toán các kết quả đầu ra. Trong nghiên cứu này, để có sự tương đồng với mô hình logit, hàm kích hoạt sigmoid sẽ được dùng để xây dựng mô hình ANN. Hàm Hình 4. Mô hình mạng nơ ron đa lớp truyền thẳng (MLP) Nguồn: Lee và cộng sự (2005) Số 193- Tháng 6. 2018 49 QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP sigmoid được mô tả bởi công thức S(x) = 1/ (1- ), do đó, với mọi giá trị đầu vào x nhận giá trị từ -∞ đến +∞ thì kết quả đầu ra nằm trong khoảng (0,1) Mạng Nơ ron nhân tạo Một mạng nơ ron đầy đủ bao gồm 3 lớp với tên gọi lớp đầu vào (input layer), lớp ẩn (hidden layer) và lớp đầu ra (output layer). Trong đó một mạng nơ ron có thể có nhiều hơn một lớp ẩn, tuy nhiên, Lee và cộng sự (2005) chỉ ra rằng mạng nơ ron một lớp ẩn có thể giải quyết hầu hết các bộ số liệu kinh tế phức tạp. Mỗi lớp được cấu tạo từ một cho đến nhiều node. Trong lịch sử phát triển của mạng nơ ron nhân tạo, nhiều kiểu kiến trúc mạng quy định kết nối giữa các node được hình thành, tuy nhiên, bài nghiên cứu sử dụng mạng nơ ron truyền thẳng đa lớp (MLP), một trong những mạng được sử dụng phổ biến và đem lại hiệu quả cao nhất. Cấu trúc của mạng truyền thẳng đa lớp được mô tả trong Hình 4. Số lượng node trong một lớp và số lượng lớp phụ thuộc vào sự phức tạp của cơ sở dữ liệu đầu vào và yêu cầu xử lý. Các node của lớp trước sẽ được truyền thẳng và kết nối tới tất cả node của lớp sau. Thông tin lan truyền trong mạng sẽ được gắn với các trọng số khác nhau. Các trọng số được ước lượng bằng thuật toán lan truyền ngược (Back-Propagation alogorithm), lần đầu tiên được giới thiệu bởi Rumelhart và cộng sự (1986). Thuật toán này điều chỉnh liên tục các trọng số của các kết nối trong mạng để tối thiểu hóa sự khác biệt giữa giá trị đầu ra ước lượng và giá trị đầu ra thực tế, quá trình này còn được gọi là quá trình huấn luyện mạng. Cụ thể, trong giai đoạn đầu tiên khi hình thành mạng MLP, các trọng số được khởi tạo ngẫu nhiên. Các giá trị đầu ra của mạng được thiết lập thông qua giá trị bộ giữ liệu đầu vào. Sự chênh lệch giữa giá trị đầu ra ước lượng và đầu ra thực tế, hay còn gọi là sai số của mạng được xác định bởi công thức: Trong đó f(Xi) là ước lượng đầu ra thứ i, Yj là giá trị đầu ra thực tế và p là số trường hợp trong 50 Số 193- Tháng 6. 2018 bộ dữ liệu. Sau mỗi lần huấn luyện mạng sai số sẽ được lan truyền ngược lại và các trọng số sẽ được điều chỉnh để giảm sai số. Quá trình huấn luyện sẽ dừng lại khi khi mạng đạt được sai số nhỏ nhất, hay nói cách khác, mạng MLP đạt được cấu trúc hợp lý nhất để hiểu về bộ dữ liệu. 3. Đề xuất Mô hình kết hợp Phương pháp kết hợp này dùng để cải thiện hiệu suất và độ chính xác phân loại. Hệ thống phân loại được chia làm nhiều lớp dựa trên sự kết hợp của hai hay nhiều các mô hình phân loại để đạt được hiệu suất cao hơn. Mục tiêu của các mô hình kết hợp là sẽ điều chỉnh các tập dữ liệu huấn luyện, xây dựng các tập dữ liệu đào tạo mới trong đó có sử dụng được kết quả (thế mạnh dự báo) của các mô hình khác. Nhiều nghiên cứu chỉ ra rằng dữ liệu huấn luyện có thể không cung cấp đủ thông tin để lựa chọn một mô hình phân loại tốt nhất. Việc sử dụng các mô hình phân loại kết hợp có thể bù trừ giảm thiểu những hạn chế của các mô hình đơn lẻ. Một số nghiên cứu trước đây của Peter và cộng sự (2015), Radall (2017) đã tiến hành kết hợp mô hình DT và mô hình mạng ANN. Sự kết hợp này được đánh giá là hiệu quả khi hai mô hình được kết hợp có chung khả năng là xử lý khối lượng dữ liệu lớn. Mô hình DT với ưu điểm là khả năng giải thích biến rõ ràng giúp cải thiện khả năng giải thích của mô hình chấm điểm tín dụng khi kết hợp với các mô hình “hộp đen” như ANN. Mô hình đề xuất trong bài nghiên cứu là sự kết hợp giữa mô hình DT và các mô hình LR, KNN, ANN nhằm so sánh hiệu quả giữa mô hình kết hợp với các kĩ thuật hiện đại và truyền thống. Quy trình kết hợp được mô tả trong Hình 5, trong đó mô hình DT được thiết lập dựa trên bộ dữ liệu nghiên cứu. Kết quả từ mô hình DT bao gồm dự báo về phân loại khách hàng và xác xuất rủi ro được xem như 2 biến mới để kết hợp với bộ dữ liệu đã có làm nhân tố đầu vào cho các mô hình được kết hợp cùng. 4. Dữ liệu nghiên cứu Tạp chí Khoa học & Đào tạo Ngân hàng